Nguyễn Văn Chức ỨNG DỤNG KỸ THUẬT CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG TƯ VẤN CHỌN NGÀNH TUYỂN SINH ĐẠI HỌC APPLYING DECISION TREE TECHNIQUE IN DATA MINING TO BUILD A CONSULTANT SYS[.]
Nguyễn Văn Chức ỨNG DỤNG KỸ THUẬT CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG TƯ VẤN CHỌN NGÀNH TUYỂN SINH ĐẠI HỌC APPLYING DECISION TREE TECHNIQUE IN DATA MINING TO BUILD A CONSULTANT SYSTEM FOR CHOOSING MAJORS FOR UNIVERSITY ENTRANCE EXAMINATION Nguyễn Văn Chức Trường Đại học Kinh tế, Đại học Đà Nẵng; Email: chuc1803@gmail.com Tóm tắt – Hiện nay, vấn đề tư vấn chọn ngành tuyển sinh đại học nhận quan tâm lớn xã hội Mặc dù có nhiều websites tư vấn tuyển sinh, nhiên website phục vụ cho việc tra cứu thông tin Vấn đề cốt lõi tư vấn tuyển sinh giúp cho thí sinh chọn ngành học phù hợp với lực Bài báo tập trung nghiên cứu kỹ thuật định khai phá liệu để xây dựng mô hình dự đốn nhằm tư vấn cho thí sinh chọn ngành học phù hợp với lực Dựa vào tri thức phát từ mơ hình dự đốn, giao tiếp xây dựng web để người dùng dễ dàng sử dụng tri thức vào việc chọn ngành học cho Abstract – Nowadays, society is interested in choosing majors for university entrance examination Although there are a lot of websites of consultant university entrance examination, these websites are only used to search information However how to help the candidates to decide the major of study consistent with their capabilities is the key this problem This paper is focused on studying decision tree technique in data mining to build a predictive model which can be used to consult the candidates so they can choose major in line with their abilities Based on the knowledge that was discovered from the predictive model, an interface is also built on a web plaform to help users use this knowledge in choosing their majors of study Từ khóa – chọn ngành; định; khai phá liệu; mơ hình dự đoán; tuyển sinh đại học Key words – choosing majors; decision tree; data mining; predictive model; university entrance examination Đặt vấn đề việc phân tách Kỹ thuật máy học (machine learning) dùng định gọi học định thường gọi ngắn gọn định [1], [2] Hiện nay, vấn đề tư vấn tuyển sinh đại học nhu cầu cấp thiết xã hội, học sinh chuẩn bị dự thi đại học Hàng năm, trường đại học kết hợp với quan báo chí tổ chức xã hội tổ chức đợt tư vấn tuyển sinh nhằm giúp cho thí sinh có thơng tin cần thiết để chọn ngành học phì hợp cho Tuy nhiên, vấn đề cốt yếu việc chọn ngành học phù hợp người học cần phải hiểu rõ điểm mạnh thân yêu cầu để học tốt ngành học mà học Bài báo tập trung nghiên cứu kỹ thuật phân lớp liệu dựa vào định khai phá liệu để xây dựng mơ hình dự đốn ngành học nhằm tư vấn cho thí sinh chọn ngành học phù hợp với lực sở nghiên cứu liệu sinh viên theo học ngành kinh tế trường Đại học Kinh tế - Đại học Đà Nẵng Giới thiệu kỹ thuật phân lớp liệu dựa vào định Trong lĩnh vực khai phá liệu, định (Decision Tree – DT) mơ hình dự đốn (predictive model) thuộc lớp toán phân lớp (classification problem) dùng để xác định lớp đối tượng cần dự đoán Cây định dựa vào dãy luật để dự đoán lớp đối tượng Mỗi nút (internal node) DT tương ứng với biến, đường nối với nút thể giá trị cụ thể cho biến Mỗi nút (leaf) đại diện cho giá trị dự đoán biến phân loại Cây định học để dự đoán giá trị biến phân loại cách dựa vào tập liệu huấn luyện (training data) để chọn nút gốc (root node) để phân tách cách tính độ lợi thơng tin (Information Gain - IG), trình lặp lại cách đệ qui tiếp tục thực Dữ liệu huấn luyện cho định tập ghi có dạng: (x, y) = (x1 , x2 , , xk , y) Trong đó: y gọi biến phân loại (còn gọi biến mục tiêu hay biến phụ thuộc) x1 , x2 , , xk biến độc lập Cây định chia thành hai loại: Cây hồi quy (Regression Tree) dùng để dự đốn giá trị biến phân loại có kiểu liệu định lượng (quantitative) dự đoán doanh thu, lợi nhuận, giá thành sản phẩm Thuật toán phổ biến dùng để xây dựng hồi qui CART (Classification and Regression Trees) Cây phân lớp (Classification Tree) dùng để dự đoán giá trị biến phân loại có kiểu định danh (nominal) dự đốn khả mua hàng khách hàng (có mua khơng mua), khả bị bệnh bệnh nhân (có bệnh khơng có bệnh), kết học tập sinh viên (xuất sắc, giỏi, khá, trung bình, yếu) Thuật toán phổ biến dùng để xây dựng phân lớp ID3, C4.5 Trong thuật tốn C4.5 cải tiến từ thuật toán ID3 Thuật toán ID3 xây dựng định Thuật toán ID3 (Iterative Dichotomiser 3) Thuật toán ID3 Ross Quinlan đề xuất, tư tưởng thuật toán ID3 việc xây dựng định thực đệ qui từ xuống sử dụng độ lợi thông tin (IG – Information Gain) làm độ đo để chọn node gốc để phân tách IG tham số tính tốn dựa Entropy lý thuyết thông tin Node chọn làm node gốc node có IG lớn (hoặc node có Entropy nhỏ nhất) TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II ngành học Từ kết mơ hình dự đoán, giao tiếp web xây dựng để thí sinh chọn ngành I∈C học phù hợp với lực Trong đó: Dữ liệu đầu vào: Gồm đặc trưng liên quan đến việc S: tập liệu huấn luyện chọn ngành học thí sinh khả tốn học, vật lý, p(I): tỷ số mẫu thuộc lớp I tổng số hóa học, văn học, ngoại ngữ, khiếu, khả thuyết mẫu huấn luyện S trình C: tập giá trị thuộc tính phân loại Đầu ra: Ngành học phù hợp với khả thí sinh Cơng thức tính giá trị IG cho thuộc tính A: X IG(S, A) = Entropy(S) − ((|Sv |/|S|) ∗ Entropy(Sv )) 3.2 Qui trình triển khai hệ thống tư vấn chọn ngành [2] Công thức tính Entropy IG: P Entropy(S) = −p(I)log2 p(I) v∈A Trong đó: - v: giá trị thuộc tính A - Sv : tập tập S với mẫu thuộc tính A có giá trị v - |Sv |: số mẫu thuộc Sv - |S|: số mẫu tập S Các bước thuật tốn ID3 - Tính Entropy tất thuộc tính data set S - Chia tập S thành tập (subsets) sử dụng thuộc tính có Entropy nhỏ (tương đương với IG lớn nhất) - Tạo định với node gốc nút có IG lớn - Thực đệ qui subsets sử dụng thuộc tính cịn lại ID3 Algorithm ID3(R, C, S): Input: R: tập thuộc tính, C: thuộc tính phân loại S: tập liệu huấn luyện Output: Returns a Decision Tree Begin If S rỗng then trả node với giá trị lỗi Failure; If S gồm records với giá trị thuộc tính phân loại giống then trả node với giá trị đó; If R rỗng then trả node với giá trị có tần suất xuất nhiều giá trị thuộc tính phân loại S; Let D thuộc tính có giá trị IG(S,D) lớn R; Let {dj |j = 1, 2, , m} giá trị thuộc tính D; Let {Sj |j = 1, 2, , m} tập S gồm records tương ứng với giá trị dj thuộc tính D; Return với node gốc (root) có nhãn D cạnh có nhãn d1 , d2 , , dm tương ứng với giá trị thuộc tính D; ID3(R-D, C, S1 ),ID3(R-D, C, S2 ), , ID3(R-D, C, Sm ); End ID3; Ứng dụng định xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học 3.1 Mơ tả ứng dụng Mục đích ứng dụng: Nghiên cứu kỹ thuật phân lớp liệu dựa vào định để xây dựng mơ hình dự đốn Qui trình triển khai hệ thống tư vấn chọn ngành tuyển sinh tiến hành theo bước Hình Hình 1: Qui trình triển khai hệ thống tư vấn chọn ngành Bước 1: Khảo sát thu thập liệu: Dữ liệu dùng để xây dựng định chọn ngành tuyển sinh thu thập thông qua bảng hỏi để thu thập liệu yếu tố ảnh hưởng đến việc chọn ngành thí sinh khả học môn tự nhiên, môn xã hội, khả ngoại ngữ, khiếu thí sinh số yếu tố khác khả thuyết trình, kỹ lãnh đạo nhóm, hồn cảnh kinh tế Dữ liệu điều tra ban đầu để xây dựng mơ hình dự đốn ngành học gồm nhiều thuộc tính, sau q trình tiền xử lý liệu (sử dụng phương pháp trích chọn thuộc tính) để đánh giá mức độ ảnh hưởng thuộc tính đến việc chọn ngành, mơ hình xác định thuộc tính có ảnh hưởng đến việc chọn ngành Bảng Dữ liệu thu thập gần 1500 mẫu từ sinh viên năm trường Đại học Kinh tế - Đại học Đà Nẵng theo cấu trúc sau Bảng Bước Xây dựng mô hình định dự đốn ngành học Mơ hình định dự đoán ngành xây dựng công cụ khai phá liệu Business Intelligence Development Studio (BIDS) Microsoft BIDS công cụ mạnh cho phép triển khai mơ hình khai phá liệu, sử dụng rộng rãi khả kết nối dễ dàng với nhiều nguồn liệu, giao diện dễ sử dụng khả biểu diễn tri thức phát trực quan dễ hiểu, dễ sử dụng BIDS tích hợp vào SQL SERVER 2005 trở sau phiên Enterprise Development [3] Sau thực thao tác tiền xử lý liệu để phù hợp với mô hình khai phá liệu, sử dụng Microsoft Decision Tree BIDS để xây dựng định chọn ngành Kết định dự đốn ngành Hình Bước Phát tri thức từ mơ hình định Từ định xây dựng, tri thức phát cho dạng luật: IF L1 AND L2 AND AND Ln THEN Ngành =”M” Trong đó: Nguyễn Văn Chức Bảng 1: Cấu trúc training data tư vấn chọn ngành STT 10 11 Thuộc tính GioiTinh TinhTp KhoiThi NangLucToan NangLucLy NangLucToan NangLucVan NangLucNgoaiNgu NangLucTin ThuyetTrinh KienNhan Kiểu DL Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal Nominal 12 CanThan Nominal 13 SangTao Nominal 14 15 LanhDaoNhom Nominal ChapNhanThachThuc Nominal 16 17 NangKhieu NguoiAnhHuong 18 19 DieuKienKTGiaDinh Nominal NganhHoc Nominal Nominal Nominal Giá trị thuộc tính Nam, Nữ Các tỉnh/Thành phố A,A1,D1,D2, D3, D4 Xuất sắc, Giỏi, Khá, Trung Bình, Yếu Xuất sắc, Giỏi, Khá,Trung Bình, Yếu Xuất sắc, Giỏi, Khá, Trung Bình, Yếu Xuất sắc, Giỏi, Khá, Trung Bình, Yếu Xuất sắc, Giỏi, Khá, Trung Bình,Yếu Xuất sắc, Giỏi, Khá, Trung Bình, Yếu Rất tốt, Tốt, Bình thường, Không tốt, Rất không tốt Rất kiên nhẫn, Kiên nhẫn, Bình thường, Ít kiên nhẫn, Khơng kiên nhẫn Rất cẩn thận, Cẩn thận, Bình thường, Ít cẩn thận, Khơng cẩn thận Rất sáng tạo, Sáng tạo, Bình thường, Ít sáng tạo, Khơng sáng tạo Rất tốt, Tốt, Bình thường, Khơng tốt, Rất khơng tốt Rất tốt, Tốt, Bình thường, Khơng tốt, Rất khơng tốt Giải thích Giới tính Tỉnh/Thành phố Khối thi Năng lực Toán học Năng lực Vật lý Năng lực Hóa học Năng lực Văn học Năng lực Ngoại ngữ Năng lực Tin học Khả Thuyết trình Tính Kiên nhẫn Tính Cẩn thận Khả Sáng tạo Khả Lãnh đạo nhóm Khả chấp nhận thách thức công việc Âm nhạc, Điện ảnh, Hội họa, Thể thao, Khơng có Năng khiếu Ba mẹ, Anh chị em, Bạn bè, Bản thân, Thầy cô giáo, Người ảnh hưởng việc chọn Khác ngành Rất cao, Cao, Trung bình, Thấp, Rất thấp Điều kiện Kinh tế Gia đình Các ngành học Ngành học (thuộc tính phân loại) - L1 , L2 , , Ln : biểu thức logic; - M: ngành học cụ thể mà vế trái thuộc tính vế phải giá trị có thuộc tính Chẳng hạn, hai luật trích từ định chọn ngành xây dựng sau: Luật 1: IF Ly = “Giỏi” and NangKhieu = “Thể thao” and NgoaiNgu = “Trung Bình” and GioiTinh = “Nam” THEN Nganh =”Kiểm toán” Luật 2: IF Ly = “Giỏi” and NangKhieu = “thể thao” and NgoaiNgu = “Trung Bình” and GioiTinh = “Nữ” THEN Nganh =”Kế tốn” Ngồi ra, mạng phụ thuộc mơ hình cho biết độ mạnh (weight) nhân tố ảnh hưởng đến việc chọn ngành dụng tri thức vào việc chọn ngành học cho cách cung cấp thông tin liên quan đến việc chọn ngành sử dụng mơ hình Hệ thống đề xuất cho người dùng lựa chọn ngành học phù hợp với thơng tin mà người dùng cung cấp Hình 3: Giao tiếp người dùng với hệ thống tư vấn chọn ngành Hình 4: Kết dự đốn ngành từ mơ hình Hình 2: Mạng phụ thuộc mơ hình Dựa vào tri thức phát từ mô hình định dự đốn ngành học xây dựng, hệ thống giao tiếp xây dựng web cho phép người dùng sử Kết luận hướng phát triển Khai phá liệu ngày sử dụng rộng rãi trình phát tri thức khối lượng liệu lớn nhằm hỗ trợ định Cây định kỹ thuật sử TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II dụng phổ biến để giải toán phân lớp liệu tính đơn giản, hiệu khả biểu diễn tri thức phát trực quan, dễ hiểu, dễ sử dụng Bài báo tìm hiểu lý thuyết định, từ nghiên cứu ứng dụng kỹ thuật vào xây dựng mơ hình dự đốn ngành học Trên sở tri thức phát từ mơ hình định xây dựng, giao tiếp xây dựng web giúp cho người dùng dễ dàng sử dụng tri thức vào việc chọn ngành phù hợp với lực cách cung cấp thông tin liên quan đến việc dự đốn ngành học mà mơ hình sử dụng Hiện nay, có nhiều hệ thống (website) tư vấn tuyển sinh trực tuyến Tuy nhiên, hệ thống dừng lại việc cho phép tra cứu thông tin liên quan đến tuyển sinh số hồ sơ, tỷ lệ chọi, điểm chuẩn trường tuyển sinh chưa giải vấn đề quan trọng cơng tác tư vấn tuyển sinh tư vấn chọn ngành học Kết nghiên cứu báo tích hợp vào hệ thống tư vấn tuyển sinh có để nâng cao hiệu công tác tuyển sinh trực tuyến Hạn chế mơ hình liệu thu thập chưa thật đầy đủ, liệu huấn luyện mơ hình thu thập từ liệu sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng Vì vậy, mơ hình dự đốn tư vấn cho ngành thuộc khối ngành kinh tế Trong thời gian tới, tiếp tục thu thập thêm liệu để hoàn thiện mơ hình, đồng thời nghiên cứu phát triển mơ hình để dự đốn tư vấn chọn ngành cho khối ngành khác kỹ thuật, sư phạm, xã hội Hình 5: Một nhánh định chọn ngành Tài liệu tham khảo [1] David Squire, CSE5230 Tutorial: The ID3 Decision Tree Algorithm, Faculty of Information Technology, Monash University, 2004 [2] Rokach Lior; Maimon O., Data mining with decision trees: theory and applications, World Scientific Pub Co Inc ISBN 978-9812771711, 2008 [3] Jamie MacLennan, ZhaoHui Tang, Bogdan Crivat, Data Mining with Microsoft SQL Server 2008, ISBN: 978-0-470-27774-4, 2008 [4] http://www.sqlserverdatamining.com [5] http://msdn.microsoft.com/en-us/library/ms173767.aspx (Introducing Business Intelligence Development Studio) [6] http://bis.net.vn/forums/t/458.aspx (Giới thiệu công cụ xây dựng mơ hình khai phá liệu Business Intelligence Development Studio Microsoft) (BBT nhận bài: 12/12/2013, phản biện xong: 25/12/2013) ... Sm ); End ID3; Ứng dụng định xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học 3.1 Mơ tả ứng dụng Mục đích ứng dụng: Nghiên cứu kỹ thuật phân lớp liệu dựa vào định để xây dựng mơ hình dự... triển khai hệ thống tư vấn chọn ngành tuyển sinh tiến hành theo bước Hình Hình 1: Qui trình triển khai hệ thống tư vấn chọn ngành Bước 1: Khảo sát thu thập liệu: Dữ liệu dùng để xây dựng định chọn. .. trường tuyển sinh chưa giải vấn đề quan trọng công tác tư vấn tuyển sinh tư vấn chọn ngành học Kết nghiên cứu báo tích hợp vào hệ thống tư vấn tuyển sinh có để nâng cao hiệu công tác tuyển sinh