Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,34 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI VŨ NGỌC TÂN CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG VÀO CÔNG TÁC CÁN BỘ TRƯỜNG ĐẠI HỌC LUẬT HÀ NỘI VŨ NGỌC TÂN 2015-2017 HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ NGHIÊN CỨU PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG VÀO CÔNG TÁC CÁN BỘ TRƯỜNG ĐẠI HỌC LUẬT HÀ NỘI VŨ NGỌC TÂN CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN QUANG HOAN HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết luận văn trung thực chưa công bố công trình khác Hà Nội, ngày 30 tháng 10 năm 2017 HỌC VIÊN Vũ Ngọc Tân i LỜI CẢM ƠN Em xin chân thành cảm ơn Khoa Công nghệ Thông tin Khoa Đào tạo Sau Đại học – Viện Đại học Mở Hà Nội tạo điều kiện thuận lợi giúp em hoàn thành luận văn Em xin chân thành cảm ơn hướng dẫn, bảo tận tình PGS.TS Nguyễn Quang Hoan suốt thời gian thực đề tài, cảm ơn thầy dành thời gian giúp đỡ em để hồn thành đề tài Xin cảm ơn anh chị, bạn bè học viên lớp cao học Công nghệ Thông tin khóa ủng hộ, giúp đỡ động viên thời gian học tập nghiên cứu Cuối xin cảm ơn người thân yêu nhất, người động viên giúp đỡ mặt hoàn cảnh Qua thời gian em hoàn thành luận văn tốt nghiệp với đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng vào công tác cán Trường Đại học Luật Hà Nội” Tuy cố gắng chắn không tránh khỏi thiếu sót Kính mong nhận thơng cảm đóng góp ý kiến q Thầy Cơ bạn Hà Nội, ngày 30 tháng 10 năm 2017 ii MỤC LỤC DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii CHƯƠNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU 1.1 Khái quát phân lớp liệu 1.1.1 Phân lớp liệu 1.1.2 Phân lớp liệu vấn đề liên quan 1.1.3 Phương pháp đánh giá độ xác mơ hình phân lớp 1.2 Cây định ứng dụng phân lớp liệu 1.2.1 Định nghĩa 1.2.2 Các vấn đề khai phá liệu sử dụng định 1.2.3 Đánh giá thuật toán định 1.2.4 Xây dựng định 11 1.2.5 Tình hình nghiên cứu thuật tốn 12 1.3 Kết luận chương 13 CHƯƠNG THUẬT TOÁN C4.5 14 2.1 Giới thiệu chung 14 2.1.1 Thuật toán ID3 14 2.1.2 Thuật toán C4.5 15 2.1.3 Thuật toán See5/C5.0 17 2.1.4 C4.5 dùng Gain-entropy làm độ đo lựa chọn thuộc tính tốt nhất18 2.1.5 Xử lý giá trị thiếu C4.5 20 2.1.6 Chuyển đổi từ định sang luật 21 2.2 Hệ thống tiêu chí đánh giá hiệu thuật tốn 22 2.3 Ví dụ minh họa cho thuật toán C4.5 24 2.4 Kết luận chương 31 CHƯƠNG PHÂN LỚP DỮ LIỆU CÁN BỘ 32 3.1 Giới thiệu toán 32 3.2 Thu thập tiền xử lý liệu 32 3.2.1 Thu thập liệu 32 iii 3.3 Phân loại cán sử dụng thuật toán C4.5 36 3.3.1 Triển khai thuật toán C4.5 36 3.3.2 Xây dựng định 37 3.4 Các công cụ sử dụng khai phá liệu 57 3.4.1 Giới thiệu chung 57 3.4.2 Phần mềm Weka 59 3.5 Kết thực nghiệm 59 3.5.1 Cài đặt chạy Weka 59 3.5.2 Đánh giá độ đo hiệu 64 3.6 Một số đề xuất cải tiến mơ hình phân lớp C4.5 65 3.7 Kết luận chương 65 KẾT LUẬN CHUNG 66 TÀI LIỆU THAM KHẢO 67 iv DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt AI Artificial Intelligence Trí tuệ nhân tạo Info Information Thông tin IG Information Gain Độ lợi thông tin K_NN K_Nearest Neighbor (Classifier) Bộ phân lớp K-láng giềng gần G Gain Độ lợi GR Gain Ratio Tỉ số độ lợi SplitInfo Split Information Thông tin phân phối liệu SQL Ngơn ngữ truy vấn mang tính cấu trúc Structured Query Language v DANH MỤC CÁC BẢNG Bảng 2.0: Ma trận confusion 22 Bảng 2.1: Bảng sở liệu dự đoán đỗ đại học 24 Bảng 3.1: Bảng thuộc tính tập liệu 33 Bảng 3.2: Dữ liệu mẫu huấn luyện cán (S) 35 Bảng 3.3: Bảng so sánh kết GainRatio tập thuộc tính S 41 Bảng 3.4: Bảng mẫu huấn luyện S1 (DV = Co) 42 Bảng 3.5: Bảng so sánh kết GainRatio tập thuộc tính S1 45 Bảng 3.6: Bảng mẫu huấn luyện S2 (CDNN = GV) 47 Bảng 3.7: Bảng so sánh kết GainRatio tập thuộc tính S2 50 Bảng 3.8: Bảng mẫu huấn luyện S3 (TDCM = Ths) 51 Bảng 3.9: Bảng so sánh kết GainRatio tập thuộc tính S3 52 Bảng 3.10: Bảng mẫu huấn luyện S3.1 (TDCM = TS) 53 Bảng 3.11: Bảng so sánh kết Gain Ratio tập thuộc tính S3.1 55 Bảng 3.12: Bảng mẫu huấn luyện S4 (GT = Nu) 56 vi DANH MỤC CÁC HÌNH Hình 1.1 Q trình phân lớp liệu – Bước xây dựng mơ hình Hình 1.2: Quá trình phân lớp liệu – Phân lớp liệu Hình 1.3: Ước lượng độ xác mơ hình phân lớp với phương pháp Holdout Hình 1.4: Ví dụ định Hình 2.1: Mã giả thuật toán C4.5 16 Hình 2.2: Cây định hồn chỉnh 30 Hình 3.1 : Cây định cấp 41 Hình 3.2: Cây định cấp 46 Hình 3.3: Cây định cấp 3.1 50 Hình 3.4: Cây định cấp 53 Hình 3.5: Cây định cấp 3.2 55 Hình 3.6: Phần mềm Weka 60 Hình 3.7 : File liệu định dạng chuẩn csv 60 Hình 3.8: Giao diện Weka 61 Hình 3.9: Giao diện Preprocess 61 Hình 3.10: Giao diện chọn file liệu 62 Hình 3.11: Giao diện Classify 62 Hình 3.12: Giao diện chọn thuật toán 63 Hình 3.13: Kết Classifer Output 63 Hình 3.14: Cây định sử dụng thuật toán C4.5 Weka 64 vii LỜI MỞ ĐẦU Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành công nghệ thông tin, lượng thông tin không ngừng tăng lên, ước tính sau khoảng hai năm lượng thông tin giới lại tăng gấp đôi Chính vậy, chun gia cho rằng, sống xã hội “rất giàu thơng tin nghèo tri thức” Trước tình hình đó, giải pháp hiệu giúp phân tích khối lượng lớn liệu cơng nghệ phân lớp dự đoán liệu đời để đáp ứng mong muốn Cơng nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục v.v Nhiều phương pháp phân lớp đề xuất như: Phân lớp định (Decision Tree Classification: ID3, C4.5, C5.0), phân lớp dựa theo Bayes (Bayesian Classifier), phân lớp K_NN (K_Nearest Neighbor Classifier), phân lớp dựa vào mạng nơ ron v.v… Trong năm gần đây, công tác quy hoạch cán Trường Đại học Luật Hà Nội nhiều hạn chế bất cập, chưa đáp ứng nhu cầu thực tế công tác quy hoạch cán lãnh đạo cấp khoa, cấp trường Nhiều cán lãnh đạo hết tuổi phải kéo dài thời gian cơng tác chưa có đủ người người kế cận thay thế; từ đẫn đến “quy hoạch động” theo yêu cầu không đảm bảo Từ vấn đề đó, em tìm hiểu, nghiên cứu áp dụng thuật toán định để phân lớp liệu với hy vọng tìm quy luật, đặc trưng tác động đến công tác quy hoạch cán để có cách tư vấn, đề xuất giới thiệu nguồn quy hoạch cán cho nhà trường viii DT 40Yes 45No 45+ No Hình 3.4: Cây định cấp Đối với nhánh DT = 40-, có Entropy = nên trình học cho nhánh dừng lại với nút có nhãn “Yes” Đối với nhánh DT = 45-, có Entropy = nên q trình học cho nhánh dừng lại với nút có nhãn “No” Đối với nhánh DT = 45+, có Entropy = nên trình học cho nhánh dừng lại với nút có nhãn “No” Như vậy, từ nút ta viết luật định tương ứng Luật 5: IF DV=Co AND IF CDNN=GV AND IF TDCM=Ths AND IF DT=40- THEN QD=Yes Luật 6: IF DV = Co AND IF CDNN = GV AND IF TDCM = Ths AND IF DT = 45THEN QD = No Luật 7: IF DV = Co AND IF CDNN = GV AND IF TDCM = Ths AND IF DT = 45+ THEN QD = No Tiếp tuc xét nhánh S3.1 (TDCM = TS) ta có bảng liệu sau: Bảng 3.10: Bảng mẫu huấn luyện S3.1 (TDCM = TS) TT Họ đệm Ma Văn Bùi Văn Triệu Văn Trương Thị Đỗ Văn Phạm Thu Đỗ Văn Thái Văn Phan Văn Tên Tùng Tú Thái Thắm Mạnh Hiền Điều Mạnh Hiếu TDCM TS TS TS TS TS TS TS TS TS 53 DT 45+ 4045+ 45+ 4545454540- GT Nam Nam Nam Nu Nam Nu Nam Nam Nam QD Yes Yes Yes No Yes Yes Yes Yes Yes Gọi S3.1 tập thuộc tính đích Có tất mẫu, đó: + Yes xuất tập thuộc tính đích lần, + No xuất tập thuộc tính đích lần Áp dụng cơng thức tính Entropy, ta có: Độ đo hỗn loạn trước phân hoạch là: ( ( [8 ) = + ,1 −] = − × ) − × 9 = 0,50 Đối với thuộc tính Độ tuổi: Ta tính Entropy tập S3.1 chia giá trị thuộc tính “DT” sau: Values (DT) = {40-; 45-; 45+} ( ( ( = [2 + ,0 −] = − × ) = [4 + ,0 −] = − × = [2 + ,1 −] = − × ) ) − × 2 − × 4 − × 3 =0 =0 = 0,91 Entropy S2.1 thuộc tính “Đảng viên” sau phân hoạch là: ( , )= × + × + × 0,91 = 0,30 9 Độ lợi thông tin tương ứng là: Gain ( ,DT)=Entropy ( ) –Entropy ( ,DT)= 0,50 – 0,30 = 0,2 Tỷ suất lợi ích Gain Ratio: ( )=− × , ( , )= 4 3 − × − × = 1,53 9 9 ( , ) 0,2 = = 0,13 ( , ) 1,53 Đối với thuộc tính Giới tính: Ta tính Entropy tập S2.1 chia giá trị thuộc tính “GT” sau: Values (GT) = {Nu; Nam} ( ( ) = [1 + ,1 −] = − × ) = [7 + ,0 −] = − × 54 1 − × 2 − × 7 =1 =0 Entropy S3.1 thuộc tính “Giới tính” sau phân hoạch là: ( )= , × + × = 0,22 9 Độ lợi thông tin tương ứng là: Gain ( , GT)= Entropy( )– Entropy( ,GT)= 0,50 – 0,22 = 0,28 Tỷ suất lợi ích Gain Ratio: ( , )=− × ( , )= 7 − × = 0,76 9 ( , ) 0,28 = = 0,36 ( , ) 0,76 Từ kết tính tốn trên, ta đưa bảng so sánh GainRatio thuộc tính DT GT bảng 3.11: Bảng 3.11: Bảng so sánh kết Gain Ratio tập thuộc tính S3.1 TT Thuộc tính DT GT Gain 0,2 0,28 SplitInfor 1,53 0,76 GainRatio 0,16 0,36 Dựa vào bảng ta nhận thấy GainRatio (S3.1,GT) = 0,36 đạt giá trị lớn nhất, thuộc tính GT có độ phân hoạch lớn Do đó, nhánh ta chọn thuộc tính làm nút gốc để phân tách GT Nam Nu Yes Hình 3.5: Cây định cấp 3.2 Đối với nhánh GT = Nam, có Entropy = nên trình học cho nhánh dừng lại với nút có nhãn “Yes” Như vậy, từ nút ta viết luật định tương ứng 55 Luật 8: IF DV = Co AND IF CDNN = GV AND IF TDCM = TS AND IF GT = Nam THEN QD = Yes Tiếp tục xét nhánh S4 (GT = Nu) ta có bảng liệu 3.12: Bảng 3.12:Bảng mẫu huấn luyện S4 (GT = Nu) TT Họ đệm Trương Thị Phạm Thu Tên Thắm Hiền DT GT 45+ 45- Nu Nu QD No Yes Gọi S4 tập thuộc tính đích Có tất mẫu, đó: + Yes xuất tập thuộc tính đích lần, + No xuất tập thuộc tính đích lần Áp dụng cơng thức tính Entropy, ta có: Độ đo hỗn loạn trước phân hoạch là: ( ( )) = [1 + ,1 −] = − × 1 − × 2 =1 Đối với thuộc tính Độ tuổi: Ta tính Entropy tập chia giá trị thuộc tính “DT” sau: Values (DT) = {45-; 45+} ( ) ( ) = [1 + ,0 −] = − × = [0 + ,1 −] = − × 1 − × 1 − × 1 =0 1 =0 Entropy S3 thuộc tính “Độ tuổi” sau phân hoạch là: ( , )= 1 ×0+ ×0 =0 2 Độ lợi thông tin tương ứng là: Gain ( ,DT)=Entropy ( ) –Entropy ( ,DT)= – = Tỷ suất lợi ích Gain Ratio: ( , (4, )=− × )= 56 1 − × =1 2 ( , ) = =1 ( , ) Đối với nhánh DT = 45-, có Entropy = nên trình học cho nhánh dừng lại với nút có nhãn “Yes” Đối với nhánh DT = 45+, có Entropy = nên trình học cho nhánh dừng lại với nút có nhãn “No” Như vậy, từ nút ta viết luật định tương ứng Luật 9: IF DV = Co AND IF CDNN = GV AND IF TDCM = TS AND IF GT = Nu AND IF DT = 45+ THEN QD= No Luật 10: IF DV = Co AND IF CDNN = GV AND IF TDCM = TS AND IF GT = Nu AND IF DT = 45- THEN QD= Yes Vậy gán nhãn nên định dừng lại nhánh Từ việc phân tích mẫu liệu ban đầu, luận văn xây dựng định việc ứng dụng thuật toán C4.5 Cây định có khả phân loại đắn mẫu tập liệu đưa Từ thấy công cụ biểu diễn trực quan, phù hợp việc phân tích liệu mà toán luận văn đặt Tập luật rút từ định gồm 10 luật đơn giản, dễ hiểu dễ cài đặt Luận văn vận dụng tập luật để xây dựng trợ giúp định công tác phân lớp cán Trường Đại học Luật Hà Nội Luận văn sử dụng phần mềm Weka để minh họa 3.4 Các công cụ sử dụng khai phá liệu 3.4.1 Giới thiệu chung Hiện có nhiều công cụ đời đáp ứng nhu cầu kỹ thuật khai phá liệu khác nhau, sử dụng thành công nhiều lĩnh vực khoa học Tuy nhiên, phải lựa chọn công cụ để phù hợp với yêu cầu tốn mà chương trình đưa Một số ngơn ngữ sau sử dụng nhiều khai phá liệu + Ngôn ngữ lập trình R ngơn ngữ lập trình hàm cấp cao vừa mơi trường dành cho tính tốn thống kê R hỗ trợ nhiều công cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã 57 nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu + Lập trình C# đời với NET Framework 1.0 Kế thừa phát triển từ ngôn ngữ lập trình trước ưu từ hệ điều hành Window với số điểm bật Cú pháp C# hàm ý, đơn giản dễ dàng để học C# hỗ trợ kiểu liệu phương thức chung (giống Java), ứng dụng C# nhanh bảo mật mã nguồn tái sử dụng + Matlab mơi trường tính tốn số lập trình, thiết kế cơng ty MathWorks Matlab cho phép tính tốn số với ma trận, vẽ đồ thị hàm số hay biểu đồ thông tin, thực thuật toán, tạo giao diện người dùng liên kết với chương trình máy tính viết nhiều ngơn ngữ lập trình khác Matlab giúp đơn giản hóa việc giải tốn tính tốn kĩ thuật so với ngơn ngữ lập trình truyền thống C, C++, Fortran Matlab sử dụng nhiều lĩnh vực, bao gồm xử lý tín hiệu ảnh, truyền thông, thiết kế điều khiển tự động, đo lường kiểm tra, phân tích mơ hình tài chính, hay tính tốn sinh học Với hàng triệu kĩ sư nhà khoa học làm việc môi trường công nghiệp môi trường hàn lâm, Matlab ngôn ngữ tính tốn khoa học + Weka mơi trường thử nghiệm khai phá liệu nhà khoa học thuộc trường Đại học Waitako, New Zealand, khởi xướng đóng góp nhiều nhà nghiên cứu giới Weka phần mềm mã nguồn mở, cung cấp công cụ trực quan sinh động cho người tìm hiểu khai phá liệu Weka cho phép giải thuật học phát triển tích hợp vào mơi trường Hệ thống viết java Nó chạy hầu hết tất hệ điều hành Weka cung cấp nhiều giải thuật khác với nhiều phương thức cho trình xử lý để ước lượng kết sơ đồ cho liệu Weka cung cấp tính giao diện đồ họa người dùng, môi trường để so sánh giải thuật học Weka lấy liệu từ file có định dạng arff, phát sinh từ file bảng sở liệu Cách sử dụng Weka thơng qua giao diện đồ họa 58 3.4.2 Phần mềm Weka Weka công cụ phần mềm viết Java phục vụ lĩnh vực học máy khai phá liệu Các tính chính: - Một tập công cụ tiền xử lý liệu, giải thuật học máy, khai phá liệu phương pháp thí nghiệm đánh giá - Giao diện đồ họa (gồm tính hiển thị hóa liệu) - Môi trường cho phép so sánh giải thuật học máy khai phá liệu Các mơi trường chính: - Simple CLI: giao diện đơn giản kiểu dịng lệnh (như MS-DOS) - Explorer: mơi trường cho phép sử dụng tất khả Weka để khai phá liệu - Experimenter: môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê mơ hình máy học - KnowledgerFlow: môi trường cho phép bạn tương tác đồ họa kiểu kéo thả để thiết kế bước thí nghiệm Mơi trường Explorer: - Preprocess: Để chọn thay đổi (xử lý) liệu làm việc - Classify: Để huấn luyện kiểm tra mơ hình học máy (phân loại hồi quy, dự đoán) - Cluster: Để học nhóm từ liệu (phân cụm) - Associate: Để khám phá luật kết hợp từ liệu - Select attributes: Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu - Visualize: Để xem (hiển thị) biểu đồ tương tác chiều liệu 3.5 Kết thực nghiệm 3.5.1 Cài đặt chạy Weka Để sử dụng Weka, việc phải cài đặt Weka máy tính Có thể tải phiên Weka địa chỉ: https://www.cs.waikato.ac.nz/ml/weka/ 59 Lựa chọn hệ điều hành phù hợp để tải về, chọn Windows Tại website này, tìm thấy nhiều tài liệu Weka Khi tải Weka xuống máy tính, bước cài đặt (set-up) vào máy tính Đây bước đơn giản, cần vài phút việc cài đặt hồn tất Sau hoàn tất việc cài đặt, icon xuất desktop máy tính Đến sẵn sàng sử dụng Weka Hình 3.6: Phần mềm Weka Đầu tiên ta phải có file liệu đầu vào định dạng “csv”, ta tạo từ Excel, file có tên “DuLieuCanBo” File liệu có 62 mẫu thuộc tính Hình 3.7 : File liệu định dạng chuẩn csv 60 Tiếp theo ta khởi động phần mềm Weka > Chọn Explorer > Chọn Open file > Chọn đến file liệu ta vừa tạo “DuLieuCanBo.csv” Hình 3.8: Giao diện Weka Hình 3.9: Giao diện Preprocess 61 Hình 3.10: Giao diện chọn file liệu Tiếp đến ta chuyển từ tab Preprocess sang tab Classify để tiến hành phân lớp > Chọn Choose để chọn sử dụng kỹ thuật phân lớp, cuối ta chọn J48 mục tree Hình 3.11: Giao diện Classify 62 Hình 3.12: Giao diện chọn thuật tốn Chúng ta để giá trị default chọn Start để chạy chương trình Sau xong ta thấy Classifier output thể kết thuật tốn Hình 3.13: Kết Classifer Output 63 Mơ hình định Hình 3.14: Cây định sử dụng thuật tốn C4.5 Weka Với tập liệu đầu vào file liệu có tên (DuLieuCanBo.csv: 62 mẫu, thuộc tính, thuộc tính kết luận), sau chạy với chương trình, dự đốn độ xác mơ hình với kết thu 1/26 lớp Yes 35 lớp No 3.5.2 Đánh giá độ đo hiệu Theo bảng tính ma trận Confusion 2x2 hay bảng Contigency: Dự đoán => Dương Âm Dương TP FP Âm FN TN Người ta thường dùng để đánh giá độ đo hiệu thuật toán mà độ đo hiệu thường dùng là: Tiêu chuẩn 1: Precision = TP/TP+FP = 26/26+0 = Tiêu chuẩn 2: Recall = TP/TP+FN = 26/26+1 = 0,96 Tiêu chuẩn 3: F1 = x Precision x recall/Precision+Recall = 2x x 0,96/1+0,96 = 0,98 64 Dự đốn độ xác thử nghiệm đạt giá trị trung bình 98% 3.6 Một số đề xuất cải tiến mơ hình phân lớp C4.5 Từ q trình nghiên cứu mơ hình phân lớp C4.5 từ q trình thực nghiệm chúng tơi đưa số đề xuất cải tiến thuật toán C4.5 Sinh luật sản xuất tính C4.5 so với thuật toán khác Hiện với sở liệu lớn, tập luật sinh dài, ví dụ với tập training cỡ 30000 cases với thuộc tính, tập luật lên tới 3000 luật Do việc xem trích rút thơng tin có ích tập luật khó khăn Trên thực tế đó, chúng tơi đề xuất tích hợp thêm vào C4.5 module trích chọn tập luật “tốt nhất” luật có độ xác chấp nhận (mức độ xác người dùng tùy chọn) có độ phổ biến cao (là luật mà áp dụng nhiều case tập liệu thử nghiệm) Sinh luật sản xuất tính mới, đem lại nhiều lợi ích C4.5 so với thuật toán phân lớp liệu khác Nhưng trình sinh luật sản xuất tốn nhiều tài nguyên tính tốn so với q trình sinh định Do cần song song hóa giai đoạn sinh luật để cải tiến hiệu C4.5 C4.5 bị hạn chế số lượng thuộc tính tập liệu đào tạo, độ xác định hay luật sinh nói chung chưa cao Cần tập trung sử dụng phương pháp cải tiến độ xác mơ hình phân lớp bagging, boosting 3.7 Kết luận chương Sau đưa toán phân loại cán Trường Đại học Luật Hà Nội vào hệ thống phân loại với 60 mẫu cán bộ, tác giả rút nhận xét, đánh sau: Chương trình cài đặt dễ dàng, nhanh chóng, hoạt động ổn định, hiển thị kết nhanh thuận tiện cho người dùng Thực thi toán phân lớp cán với hai thuật tốn C4.5 nhiều lần, tính trung bình kết nhận có độ xác trung bình khoảng 98% 65 KẾT LUẬN CHUNG Trong khn khổ khóa luận tốt nghiệp này, chúng tơi nghiên cứu, phân tích, đánh giá thuật toán phân lớp liệu dựa định Tiêu biểu thuật toán C4.5 C4.5 thuật toán xử lý đầy đủ vấn đề q trình phân lớp liệu: lựa chọn thuộc tính tốt nhất, lưu trữ phân chia liệu, xử lý giá trị thiếu, tránh vừa, cắt tỉa cây…Với lý C4.5 trở thành thuật tốn phổ biến ứng dụng vừa nhỏ Quá trình triển khai, cài đặt thử nghiệm với đánh giá hiệu mơ hình phân lớp C4.5 tiến hành Và thu nhiều kết có ý nghĩa thực tiến, kết gợi mở hướng nghiên cứu Hướng nghiên cứu tiếp theo: thu thập liệu cho toàn trường; cho thêm số đặc trưng, tiến tới đưa vào ứng dụng thực tế Trong tình liệu phức tap, có đặc trưng thời gian, có số mẫu thiếu giá trị, nghiên cứu ứng dụng phiên C5.0 để chạy ứng dụng 66 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Đỗ Nghị Khai mỏ liệu, Nhà xuất Đại học Cần Thơ (2011) [2] Nguyễn Quang Hoan, Nguyễn Thị Thanh Lan, Hoàng Phú Quang Phân loại chất lượng học sinh trường cao đẳng nghề xây dựng Quảng Ninh sử dụng phương pháp học máy Tạp chí Khoa học Cơng nghệ DHSPKT-HY ISSN 2354-0575, số 14/3-2017 Tài liệu Tiếng Anh [3] Anurag Srivastava, Eui-Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1998 [4] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT- A Scalable Parallel Classifier for Data mining In Proceedings of the 22nd International Conference on Very Large Database, India, 1996 [5] Manish Mehta, Rakesh Agrawal, Jorma Rissanen SLIQ: A Fast Scalable Classifier for Data Mining IBM Amaden Research Center, 1996 [6] Mohammed J Zaki, Ching-Tien Ho, Rekesh Agrawal Parallel Classification for Data Mining on Shared-Memory Multiprocessors IVM Almaden Research Center, San Jose, CA 95120 [7] Quinlan J.: C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [8] Richard Kufrin Generating C4.5 Production Rules in Parallel In Proceeding of Fourteenth National Conference on Artificial Intelligence, Providence RI, 1997.doc.edu.vn/tai-lieu/nghien-cuu-cac-thuat-toan-phan-lop-du-lieu-dua-tren-cayquyet-dinh-22489 [9] Ron Kohavi, J Ross Quinlan Decision Tree Discovery, 1999 [10] The Morgan Kaufmann Series in Data Management Systems, Jim Gray Data Mining- Concepts and Techniques, Chapter 7-Classification and Prediction Series Editor Morgan Kaufmann Publishers, August, 2000 [11] Shannon C-E.: A Mathematical Theory of Communication Bell System Technological Journal (27): 379-423, 623-656, 1948 67 ...BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ NGHIÊN CỨU PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG VÀO CÔNG TÁC CÁN BỘ TRƯỜNG ĐẠI HỌC LUẬT HÀ NỘI VŨ NGỌC TÂN CHUYÊN NGÀNH: CÔNG... CHƯƠNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU 1.1 Khái quát phân lớp liệu 1.1.1 Phân lớp liệu Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp. .. hiệu trường Đại học Luật Hà Nội, tác giả lập bảng thuộc tính tập liệu cán để đưa định phân lớp cán theo tiêu chí cơng tác quy hoạch cán cấp Khoa đơn vị Trường Đại học Luật Hà Nội Dựa vào tài liệu