Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
2,35 MB
Nội dung
Đ̣I ḤC ĐĨ ÑNG TR ̀NGăĐ̣I ḤCăS ăPḤM Đ̃ MINH PH́T NGăD NGăK ăTHU TăCÂYăQUY TăĐ NHă XÂYăD NGăH ăTH NGăD ăB́OăKH ăNĔNGăB ăḤC C AăḤCăSINHăTR ̀NGăTHPTăṾN T ̀NG T NH QU NGăNGĩI LU NăVĔNăTḤCăSƾ H ăTH NGăTHÔNGăTIN ĐƠăNẵngăậ Nĕmă2019 Đ̣IăḤCăĐĨăÑNG TR ̀NGăĐ̣I ḤCăS ăPḤM Đ̃ MINH PH́T NGăD NGăK ăTHU TăCÂYăQUY TăĐ NHă XÂYăD NGăH ăTH NGăD ăB́OăKH ăNĔNGăB ăḤC C A ḤCăSINHăTR ̀NGăTHPTăṾN T ̀NG T NH QU NGăNGĩI ChuyênăngƠnh:ăH ăTH NGăTHÔNGăTIN Mưăs :ă848.01.04 LU NăVĔNăTḤCăSƾ NG ̀IăH NGăDẪNăKHOAăḤC: PGS TS VÕ TRUNG HÙNG ĐƠăNẵng,ănĕmă2019 i L̀IăCAMăĐOAN Tôi xin cam đoan: Nh̃ng ṇi dung lụn văn ǹy tḥc hịn dứi ṣ hứng d̃n tṛc típ c̉a PGS TS Ṽ Trung H̀ng Ṃi tham kh̉o d̀ng lụn văn đ̀u đực tŕch d̃n r̃ r̀ng v̀ trung tḥc tên t́c gỉ, tên công tr̀nh, th̀i gian, đ̣a đỉm công b́ Ṃi ch́p không ḥp ḷ, vi pḥm qui ch́ đ̀o ṭo, hay gian tŕ, xin cḥu hòn tòn tŕch nhịm T́c gỉ Đ̃ Minh Ph́t ' '"- "[ I I � - - -] "- :··· - T K€t n6i tr�rc ti€p v6i h� th6ng co s6· do· li�u hi�n c6 t�1i d'n vi d€ thu�n lqi hm1 cho ngLrcri s.r d�mg qua trlnh khai thac h� th6ng Tir khoa: Khai pha do· li�u; cay quy€t dinh; phan 16p do· li�u; thu�t toan C4.5; h� th6ng d�r bao h9c sinh b6 h9c; Xac nh�n Clta giao vien hu-6'ng din PGS TS VO TRUNG HUNG Ngu·cri th\l'C hi�n d� tai DOMINHPHAT Connecting directly with the existing database system at the agency to make it more convenient for the users during the process of operating the system Key word: Data mining; decision tree; data classification; C4.5 algorithm; Student prediction system Supervior's confirmation Student Assoc Prof VO TRUNG HUNG DO MINHPHAT ii M CăL C L̀IăCAMăĐOAN i DANH M C ĆC T̀ VI T T́T iv DANH M C ĆC B NG v DANH M C ĆC HỊNH vi M ăĐ U 1 LỦ chọn đề tài Ṃc tiêu Đối t ợng ph m vi nghiên c u Ph ơng pháp nghiên c u ́ nghĩa c a đề tài Bố c̣c c a luận văn CH NGă1.ăTỔNGăQUANăV ăKHAIăPH́ăD ăLI U 1.1 Khai phá liệu 1.1.1 Sơ l ợc khai phá liệu 1.1.2 Kĩ thuật khai phá liệu 1.1.3 Các b ớc xây dựng hệ thống khai phá liệu 1.1.4 ng ḍng c a khai phá liệu 1.1.5 Kiến trúc c a hệ thống khai phá liệu 1.2 Phân lớp liệu đ̣nh 10 1.2.1 Phân lớp liệu 10 1.2.2 Quá trình phân lớp liệu 10 1.2.3 Cây đ̣nh 12 1.2.4 u điểm c a đ̣nh 13 1.2.5 Xây dựng đ̣nh 13 1.2.6 Rút luật từ đ̣nh 14 1.3 Các thuật toán xây dựng đ̣nh 15 1.3.1 Thuật toán CLS 15 1.3.2 Thuật toán ID3 18 1.3.3 Thuật toán C4.5 23 1.4 T̉ng kết ch ơng 26 CH NGă2.ă NGăD NGăCÂYăQUY TăĐ NHăD ăB́OăKH ăNĔNGăB ăḤCă C AăḤCăSINH 27 2.1 Tình hình bỏ học c a học sinh 27 2.1.1 Thực tr ng, nguyên nhân học sinh bỏ học 27 2.1.2 Hậu qu c a tình tr ng bỏ học 28 2.1.3 Kh o sát học sinh bỏ học 29 2.1.4 Phân tích nguyên nhân bỏ học c a học sinh 34 iii 2.1.5 Gi i pháp xây dựng hệ thống 35 2.2 ng ḍng đ̣nh 37 2.2.1 L ợng hóa liệu để đ a vào thuật toán C4.5 37 2.2.2 Phân tích liệu để xây dựng tập huấn luyện 38 2.2.3 Triển khai gi i thuật C4.5 40 2.2.4 Xây dựng đ̣nh 42 2.2.5 T o luật từ đ̣nh 53 2.3 T̉ng kết ch ơng 53 CH NGă3 XÂYăD NGăCH NGăTRỊNHăVĨăTH ăNGHI M 54 3.1 Xây dựng ch ơng trình 54 3.1.1 Các ch c c a hệ thống 54 3.1.2 Kiến trúc t̉ng thể c a hệ thống 54 3.1.3 Đặc t chi tiết thành phần 55 3.1.4 Cài đặt ch ơng trình 57 3.1.5 Giao diện ch c c a ch ơng trình 58 3.2 Thử nghiệm ch ơng trình 59 3.2.1 Huấn luyện đ̣nh 59 3.2.2 Thực nghiệm đánh giá 62 3.2.3 Triển khai sử ḍng hệ thống 65 3.3 T̉ng kết ch ơng 68 K T LU N 69 Kết qu đ t đ ợc 69 H n chế 69 H ớng phát triển 69 TĨIăLI UăTHAMăKH O 70 iv DANH M C ĆC T̀ VI T T́T TI NG VI T CLS Concept Learning System CNTT Công nghệ thông tin CSDL Cơ s̉ liệu GD&ĐT Giáo ḍc Đào t o GV Giáo viên GVCN Giáo viên ch nhiệm HS Học sinh ID3 Iterative Dichotomiser KPDL Khai phá liệu THPT Trung học ph̉ thông TI NG ANH DPL Data Pre – Processing Layer KDD Knowledge Discovery in Databases 67 H̀nh 3.15 Hỉn tḥ ḱt qủ ḍ b́o H̀nh 3.16 Xuất ḱt qủ ḍ b́o File Excel Xuất ḱt qủ file Excel: Kết qu dự báo kh bỏ học c a học sinh đ ợc xuất File Excel để l u trữ xử lí Để thực giao diện ng d ng nhấn chọn lệnh Xút File Excel Hệ thống t i đ ợc xây dựng cập nhật liệu đầu vào d ới d ng file Excel cập nhật trực tiếp từ form, nên để hệ thống vận hành đ ợc với liệu có t i đơn ṿ ta cần trích liệu từ CSDL chuyển file Excel có cấu trúc giống tập liệu đầu vào ch̉ cần cập nhật vào hệ thống khai thác đ ợc 68 Để việc sử ḍng ng ḍng hiệu qu , ta cần thực theo quy trình sau: Đầu tiên cần có liệu huấn luyện tốt: Dựa vào kết qu thực nghiệm đánh giá c a ch ơng trình ta b̉ sung vào b ng liệu huấn luyện tr ng hợp có kh đ a dự báo xác, từ sinh tập luật đ m b o độ tin cậy cao Tiếp theo trích xuất liệu CSDL qu n lí học sinh sang file Excel theo cấu trúc File liệu đầu vào c a ch ơng trình, ph i đ m b o cấu trúc có thuộc tính cần thiết tập liệu huấn luyện Sau đ a File liệu vào ch ơng trình để thực việc phân lo i đ a kết qu dự báo học sinh có kh bỏ học hay khơng ng ḍng đ ợc cài đặt máy tính c a GVCN, Cán qu n lí Với việc sử ḍng hệ thống dự báo này, tin lưnh đ o nhà tr ng nh GVCN biết sớm đ ợc thơng tin học sinh có kh bỏ học hay khơng, để từ có ph ơng pháp giáo ḍc phù hợp nhằm nâng cao chất l ợng giáo ḍc, h n chế tình tr ng học sinh bỏ học thực tốt nhiệm ṿ giáo ḍc c a ngành 3.3 T̉ng k tăch ngă3 Trong ch ơng này, luận văn đư sử ḍng liệu Test_bochoc.xlsx để kiểm ch ng thuật toán xây dựng đ̣nh C4.5 Bộ liệu có 430 b n ghi với thuộc tính, phù hợp việc sử ḍng đ̣nh để phân lo i học sinh Đ̀ng th i, dựa vào kết qu dự báo c a hệ thống luận văn đư phân tích, đánh giá kết qu thực nghiệm s̉ vận ḍng hệ thống để xử lỦ tình thực tế 69 K T LU N K t qủ đ tăđ c Về lỦ thuyết, luận văn đư trình bày đ ợc s̉ lỦ thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán xây dựng đ̣nh C4.5 Nêu phân tích đ ợc thực tr ng, nguyên nhân học sinh bỏ học với t̉ lệ cao Luận văn sử ḍng lỦ thuyết để xây dựng hệ thống phân tích, đánh giá dự báo kh bỏ học c a học sinh Hệ thống xây dựng đ ợc ch c b n để kiểm tra đánh giá m c độ hiệu qu c a thuật toán C4.5 ch c khác pḥc ṿ công tác dự báo kh bỏ học c a học sinh nhằm giúp cán qu n lỦ, giáo viên ch nhiệm có tr ớc thơng tin để từ có ph ơng pháp giáo ḍc phù hợp nhằm ngăn chặn tình tr ng bỏ học ph̉ biến nh B ớc đầu hệ thống ho t động hiệu qu với liệu kiểm nghiệm cho kết qu với độ xác cao; hệ thống phân tích, thống kê đ ợc nguyên nhân c̣ thể nhằm giúp lưnh đ o nhà tr ng ńm b́t thông tin dự báo tình hình học sinh bỏ học cách chi tiết H n ch Ch a kết nối truy xuất liệu trực tiếp với CSDL qu n lí học sinh t i đơn ṿ, nên liệu vào cho hệ thống thực đ ợc với d ng file Excel Do c̀n thao tác th công để lấy liệu từ CSDL c a đơn ṿ chuyển sang Excel r̀i đ a vào hệ thống để xử lí Việc xác đ̣nh nguyên nhân bỏ học c a học sinh mang nặng tính chất đ̣nh tính nên nhiều tr ng thực tế kết qu không đ ợc phân lo i xác Luận văn ch̉ nghiên c u kh bỏ học c a học sinh với hai lớp, nhiên để tăng độ xác c a việc dự báo ta phân thành nhiều lớp nh kh bỏ học ̉ m c độ cao, vừa thấp đ̣nh l ợng kh bỏ học c a học sinh số phần trăm H ng ph́t trỉn Tiếp ṭc nghiên c u thuật toán khai phá liệu đ̣nh nh thuật toán C5, thuật toán CHAID, thuật toán MARS để nâng cao hiệu qu mơ hình Cần b̉ sung thêm liệu cho tập huấn luyện để mơ hình đ̣nh có độ tin cậy cao ho t động hiệu qu Tiếp ṭc nghiên c u để phân lo i kết qu dự đoán thành nhiều lớp tăng độ xác cơng tác dự báo, đ̣nh l ợng phần trăm kh học sinh bỏ học Cần thử nghiệm kết nối trực tiếp với hệ thống CSDL có t i đơn ṿ để nâng hiệu qu , tiết kiệm th i gian thực cơng tác qu n lí Xây dựng giao diện đ̀ họa trực quan để dễ dàng t ơng tác với ng i dùng, hệ thống cần hỗ trợ nhiều ch c cho ng i dùng 70 TĨIăLI UăTHAMăKH O Ti ng Vi t [1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Tḥy (2016), Giáo trình khai phá liệu, Nhà xuất b n Đ i học Quốc gia thành phố Hà Nội [2] Hồng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá liệu, Trung tâm nghiên c u phát triển công nghệ thông tin, Đ i học Quốc gia thành phố H̀ Chí Minh [3] Nguyễn Nhật Quang – Viên Công nghệ Thông tin Truyền thông, Bài gi ng khai phá liệu [4] Nguyễn Văn Sự (2012), Luận văn th c sĩ “Khai phá liệu đ̣nh ng ḍng hệ hỗ trợ đ̣nh” [5] Võ Huỳnh Trâm, Trần Ngân Bình (2006), Giáo trình trí tuệ nhân t o, Ch ơng Học máy, NXB Đ i học Cần Thơ [6] Công văn số 496/SGDĐT-VP ngày 27 tháng năm 2017 c a S̉ Giáo ḍc Đào t o Qu ng Ngưi việc tăng c ng gi i pháp kh́c pḥc học sinh bỏ học [7] Công văn số 1568/CV-TV ngày 03/03/2017 Ban Th ng ṿ t̉nh y Qu ng Ngưi công văn số 1241/UBND-KGVX ngày 10 tháng 03 năm 2017 c a y bân nhân dân t̉nh Qu ng Ngưi việc kiểm tra chấn ch̉nh tình tr ng học sinh bỏ học đ̣a bàn t̉nh Qu ng Ngưi Ti ng Anh [8] G.piatetsky - Shapiro and W.J Frawley (1991), Knowledge Discovery in Databases, AAAI/MIT Press [9] Jaiwei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques, ISBN 1-55860-489-8 [10] Mitchell T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol 42, No 11, pp 30-36 [11] Zhi-Hua Zhou (2018) Data Mining, Department of Computer Science & Technology Nanjing University ... S3 Thống kê t̉ lệ dự báo học sinh bỏ học theo Học lực Thống kê t̉ lệ dự báo học sinh bỏ học theo H nh kiểm Thống kê t̉ lệ dự báo học sinh bỏ học theo Hồn c nh gia đình Thống kê t̉ lệ dự báo học. .. sát: Số học sinh bỏ học học lực Số học sinh bỏ học điều kiện gia đình khó khăn Số học sinh bỏ học nguyên nhân khác * Khảo sát số liệu học sinh nghỉ học B ng 2.1 Thống kê học sinh bỏ học Trong... qu n lí Hệ thống dự báo kh bỏ học c a học sinh đ ợc mơ t nh mơ hình sau: Hình 2.1 Mơ hình ḍ kín c̉a ḥ th́ng 37 Việc xây dựng sử ḍng hệ thống dự báo kh bỏ học c a học sinh ̉ tr ng THPT V n