Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
3,52 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ***** THÁI HUY TÂM ỨNG DỤNG RANDOM FOREST GIÚP PHÂN BAN LỚP TRONG TRƯỜNG TRUNG HỌC PHỔ THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ***** THÁI HUY TÂM ỨNG DỤNG RANDOM FOREST GIÚP PHÂN BAN LỚP TRONG TRƯỜNG TRUNG HỌC PHỔ THÔNG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Mà SỐ: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN HOÀI Đồng Nai, Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO i LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, kết trình học tập nghiên cứu khoa học độc lập Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Đồng Nai, ngày 28 tháng 12 năm 2019 Học viên Thái Huy Tâm ii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: ỨNG DỤNG RANDOM FOREST GIÚP PHÂN BAN LỚP TRONG TRƯỜNG TRUNG HỌC PHỔ THƠNG Ngành: Cơng nghệ thơng tin Mã số: 8480201 Học viên: Thái Huy Tâm Người hướng dẫn: PGS.TS Trần Văn Hồi NỘI DUNG TĨM TẮT Nội dung giao kết mong đợi người hướng dẫn - Thu thập liệu liên quan nằm phạm vi nghiên cứu đề tài như: Tổng điểm trung bình theo mơn học (Tốn, Vật lý, Hóa học, Sinh học, Văn, Lịch sử, Địa lý, Ngoại ngữ) học sinh THCS; thông tin học lực – hạnh kiểm học sinh, thông tin cá nhân; thông tin tên trường THCS em học 04 năm cấp tập liệu huấn luyện - Tập trung nghiên cứu, phân tích vấn đề liên quan đến phân lớp học sinh (ngày Bộ GD&ĐT định hướng thi TNTHPT cho nước 02 ban: ban KHTN ban KHXH) - Nghiên cứu thuật toán random forest, cách thức khai phá liệu từ tập liệu có sẳn trường học kết học tập, thông tin cá nhân,… học sinh Từ tập liệu huấn luyện sử dụng phần mềm Weka để tạo định thuật toán random forest, sau rút tập luật từ định - Phân tích thiết kế sở liệu sau có kết thu thập liệu - Phân tích thiết kế hệ thống để có chức chương trình “Ứng dụng random forest giúp phân ban cho học sinh THCS lên THPT vào ban theo lực em” iii - Thực nghiệm đánh giá chương trình Cách thức giải vấn đề Giải pháp đưa để giải vấn đề toán “Ứng dụng random forest phân ban học sinh trung học phổ thông” thực theo bước sau: - Bước 1: Từ tập liệu huấn luyện sử dụng phần mềm Weka để tạo định thuật toán random forest, sau rút tập luật từ định - Bước 2: Nạp tập liệu huấn luyện vào sở liệu; cài đặt thuật toán dựa vào tập luật rút từ định - Bước 3: Nạp thông tin (đối tượng phân ban) + Thông tin điểm, xếp loại học lực – hạnh kiểm, thông tin cá nhân, thông tin trường THCS em học cấp vào sở liệu Sau thực bước xong, tiến hành chạy thuật toán phân ban - Bước 4: Chạy thuật toán phân ban, kết thực theo bước sau: + Tính xếp loại học tập học sinh dựa vào điểm số môn học năm học 6, 7, + Thông tin trường THCS địa bàn em học + Thông tin xếp loại học lực – hạnh kiểm học sinh + Thông tin điểm ưu tiên, khuyến khích (nếu có) + Tổng hợp điểm xếp loại học tập + điểm học lực, hạnh kiểm + điểm ưu tiên, khuyến khích (nếu có) + thơng tin trường THCS tiến hành so khớp để tìm kết Việc so khớp thực sau: + So khớp với liệu tập huấn luyện: trùng khớp với số liệu tập huấn luyện lấy kết liệu làm kết phân ban kết thúc chương trình + Nếu không trùng khớp với liệu tập huấn luyện thực so khớp với thuật tốn luật định, kết sau chạy thuật toán kết phân ban kết thúc chương trình iv Đánh giá mặt khoa học kết - Luận văn đưa giải pháp từ việc phân loại liệu kết học tập em năm học bậc học THCS điểm môn em để chọn ban học cho em cấp học THPT phù hợp với học lực vấn đề khiếu môn em để định hướng cho việc thi tốt THPT Quốc gia hàng năm chọn ngành nghề phù hợp với lực học - Về mặt lý thuyết, nêu giải pháp ứng dụng kỹ thuật phân lớp liệu vào toán phân ban học cho học sinh THPT - Về mặt thực tiễn, luận văn đáp ứng mục tiêu ban đầu đặt ra, hệ thống nhằm hỗ trợ cho nhà trường việc phân ban cho học sinh đầu cấp ban học phù hợp với em Cây định thuật toán random forest hỗ trợ việc lựa chọn kết tối ưu, phù hợp tập hợp liệu khổng lồ Từ đó, liệu trả tận dụng tối đa công việc, Nhà trường việc dùng kết để thực cơng việc phân ban học sinh ban học phù hợp với khả học sinh định hướng ban đầu nhà trường Những vấn đề tồn so với nội dung giao (nếu có) - Luận văn tập trung nghiên cứu đưa giải pháp phân ban học sinh dựa kết học tập tổng điểm, học lực, hạnh kiểm em THCS lên THPT chưa có nhiều liệu chi tiết khác để đánh giá xác khả năng, học lực em Đồng Nai, ngày 28 tháng 12 năm 2019 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS.TS Trần Văn Hoài Thái Huy Tâm v MỤC LỤC CHƯƠNG 1: MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu luận văn 1.3 Phạm vi đối tượng nghiên cứu 1.4 Nội dung thực 1.5 Phương pháp thực 1.6 Dự kiến kết 1.7 Kết cấu luận văn (các chương mục) CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN 2.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2.1.1 Khai phá liệu gì? 2.1.2 Một số định nghĩa khai phá liệu 2.2 MỤC ĐÍCH CỦA VIỆC KHAI PHÁ DỮ LIỆU 2.2.1 Khai phá liệu có cần thiết? 2.2.2 Khai phá liệu áp dụng loại liệu nào? 2.2.3 Ứng dụng khai phá liệu 2.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 10 2.3.1 KPDL bước thiết yếu quy trình khám phá tri thức 10 2.3.2 Một số phương pháp khai phá liệu 12 2.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU 12 2.4.1 Mô tả (Descriptive) 12 2.4.2 Dự đoán (Predictive) 12 2.5 PHÂN LỚP DỮ LIỆU 13 2.5.1 Giới thiệu phân lớp 13 2.5.2 Một số kỹ thuật phân lớp liệu 14 2.5.3 Các vấn đề liên quan đến phân lớp liệu 14 2.6 Phân lớp phương pháp quy nạp định 18 2.6.1 Khái niệm định 18 2.6.2 Đánh giá định phân lớp liệu 19 vi 2.6.3 Xây dựng định: 21 2.7 Thuật toán xây dựng định 21 2.7.1 Ý tưởng chung 21 2.7.2 Thuật toán quy nạp định 23 2.8 Một số thuật toán KPDL định 23 2.8.1 Thuật toán ID3 23 2.8.1.1 Lịch sử phát triển 23 2.8.1.2 Mã giã giải thuật ID3 24 2.8.1.3 Lựa chọn thuộc tính kiểm tra 24 2.8.1.4 Một vài ưu khuyết điểm thuật toán ID3 28 2.9 Thuật toán C4.5 29 2.9.1 Lịch sử phát triển 29 2.9.2 Mã giã thuật toán C4.5 30 2.9.3 Một số cải tiến thuật toán C4.5 31 2.10 Chuyển đổi từ định sang luật 33 CHƯƠNG 3: BÀI TOÁN PHÂN BAN TRONG TRƯỜNG THPT TRẦN PHÚ 35 3.1 Phát biểu toán 35 3.2 Cách xét tuyển vào lớp 10 trường THPT: 35 3.3 Một số thực trạng nhà trường: 36 CHƯƠNG 4: THUẬT TOÁN RANDOM FOREST CHO BÀI TOÁN PHÂN BAN 46 4.1 Nguồn gốc đời thuật toán 46 4.2 Thuật toán Random Forest 46 4.2.1 Giới thiệu thuật toán Random Forest 46 4.2.2 Lịch sử thuật toán Random Forest 47 4.2.3Đặc tính thuật toán Random Forest 47 Tóm tắt giải thuật 49 4.3 Đặc điểm Random Forest 49 4.4 Một số so sánh phương pháp phân lớp cách sử dụng định thuật toán C4.5 Random Forest 52 4.5 ỨNG DỤNG THUẬT TOÁN RANDOM FOREST CHO BÀI TOÁN PHÂN BAN LỚP HỌC 55 vii 4.5.1 Thu thập liệu đầu vào 55 4.5.2 Xử lý liệu 55 4.5.3 XÂY DỰNG MƠ HÌNH PHÂN LỚP VỚI RANDOM FOREST 57 4.5.4 MÔ HÌNH TỔNG QUÁT 64 4.6 ƯỚC TÍNH ĐỘ CHÍNH XÁC CỦA MƠ HÌNH 64 CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH RANDOM FOREST VÀ ỨNG DỤNG ĐỂ PHÂN BAN LỚP HỌC 67 5.1 KẾT QUẢ CHẠY MƠ HÌNH PHÂN LỚP VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC 67 5.1.1 Mơ hình Random forest 67 5.1.2 Mơ hình định thuật tốn C4.5 69 5.2 SO SÁNH KẾT QUẢ VỚI MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP KHÁC 70 5.3 ỨNG DỤNG RANDOM FOREST ĐỂ PHÂN BAN LỚP CHO HỌC SINH ĐẦU VÀO LỚP 10 72 5.3.1 Giải pháp xây dựng hệ thống 72 5.3.2 Xây dựng ứng dụng 72 5.4 DEMO CHƯƠNG TRÌNH 73 “Ứng dụng random forest hỗ trợ phân ban lớp học trường THPT” 73 CHƯƠNG 6: KẾT LUẬN 77 TÀI LIỆU THAM KHẢO viii DANH MỤC CÁC KÍ HIỆU, CÁC TỪ VIẾT TẮT Ký hiệu THPT THCS THPT QG KHTN KHXH TOAN LY HOA VAN SINH SU DIA T.ANH H.LUC H.KIEM U.TIEN-KK T.TRUONG CVA L.A HTH NT XL HG LQD XT HV NQ GD&ĐT WEKA Thuật ngữ Trung học phổ thông Trung học sở Trung học phổ thông Quốc gia Khoa học tự nhiên Khoa học xã hội Toán Lý Hóa Văn Sinh Sử Địa Tiếng anh Học lực Hạnh kiểm Ưu tiên – khuyến khích Tên trường THCS Chu Văn An Lê A Hồ Thị Hương Nguyễn Trãi Xuân Lập Hàng Gịn Lê Q Đơn Xn Thiện Hùng Vương Ngô Quyền Giáo dục đào tạo Waikato Environment for Knowledge Analysis 64 4.5.4 Mô hình tổng quát Tập liệu học sinh (742 phần tử, 14 thuộc tính) Tập boostrap Outbag (247pt, 14tt) inbag (742pt, 14tt) Tập boostrap Outbag (247pt, 14tt) Tập boostrap n Outbag (247pt, 14tt) inbag (742pt, 14tt) inbag (742pt, 14tt) Nút (không phải nút lá) lấy ngẫu nhiên m thuộc tính từ 14 thuộc tính để phân học KETQUA Nút (khơng phải nút lá) lấy ngẫu nhiên m thuộc tính từ 14 KETQUA thuộc tính để phân học KETQUA KETQUA n KETQUA Dự báo phần tử KETQUA n Bình chọn theo số đơng n KETQUA Hình 37: Mơ hình tổng qt Random forest để phân lớp cho tốn 4.6 Ước tính độ xác mô hình Dự báo phần tử - Ước tính độ xác mơchọn hìnhtheo bằngsốcách Bình đơngsửn dụng phương pháp k-fold cross validation với k= 10 KETQUA - Tập liệu ban đầu chia ngẫu nhiên thành 10 tập (fold) có kích thước xấp xỉ S1, S2, S Quá trình học test thực 10 lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo gọi R i - Độ xác toàn số phân lớp từ 10 lần lặp chia cho tổng số mẫu tập liệu ban đầu Dữ liệu ban đầu là: 742 học sinh (là liệu Bảng gồm liệu 742 học sinh) 65 1-Fold: 74 HS 74 HS 74 HS Dữ liệu kiểm tra S1(74 hs) Thuật toán phân loại Model 74 HS 74 HS 742 HS 74 HS 74 HS Dữ liệu huấn luyện R1 (668 hs) Độ xác 74 HS 75 HS 75 HS Hình 38: 1-Fold với CSDL học sinh 2- Fold : 74 HS 74 HS 74 742 HS HS 74 HS 74 HS 74 HS 74 HS 74 HS 75 Dữ liệu kiểm tra S2(74 Thuật toán phân loại Model2 Dữ liệu huấn luyện R2 (668 hs) HS 75 HS Hình 39: 2-Fold với CSDL học sinh Độ xác 66 10-Fold: Dữ liệu kiểm tra S10(74 74 HS 74 HS 74 742 HS HS 74 HS 74 HS 74 HS 74 HS 74 HS 75 Thuật toán phân loại Model10 Dữ liệu huấn luyện R10 (668 hs) Độ xác 10 HS 75 HSHình 40: 10-Fold với CSDL học sinh Với fold i (lần chạy i với i=1 10), ta thực hiên bước sau: - Xây dựng mơ hình random forest với liệu đào tạo Ri, bước xây dựng mơ hình phân lớp liệu đầu vào liệu đào tạo Ri - Với liệu kiểm tra Si ta lấy lớp cần phân lớp (ở lớp KETQUA) - Sử dung mơ hình xây dựng để dự đoán liệu kiểm tra Si sau lấy lớp KETQUA (dự đoán với liệu mới) - So sánh kết dự đoán với lớp KETQUA cũ liệu kiểm tra Si lấy - Độ xác fold i số dự đốn xác với fold i chia tổng số mẫu liệu Si Độ xác mơ hình trung bình độ xác 10 fold Hoặc: Độ xác mơ hình tổng dự đốn xác 10 fold chia cho tổng số mẫu liệu ban đầu 67 CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH RANDOM FOREST VÀ ỨNG DỤNG ĐỂ PHÂN BAN LỚP HỌC 5.1 KẾT QUẢ CHẠY MƠ HÌNH PHÂN LỚP VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC 5.1.1 Mơ hình Random forest a Kết mơ hình Random forest Kết mơ hình phân lớp với Random forest: === Classifier model (full training set) === Random forest of 200 trees, each constructed while considering random features Out of bag error: 0.2022 Max depth of trees: RandomForest Tree ========== TOAN = TB | HOA = TB : KHXH (205/10) | HOA = G : KHTN (13/6) | HOA = K : KHXH (64/16) TOAN = G | TRUONG = CVA : KHTN (34/5) | TRUONG = HTH : KHTN (16/7) | TRUONG = L.A : KHTN (24/4) | TRUONG = XL : KHTN (36/5) | TRUONG = LQD : KHTN (18/3) | TRUONG = HG : KHTN (20/1) | TRUONG = NT : KHTN (27/8) | TRUONG = XT : KHTN (33/2) | TRUONG = HV : KHTN (8/1) | TRUONG = NQ : KHTN (18/0) TOAN = K | DIA = K : KHTN (100/47) | DIA = G : KHXH (46/18) | DIA = TB : KHTN (80/16) Hình 41 Mơ hình RandomForest b Đánh giá độ xác mơ hình - Đánh giá độ xác mơ hình cách sử dụng k- fold cross validation với k = 10 - Kết với lần chạy (fold) + 1-Fold: Đúng 61/75 81.3333 % (Out of bag error: 0.2022) 68 Hình 42 Độ xác mơ hình random forest – fold + 2-Fold: Đúng 63/75 84,0000% (Out of bag error: 0.2022) + 3-Fold: Đúng 58/74 78,3780% (Out of bag error: 0.2022) + 4-Fold: Đúng 60/74 81,0810% (Out of bag error: 0.2022) + 5-Fold: Đúng 58/74 78,3780% (Out of bag error: 0.2022) + 6-Fold: Đúng 57/74 77,0270% (Out of bag error: 0.2022) + 7-Fold: Đúng 62/74 83,7840% (Out of bag error: 0.2022) + 8-Fold: Đúng 62/74 83,7840% (Out of bag error: 0.2022) + 9-Fold: Đúng 63/74 85,1350% (Out of bag error: 0.2022) + 10-Fold: Đúng 61/74 82,4320% (Out of bag error: 0.2022) Kết độ xác: Đúng 605/742 81.5364 % Hình 43 Kết độ xác mơ hình Random Forest 69 5.1.2 Mơ hình định thuật tốn C4.5 - Xây dựng thêm mơ hình phân lớp đánh giá kết với định C4.5 với liệu 742 ghi - Cây định xây dựng J-48 cắt tỉa (Cây J-48 xây dựng thuật toán C4.5 với lựa chọn cắt tỉa không cắt tỉa, sử dụng mã nguồn mở có sẵn) a Kết mơ hình định thuật tốn C4.5 Hình 44 Mơ hình Cây định C4.5 b Đánh giá độ xác mơ hình - Kết với lần chạy fold là: + 1-Fold: Đúng 58/75 77,3333 % Hình 45 Độ xác mơ hình định C4.5 – 1-fold 70 Tương tự với lần chạy lại + 2-Fold: Đúng 55/75 + 3-Fold: Đúng 56/74 + 4-Fold: Đúng 55/74 + 5-Fold: Đúng 54/74 + 6-Fold: Đúng 53/74 + 7-Fold: Đúng 56/74 + 8-Fold: Đúng 55/74 + 9-Fold: Đúng 53/74 + 10-Fold: Đúng 56/74 Kết độ xác: Đúng 551/742 73,3333% 75,6756% 74,3243% 72,9729% 71,6216% 75,6756% 74,3243% 71,6246% 75,6756% 74,2588 % Hình 46 Độ xác mơ hình định C4.5 5.2 So sánh kết với số phương pháp khác - Các phương pháp BayesNet, NaivaBayes, id3 đây, xây dựng đánh giá độ xác cơng cụ Weka với CSDL 742 ghi học sinh (theo bảng tổng hợp) sử dụng phương pháp 10- fold cross validation Bảng Bảng so sánh độ xác thuật toán Random Forest C4.5 BayesNet NaiveBayes id3 simpleCart BFTree Độ xác 81.5364% 74.2588% 74.9326% 74.9326% 70.2156% 80.0539% 79.5148% Độ sai lệch 18.4636% 25.7412% 25.0674% 25.0674% 34.6631% 19.9461% 20.4852% 71 C4.5 Id3 BFtree BayesNet NaiveBayes SimpleCart Random Forest Hình 47 Bảng so sánh độ xác số phương pháp phân lớp 72 - Từ bảng so sánh cho thấy phương pháp Random forest cho độ xác tốt với mơ hình phân lớp thường dùng 5.3 Ứng dụng random forest để phân ban lớp cho học sinh đầu vào lớp 10 5.3.1 Giải pháp xây dựng hệ thống - Giải pháp đưa để xây dựng hệ thống chương trình theo phân tích thiết kế toán xây dựng chương thực theo bước sau: + Bước 1: Từ tập liệu huấn luyện sử dụng phần mềm Weka để tạo định thuật toán Random forest, sau rút tập luật từ định + Bước 2: Nạp tập liệu huấn luyện vào sở liệu; cài đặt thuật toán dựa vào tập luật rút từ định + Bước 3: Nạp thông tin - Thông tin điểm, xếp loại, thông tin cá nhân vào sở liệu Sau thực bước xong, tiến hành chạy thuật toán + Bước 4: Chạy thuật toán random forest 5.3.2 Xây dựng ứng dụng - Sau chạy nhiều lần với thông số khác mơ hình Random forest ta kết sau: Bảng Bảng so sánh Random forest với thơng số khác (1) MaxDepth NumFeature NumTree Độ xác 10 77.628% 20 78.4367% 25 79.2453% 30 79.5148% 50 79.1105% 100 79.3801% 200 79.5148% Bảng 10 Bảng so sánh Random forest với thông số khác (2) MaxDepth 2 2 2 NumFeature NumTree 10 20 25 30 50 100 200 Độ xác 79.5148% 80.593% 80.1187% 80.4582% 80.1887% 80.4582% 79.7844% 73 Bảng 11 Bảng so sánh Random forest với thông số khác (3) MaxDepth NumFeature NumTree Độ xác 5 10 78.4367% 5 20 78.7062% 5 25 79.3801% 5 30 80.1887% 5 50 79.9191% 5 100 80.0539% 5 200 81.5364% 5.4DEMO chương trình “Ứng dụng random forest hỗ trợ phân ban lớp học trường THPT” Hình 48 Đăng nhập hệ thống chương trình Màn hình giao diện chương trình : Hình 49 : hình giao diện chương trình 74 Chương trình gồm thành phần sau đây: + Data_school (dữ liệu trường THCS): Dữ liệu trường THCS địa bàn tuyển sinh nhà trường (trường THCS Chu Văn An, THCS Hàng Gòn, THCS Nguyễn Trãi, THCS Hồ Thị Hương, THCS Lê A, THCS Xuân Lập, THCS Xuân Thiện, …) Hình 50 Dữ liệu trường THCS + DataSetTemplate (tập liệu huấn luyện): Sử dụng liệu kết học tập THCS lớp 6, lớp 7, lớp lớp 742 học sinh trường THCS tuyển sinh vào lớp 10 trường THPT Trần Phú năm học trước Hình 51 Dữ liệu tập huấn luyện 75 + Cây Quyết định: Tập liệu huấn luyện ta sử dụng khai phá liệu sử dụng phần mềm Weka, dùng thuật toán Random forest để đưa định dự đốn Hình 52 Cây định + Counseling (tư vấn): Khi đưa liệu cần tư vấn vào hệ thống dựa liệu huấn luyện thuật toán Random forest cho kết phân ban KHTN hay ban KHXH Hình 53 Kết tư vấn phân ban KHTN, ban KHXH Dữ liệu phân ban học sinh kết xuất file dạng pdf , word, excel để dán tin cho em tham khảo qua giúp em có nhìn tốt việc lựa chọn ban học cho 76 Hình 54 Kết phân ban KHTN, KHXH 77 CHƯƠNG 6: KẾT LUẬN Về mặt lý thuyết, luận văn trình bày sở lý thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán định random forest Nghiên cứu quy trình triển khai ứng dụng khai phá liệu, ứng dụng random forest để tạo mơ hình phân lớp, bước quan trọng quy trình khai phá liệu Đối với toán phân ban lớp học, luận văn xây dựng mơ hình phân lớp dự Random Forest, đánh giá độ xác mơ hình so sánh với số mơ hình phân lớp thường sử dụng phân lớp phương pháp định, phương pháp Bayes kết cho thấy random forest cho kết tốt Bên cạnh đó, luận văn xây dựng chương trình demo cho thuật tốn random forest với ứng dụng phân ban lớp học KHTN, KHXH cho học sinh tạo tảng từ lớp 10 đến lên lớp 12 em vững vàng với kiến thức cách thi Bộ GD&ĐT đề thi TNTHPT năm theo ban KHTN, KHXH Với khả ứng dụng kết này, giúp hỗ trợ cho nhà trường việc định việc em đầu cấp từ lớp lên lớp 10 chọn lựa ban học phù hợp với lực, đam mê theo sở thích em, tạo điều kiện em say mê, hứng thú học tập giúp em chọn ngành nghề cho trường đại học thuận tiện theo lực thân Nhìn chung luận văn hoàn thành mục tiêu đề Để đưa mơ hình phân ban lớp học KHTN, KHXH vào thực tiễn năm cần thu thập liệu học sinh nhiều hơn, phong phú Có thể nhận thấy việc ứng dụng Random Forest để phân ban lớp học mang lại hiệu cao so với phương pháp thường sử dụng Với đề tài luận văn phản ánh phần kết hỗ trợ phân ban lớp học theo lực học sinh Tuy nhiên bên cạnh việc kết khơng cao so với mong đợi nhiều nguyên nhân khách quan, chủ quan như: Dữ liệu không đủ lớn Hành vi không xác định rõ ràng (nhãn KHTN, KHXH không gán liệu cách xác) Dữ liệu lịch sử nhà trường chưa thật chuẩn đưa dự đoán thấp Tập huấn luyện học sinh đăng ký ban KHTN, KHXH chưa TÀI LIỆU THAM KHẢO Tiếng Việt [1] Giáo trình Khai phá liệu (Data Mining) Biên soạn: PGS.TS Đỗ Phúc, nhà xuất ĐH Quốc Gia TP HCM, năm 2017 [2] Nguyễn Hoàng Tú Anh (2009), Giáo trình “Khai thác liệu ứng dụng”, Đại học KHTN TP.HCM [3] Trương Minh Văn (2012), Luận văn thạc sỹ “Khai phá liệu có canh tác liệu ứng dụng khai phá liệu y khoa”, Đại học Lạc Hồng Tiếng Anh [4] IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees [5] Han, J., & Kamber, M (2006) Data Mining: Concepts and Techniques (Second editor, Vols 1, 6) Morgan Kaufmann [6] mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley &Sons [7] Mitchell, T.M.(1997) Machine Learning (Vol.3) McGraw-Hill Science/Engineering/Math [8] Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 Trang web [9] Trang web Leo Breiman and Adele Cutler, Random Forest, http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ... Trần Văn Hồi tơi chọn đề tài ? ?Ứng dụng Random forest phân ban lớp học cho học sinh trung học phổ thông” 1.2 Mục tiêu luận văn - Nghiên cứu khai phá liệu, phân lớp liệu random forest - Ứng dụng. .. pháp ? ?Ứng dụng Random forest hỗ trợ phân ban học sinh trường trung học phổ thông” Luận văn hỗ trợ phần cho việc phân ban học sinh vào lớp học phù hợp cho em 3.2 Cách xét tuyển vào lớp 10 trường. .. ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ***** THÁI HUY TÂM ỨNG DỤNG RANDOM FOREST GIÚP PHÂN BAN LỚP TRONG TRƯỜNG TRUNG HỌC PHỔ THÔNG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Mà SỐ: 8480201 LUẬN VĂN THẠC SĨ CÔNG