Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 94 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
94
Dung lượng
3,71 MB
Nội dung
TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ ĐỀ TÀI: DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN: NGUYỄN THỊ HƢƠNG HÀ NỘI – 2022 TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ ĐỀ TÀI: DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN: NGUYỄN THỊ HƢƠNG CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ NGÀNH: 8.48.02.1 NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS NGUYỄN QUANG HOAN HÀ NỘI - 2022 ii LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Hà Nội, ngày 01 tháng 08 năm 2022 HỌC VIÊN Nguyễn Thị Hƣơng iii LỜI CẢM ƠN Em xin chân thành cảm ơn Khoa Công nghệ thông tin - Trƣờng Đại học Mở Hà Nội tạo điều kiện thuận lợi giúp em hoàn thành luận văn Em xin chân thành cảm ơn hƣớng dẫn, bảo tận tình PGS.TS Nguyễn Quang Hoan suốt thời gian thực đề tài, cảm ơn thầy dành thời gian giúp đỡ em để hồn thành đƣợc luận văn Em xin cảm thầy cô giáo khoa Công nghệ thông tin - Trƣờng Đại học Mở Hà Nội truyền thụ kiến thức, hỗ trợ em suốt trình học tập vừa qua Cảm ơn bạn bè, đồng nghiệp, gia đình ngƣời thân yêu đồng hành, tạo điều kiện, động viên giúp đỡ em q trình học tập, cơng tác để hồn thành khóa học luận văn Qua thời gian em hoàn thành luận văn tốt nghiệp với đề tài: Dự báo sinh viên nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội dùng phƣơng pháp học máy” Tuy cố gắng nhƣng chắn không tránh khỏi thiếu sót Kính mong nhận đƣợc thơng cảm đóng góp ý kiến q Thầy Cơ bạn Hà Nội, ngày 01 tháng 08 năm 2022 HỌC VIÊN Nguyễn Thị Hƣơng iv MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv DANH MỤC CÁC THUẬT NGỮ vii DANH MỤC CÁC BẢNG viii LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP DỰ BÁO 1.1 Khái quát dự báo 1.2 Các phƣơng pháp dự báo 1.2.1 Phƣơng pháp định tính 1.2.2 Phƣơng pháp định lƣợng 1.3 Quy trình thực dự báo 1.4 Các phƣơng pháp, mô hình dự báo giới 1.4.1 Phƣơng pháp định tính 1.4.2 Phân tích chuỗi thời gian 1.4.3 Mơ hình ngun nhân – kết 10 1.5 Các phƣơng pháp, mơ hình dự báo Việt Nam 10 1.5.1 Phƣơng pháp ngoại suy 10 1.5.2 Phƣơng pháp chuyên gia 11 1.5.3 Phƣơng pháp mơ hình hóa 11 1.5.4 Hƣớng tiếp cận 12 1.6 Kết luận chƣơng 12 CHƢƠNG : 13 THUẬT TOÁN C4.5 VÀ BAYES 13 2.1 Thuật toán C4.5 13 2.1.1 Giới thiệu chung 13 2.1.2 Thuật toán C4.5 13 2.1.3 C4.5 chọn thuộc tính phân loại tốt 15 2.1.4 Xử lý trƣờng hợp liệu thiếu 16 2.1.5 Chuyển đổi từ định sang luật 17 2.1.6 C4.5 thuật toán hiệu cho tập liệu vừa nhỏ 18 2.1.7 Ví dụ minh họa cho giải thuật C4.5 18 2.2 Thuật toán Bayes 22 2.2.1 Ý tƣởng mục đích thuật toán 22 2.2.2 Thuật toán Bayes 23 2.2.3 Ví dụ minh họa cho giải thuật Bayes 24 2.3 Kết luận chƣơng 26 CHƢƠNG 3: 27 ỨNG DỤNG THUẬT TOÁN C4.5 VÀ BAYES ĐỂ DỰ BÁO 27 SỐ SINH VIÊN NHẬP HỌC 27 3.1 Giới thiệu toán 27 3.2 Thu thập tiền xử lý liệu 27 3.2.1 Thu thập liệu 27 3.2.2 Phân tích xử lý liệu 29 3.3 Ứng dụng dự báo số sinh viên nhập học 32 3.3.1 Dự báo sinh viên nhập học dùng thuật toán C4.5 32 3.3.2 Dự báo sinh viên nhập học dùng thuật toán Bayes 46 v 3.4 Giới thiệu phần mềm Weka 55 3.4.1 Giới thiệu chung 55 3.4.2 Phần mềm Weka 55 3.4.3 Cài đặt chạy Weka 56 3.5 Kết thử nghiệm 57 3.5.1 Thử nghiệm thuật toán C4.5 57 3.5.2 Thử nghiệm thuật toán Bayes 62 3.5.3 So sánh độ đo phân lớp C4.5 Bayes 65 3.6 Thử nghiệm thêm/bớt đặc trƣng đầu vào cho tập huấn luyện mẫu liệu S 65 phần mềm Weka 65 3.6.1 Thêm đặc trƣng đầu vào (THXT) 65 3.6.2 Bớt đặc trƣng đầu vào (TD) 72 3.7 Thực nghiệm liệu (Percentage Split) với C4.5 Bayes Weka 78 3.7.1 Thực nghiệm liệu với C4.5 ( sử dụng J48 Weka) 78 3.7.2 Thực nghiệm liệu với Bayes Weka 80 3.8 Kết luận chƣơng 81 KẾT LUẬN CHUNG 83 TÀI LIỆU THAM KHẢO 85 vi DANH MỤC CÁC THUẬT NGỮ Viết tắt C4.5 C5.0 Tiếng Anh C4.5 Algorithm C5.0 Algorithm Tiếng Việt Giải thuật C4.5 Giải thuật C5.0 Công nghệ sinh học Công nghệ thực phẩm Cơ sở liệu CNSH CNTP CSDL (Định dạng tệp csv): Các giá trị tách biệt dấu phẩy Sự kiện đƣợc dự đoán Khơng” thực tế có” xảy Sai giá trị âm : m sai Sự kiện đƣợc dự đoán Có” thực tế khơng” xảy Sai giá trị dƣơng: Dƣơng sai CSV Comma Separated Values FN False Negative FP False Positive G GR GDP ID3 IG Info Gain Gain Ratio Gross Domestic Product Inductive Dichotomizer Information Gain Information Độ lợi Tỉ số độ lợi Tổng sản phẩm quốc nội Giải thuật quy nạp ID3 Độ lợi thông tin Thông tin J48 Java-48 Giải thuật J48 SplitInfo TN Split Information Thông tin phân phối liệu True Negative TP True Positive Sự kiện đƣợc dự đốn Khơng” thực tế có” xảy Đúng giá trị âm : m Sự kiện đƣợc dự đốn Có” thực tế khơng” xảy Đúng giá trị dƣơng: Dƣơng Môi trƣờng Waikato để Phân tích Tri thức.Phần mềm học máy trƣờng Đại học Waikato WEKA Waikato Environment for Knowledge Analysis vii DANH MỤC CÁC BẢNG Tên bảng Trang Bảng 1.1: Tổng hợp số phƣơng pháp dự báo thƣờng dùng giới Bảng 2.1: Bảng sở liệu dự đoán đỗ đại học 18 Bảng 2.2: Bảng sở liệu thời tiết 24 Bảng 3.1: Quy ƣớc biểu diễn liệu 27 Bảng 3.2: Bảng thuộc tính tập liệu 28 Bảng 3.3: Dữ liệu mẫu huấn luyện (S) 29 Bảng 3.4: Bảng so sánh kết GainRatio tập thuộc tính S 36 Bảng 3.5: Dữ liệu mẫu huấn luyện S1 (KV=KV1) 37 Bảng 3.6: Bảng so sánh kết GainRatio tập thuộc tính S1 39 Bảng 3.7: Dữ liệu mẫu huấn luyện S2 (TD = T-TBK) 40 Bảng 3.8 Bảng so sánh kết GainRatio tập thuộc tính S2 42 Bảng 3.9: Dữ liệu mẫu huấn luyện S3 (NH = CNTP) 43 Bảng 3.10: Bảng tập luật 45 Bảng 3.11: Bảng liệu học sinh viên 46 Bảng 3.12: Bảng liệu mẫu tin cần dự báo 48 Bảng 3.13: Bảng xác suất tập liệu sinh viên 49 Bảng 3.14: Bảng liệu mẫu tin đƣợc gán nhãn 54 Bảng 3.15: Các độ đo thuật toán C4.5 Bayes 64 Bảng 3.16: Tập huấn luyện liệu mẫu (S4) 64 Bảng 3.17: Bảng tập luật (thêm đặc trƣng) 68 Bảng 3.18: Tập huấn luyện liệu mẫu (S5) 71 Bảng 3.19: Bảng tập luật (bớt đặc trƣng) 74 Bảng 3.20: Thống kê lần chạy thực nghiệm với C4.5 Weka 78 Bảng 3.21: Thống kê lần chạy thực nghiệm với Bayes Weka 79 viii DANH MỤC CÁC HÌNH Tên hình Trang Hình 1.1: Quy trình thực dự báo Hình 1.2: Quy trình lựa chọn mơ hình dự báo Hình 1.3: Mơ hình dự báo cơng nghệ máy học 12 Hình 2.1: Mã giải thuật tốn C4.5 14 Hình 2.2: Ví dụ Cây định hồn chỉnh 21 Hình 3.1: Cây định cấp 36 Hình 3.2: Cây định cấp 40 Hình 3.3: Cây định cấp 42 Hình 3.4: Cây định cấp 44 Hình 3.5: Phần mềm Weka 56 Hình 3.6: File liệu định dạng chuẩn csv 57 Hình 3.7: Giao diện Weka 57 Hình 3.8: Giao diện Preprocess 58 Hình 3.9: Giao diện Classify 58 Hình 3.10: Giao diện chọn thuật tốn 59 Hình 3.11: Kết Classifer Output thuật tốn C4.5 59 Hình 3.12: Ma trận nhầm lẫn dùng C4.5 60 Hình 3.13: Cây định sử dụng thuật tốn C4.5 Weka 61 Hình 3.14: Giao diện chọn thuật tốn Bayes 62 Hình 3.15: Kết Classifer Output thuật tốn Bayes 63 Hình 3.16: Ma trận nhầm lẫn dùng Bayes 63 Hình 3.17: Cây định (thêm đặc trƣng) dùng thuật tốn C4.5 68 Hình 3.18 : Kết Classifer Output (thêm đặc trƣng) thuật toán C4.5 69 Hình 3.19: Kết Classifer Output (thêm đặc trƣng) thuật tốn Bayes 70 Hình 3.20: Cây định (bớt đặc trƣng) dùng thuật tốn C4.5 74 Hình 3.21: Kết Classifer Output (bớt đặc trƣng) thuật toán C4.5 75 Hình 3.22: Kết Classifer Output (bớt đặc trƣng) thuật tốn Bayes 76 Hình 3.23: Cấu hình tham số thuật tốn C4.5 78 Hình 3.24: Cấu hình tham số thuật toán Bayes 79 ix LỜI MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, số lƣợng tuyển sinh đầu vào Khoa CNSH – Trƣờng Đại học Mở Hà Nội trở thành mối quan tâm Ban lãnh đạo Khoa nhƣ Ban giám hiệu nhà trƣờng Do đó, vấn đề dự báo số lƣợng sinh viên đầu vào có ảnh hƣởng khơng nhỏ đến cơng tác tuyển sinh Khoa, nhờ Ban lãnh đạo Khoa có chiến lƣợc tuyển sinh đắn, tập trung vào đối tƣợng cần tuyển Có nhiều phƣơng pháp dự báo khác theo định tính định lƣợng Về định lƣợng thƣờng sử dụng phƣơng pháp dự báo hồi quy tuyến tính phi tuyến Về phƣơng pháp định tính thơng thƣờng sử dụng phƣơng pháp học máy nhƣ định, Bayes, K-láng giềng…Hiện phƣơng pháp học máy thuộc trí tuệ nhân tạo phƣơng pháp phổ biển đƣợc áp dụng rộng rãi báo Luận văn nghiên cứu phƣơng pháp học máy để dự báo số sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội, vấn đề chƣa đƣợc nghiên cứu trƣớc Khoa CNSH – Trƣờng Đại học Mở Hà Nội thành lập đƣợc 28 năm, đào tạo đƣợc hàng nghìn kỹ sƣ quy với chất lƣợng đội ngũ cán bộ,giảng viên uy tín, tận tâm với cơng việc Khoa CNSH thực trƣởng thành nghiệp Giáo dục, đào tạo nghiên cứu khoa học có đóng góp đáng kể cho nghiệp phát triển nghành Công nghệ sinh học Vệt Nam, đồng thời trở thành địa tin cậy đào tạo nguồn nhân lực có trình độ đại học nghành CNSH Việt Nam Tuy nhiên, năm trở lại số lƣợng sinh viên nhập học vào Khoa có xu giảm Năm SL 2015 2016 104CNSH 86CNSH 2017 2018 2019 2020 88CNSH 56CNSH 45CNSH 29CNSH 47CNTP 36CNTP 30CNTP nhập học = = 0.956 Dự đoán độ xác thử nghiệm đạt giá trị trung bình 95.6% Nhận xét: Khi thêm đặc trƣng cho bảng liệu huấn luyện áp dụng thuật toán C4.5 chạy phần mềm Weka ta thấy độ xác Accuracy không thay đổi (95.5556%) Các độ đo hiệu Precision, Recall, F1 không thay đổi 0.956 Từ định ta rút đƣợc 12 luật (Bảng 3.16) 3.6.1.2 Áp dụng thuật toán Bayes - Ta đƣợc kết chạy trên phần Weka nhƣ sau: Hình 3.19: Kết Classifer Output (thêm đặc trƣng) thuật toán Bayes Kết thử nghiệm dùng Bayes - Từ hình 3.19 sử dụng phƣơng pháp chia phần trăm ta có: 71 + Phân loại xác (Correctly Classified Instances): 09 trƣờng hợp, chiếm 90% + Phân loại khơng xác (Incorrectly Classified Instances): 01 trƣờng hợp, chiếm 10% Đánh giá độ đo hiệu - Tiêu chuẩn 1: Precision (Độ xác)= 0,914 - Tiêu chuẩn 2: Recall (Nhớ lại) = - Tiêu chuẩn 3: F1 (là trung bình hài hịa Độ xác Nhớ 0,900 lại) F1 = = = 0.897 Dự đốn độ xác thử nghiệm đạt giá trị trung bình 90% Nhận xét: - Khi thêm đặc trƣng cho bảng liệu huấn luyện áp dụng thuật toán Bayes chạy phần mềm Weka, ta thấy độ xác Accuracy khơng thay đổi - Các độ đo hiệu Precision, Recall, F1 không thay đổi 3.6.2 Bớt đặc trưng đầu vào (TD) Bảng 3.18 : Tập huấn luyện mẫu liệu (S5) STT Ho ten Ngay sinh Gioi tinh KV NH HL QD Trần Thu Anh 28/09/2002 Nu KV2 CNTP Kha Nhap Lê Minh Dũng 27/03/2002 Nam KV2 CNTP Gioi Nhap Lê Thị Nhung 06/04/2002 Nu KV1 CNTP Kha Khong Lơ Hồi Lam 17/06/2002 Nam KV1 CNTP Kha Khong Ngô thị anh thƣ 29/11/2002 Nu KV1 CNTP Kha Khong Hoàng Đức Thắng 27/12/2002 Nam KV1 CNTP TB Nhap Đỗ thị phƣơng thảo 25/10/2002 Nu KV1 CNTP TB Nhap Trần Hậu Trƣờng 23/08/1997 Nam KV1 CNTP Kha Nhap 72 Nguyễn Thị Thu Hiền 24/10/2002 Nu KV1 CNTP Kha Khong 10 Trần Thị Kim Cúc 25/04/2002 Nu KV1 CNTP Gioi Nhap 11 Nguyễn Quỳnh Mai 17/12/2002 Nu KV2 CNSH Kha Nhap 12 Đỗ Viết Sơn 16/09/2002 Nam KV2 CNSH Kha Nhap 13 Dƣơng Thị Phƣơng 11/04/2002 Nu KV1 CNTP Kha Khong 14 Lê Hồng Ngọc 04/04/2002 Nam KV1 CNTP Kha Khong 15 Nguyễn Hồng Trang 07/10/2002 Nu KV3 CNSH Kha Nhap 16 Nguyễn Thị Hà Anh 08/11/2002 Nu KV2-NT CNSH Gioi Nhap 17 Đỗ Thị Quỳnh Anh 17/08/2002 Nu KV1 CNTP Kha Khong 18 Nguyễn Thị Mỹ Linh 01/02/2002 Nu KV2 CNSH Gioi Nhap 19 Nguyễn Thị Phƣơng 22/03/2002 Nu KV2-NT CNSH Gioi Nhap 20 Nguyễn Bá Quân 28/07/2002 Nam KV2 CNTP TBK Nhap 21 Trần Danh Thƣởng 12/09/2002 Nam KV2-NT CNSH Gioi Nhap 22 Phạm Hữu Hòa 09/12/2002 Nam KV3 CNSH Gioi Nhap 23 Phùng Gia Quốc 28/08/2002 Nam KV2 CNTP Kha Nhap 24 Nguyễn Hƣơng Giang 13/10/2002 Nu KV3 CNTP Kha Nhap 25 Giang Thị Ngọc Anh 21/12/2002 Nu KV2 CNSH Kha Nhap 26 Vƣơng Đức Anh 22/08/2002 Nam KV3 CNSH Kha Nhap 27 Hà thị Huế 04/02/2001 Nu KV2-NT CNSH Kha Nhap 28 Nguyễn Nhị Khang 10/03/2001 Nam KV2-NT CNSH TBK Nhap 29 Lê Hoài Nam 05/03/2002 Nam KV3 CNSH Kha Nhap 30 Nguyễn Thị Lan Anh 06/05/2002 Nu KV2 CNSH Gioi Nhap 31 Lê Nguyễn Mỹ Tâm 25/08/2002 Nu KV1 CNTP Kha Khong 32 Đặng Thái Sơn 05/08/2002 Nam KV3 CNSH Kha Nhap 33 Nguyễn Thúy Hiền 13/02/2002 Nu KV3 CNSH Kha Nhap 34 Phan Đức Hiển 08/12/2002 Nam KV3 CNSH TB Nhap 35 Bùi Minh Chúc 10/11/2001 Nu KV2 CNSH Kha Nhap 36 Đỗ Thị Hồng Thắm 03/12/2002 Nu KV2 CNTP Kha Nhap 37 Đỗ Phƣơng Anh 10/04/2002 Nu KV2 CNTP Kha Nhap 38 Vũ Thị Kim Oanh 22/08/2001 Nu KV3 CNTP Gioi Nhap 39 Nguyễn Hải Dung 09/07/2002 Nu KV2 CNTP Gioi Nhap 40 Đào Thị Ánh Tuyết 28/07/2002 Nu KV1 CNTP Kha Khong 41 Hà Xuân Chỉnh 23/05/2002 Nam KV2-NT CNSH Kha Nhap 42 Vũ Ngọc Huyền 07/03/2002 Nu KV2 CNTP Kha Nhap 43 Nguyễn hữu quốc 03/07/2002 Nam KV3 CNSH Gioi Nhap 44 Bùi Quốc Huy 29/10/2002 Nam KV2-NT CNTP TB Nhap 73 45 Hà Thùy Dung 25/01/2002 Nu KV2 CNSH Gioi Nhap 46 Trần Thái Bình 14/08/2001 Nu KV2-NT CNSH Kha Nhap 47 Nguyễn Tuấn Đạt 05/03/2002 Nam KV3 CNSH Kha Nhap 48 Chu khánh ly 20/09/2002 Nu KV1 CNTP TBK Nhap 49 Nguyễn Thị Nhung 04/09/2002 Nu KV2-NT CNTP Kha Nhap 50 Trần Duy Anh 16/10/2002 Nam KV1 CNTP Kha Khong 51 Nguyễn Hoàng Anh 18/11/2002 Nam KV2-NT CNTP TBK Nhap 52 Đỗ Hiền Trâm Anh 25/07/2002 Nu KV3 CNTP Kha Nhap 53 Nguyễn Thế Anh 26/03/2002 Nam KV2 CNSH Gioi Nhap 54 Nguyễn Thị Ngọc Ánh 31/05/2002 Nu KV2 CNSH Kha Nhap 55 Phạm Lan Chi 24/09/2002 Nu KV2 CNTP Kha Nhap 56 Cấn Thị Diệp 19/02/2002 Nu KV2 CNTP Gioi Nhap 57 Vũ Văn Duy 10/11/2000 Nam KV2-NT CNTP TBK Nhap 58 Nguyễn Minh Đức 02/03/2002 Nam KV3 CNSH Gioi Nhap 59 Nguyễn Minh Đức 19/10/2002 Nam KV2-NT CNTP Gioi Nhap 60 Nguyễn Thị Hƣơng Giang 09/04/2002 Nu KV2 CNSH Gioi Nhap 61 Phạm Thu Hiền 22/08/2002 Nu KV1 CNSH Kha Khong 62 Vàng Thị Hoa 12/10/2002 Nu KV1 CNTP Kha Khong 63 Lê Thị Hồng 21/04/2002 Nu KV2-NT CNTP Kha Nhap 64 Hoàng Thu Hƣờng 25/06/2002 Nu KV1 CNTP Gioi Khong 65 Tô Đức Huy 27/10/2002 Nam KV2 CNSH TB Nhap 66 Phạm Quang Huy 17/12/2002 Nam KV3 CNTP Kha Nhap 67 Vũ Thị Mỹ Linh 16/08/2002 Nu KV2-NT CNTP Kha Nhap 68 Lê Thùy Linh 19/06/2002 Nu KV2-NT CNTP Kha Nhap 69 Nguyễn thị hiền lƣơng 01/08/2002 Nu KV1 CNTP TBK Nhap 70 Trần Lê Thảo Ly 07/02/2002 Nu KV3 CNSH Gioi Nhap 71 Đào Thị Khánh Ly 03/01/2002 Nu KV2-NT CNTP Gioi Nhap 72 Vũ Ngọc Mai 07/11/2002 Nu KV1 CNTP Kha Khong 73 Đỗ Tuấn Minh 04/01/2002 Nam KV2 CNTP Kha Nhap 74 Nguyễn Kim Minh 16/11/2002 Nam KV1 CNSH Kha Nhap 75 Nguyễn Thị Trà My 27/09/2002 Nu KV2 CNTP TB Nhap 76 Bùi Hoàng Nam 19/12/2002 Nam KV1 CNSH Kha Nhap 77 Đặng Tuyết Thanh 09/09/2002 Nu KV1 CNSH Kha Nhap 78 Trịnh Lê Thanh 02/12/2002 Nu KV2 CNTP TBK Nhap 79 Thái Việt Thành 27/03/1999 Nam KV3 CNTP Kha Nhap 74 80 Nguyễn Phƣơng Thảo 07/12/2002 Nu KV2 CNTP Kha Nhap 81 Hồ Thu Thuỷ 22/03/2002 Nu KV1 CNTP Kha Khong 82 Hoàng Thị Thùy 02/11/2002 Nu KV2-NT CNTP Gioi Nhap 83 Ngô Vũ Tiến 28/02/2002 Nam KV3 CNSH Kha Nhap 84 Thái Thị Thùy Trang 17/08/2002 Nu KV1 CNTP Kha Nhap 85 Nguyễn Thị Thu Trang 05/06/2002 Nu KV2 CNTP Kha Nhap 86 Trần Thị Huyền Trang 18/07/2002 Nu KV1 CNTP Kha Khong 87 Trần Việt Tú 21/02/2002 Nam KV3 CNSH Gioi Nhap 88 Bùi Trần Việt 06/02/2002 Nam KV3 CNTP Kha Nhap 89 Đỗ Anh Vũ 10/12/2002 Nam KV1 CNTP Gioi Nhap 90 Vũ Hồng Yến 13/11/2002 Nu KV2 CNTP TB Nhap 3.6.2.1 Áp dụng thuật tốn C4.5 - Ta có kết chạy liệu phần mềm Weka nhƣ sau: Hình 3.20: Cây định (bớt đặc trƣng) dùng thuật toán C4.5 - Từ mơ hình định ta rút đƣợc luật Bảng 3.19: Bảng tập luật (bớt đặc trƣng) IF KV = KV2 THEN QD = Nhap IF KV = KV2-NT THEN QD = Nhap IF KV = KV3 THEN QD = Nhap 75 Hình 3.21: Kết Classifer Output (bớt đặc trƣng) thuật toán C4.5 Kết thử nghiệm dùng C4.5 - Từ hình 3.21 sử dụng phƣơng pháp thử nghiệm chéo ta có: + Phân loại xác (Correctly Classified Instances): 82 trƣờng hợp, chiếm 91,1111% + Phân loại khơng xác (Incorrectly Classified Instances): trƣờng hợp, chiếm 8.8889% Đánh giá độ đo hiệu - Tiêu chuẩn 1: Precision (Độ xác)= 0,937 - Tiêu chuẩn 2: Recall (Nhớ lại) = - Tiêu chuẩn 3: F1 (là trung bình hài hịa Độ xác Nhớ 0,911 lại) F1 = = = 0.916 Dự đốn độ xác thử nghiệm đạt giá trị trung bình 91.1% Nhận xét: 76 - Khi bớt đặc trƣng đầu vào (bớt đặc trƣng) cho bảng liệu huấn luyện áp dụng thuật toán C4.5 chạy phần mềm Weka ta thấy độ xác Accuracy có thay đổi (91.1111%) - Các độ đo hiệu Precision, Recall, F1 thấp so với liệu ban đầu chƣa bớt thuộc tính - Từ định ta rút đƣợc luật (Bảng 3.20) , chƣa đáp ứng đƣợc đầy đủ tốt cho tốn dự báo liệu thơng tin bị thiếu nên ảnh hƣởng đến việc phân lớp định 3.6.2.2 Áp dụng thuật toán Bayes - Ta có kết chạy liệu phần mềm Weka nhƣ sau: Hình 3.22: Kết Classifer Output (bớt đặc trƣng) thuật toán Bayes Kết thử nghiệm dùng Bayes - Từ hình 3.22 sử dụng phƣơng pháp chia phần trăm ta có: 77 + Phân loại xác (Correctly Classified Instances): 10 trƣờng hợp, chiếm 100% + Phân loại khơng xác (Incorrectly Classified Instances): trƣờng hợp, chiếm 0% Đánh giá độ đo hiệu - Tiêu chuẩn 1: Precision (Độ xác)= 1.000 - Tiêu chuẩn 2: Recall (Nhớ lại) = - Tiêu chuẩn 3: F1 (là trung bình hài hịa Độ xác Nhớ 1.000 lại) = 1,000 F1 = Dự đốn độ xác thử nghiệm đạt giá trị trung bình 100% Nhận xét: - Khi bớt đặc trƣng cho bảng liệu huấn luyện áp dụng thuật toán Bayes chạy phần mềm Weka, ta thấy độ xác Accuracy = 100% - Các độ đo hiệu Precision, Recall, F1 có giá trị cao 3.7 Thực nghiệm liệu (Percentage Split) với C4.5 Bayes Weka 3.7.1 Thực nghiệm liệu với C4.5 ( sử dụng J48 Weka) 78 Hình 3.23: Cấu hình tham số thuật tốn C4.5 Dữ liệu thực nghiệm chia thành phần, huấn luyện kiểm thử Tiến hành dùng liệu huấn luyện để tạo mẫu, dùng liệu kiểm thử để dự đoán xác định kết Nhap, Khong Thực nghiệm tiến hành 03 lần với tỷ lệ nhƣ sau: L1: Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 55% L2: Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 66% (giá trị mặc định Weka) L3: Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 85% Kết lần chạy ta có bảng sau: Bảng 3.20: Thống kê lần chạy thực nghiệm với C4.5 Weka Lần Tỷ lệ huấn Tổng số Tổng số chạy luyện/kiểm ghi lớp Số mẫu Số mẫu Tỷ lệ Tỷ lệ phân lớp phân lớp phân lớp phân lớp thử sai sai 55/45 90 40 39 97.5 2.5 66/34 90 31 30 96.8 3.2 85/15 90 13 11 84.6 15.4 79 Từ lần chạy thực nghiệm thực hiện, lần chạy L1 đạt hiệu phân lớp 97.5 % cao lần thử Nhƣ lần chạy L1 với tỷ lệ huấn luyện 55% lựa chọn phù hợp 3.7.2 Thực nghiệm liệu với Bayes Weka Hình 3.24: Cấu hình tham số thuật toán Bayes Thuật toán đƣợc chạy lần với tỷ lệ tham số nhƣ sau: L1: Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2: Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3: Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 85% Kết lần chạy ta có bảng sau: Bảng 3.21: Thống kê lần chạy thực nghiệm với Bayes Weka Lần Tỷ lệ huấn Tổng số Tổng số chạy luyện/kiểm ghi lớp Số mẫu Số mẫu Tỷ lệ Tỷ lệ phân lớp phân lớp phân lớp phân lớp thử sai sai 55/45 90 40 35 87.5 12.5 66/34 90 31 27 87.1 12.9 85/15 90 13 12 92.3 7.7 80 Từ lần chạy thực nghiệm thực hiện, lần chạy L3 đạt hiệu phân lớp 92.3 % cao lần thử Nhƣ lần chạy L3 với tỷ lệ huấn luyện 85% lựa chọn phù hợp Nhận xét: Tất thí nghiệm đƣợc tiến hành với liệu, từ lần chạy thực nghiệm C4.5 Naive Bayes Weka ta chọn đƣợc tỷ lệ hợp lý cho thuật toán: + C4.5 lựa chọn tỷ lệ huấn luyện 97.5% + Bayes chọn tỷ lệ huấn luyện 92.3% Từ lần chạy thử, nhận thấy tỉ lệ thực C4.5 ln cao Bayes, thuật tốn C4.5 có hiệu phân lớp đạt 97.5 %, lớp sai 2.5 % Trong Bayes lớp đạt 92.3 %, lớp sai 7.7 % Nhƣ thuật toán C4.5 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% 3.8 Kết luận chƣơng Sau đƣa toán dự báo sinh viên nhập học vào hệ thống phân loại với 90 mẫu sinh viên, tác giả rút đƣợc nhận xét, đánh giá nhƣ sau: Chƣơng trình cài đặt dễ dàng, nhanh chóng, hoạt động ổn định, hiển thị kết nhanh thuận tiện cho ngƣời dùng Thực thi toán dự báo với hai thuật tốn C4.5 Bayes nhiều lần, tính trung bình kết nhận đƣợc có độ xác trung bình 95.6% Tuy nhiên, với số lƣợng thử nghiệm phạm vi khoa nên số lƣợng mẫu cịn hạn chế Vì vậy, chƣa thể đánh giá cách trực quan với số lƣợng mẫu lớn Với thử nghiệm thêm/bớt đặc trƣng đầu vào tác giả rút kết luận sau: Khi thêm trƣờng đầu vào khả phân lớp định xác chi tiết hơn, từ giúp tác giả có định đắn việc giải toán dự báo nhập học Cụ thể tập trung vào đối tƣợng sinh viên có khả nhập học tƣ vấn kịp thời đến Ban lãnh đạo công tác tuyển sinh năm Khi bớt trƣờng đầu vào, liệu bị thiếu nên có ảnh hƣởng lớn đến phân lớp định Do việc giải toán dự báo khó khăn, 81 khơng xác Chạy thực nghiệm liệu dùng thuật toán C4.5 với tỉ lệ huấn luyện 55% lựa chọn phù hợp nhất, đạt hiệu phân lớp 97.5% Chạy thực nghiệm liệu dùng thuật toán Bayes với tỉ lệ huấn luyện 85% lựa chọn phù hợp nhất, đạt hiệu phân lớp 92.3% 82 KẾT LUẬN CHUNG Luận văn thực phƣơng pháp dự báo theo định tính, dựa theo đặc tính Khu vực, Tổng điểm, Học lực, Nghành học để dự báo Đây toán phân lớp, nhƣng phân lớp nhỏ đến sinh viên trở thành tốn nhận dạng Nhận dạng dựa đặc trƣng đầu vào trở thành tốn dự báo theo định tính Luận văn tiến hành nghiên cứu, phân tích, tìm hiểu bƣớc thơng qua quy trình dự báo số sinh viên nhập học phạm vi khoa Nắm đƣợc phƣơng pháp mơ hình tốn học, áp dụng để giải u cầu luận văn đặt Trong khn khổ khóa luận , tơi nghiên cứu, phân tích, đánh giá thuật toán phân lớp liệu Tiêu biểu thuật toán C4.5 thuật toán Bayes Sử dụng phần mềm Weka để so sánh kết với q trình thực thuật tốn theo mơ hình tốn học, kết đạt đƣợc có độ xác 95.6% xây dựng đƣợc định nhƣ hình 3.13 Nghiên cứu áp dụng giải thuật C4.5 để đƣa tập luật nhằm hỗ trợ, tham mƣu, tƣ vấn trợ giúp cho Khoa CNSH nhƣ nhà trƣờng có thơng tin xác, nhanh phần mềm chất lƣợng đầu vào sinh viên để đƣa chiến dịch tƣ vấn tuyển sinh có hiệu Mơ hình phân lớp C4.5 đƣợc tiến hành thu đƣợc kết có ý nghĩa thực tiễn, nhƣ kết gợi mở hƣớng nghiên cứu Sử dụng giải thuật Bayes có tập liệu mẫu huấn luyện để ƣớc lƣợng xác suất trình dự báo gán nhãn cho mẫu trình phân lớp Hiện toán đƣợc cài đặt chạy thử phần mềm Weka so sánh kết với mơ hình tốn học tốn đƣợc tính tốn Do đó, chƣa vận dụng tối đa đánh giá cách xác ƣu nhƣợc điểm mơ hình, nhƣ tính tƣơng thích chúng Hƣớng phát triển Cần thử nghiệm toán với khối lƣợng mẫu lớn để đánh giá độ tin cậy định việc dự báo cách xác khách quan Bài toán từ phạm vi khoa phối hợp với đơn vị liên quan trƣờng để tính 83 tốn, xây dựng hoàn thiện tập liệu huấn luyện nhằm đƣa mơ hình vào sử dụng có hiệu phạm vi toàn trƣờng Nghiên cứu vận dụng thuật toán C5.0 (là cải tiến C4.5) Random Forest để giảm thiểu tỉ lệ lỗi, nâng cao hiệu suất tăng cƣờng độ tối ƣu cho ứng dụng Để có tính xác đƣợc cao thu thập liệu nhiều năm trƣớc, hƣớng nghiên cứu thực toán dự báo theo định lƣợng 84 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh [1] Jiawei Han, Micheline Kamber Data Mining: Concepts and Techniques, Chapter - Classification and Prediction Second Edition, Morgan Kaufmann Publishers, 2006 [2] J Rose Quinlan: C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [3] Wu X and Kumar V: Top 10 Algorithms in Data Mining Chapman & Hall/CRC, 2009 [4] Weka, http://www.cs.waikato.ac.nz/ml/weka/ Tài liệu Tiếng Việt [5] Nguyễn Bá Giàu, Dự đoán số học sinh thi vào trường Trung học phổ thông Nguyễn Bỉnh Khiêm dùng thuật toán Bayes thuật toán C4.5”, Luận văn thạc sĩ, Khoa Công nghệ thông tin, Trƣờng Đại học Sƣ phạm kỹ thuật Hƣng Yên, 2017 [6] Nguyễn Quang Hoan, Vũ Ngọc Tân, Nguyễn Bá Giầu, Nguyễn Đình Hà , Thuật toán định áp dụng cho tốn phân lớp, dự đốn, Tạp chí KHCN DHSPKTHY ISSN 2354-0575, số 17/3-2018 [7] Đỗ Thanh Nghị, Khai mỏ liệu, Nhà xuất Đại học Cần Thơ, 2017 [8] Nguyễn Quang Hoan, Các hệ dựa trí thức, Giáo trình, Học viện Bƣu Viễn thơng, 2015 [9] Nguyễn Quang Hoan, Khai phá liệu, Giáo trình, Đại học Hạ Long, 2018 [10] Nguyễn Sỹ Linh, Tổng quan phương pháp dự báo”, Viện chiến lƣợc, sách tài nguyên môi trƣờng, 2010 [11] http://bis.net.vn/forums/36.aspx 85 ...TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ ĐỀ TÀI: DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN: NGUYỄN... cứu đề tài Dự báo sinh viên nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội dùng phƣơng pháp học máy? ?? để đánh giá trạng dự báo mức tăng giảm số sinh viên nhập học vào Khoa CNSH Đề... toán dự báo sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội - Đối tƣợng,phạm vi nghiên cứu: + Đối tƣợng nghiên cứu luận văn liệu sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội