Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,36 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN PHÂN TÍCH VÀ CẢNH BÁO XU HƯỚNG HỌC TẬP CỦA SINH VIÊN Môn: Đồ án Giáo viên hướng dẫn: TS Nguyễn Lưu Thùy Ngân Sinh viên thực hiện: Đặng Khắc Lộc 17520694 Thành phố Hồ Chí Minh, năm 2021 LỜI NĨI ĐẦU Lời nói đầu, cho phép tơi xin cám ơn cô Nguyễn Lưu Thùy Ngân, cô người hướng dẫn tơi đến với lĩnh vực phân tích liệu học tập khó khăn thú vị Trong lĩnh vực rộng công nghệ thơng tin việc hướng dẫn cho bạn sinh viên điều khó khăn nên nên biết ơn cô, thầy cô nhóm nghiên cứu NLP trường Đại học Cơng nghệ thông tin tạo điều kiện cho học tập nghiên cứu môi trường chuyên nghiệp với mảng kiến thức đại Tôi xin gửi lời chúc sức khỏe mong điều thành công đến với cô Nguyễn Lưu Thùy Ngân tồn thể trường Đại học Cơng nghệ thơng tin Mặc dù tơi cố gắng hồn thành đề tài chắn khơng tránh khỏi thiếu sót Vì tơi kính mong nhận thơng cảm đóng góp ý kiến từ q thầy bạn đọc Tôi xin chân thành cảm ơn Tác giả: Đặng Khắc Lộc NHẬN XÉT CỦA GIẢNG VIÊN ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … ……………………………………………………………………………………… … …………………………………… Giảng viên hướng dẫn TS Nguyễn Lưu Thùy Ngân MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Giới thiệu chung 1.2 Các nghiên cứu liên quan đến đề tài 1.3 Mục tiêu thực đề tài 1.4 Phương pháp để thực hóa mục tiêu đề tài 1.5 Dữ liệu sử dụng CHƯƠNG CÁC NGUYÊN TẮC CHUẨN BỊ BỘ DỮ LIỆU 2.1 Giới thiệu chung 2.2 Làm liệu 2.3 Tích hợp liệu 2.4 Biến đổi (mã hóa) liệu 10 2.5 Rút gọn liệu 10 CHƯƠNG 12 CÁC MƠ HÌNH KHAI THÁC DỮ LIỆU 12 3.1 Naïve Bayes 12 3.1.1 Giới thiệu chung 12 3.1.2 Các phân phối thường dùng NBC 14 3.1.3 Ví dụ 16 3.1.4 Nhận xét thêm 18 3.2 Bayesian Network 19 3.2.1 Giới thiệu chung 19 3.2.2 Định nghĩa 19 3.2.3 Ví dụ 20 3.2.4 Mạng Bayes nhân 21 3.3.5 Học cấu trúc 22 3.3.6 Học tham số 22 3.3.7 Suy luận 23 3.3 Decision tree 24 3.3.1 Giới thiệu 24 3.3.2 Minh họa 27 3.3.3 Hàm số Entropy 28 3.3.4 Phương thức tính tốn 29 3.3.5 Ví dụ 31 3.3.6 Điều kiện dừng 35 3.3.7 Pruning 36 3.3.8 Nhận xét thêm 37 3.4 Bagging With Random Forest 38 3.4.2 Bootstrap 38 3.4.3 Bootstrap Aggregation (Bagging) 39 3.4.4 Random Forest 40 3.4.5 Nhận xét thêm 42 3.5 Multilayer neural network and backpropagation 42 3.5.1 Giới thiệu 42 3.5.2 Biểu diễn hàm XOR với nhiều perceptron 44 3.5.3 Layer 47 3.5.3 Units 48 3.5.4 Weights, Biases 48 3.5.5 Activation function 49 3.5.6 Backpropagation 52 CHƯƠNG 57 THÍ NGHIỆM 57 4.1 Giới thiệu 57 4.2 Thí nghiệm Nạve Bayes 59 4.3 Thí nghiệm Bayesian Network 62 4.4 Thí nghiệm Decision tree(J48) 66 4.5 Thí nghiệm Bagging With Random Forest 70 4.6 Thí nghiệm Multilayer neural network 74 CHƯƠNG 78 PHÂN TÍCH KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 78 5.1 Phân tích kết luận 78 5.2 Hướng phát triển 78 TÀI LIỆU THAM KHẢO 79 CHƯƠNG TỔNG QUAN 1.1 Giới thiệu chung “Theo Cơ quan Thống kê Giáo dục Đại học (HESA) Anh, tỷ lệ bỏ học sinh viên đại học tăng lên ba năm qua Số liệu thống kê công bố HESA tiết lộ tổng cộng 26.000 sinh viên Anh năm 2015 bỏ học từ chương trình học đăng ký sau năm Ngoài ra, số liệu thống kê cho thấy trình độ giáo dục đại học (HE) mà người học đạt cho tất cấp, bao gồm bậc đại học sau đại học, giảm từ 788.355 năm 2012/13 xuống 757.300 năm 2016/17” [1] Qua dẫn chứng thấy thực trạng sinh viên bỏ học không vấn đề đáng quan tâm nước phát triển hay nước chưa phát triển Mà nước lớn vấn đề nhức nhối cần nghiên cứu khắc phục Ảnh minh họa trường đại học Thách thức trường đại học Việt Nam: Chính từ tính chất quan trọng nêu việc dự đoán hiệu suất học tập sinh viên nhằm phát sớm sinh viên yếu để giúp họ lập kế hoạch học tập phù hợp nhu cầu cần thiết trường đại học, cụ thể cố vấn học tập ban giám hiệu nhà trường Bên cạnh đó, trường đại học Việt Nam triển khai theo học chế tín nên sinh viên thường bị lúng túng lựa chọn môn học có nhiều mơn giảng dạy học kỳ Khi đó, bên cạnh khả tự tìm hiểu sinh viên cần đến trợ giúp giáo viên cố vấn Tuy nhiên, bên cạnh kinh nghiệm giáo viên cố vấn phải tra cứu kết học tập sinh viên, tìm hiểu hồn tư chất sinh viên để trợ giúp tuỳ theo lực em, tốn thời gian cơng sức Vấn đề đặt để sử dụng nguồn liệu giáo dục để khai phá phân tích xu hướng học tập sinh viên tương lai nhằm giúp cho sinh viên cố vấn học tập Ảnh minh họa trường đại học 1.2 Các nghiên cứu liên quan đến đề tài Phân tích, dự đoán xu hướng học tập sinh viên nhiệm vụ khó khăn bị ảnh hưởng yếu tố xã hội, môi trường hành vi Thậm chí tâm lý sinh viên (chủ quan, hay tâm …) trực tiếp ảnh hưởng đến hiệu suất học tập tương lai Do đó, thuật toán học máy ngày sử dụng để khám phá mối quan hệ yếu tố kết học tập sinh viên Có nhiều mơ hình dự đốn giáo dục khác để hỗ trợ sinh viên nhằm giúp họ đạt cải thiện học tập Một số lượng đáng kể nghiên cứu thực để dự đoán hiệu suất sinh viên dựa phương pháp Bayes Ví dụ “Predicting student performance by using data mining methods for classification.” [2] so sánh cách tiếp cận Bayes với cách tiếp cận phân loại khác để xác định mẫu hữu ích trích xuất từ liệu cá nhân tiền đại học sinh viên để dự đoán hiệu suất sinh viên trường đại học Tương tự, tác giả “Prediction of student performance using weka tool.” [3] sử dụng cách tiếp cận tương tự cho nghiên cứu so sánh thuật toán phân loại mục đích họ phân loại sinh viên xác định thuộc tính có ảnh hưởng đến sinh viên thất bại Hoặc “Classification and prediction based data mining algorithms to predict slow learners in education sector” [4] thực nghiên cứu để phân tích liệu nhân học, xã hội đánh giá để dự đoán sinh viên học chậm để cải thiện hiệu suất họ giảm tỷ lệ thất bại trước kỳ thi 1.3 Mục tiêu thực đề tài Tìm hiểu phương pháp khoa học liệu khác liên quan đến phân tích liệu giáo dục, tập trung vào phương pháp dự đoán xu hướng kết học tập sinh viên Thử nghiệm, đánh giá số phương pháp dự đoán xu hướng kết học tập sinh viên 1.4 Phương pháp để thực hóa mục tiêu đề tài Khảo sát nghiên cứu có liên quan hội nghị, trường đại học có uy tín Xây dựng liệu cho tốn dựa theo quy tắc sau: • Làm liệu • Tích hợp liệu • Biến đổi (Mã hóa) liệu • Rút gọn liệu Tiến hành phân tích liệu theo cách phù hợp: phân tích thống kê kỹ thuật: Naïve Bayes, Bayesian Network, Cây định, Bagging Predictors, ANN để phục vụ mục tiêu dự đốn tình trạng học tập đối tượng sinh viên Cài đặt thí nghiệm đánh giá kết Rút kết luận ưu, nhược điểm hướng cải tiến cho tương lai 1.5 Dữ liệu sử dụng Dữ liệu dùng để phân tích tơi liệu bậc đại học dạng bảng gồm có thuộc tính: Số thứ tự người học (chỉ số mã hóa để khơng thể tên cá nhân), ngành học người học đó, số tín người học, điểm trung bình, phương thức trúng tuyển đầu vào đại học, điểm trúng tuyển năm đại học, mã tỉnh thường trú, mã trường thpt, ghi (tình trạng học tập sinh viên, cịn học, tốt nghiệp, thơi học,…) Dữ liệu có tất khóa tuyển sinh CHƯƠNG CÁC NGUYÊN TẮC CHUẨN BỊ BỘ DỮ LIỆU Mô tổng quan trình chuẩn bị liệu 2.1 Giới thiệu chung Sơ đồ giới thiệu sơ lược 2.2 Làm liệu 58 F-Measure : FMeasure = 2∗Precision∗Recall Precision+Recall 4.2 Thí nghiệm Nạve Bayes ❖ Mục tiêu thí nghiệm: Thí nghiệm nhằm đánh giá phương pháp Nạve Bayes cho tốn dự đốn tình trạng học tập sinh viên (bằng cách phân thành lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học) Những trường hợp gặp tốt nghiệp sớm xem nằm lớp study họ hồn thành chương trình học khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ ❖ Thiết kế thí nghiệm: Phương pháp thiết kế liệu sử dụng: Phương pháp đánh giá sử dụng kiểm tra chéo (cross-validation) 10-fold phương pháp chia liệu (percentage split) train, test với tỷ lệ 66% liệu train 44% liệu test Đối với phương pháp thực liệu gồm có 5250 instance Với liệu đầu vào giá trị thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt Kết dự đoán lớp trạng thái học tập sinh viên đó: cịn theo học/có thể tốt nghiệp (lớp study), có khả bỏ học (lớp fail), chuyển trường lý khác (lớp other) ❖ Công cụ thực hiện: 59 Phần cứng dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i74600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor Bộ liệu giới thiệu chương 1, sau thực hóa bước làm chương ngơn ngữ lập trình Python Sau tơi tiến hành khai thác liệu với kỹ thuật nêu chương Weka Quá trình hiển thị, đánh giá kết thực nghiệm thực Weka Với phương pháp cross-validation 10-fold: Một phần kết dự đốn: Các thơng số: 60 Với phương pháp Nạve Bayes tính mặt chung số kết xác (Correctly Classified Instances) phương pháp cho kết cao 89.95% Cịn tính theo độ đo chi tiết ta thấy rõ lớp study có số cao, nhiên FP Rate lại không nhỏ chứng tỏ có nhiều trường hợp bị định sai vào lớp khác chiếm tỷ lệ không nhỏ Theo tơi Nạve Bayes huấn luyện cách xây dựng bảng xác suất sẵn có Khi đưa input trường hợp test vào mơ hình dựa vào thuộc tính input bảng xác suất xây dựng để suy luận Nhưng Naïve Bayes giả sử tính độc lập thành phần, mà thực thành phần liệu có liên hệ với Từ dẫn đến việc dự đốn khơng xác xem phương pháp thiếu xác mơ hình thí nghiệm Với phương pháp percentage split train 66% ,test 44% Một phần kết dự đốn: Các thơng số: 61 Qua phương pháp thử nghiệm ta thấy kết cho tương đồng với phương pháp thử nghiệm sử dụng Nạve Bayes Vì tơi xin kết luận Nạve Bayes giả sử tính độc lập thành phần, từ dẫn đến việc dự đốn thiếu xác mơ hình thí nghiệm 4.3 Thí nghiệm Bayesian Network ❖ Mục tiêu thí nghiệm: Thí nghiệm nhằm đánh giá phương pháp Bayesian Network cho tốn dự đốn tình trạng học tập sinh viên (bằng cách phân thành lớp study_còn học tập, other_chuyển trường, fail_đã học) Những trường hợp gặp tốt nghiệp sớm xem nằm lớp study họ hồn thành chương trình học khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ ❖ Thiết kế thí nghiệm: Phương pháp thiết kế liệu sử dụng: 62 Phương pháp đánh giá sử dụng kiểm tra chéo (cross-validation) 10-fold phương pháp chia liệu (percentage split) train, test với tỷ lệ 66% liệu train 44% liệu test Đối với phương pháp thực liệu gồm có 5250 instance Với liệu đầu vào giá trị thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt Kết dự đoán lớp trạng thái học tập sinh viên đó: cịn theo học/có thể tốt nghiệp (lớp study), có khả bỏ học (lớp fail), chuyển trường lý khác (lớp other) ❖ Công cụ thực hiện: Phần cứng dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i74600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor Bộ liệu giới thiệu chương 1, sau thực hóa bước làm chương ngôn ngữ lập trình Python Sau tơi tiến hành khai thác liệu với kỹ thuật nêu chương Weka Quá trình hiển thị, đánh giá kết thực nghiệm thực Weka Với phương pháp cross-validation 10-fold: Một phần kết dự đoán: 63 Các thơng số: Với phương pháp Bayesian Network tính mặt chung số kết xác (Correctly Classified Instances) phương pháp cho kết cao 93.94%, cao Nạve Bayes Cịn tính theo độ đo chi tiết ta thấy rõ lớp study xác cao, nhiên FP Rate lại khơng nhỏ chứng tỏ có nhiều trường hợp bị định sai vào lớp khác chiếm tỷ lệ không nhỏ 64 Lý giải việc mơ hình xác Nạve Bayes dựa vào suy diễn nhân Lúc ta khơng cịn dựa vào việc giả sử thành phần thuộc tính độc lập Mà dựa vào xác suất thuộc tính dẫn đến thuộc tính Tuy nhiên lớp fail dự đốn khơng xác cho lắm, tơi quan sát lại liệu thấy có trường hợp Như trường hợp này: Sinh viên nhập học khóa gần nhất, học 12 tín Điểm trung bình khơng thấp 7.4, điểm tuyển cao Tuy nhiên lại thơi học Mơ hình nhận định sai trường hợp trường hợp tương tự Các trường hợp khóa Số tín học điểm trung bình, điểm tuyển không tệ Tuy nhiên học Điều theo tơi cịn chưa nhiều thuộc tính Dẫn đến việc sau xây dựng xong mạng nhân Mạng đơn giản máy rập khn theo mà suy luận dẫn đến việc sai sót Vì trường hợp cụ thể cần có chi tiết khác, cụ thể để minh họa chi tiết cho việc xây dựng mạng suy luận Với phương pháp percentage split train 66%, test 44% 65 Một phần kết dự đốn: Các thơng số: Qua phương pháp thử nghiệm ta thấy kết cho tương đồng với phương pháp thử nghiệm sử dụng Bayesian Network Vì tơi xin kết luận Bayesian Network khơng giả sử tính độc lập thành phần, từ dẫn đến việc dự đốn tốt Nạve Bayes mạng cịn đơn giản máy rập khn theo mà suy luận dẫn đến việc sai sót chưa thực xác dự đốn lớp fail 4.4 Thí nghiệm Decision tree(J48) ❖ Mục tiêu thí nghiệm: 66 Thí nghiệm nhằm đánh giá phương pháp Decision tree(J48) cho tốn dự đốn tình trạng học tập sinh viên (bằng cách phân thành lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học) Những trường hợp gặp tốt nghiệp sớm tơi xem nằm lớp study họ hồn thành chương trình học khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ ❖ Thiết kế thí nghiệm: Phương pháp thiết kế liệu sử dụng: Phương pháp đánh giá sử dụng kiểm tra chéo (cross-validation) 10-fold phương pháp chia liệu (percentage split) train, test với tỷ lệ 66% liệu train 44% liệu test Đối với phương pháp thực liệu gồm có 5250 instance Với liệu đầu vào giá trị thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt Kết dự đoán lớp trạng thái học tập sinh viên đó: cịn theo học/có thể tốt nghiệp (lớp study), có khả bỏ học (lớp fail), chuyển trường lý khác (lớp other) ❖ Công cụ thực hiện: Phần cứng dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i74600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor 67 Bộ liệu tơi giới thiệu chương 1, sau thực hóa bước làm chương ngơn ngữ lập trình Python Sau tơi tiến hành khai thác liệu với kỹ thuật nêu chương Weka Quá trình hiển thị, đánh giá kết thực nghiệm thực Weka Với phương pháp cross-validation 10-fold: Một phần kết dự đốn: Các thơng số: 68 Với phương pháp Decision tree tính mặt chung số kết xác (Correctly Classified Instances) phương pháp cho kết cao 94.55%, cao Naïve Bayes Bayesian Network Cịn tính theo độ đo chi tiết ta thấy rõ lớp study xác cao, cịn FP Rate thấp Bayesian Network lớn đáng kể Điều cho thấy mơ hình mà Decision tree xây dựng, xác định tốt thuộc tính chính/quan trọng cho việc phân lớp kết xác Việc theo tơi thấy làm tốt Bayesian Network Có thể Bayesian Network cần có mạng lưới suy luận nhân dày đặc phát huy hiệu Cịn riêng tốn liệu Decision Tree làm tốt mơ hình Nạve Bayes, Bayesian Network, Decision Tree Với phương pháp percentage split train 66%, test 44% Một phần kết dự đốn: Các thơng số: 69 Qua phương pháp thử nghiệm ta thấy kết cho tương đồng với phương pháp thử nghiệm sử dụng Decision Tree Vì tơi xin kết luận Decision Tree theo tơi làm tốt mơ hình Nạve Bayes, Bayesian Network, Decision Tree với toán liệu 4.5 Thí nghiệm Bagging With Random Forest ❖ Mục tiêu thí nghiệm: Thí nghiệm nhằm đánh giá phương pháp Bagging With Random Forest (lấy mẫu mười lần liệu gốc_bộ liệu lấy mẫu có kích thước tương tự liệu gốc từ tạo 10 mơ hình Random Forest để phân lớp_biểu chọn nhãn theo nhãn mà nhiều mơ hình phân vào nhất) cho tốn dự đốn tình trạng học tập sinh viên (bằng cách phân thành lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học) Những trường hợp gặp tốt nghiệp sớm xem nằm lớp study họ hồn thành chương trình học khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ ❖ Thiết kế thí nghiệm: Phương pháp thiết kế liệu sử dụng: 70 Phương pháp đánh giá sử dụng kiểm tra chéo (cross-validation) 10-fold phương pháp chia liệu (percentage split) train, test với tỷ lệ 66% liệu train 44% liệu test Đối với phương pháp thực liệu gồm có 5250 instance Với liệu đầu vào giá trị thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt Kết dự đoán lớp trạng thái học tập sinh viên đó: cịn theo học/có thể tốt nghiệp (lớp study), có khả bỏ học (lớp fail), chuyển trường lý khác (lớp other) ❖ Công cụ thực hiện: Phần cứng dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i74600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor Bộ liệu tơi giới thiệu chương 1, sau thực hóa bước làm chương ngơn ngữ lập trình Python Sau tơi tiến hành khai thác liệu với kỹ thuật nêu chương Weka Quá trình hiển thị, đánh giá kết thực nghiệm thực Weka Với phương pháp cross-validation 10-fold: Một phần kết dự đốn: 71 Các thơng số: Với phương pháp Bagging With Random Forest tính mặt chung số kết xác (Correctly Classified Instances) phương pháp cho kết cao 94.84%, cao xấp xỉ Decision Tree Cịn tính theo độ đo chi tiết ta thấy rõ lớp study xác cao, cịn FP Rate cịn lớn đáng kể Lý giải việc theo Bagging thực lấy mẫu 10 lần với kích thước liệu gốc tiến hành huấn luyện Random Forest Sau dự đốn chọn nhãn nhiều mơ hình Random Forest dự đốn số 10 mơ hình huấn luyện Cách thức phức tạp lại lấy ý kiến số đơng, nhờ nhãn 72 chọn biểu nhiều trường hợp lấy mẫu khác dẫn đến kết tương đối xác Với phương pháp percentage split train 66%, test 44% Một phần kết dự đốn: Các thơng số: Phương pháp thử nghiệm cho ta thấy kết cho tương đồng với phương pháp thử nghiệm sử dụng Bagging With Random Forest Vì tơi xin kết luận Bagging With Random Forest theo tơi làm tốt nhiên không Decision Tree 73 4.6 Thí nghiệm Multilayer neural network ❖ Mục tiêu thí nghiệm: Thí nghiệm nhằm đánh giá phương pháp Multilayer neural network (learning rate 0.3, momentum 0.2) cho tốn dự đốn tình trạng học tập sinh viên (bằng cách phân thành lớp study_còn học tập, other_chuyển trường, fail_đã học) Những trường hợp gặp tốt nghiệp sớm xem nằm lớp study họ hồn thành chương trình học không thuộc diện cần khoanh vùng để cảnh cáo học vụ ❖ Thiết kế thí nghiệm: Phương pháp thiết kế liệu sử dụng: Phương pháp đánh giá sử dụng kiểm tra chéo (cross-validation) 10-fold phương pháp chia liệu (percentage split) train, test với tỷ lệ 66% liệu train 44% liệu test Đối với phương pháp thực liệu gồm có 5250 instance Với liệu đầu vào giá trị thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt Kết dự đoán lớp trạng thái học tập sinh viên đó: cịn theo học/có thể tốt nghiệp (lớp study), có khả bỏ học (lớp fail), chuyển trường lý khác (lớp other) ❖ Công cụ thực hiện: 74 ...LỜI NĨI ĐẦU Lời nói đầu, cho phép tơi xin cám ơn cô Nguyễn Lưu Thùy Ngân, cô người hướng dẫn tơi đến với lĩnh vực phân tích liệu học tập khó khăn thú vị Trong... nghiệp với mảng kiến thức đại Tôi xin gửi lời chúc sức khỏe mong điều thành công đến với cô Nguyễn Lưu Thùy Ngân tồn thể trường Đại học Cơng nghệ thơng tin Mặc dù tơi cố gắng hồn thành đề tài chắn... ……………………………………………………………………………………… … ……………………………………………………………………………………… … …………………………………… Giảng viên hướng dẫn TS Nguyễn Lưu Thùy Ngân MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Giới thiệu chung