Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học sinh trung học

78 12 0
Khai thác điểm học tập để dự đoán kết quả thi trung học phổ thông quốc gia cho học sinh trung học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÂM QUỐC CƯỜNG KHAI THÁC ĐIỂM HỌC TẬP ĐỂ DỰ ĐOÁN KẾT QUẢ THI TRUNG HỌC PHỔ THÔNG QUỐC GIA CHO HỌC SINH TRUNG HỌC LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THƠNG TIN Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÂM QUỐC CƯỜNG KHAI THÁC ĐIỂM HỌC TẬP ĐỂ DỰ ĐỐN KẾT QUẢ THI TRUNG HỌC PHỔ THƠNG QUỐC GIA CHO HỌC SINH TRUNG HỌC LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2016 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Cơng nghệ TP Hồ Chí Minh ngày 10 tháng năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng PGS TS Quản Thành Thơ Chủ tịch TS Lư Nhật Vinh Phản biện TS Nguyễn Thị Thúy Loan Phản biện TS Lê Văn Quốc Anh TS Phạm Thị Thiết Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS TS Quản Thành Thơ TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 30 tháng năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lâm Quốc Cường Giới tính: Nam Ngày, tháng, năm sinh: 27/7/1978 Nơi sinh: Sóc Trăng Chuyên ngành: Công nghệ thông tin MSHV: 1441860033 I- Tên đề tài: Khai thác điểm học tập để dự đoán kết thi trung học phổ thông quốc gia cho học sinh trung học II- Nhiệm vụ nội dung: - Nghiên cứu luật phân lớp, dự đoán - Nghiên cứu phương pháp để phân lớp dự đoán kết thi trung học phổ thông quốc gia - Sử dụng thuật toán định để phân lớp dự đoán kết thi trung học phổ thơng quốc gia tìm thuật tốn có độ xác cao III- Ngày giao nhiệm vụ: 23/01/2016 IV- Ngày hoàn thành nhiệm vụ: 30/7/2016 V- Cán hướng dẫn: PGS TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN PGS TS VÕ ĐÌNH BẢY KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Lâm Quốc Cường ii LỜI CÁM ƠN Trước tiên tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy PGS TS Võ Đình Bảy, thầy tận tình giúp đỡ, hướng dẫn, động viên tạo điều kiện giúp tiếp cận hồn thành luận văn theo u cầu Tơi xin bày tỏ lòng biết ơn tới Quý thầy, Khoa Cơng nghệ thơng tin cán phịng Quản lý khoa học - Đào tạo sau đại học trường Đại học Cơng nghệ Thành phố Hồ Chí Minh tạo điều kiện thuận lợi hướng dẫn tận tình thủ tục, văn liên quan đến luận văn Tôi xin chân thành cảm ơn đến Quý thầy, cô Hội đồng đánh giá Luận văn Thạc sĩ đóng góp ý kiến quý báo, chân tình để tơi hồn thiện luận văn Cuối cùng, tơi xin cảm ơn gia đình, q đồng nghiệp, q lãnh đạo quan tạo điều kiện tốt động viên suốt thời gian thực luận văn Lâm Quốc Cường iii TÓM TẮT Ngày nay, giáo dục đào tạo quốc sách hàng đầu Đảng, Nhà nước toàn dân ta xác định, giáo dục luôn ưu tiên kế hoạch phát triển kinh tế, xã hội đất nước Trong năm 2015, Bộ Giáo dục Đào tạo thực đổi kiểm tra, đánh giá, cụ thể kỳ thi trung học phổ thông quốc gia kỳ thi hai một, nghĩa học sinh lấy kết thi trung học phổ thông quốc gia để xét công nhận tốt nghiệp trung học phổ thông làm để xét tuyển sinh đại học, cao đẳng Đề tài “Khai thác điểm học tập để dự đoán kết thi trung học phổ thông quốc gia học sinh trung học” nhằm hỗ trợ học sinh lớp 12 việc dự đốn kết kỳ thi trung học phổ thơng quốc gia Hiện nay, phân lớp dự đoán để tìm liệu có ích phục vụ cho nhu cầu cần thiết để đưa định thông minh hỗ trợ người dùng công việc thuộc lĩnh vực y tế, giáo dục, kinh doanh, Đề tài sử dụng phương pháp định (Decision Tree) phương pháp đơn giản, dễ sử dụng có độ tin cậy cao phù hợp với nội dung đề tài để thực việc dự đoán kết học sinh kỳ thi trung học phổ thông quốc gia, cụ thể đề tài thử nghiệm ba thuật toán C5.0, CART Random Forest Bên cạnh việc nghiên cứu sở lý thuyết phương pháp định, đề tài sử dụng ngôn ngữ R, ngôn ngữ lập trình cấp cao, hỗ trợ mạnh mẽ cho việc phân tích liệu, tính tốn xác suất thống kê, giải thuật học tự động, … để xây dựng ứng dụng hỗ trợ học sinh dự đoán kết kỳ thi trung học phổ thông quốc gia hàng năm Bộ Giáo dục Đào tạo tổ chức iv ABSTRACT Today, education and training is a top national policy was the Party, State and people identification, education has always been a priority in the economic development plan, the country's society In 2015, the Ministry of Education and Training has implemented innovative inspection and evaluation, particularly in the high school exams that country is in a second exam, which means students can get results exam national high school recognized at graduation for high school and as a basis for college admission and college The theme “Mining to predict academic test results National High School High School Student” in support of 12th graders in predicting the results of examinations National High School Currently, classification and prediction is to find useful data in service needs to make smart decisions to support users in their work in fields such as health, education, economic business, the theme uses a decision tree method (decision tree) methods that are simple, easy to use and high reliability, and consistent with the content of the subject to perform the project guess the outcome of the exam students in the national high school, namely the three subjects tested on the C5.0 algorithm, CART and Random Forest Besides the study of the theoretical basis of the decision tree method, subjects using the R language, this is a high-level programming language, very strong support for data analysis, probability calculation system Statistics, automatic learning algorithm, to build applications that support students predict the outcome of the high school exams annually by the national Ministry of Education and Training held v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH x CHƯƠNG 1: MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Lý chọn đề tài 1.3 Mục tiêu, nội dung phương pháp nghiên cứu 1.3.1 Mục tiêu .2 1.3.2 Nội dung 1.3.3 Phương pháp 1.4 Bố cục Luận văn .3 CHƯƠNG 2: TỔNG QUAN VÀ CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu kỳ thi THPT quốc gia 2.2 Khai thác liệu 2.2.1 Khai thác luật phân lớp, dự đoán .5 2.2.2 Các vấn đề liên quan đến phân lớp liệu 2.2.3 Đánh giá độ xác phân lớp 2.2.4 Ví dụ phân lớp dự đốn 12 2.3 Phương pháp phân lớp dựa định .17 2.3.1 Giới thiệu 17 2.3.2 Một số lưu ý sử dụng định 19 2.3.3 Đánh giá hiệu phương pháp định .20 2.3.4 Xây dựng định 21 vi 2.4 Thuật toán C5.0 22 2.5 Thuật toán CART 27 2.6 Thuật toán RF 30 2.7 Tổng quan vấn đề nghiên cứu 32 2.7.1 Giới thiệu tổng quan 32 2.7.2 Tình hình nghiên cứu giới 33 2.7.3 Tình hình nghiên cứu nước 35 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH 36 3.1 Xây dựng mơ hình hệ thống 36 3.1.1 Dữ liệu vào .36 3.1.2 Thuật toán định 40 3.1.3 Kết 43 3.2 Xây dựng thuật toán 44 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .45 4.1 Môi trường thực nghiệm .45 4.2 Giới thiệu sở liệu thực nghiệm .45 4.3 Áp dụng thuật toán phân lớp dựa phương pháp định .45 4.3.1 Xây dựng phần chung 45 4.3.2 Thuật toán C5.0 .50 4.3.3 Thuật toán CART 54 4.3.4 Thuật toán RF 56 4.4 Đánh giá so sánh 57 4.4.1 Đánh giá hiệu suất giải thuật .57 4.4.2 So sánh thuật toán 58 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 60 5.1 Kết luận 60 5.2 Ưu điểm hạn chế 60 5.3 Hướng phát triển .60 TÀI LIỆU THAM KHẢO 62 49 Hình 4.5 Fold01 tập liệu có kích thước 807 mẫu tin Hình 4.6 Fold10 tập liệu có kích thước 807 mẫu tin 50 4.3.2 Thuật toán C5.0 Tập liệu chia thành mười phần gần k = 10, phần có khoảng 807 mẫu tin Sử dụng k-fold cross-validation, tập liệu huấn luyện có khoảng 7.260 mẫu tin Đánh giá tập liệu huấn luyện 7.260 mẫu tin, có dạng: Hình 4.7 Kết thử nghiệm tập liệu huấn luyện Thuật toán C5.0 đánh giá tập liệu huấn luyện 7.260 mẫu tin thực thử nghiệm 100 lần đánh số từ đến 99 Mỗi lần thử nghiệm có số luật sinh khác nhau, cụ thể lần thử nghiệm lần thứ (số thứ tự 0) có 167 luật sinh 51 có 457 mẫu tin bị lỗi chiếm 6,3%, lần thử nghiệm thứ hai (số thứ tự 1) có 173 luật sinh có 722 mẫu tin bị lỗi chiếm 9,9%, tương tự lần thử nghiệm thứ 100 (số thứ tự 99) có 209 luật sinh có 749 mẫu tin lỗi chiếm 10,3% Trong 100 lần thử nghiệm lần thử nghiệm thứ 18 (số thứ tự 17) có tỉ lệ lỗi cao 10,8% Luật sinh lần thử nghiệm thứ (số thứ tự 0) lớp DoGioi, DoKha, DoKTB, DoTB, Hong có tổng cộng 167 luật, cụ thể: Hình 4.8 Luật sinh lớp DoGioi Hình 4.9 Luật sinh lớp DoKha 52 Hình 4.10 Luật sinh lớp DoKTB Hình 4.11 Luật sinh lớp DoTB Hình 4.12 Luật sinh lớp Hong 53 Tương tự lần thử nghiệm từ thứ đến thứ 99 luật sinh thuộc lớp DoGioi, DoKha, DoKTB, DoTB Hong Tập liệu huấn luyện 7.260 mẫu tin phân lớp vào lớp DoGioi, DoKha, DoKTB, DoTB, Hong cụ thể lớp DoGioi, DoKha phân lớp 100%, lớp DoKTB, DoTB, Hong có sai vài mẫu tin Vậy liệu tập huấn luyện phân lớp tốt vào lớp Hình 4.13 Kết phân lớp tập huấn luyện thuật toán C5.0 Khi thực phân lớp dự đoán với tập liệu kiểm tra 807 mẫu tin độ xác trung bình 91,93% Bảng dự đốn kết sau: Hình 4.14 Kết phân lớp tập kiểm tra thuật toán C5.0 Dựa vào bảng kết dự đốn, có lớp dự đốn DoGioi, DoKha, DoKTB, DoTB, Hong Trong lớp dự đốn DoGioi với kết DoGioi 20 (chính xác), DoKTB (chưa xác), DoKTB (chưa xác); lớp dự đốn DoKha với kết DoGioi (chưa xác), DoKha 117 (chính xác), DoKTB (chưa xác); lớp dự đốn DoKTB với kết DoGioi (chưa xác), DoKha (chưa xác), DoTBK 190 (chính xác), DoTB 16 (chưa xác); lớp dự đốn DoTB với kết DoGioi (chưa xác), DoKha (chưa xác), DoKTB 23 (chưa xác), DoTB 368 (chính xác), Hong (chưa xác); lớp dự đốn Hong với kết DoTB (chưa xác), Hong 39 (chính xác) Độ quan trọng thuộc tính sau: 54 Hình 4.15 Độ quan trọng thuộc tính ảnh hưởng đến phân lớp dự đoán thuật toán C5.0 Dựa vào kết trên, thuộc tính TB10, TOAN10, NV10, NN11, SH11, NN12, VL10, TB10, SH10, LS11, TB12, HH10, NN10 có ảnh hưởng nhiều thuộc tính để xác định KETQUA thuộc phân lớp DoGioi, DoKha, DoKTB, DoTB, Hong Thuộc tính DL12, VL12, HH12 ảnh hưởng đến việc phân lớp dự đốn 4.3.3 Thuật toán CART Sử dụng phương pháp k-fold cross-validation chia tập liệu thành mười phần k = 10, phần có khoảng 807 mẫu tin, phần liệu làm tập liệu huấn luyện có khoảng 7.260 mẫu tin, tập liệu kiểm tra có khoảng 807 mẫu tin Độ quan trọng thuộc tính tập liệu huấn luyện là: Hình 4.16 Độ quan trọng tập liệu huấn luyện thuật toán CART 55 Từ hình 4.16 thuộc tính TB12 có độ quan trọng cao tập liệu huấn luyện, thuộc tính TOAN10, TOAN12, TB10, NN12, cuối thuộc tính TOAN11, NV11, SH11, LS10, LS12 ảnh hưởng thực phân lớp Khi thực phân lớp dự đoán với tập liệu kiểm tra 807 mẫu tin độ xác trung bình 78,28% Bảng dự đốn kết sau: Hình 4.17 Kết dự đốn thuật toán CART Dựa vào bảng kết dự đốn, có lớp dự đốn DoGioi, DoKha, DoKTB, DoTB, Hong Trong lớp dự đốn DoGioi với kết DoGioi 13 (chính xác), DoTB (chưa xác); lớp dự đoán DoKha với kết DoGioi (chưa xác), DoKha 96 (chính xác), DoTBK 16 (chưa xác); lớp dự đoán DoKTB với kết DoGioi (chưa xác), DoKha 16 (chưa xác), DoKTB 164 (chính xác), DoTB 29 (chưa xác); lớp dự đốn DoTB với kết DoGioi (chưa xác), DoKha 13 (chưa xác), DoKTB 40 (chưa xác), DoTB 357 (chính xác), Hong 36 (chưa xác); lớp dự đốn Hong với kết DoTB (chưa xác), Hong 11 (chính xác) Độ quan trọng thuộc tính sau: 56 Hình 4.18 Độ quan trọng thuộc tính ảnh hưởng đến phân lớp dự đốn thuật toán CART Dựa vào kết trên, thuộc tính TB12 có ảnh hưởng nhiều nhất, sau NN11, DL10 ảnh hưởng đến kết phân lớp dự đốn Các thuộc tính HH10, DL12, SH11, VL11, SH10, SH12 ảnh hưởng đến phân lớp dự đoán 4.3.4 Thuật toán RF Khi thực phân lớp dự đoán với tập liệu kiểm tra 807 mẫu tin độ xác trung bình 90,97% Bảng dự đốn kết sau: Hình 4.19 Kết dự đoán giải thuật RF Dựa vào bảng kết dự đốn, có lớp dự đốn DoGioi, DoKha, DoKTB, DoTB, Hong Trong lớp dự đốn DoGioi với kết DoGioi 16 (chính xác); lớp dự đốn DoKha với kết DoGioi (chưa xác), DoKha 120 (chính xác), DoTBK (chưa xác); lớp dự đoán DoKTB với kết DoGioi (chưa 57 xác), DoKha (chưa xác), DoKTB 197 (chính xác), DoTB 12 (chưa xác); lớp dự đốn DoTB với kết DoGioi (chưa xác), DoKha (chưa xác), DoKTB 18 (chưa xác), DoTB 375 (chính xác), Hong 12 (chưa xác); lớp dự đốn Hong với kết DoTB (chưa xác), Hong 35 (chính xác) Độ quan trọng thuộc tính TB12 ảnh hưởng nhiều đến phân lớp dự đốn thuật tốn RF Hình 4.20 Độ quan trọng thuộc tính ảnh hưởng đến phân lớp dự đoán thuật toán RF 4.4 Đánh giá so sánh 4.4.1 Đánh giá hiệu suất giải thuật Đề tài nhằm mục đích giúp cho học sinh tự kiểm tra lực học tập để từ có định hướng, điều chỉnh theo hướng tích cực để đạt kết cao kỳ thi THPT quốc gia Thông qua kết thực nghiệm ba thuật tốn C5.0, CART RF ta thấy thuật tốn C5.0 có độ xác cao phù hợp với liệu đề tài 58 4.4.2 So sánh thuật toán Khi thực so sánh thuật toán, người ta thường đưa tiêu chí [9]: - Độ xác dự đốn khả phân lớp dự đoán liệu chưa biết trước nhãn - Tính bền vững khả phân lớp thực dự đoán với liệu nhiễu hay thiếu giá trị - Tính kích cỡ khả tạo phân lớp hiệu với số lượng liệu lớn - Khả diễn giải phân lớp cung cấp tri thức hiểu Từ tiêu chí trên, ta thực so sánh thuật toán C5.0, CART RF thơng qua độ xác phân lớp dự đốn Bảng 4.1 Độ xác thuật tốn Thuật tốn C5.0 CART RF Độ xác 91,93% 78,28% 90,97% Căn vào độ xác thuật tốn thuật tốn C5.0 có độ xác cao đạt đến 91,93%, kế thuật tốn RF có độ xác 90,97% thuật tốn CART có độ xác thấp 78,28% Hình 4.21 Độ xác trung bình thuật tốn 59 Hình 4.22 Độ xác 10 fold thuật tốn Từ xây dựng ứng dụng dự đốn kết thi THPT quốc gia ta sử dụng thuật toán C5.0 để áp dụng cho đề tài “Khai thác điểm học tập để dự đoán kết thi trung học phổ thông quốc gia học sinh trung học” 60 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Đề tài đề xuất số thuật toán triển khai ứng dụng khai thác điểm học tập để dự đoán kết thi THPT quốc gia cho học sinh trung học, cụ thể sử dụng phương pháp định (Decision Tree) theo mô hình thuật tốn C5.0, CART, RF Từ phương pháp này, đề tài so sánh độ xác thuật toán thực phân lớp để dự đoán dựa sở liệu thực tế 8.000 học sinh tỉnh Sóc Trăng để từ chọn thuật tốn tối ưu thuật toán C5.0, CART, RF để thực triển khai ứng dụng Đề tài thực số công việc sau: - Xây dựng sở liệu thực tế - Nghiên cứu ngôn ngữ R - Sử dụng ngôn ngữ R thực xây dựng thuật toán dựa phương pháp định (Decision Tree) C5.0, CART, RF - Đánh giá độ xác thuật tốn từ lựa chọn thuật toán tối ưu phù hợp với đề tài 5.2 Ưu điểm hạn chế - Ưu điểm: Sử dụng liệu thực tế địa phương Sử dụng nhiều thuật tốn Đánh giá độ xác thuật tốn - Hạn chế: Chỉ mơ ba thuật toán dựa phương pháp định Chưa xây dựng ứng dụng web 5.3 Hướng phát triển Từ hạn chế trên, đề tài có khả phát triển thêm để hoàn thiện phục vụ hiệu việc dự đoán kết thi để học sinh, sinh viên biết mạnh hạn chế để có hướng điều chỉnh khả học tập để 61 đạt kết tốt nhất, cụ thể: - Trong thuật toán cần phải cải tiến để tăng độ xác dự đốn - Có thể mơ thêm thuật tốn khác mạng nơron nhân tạo (ANN: Artificial Neural Network), thuật toán phân lớp dựa luật kết hợp (CBA: Classification Based on Associations), thuật giải học qui nạp (ILA: Inductive Learning Algorithm), phân tích thống kê, thuật tốn di truyền, phương pháp tập thô - Xây dựng ứng dụng web để tăng hiệu sử dụng 62 TÀI LIỆU THAM KHẢO [1] Bộ Giáo dục Đào tạo (2015), “Thông tư Ban hành Quy chế thi trung học phổ thông quốc gia”, số 02/2015/TT-BGDĐT [2] Bộ Giáo dục Đào tạo (2015), “Thông tư Ban hành Quy chế tuyển sinh đại học, cao đẳng hệ quy”, số 03/2015/TT-BGDĐT [3] Bộ Giáo dục Đào tạo (2015), “Công văn Hướng dẫn thực Quy chế thi tổ chức thi THPT quốc gia xét công nhận tốt nghiệp THPT”, số 1388/BGDĐT-KTKĐCLGD [4] Bộ Giáo dục Đào tạo (2011), “Thông tư Ban hành Quy chế đánh giá, xếp loại học sinh trung học sở học sinh trung học phổ thông”, số 58/2011/TTBGDĐT [5] Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung Trịnh Trung Hưng (2014), “Phát môn học quan trọng ảnh hưởng đến kết học tập sinh viên ngành Cơng nghệ thơng tin”, Tạp chí Khoa học Trường Đại học Cần Thơ [6] Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa Nguyễn Minh Trung (2015), “Giải thuật rừng ngẫu nhiên với luật gán nhãn cục cho phân lớp”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/7/2015 [7] Ahmet Tekin (2014), “Early Prediction of Students’ Grade Point Averages at Graduation: A Data Mining Approach”, Eurasian Journal of Educational Research, Issue 54, 207-226 [8] Edin Osmanbegović, Mirza Suljic (2012), “Data Mining Approach for Predicting Student Performance”, Economic Review – Journal of Economics and Business, Volume X, Issue 1, 1-12 [9] Jiawei Han, Micheline Kamber, Jian Pei (2000), “Data Mining: Concepts and Techniques”, Chapter – Classification: Basic Concepts, Morgan Kaufmann Publishers is an imprint of Elsevier, ISBN 978-0-12-381479-1, 327-391 63 [10] John Ross Quinlan (1986), “Induction of Decision Trees”, Machine Learning 1, 81-106 [11] John Ross Quinlan (1994), “Book Review: C4.5-Programs for Machine Learning”, Kluwer Academic Publishers, Boston – Manufactured in The Netherlands, Volume 6, Issue 3, 235-240 [12] K.Srinivas, G.Raghavendra Rao and A.Govardhan (2011), “Survey On Prediction Of Heart Morbidity Using Data Mining Techniques”, International Journal of Data Mining & Knowledge Management Process (IJDKP), Volume - No.3, 14-34 [13] Leo Breiman (2001), “Random Forests”, Machine Learning, 45, 5-32 [14] Rutvija Pandya, Jayati Pandya (2015), “C5.0 Algorithm to Improved Decision Tree with Feature Selection and Reduced Error Pruning”, International Journal of Computer Applications (0975-8887), Volume 117 - No 16, 18-21 [15] Ron Kohavi, Ross Quinlan (1999), “Decision Tree Discovery”, 1-16 [16] Ross Ihaka, Robert Gentleman (1996), “R: A Language for Data Analysis and Graphics”, Journal of Computational and Graphical Statistics, Volume - No 3, 299-314 [17] Sahil P Karkhanis, Shweta S Dumbre, PhD (2015), “A Study of Application of Data Mining and Analytics in Education Domain”, International Journal of Computer Applications (0975 – 8887), Volume 120 - No.22, 23-29 [18] Thair Nu Phyu (2009), “Survey of Classification Techniques in Data Mining”, Proceedings of the International MultiConference of Engineers and Computer Scientists, Volume 1, 1-5 [19] V Ramesh, P Parkavi, K Ramar (2013), “Predicting Student Performance: A Statistical and Data Mining Approach”, International Journal of Computer Applications (0975 – 8887), Volume 63 - No.8, 35-39 [20] Wei-Yin Loh (2011), “Classification and Regression Trees” Overview – WIREs Data Mining and Knowledge Discovery , Volume 1, 14-23 ... ? ?Khai thác điểm học tập để dự đốn kết thi trung học phổ thơng quốc gia học sinh trung học? ?? nhằm hỗ trợ học sinh lớp 12 việc dự đoán kết kỳ thi trung học phổ thông quốc gia Hiện nay, phân lớp dự. .. thể kỳ thi trung học phổ thơng quốc gia kỳ thi hai một, nghĩa học sinh lấy kết thi trung học phổ thông quốc gia để xét công nhận tốt nghiệp trung học phổ thông làm để xét tuyển sinh đại học, cao... HỌC CÔNG NGHỆ TP HCM - LÂM QUỐC CƯỜNG KHAI THÁC ĐIỂM HỌC TẬP ĐỂ DỰ ĐOÁN KẾT QUẢ THI TRUNG HỌC PHỔ THÔNG QUỐC GIA CHO HỌC SINH TRUNG HỌC LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG

Ngày đăng: 05/03/2021, 11:23

Tài liệu cùng người dùng

Tài liệu liên quan