Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 100 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
100
Dung lượng
2,48 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BK TP.HCM NGUYỄN DUY HOÀNG PHÁT TRIỂN KỸ THUẬT HỌC CHUYỂN ĐỔI CHO BÀI TOÁN DỰ BÁO SỚM TRẠNG THÁI HỌC TẬP CỦA SINH VIÊN Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM Cán hướng dẫn khoa học: TS Võ Thị Ngọc Châu Cán chấm nhận xét 1: PGS TS Lê Hoài Bắc Cán chấm nhận xét 2: TS Phạm Văn Chung Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.Hồ Chí Minh, ngày 29 tháng 12 năm 2015 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: GS TS Cao Hoàng Trụ TS Nguyễn An Khương TS Phạm Văn Chung PGS TS Lê Hoài Bắc TS Nguyễn Đức Dũng Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG GS TS Cao Hồng Trụ TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Duy Hoàng MSHV: 13070232 Ngày, tháng, năm sinh: 28/07/1989 Nơi sinh: Bình Định Chun ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 I TÊN ĐỀ TÀI: Phát triển kỹ thuật học chuyển đổi cho tốn dự báo sớm tình trạng học tập sinh viên II NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu lý thuyết, cơng trình nghiên cứu liên quan đến toán kỹ thuật học chuyển đổi, toán khai phá liệu giáo dục toán liên quan đến việc xử lý liệu có dạng ngắn thưa Đề xuất giải pháp để giải toán dự báo sớm tình trạng học tập sinh viên dựa kỹ thuật học chuyển đổi Tức xây dựng mơ hình phân loại cho ngành học dựa tập liệu huấn luyện thu thập từ ngành học khác có liên quan, cụ thể hai ngành khoa học máy tính kỹ thuật máy tính khoa khoa học kỹ thuật máy tính trường Đại học Bách Khoa Tp.HCM; Tiến hành thực nghiệm, phân tích kết thu từ giải pháp kỹ thuật học chuyển đổi đề tài với giải pháp truyền thống Từ đó, chúng tơi đánh giá hiệu suất, chi phí giải pháp đề tài III NGÀY GIAO NHIỆM VỤ: 19/01/2015 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 04/12/2015 V CÁN BỘ HƯỚNG DẪN: TS Võ Thị Ngọc Châu Tp HCM, ngày tháng năm 2015 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) (Họ tên chữ ký) TS Võ Thị Ngọc Châu iii LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn chân thành sâu sắc đến cô TS Võ Thị Ngọc Châu, khoa Khoa Học Kỹ Thuật Máy Tính, trường Đại Học Bách Khoa Tp.HCM tận tình hướng dẫn giúp đỡ thời gian qua để tơi hồn thành tốt luận văn Tôi xin gửi lời cảm ơn chân thành đến Thầy Cô khoa Khoa Học Kỹ Thuật Máy Tính nói riêng trường Đại Học Bách Khoa Tp.HCM nói chung giảng dạy, cung cấp kiến thức q báu cho tơi suốt q trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp hỗ trợ thời gian tinh thần, tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Do thời gian kiến thức có hạn nên luận văn chắn khơng tránh khỏi thiếu sót định Tôi mong nhận ý kiến đóng góp q báu thầy bạn! Tp HCM, ngày 15 tháng 10 năm 2015 Học viên Nguyễn Duy Hồng iv TĨM TẮT LUẬN VĂN Ngày nay, với phát triển mạnh mẽ khoa học công nghệ, kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Trong lĩnh vực giáo dục, việc nghiên cứu khai thác thông tin, tri thức dựa liệu lưu trữ từ hoạt động giảng dạy học tập mang lại nhiều hiệu việc cải thiện chất lượng giảng dạy hỗ trợ cho công tác quản lý ngành giáo dục Do đó, lĩnh vực nghiên cứu khai phá liệu giáo dục đầu tư phát triển động nhiều nước, mở nhiều hướng nghiên cứu Tuy nhiên, hướng nghiên cứu tập trung giải thuật khai phá liệu truyền thống nơi mà giải thuật cần nguồn liệu chất lượng để xây dựng mơ hình thường khơng tận dụng lại mơ hình lĩnh vực khác Trong đó, kỹ thuật học chuyển đổi lĩnh vực ngành học máy, cho phép chuyển giao kiến thức học nhiều tác vụ nguồn sử dụng để cải thiện việc học tác vụ đích liên quan Kỹ thuật ứng dụng mạnh mẽ liệu dạng văn xử lý ảnh video Chính việc nghiên cứu ứng dụng kỹ thuật cho liệu giáo dục giúp giải vấn đề hạn chế kỹ thuật học máy nêu Đó lý nghiên cứu áp dụng kỹ thuật học chuyển đổi cho tốn dự báo sớm tình trạng học tập sinh viên để hỗ trợ định vấn đề cứu xét bạn sinh viên danh sách sinh viên bị cảnh cáo buộc học Trong đề tài luận văn, tập trung phát triển kỹ thuật học chuyển đổi cho toán phân lớp sinh viên, áp dụng kỹ thuật học chuyển đổi để xây dựng mơ hình phân lớp sinh viên cho ngành học dựa mơ hình phân lớp ngành học khác có liên quan Trong đó, chúng tơi áp dụng hai giải thuật nhóm giải thuật học chuyển đổi dựa thuộc tính SFA SCL Chúng đề xuất cách áp dụng kỹ thuật xử lý liệu ngắn thưa để làm tăng độ xác mơ hình phân lớp Đối với việc xây dựng mơ hình phân lớp, thử nghiệm giải thuật khác nhằm so sánh phát giải thuật mang lại kết tốt Kết xây dựng mơ hình phân loại giúp dự đốn sớm tình trạng sinh viên ngành Kỹ Thuật Máy Tính từ mơ hình liệu ngành Khoa Học Máy Tính với độ xác cao Hy vọng với cách tiếp cận kỹ thuật học chuyển đổi cho toán cụ thể, mở hướng nghiên cứu mới, toàn diện cho toán phân lớp liệu giáo dục v LỜI CAM ĐOAN Tơi xin cam đoan ngồi kết quả, thơng tin tham khảo từ cơng trình khác ghi rõ luận văn, công việc, kết trình bày luận văn tơi thực chưa sử dụng để lấy cấp, chứng khác Tp HCM, ngày 15 tháng 10 năm 2015 Học viên Nguyễn Duy Hoàng vi MỤC LỤC NHIỆM VỤ LUẬN VĂN THẠC SĨ iii LỜI CẢM ƠN iv TÓM TẮT LUẬN VĂN v LỜI CAM ĐOAN vi MỤC LỤC vii DANH MỤC HÌNH x DANH MỤC BẢNG xi DANH MỤC THUẬT NGỮ ANH – VIỆT xiv CHƯƠNG 1: MỞ ĐẦU 15 1.1 Giới thiệu đề tài 15 1.2 Mục tiêu nghiên cứu đề tài 16 1.3 Ý nghĩa đề tài 16 1.4 Đối tượng phạm vi nghiên cứu đề tài 17 1.4.1 Đối tượng nghiên cứu 17 1.4.2 Phạm vi nghiên cứu 17 1.5 Phương pháp nghiên cứu 17 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 19 2.1 Kỹ thuật học chuyển đổi (Transfer Learning) 19 2.1.1 Phân loại kỹ thuật học chuyển đổi 20 2.2 Một số phương pháp tiếp cận học chuyển đổi 22 2.2.1 Tiếp cận học chuyển đổi dựa đối tượng 23 2.2.2 Tiếp cận học chuyển đổi dựa đặc tính 25 2.2.3 Kỹ thuật xử lý với liệu ngắn thưa 33 CHƯƠNG 3: CƠNG TRÌNH LIÊN QUAN 37 3.1 Các cơng trình phân loại liệu giáo dục 37 3.2 Nhận xét 39 CHƯƠNG 4: HƯỚNG TIẾP CẬN CỦA ĐỀ TÀI VÀ GIẢI PHÁP 40 4.1 Phát biểu toán 40 vii 4.2 Các bước xử lý toán 40 4.2.1 Chuẩn bị liệu 41 4.2.2 Tạo liệu huấn luyện 41 4.2.3 Xử lý với liệu ngắn thưa 42 4.2.4 Xây dựng mơ hình phân lớp 44 4.2.5 Đánh giá mơ hình phân lớp 44 4.2.6 Sử dụng mơ hình phân lớp 44 4.3 Xây dựng không gian chung kỹ thuật học chuyển đổi 44 4.4 Áp dụng giải thuật SFA 45 4.4.1 Lựa chọn tập thuộc tính đặc trưng chung (pivot feature) 46 4.4.2 Xây dựng đồ thị phân đôi 47 4.4.3 Ánh xạ tập liệu lĩnh vực vào lĩnh vực chung 50 4.5 Áp dụng giải thuật SCL 50 CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 54 5.1 Quy trình thực nghiệm 54 5.2 Chuẩn bị liệu chạy thực nghiệm 54 5.2.1 Định dạng tập liệu 56 5.2.2 Đặc điểm tập liệu 56 5.2.3 Các trường hợp chạy thực nghiệm với tập liệu 56 5.3 Giải thuật phân lớp dùng chạy thực nghiệm 58 5.4 Môi trường thực nghiệm 59 5.5 Kết thực nghiệm đánh giá 59 5.5.1 Chỉ dùng tập liệu CE 59 5.5.2 Toàn liệu nguồn không qua chuyển đổi 61 5.5.3 Tồn liệu nguồn có gia tăng 63 5.5.4 Tồn liệu nguồn khơng có gia tăng 71 5.5.5 Chỉ dùng không gian chung 79 5.5.6 Xử lý liệu ngắn thưa 83 5.5.7 Biểu đồ so sánh kết 87 5.5.8 Sử dụng mơ hình 91 5.5.9 Kết luận 94 CHƯƠNG 6: TỔNG KẾT 95 6.1 Đóng góp luận văn 95 viii 6.2 Hướng phát triển 96 TÀI LIỆU THAM KHẢO 97 ix DANH MỤC HÌNH Hình 1: Sự khác biệt q trình học học máy truyền thống (a) học chuyển đổi (b)[6] 20 Hình 2: Ba cách xem việc chuyển đổi có đem lại hiệu cải thiện tác vụ học[6] 21 Hình 3: Giải thuật TrAdaBoost [7] 25 Hình 4: Giải thuật SFA [11] 29 Hình 5: Giải thuật SCL [9] 30 Hình 6: Một ví dụ cho việc xây dựng đồ thị lân cận dựa thuộc tính [29] 34 Hình 7: Sơ đồ bước thực kỹ thuật xử lý với liệu ngắn thưa [29] 35 Hình 9: Giải thuật Multiview-Classifier 43 Hình 9: Đồ thị phân đôi biễu diễn liên kết tập pivot tập lĩnh vực độc lập bảng trọng số đỉnh 48 Hình 10: Quy trình chạy thực nghiệm 55 Hình 11: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 89 Hình 12: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 89 Hình 13: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 90 Hình 14: Biểu đồ so sánh trường hợp xây dựng mô hình phân lớp năm giải thuật MutilayerPerceptron 90 Hình 15: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MultilayerPerceptron 91 Hình 16: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MutilayerPerceptron 91 x Nhận xét: Kết xử lý với liệu ngắn thưa cho kết tốt với giải thuật J48, IBK, LibSVM MultilayerPerceptron Trong với giải thuật Random Forest Bagging không mang lại hiệu cao Điều lý giải thơng qua giải thuật multi-view, giải thuật xây dựng dựa Co-Training, huấn luyện phân lớp để gán nhãn số đối tượng sau đối tượng đưa vào tập huấn luyện để xây dựng lại phân lớp Trong Bagging Random Forest giải thuật phân hoạch, chia liệu thành nhiều dataset tạo phân lớp Sau đưa kết cách vote phân lớp Chính tập liệu chứa đối tượng, bước lặp ta đưa vào vài đối tượng không hiệu Sau chạy giải thuật này, MultilayerPerceptron cho kết cao đạt TP-Rate lên đến 93.5% cao Random Forest 86 5.5.7 Biểu đồ so sánh kết Chúng tơi tóm tắt lại kết tốt trường hợp giải thuật có kết trung bình tốt Random Forest giải thuật cho kết tốt sau xử lý liệu ngắn thưa MultilayerPerceptron Bảng 34: So sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest Random forest TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Toàn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.753 0.746 0.889 0.802 0.800 0.857 0.833 0.829 0.949 Tồn liệu nguồn khơng gia tăng 0.809 0.808 0.920 Chỉ dùng không gian chung 0.876 0.875 0.966 Xử lý liệu ngắn & thưa 0.839 0.834 0.941 Bảng 35: So sánh trường hợp xây dựng mô hình phân lớp năm giải thuật Random Forest Random forest TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Tồn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.801 0.798 0.931 0.809 0.808 0.866 0.914 0.912 0.967 Toàn liệu nguồn không gia tăng 0.818 0.818 0.942 Chỉ dùng không gian chung 0.882 0.880 0.970 Xử lý liệu ngắn & thưa 0.914 0.913 0.965 Bảng 36: So sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest Random forest TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Tồn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.876 0.875 0.961 0.882 0.880 0.870 0.909 0.906 0.973 Toàn liệu nguồn không gia tăng 0.877 0.865 0.968 Chỉ dùng không gian chung 0.898 0.895 0.971 Xử lý liệu ngắn & thưa 0.912 0.912 0.976 87 Bảng 37: So sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MultilayerPerceptron MultilayerPerceptron TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Toàn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.672 0.670 0.820 0.608 0.612 0.819 0.758 0.757 0.873 Tồn liệu nguồn khơng gia tăng Chỉ dùng không gian chung 0.693 0.790 0.690 0.787 0.853 0.867 Xử lý liệu ngắn & thưa 0.819 0.817 0.887 Bảng 38: So sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MultilayerPerceptron MultilayerPerceptron TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Tồn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.731 0.732 0.865 0.602 0.609 0.849 0.812 0.808 0.918 Tồn liệu nguồn khơng gia tăng 0.756 0.748 0.902 Chỉ dùng không gian chung 0.855 0.851 0.918 Xử lý liệu ngắn & thưa 0.889 0.888 0.943 Bảng 39: So sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MultilayerPerceptron MultilayerPerceptron TP Rate F-Measure ROC Area Chỉ dùng tập liệu CE Tồn liệu nguồn khơng qua chuyển đổi Tồn liệu nguồn có gia tăng 0.801 0.800 0.925 0.731 0.728 0.873 0.855 0.855 0.942 Toàn liệu nguồn không gia tăng Chỉ dùng không gian chung 0.800 0.855 0.800 0.852 0.912 0.923 Xử lý liệu ngắn & thưa 0.935 0.934 0.963 Để so sánh rõ ràng trường hợp, vẽ số biểu đồ hiệu xây dựng mô hình phân lớp giải thuật Random Forest 88 tập liệu năm (Hình 11), năm (Hình 12) năm (Hình 13) MultilayerPerceptron (Hình 15, Hình 16, Hình 17) 1.2 Chỉ dùng tập liệu CE 0.8 Tồn liệu nguồn khơng qua chuyển đổi 0.6 Tồn liệu nguồn có gia tăng Tồn liệu nguồn khơng gia tăng 0.4 Chỉ dùng không gian chung 0.2 Xử lý với liệu ngắn & thưa TP Rate F-Measure ROC Area Hình 11: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 1.2 Chỉ dùng tập liệu CE 0.8 Tồn liệu nguồn khơng qua chuyển đổi 0.6 Tồn liệu nguồn có gia tăng Tồn liệu nguồn khơng gia tăng 0.4 Chỉ dùng không gian chung 0.2 Xử lý với liệu ngắn & thưa TP Rate F-Measure ROC Area Hình 12: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 89 0.98 Chỉ dùng tập liệu CE 0.96 Tồn liệu nguồn khơng qua chuyển đổi 0.94 0.92 Tồn liệu nguồn có gia tăng 0.9 0.88 Tồn liệu nguồn khơng gia tăng 0.86 Chỉ dùng không gian chung 0.84 Xử lý với liệu ngắn & thưa 0.82 0.8 TP Rate F-Measure ROC Area Hình 13: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật Random Forest 0.9 Chỉ dùng tập liệu CE 0.8 Tồn liệu nguồn khơng qua chuyển đổi 0.7 0.6 0.5 Toàn liệu nguồn có gia tăng 0.4 Tồn liệu nguồn khơng gia tăng 0.3 Chỉ dùng không gian chung 0.2 Xử lý với liệu ngắn & thưa 0.1 TP Rate F-Measure ROC Area Hình 14: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MutilayerPerceptron 90 0.9 Chỉ dùng tập liệu CE 0.8 Toàn liệu nguồn khơng qua chuyển đổi 0.7 0.6 0.5 Tồn liệu nguồn có gia tăng 0.4 Tồn liệu nguồn không gia tăng 0.3 Chỉ dùng không gian chung 0.2 Xử lý với liệu ngắn & thưa 0.1 TP Rate F-Measure ROC Area Hình 15: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MultilayerPerceptron 1.2 Chỉ dùng tập liệu CE 0.8 Toàn liệu nguồn khơng qua chuyển đổi 0.6 Tồn liệu nguồn có gia tăng Tồn liệu nguồn khơng gia tăng 0.4 Chỉ dùng không gian chung 0.2 Xử lý với liệu ngắn & thưa TP Rate F-Measure ROC Area Hình 16: Biểu đồ so sánh trường hợp xây dựng mơ hình phân lớp năm giải thuật MutilayerPerceptron 5.5.8 Sử dụng mơ hình Chúng tơi chọn mơ hình phân lớp sinh viên năm xây dựng giải thuật MultilayerPerceptron ( mô hình đạt kết cao với TP-Rate = 91 0.935) để làm demo cho việc sử dụng mơ hình Chúng dùng tập liệu bao gồm 38 đối tượng sau để thực việc dự báo (Bảng 40) Bảng 40: Tập liệu sinh viên dùng để dự đốn tình trạng học tập Sau sử dụng mơ hình để dự đốn, chúng tơi thu kết Bảng 41 92 Bảng 41: Kết sau sử dụng mơ hình để dự đốn Như có đối tượng bị dự đốn sai Xem xét sinh viên thứ 20 có trạng thái Study_Stop (status = 3) bị dự đoán sai trạng thái Studying (status = 2) nhận thấy trường hợp đặc biệt Sinh viên có điểm số tốt với số môn đại cương số mơn học có số tín ít, chí đạt điểm giỏi (7,8) với mơn Tuy nhiên, môn học chuyên ngành, có số tín nhiều định đến trạng thái học tập học kỳ sinh viên lại khơng có điểm số cao, nhiều mơn đạt điểm yếu ( 1,2,3) Điều khác với sinh viên bị buộc học khác, mà điểm số thường yếu tất môn 93 Xem xét sinh viên thứ 32 có trạng thái Studying (status = 2) bị dự đoán sai trạng thái Graduating (status = 1) Chúng tơi nhận thấy sinh viên có điểm số tốt hầu hết môn, điểm trung bình tích lũy thuộc loại giỏi, học hết tất mơn học Tuy nhiên có môn học chuyên ngành bắt buộc mã số 501127 405023 sinh viên bị rớt với điểm 2.8 1.3 chưa thể tốt nghiệp Để khắc phục tình trạng đánh trọng số cho thuộc tính Chẳng hạn mơn học có số tín cao có trọng số cao mơn học có số tín hơn, mơn học bắt buộc có trọng số cao môn học không bắt buộc Chúng ta đưa vào thuộc tính tổng số tín học kỳ, tổng số tín tích lũy để khắc phục tình trạng thứ 5.5.9 Kết luận Như vậy, qua trình thử nghiệm cho thấy việc áp dụng xử lý liệu ngắn thưa sau chuyển đổi đem lại kết tốt với nhiều giải thuật, dùng để xây dựng mơ hình đánh giá tình trạng học tập sinh viên Trong số tất giải thuật, giải thuật Random Forest cho kết tốt nhiều trường hợp Tuy việc áp dụng giải thuật với xử lý liệu ngắn thưa không mang lại hiệu cao 94 6.1 CHƯƠNG 6: TỔNG KẾT Đóng góp luận văn Chúng tơi tìm hiểu kỹ thuật học chuyển đổi, hướng tiếp cận kỹ thuật học chuyển đổi thông qua giải thuật tiêu biểu Bên cạnh đó, chúng tơi tìm hiểu nhiều cơng trình kỹ thuật học chuyển đổi, tốn phân lớp với liệu giáo dục, giải nhiệm vụ mà mục tiêu đề tài Ngoài ra, chúng tơi cịn đề xuất cách xử lý vấn đề liệu ngắn thưa, đề xuất giải thuật phân loại dựa giải thuật Co-Training Chúng trình bày cách chi tiết cách áp dụng hai cách tiếp cận học chuyển đổi toán phân lớp giáo dục khoa tiếp cận dựa đối tượng thuộc tính Áp dụng hai giải thuật tiêu biểu kỹ thuật học chuyển đổi SFA SCL vào toán phân loại liệu giáo dục Chúng đưa cách xử lý để tạo mơ hình huấn luyện hiệu tình có tập liệu lĩnh vực nguồn gán nhãn, tập liệu lĩnh vực đích có khơng có liệu gán nhãn Trong trường hợp tập liệu lính vực đích gán nhãn lựa chọn giải pháp tạo mơ hình với liệu nguồn có gia tăng mơ tả 5.2.3.3 Cịn tập liệu lĩnh vực đích chưa gán nhãn lựa chọn giải pháp xử lý với liệu ngắn thưa 5.2.3.6 - kỹ thuât phân loại bán giám sát Cách đánh giá kỹ thuật chuyển đổi cho toán đề tài cải biên phương pháp cross-validation Trong cách đánh giá này, tập liệu kiểm tra tách riêng so với tập liệu huấn luyện, chúng tơi đánh giá xoay vịng fold tập liệu để có kết đánh giá cách toàn diện tập liệu Đối với tiêu chí đánh giá mức độ hiệu q trình xây dựng mơ hình phân lớp, theo cách tiếp cận cải tiến độ xác mơ hình phân lớp Chúng tơi phát triển công cụ cho phép chạy tự động thử nghiệm với thông số khác Từ dễ dàng lựa chọn mơ hình tốt 95 6.2 Hướng phát triển Nhằm mục tiêu hiểu áp dụng kỹ thuật học chuyển đổi nên bỏ qua số bước trình tiền xử lý liệu chẳng hạn xử lý liệu điểm môn học bị thiếu sinh viên không học, gán giá trị Chúng ta cần có bước xử lý vấn đề kết tốt Mở rộng tốn khơng áp dụng kỹ thuật học chuyển đổi cho hai ngành khoa mà chúng tơi mở rộng cho khoa khác Ngồi áp dụng kỹ thuật học chuyển đổi có thay đổi chương trình đào tạo tương lai 96 TÀI LIỆU THAM KHẢO [1] Jiawei Han, Micheline Kamber, "Data Mining: Concepts and Techniques, Second Edition" Morgan Kaufmann Publishers, 2006 [2] Ian H.Witten, Eibe Frank, Mark A.Hall, "Data Mining: Practical Machine Learning Tools and Techniques, Third Edition" Morgan Kaufmann Publishers, 2011 [3] Nabila Bousbia, Idriss Belamri, "Educationla Data Mining: Applications and Trends" Springer International Publishing Switzerland 2014 [4] K P Bennett, A Demiriz, “Semi-Supervised Support Vector Machines”, NIPS 1998: 368-374, 1998 [5] Torrey, J Shavlik, “Transfer Learning”, Handbook of Research on Machine Learning, 2009 [6] Sinno Jialin Pan, Qiang Yang, “A Survey on Transfer Learning”, In IEEE Transactions on Knowlege and Data Engineering, volume 22, No.10, pages 1345-1359, October 2010 [7] W Dai, Q Yang, G Xue, and Y Yu, “Boosting for Transfer Learning,” Proc.24th Int’l Conf Machine Learning, pp 193-200, June 2007 [8] Yoav Freund, Robert E.Schapire, "A Short Introduction to Boosting", Journal of Japanese for Artifical Intelligence, 14(5): 771-780, September, 1999 [9] J Blitzer, R McDonald, and F Pereira, “Domain Adaptation with Structural Correspondence Learning,” Proc Conf Empirical Meth-ods in Natural Language, pp 120-128, July 2006 [10] X Ling, W Dai, G.-R Xue, Q Yang, and Y Yu, “Spectral DomainTransfer Learning,” Proc 14th ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining,pp 488-496, Aug 2008 [11] Sinno Jialin Pan, XiaoChuan Ni, Jian Tao Sun, Quiang and Zheng Chen, "Crosss-Domain Sentiment Classification via Spectral Feature Alighnment", The 19th International World Wide Web Conference (WWW-10), April 2010 [12] F R K Chung, "Spectral Graph Theory" Number 92 in CBMS Regional Conference Series in Mathematics American Mathematical Society, 1997 97 [13] J Blitzer, M Dredze, and F Pereira "Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification" In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 432–439, Prague, Czech Republic, 2007 [14] Songbo Tan, Xueqi Cheng, “Improving SCL Model for Sentiment-Transfer Learning”, Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume, June 2009 [15] Jialin Pan, “Feature-Based Transfer Learning with Real Work Application", A Thesis submmited to The Hong Kong University of Science and Technology in Partial Fulfillment of the Requirements for the Degree of Doctor of Philosophy in Computer Science and Engineering, Septemper 2010 [16] Peter prettenhofer, Benno Stein, “Cross-Lingual Adaptation Using Structural Corespondence Learning” Journal ACM Transactions on Intelligent Systems and Technology (TIST), Volume Issue 1, October 2011 [17] K Ando and T Zhang 2005a "A framework for learning predictive structures from multiple tasks and unlabeled data." Journal of Machine Learning Reasearch, 2005 [18] K Ando and T Zhang 2005b "A high-performance semi-supervised learning method for text chunking." In Proc.of ACL, 2005 [19] Leon Bottou "Stochastic Gradient Descent Tricks." Microsoft Research, Redmond, WA [20] N T M Anh (2014), “Phân lớp sinh viên dựa kết học tập hệ thống giáo dục theo quy chế tín chỉ”, Luận văn thạc sỹ ngành Khoa Học Máy Tính, Trường Đại Học Bách Khoa [21] V T N Mỵ (2015), “Áp dụng kỹ thuật học chuyển đổi truyền dẫn cho toán phân lớp sinh viên”, Luận văn thạc sỹ ngành Khoa Học Máy Tính, Trường Đại Học Bách Khoa [22] Cecily Heiner, Neil Heffernan, Tiffany Barnes, "Educational Data Mining" Supplementary Proceedings of the 13th International, Conference of Artificial Intelligence in Education, Marina del Rey, CA USA July 2007 98 [23] Multi-tAsk Learning via StructurAl Regularization, http://www.malsar.org/, truy cập lần cuối ngày 11 tháng 05 năm 2015 [24] C.Vialardi, J Bravo, L Shafti, A Ortigosa, "Recommendation in Higer Education Using Data Mining Techniques", Educational Data mining, 2009 [25] Mirka Saarela, Tommi Karkkainen, "Analysing Student Performance using Sparse Data of Core Bachelor Courses", Journal of Educational Data mining vol 7, 2015 [26] M Paliwal, U A Kumar, "A Study of Academic Performance of Business School Graduates Using Neural Network and Statistical Techniques", Expert Systems with Applications 36 (7865 - 7872), 2009 [27] Bayer, J Bydzovska, H Geryk, J.Obsivac, Popelinsky, "Predicting dropout from social behaviour of students", In Proceedings of the 5th International Conference on Educational Data Mining - EDM 103 - 109, 2012 [28] Bhardwaj, B and PAL, "Mining educational data to analyze student's performance", (IJCSIS) International Journal of Computer Science and Information Security, 2011 [29] Goudong Long, "Instance-based and Feature-based classification enhancement for short & sparse text.", A thesis submitted for the degree of Doctor of Philosophy, July 2014 [30] Patrick J.F Groenen, Michel van de Velden, "Multidimensional Scaling ", Econometric Institute Report EI 2004-15 [31] Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka/, truy cập lần cuối ngày 12 tháng 12 năm 2015 [32] R Kohavi (1995), “A Study of cross-validation and bootstrap for accuracy estimation and model selection”, International Joint conference on artificial intelligence (IJCAI) 99 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Duy Hồng Ngày, tháng , năm sinh: 28/07/1989 Nơi sinh: Bình Định Địa liên lạc: 549 Ngô Gia Tự, Thị Xã An Nhơn, Tỉnh Bình Định Q TRÌNH ĐÀO TẠO Thời gian Chuyên ngành Từ 09/2007 đến Đại học, chuyên ngành Khoa Học Máy Tính - Đại học 06/2011 Bách Khoa Tp Hồ Chí Minh Từ 08/2013 đến Cao học chuyên ngành Khoa Học Máy Tính - Đại học 12/2015 Bách Khoa Tp Hồ Chí Minh Q TRÌNH CƠNG TÁC Nơi công tác Thời gian Từ 06/2011 đến Kỹ sư máy tính, Cơng ty TNHH Elca, Tp Hồ Chí Minh 04/2013 Từ 04/2013 đến Kỹ sư máy tính, Cơng ty TNHH tin học GoodLand Informatic 100 ... bạn sinh viên danh sách sinh viên bị cảnh cáo buộc học Trong đề tài luận văn, tập trung phát triển kỹ thuật học chuyển đổi cho toán phân lớp sinh viên, áp dụng kỹ thuật học chuyển đổi để xây dựng... ứng dụng kỹ thuật cho liệu giáo dục giúp giải vấn đề hạn chế kỹ thuật học máy nêu Đó lý chúng tơi nghiên cứu áp dụng kỹ thuật học chuyển đổi cho toán dự báo sớm tình trạng học tập sinh viên để... cứu xét sinh viên nêu cơng trình [21], áp dụng kỹ 15 thuật học chuyển đổi khác để phát triển kỹ thuật học máy nhằm giải toán Bài toán đề xuất sau: Áp dụng kỹ thuật học chuyển đổi để phát triển