Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,1 MB
Nội dung
- ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ́ ́H uê - - tê KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC h ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO in LỰA CHỌN CHUYÊN NGÀNH, KHOA HỆ THỐNG ươ ̀n g Đ ại ho ̣c K THÔNG TIN KINH TẾ, TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ Giảng viên hướng dẫn Tr Sinh viên thực hiện: Nguyễn Ngọc Tri ThS Mai Thu Giang Lớp: K48A Tin học Kinh tế Niên khóa: 2014-2018 Huế, 05/2018 - Lời Cảm Ơn Lời em xin chân thành cảm ơn ThS Mai Thu Giang tận tình hướng dẫn, giúp đỡ em trình thu thập số liệu bảo em suốt thời gian thực khóa luận Em xin cảm ơn quý thầy cô khoa Hệ thống thông tin Kinh tế - Đại ́ uê học Kinh tế Huế giúp đỡ cung cấp nhiều kiến thức quý báu cho em suốt ́H năm học đại học trường tê Tôi xin gửi lời cảm ơn đến gia đình, bạn bè người thân ln bên cạnh giúp đỡ tơi suốt q trình làm khóa luận in h Do kiến thức thời gian có hạn nên khóa luận chắn khơng tránh ̣c K khỏi sai sót, kính mong góp ý q báu q thầy Tr ươ ̀n g Đ ại ho Huế, ngày 03 tháng năm 2018 Sinh viên thực Nguyễn Ngọc Tri - MỤC LỤC LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT PHẦN I: ĐẶT VẤN ĐỀ 1 Lý chọn đề tài Mục tiêu nghiên cứu ́ uê Phương pháp nghiên cứu .2 Ý nghĩa đề tài Ý nghĩa khoa học 4.2 Ý nghĩa thực tiễn tê ́H 4.1 PHẦN II: NỘI DUNG h CHƯƠNG 1: CƠ SỞ LÝ THUYẾT in Khai phá liệu giáo dục Định nghĩa khai phá liệu giáo dục 1.2 Mơ hình hóa mục tiêu chung EDM ̣c K 1.1 ho Các giai đoạn khai phá liệu Các loại liệu sử dụng Cơ sở liệu quan hệ .6 3.2 Kho liệu .6 3.3 Cơ sở liệu không gian 3.4 Cơ sở liệu văn .6 3.5 Dữ liệu web ươ ̀n g Đ ại 3.1 Phân lớp khai phá liệu Phân lớp Tr 4.1 4.2 Khai phá liệu sử dụng luật kết hợp 12 Kỹ thuật khai phá liệu sử dụng định 14 5.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định .14 5.2 Các vấn đề khai phá liệu sử dụng định 14 5.3 Tránh “quá khớp” liệu .14 5.4 Thao tác với thuộc tính liên tục 15 5.5 Đánh giá định lĩnh vực KPDL 15 5.6 Xây dựng định 17 5.7 Đánh giá độ xác mơ hình phân lớp 18 - Giới thiệu phần mềm WEKA 19 6.1 Giới thiệu chung 19 6.2 Khái quát số chức môi trường Explorer WEKA 20 CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC KINH TẾ HUẾ 21 Không gian mẫu 21 Tiền xử lý liệu 21 2.2 Trích chọn thuộc tính cho liệu huấn luyện 23 ́ Chuẩn bị liệu để huấn luyện (training set) kiểm thử (testing set) 22 uê 2.1 ́H Chạy phần mềm WEKA với liệu huấn luyện .24 Khi chưa trích chọn liệu 24 3.2 Sau trích chọn liệu 31 3.3 Phân tích kết đạt 36 3.4 Ứng dụng mô hình 37 in h tê 3.1 ̣c K PHẦN III: KẾT LUẬN 40 Kết đạt từ khóa luận 40 Hạn chế 40 ho Hướng phát triển đề tài 40 Tr ươ ̀n g Đ ại TÀI LIỆU THAM KHẢO .42 - DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Tiếng Anh Tiếng Việt THPT Trung học phổ thông KPDL Khai phá liệu EDM Education Data Mining Khai phá liệu giáo dục CSDL Cơ sở liệu Giải thuật Naïve Bayes ́ Naïve Bayes uê NB Hệ thống thông tin kinh tế Tr ươ ̀n g Đ ại ho ̣c K in h tê ́H HTTTKT - DANH MỤC HÌNH Hình 1.1: Các bước trình khai phá liệu [6] Hình 1.2 (a) Bước học/huấn luyện trình phân lớp bước [9] .7 Hình 1.2 (b) Bước phân lớp trình phân lớp bước [9] Hình 1.3 ví dụ định Hình 1.4: Mơ hình ứng dụng luật 13 ́ uê Hình 1.5: k-fold cross – validation [9] 19 Hình 1.6: Giao diện cửa sổ phần mềm WEKA .19 ́H Hình 2.1: Dữ liệu điểm gốc sinh viên .21 Tr ươ ̀n g Đ ại ho ̣c K in h tê Hình 2.2: Dữ liệu sau tổng hợp xử lý 22 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN I: ĐẶT VẤN ĐỀ Lý chọn đề tài Việc chọn ngành nghề vơ quan trọng, điều giúp sinh viên đường phù hợp với khả sở thích thân, qua tăng hiệu suất làm việc hay trước hiệu suất, niềm đam mê học tập giảng đường, tránh vội vàng việc chọn ngành nghề để bỏ lỡ nhiều hội đáng thành công ́ uê chọn ngành nghề phù hợp Với việc chọn chuyên ngành cho ngành ́H đắn đo lựa chọn, làm thêm vấn đề trở nên phức tạp tê Đối với thân sinh viên, việc chọn chuyên ngành không phù hợp với khả năng, sở thích dẫn đến việc lãng phí thời gian tài Nên việc chọn ngành h nghề cần thiết cho tình hình chung sinh viên in Thực tế, trường Đại học Kinh Tế Huế vào năm thứ đại học, sinh viên ̣c K số ngành đặc thù lại đứng trước lựa chọn lựa chọn chuyên ngành theo học Điển khoa Hệ thống Thơng tin Kinh tế chia chuyên ngành ho học Tin học Kinh tế Thống kê Kinh doanh Nó trở thành vấn đề sinh viên lại ại phải tiến hành lựa chọn tương lai cơng việc thêm lần nữa.Việc chia Đ chuyên ngành học vấn đề quan tâm nhà quản lý nắm bắt số lượng sinh viên đăng kí theo học chun ngành để đặt g tiêu số lượng phù hợp cho chuyên ngành để tăng cường chất lượng đào tạo ươ ̀n lên mức tối đa Nên để giải vấn đề này, cần có biện pháp để giúp định hướng giúp cho sinh viên chọn chuyên ngành phù hợp với thân, hết Tr giúp cho nhà quản lý sinh viên dự đoán số lượng sinh viên theo học chuyên ngành nào, giúp cho nhà quản lý đặt tiêu phù hợp cho chuyên ngành, nâng cao chất lượng đào tạo Đó lý tơi chọn đề tài “Ứng dụng khai phá liệu dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh Tế - Đại học Huế” để giải vấn đề Mục tiêu nghiên cứu - Tìm hiểu rõ cung cấp tri thức Khai phá liệu giáo dục (Education Data Minning) SVTH: Nguyễn Ngọc Tri - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang - Tìm hiểu để ứng dụng kỹ thuật, phương pháp khai phá liệu phân tích số liệu, tư vấn chọn ngành học cho sinh viên dựa kết thông tin thu thập - Sử dụng công cụ khai phá liệu WEKA để dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh tế Huế Phương pháp nghiên cứu - Thu thập thơng tin, phân tích số liệu: thu thập số liệu điểm sinh viên ́ uê năm nhất, qua dự báo chuyên ngành học cho sinh viên ́H - Phương pháp nghiên cứu thực nghiệm: áp dụng phần mềm WEKA để phân tích số liệu thu thập nhằm đưa dự đoán cho khả chọn ngành sinh tê viên h - Kỹ thuật áp dụng: Phân lớp phương pháp định Ý nghĩa khoa học ̣c K 4.1 in Ý nghĩa đề tài ngành học Ý nghĩa thực tiễn ại 4.2 ho Áp dụng thuật toán KPDL liệu điểm có sẵn để lựa chọn chuyên Đ Đề tài ứng dụng khai phá liệu chọn chuyên ngành cho sinh viên khoa Hệ thống thông tin kinh tế góp phần cơng cụ trợ giúp cho nhà quản lý giáo ươ ̀n g dục, cụ thể thầy cô khoa HTTTKT có dự báo số lượng sinh viên đăng kí chuyên ngành để đưa tiêu chuyên ngành Về phần sinh viên, đề tài phần giúp đỡ sinh viên có lựa chọn chuyên ngành phù hợp Tr với thân SVTH: Nguyễn Ngọc Tri - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN II: NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Khai phá liệu giáo dục 1.1 Định nghĩa khai phá liệu giáo dục Khai phá liệu giáo dục (EDM) [1][8] lĩnh vực nghiên cứu phát triển, hiểu sử dụng kỹ thuật khai thác liệu liệu thô ́ uê từ hệ thống giáo dục, đồng thời phát thông tin ẩn sau liệu Trong năm gần đây, lĩnh vực tăng cường lượng lớn cơng trình ́H nghiên cứu để xác định tìm đóng góp kỹ thuật khai thác liệu tê hệ thống giáo dục Thực tế, việc khai thác hiểu liệu thô thu thập từ h hệ thống giáo dục “mỏ vàng” để giúp nhà thiết kế người sử dụng cải in thiện hiệu hoạt động họ thu thập thơng tin hữu ích hành vi sinh ̣c K viên trình học tập Việc sử dụng khai thác liệu giáo dục giúp ích nhiều việc giải ho vấn đề học tập Sử dụng EDM để trả lời câu hỏi như: Dự đốn điều tạo nên thành công sinh viên? Chuỗi kịch hiệu cho sinh viên cụ ại thể? Các hành động sinh viên cho thấy tiến học tập gì? Những đặc điểm Đ môi trường học tập cho phép học tập tốt hơn? Mục tiêu chương trình g thiết lập đánh giá khai thác liệu áp dụng giáo dục để xác định ươ ̀n khía cạnh phân tích: liệu, mục tiêu nghiên cứu, kỹ thuật sử dụng đóng góp việc áp dụng kĩ thuật lĩnh vực giáo dục Và không Tr liệt kê cơng việc mà cịn để tạo điều kiện thuận lợi cho việc sử dụng hiểu biết kỹ thuật khai thác liệu để giúp chuyên gia lĩnh vực giáo dục phản hồi xác định khu vực nghiên cứu Theo Romero Ventura EDM “ứng dụng kỹ thuật khai thác liệu để xác định loại liệu đến từ môi trường giáo dục để giải câu hỏi giáo dục quan trọng”, định nghĩa nhấn mạnh đến việc khám phá kiến thức dựa liệu giáo dục để cải tiến hệ thống giáo dục EDM thường bị nhầm lẫn với “Phân tích học tập” là: đo lường, thu thập, phân tích báo cáo liệu người học bối cảnh chúng, nhằm mục đích hiểu tối ưu hóa việc học mơi trường mà xảy Tuy nhiên, SVTH: Nguyễn Ngọc Tri - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang EDM “phân tích học tập” lại khái niệm riêng biệt khác EDM rút kết hợp lĩnh vực chính: khoa học máy tính, giáo dục thống kê EDM sử dụng phương pháp áp dụng kỹ thuật từ thống kê, học máy, khai thác liệu, thu hồi thông tin, hệ thống tư vấn, tâm lý học, tâm lý học nhận thức, v v Lựa chọn kỹ thuật phương pháp tùy thuộc vào yêu cầu giải vấn đề giáo dục 1.2 Mơ hình hóa mục tiêu chung EDM - Mơ hình hóa sinh viên [2][3]: mơ hình hóa người dùng lĩnh vực giáo dục ́ uê kết hợp với thông tin chi tiết đặc điểm trạng thái sinh viên kiến thức, kỹ năng, động lực, hài lòng, siêu nhận thức, thái độ, kinh nghiệm tiến ́H học tập số loại vấn đề ảnh hưởng tiêu cực đến kết học tập Mục tiêu tê tạo cải tiến mơ hình sinh viên từ thông tin sử dụng h - Dự đoán kết học tập kết học tập sinh viên Mục tiêu để dự in đoán kết cuối sinh viên loại kết học tập khác dựa ̣c K liệu từ hoạt động khóa học - Tạo đề xuất: mục tiêu để giới thiệu cho sinh viên nội dung phù hợp ho với họ - Phân tích hành vi người học: sử dụng để nhóm sinh viên theo hướng dẫn ại họ cho mục đích thích ứng cá nhân hóa Đ - Giao tiếp với bên liên quan [4]: mục tiêu để giúp nhà quản lý nhà ươ ̀n khóa học g giáo dục việc phân tích hoạt động sinh viên thơng tin sử dụng - Phân tích cấu trúc miền: mục tiêu xác định cấu trúc miền cải tiến mơ hình Tr miền mơ tả nội dung cần học trình tự giảng dạy tối ưu, sử dụng khả dự đoán hiệu suất sinh viên thước đo chất lượng mô hình cấu trúc miền - Nghiên cứu tác động loại hình hỗ trợ sư phạm cung cấp cách dùng phần mềm - Nâng cao kiến thức khoa học học tập người học thông qua việc xây dựng, khám phá cải tiến mơ hình sinh viên, lĩnh vực hỗ trợ sư phạm Các giai đoạn khai phá liệu Giai đoạn 1: Hình thành, xác định định nghĩa tốn Là việc tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành SVTH: Nguyễn Ngọc Tri - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Cụ thể hơn, phần kết quả, cột predicted (dự báo), dấu + thể cho Misspredicted (dự báo sai) Cột actual gán nhãn có sẵn liệu Lưu lại mơ hình việc kích chuột phải vào mơ hình nhấn Save model 3.1.2 Phân lớp phương pháp định sử dụng thuật toán J48 ́ ho ̣c K in h tê ́H uê Kết phân lớp liệu huấn luyện sử dụng thuật toán J48: Kết phân lớp nhận là: ại + Trường hợp phân lớp xác: 53 chiếm 67.0886% Đ + Trường hợp phân lớp không xác: 26 chiếm 32.9114% Tr ươ ̀n g Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: SVTH: Nguyễn Ngọc Tri 28 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đốn sai 12 chiếm 60% Dấu + thể cho nhãn dán dự báo sai 3.1.3 Phân lớp phương pháp định sử dụng thuật toán RandomTree ́ ho ̣c K in h tê ́H uê Kết phân lớp liệu huấn luyện sử dụng thuật toán ngẫu nhiên: ại Kết phân lớp xác đạt 100% Tr ươ ̀n g Đ Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: SVTH: Nguyễn Ngọc Tri 29 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đoán sai 12 chiếm 60% Dấu + thể cho nhãn dán dự báo sai 3.1.4 Phân lớp phương pháp định sử dụng thuật toán RandomForest ́ ̣c K in h tê ́H uê Kết phân lớp liệu huấn luyện sử dụng thuật toán rừng ngẫu nhiên: ho Kết phân lớp xác đạt 100% Tr ươ ̀n g Đ ại Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác 12 chiếm 60%, dự đoán sai chiếm 40% SVTH: Nguyễn Ngọc Tri 30 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.1.5 Tổng hợp kết Sau sử dụng giải thuật phương pháp phân lớp chưa trích chọn thuộc tính, ta nhận thấy thuật tốn có tỉ lệ dự đốn xác cao sau q trình kiểm thử bao gồm thuật tốn định sử dụng phương pháp RandomForest thuật tốn Nạve Bayes có tỉ lệ dự đốn xác 60% Hai thuật tốn cịn lại định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp J48 với tỉ lệ dự đốn xác 40% Vậy chưa trích chọn ́ uê liệu, để đạt tỉ lệ dự đốn cao nên sử dụng thuật tốn định sử dụng 3.2 Sau trích chọn liệu tê 3.2.1 Phân lớp thuật toán Nạve Bayes ́H phương pháp RandomForest thuật tốn Nạve Bayes h Như sử dụng trích chọn liệu trên, liệu sau trích chọn in cịn lại trường thuộc tính “Toan_1” “Vi_mo”, ta có liệu huấn luyện Tr ươ ̀n g Đ ại ho ̣c K sau: Như thấy, liệu huấn luyện cịn lại thuộc tính phân lớp thuộc tính đích để phân lớp Kết phân lớp: SVTH: Nguyễn Ngọc Tri 31 - tê ́H ́ GVHD: Th.S Mai Thu Giang uê Khóa luận tốt nghiệp in + Phân lớp xác: 51 chiếm 64.557% h Khi cịn thuộc tính ảnh hưởng, kết phân lớp sau: Tr ươ ̀n g Đ ại ho Kết kiểm thử mơ hình: ̣c K + Phân lớp khơng xác: 28 chiếm 35.443% Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 35%, dự đoán sai 13 chiếm 65% SVTH: Nguyễn Ngọc Tri 32 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.2.2 Phân lớp phương pháp ngẫu nhiên sử dụng thuật toán J48 ́ ho Tóm tắt kết phân lớp: ̣c K in h tê ́H uê Kết phân lớp: + Phân lớp xác: 47 chiếm 59.4937% ại + Phân lớp khơng xác: 32 chiếm 40.5063% Tr ươ ̀n g Đ Kết chạy kiểm thử: SVTH: Nguyễn Ngọc Tri 33 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đốn sai 12 chiếm 60% 3.2.3 Phân lớp phương pháp định sử dụng thuật toán RandomTree ́ ho Kết phân lớp đạt 100% ̣c K in h tê ́H uê Kết phân lớp: Tr ươ ̀n g Đ ại Kết kiểm thử mơ hình: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác 11 chiếm 55%, dự đốn sai chiếm 45% SVTH: Nguyễn Ngọc Tri 34 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.2.4 Phân lớp phương pháp định sử dụng thuật toán RandomForest ́ Tr ươ ̀n g Đ ại ho Kết kiểm thử mơ hình: ̣c K Kết phân lớp đạt 100% in h tê ́H uê Kết phân lớp: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác 11 chiếm 55%, dự đốn sai chiếm 45% 3.2.5 Tổng hợp kết Khi sử dụng giải thuật phương pháp phân lớp sau trích chọn thuộc tính, ta nhận thấy thuật tốn có tỉ lệ dự đốn xác cao sau trình kiểm thử bao SVTH: Nguyễn Ngọc Tri 35 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang gồm thuật toán định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp RandomForest có tỉ lệ dự đốn xác 55% Hai thuật tốn cịn lại định sử dụng phương pháp J48 thuật tốn Nạve Bayes với tỉ lệ dự đốn xác 40% 35% Vậy sau trích chọn liệu, để đạt tỉ lệ dự đoán cao nên sử dụng thuật tốn định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp RandomForest ́ Phân tích kết đạt uê 3.3 Sau sử dụng phương pháp khác kiểu liệu chưa trích chọn 40% RandomTree 40% tê J48 in 60% ̣c K Nạve Bayes Sau trích chọn thuộc tính h Chưa trích chọn thuộc tính ́H sau trích chọn, ta tổng hợp bảng kết sau: 60% 40% 55% 55% ho RandomForest 35% ại Dựa vào bảng kết quả, ta đưa nhận xét sau: Đ + Có thể nhận thuật tốn có tỉ lệ dự đốn xác cao g nghiên cứu Naïve Bayes RandomForest liệu huấn luyện giữ ươ ̀n nguyên chưa trích chọn thuộc tính Nếu so sánh phương pháp sau trích chọn thuộc tính thuật tốn RandomForest có tỉ lệ dự đốn xác cao Tr Nên cuối để tối ưu ta lựa chọn thuật toán ngẫu nhiên sử dụng phương pháp RandomForest chưa trích chọn thuộc tính để phục vụ mục đích nghiên cứu dự đoán chuyên ngành cho sinh viên năm thứ thuộc khoa HTTTKT, Đại học Kinh tế Huế + Việc trích chọn thuộc tính vơ quan trọng nhiên nghiên cứu lại không phát huy hiệu thuộc tính liệu mẫu điều có tác động đến kết đoán Điều thể qua việc sau trích chọn thuộc tính có tổng số thuật tốn sử dụng có kết dự đốn xác thấp chưa trích chọn thuộc tính SVTH: Nguyễn Ngọc Tri 36 - Khóa luận tốt nghiệp 3.4 GVHD: Th.S Mai Thu Giang Ứng dụng mơ hình Sau chọn lưu lại thuật toán tối ưu thuật toán định sử dụng phương pháp RandomForest khơng trích chọn thuộc tính Để giúp nhà quản lý sử dụng cho lần dự đoán sau này, ta thực sau: Khởi động phần mềm WEKA sau sử dụng mơi trường Explorer, Preprocess, mở file (file khơng có tác động đến việc chạy mơ hình), ́ ại ho ̣c K in h tê ́H uê ví dụ mở file “train.arff” ta có sau: Đ Tiếp theo, chọn chức Classify, phần Result list, nhấn chuột phải chọn g Load model, sau chọn model lưu sử dụng thuật toán định sử dụng Tr ươ ̀n phương pháp RandomTree, có tên “ForestRandom.model”, ta hình: SVTH: Nguyễn Ngọc Tri 37 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Tiếp theo, ta chọn liệu để tiến hành dự đốn, liệu lưu “.csv” “.arff” Kích chọn Supplied test set, nhấp vào nút Set → Open File → Chọn file liệu cần dự đoán (nếu file liệu có “.csv” Files of ́ ̣c K in h tê ́H uê Type chọn All Files) → OK Ở ví dụ chọn file “datatest.csv” nên có hình: ho Tiếp theo, kích chọn More options… Output prediction chọn “PlainText” ại ,tác dụng dự đoán thẳng tên chuyên ngành cho sinh viên (nếu để Tr ươ ̀n g Đ “Null” khơng hiện) → OK, thực cài đặt hình: SVTH: Nguyễn Ngọc Tri 38 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Sau tiến hành đưa vào liệu để dự đoán cài đặt, nhấp chuột phải vào model chọn Re-evaluate model on current test set, ta có bảng kết dự đoán cho ́ ̣c K in h tê ́H uê liệu đưa vào hình: Cột “actual” có dấu “?” nghĩa liệu đưa vào dự đốn nhãn ho “Chuyen_nganh” khơng có thơng tin, cột “predicted” hiển thị dự đoán chuyên ngành chương trình, cột “error prediction” thể độ tin cậy dự đốn, gần ại khả xác cao Tr ươ ̀n g Đ Để tiếp tục dự đốn ta thực lại bước nêu SVTH: Nguyễn Ngọc Tri 39 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN III: KẾT LUẬN Kết đạt từ khóa luận - Khóa luận đưa giải pháp từ việc phân loại liệu điểm file liệu thu thập tiến hành khai thác sử dụng chúng để đưa câu trả lời phục vụ cho câu hỏi chung tư vấn chọn chuyên ngành phù hợp với thân sinh viên thông qua điểm năm ́ uê - Hiểu rõ thêm phần mềm WEKA, cách sử dụng thuật tốn đó, ́H giúp hiểu rõ cách làm từ liệu điểm xử lý đưa tê dự đoán chuyên ngành theo học - Về mặt lý thuyết, khóa luận nêu phương pháp phân lớp in h sử dụng để thực vào mục đích khóa luận tư vấn dự báo chọn chuyên ngành học sinh viên ̣c K - Về mặt thực tiễn, khóa luận phần đáp ứng mục tiêu đề tìm phương pháp từ liệu điểm năm sinh viên khoa HTTTKT dự đoán ho chuyên ngành học sinh viên bước vào năm Giúp ích cho nhà quản ại lý giáo dục việc dự báo số lượng sinh viên cho chuyên ngành để đặt Đ tiêu số lượng, sinh viên giúp ích cho họ phần chọn chuyên ngành phù hợp khả để khiến cho việc học tập trở nên hào hứng đạt kết tốt ươ ̀n g Hạn chế Tr - Vì khó khăn việc thu thập điểm nên liệu mẫu khơng lớn - Tỉ lệ dự đốn xác không cao, việc xác định chọn chuyên ngành sinh viên không dựa vào điểm số mà phải tìm hiểu nhiều tác động thực tế ảnh hưởng đến việc chọn chuyên ngành ví dụ như: tâm lý sinh viên yêu thích chuyên ngành nào, ảnh hưởng gia đình, bạn bè, anh chị khóa trước,… Hướng phát triển đề tài Đề tài với mục đích dự báo lựa chọn chuyên ngành học khoa HTTTKT, Đại học Kinh tế Huế sau mở rộng để tiến hành dự đoán cho ngành đặc SVTH: Nguyễn Ngọc Tri 40 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang thù có phân chuyên ngành khác trường Với việc phát triển tăng cường kho liệu dự đốn khơng điểm sinh viên mà cịn trường liệu khác ví dụ u thích mơn học sinh viên, tác động bạn bè, anh chị khóa trước, gia đình,… để tăng khả dự đốn xác, giúp nhà quản lý giáo dục dễ dàng ́ Tr ươ ̀n g Đ ại ho ̣c K in h tê ́H uê việc đưa tiêu cho chuyên ngành SVTH: Nguyễn Ngọc Tri 41 - Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang TÀI LIỆU THAM KHẢO F Castro, A Vellido, A Nebot, F Mugica Applying Data Mining Techniques to e-Learning Problems [1] Muluken Alemu Yehuala Application Of Data Mining Techniques For Student Success And Failure Prediction (The Case Of Debre_Markos ́ uê University) [2] Nguyễn Văn Chức Giới thiệu qui trình hồn chỉnh xây dựng mơ Brijesh Kumar Baradwaj, Saurabh Pal Mining Educational Data to tê ́H hình khai phá liệu [3] Phan Văn Dương Khai phá liệu ứng dụng tư vấn tuyển sinh ̣c K trường cao đẳng nghề Trung Bộ [5] in h Analyze Students‟ Performance[4] Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh ho Trung Hưng Phát môn học quan trọng ảnh hưởng đến kết học tập sinh Kunyanuth Kularbphettong, Cholticha Tongsiri Mining Educational Data Đ ại viên ngành công nghệ thông tin [6] to Support Students’ Major Selection [7] g Alejandro Peña-Ayala (Edit) Educational Data Mining [8] ươ ̀n Nguyễn Đặng Thế Vinh Ứng dụng khai phá liệu chọn ngành nghề cho Tr sinh viên THPT [9] 10 SAMIRA ELATIA, DONALD IPPERCIEL, OSMAR R ZAÏANE DATA MINING AND LEARNING ANALYTICS Applications in Educational Research [10] SVTH: Nguyễn Ngọc Tri 42