Ứng dụng khai phá dữ liệu trong dự báo, lựa chọn chuyên ngành khoa hệ thống thông tin kinh tế, trường đại học kinh tế đại học huế

48 173 0
Ứng dụng khai phá dữ liệu trong dự báo, lựa chọn chuyên ngành khoa hệ thống thông tin kinh tế, trường đại học kinh tế   đại học huế

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ - - H U Ế KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC TẾ ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO N H LỰA CHỌN CHUYÊN NGÀNH, KHOA HỆ THỐNG TR Ư Ờ N G Đ ẠI H Ọ C KI THÔNG TIN KINH TẾ, TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ Giảng viên hướng dẫn Sinh viên thực hiện: Nguyễn Ngọc Tri ThS Mai Thu Giang Lớp: K48A Tin học Kinh tế Niên khóa: 2014-2018 Huế, 05/2018 Lời Cảm Ơn Lời em xin chân thành cảm ơn ThS Mai Thu Giang tận tình hướng dẫn, giúp đỡ em trình thu thập số liệu bảo em suốt thời gian thực khóa luận Em xin cảm ơn quý thầy cô khoa Hệ thống thông tin Kinh tế - Đại học Kinh tế Huế giúp đỡ cung cấp nhiều kiến thức quý báu cho em suốt năm học đại học trường U Ế Tôi xin gửi lời cảm ơn đến gia đình, bạn bè người thân TẾ H bên cạnh giúp đỡ tơi suốt q trình làm khóa luận Do kiến thức thời gian có hạn nên khóa luận chắn khơng tránh TR Ư Ờ N G Đ ẠI H Ọ C KI N H khỏi sai sót, kính mong góp ý quý báu quý thầy cô Huế, ngày 03 tháng năm 2018 Sinh viên thực Nguyễn Ngọc Tri MỤC LỤC LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT PHẦN I: ĐẶT VẤN ĐỀ 1 Lý chọn đề tài Mục tiêu nghiên cứu Phương pháp nghiên cứu Ý nghĩa đề tài Ý nghĩa khoa học 4.2 Ý nghĩa thực tiễn U Ế 4.1 H PHẦN II: NỘI DUNG TẾ CHƯƠNG 1: CƠ SỞ LÝ THUYẾT N H Khai phá liệu giáo dục Định nghĩa khai phá liệu giáo dục 1.2 Mơ hình hóa mục tiêu chung EDM KI 1.1 Ọ C Các giai đoạn khai phá liệu H Các loại liệu sử dụng Cơ sở liệu quan hệ 3.2 Kho liệu 3.3 Cơ sở liệu không gian 3.4 Cơ sở liệu văn 3.5 Dữ liệu web TR Ư Ờ N G Đ ẠI 3.1 Phân lớp khai phá liệu 4.1 Phân lớp 4.2 Khai phá liệu sử dụng luật kết hợp 12 Kỹ thuật khai phá liệu sử dụng định 14 5.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định 14 5.2 Các vấn đề khai phá liệu sử dụng định 14 5.3 Tránh “quá khớp” liệu 14 5.4 Thao tác với thuộc tính liên tục 15 5.5 Đánh giá định lĩnh vực KPDL 15 5.6 Xây dựng định 17 5.7 Đánh giá độ xác mơ hình phân lớp 18 Giới thiệu phần mềm WEKA 19 6.1 Giới thiệu chung 19 6.2 Khái quát số chức môi trường Explorer WEKA 20 CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC KINH TẾ HUẾ 21 Không gian mẫu 21 Tiền xử lý liệu 21 2.1 Chuẩn bị liệu để huấn luyện (training set) kiểm thử (testing set) 22 2.2 Trích chọn thuộc tính cho liệu huấn luyện 23 Chạy phần mềm WEKA với liệu huấn luyện 24 Khi chưa trích chọn liệu 24 3.2 Sau trích chọn liệu 31 3.3 Phân tích kết đạt 36 3.4 Ứng dụng mô hình 37 N H TẾ H U Ế 3.1 PHẦN III: KẾT LUẬN 40 KI Kết đạt từ khóa luận 40 Ọ C Hạn chế 40 H Hướng phát triển đề tài 40 TR Ư Ờ N G Đ ẠI TÀI LIỆU THAM KHẢO 42 DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Tiếng Anh Tiếng Việt THPT Trung học phổ thông KPDL Khai phá liệu EDM Education Data Mining Khai phá liệu giáo dục Cơ sở liệu CSDL NB Nạve Bayes Giải thuật Nạve Bayes Hệ thống thơng tin kinh tế TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Ế HTTTKT DANH MỤC HÌNH Hình 1.1: Các bước q trình khai phá liệu [6] Hình 1.2 (a) Bước học/huấn luyện trình phân lớp bước [9] Hình 1.2 (b) Bước phân lớp trình phân lớp bước [9] Hình 1.3 ví dụ định Hình 1.4: Mơ hình ứng dụng luật 13 Hình 1.5: k-fold cross – validation [9] 19 Hình 1.6: Giao diện cửa sổ phần mềm WEKA 19 Ế Hình 2.1: Dữ liệu điểm gốc sinh viên 21 TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Hình 2.2: Dữ liệu sau tổng hợp xử lý 22 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN I: ĐẶT VẤN ĐỀ Lý chọn đề tài Việc chọn ngành nghề vơ quan trọng, điều giúp sinh viên đường phù hợp với khả sở thích thân, qua tăng hiệu suất làm việc hay trước hiệu suất, niềm đam mê học tập giảng đường, tránh vội vàng việc chọn ngành nghề để bỏ lỡ nhiều hội đáng thành công chọn ngành nghề phù hợp Với việc chọn chuyên ngành cho ngành đắn đo lựa chọn, làm thêm vấn đề trở nên phức tạp U Ế Đối với thân sinh viên, việc chọn chuyên ngành không phù hợp với khả H năng, sở thích dẫn đến việc lãng phí thời gian tài Nên việc chọn ngành TẾ nghề cần thiết cho tình hình chung sinh viên N H Thực tế, trường Đại học Kinh Tế Huế vào năm thứ đại học, sinh viên KI số ngành đặc thù lại đứng trước lựa chọn lựa chọn chuyên ngành Ọ C theo học Điển khoa Hệ thống Thơng tin Kinh tế chia chuyên ngành H học Tin học Kinh tế Thống kê Kinh doanh Nó trở thành vấn đề sinh viên lại ẠI phải tiến hành lựa chọn tương lai cơng việc thêm lần nữa.Việc chia Đ chuyên ngành học vấn đề quan tâm nhà quản lý N G nắm bắt số lượng sinh viên đăng kí theo học chuyên ngành để đặt Ư Ờ tiêu số lượng phù hợp cho chuyên ngành để tăng cường chất lượng đào tạo TR lên mức tối đa Nên để giải vấn đề này, cần có biện pháp để giúp định hướng giúp cho sinh viên chọn chuyên ngành phù hợp với thân, hết giúp cho nhà quản lý sinh viên dự đốn số lượng sinh viên theo học chuyên ngành nào, giúp cho nhà quản lý đặt tiêu phù hợp cho chuyên ngành, nâng cao chất lượng đào tạo Đó lý chọn đề tài “Ứng dụng khai phá liệu dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh Tế - Đại học Huế” để giải vấn đề Mục tiêu nghiên cứu - Tìm hiểu rõ cung cấp tri thức Khai phá liệu giáo dục (Education Data Minning) SVTH: Nguyễn Ngọc Tri Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang - Tìm hiểu để ứng dụng kỹ thuật, phương pháp khai phá liệu phân tích số liệu, tư vấn chọn ngành học cho sinh viên dựa kết thông tin thu thập - Sử dụng công cụ khai phá liệu WEKA để dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh tế Huế Phương pháp nghiên cứu - Thu thập thơng tin, phân tích số liệu: thu thập số liệu điểm sinh viên năm nhất, qua dự báo chuyên ngành học cho sinh viên - Phương pháp nghiên cứu thực nghiệm: áp dụng phần mềm WEKA để phân tích U Ế số liệu thu thập nhằm đưa dự đoán cho khả chọn ngành sinh H viên TẾ - Kỹ thuật áp dụng: Phân lớp phương pháp định Ý nghĩa khoa học KI 4.1 N H Ý nghĩa đề tài Ọ C Áp dụng thuật tốn KPDL liệu điểm có sẵn để lựa chọn chuyên Ý nghĩa thực tiễn ẠI 4.2 H ngành học G Đ Đề tài ứng dụng khai phá liệu chọn chuyên ngành cho sinh viên khoa Hệ N thống thơng tin kinh tế góp phần công cụ trợ giúp cho nhà quản lý giáo Ư Ờ dục, cụ thể thầy khoa HTTTKT có dự báo số lượng sinh TR viên đăng kí chuyên ngành để đưa tiêu chuyên ngành Về phần sinh viên, đề tài phần giúp đỡ sinh viên có lựa chọn chuyên ngành phù hợp với thân SVTH: Nguyễn Ngọc Tri Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN II: NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Khai phá liệu giáo dục 1.1 Định nghĩa khai phá liệu giáo dục Khai phá liệu giáo dục (EDM) [1][8] lĩnh vực nghiên cứu phát triển, hiểu sử dụng kỹ thuật khai thác liệu liệu thô từ hệ thống giáo dục, đồng thời phát thông tin ẩn sau liệu Trong năm gần đây, lĩnh vực tăng cường lượng lớn cơng trình Ế nghiên cứu để xác định tìm đóng góp kỹ thuật khai thác liệu H U hệ thống giáo dục Thực tế, việc khai thác hiểu liệu thô thu thập từ TẾ hệ thống giáo dục “mỏ vàng” để giúp nhà thiết kế người sử dụng cải N H thiện hiệu hoạt động họ thu thập thơng tin hữu ích hành vi sinh KI viên trình học tập Ọ C Việc sử dụng khai thác liệu giáo dục giúp ích nhiều việc giải vấn đề học tập Sử dụng EDM để trả lời câu hỏi như: Dự đoán điều tạo nên ẠI H thành cơng sinh viên? Chuỗi kịch hiệu cho sinh viên cụ Đ thể? Các hành động sinh viên cho thấy tiến học tập gì? Những đặc điểm G mơi trường học tập cho phép học tập tốt hơn? Mục tiêu chương trình Ờ N thiết lập đánh giá khai thác liệu áp dụng giáo dục để xác định Ư khía cạnh phân tích: liệu, mục tiêu nghiên cứu, kỹ thuật sử dụng TR đóng góp việc áp dụng kĩ thuật lĩnh vực giáo dục Và không liệt kê công việc mà để tạo điều kiện thuận lợi cho việc sử dụng hiểu biết kỹ thuật khai thác liệu để giúp chuyên gia lĩnh vực giáo dục phản hồi xác định khu vực nghiên cứu Theo Romero Ventura EDM “ứng dụng kỹ thuật khai thác liệu để xác định loại liệu đến từ môi trường giáo dục để giải câu hỏi giáo dục quan trọng”, định nghĩa nhấn mạnh đến việc khám phá kiến thức dựa liệu giáo dục để cải tiến hệ thống giáo dục EDM thường bị nhầm lẫn với “Phân tích học tập” là: đo lường, thu thập, phân tích báo cáo liệu người học bối cảnh chúng, nhằm mục đích hiểu tối ưu hóa việc học mơi trường mà xảy Tuy nhiên, SVTH: Nguyễn Ngọc Tri Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang EDM “phân tích học tập” lại khái niệm riêng biệt khác EDM rút kết hợp lĩnh vực chính: khoa học máy tính, giáo dục thống kê EDM sử dụng phương pháp áp dụng kỹ thuật từ thống kê, học máy, khai thác liệu, thu hồi thông tin, hệ thống tư vấn, tâm lý học, tâm lý học nhận thức, v v Lựa chọn kỹ thuật phương pháp tùy thuộc vào yêu cầu giải vấn đề giáo dục 1.2 Mơ hình hóa mục tiêu chung EDM - Mơ hình hóa sinh viên [2][3]: mơ hình hóa người dùng lĩnh vực giáo dục kết hợp với thông tin chi tiết đặc điểm trạng thái sinh viên kiến thức, kỹ năng, động lực, hài lòng, siêu nhận thức, thái độ, kinh nghiệm tiến Ế học tập số loại vấn đề ảnh hưởng tiêu cực đến kết học tập Mục tiêu H U tạo cải tiến mơ hình sinh viên từ thông tin sử dụng TẾ - Dự đoán kết học tập kết học tập sinh viên Mục tiêu để dự N H đoán kết cuối sinh viên loại kết học tập khác dựa KI liệu từ hoạt động khóa học Ọ C - Tạo đề xuất: mục tiêu để giới thiệu cho sinh viên nội dung phù hợp với họ ẠI H - Phân tích hành vi người học: sử dụng để nhóm sinh viên theo hướng dẫn Đ họ cho mục đích thích ứng cá nhân hóa G - Giao tiếp với bên liên quan [4]: mục tiêu để giúp nhà quản lý nhà Ư khóa học Ờ N giáo dục việc phân tích hoạt động sinh viên thông tin sử dụng TR - Phân tích cấu trúc miền: mục tiêu xác định cấu trúc miền cải tiến mơ hình miền mơ tả nội dung cần học trình tự giảng dạy tối ưu, sử dụng khả dự đoán hiệu suất sinh viên thước đo chất lượng mơ hình cấu trúc miền - Nghiên cứu tác động loại hình hỗ trợ sư phạm cung cấp cách dùng phần mềm - Nâng cao kiến thức khoa học học tập người học thông qua việc xây dựng, khám phá cải tiến mơ hình sinh viên, lĩnh vực hỗ trợ sư phạm Các giai đoạn khai phá liệu Giai đoạn 1: Hình thành, xác định định nghĩa tốn Là việc tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành SVTH: Nguyễn Ngọc Tri Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Cụ thể hơn, phần kết quả, cột predicted (dự báo), dấu + thể cho Misspredicted (dự báo sai) Cột actual gán nhãn có sẵn liệu Lưu lại mơ hình việc kích chuột phải vào mơ hình nhấn Save model 3.1.2 Phân lớp phương pháp định sử dụng thuật toán J48 H Ọ C KI N H TẾ H U Ế Kết phân lớp liệu huấn luyện sử dụng thuật toán J48: ẠI Kết phân lớp nhận là: Đ + Trường hợp phân lớp xác: 53 chiếm 67.0886% N G + Trường hợp phân lớp khơng xác: 26 chiếm 32.9114% TR Ư Ờ Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: SVTH: Nguyễn Ngọc Tri 28 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đốn sai 12 chiếm 60% Dấu + thể cho nhãn dán dự báo sai 3.1.3 Phân lớp phương pháp định sử dụng thuật toán RandomTree ẠI H Ọ C KI N H TẾ H U Ế Kết phân lớp liệu huấn luyện sử dụng thuật tốn ngẫu nhiên: Đ Kết phân lớp xác đạt 100% TR Ư Ờ N G Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: SVTH: Nguyễn Ngọc Tri 29 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đoán sai 12 chiếm 60% Dấu + thể cho nhãn dán dự báo sai 3.1.4 Phân lớp phương pháp định sử dụng thuật toán RandomForest Ọ C KI N H TẾ H U Ế Kết phân lớp liệu huấn luyện sử dụng thuật toán rừng ngẫu nhiên: H Kết phân lớp xác đạt 100% TR Ư Ờ N G Đ ẠI Chạy lại mơ hình với liệu kiểm thử, ta có kết sau: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác 12 chiếm 60%, dự đốn sai chiếm 40% SVTH: Nguyễn Ngọc Tri 30 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.1.5 Tổng hợp kết Sau sử dụng giải thuật phương pháp phân lớp chưa trích chọn thuộc tính, ta nhận thấy thuật tốn có tỉ lệ dự đốn xác cao sau trình kiểm thử bao gồm thuật toán định sử dụng phương pháp RandomForest thuật tốn Nạve Bayes có tỉ lệ dự đốn xác 60% Hai thuật tốn cịn lại định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp J48 với tỉ lệ dự đốn xác 40% Vậy chưa trích chọn liệu, để đạt tỉ lệ dự đốn cao nên sử dụng thuật tốn định sử dụng phương pháp RandomForest thuật tốn Nạve Bayes U 3.2.1 Phân lớp thuật tốn Nạve Bayes Ế Sau trích chọn liệu H 3.2 TẾ Như sử dụng trích chọn liệu trên, liệu sau trích chọn N H cịn lại trường thuộc tính “Toan_1” “Vi_mo”, ta có liệu huấn luyện TR Ư Ờ N G Đ ẠI H Ọ C KI sau: Như thấy, liệu huấn luyện cịn lại thuộc tính phân lớp thuộc tính đích để phân lớp Kết phân lớp: SVTH: Nguyễn Ngọc Tri 31 GVHD: Th.S Mai Thu Giang U Ế Khóa luận tốt nghiệp + Phân lớp xác: 51 chiếm 64.557% TẾ H Khi cịn thuộc tính ảnh hưởng, kết phân lớp sau: N H + Phân lớp khơng xác: 28 chiếm 35.443% TR Ư Ờ N G Đ ẠI H Ọ C KI Kết kiểm thử mơ hình: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 35%, dự đốn sai 13 chiếm 65% SVTH: Nguyễn Ngọc Tri 32 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.2.2 Phân lớp phương pháp ngẫu nhiên sử dụng thuật toán J48 H Tóm tắt kết phân lớp: Ọ C KI N H TẾ H U Ế Kết phân lớp: ẠI + Phân lớp xác: 47 chiếm 59.4937% Đ + Phân lớp khơng xác: 32 chiếm 40.5063% TR Ư Ờ N G Kết chạy kiểm thử: SVTH: Nguyễn Ngọc Tri 33 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Kết kiểm thử mơ hình tóm tắt là: dự đốn xác chiếm 40%, dự đoán sai 12 chiếm 60% 3.2.3 Phân lớp phương pháp định sử dụng thuật toán RandomTree TR Ư Ờ N G Đ ẠI Kết kiểm thử mơ hình: H Kết phân lớp đạt 100% Ọ C KI N H TẾ H U Ế Kết phân lớp: Kết kiểm thử mơ hình tóm tắt là: dự đốn xác 11 chiếm 55%, dự đốn sai chiếm 45% SVTH: Nguyễn Ngọc Tri 34 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang 3.2.4 Phân lớp phương pháp định sử dụng thuật toán RandomForest N H TẾ H U Ế Kết phân lớp: Ọ C TR Ư Ờ N G Đ ẠI H Kết kiểm thử mơ hình: KI Kết phân lớp đạt 100% Kết kiểm thử mô hình tóm tắt là: dự đốn xác 11 chiếm 55%, dự đoán sai chiếm 45% 3.2.5 Tổng hợp kết Khi sử dụng giải thuật phương pháp phân lớp sau trích chọn thuộc tính, ta nhận thấy thuật tốn có tỉ lệ dự đốn xác cao sau trình kiểm thử bao SVTH: Nguyễn Ngọc Tri 35 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang gồm thuật toán định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp RandomForest có tỉ lệ dự đốn xác 55% Hai thuật tốn cịn lại định sử dụng phương pháp J48 thuật tốn Nạve Bayes với tỉ lệ dự đốn xác 40% 35% Vậy sau trích chọn liệu, để đạt tỉ lệ dự đốn cao nên sử dụng thuật tốn định sử dụng phương pháp RandomTree thuật toán định sử dụng phương pháp RandomForest 3.3 Phân tích kết đạt sau trích chọn, ta tổng hợp bảng kết sau: 40% RandomTree 40% RandomForest 60% U TẾ J48 N H 60% 35% 40% 55% 55% H Ọ C KI Naïve Bayes Sau trích chọn thuộc tính H Chưa trích chọn thuộc tính Ế Sau sử dụng phương pháp khác kiểu liệu chưa trích chọn Đ ẠI Dựa vào bảng kết quả, ta đưa nhận xét sau: G + Có thể nhận thuật tốn có tỉ lệ dự đốn xác cao Ờ N nghiên cứu Naïve Bayes RandomForest liệu huấn luyện giữ Ư nguyên chưa trích chọn thuộc tính Nếu so sánh phương pháp sau trích TR chọn thuộc tính thuật tốn RandomForest có tỉ lệ dự đốn xác cao Nên cuối để tối ưu ta lựa chọn thuật toán ngẫu nhiên sử dụng phương pháp RandomForest chưa trích chọn thuộc tính để phục vụ mục đích nghiên cứu dự đoán chuyên ngành cho sinh viên năm thứ thuộc khoa HTTTKT, Đại học Kinh tế Huế + Việc trích chọn thuộc tính vơ quan trọng nhiên nghiên cứu lại không phát huy hiệu thuộc tính liệu mẫu điều có tác động đến kết đoán Điều thể qua việc sau trích chọn thuộc tính có tổng số thuật tốn sử dụng có kết dự đốn xác thấp chưa trích chọn thuộc tính SVTH: Nguyễn Ngọc Tri 36 Khóa luận tốt nghiệp 3.4 GVHD: Th.S Mai Thu Giang Ứng dụng mơ hình Sau chọn lưu lại thuật toán tối ưu thuật toán định sử dụng phương pháp RandomForest không trích chọn thuộc tính Để giúp nhà quản lý sử dụng cho lần dự đốn sau này, ta thực sau: Khởi động phần mềm WEKA sau sử dụng mơi trường Explorer, Preprocess, mở file (file khơng có tác động đến việc chạy mơ hình), Đ ẠI H Ọ C KI N H TẾ H U Ế ví dụ mở file “train.arff” ta có sau: G Tiếp theo, chọn chức Classify, phần Result list, nhấn chuột phải chọn Ờ N Load model, sau chọn model lưu sử dụng thuật tốn định sử dụng TR Ư phương pháp RandomTree, có tên “ForestRandom.model”, ta hình: SVTH: Nguyễn Ngọc Tri 37 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Tiếp theo, ta chọn liệu để tiến hành dự đốn, liệu lưu “.csv” “.arff” Kích chọn Supplied test set, nhấp vào nút Set → Open File → Chọn file liệu cần dự đoán (nếu file liệu có “.csv” Files of Ọ C KI N H TẾ H U Ế Type chọn All Files) → OK Ở ví dụ chọn file “datatest.csv” nên có hình: H Tiếp theo, kích chọn More options… Output prediction chọn “PlainText” ẠI ,tác dụng dự đoán thẳng tên chuyên ngành cho sinh viên (nếu để TR Ư Ờ N G Đ “Null” khơng hiện) → OK, thực cài đặt hình: SVTH: Nguyễn Ngọc Tri 38 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang Sau tiến hành đưa vào liệu để dự đoán cài đặt, nhấp chuột phải vào model chọn Re-evaluate model on current test set, ta có bảng kết dự đoán cho KI N H TẾ H U Ế liệu đưa vào hình: Ọ C Cột “actual” có dấu “?” nghĩa liệu đưa vào dự đốn nhãn H “Chuyen_nganh” khơng có thơng tin, cột “predicted” hiển thị dự đốn chun ngành ẠI chương trình, cột “error prediction” thể độ tin cậy dự đoán, gần Đ khả xác cao TR Ư Ờ N G Để tiếp tục dự đốn ta thực lại bước nêu SVTH: Nguyễn Ngọc Tri 39 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang PHẦN III: KẾT LUẬN Kết đạt từ khóa luận - Khóa luận đưa giải pháp từ việc phân loại liệu điểm file liệu thu thập tiến hành khai thác sử dụng chúng để đưa câu trả lời phục vụ cho câu hỏi chung tư vấn chọn chuyên ngành phù hợp với thân sinh viên thông qua điểm năm - Hiểu rõ thêm phần mềm WEKA, cách sử dụng thuật tốn đó, giúp hiểu rõ cách làm từ liệu điểm xử lý đưa U Ế dự đoán chuyên ngành theo học H - Về mặt lý thuyết, khóa luận nêu phương pháp phân lớp TẾ sử dụng để thực vào mục đích khóa luận tư vấn dự báo chọn chuyên N H ngành học sinh viên KI - Về mặt thực tiễn, khóa luận phần đáp ứng mục tiêu đề tìm Ọ C phương pháp từ liệu điểm năm sinh viên khoa HTTTKT dự đốn H chun ngành học sinh viên bước vào năm Giúp ích cho nhà quản ẠI lý giáo dục việc dự báo số lượng sinh viên cho chuyên ngành để đặt G Đ tiêu số lượng, sinh viên giúp ích cho họ phần chọn chuyên ngành phù N hợp khả để khiến cho việc học tập trở nên hào hứng đạt kết tốt TR Hạn chế Ư Ờ - Vì khó khăn việc thu thập điểm nên liệu mẫu không lớn - Tỉ lệ dự đốn xác khơng q cao, việc xác định chọn chuyên ngành sinh viên không dựa vào điểm số mà phải tìm hiểu nhiều tác động thực tế ảnh hưởng đến việc chọn chuyên ngành ví dụ như: tâm lý sinh viên u thích chun ngành nào, ảnh hưởng gia đình, bạn bè, anh chị khóa trước,… Hướng phát triển đề tài Đề tài với mục đích dự báo lựa chọn chuyên ngành học khoa HTTTKT, Đại học Kinh tế Huế sau mở rộng để tiến hành dự đoán cho ngành đặc SVTH: Nguyễn Ngọc Tri 40 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang thù có phân chuyên ngành khác trường Với việc phát triển tăng cường kho liệu dự đốn khơng điểm sinh viên mà cịn trường liệu khác ví dụ u thích mơn học sinh viên, tác động bạn bè, anh chị khóa trước, gia đình,… để tăng khả dự đốn xác, giúp nhà quản lý giáo dục dễ dàng TR Ư Ờ N G Đ ẠI H Ọ C KI N H TẾ H U Ế việc đưa tiêu cho chuyên ngành SVTH: Nguyễn Ngọc Tri 41 Khóa luận tốt nghiệp GVHD: Th.S Mai Thu Giang TÀI LIỆU THAM KHẢO F Castro, A Vellido, A Nebot, F Mugica Applying Data Mining Techniques to e-Learning Problems [1] Muluken Alemu Yehuala Application Of Data Mining Techniques For Student Success And Failure Prediction (The Case Of Debre_Markos University) [2] Nguyễn Văn Chức Giới thiệu qui trình hồn chỉnh xây dựng mô U Brijesh Kumar Baradwaj, Saurabh Pal Mining Educational Data to H Ế hình khai phá liệu [3] Phan Văn Dương Khai phá liệu ứng dụng tư vấn tuyển sinh N H TẾ Analyze Students‟ Performance [4] Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Ọ C KI trường cao đẳng nghề Trung Bộ [5] H Trung Hưng Phát môn học quan trọng ảnh hưởng đến kết học tập sinh Đ Kunyanuth Kularbphettong, Cholticha Tongsiri Mining Educational Data G ẠI viên ngành công nghệ thông tin [6] Ờ N to Support Students’ Major Selection [7] Alejandro Peña-Ayala (Edit) Educational Data Mining [8] Nguyễn Đặng Thế Vinh Ứng dụng khai phá liệu chọn ngành nghề cho TR Ư sinh viên THPT [9] 10 SAMIRA ELATIA, DONALD IPPERCIEL, OSMAR R ZAÏANE DATA MINING AND LEARNING ANALYTICS Applications in Educational Research [10] SVTH: Nguyễn Ngọc Tri 42 ... vấn chọn ngành học cho sinh viên dựa kết thông tin thu thập - Sử dụng công cụ khai phá liệu WEKA để dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh tế Huế Phương... chất lượng đào tạo Đó lý tơi chọn đề tài ? ?Ứng dụng khai phá liệu dự báo, lựa chọn chuyên ngành khoa Hệ thống thông tin kinh tế, trường Đại học Kinh Tế - Đại học Huế? ?? để giải vấn đề Mục tiêu nghiên... Tế Huế vào năm thứ đại học, sinh viên KI số ngành đặc thù lại ? ?ứng trước lựa chọn lựa chọn chuyên ngành Ọ C theo học Điển khoa Hệ thống Thông tin Kinh tế chia chuyên ngành H học Tin học Kinh tế

Ngày đăng: 10/07/2018, 23:50

Từ khóa liên quan

Mục lục

  • Lời Cảm Ơn

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • PHẦN I: ĐẶT VẤN ĐỀ

    • 1. Lý do chọn đề tài

    • 2. Mục tiêu nghiên cứu

    • 3. Phương pháp nghiên cứu

    • 4. Ý nghĩa của đề tài

      • 4.1. Ý nghĩa khoa học

      • 4.2. Ý nghĩa thực tiễn

      • PHẦN II: NỘI DUNG

      • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

        • 1. Khai phá dữ liệu giáo dục

          • 1.1. Định nghĩa khai phá dữ liệu giáo dục

          • 1.2. Mô hình hóa các mục tiêu chung của EDM

          • 2. Các giai đoạn trong khai phá dữ liệu

          • 3. Các loại dữ liệu sử dụng

            • 3.1. Cơ sở dữ liệu quan hệ

            • 3.2. Kho dữ liệu

            • 3.3. Cơ sở dữ liệu không gian

            • 3.4. Cơ sở dữ liệu văn bản

            • 3.5. Dữ liệu web

            • 4. Phân lớp trong khai phá dữ liệu

              • 4.1. Phân lớp

                • 4.1.1. Phân lớp bằng phương pháp cây quyết định

                • 4.1.2. Phân lớp dữ liệu bằng giải thuật học ILA

                • 4.1.3. Phân lớp dữ liệu bằng mạng Naïve Bayes

                • 4.1.4. Phân lớp dữ liệu bằng Neural Network

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan