Xây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng ThápXây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng Tháp
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH
Vào lúc: .giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Hiện nay, đa số các trường đại học và cao đẳng ở nước ta
đã chuyển từ đào tạo theo niên chế sang đào tạo theo tín chỉ Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ Việc lựa chọn các môn học trong từng học kỳ (hay còn gọi là chọn lộ trình học) để sao cho kết quả học tập là cao nhất có thể là một việc hết sức khó khăn đối với các sinh viên Vì vậy, việc dự đoán kết quả học tập để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất được đặc biệt quan tâm Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường Các giảng viên chuyên trách không thể tiếp cận toàn bộ
dữ liệu về điểm của sinh viên Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu lớn để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh viên không phải là khả thi
Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức
Trang 4Đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc giai đoạn của sinh viên, nhưng các công trình nghiên cứu có sử dụng lộ trình học để dự đoán kết quả học tập còn rất hiếm
Vì vậy, đề tài “Xây dựng công cụ dự đoán kết quả học tập của sinh viên Đại học Đồng Tháp” đi sâu vào việc khai phá
dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên Đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp, dự báo trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL Server Business Intelligence Development Studio Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và xây dựng chương trình dự đoán kết quả học tập cho mỗi sinh viên Kết quả dự đoán đó có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp
để đạt được kết quả học tập cao nhất
Trang 5CHƯƠNG I - GIỚI THIỆU 1.1 Lý do chọn đề tài
Hiện nay, hầu hết các trường Đại học đã chuyển từ hình thức đào tạo theo niên chế sang đào tạo theo học chế tín chỉ Đào tạo theo tín chỉ xem người học là trung tâm
của quá trình đào tạo “Tín chỉ” là đơn vị căn bản để đo
khối lượng kiến thức và đánh giá kết quả học tập của sinh viên Đặc trưng của hệ thống này là kiến thức được cấu trúc thành các học phần Lượng kiến thức dành cho sinh viên gồm hai khối cơ bản: giáo dục đại cương và giáo dục chuyên mơn Mỗi khối kiến thức cĩ 2 nhĩm học phần: học phần bắt buộc là những kiến thức tiên quyết bắt buộc sinh viên phải học và thi đạt mới được học tiếp sang học phần khác; nhĩm học phần tự chọn gồm những kiến thức cần thiết nhưng sinh viên được chọn theo hướng dẫn của nhà trường
1.2 Mục đích nghiên cứu
- Nghiên cứu kỹ thuật khai phá dữ liệu: cây quyết định, Nạve Bayes, mạng nơ ron nhân tạo, luật kết hợp
Trang 6- Nghiên cứu kỹ về các hệ thống dự đoán kết quả học tập cho sinh viên đào tạo theo tín chỉ, xác định bài toán cụ thể là xây dựng công cụ liệt kê tất cả các lộ trình học cho mỗi ngành học và gắn lộ trình học với mỗi sinh viên, thu thập, tiền xử lý và xử lý các bộ dữ liệu đào tạo phục vụ cho mục đích nghiên cứu của luận văn
1.3 Đối tượng và phạm vi nghiên cứu
1.4 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý luận
- Phương pháp nghiên cứu thực tiễn
1.5 Ý nghĩa khoa học và thực tiễn của luận văn 1.6 Cấu trúc luận văn
Luận văn gồm có phần mở đầu, kết luận và 04
chương, cụ thể như sau:
Chương I Giới thiệu
Chương II: Cơ sở lý thuyết liên quan
Chương III Giải pháp đề xuất và xây dựng hệ thống Chương IV Thực nghiệm, đánh giá
Trang 7
CHƯƠNG II: CƠ SỞ LÝ THUYẾT
2.1 Khái niệm về khai phá dữ liệu
2.1.1 Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ
sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong
2.1.2 Những nhóm bài toán của khai phá dữ liệu 2.1.2.1 Phân loại
Trang 82.2 Các bước xây dựng một giải pháp về khai
phá dữ liệu
2.2.1 Mô hình luồng dữ liệu
2.2.2 Vòng đời của một hệ thống khai phá dữ liệu
2.2.2.1 Bước 1: Xác định mục tiêu bài toán
2.2.2.2 Bước 2: Thu thập dữ liệu
2.2.2.3 Bước 3: Làm sạch dữ liệu và chuyển đổi dữ
liệu
2.2.2.4 Bước 4: Xây dựng mô hình
2.2.2.5 Bước 5: Đánhgiá mô hình, đánh giá mẫu
2.2.2.6 Bước 6: Báo cáo
2.2.2.7 Bước 7: Dự đoán
2.2.2.8 Bước 8: Tích hợp vào ứng dụng
2.2.2.9 Bước 9: Quản lý mô hình
2.3 Kiến trúc của một hệ thống khai phá dữ liệu
điển hình
Trang 92.4 Khai phá dữ liệu trong lĩnh vực giáo dục
2.4.1 Tầm quan trọng của khai phá dữ liệu trong lĩnh vực giáo dục
2.4.2 Các ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục
2.4.2.1 Các ứng dụng hướng đến học sinh, sinh viên 2.4.2.2 Các ứng dụng hướng đến giáo viên
2.4.2.3 Các ứng dụng hướng đến nhà quản lý giáo dục
2.5 Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo
2.5.1 Cây quyết định
2.5.1.1 Khái niệm
Cây quyết định là một cấu trúc biễu diễn dưới dạng cây Trong đó, mỗi node trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể
có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root) [6]
Trang 102.5.1.2 Biểu diễn cây quyết định
2.5.1.3 Các bước chính xây dựng cây quyết định 2.5.1.4 Cây quyết định so với kỹ thuật khai phá khác 2.5.2 Phân lớp Nạve Bayes
2.5.2.1 Định nghĩa
2.5.2.2 Mơ hình Phân lớp Naive Bayes (NBC)
2.5.2.3 Các bước thực hiện thuật tốn Naive Bayes
Bước 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính P(Ci) và |
Bước 2: Phân lớp , ta cần tính xác suất thuộc từng phân lớp khi đã biết trước được gán vào lớp cĩ xác suất lớn nhất theo cơng thức:
∏ | )
Để tránh trường hợp giá trị P(Xk|Ci) = 0 do khơng cĩ mẫu nào trong DL huấn luyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo:
Khi đĩ: Cơng thức tính P(Ci) đã làm trơn Laplace:
Trang 11| |
| | Trong đó:
|Ci,D|: số mẫu huấn luyện thuộc phân lớp i
|D|: số mẫu trong tập huấn luyện
m: số phân lớp
2.5.2.4 Một số ưu điểm của phương pháp Naive
Bayes
2.5.3 Mạng nơ ron nhân tạo
2.5.3.1 Giới thiệu về mạng nơ ron nhân tạo
2.5.3.2 Mạng nơ ron nhân tạo trong khai phá dữ liệu
2.5.3.3 Các phương pháp học sử dụng mạng nơ ron
nhân tạo9
2.5.3.3.1 Học có giám sát
2.5.3.3.2 Học không giám sát
Học mạng nơron không giám sát là cách học không
có phản hồi từ môi trường để chỉ ra rằng đầu ra của mạng
là đúng như thế nào
Trang 12Hình 2.8: Mô hình học không giám sát [4] 2.5.4 Khai phá luật kết hợp
2.5.4.1 Luật kết hợp
2.5.4.2 Thuật toán khai phá luật kết hợp
2.6 Khai phá dữ liệu với hệ quản trị CSDL
Microsft SQL Server
2.6.1 Giới thiệu chung
Dưới đây là hình ảnh tổng quan về khai phá dữ liệu với hệ quản trị CSDL SQL Server:
Hình 2.9: Hình ảnh tổng quan về khai phá dữ liệu
với SQL 2008 [5]
Trang 132.6.2 Ngôn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions)
2.6.3 Bộ công cụ SQL Server Business Intelligence Development Studio
2.6.4 Lập trình khai phá dữ liệu với Analysis
Services APIs
2.7 Kết luận chương 2
Trong chương 2, em đã trình bày các kiến thức tổng quan về khai phá dữ liệu: định nghĩa khai phá dữ liệu, những nhóm bài toán thường được áp dụng bởi kỹ thuật khai phá dữ liệu cùng những lợi thế, thách thức của khai phá dữ liệu Các bước xây dựng một giải pháp khai phá dữ liệu và kiến trúc của một hệ thống khai phá dữ liệu điển hình cũng được em trình bày cụ thể ở chương này Tiếp đến, em trình bày chi tiết về kỹ thuật khai phá dữ liệu với
hệ quản trị CSDL SQL Server 2008 thông qua việc sử dụng bộ công cụ BIDS của Microsoft cùng ngôn ngữ truy vấn khai phá dữ liệu DMX và các kỹ thuật lập trình khai phá dữ liệu trên máy client với Analysis Services APIs
Trang 14Đây cũng chính là các kỹ thuật mà em sẽ sử dụng để xây dựng hệ thống dự đoán kết quả học tập ở chương 3 của luận văn
CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT
3.1 Giải pháp dự đoán kết quả học tập của sinh viên
Như đã trình bày trong chương 1, bài toán dự đoán kết quả học tập của sinh viên theo lộ trình học gồm hai bước:
Bước 1: Liệt kê toàn bộ lộ trình học có thể của một
sinh viên theo ngành học mà sinh viên đó đã chọn
Bước 2: Dự đoán kết quả học tập cuối khóa của
sinh viên theo tất cả các lộ trình ở trên Chọn ra lộ trình với kết quả dự đoán cho ra kết quả học tập tốt nhất để tư vấn cho sinh viên Nếu có nhiều lộ trình có cùng kết quả thì sinh viên có thể tự chọn một trong số các lộ trình học
đó sao cho phù hợp nhất với năng lực, sở thích và các điều kiện khác của bản thân
Trang 153.1.1 Liệt kê lộ trình học của một sinh viên
3.2 Xây dựng cơ sở dữ liệu cho hệ thống
Quy trình xử lý dữ liệu đầu vào:
Hình 3.1: Quy trình xử lý dữ liệu đầu vào
3.3 Xây dựng hệ thống dự đoán kết quả học tập
3.3.1 Xây dựng các mô hình
Hình 3.5: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc
tính khác
3.3.2.1 Đánh giá các mô hình dự báo với Lift Chart
3.3.2.2 Đánh giá các mô hình dự báo với
Classification Matrix
Dữ liệu đầu vào
(hồ sơ sinh viên,
Quy ước mã ngành học môn học
Trang 16CHƯƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Thực nghiệm, đánh giá trên hệ thống
Ví dụ 1: Sử dụng hệ thống để đưa ra kết quả học
tập dự đoán cho một sinh viên mới nhập học với các giá
trị thuộc tính đầu vào như sau:
- Giới tính: Nữ
- Ngành học: Kế toán
- Điểm thi tuyển sinh đầu vào: 24
- Khối thi: A
Sau khi chạy chương trình, kết quả dự đoán kết quả
với các mô hình khác nhau:
Trang 17Hình 4.1: Kết quả dự đốn kết quả học tập với mơ
hình Nạve Bayes
Hình 4.2: Kết quả dự đốn kết quả học tập với mơ
hình Cây quyết định
Trang 18Hình 4.3: Kết quả dự đốn kết quả học tập với mơ
- Mơ hình Nạve Bayes cho kết quả là 9 lộ trình học đều giúp sinh viên đạt loại giỏi, chỉ cĩ 3 lộ trình khiến sinh viên đạt loại khá
Trang 19- 02 mơ hình Cây quyết định và Luật kết hợp đều cho dự báo là 01 lộ trình giúp sinh viên đạt loại giỏi cịn
11 lộ trình cịn lại khiến sinh viên chỉ xếp loại khá
- Mơ hình Neural Network cho 02 lộ trình giúp sinh viên đạt loại giỏi và 10 lộ trình cịn lại đạt loại khá
- Theo đánh giá mơ hình từ trước thì mơ hình Nạve Bayes cho kết quả dự báo tốt nhất nên sinh viên cần lấy kết quả của mơ hình này để tham khảo chính Cũng theo cảm tính, vì sinh viên thi điểm đầu vào cao và là học sinh nữ, học ngành kế tốn nên tỷ lệ sinh viên này học đạt kết quả giỏi là cao (sinh viên nữ thường chăm chỉ hơn sinh viên nam và ngành kế tốn hợp với sinh viên nữ hơn)
- Do trong kết quả dự đốn cĩ tới 9 lộ trình cho ra kết quả dự báo đạt loại Giỏi mà sinh viên chỉ được phép chọn cho mình một lộ trình để học nên lúc này sinh viên cần tham khảo thêm ở cột “Xác suất dự đốn” và “Trường hợp hỗ trợ” Nếu cùng kết quả dự đốn, sinh viên nên chọn các lộ trình cĩ xác suất dự đốn và trường hợp hỗ trợ cao hơn Trên hệ thống, chỉ cần bấm vào các cột tương
Trang 20ứng thì các giá trị trong cột sẽ sắp xếp theo thứ tự để sinh viên dễ dàng lựa chọn
- Mơ hình dự đốn: Nạve Bayes
Sau khi chạy chương trình, kết quả dự đốn với các
mơ hình khác nhau:
Hình 4.5: Kết quả dự đốn học tập với sinh viên nam
Trang 21Hình 4.6: Kết quả dự đốn học tập với sinh viên nữ
Đánh giá kết quả:
- Với cùng một mơ hình dự báo Nạve Bayes, hai sinh viên cĩ các thuộc tính đầu vào như nhau nhưng chỉ khác nhau giới tính, cho ra kết quả tương đối khác nhau
Cụ thể, trong 24 lộ trình cĩ thể học, cĩ tới 17 lộ trình cĩ thể giúp sinh viên nữ đạt loại giỏi, 7 lộ trình đạt loại khá Cịn với sinh viên nam thì chỉ cĩ 1 lộ trình giúp sinh viên đạt loại giỏi và 23 lộ trình cịn lại đều là loại khá
Để xem chi tiết một lộ trình học, sinh viên chỉ cần bấm chuột vào hàng tương ứng trên bảng kết quả dự đốn
Trang 22Lộ trình hiển thị theo đúng định dạng đã giới thiệu ở mục 3.1:
Hình 4.7: Xem chi tiết một lộ trình học
Sau mỗi năm học, nhà trường lại có một khóa sinh viên ra trường, và dữ liệu của các sinh viên này lại có thể được sử dụng để xây dựng mô hình dự đoán kết quả học tập Việc xây dựng mô hình trên dữ liệu sinh viên qua nhiều khóa học sẽ giúp mô hình đạt độ chính xác cao hơn
và khách quan hơn Để thực hiện việc này, người quản trị
hệ thống chỉ cần bấm nút “Xây dựng CSDL” trên phần
mềm để hệ thống cập nhật thêm dữ liệu mới cho mô hình
và tiến hành chạy lại các mô hình
Trang 234.2 Kết luận chương 4
Trong chương 4, em đã tiến hành một số thực nghiệm trên hệ thống đã xây dựng Qua các ví dụ thực tế cho thấy hệ thống hoạt động ổn định, cho kết quả nhanh
và cho phép hiển thị chi tiết các lộ trình học cho sinh viên lựa chọn Theo phân tích cảm tính, kết quả của hệ thống phù hợp với những suy luận cảm tính Trường hợp có nhiều lộ trình học có cùng kết quả học tập cao nhất, hệ thống đưa ra thêm hai độ đo là xác suất dự báo và số trường hợp hỗ trợ Sinh viên có thể lựa chọn các lộ trình
mà hai độ đo này đạt kết quả cao nhất vì khi đó tỷ lệ dự báo sẽ đạt độ chính xác nhất
Trang 24- Nghiên cứu công cụ khai phá dữ liệu BIDS của Microsoft, ngôn ngữ truy vấn khai phá dữ liệu DMX và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs trên hệ quản trị cơ sở dữ liệu Microsoft SQL Server
- Tìm hiểu về mô hình đào tạo theo tín chỉ, sự khó khăn của sinh viên trong việc lựa chọn các môn học và đề xuất bài toán tư vấn cho sinh viên các lộ trình học phù hợp
để sinh viên đạt kết quả cao nhất thông qua việc xây dựng các lộ trình học tương ứng với ngành mà sinh viên theo học, dự đoán kết quả học tập theo từng lộ trình và lựa chọn lộ trình cho kết quả cao nhất
- Tiến hành thu thập và tiền xử lý dữ liệu, thu được 233.510 bản ghi về điểm tổng kết các học phần và dữ liệu
cá nhân, tuyển sinh và điểm tổng kết toàn khóa cho 3402 sinh viên thuộc 21 ngành học với 840 học phần (môn học), từ đó xây dựng CSDL trên hệ quản trị SQL Server
2008, phục vụ cho việc phát triển hệ thống dự đoán kết quả học tập
- Xây dựng các mô hình dự đoán kết quả học tập với 04 thuật toán đã đề xuất là cây quyết định, luật kết hợp, mạng nơ ron nhân tạo và Naive Bayes Qua đánh giá mức độ chính xác của các mô hình cho thấy mô hình
Trang 25Naive Bayes cho mức độ dự báo chính xác cao nhất (80,98%), sau đó đến Neural Network (78,82%), tiếp theo
là Decision Tree (78,62%) và thấp nhất là Cây quyết định (75,29%)
- Từ đánh giá trên, em đã xây dựng hệ thống dự đoán kết quả học tập với đầu vào là các thông tin cá nhân của sinh viên như: ngành học, điểm thi tuyển sinh, giới tính,
sử dụng mô hình dự báo Naive Bayes Hệ thống hoạt động
ổn định, cho kết quả nhanh và hiển thị kết quả dự đoán cho tất cả các lộ trình học tập của sinh viên (sắp xếp theo thứ tự từ cao xuống thấp), giúp sinh viên có thể dễ dàng lựa chọn cho mình lộ trình học phù hợp Các độ đo như xác suất dự báo và số trường hợp hỗ trợ cũng được đưa vào để gợi ý sinh viên lựa chọn tốt hơn (trong trường hợp
có nhiều lộ trình cùng cho kết quả học tập cao nhất) Lộ trình cũng có thể được xem chi tiết theo tên môn học và
kỳ học (sắp xếp theo thứ tự tăng dần của học kỳ)
- Hệ thống cũng có chức năng cho phép người quản trị cập nhật cơ sở dữ liệu và cập nhật lại mô hình khi kết thúc năm học với các khóa đã tốt nghiệp, qua đó giúp hệ thống ngày càng đạt độ chính xác cao và khách quan
2 Kiến nghị