Để xây dựng đƣợc một hệ thống dự đốn kết quả học tập với độ chính xác cao và ổn định, em tiến hành triển khai các mơ hình dự báo kết quả học tập gắn với lộ trình học dựa trên các thuật tốn: cây quyết định, luật kết hợp, mạng nơ ron nhân tạo và mạng Nạve Bayes. Các mơ hình đƣợc xây dựng dựa trên cơng cụ BIDS của Microsoft với các bƣớc thực hiện đã giới thiệu chi tiết trong mục 2.2.3 của luận văn. Cơ sở dữ liệu cho các mơ hình đƣợc xây dựng nhƣ đã giới thiệu ở mục 3.1.3 với 3402 bản ghi và chia theo tỷ lệ 85%:15% cho training và testing bằng cách lựa chọn ngẫu nhiên 2892 bản ghi cho việc training và 510 bản ghi cho việc testing. Trong SQL Server 2008 đã hỗ trợ sẵn chức năng thiết lập tập dữ liệu cho training và testing từ một CSDL cho trƣớc nên em khơng phải thiết lập bằng tay cho cơng đoạn này.
Sau khi xây dựng mơ hình, ta tiến hành kiểm tra sự phụ thuộc của kết quả thuộc tính dự đốn vào các thuộc tính khác thơng qua tab Dependency Network:
Hình 3.5: Sự phụ thuộc của thuộc tính dự đốn vào các thuộc tính khác
Qua xem xét các mơ hình cĩ thể thấy thuộc tính kết quả chỉ phụ thuộc vào 5 thuộc tính nhƣ: Giới tính sinh viên, ngành học, lộ trình học, khối thi và điểm thi tuyển sinh. Do đĩ trong hệ thống dự đốn kết quả học tập em cũng chỉ yêu cầu sinh
viên nhập vào các thuộc tính này, các thuộc tính khác nhƣ: đối tƣợng dự thi, tỉnh/thành phố, quận/huyện, khu vực sẽ khơng đƣợc xét đến trong mơ hình nữa.
Bƣớc tiếp theo trong việc xây dựng hệ thống là việc đánh giá các mơ hình dự báo ở trên sử dụng các cơng cụ đánh giá nhƣ Lift Chart và Classification Matrix. 3.3.2. Đánh giá các mơ hình
Ta biết rằng để đánh giá hiệu quả của các mơ hình khai phá dữ liệu (Data Mining Models – DMM), chúng ta cĩ thể căn cứ vào rất nhiều tiêu chí nhƣ tính chính xác (Accuracy), tính ổn định (Reliability), tính hữu dụng (Usefulness). Trong đĩ, tính chính xác là tiêu chí đƣợc đánh giá đầu tiên bởi tầm quan trọng của nĩ đối với các DMM. Để đánh giá tính chính xác của các DMM ngƣời ta thƣờng căn cứ vào 2 cơng cụ là Classification Matrix và Lift Chart. Trong khi Classification Matrix biểu diễn kết quả dự đốn của DMM dƣới dạng ma trận so sánh giữa kết quả dự đốn của mơ hình với kết quả thực sự của Testing Data thì Lift Chart cho phép mơ tả tính chính xác DMM dƣới dạng trực quan, và cung cấp nhiều thơng tin về kết quả của nhiều DMM hơn cùng lúc, giúp ta so sánh và chọn ra mơ hình tốt nhất dễ dàng hơn. Vì Lift Chart chỉ sử dụng cho các DMM dự đốn các giá trị rời rạc của biến dự đốn, nên rất thích hợp trong bài tốn dự đốn kết quả học tập vì giá trị dự báo (Ketqua) chỉ là XS (Xuất sắc), G (Giỏi), K (Khá) hoặc TB (Trung bình).
Trong luận văn, hiệu quả của các mơ hình DMM đã xây dựng sẽ đƣợc đánh giá thơng qua hai phƣơng pháp: Lift Chart và Classification Matrix, là hai cơng cụ hỗ trợ sẵn của BIDS. Mục tiêu của em là xác định xem mơ hình nào cho phần trăm dự báo chính xác cao nhất trong việc dự báo kết quả học tập của sinh viên.
3.3.2.1 Đánh giá các mơ hình dự báo với Lift Chart
Cĩ hai cách sử dụng Lift Chart để đánh giá các mơ hình dự báo, đĩ là Lift Chart cĩ xác định giá trị của thuộc tính dự báo và Lift Chart khơng xác định giá trị thuộc tính dự báo.
Lift Chart cĩ xác định giá trị thuộc tính dự báo: trong mơ hình dự đốn kết quả học tập thì thuộc tính Ketqua sẽ nhận một trong 4 giá trị là XS (Xuất sắc), G (Giỏi), K (Khá) hoặc TB (Trung bình). Khi ta muốn đánh giá mơ hình xem việc dự
báo các sinh viên cĩ thể đạt kết quả “Khá” trong tập hợp các sinh viên thì khi đĩ ta sẽ sử dụng Lift Chart với tham số Predict Value =K (Khá).
Hình 3.6: Lựa chọn Lift Chart với Predict Value=”K”
Dƣới đây là kết quả Lift Chart dự báo kết quả học tập của 04 mơ hình đã đề xuất:
Hình 3.7: Kết quả Lift Chart với Ketqua=”K” cho 04 mơ hình
Trong hình trên, trục X biểu diễn phần trăm của test dataset sử dụng để so sánh với kết quả dự đốn, trục Y biểu diễn phần trăm của giá trị dự đốn.
- Đƣờng Ideal Model: là đƣờng biểu diễn mơ hình lý tƣởng (dự đốn chính xác mọi trƣờng hợp). Đƣờng này luơn cao hơn tất cả các đƣờng cịn lại, đây là điều tất yếu.
- Đƣờng màu xanh blue (Random Guess Model): là đƣờng biểu diễn dự đốn ngẫu nhiên (khơng cần mơ hình). Đƣờng này thấp nhất, tức là luơn cho tỷ lệ dự đốn chính xác thấp nhất trong các mơ hình.
- Đƣờng màu vàng (LuatKetHop Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Luật kết hợp.
- Đƣờng màu tím (Nạve Bayes Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Nạve Bayes.
- Đƣờng màu xanh nhạt (NeuralNetwork Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Neural Network.
- Đƣờng màu hồng (CayQuyetDinh Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Cây quyết định.
Nhận xét:
Trong bốn mơ hình đã xây dựng thì mơ hình Nạve Bayes cho kết quả tốt nhất, sau đĩ đến Neural Network, Cây quyết định và cuối cùng là Luật kết hợp, cụ thể nhƣ sau:
- Nhìn vào biểu đồ ta thấy đƣờng biểu diễn của Nạve Bayes luơn ở trên, tiếp đến là Neural Network, Cây quyết định và cuối cùng là Luật kết hợp (khơng kể đến đƣờng lý tƣởng và dự đốn ngẫu nhiên).
- Điểm xếp hạng của Nạve Bayes là cao nhất (0,93), tiếp đến là Neural Network (0.92), Cây quyết định (0,90) và cuối cùng là Luật kết hợp (0,86).
Lift Chart khơng xác định giá trị cụ thể của thuộc tính dự đốn: là Lift Chart cho tất cả các trƣờng hợp của thuộc tính dự đốn. Dƣới đây là kết quả Lift Chart cho tất cả các trƣờng hợp của thuộc tính dự đốn với 04 mơ hình đã đề xuất:
Hình 3.8: Kết quả Lift Chart khơng xác định giá trị thuộc tính dự đốn
Đồ thị này mơ tả khả năng dự đốn của các mơ hình đối với tất cả các trƣờng hợp xếp loại tổng kết của sinh viên.
Trục X trong trƣờng hợp này giống nhƣ loại Lift Chart cĩ giá trị của thuộc tính dự đốn (là phần trăm Test Data set). Tuy nhiên, trục Y bây giờ là phần trăm của dự đốn chính xác. Vì vậy mơ hình lý tƣởng (Ideal Line) bây giờ là đƣờng chéo. - Đƣờng màu xanh blue (Ideal Model): là đƣờng biểu diễn mơ hình lý tƣởng (dự đốn chính xác mọi trƣờng hợp). Đƣờng này luơn cao hơn tất cả các đƣờng cịn lại và là đƣờng chéo, tức là % tập dataset bao nhiêu thì tỷ lệ dự đốn đúng là bấy nhiêu (đúng 100%).
- Đƣờng màu hồng (CayQuyetDinh Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Cây quyết định.
- Đƣờng màu xanh nhạt (Nạve Bayes Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Nạve Bayes.
- Đƣờng màu tím (LuatKetHop Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Luật kết hợp.
- Đƣờng màu vàng (NeuralNetwork Model): là đƣờng biểu diễn khả năng dự đốn của mơ hình Neural Network.
Nhận xét:
Trong bốn mơ hình đã xây dựng thì mơ hình Nạve Bayes về cơ bản vẫn cho kết quả tốt nhất, sau đĩ đến Neural Network, Cây quyết định và cuối cùng là mạng Luật kết hợp, cụ thể nhƣ sau:
- Nhìn vào biểu đồ ta thấy đƣờng biểu diễn của Nạve Bayes cơ bản luơn ở trên, tiếp đến là Neural Network, Cây quyết định và cuối cùng là Luật kết hợp (khơng kể đến đƣờng lý tƣởng).
- Điểm xếp hạng của Nạve Bayes là cao nhất (0,87), tiếp đến là Neural Network (0.86), Cây quyết định (0,85) và cuối cùng là Luật kết hợp (0,80).
- Khi áp dụng dự báo trên 40,02% tổng số bản ghi của tập test dataset, Nạve Bayes cho phần trăm số trƣờng hợp dự đốn chính xác là 43,73% với xác suất dự đốn 92,92%, trong khi Neural Network cho phần trăm số sinh viên dự đốn chính xác là 44,12% với xác suất dự đốn là 82,01%, Cây quyết định cho phần trăm số ngƣời dự đốn chính xác là 42,94% với xác suất dự đốn là 83,39% và Luật kết hợp cho phần trăm số sinh viên dự đốn chính xác là 40,59% với xác suất dự đốn là 85,01%.
3.3.2.2 Đánh giá các mơ hình dự báo với Classification Matrix
Classification Matrix biểu diễn so sánh kết quả dự đốn của các mơ hình khai phá dữ liệu với kết quả thực tế trong tập test dataset dƣới dạng ma trận. Dƣới đây là kết quả cụ thể của 04 mơ hình:
Nhậnxét:
Tập test dataset gồm bản ghi của 510 sinh viên, trong đĩ 01 sinh viên đạt loại Xuất sắc, 28 sinh viên đạt loại giỏi, 335 sinh viên đat loại khá và 146 sinh viên đạt loại trung bình. Dƣới đây là kết quả dự báo cụ thể của từng mơ hình:
- Mơ hình Nạve Bayes cho kết quả tốt nhất với tỉ lệ dự báo sinh viên đạt loại Giỏi chính xác là 19/28 = 67,86%, đạt loại Khá chính xác là 278/335 = 82,99% và dự báo đạt loại Trung bình chính xác là 116/146 = 79,45%, tỷ lệ dự báo chính xác trung bình là 413/510 = 80,98%.
- Mơ hình Neural Network cho kết quả tốt thứ hai với tỉ lệ dự báo sinh viên đạt loại Giỏi chính xác là 12/28 = 42,85% (dự đốn tồi với các sinh viên giỏi), đạt loại Khá chính xác là 292/335 = 87,16% (rất tốt với các sinh viên khá) và dự báo đạt loại Trung bình chính xác là 98/146 = 67,12%, tỷ lệ dự báo chính xác trung bình là 402/510 = 78,82%.
- Mơ hình Cây quyết định cho kết quả tốt thứ ba với tỉ lệ dự báo sinh viên đạt loại Giỏi chính xác là 7/28 = 25% (khơng tốt khi dự đốn sinh viên giỏi), đạt loại Khá chính xác là 317/335 = 94,62% (rất tốt khi dự đốn sinh viên khá) và dự báo đạt loại Trung bình chính xác là 77/146 = 52,73%, tỷ lệ dự báo chính xác trung bình là 401/510 = 78,62%.
- Mơ hình Luật kết hợp cho kết quả tốt kém nhất với tỉ lệ dự báo sinh viên đạt loại Giỏi chính xác là 0/28 = 0% (dự báo hồn tồn khơng chính xác với các sinh viên giỏi), đạt loại Khá chính xác là 323/335 = 96,41% (rất tốt với sinh viên khá) và dự báo đạt loại Trung bình chính xác là 61/146 = 41,78%, tỷ lệ dự báo chính xác trung bình là 384/510 = 75,29%.
- Tất cả các mơ hình đều khơng dự báo chính xác cho sinh viên đạt loại Xuất sắc (độ chính xác là 0%), vì bộ dữ liệu phục vụ xây dựng mơ hình cũng chỉ cĩ 02 sinh viên đạt xếp loại tổng kết Xuất sắc, số lƣợng quá ít nhƣ vậy sẽ khơng cĩ ý nghĩa trong việc khai phá dữ liệu.
Hình 3.10: Biểu đồ so sánh mức độ chính xác các mơ hình
Lý giải:
- Theo các nghiên cứu, tổng kết trƣớc đây, 04 mơ hình trên đều phù hợp với bài tốn phân lớp, dự đốn trong đĩ cĩ lựa chọn các thuộc tính đầu vào và các kết quả cần dự đốn là các thuộc tính rời rạc. Bài tốn dự đốn kết quả học tập là bài tốn cần phải lựa chọn các thuộc tính đầu vào nhƣ: điểm tuyển sinh, giới tính, ngành học, lộ trình học... và thuộc tính dự đốn là kết quả tổng kết (Xuất sắc, Giỏi, Khá, Trung bình, Yếu...) mang tính rời rạc.
- Theo các nghiên cứu trƣớc đây, mơ hình Naive Bayes phù hợp với các bài tốn dự đốn trong đĩ tập dữ liệu đầu vào khơng quá lớn và dữ liệu khơng quá đa dạng. Với mơ hình dự đốn kết quả học tập của sinh viên, dữ liệu đầu vào gồm 3402 bản ghi khơng phải là quá lớn. Số ngành học (21), số lộ trình học (382) khơng quá nhiều, dải điểm thi của sinh viên chỉ dao động từ 15 đến 25 với các giới tính nam, nữ. Chính vì vậy mơ hình Naive Bayes cho kết quả tốt hơn các mơ hình cịn lại. Tuy nhiên, đây chỉ là đánh giá dựa trên các phân tích từ những nghiên cứu về các thuật tốn phân lớp. Để kiểm chứng, tác giả phải xây dựng và đánh giá trên mơ hình thực tế.
0 20 40 60 80 100 120 Giỏi Khá Trung bình Tổng thể Đ ộ c hí nh xác d ự đốn (%) Giá trị thuộc tính dự đốn Biểu đồ so sánh độ chính xác các mơ hình Nạve Bayes NeuralNetwork Cây quyết định Luật kết hợp
3.3.3. Thiết kế hệ thống dự đốn kết quả học tập
Với các đánh giá mơ hình ở mục 3.3.2, em nhận thấy mơ hình Nạve Bayes cho kết quả dự đốn kết quả học tập của sinh viên với độ chính xác cao nhất nên em lựa chọn mơ hình này để xây dựng hệ thống dự đốn kết quả học tập. Trong khuơn khổ luận văn, để giúp ngƣời dùng thấy đƣợc sự khác biệt về kết quả dự đốn giữa các mơ hình, em cĩ đƣa thêm vào chức năng cho phép ngƣời dùng chọn các mơ hình khác nhau (trong 04 mơ hình đã xây dựng) để kiểm tra và so sánh kết quả.
Hệ thống đƣợc xây dựng bằng ngơn ngữ Visual C#.NET với hệ quản trị CSDL MS SQL Server 2008 trên nền Windows Forms (việc xây dựng trên nền Web cũng tƣơng tự). Nếu là ứng dụng triển khai trong thực tế thì nên xây dựng trên nền Web sẽ dễ dàng trong việc triển khai và sử dụng hệ thống đối với các sinh viên cũng nhƣ các giáo viên muốn sử dụng hệ thống tại nhà thơng qua mạng internet, tuy nhiên đây chỉ là một ứng dụng minh họa cho các kết quả đã nghiên cứu của luận văn nên em chọn giải pháp xây dựng trên nền Windows Forms.
Hệ thống đƣợc triển khai sẽ hỗ trợ tốt cho các tân sinh viên lựa chọn lộ trình học phù hợp để đạt đƣợc kết quả học tập cao nhất. Ngồi ra, hệ thống sẽ hỗ trợ các giáo viên, các nhà quản lý giáo dục trong việc định hƣớng cho sinh viên cũng nhƣ lựa chọn các học phần xuất hiện nhiều trong các lộ trình để cĩ kế hoạch mở lớp và đầu tƣ cho học phần đĩ tốt hơn nhằm cải thiện chất lƣợng đào tạo.
Hình 3.11: Sơ đồ hoạt động của hệ thống
Begin
Đọc dữ liệu nhập vào
- Duyệt tồn bộ các lộ trình học tƣơng ứng với ngành học nhập vào.
- Kết hợp dữ liệu nhập vào với các lộ trình
Kết nối đến Analysis Services
Kết nối thành cơng
Thực thi lệnh truy vấn DMX dự đốn kết quả học với từng lộ trình học
Hiển thị kết quả dự đốn lên GridView theo tất cả các lộ trình
Đĩng kết nối
End
Để sử dụng hệ thống, ngƣời dùng nhập vào các thơng tin nhƣ: ngành học, điểm thi tuyển sinh, giới tính và lựa chọn mơ hình sử dụng để dự báo (nếu khơng lựa chọn thì mặc định hệ thống sẽ sử dụng mơ hình Nạve Bayes) . Trong phạm vi thử nghiệm, chƣơng trình vẫn cho hiển thị kết quả dự đốn của cả 03 mơ hình khơng đƣợc lựa chọn là Luật kết hợp, Neural Network và Decision Tree để mang tính chất tham khảo cũng nhƣ đánh giá lại các mơ hình trong dự đốn thực tế. Tuy nhiên, nhƣ đã phân tích ở trên, ngƣời dùng cần tin tƣởng ở mơ hình Nạve Bayes hơn do nĩ đƣợc đánh giá là dự đốn kết quả học tập với độ chính xác tốt nhất.
CHƢƠNG IV - THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Thực nghiệm, đánh giá trên hệ thống
Ví dụ 1: Sử dụng hệ thống để đƣa ra kết quả học tập dự đốn cho một sinh viên mới nhập học với các giá trị thuộc tính đầu vào nhƣ sau:
- Giới tính: Nữ
- Ngành học: Kế tốn.
- Điểm thi tuyển sinh đầu vào: 24. - Khối thi: A
Sau khi chạy chƣơng trình, kết quả dự đốn kết quả với các mơ hình khác nhau:
Hình 4.2: Kết quả dự đốn kết quả học tập với mơ hình Cây quyết định
Hình 4.4: Kết quả dự đốn kết quả học tập với mơ hình Neural Network
Đánh giá kết quả:
- 04 mơ hình đều đƣa ra kết quả dự báo cho sinh viên với 12 lộ trình đƣa ra tƣơng ứng với ngành học của sinh viên và kết quả xếp loại ra trƣờng ứng với từng lộ trình.
- Mơ hình Nạve Bayes cho kết quả là 9 lộ trình học đều giúp sinh viên đạt loại giỏi, chỉ cĩ 3 lộ trình khiến sinh viên đạt loại khá.
- 02 mơ hình Cây quyết định và Luật kết hợp đều cho dự báo là 01 lộ trình