Kết luận chƣơng 4

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp (Trang 79 - 94)

Trong chƣơng 4, em đã tiến hành một số thực nghiệm trên hệ thống đã xây dựng. Qua các ví dụ thực tế cho thấy hệ thống hoạt động ổn định, cho kết quả nhanh và cho phép hiển thị chi tiết các lộ trình học cho sinh viên lựa chọn. Theo phân tích cảm tính, kết quả của hệ thống phù hợp với những suy luận cảm tính. Trƣờng hợp cĩ nhiều lộ trình học cĩ cùng kết quả học tập cao nhất, hệ thống đƣa ra thêm hai độ đo là xác suất dự báo và số trƣờng hợp hỗ trợ. Sinh viên cĩ thể lựa chọn các lộ trình mà hai độ đo này đạt kết quả cao nhất vì khi đĩ tỷ lệ dự báo sẽ đạt độ chính xác nhất.

KẾT LUẬN VÀ KIẾN NGHỊ

1. Kết luận

Sau một thời gian nghiên cứu và làm việc nghiêm túc, luận văn đã đạt đƣợc một số kết quả chính sau đây:

- Nghiên cứu cơ sở lý thuyết về khai phá dữ liệu, tập trung vào các kỹ thuật khai phá dữ liệu áp dụng cho các mơ hình dự báo nhƣ: cây quyết định, Nạve Bayes, luật kết hợp và mạng nơ ron nhân tạo.

- Nghiên cứu cơng cụ khai phá dữ liệu BIDS của Microsoft, ngơn ngữ truy vấn khai phá dữ liệu DMX và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs trên hệ quản trị cơ sở dữ liệu Microsoft SQL Server.

- Tìm hiểu về mơ hình đào tạo theo tín chỉ, sự khĩ khăn của sinh viên trong việc lựa chọn các mơn học và đề xuất bài tốn tƣ vấn cho sinh viên các lộ trình học phù hợp để sinh viên đạt kết quả cao nhất thơng qua việc xây dựng các lộ trình học tƣơng ứng với ngành mà sinh viên theo học, dự đốn kết quả học tập theo từng lộ trình và lựa chọn lộ trình cho kết quả cao nhất.

- Tiến hành thu thập và tiền xử lý dữ liệu, thu đƣợc 233.510 bản ghi về điểm tổng kết các học phần và dữ liệu cá nhân, tuyển sinh và điểm tổng kết tồn khĩa cho 3402 sinh viên thuộc 21 ngành học với 840 học phần (mơn học), từ đĩ xây dựng CSDL trên hệ quản trị SQL Server 2008, phục vụ cho việc phát triển hệ thống dự đốn kết quả học tập.

- Xây dựng các mơ hình dự đốn kết quả học tập với 04 thuật tốn đã đề xuất là cây quyết định, luật kết hợp, mạng nơ ron nhân tạo và Naive Bayes. Qua đánh giá mức độ chính xác của các mơ hình cho thấy mơ hình Naive Bayes cho mức độ dự báo chính xác cao nhất (80,98%), sau đĩ đến Neural Network (78,82%), tiếp theo là Decision Tree (78,62%) và thấp nhất là Cây quyết định (75,29%).

- Từ đánh giá trên, em đã xây dựng hệ thống dự đốn kết quả học tập với đầu vào là các thơng tin cá nhân của sinh viên nhƣ: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mơ hình dự báo Naive Bayes. Hệ thống hoạt động ổn định, cho kết quả nhanh và hiển thị kết quả dự đốn cho tất cả các lộ trình học tập của sinh viên

(sắp xếp theo thứ tự từ cao xuống thấp), giúp sinh viên cĩ thể dễ dàng lựa chọn cho mình lộ trình học phù hợp. Các độ đo nhƣ xác suất dự báo và số trƣờng hợp hỗ trợ cũng đƣợc đƣa vào để gợi ý sinh viên lựa chọn tốt hơn (trong trƣờng hợp cĩ nhiều lộ trình cùng cho kết quả học tập cao nhất). Lộ trình cũng cĩ thể đƣợc xem chi tiết theo tên mơn học và kỳ học (sắp xếp theo thứ tự tăng dần của học kỳ).

- Hệ thống cũng cĩ chức năng cho phép ngƣời quản trị cập nhật cơ sở dữ liệu và cập nhật lại mơ hình khi kết thúc năm học với các khĩa đã tốt nghiệp, qua đĩ giúp hệ thống ngày càng đạt độ chính xác cao và khách quan.

2. Kiến nghị

Để hệ thống cĩ thể triển khai rộng rãi, trong thời gian tới em sẽ phát triển hệ thống trên nền web. Do phần dữ liệu thu thập đƣợc cịn hạn chế nên độ chính xác của các mơ hình chƣa thực sự cao, mơ hình Nạve Bayes cho kết quả tốt nhất mới chỉ đạt 80,98%. Trong thời gian tới em sẽ tiếp tục cập nhật mơ hình với dữ liệu của các khĩa mới ra trƣờng để kết quả dự đốn đƣợc cải thiện hơn.

Do thời gian thực hiện luận văn khơng nhiều nên chắc chắn khơng thể tránh khỏi những thiếu sĩt. Em rất mong nhận đƣợc những gĩp ý của các thầy, cơ giáo và các bạn đọc để luận văn đƣợc hồn thiện hơn. Xin chân thành cảm ơn!

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội, 2013.

[2] Nguyễn Thái Nghe,Paul Janecek, Peter Haddawy,Một phân tích giữa các kỹ thuật trong dự đốn kết quả học tập, Khoa Cơng nghệ thơng tin và Truyền thơng, Đại học Cần Thơ.

[3] Nguyễn Thị Thanh Thủy, Ứng dụng khai phá dữ liệu xây dựng cơng cụ dự đốn kết quả học tập của sinh viên, Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng, 2012.

[4] Nguyễn Đình Thúc, Trí tuệ nhân tạo. Mạng nơ ron - phương pháp và ứng dụng, NXB Giáo dục, 2000.

Tiếng Anh

[5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008.

[6] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second Edition. Published by Elsevier Inc. 2006.

[7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc. 2010.

[8] Developing Application that uses Analysis Services.

http://social.msdn.microsoft.com/Forums/zh/sqldatamining/thread/fb74ab56- 1172-4460-8953-f566ca0a0cf3.

[9] SQL server Data Mining.

http://www.sqlserverdatamining.com/ssdm/Home/Downloads/tabid/60/Default.aspx. [10] Tang, Z. H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis: Wiley, 2005.

PHỤ LỤC

1. Các bƣớc tạo ứng dụng BIDS trên bộ VS 2008

Sau đây, em sẽ trình bày từng bƣớc tạo ứng dụng BIDS trên bộ Visual Studio 2008 kết hợp với hệ quản trị CSDL MS SQL Server 2008. Đây cũng chính là từng bƣớc em thực hiện để tạo ứng dụng BIDS cho hệ thống dự đốn kết quả học tập sẽ trình bày ở chƣơng 3 của luận văn.

1) Khởi động SQL Server Business Intelligence Development Studio từ SQL Server 2008 hay mở Visual Studio 2008 và chọn New Project. Sau đĩ chọn

Analysis Services Project:

Hình 1: Tạo một ứng dụng BIDS

Hình 2: Tạo một Data Source

3) Tạo một Data Source View

Hình 4: Tạo một Data Source View

4) Tạo một Mining Structure

Trong cửa sổ Solution Explorer, bấm phải chuột trên mục Mining Structures chọn New Mining Structure. Bấm Next và chọn From existing relational database or data warehouse và bấm Next và chọn Decision tree:

Hình 5: Chọn một thuật tốn khai phá dữ liệu

Bấm Next để chọn Data Source View đã tạo ở bƣớc trƣớc, sau đĩ bấm Next để chọn Case, sau đĩ tiến hành tích chọn các cột Input, Key và Predictable:

Hình 6: Thiết lập các thuộc tính cho dự báo

Chú ý: Sau khi chọn thuộc tính predictable, chỉ cần nhấn nút Suggest thì hệ thống đề nghị các thuộc tính Input tính liên quan đến thuộc tính predictable đã chọn. Microsoft thiết lập các thuộc tính này cĩ Score >=0.05. Nếu vẫn muốn lựa chọn các thuộc tính khác thì ta tích chọn vào cột Input ở các thuộc tính tƣơng ứng.

Bấm Next và bấm Detect để xác định nội dung và kiểu dữ liệu của các thuộc tính đƣợc sử dụng trong mơ hình:

Hình 7: Kiểu dữ liệu của các thuộc tính tham gia dự báo

Thiết lập tỷ lệ phân chia bộ dữ liệu thành các tập CSDL phục vụ cho huấn luyện và test mơ hình (chia ngẫu nhiên các bản ghi). Trong ví dụ, ta chọn là chia tập dữ liệu theo tỷ lệ 85% cho training và 15% cho testing . Chức năng này cĩ từ bộ Visual Studio 2008 trở lên (từ 2005 trở xuống khơng hỗ trợ mà ngƣời dùng phải tạo bằng tay 2 CSDL phục vụ cho training và testing):

Bấm Next, đặt tên cho Mining Structure và Mining Model:

Hình 9: Một Mining Structure và Mining Model đƣợc tạo

5) Tạo các Mining Model

Khi tạo một Mining Structure ban đầu chỉ cĩ một mơ hình khai phá dữ liệu dựa trên kỹ thuật Decision Tree với tên gọi là CayQuyetDinh nhƣ hình vẽ trên. Trong phần này ta cĩ thể sử dụng các kỹ thuật khai phá dữ liệu khác để đạt đƣợc mục đích nghiên cứu cũng nhƣ so sánh hiệu quả khai phá dữ liệu của các mơ hình để chọn ra mơ hình tốt nhất. Ở đây ta sử dụng thêm 3 mơ hình nữa làMicrosoft

Association Rules model, Microsoft Nạve Bayes modelMicrosoft Neural

Networks.

Ví dụ: Tạo mới Microsoft Nạve Bayes model

- Click Mining Structure tab hoặc Mining Models tab

- Click chuột phải vào tên Mining Structure (nếu đã chuyển sang tab Mining Structure) hoặc click chuột phải lên vùng view hiển thị nội dung của tab Mining Models (nếu đang ở tab này), sau đĩ chọn New Mining Model… Trong mục Algorithm name, ta chọn thuật tốn Microsoft Nạve Bayes và đặt tên cho mơ hình là NaiveBayes, rồi click OK:

Hình 10: Thêm mới một Mining Model

Tƣơng tự nhƣ vậy với mơ hình Microsoft Neural Network. Cuối cùng ta đƣợc 4 mơ hình nhƣ sau:

Hình 11: Tạo 04 Mining Models cho một Mining Structure

6) Khai thác Mining Models.

Sau khi đã định nghĩa Mining Structure và các Mining Models nhƣ trên, bây giờ ta tiến hành thực thi (deploy) các Mining Models bằng cách bấm F5. Sau khi thực thi các Models đã xây dựng, ta cĩ thể kiểm tra kết quả, độ chính xác cũng nhƣ việc sử dụng các Mining Models này cho việc dự đốn các dữ liệu chƣa biết bằng các tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra tính chính xác), Mining Model Prediction (dùng để dự đốn).

Ví dụ kết quả của các Mining Model: Mơ hình Cây quyết định:

Hình 12: Kết quả tạo viewer cho mơ hình Cây quyết định

Mơ hình Luật kết hợp:

Hình 13: Kết quả tạo viewer cho mơ hình Luật kết hợp

Hình 14: Kết quả tạo viewer cho mơ hình Nạve Bayes

Mơ hình Neural Network:

Hình 15: Kết quả tạo viewer cho mơ hình mạng nơ ron nhân tạo

7) Kiểm tra độ chính xác của Mining Models.

Kiểm tra độ chính xác của các models để biết khả năng dữ đốn chính xác của các mining models bằng Tab Mining Accuracy Chart. Phƣơng pháp kiểm tra này sử dụng Test data (là dữ liệu đƣợc tách ra từ training dataset ban đầu và Test data khơng đƣợc dùng vào quá trình quá trình xây dựng model. Cĩ nghĩa là một mẫu dữ liệu thuộc test data thì khơng xuất hiện trong Training Dataset. Hiện 2 tập dataset này đã đƣợc phân tự động ngẫu nhiên theo thiết lập ở bƣớc trƣớc). BIDS vẽ thêm mơ hình lý tƣởng (Ideal Model, mơ hình mà dự đốn đúng 100% các mẫu) để

dễ dàng so sánh hiệu quả dự đốn của các Mining models. Hai cơng cụ chính để mơ tả độ chính xác của các Mining models mà BIDS dùng là Lift Chart , Classification Matrix.

Chọn tab Mining Accuracy Chart và chọn Lift Chart:

Hình 16: Biểu đồ Lift Chart cho 04 mơ hình

Chọn tab Classification Matrix, ta đƣợc:

Hình 17: Kết quả của ma trận Classification Matrix của 04 mơ hình

Dựa vào hai kết quả của Lift Chart và Classification Matrix ta thấy rằng phƣơng pháp Nạve Bayes cho kết quả dự báo tốt nhất (80,98%), sau đĩ đến Neural Network (78,82%), tiếp đến là Cây quyết định với 78,62% và cuối cùng là Luật kết hợp (75,29%).

8) Sử dụng Mining Models để dự đốn.

Sau khi chọn đƣợc mơ hình phù hợp (tốt nhất), bƣớc tiếp theo là sử dụng mơ hình đĩ cho việc dự đốn. Ta cĩ thể sử dụng ngơn ngữ truy vấn DMX đã giới thiệu ở mục trƣớc để thiết lập các query cho dự đốn.

Các bƣớc sử dụng model để dự đốn nhƣ sau:

Giả sử ta sử dụng mơ hình Nạve Bayes (mơ hình cĩ dự đốn chính xác cao nhất trong 4 Mining models đã xây dựng ở trên) để dự đốn kết quả học tập của các sinh viên trong CSDL.

Trong tab Mining Model Prediction, chọn Select case table, chọn CSDL đã tạo.

Chọn NaiveBayes trong mục Select Model và thiết kế một query DMX trực quan nhƣ hình dƣới:

Hình 18: Thiết kế một truy vấn DMX với mơ hình đƣợc chọn

Để xem kết quả dự đốn, chọn mục Result ở gĩc trên bên trái của cửa sổ thiết kế Prediction Query. Kết quả nhƣ sau:

Hình 19: Kết quả truy vấn với mơ hình đƣợc chọn

Các cột MaSV, KetquaExpression đƣợc dùng để xác định sinh viên đạt kết quả tổng kết loại gì với xác suất dự đốn chính xác là bao nhiêu %.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp (Trang 79 - 94)

Tải bản đầy đủ (PDF)

(94 trang)