Trong phạm vi luận văn, chúng tơi sử dụng 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes. [13], [15], [17]
4.2.1. Khảo sát dự đốn kết quả học tập của sinh viên
Xây dựng mơ hình khai phá dữ liệu:
Hình 4.1 – Cấu trúc mơ hình dùng cho các thuật tốn: Decision Tree, Nạve Bayes, Neural Network
Mơ hình khai phá:
Trong một mơ hình khai phá bao gồm các thuộc tính đầu vào, thuộc tính khĩa và thuộc tính dự đốn.
Hình 4.2 – Mơ hình khai phá cho 3 thuật tốn
Kết quả khi dùng 3 thuật tốn: a. Thuật tốn cây quyết định:
Hình 4.3 – Cây phân nhánh khi dùng thuật tốn Decision Tree
Mỗi nút trong cây quyết định trên thể hiện 3 phần thơng tin sau:
Điều kiện địi hỏi để đạt tới nút của nút trước nĩ. Ta cĩ thể thấy đường dẫn đầy đủ của nút từ cây trên.
Một biểu đồ miêu tả sự phân bổ trạng thái của các cột cĩ khả năng dự đốn theo sự phổ biến.
Sự tập trung các trường hợp, nếu trạng thái các thuộc tính cĩ thể dự đốn được chỉ ra.
Nếu các dữ liệu đầu vào khơng ảnh hưởng tới thuộc tính dự báo thì cây quyết định sẽ khơng phân nhánh:
Hình 4.4 – Cây khơng phân nhánh khi dùng thuật tốn cây quyết định
Mạng phụ thuộc: Nút trung tâm là Xeploai thể hiện thuộc tính dự đốn trong mơ hình dữ liệu cịn các nút xung quanh thể hiện thuộc tính bị tác động bởi thuộc tính dự đốn.
b. Thuật tốn Nạve Bayes:
Hình 4.6 – Mạng phụ thuộc khi dùng thuật tốn Nạve Bayes
Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật tốn Nạve Bayes Chúng ta cĩ thể thấy những đặc điểm thuộc tính của mơ hình . Nĩi cách khác, chúng ta Chúng ta cĩ thể thấy những đặc điểm thuộc tính của mơ hình . Nĩi cách khác, chúng ta cĩ thể nhìn thấy xác suất của một giá trị thuộc tính cụ thể được trình bày cùng với giá trị dự đốn trong hình 4.8.
Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật tốn Nạve Bayes Thơng qua kết quả hình 4.8, chúng ta nhận thấy xác suất những sinh viên là nữ cĩ học lực khá cao hơn sinh viên là nam.
Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật tốn
Ở đồ thị trên, đường màu xanh da trời thể hiện ngưỡng giá.
Đường màu xanh lá cây thể hiện giá trị lý tưởng của học lực trung bình.
Các đường màu đỏ, tím, vàng thể hiện giá trị dự báo thực tế của học lực trung bình khi sử dụng các thuật tốn tương ứng: Nạve Bayes, Decision Tree, Neural Network.
Đưởng thẳng đứng màu đen hiển thị phần trăm dữ liệu được huấn luyện cho mơ hình khai phá này.
Trong 3 đường màu đỏ, tím, vàng; đường nào càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên, thì chứng tỏ kết quả kiểm tra càng chính xác cong đường nào càng tiến tới thành đường chéo màu xanh da trời, thì độ chính xác của kiểm tra càng kém.
Ma trận phân lớp:
Từ bảng dữ liệu trên ta cĩ thể biết được số lượng dự báo của từng loại học lực so với dữ liệu thực tế. Với kết quả cho ở hình 4.10, khi thuật tốn Nạve Bayes, số lượng học sinh thực tế đạt kết quả giỏi là 1 nhưng thực tế dự đốn là 15 (1+3+4+7), số lượng học sinh thực tế đạt kết quả khá là 7 nhưng thực tế dự đốn là 15 (7+7+1), số lượng học sinh thực tế đạt kết quả trung bình - khá là 24 nhưng thực tế dự đốn là 38 (5+24+9), số lượng học sinh thực tế đạt kết quả trung bình là 46 nhưng thực tế dự đốn là 53 (1+6+46). Tương tự, tính tốn số lượng thực và dự đốn với 2 thuật tốn cịn lại.
Mơ hình dự đốn:
Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes
Kết quả dự đốn:
Hình 4.12 – Kết quả dự đốn khi dùng thuật tốn Nạve Bayes
Ba cộtMaSv, Hocluc và Expression thể hiện khả năng dự đốn đúng về học lực của sinh viên. Chẳng hạn, với sinh viên cĩ mã Tin98-17 khả năng dự đốn học lực trung bình khá là 98%, so với kết quả thực tế ta thấy đúng với kết quả thực tế. Ta sẽ sử dụng kết quả này để kiểm sốt tình hình học tập của sinh viên.
4.2.2. Phân tích kết quả đạt được
Sau khi thử nghiệm với 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes, chúng tơi đưa ra các nhận xét sau:
Sở dĩ, chúng tơi đưa ra 3 thuật tốn này, vì cả ba thuật tốn đều dùng để phân lớp dữ liệu nên người đọc dễ theo dõi và dễ so sánh các kết quả.
Với cấu trúc mơ hình khai phá mục 4.2.1, khi sử dụng thuật tốn Dicision Tree
thì học lực (Hocluc) của sinh viên được quyết định chủ yếu dựa vào thuộc tính: (diemky3, gioitinh); khi dùng thuật tốn Nạve Bayes học lực (Hocluc) của sinh viên phụ thuộc vào 3 thuộc tính (diemky3, diem ky1, gioitinh); cịn khi dùng thuật tốn Neural Network thì học lực của sinh viên cĩ phần phụ thuộc nhiều vào yếu tố giới tính(gioitinh) của sinh viên.
Từ mơ hình khai phá được thực nghiệm trong mục 4.2.1để so sánh về độ chính xác khi sử dụng 3 thuật tốn: Decision Tree, Neural Network, Nạve Bayes. Căn cứ biểu đồ hình 4.9, chúng ta thấy rằng, khi dùng thuật tốn Nạve Bayes thì khả năng dự đốn là cĩ phần chính xác hơn 2 thuật tốn cịn lại.
4.3. Kết luận chƣơng 4
Chương này trình bày các vấn đề:
Ứng dụng kỹ thuật KPDL để dự báo, dự đốn: Yêu cầu dự báo, dự đốn xu thế, một số thuật tốn KPDL của BI.
Xây dựng mơ hình dự báo trên Data mining Tool: Khảo sát dự đốn kết quả học tập của sinh viên, phân tích kết quả đạt được.
KẾT LUẬN – HƢỚNG PHÁT TRIỂN Các mục tiêu đã thực hiện trong luận văn
Sau 1 thời gian thực hiện nghiên cứu và thực nghiệm, chúng tơi cĩ thể đáp ứng các mục tiêu mà luận văn đặt ra:
Nghiên cứu và hiểu được các vấn đề của kho dữ liệu, KPDL, bộ cơng cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngơn ngữ T- SQL.
Xây dựng được kho dữ liệu về điểm của sinh viên.
Thiết kế báo cáo nhiều dạng phục vụ cho cơng tác báo cáo nghiệp vụ.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mơ hình dự đốn.
Xây dựng mơ hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.
Sử dụng các mơ hình để tạo các dự đốn đơn giản, mà cĩ thể sử dụng sau đĩ để tạo ra các quyết định nghiệp vụ đào tạo của trường.
So sánh được độ chính xác khi sử dụng 3 thuật tốn khai phá: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes trên một mơ hình khai phá.
Hƣớng phát triển
Dựa trên kết quả đã thực hiện, luận văn cĩ các hướng phát triển như sau:
Triển khai kho dữ liệu với nguồn dữ liệu lớn.
Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”.
[2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, tr 35.
[3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, mơn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13.
[4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12.
[5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm 2011-2015.
[6] http://www.citd.edu.vn/Vietnam/Home/index.php/tai-nguyen/hc-phn-01/c-s-d- liu/1095-tng-quan-v-data-warehouse?lang=
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật tốn MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, , khĩa luận tốt nghiệp, nguồn: http://www.mediafire.com/?mmgggjn22yw , tr 47 – 51.
[9] SQL Server tutorials, SQL Server 2008 Books Online
[10] Hồng Đình Thắng (2010), tiểu luận mơn học “Các vấn đề hiện đại về hệ thống thơng tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hĩa, tr 3- 16. [11] Http://www.fotech.org/forum/index.php?s=1631c11479599b3dc50889f83ab
205b3& showtopic=25068&st=20
[12] Http://dddn.com.vn/20110423122943803cat187/sacombank-trien-khai-thanh- cong-data-warehouse-voi-giai-phap-oracle-exadata.htm
Tiếng anh:
[13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008.
[14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU
[15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server. [16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services. [17] Wiley (2008) – Data mining with Microsoft SQL Server 2008.
[18] http://www.dexa.org/node/42
[19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-51.