Hệ quản trị cơ sở dữ liệu SQL Server 2008 xây dựng dịch vụ báo cáo là sự nâng cấp của bản 2000, 2005. Nhĩm tác giả của cuốn sách “Wrox - Professional Microsoft SQL Server 2008 Report Services (2008)” đã khẳng định được tính ưu việt vượt trội hơn hẳn so với một số cơng cụ tạo báo cáo truyền thống như Crystal Reports…
Báo cáo thiết kế đã được sử dụng các cơng cụ Crystal Reports, ví dụ, sẽ thường là một chút đe dọa bởi các cơng cụ báo cáo thiết kế dịch vụ này, họ cĩ thể khơng quen thuộc và với các tính năng nghèo nàn hơn.
Dịch vụ báo cáo là giải pháp báo cáo mở cho phép tạo, xuất bản và phân phối các báo cáo doanh nghiệp chi tiết một cách dễ dàng cả bên trong và bên ngồi tổ chức. Các báo cáo cĩ thể xuất ra nhiều dạng file và truy cập bằng cách gửi địa chỉ tới một trạm internet hoặc mạng cục bộ một cách thích hợp thành lập để máy chủ, do đĩ, nĩ khá linh hoạt.
Dịch vụ báo cáo đáp ứng các nhu cầu của dân cơng nghệ thơng tin nĩi chung và các chuyên gia nĩi riêng. Người thiết kế báo cáo khơng quá tốn nhiều thời gian để hồn thành một báo cáo; tùy biến các dạng hiển thị biểu đồ theo ý muốn.
Hơn thế nữa, dịch vụ báo cáo ngồi việc tạo ra các báo cáo thơng thường, dịch vụ cịn tạo ra các báo cáo cho phép dự đốn được sự thay đổi về dữ liệu, ra quyết định trong tương lai mà một báo cáo truyền thống khĩ làm được điều đĩ.
3.4. Kết luận chƣơng 3
Chương này trình bày các vấn đề:
Hiện trạng dữ liệu và nhu cầu xây dựng kho.
Xây dựng kho dữ liệu về điểm của sinh viên: Thơng tin về dữ liệu điểm, kiến trúc của kho dữ liệu, các chiều dữ liệu, các bước cài đặt kho dữ liệu.
Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý: Yêu cầu về xây dựng báo cáo, lợi ích của báo cáo trong BI, xây dựng báo cáo và kết quả, tính ưu việt của báo cáo được xây dựng từ kho dữ liệu.
Chƣơng 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU 4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đốn
4.1.1. Yêu cầu dự báo, dự đốn xu thế
a. Yêu cầu chung
Trong cơng tác giáo dục - đào tạo. Bài tốn hoạch định chiến lược đào đạo của đơn vị nĩi chung, của một trường học nĩi riêng là yêu cầu trọng điểm và nâng cao hiệu quả đào tạo, thu hút sinh viên. Trong việc hoạch định chiến lược đào tạo cĩ nhiều vấn đề phải giải quyết: nguồn nhân lực, trang thiết bị, đội ngũ cán bộ giáo viên cĩ kinh nghiệm, xây dựng và quản lý chương trình đạo tạo, chỉ tiêu đào tạo... Ngồi những vấn đề này; việc quản lý, theo dõi tình hình học tập của sinh viên theo các ngành nghề khác nhau là một vấn đề quan trọng để đưa ra chỉ tiêu tuyển sinh của trường một cách nhanh và chính xác nhất. Cung cấp các báo cáo, thơng tin cho ban lãnh đạo đầy đủ và nhanh chĩng nhất, một loạt câu hỏi hĩc búa cần phải giải quyết như:
Làm thế nào để trường dự đốn đúng được chỉ tiêu tuyển sinh vào các ngành nghề?
Làm thế nào để thu hút, bồi dưỡng được nguồn lực tại trường mình?
Làm thế nào để lập kế hoạch cơng việc và đánh giá hiệu quả làm việc của cán bộ một cách chính xác và khách quan nhất?
Làm thế nào để đưa ra các báo cáo một cách nhanh và trực quan nhất?
b. Yêu cầu cụ thể:
Từ các yêu cầu chung hình thành các yêu cầu cụ thể bước đầu:
Hồn chỉnh bước đầu, lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến cán bộ: Thơng tin cơ bản, thơng tin cá nhân, thơng tin cơng việc;
Lưu trữ đầy đủ thơng tin cơ bản của hồ sơ liên quan đến học sinh - sinh viên: Thơng tin cá nhân, thơng tin về điểm của nhiều khĩa học liên tiếp nhau.
Quản lý được nguồn lực: Đáp ứng được việc hỗ trợ xây dựng quy trình nhân sự như: tuyển dụng, quy trình đánh giá nguồn nhân lực, đào tạo, giám sát bổ sung biên chế…;
Quản lý và xây dựng chương trình đào tạo cho phù hợp với từng chuyên ngành, từng loại hình đào tạo.
Giải pháp lưu trữ dữ liệu: Cơ sở dữ liệu thiết kế cĩ cấu trúc mở, dễ liên lạc với các hệ thống cơ sở dữ liệu khác liên quan hoặc thiết kế kho dữ liệu để lưu trữ. Tuy nhiên với 2 giải pháp này, nếu thiết kế cơ sở dữ liệu bằng phương pháp truyền thống thì bị hạn chế bởi kích thước về dữ liệu, tốc độ xử lý các truy vấn bị hạn chế nên giải pháp về kho dữ liệu là khả thi.
Dựa trên kho dữ liệu mà chúng tơi đã trình bày ở chương 3. Chúng tơi muốn khai thác dữ liệu tiền ẩn từ kho dữ liệu về điểm mà mình đã xây dựng. Với việc
khai thác nguồn ngữ liệu phong phú này sẽ giúp lãnh đạo của trường theo dõi được thơng tin về tình hình học tập, mối quan hệ giữa các mơn học…Từ đĩ, Dự đốn sinh viên học giỏi mơn tốn cĩ kết quả học tập cao khơng? Dự đốn kết quả của sinh viên trong năm học tiếp theo? quyết định chỉ tiêu tuyển sinh vào các ngành nghề một cách phù hợp nhất, điều chỉnh chương trình đào tạo cho phù hợp, đưa ra các chiến lược tuyển sinh phù hợp ở các năm sau.
4.1.2. Ưu điểm của một số thuật tốn khai phá trong BI
a. Ƣu điểm của phƣơng pháp Decision Tree:
Dễ dàng xây dựng.
Phân lớp mẫu mới nhanh
Dễ dàng diễn giải cho những cây cĩ kích thước nhỏ.
Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập dữ liệu lớn.
b. Ƣu điểm của phƣơng pháp Nạve Bayes:
Dễ cài đặt
Thời gian thi hành tương tự như cây quyết định.
Đạt kết quả tốt trong phần lớn các trường hợp.
Nhược điểm:
Giả thiết về tính độc lập điều kiện của các thuộc tính làm giảm độ chính xác.
4.2. Xây dựng mơ hình dự báo dựa trên Data Mining Tool
Trong phạm vi luận văn, chúng tơi sử dụng 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes. [13], [15], [17]
4.2.1. Khảo sát dự đốn kết quả học tập của sinh viên
Xây dựng mơ hình khai phá dữ liệu:
Hình 4.1 – Cấu trúc mơ hình dùng cho các thuật tốn: Decision Tree, Nạve Bayes, Neural Network
Mơ hình khai phá:
Trong một mơ hình khai phá bao gồm các thuộc tính đầu vào, thuộc tính khĩa và thuộc tính dự đốn.
Hình 4.2 – Mơ hình khai phá cho 3 thuật tốn
Kết quả khi dùng 3 thuật tốn: a. Thuật tốn cây quyết định:
Hình 4.3 – Cây phân nhánh khi dùng thuật tốn Decision Tree
Mỗi nút trong cây quyết định trên thể hiện 3 phần thơng tin sau:
Điều kiện địi hỏi để đạt tới nút của nút trước nĩ. Ta cĩ thể thấy đường dẫn đầy đủ của nút từ cây trên.
Một biểu đồ miêu tả sự phân bổ trạng thái của các cột cĩ khả năng dự đốn theo sự phổ biến.
Sự tập trung các trường hợp, nếu trạng thái các thuộc tính cĩ thể dự đốn được chỉ ra.
Nếu các dữ liệu đầu vào khơng ảnh hưởng tới thuộc tính dự báo thì cây quyết định sẽ khơng phân nhánh:
Hình 4.4 – Cây khơng phân nhánh khi dùng thuật tốn cây quyết định
Mạng phụ thuộc: Nút trung tâm là Xeploai thể hiện thuộc tính dự đốn trong mơ hình dữ liệu cịn các nút xung quanh thể hiện thuộc tính bị tác động bởi thuộc tính dự đốn.
b. Thuật tốn Nạve Bayes:
Hình 4.6 – Mạng phụ thuộc khi dùng thuật tốn Nạve Bayes
Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật tốn Nạve Bayes Chúng ta cĩ thể thấy những đặc điểm thuộc tính của mơ hình . Nĩi cách khác, chúng ta cĩ thể nhìn thấy xác suất của một giá trị thuộc tính cụ thể được trình bày cùng với giá trị dự đốn trong hình 4.8.
Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật tốn Nạve Bayes Thơng qua kết quả hình 4.8, chúng ta nhận thấy xác suất những sinh viên là nữ cĩ học lực khá cao hơn sinh viên là nam.
Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật tốn
Ở đồ thị trên, đường màu xanh da trời thể hiện ngưỡng giá.
Đường màu xanh lá cây thể hiện giá trị lý tưởng của học lực trung bình.
Các đường màu đỏ, tím, vàng thể hiện giá trị dự báo thực tế của học lực trung bình khi sử dụng các thuật tốn tương ứng: Nạve Bayes, Decision Tree, Neural Network.
Đưởng thẳng đứng màu đen hiển thị phần trăm dữ liệu được huấn luyện cho mơ hình khai phá này.
Trong 3 đường màu đỏ, tím, vàng; đường nào càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên, thì chứng tỏ kết quả kiểm tra càng chính xác cong đường nào càng tiến tới thành đường chéo màu xanh da trời, thì độ chính xác của kiểm tra càng kém.
Ma trận phân lớp:
Từ bảng dữ liệu trên ta cĩ thể biết được số lượng dự báo của từng loại học lực so với dữ liệu thực tế. Với kết quả cho ở hình 4.10, khi thuật tốn Nạve Bayes, số lượng học sinh thực tế đạt kết quả giỏi là 1 nhưng thực tế dự đốn là 15 (1+3+4+7), số lượng học sinh thực tế đạt kết quả khá là 7 nhưng thực tế dự đốn là 15 (7+7+1), số lượng học sinh thực tế đạt kết quả trung bình - khá là 24 nhưng thực tế dự đốn là 38 (5+24+9), số lượng học sinh thực tế đạt kết quả trung bình là 46 nhưng thực tế dự đốn là 53 (1+6+46). Tương tự, tính tốn số lượng thực và dự đốn với 2 thuật tốn cịn lại.
Mơ hình dự đốn:
Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes
Kết quả dự đốn:
Hình 4.12 – Kết quả dự đốn khi dùng thuật tốn Nạve Bayes
Ba cộtMaSv, Hocluc và Expression thể hiện khả năng dự đốn đúng về học lực của sinh viên. Chẳng hạn, với sinh viên cĩ mã Tin98-17 khả năng dự đốn học lực trung bình khá là 98%, so với kết quả thực tế ta thấy đúng với kết quả thực tế. Ta sẽ sử dụng kết quả này để kiểm sốt tình hình học tập của sinh viên.
4.2.2. Phân tích kết quả đạt được
Sau khi thử nghiệm với 3 thuật tốn: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes, chúng tơi đưa ra các nhận xét sau:
Sở dĩ, chúng tơi đưa ra 3 thuật tốn này, vì cả ba thuật tốn đều dùng để phân lớp dữ liệu nên người đọc dễ theo dõi và dễ so sánh các kết quả.
Với cấu trúc mơ hình khai phá mục 4.2.1, khi sử dụng thuật tốn Dicision Tree
thì học lực (Hocluc) của sinh viên được quyết định chủ yếu dựa vào thuộc tính: (diemky3, gioitinh); khi dùng thuật tốn Nạve Bayes học lực (Hocluc) của sinh viên phụ thuộc vào 3 thuộc tính (diemky3, diem ky1, gioitinh); cịn khi dùng thuật tốn Neural Network thì học lực của sinh viên cĩ phần phụ thuộc nhiều vào yếu tố giới tính(gioitinh) của sinh viên.
Từ mơ hình khai phá được thực nghiệm trong mục 4.2.1để so sánh về độ chính xác khi sử dụng 3 thuật tốn: Decision Tree, Neural Network, Nạve Bayes. Căn cứ biểu đồ hình 4.9, chúng ta thấy rằng, khi dùng thuật tốn Nạve Bayes thì khả năng dự đốn là cĩ phần chính xác hơn 2 thuật tốn cịn lại.
4.3. Kết luận chƣơng 4
Chương này trình bày các vấn đề:
Ứng dụng kỹ thuật KPDL để dự báo, dự đốn: Yêu cầu dự báo, dự đốn xu thế, một số thuật tốn KPDL của BI.
Xây dựng mơ hình dự báo trên Data mining Tool: Khảo sát dự đốn kết quả học tập của sinh viên, phân tích kết quả đạt được.
KẾT LUẬN – HƢỚNG PHÁT TRIỂN Các mục tiêu đã thực hiện trong luận văn
Sau 1 thời gian thực hiện nghiên cứu và thực nghiệm, chúng tơi cĩ thể đáp ứng các mục tiêu mà luận văn đặt ra:
Nghiên cứu và hiểu được các vấn đề của kho dữ liệu, KPDL, bộ cơng cụ BI của hệ quản trị cơ sở dữ liệu SQL Server 2008, ngơn ngữ T- SQL.
Xây dựng được kho dữ liệu về điểm của sinh viên.
Thiết kế báo cáo nhiều dạng phục vụ cho cơng tác báo cáo nghiệp vụ.
Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mơ hình dự đốn.
Xây dựng mơ hình khai phá dữ liệu để khám phá các dữ liệu tiềm ẩn.
Sử dụng các mơ hình để tạo các dự đốn đơn giản, mà cĩ thể sử dụng sau đĩ để tạo ra các quyết định nghiệp vụ đào tạo của trường.
So sánh được độ chính xác khi sử dụng 3 thuật tốn khai phá: Microsoft Decision Tree, Microsoft Neural Network, Microsoft Nạve Bayes trên một mơ hình khai phá.
Hƣớng phát triển
Dựa trên kết quả đã thực hiện, luận văn cĩ các hướng phát triển như sau:
Triển khai kho dữ liệu với nguồn dữ liệu lớn.
Tích hợp tự động dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”.
[2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, tr 35.
[3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”, mơn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13.
[4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12.
[5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm 2011-2015.
[6] http://www.citd.edu.vn/Vietnam/Home/index.php/tai-nguyen/hc-phn-01/c-s-d- liu/1095-tng-quan-v-data-warehouse?lang=
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật tốn MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, , khĩa luận tốt nghiệp, nguồn: http://www.mediafire.com/?mmgggjn22yw , tr 47 – 51.
[9] SQL Server tutorials, SQL Server 2008 Books Online
[10] Hồng Đình Thắng (2010), tiểu luận mơn học “Các vấn đề hiện đại về hệ thống thơng tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hĩa, tr 3- 16. [11] Http://www.fotech.org/forum/index.php?s=1631c11479599b3dc50889f83ab
205b3& showtopic=25068&st=20
[12] Http://dddn.com.vn/20110423122943803cat187/sacombank-trien-khai-thanh- cong-data-warehouse-voi-giai-phap-oracle-exadata.htm
Tiếng anh:
[13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008.
[14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU
[15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server. [16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services. [17] Wiley (2008) – Data mining with Microsoft SQL Server 2008.
[18] http://www.dexa.org/node/42
[19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-51.