Trong giao diện thiết kế báo cáo, người dùng cĩ thể chọn nguồn dữ liệu cho báo cáo và tiến hành thiết kế các báo cáo .
2.4.2. Khai thác dữ liệu bằng dịch vụ Analysic Services:
Một d án của dịch vụ phân tích cĩ thể tạo ra theo các mơ hình như: mơ hình đa chiều và khai phá dữ liệu, mơ hình Tabular hoặc PowerPivot cho SharePoint. Mỗi mơ hình hỗ trợ các kiểu cơ sở dữ liệu khác nhau bằng cách sử dụng các cấu trúc lưu trữ, các kiến trúc bộ nhớ và phương tiện khác nhau.
Trong giao diện của dịch vụ phân tích, cửa sổ Solution Explorer cĩ chứa các thư mục, cho phép người dùng cĩ thể chọn nguồn dữ liệu cho phân tích, đồng thời cho phép tạo lập các chiều dữ liệu, thiết kế các mơ hình khối dữ liệu. Ngồi ra, một chức n ng quan trọng trong dịch vụ phân tích đĩ là khả n ng khai thác thơng tin tiềm ẩn từ dữ liệu thơng qua việc xây d ng cấu trúc của các mơ hình khai phá dữ liệu. Dịch vụ này cung cấp nhiều thuật tốn khai phá dữ liệu điển hình như: Thuật tốn cây quyết định, thuật tốn Nạve Bayes, thuật tốn phân cụm, Neural Network,…
2.4.2.1. Giới thiệu một số thuật tốn áp dụng trong mơ hình khai phá dữ liệu: a. Thuật tốn Microsoft Decision Tree [1]
So với các mơ hình phân lớp dữ liệu khác, cây quyết định cĩ một số ưu điểm như: thuật tốn xây d ng cây quyết định đơn giản, dễ hiểu; Cây quyết định cĩ thể xử lý cả dữ liệu liên tục và rời rạc; Đặc biệt từ mơ hình cây quyết định thu được, ta cĩ thể dễ dàng rút ra các luật dưới dạng câu lệnh “if…then…”
Cấu trúc cây và các tính chất:
Cây quyết định được xây d ng theo cách chia để trị và đệ quy từ trên xuống. Cấu trúc của cây quyết định bao gồm:
Nút gốc của cây (root node): Là nút trên cùng của cây. Một thuộc tính điều kiện sẽ được chọn làm nút gốc. Các nhánh từ nút gốc tương ứng với các giá trị cĩ thể của thuộc tính này. Nút gốc bao hàm tồn bộ các đối tượng trong dữ liệu huấn luyện.
Các nút trong (internal nodes): Mỗi nút trong của cây cĩ thể xem là nút gốc của một cây con (sub-tree). Mỗi nút trong cũng tương ứng với một thuộc tính điều kiện. Mỗi nút trong chỉ bao hàm những đối tượng dữ liệu thuộc một nhánh cụ thể của nút cha.
Các nút lá (leaf nodes): Là nút cuối trong nhánh mà tất cả các đối tượng đều thuộc một lớp, hoặc khơng cịn thuộc tính điều kiện nào để phân chia, hoặc khơng cịn đối tượng dữ liệu nào để phân chia.
Tiêu chí để lựa chọn thuộc tính phân lớp:
Tiêu chí đánh giá để nhằm tìm ra thuộc tính phân lớp tốt nhất là rất quan trọng. Ý tưởng chính cho việc đưa ra các tiêu chí trên là làm sao cho các phần tử trong các tập con được phân chia thuộc về cùng một nhãn Độ đo lượng thơng tin thu thêm Information Gain là đại lượng dùng để làm tiêu chí cho việc l a chọn thuộc tính phân lớp.
− Information Gain (IG)
Ký hiệu:
Thuộc tính đích C = {c1, c2, …, ck}: tập K lớp
Tập dữ liệu huấn luyện D= {(x1, c1), (x2, c2), …, (xn, cn)} trong đĩ xn ∈ X, cn ∈ C Entropy của C trên tập D, ký hiệu là HD(C), được tính như sau:
Ký hiệu pk là xác suất để một đối tượng x thuộc lớp ck. pk cĩ thể ước lượng từ dữ liệu huấn luyện: pk= |Dk| / |D| (với Dk ⊆D là tập các đối tượng x thuộc lớp ck)
( ) ∑ ∑ (2.1)
Chọn một thuộc tính Fi ∈F = {F1, F2, …, Fm} để phân chia D: khi đĩ entropy của C (trên D) điều kiện Fi, ký hiệu là HD(C|Fi), được tính:
Thuộc tính Fi cĩ miền xác định Vi= {vi1, vi2, …, vi Pi} Gọi Dj⊆D là tập các đối tượng x cĩ thuộc tính Fi = vij.
( ) ∑| |
( )
(2.2)
Khi đĩ Information Gain thu được là:
( ) ( ) ( ) (2.3)
Một thuộc tính được chọn làm thuộc tính phân lớp tốt nhất, khi thuộc tính đĩ đem lại giá trị Information Gain là lớn nhất.
b.Thuật tốn Microsoft Nạve Bayes
Thuật tốn này xây d ng mơ hình khai thác nhanh hơn các thuật tốn khác, phục vụ việc phân loại và d đốn. Nĩ tính tốn khả n ng cĩ thể xảy ra trong mỗi trường hợp hợp lệ của thuộc tính đầu vào, gán cho mỗi trường một thuộc tính cĩ thể d đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để d đốn kết quả của thuộc tính d đốn d a vào những thuộc tính đầu vào đã biết.
Bài tốn:
Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X). Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i Do
(2.4)
Giả thiết các thuộc tính là độc lập tức là
(2.5) Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci Sau đĩ mẫu X được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i. Nĩi cách khác, Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là c c đại.
c. Thuật tốn Microsoft Neural Network [8]
Neural nhân tạo là s mơ phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo th c hiện hai chức n ng: chức n ng tổng hợp đầu vào và chức n ng tạo đầu ra. Mỗi neural cĩ một giá trị ngưỡng, chức n ng đầu vào chính là tổng cĩ trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra tín hiều đầu vào. Chức n ng tạo đầu ra được th c hiện bằng hàm truyền đạt. Hàm này sẽ nhận tín hiệu đầu vào và tạo tín hiệu đầu ra của neural.
Mạng neural là một hệ thống gồm nhiều phần tử xử lý hoạt động song song. Chức n ng của nĩ được xác định bởi cấu trúc mạng, độ lớn của các liên kết và quá trình xử lý tại mỗi nút hoặc đơn vị tính tốn.
Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh. Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạng Neural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đầu ra. Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào cho các neural.
Hình 2.10 Mơ hình mạng nơron nhiều lớp
Cĩ ba loại neural trong một mạng Neural được tạo ra với thuật tốn Microsoft Neural Network:
Neural đầu vào: Neural đầu vào cung cấp các giá trị thuộc tính đầu vào cho các mơ hình khai thác dữ liệu Đối với thuộc tính đầu vào rời rạc, một neural đầu vào thường
đại diện cho một trạng thái đơn nhất từ các thuộc tính đầu vào. Một thuộc tính đầu vào liên tục tạo ra hai neural đầu vào: một neural cho một trạng thái bị thiếu, một neural cho giá trị của chính thuộc tính liên tục đĩ Neural đầu vào cung cấp đầu vào cho một hoặc nhiều neural ẩn.
Neural ẩn: neural ẩn nhận đầu vào từ các neural đầu vào và cung cấp đầu ra cho các neural đầu ra.
Neural đầu ra: Neural đầu ra đại diện cho các giá trị của thuộc tính d đốn của mơ hình khai phá dữ liệu Đối với các thuộc tính đầu ra là rời rạc, một neural đầu ra đại diện duy nhất cho một trạng thái d đốn của thuộc tính d đốn, bao gồm cả giá trị thiếu. Nếu các thuộc tính d đốn liên tục tạo ra hai neural đầu ra: một neural cho một trạng thái bị thiếu, một neural cho chính các giá trị của thuộc tính liên tục đĩ
Mỗi đầu vào cĩ một giá trị được gán cho nĩ cĩ trọng số là w, mơ tả s liên quan giữa đầu vào đến các neural ẩn hoặc các neural đầu ra.
Mạng Neural xây d ng lại cấu trúc bộ não cĩ khả n ng nhận biết dữ liệu thơng qua tiến trình học, với các thơng số t do của mạng cĩ thể thay đổi liên tục bởi những thay đổi của mơi trường và mạng neural ghi nhớ giá trị đĩ
Hình 2.11 Tiến trình học
Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dịng chảy trong mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng Neural với giá trị ra mong muốn. Nếu hai giá trị này giống nhau thì khơng thay đổi gì cả. Tuy nhiên, nếu cĩ một sai lệch giữa hai giá trị này vượt quá giá trị sai số mong muốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi một số kết nối.
Đây là một quá trình lặp liên tục và cĩ thể khơng dừng khi khơng tìm ra các giá trị w sao cho đầu ra tạo bởi mạng Neural bằng đúng đầu ra mong muốn Do đĩ trong th c tế người ta phải thiết lập tiêu chuẩn d a trên một giá trị sai số nào đĩ của hai giá trị này, hay d a trên một số lần lặp xác định.
2.4.2.2. Đánh giá hiệu quả của các mơ hình khai phá dữ liệu:
Để đánh giá hiệu quả của mơ hình khai phá dữ liệu, chúng ta cĩ thể c n cứ vào một số tiêu chí như tính chính xác, tính ổn định, tính hữu dụng Trong đĩ, tiêu chí về tính chính xác được đánh giá đầu tiên. SQL Server 2012 hỗ trợ nhiều phương pháp đánh giá hiệu quả của mơ hình khai phá dữ liệu, trong đĩ hai cơng cụ thường được sử dụng là Lift Chart và Confusion Matrix.
Chúng ta cĩ thể đánh giá các mơ hình khai phá dữ liệu bằng cách sử dụng Lift Chart như sau:
Giả sử, chúng ta dùng hai thuật tốn Microsoft Decision Tree và Microsoft Nạve Bayes để xây d ng mơ hình d đốn khả n ng mua xe đạp của khách hàng. Trong Lift Chart thuộc tính d đốn là BikeBuyer (Mua xe đạp, cĩ 2 giá trị là 1:mua và 0: khơng mua), nếu ta chọn giá trị cho BikeBuyer là 1 cho Lift Chart cĩ nghĩa Lift Chart thể hiện khả n ng d đốn của mơ hình cho các khách hàng cĩ khả n ng mua xe đạp. Kết quả thu được như trong hình 2.12.
Hình 2.12 Biểu đồ Lift Chart cho thuộc tính d đốn với giá trị bằng 1
Trong biểu đồ Lift Chart, trục X biểu diễn tỷ lệ phần tr m của tập dữ liệu kiểm thử sử dụng để so sánh với kết quả d đốn, trục Y biểu diễn tỷ lệ phần tr m của giá trị d đốn Trong hình 2.12 đường màu hồng biểu diễn đường lý tưởng cho các mơ hình, đường màu tím biểu diễn đường d đốn cho mơ hình Nạve Bayes, đường màu xanh lá cây thể hiện đường d đốn cho mơ hình Decision Tree và đường chéo (đường màu xanh nước biển) biểu diễn kết quả của việc chọn ngẫu nhiên, đường màu xám thẳng đứng xác định tỷ lệ phần tr m dữ liệu kiểm tra trên tồn bộ tập dữ liệu và kết quả được thể hiện trong bảng Mining Legend.
Các giá trị trong bảng Mining Legend:
Target population: giả sử, với vị trí thanh thẳng đứng màu xám đặt tại vị trí trục X là 40%, đối với mơ hình cây quyết định, nếu ta gửi email cho 40% tổng số khách hàng
trong Database, thì sẽ nhận được phản hồi là 60.24% Đối với mơ hình Nạve Bayes sẽ cĩ 49.49%
Predict Probability: cho biết xác suất d đốn, giá trị này chính là giá trị ngưỡng của mơ hình d đốn
Score là giá trị dùng để đánh giá hiệu quả của mơ hình, khi giá trị Score của mơ hình càng cao thì mơ hình đĩ được đánh giá là càng tốt.
Với việc sử dụng biểu đồ Lift Chart giúp ta cĩ thể so sánh được hiệu quả của các mơ hình và l a chọn mơ hình khai phá phù hợp để giải quyết bài tốn đặt ra.
2.5. Kết luận
Chương 2 trình bày một số khái niệm cơ bản và các kiến thức cĩ liên quan về kho dữ liệu, khai phá dữ liệu và kỹ thuật OLAP Đồng thời, trong nội dung của chương cũng giới thiệu bộ cơng cụ khai phá dữ liệu BI và một số thuật tốn khai phá dữ liệu điển hình.
Chƣơng 3. Phƣơng pháp giải quyết bài tốn
Theo định hướng bài tốn đã được trình bày trong chương 1, để giải quyết bài tốn: Xây dựng và khai thác kho dữ liệu điểm, luận v n đã tìm hiểu các thơng tin về dữ liệu điểm tại trường Cao đẳng Sư phạm Yên Bái đồng thời tiến hành phân tích dữ liệu và l a chọn hệ quản trị cơ sở dữ liệu SQL Server 2012 cùng bộ cơng cụ BI để giải quyết các yêu cầu đặt ra.
3.1.Tìm hiểu và thu thập dữ liệu điểm
Trong phạm vi của luận v n, chúng tơi lấy thơng tin về dữ liệu điểm của sinh viên hệ cao đẳng, chuyên ngành Cơng nghệ thơng tin, thuộc khoa T nhiên, trường Cao đẳng Sư phạm Yên Bái bắt đầu từ n m 2005 đến n m 2010 để làm dữ liệu cho chương trình th c nghiệm.
Hiện tại, Trường Cao đẳng Sư phạm Yên Bái vẫn th c hiện chương trình đào tạo theo hình thức niên chế Do đĩ, quy định về việc tính điểm học phần và điểm trung bình chung học tập được tính theo cơng thức sau:
Điểm học phần (gọi tắt là DHP) bao gồm: Điểm thành phần (gọi tắt là DTP); Điểm thi giữa học phần (gọi tắt là DGP); Điểm thi kết thúc học phần (gọi tắt là DT). Điểm học phần được tính theo cơng thức (3.1):
DHP = (DTP*2) + (DGP*2) + (DT*6)
10 (3.1)
Trong đĩ điểm thi (DT), điểm thành phần (DTP), điểm thi giữa học phần (DGP), điểm học phần (DHP) sau khi tính được làm trịn đến phần nguyên theo quy tắc tốn học.
Điểm trung bình chung học tập được tính theo cơng thức (3.2):
∑
∑ (3.2)
Trong đĩ:
A: Điểm trung bình chung học tập, hoặc điểm trung bình chung các học phần tính từ đầu khĩa học.
ai: Điểm của học phần thứ i
ni: Số đơn vị học trình của học phần thứ i N: Tổng số học phần
Xếp loại học lực của sinh viên được quy định như sau: − Nếu A < 5.0 thì xếp loại học l c yếu.
− Nếu A>=6.0 và A<7.0 thì xếp loại học l c trung bình khá. − Nếu A>=7.0 và A<8.0 thì xếp loại học l c khá.
− Nếu A>=8.0 và A<10 thì xếp loại học l c giỏi.
(Trong đĩ A là điểmtrung bình chung học tập, hoặc điểm trung bình chung các học phần tính từ đầu khĩa học).
Để xây d ng kho dữ liệu nhằm mục đích khai thác các thơng tin hữu ích như đưa ra các báo cáo thống kê, d đốn kết quả và xu hướng trong hoạt động dạy và học của trường, chúng tơi chỉ lấy các dữ liệu là bảng điểm tổng hợp cuối khĩa của sinh viên ở các khĩa học, trong đĩ bao gồm: các thơng tin cá nhân của sinh viên, điểm kết thúc học phần của tất cả các học phần ở mỗi khĩa học, kết quả thi tốt nghiệp, điểm tổng kết tồn khĩa học và kết quả đánh giá xếp loại tồn khĩa Để tìm hiểu thêm các yếu tố ảnh hưởng đến kết quả học tập, chúng tơi cịn thu thập các thơng tin về điểm thi đầu vào của sinh viên.
Hình 3.1 Bảng điểm tổng hợp kết quả học tập của sinh viên lớp CĐ Tin01 khĩa 2005-2008
Dữ liệu điểm của nhà trường trong các n m trước đây chỉ được lưu trữ dưới dạng file Excel và khơng cĩ phần mềm quản lý. Trong khoảng 6 n m trở lại đây, dữ liệu mới được lưu trữ trong phần mềm quản lý điểm, nhưng phần mềm dùng để quản lý dữ liệu điểm của nhà trường mới chỉ dừng lại ở mức cho phép th c hiện các thao tác cơ bản trên dữ liệu và tạo ra các báo cáo đơn giản Cơ sở dữ liệu được lưu trữ dưới dạng lược đồ quan hệ như trong hình 3.2
Hình 3.2 Lược đồ quan hệ trong CSDL điểm
Tuy nhiên, khi yêu cầu lưu trữ dữ liệu ngày càng t ng dẫn đến khối lượng dữ liệu cần lưu trữ ngày càng lớn thì việc lưu trữ dữ liệu dưới dạng lược đồ cơ sở dữ liệu quan hệ truyền thống sẽ bị hạn chế trong việc đáp ứng thời gian truy xuất dữ liệu, đặc biệt là trong