2 14 Lược đồ kho dữ liệu
2.4. Giới thiệu cơng cụ Business Intelligence của hệ quản trị cơ sở dữ liệu SQL Server
2.4.2. Khai thác dữ liệu bằng dịch vụ Analysic Services:
Một d án của dịch vụ phân tích cĩ thể tạo ra theo các mơ hình như: mơ hình đa chiều và khai phá dữ liệu, mơ hình Tabular hoặc PowerPivot cho SharePoint. Mỗi mơ hình hỗ trợ các kiểu cơ sở dữ liệu khác nhau bằng cách sử dụng các cấu trúc lưu trữ, các kiến trúc bộ nhớ và phương tiện khác nhau.
Trong giao diện của dịch vụ phân tích, cửa sổ Solution Explorer cĩ chứa các thư mục, cho phép người dùng cĩ thể chọn nguồn dữ liệu cho phân tích, đồng thời cho phép tạo lập các chiều dữ liệu, thiết kế các mơ hình khối dữ liệu. Ngồi ra, một chức n ng quan trọng trong dịch vụ phân tích đĩ là khả n ng khai thác thơng tin tiềm ẩn từ dữ liệu thơng qua việc xây d ng cấu trúc của các mơ hình khai phá dữ liệu. Dịch vụ này cung cấp nhiều thuật tốn khai phá dữ liệu điển hình như: Thuật tốn cây quyết định, thuật tốn Nạve Bayes, thuật tốn phân cụm, Neural Network,…
2.4.2.1. Giới thiệu một số thuật tốn áp dụng trong mơ hình khai phá dữ liệu: a. Thuật tốn Microsoft Decision Tree [1]
So với các mơ hình phân lớp dữ liệu khác, cây quyết định cĩ một số ưu điểm như: thuật tốn xây d ng cây quyết định đơn giản, dễ hiểu; Cây quyết định cĩ thể xử lý cả dữ liệu liên tục và rời rạc; Đặc biệt từ mơ hình cây quyết định thu được, ta cĩ thể dễ dàng rút ra các luật dưới dạng câu lệnh “if…then…”
Cấu trúc cây và các tính chất:
Cây quyết định được xây d ng theo cách chia để trị và đệ quy từ trên xuống. Cấu trúc của cây quyết định bao gồm:
Nút gốc của cây (root node): Là nút trên cùng của cây. Một thuộc tính điều kiện sẽ được chọn làm nút gốc. Các nhánh từ nút gốc tương ứng với các giá trị cĩ thể của thuộc tính này. Nút gốc bao hàm tồn bộ các đối tượng trong dữ liệu huấn luyện.
Các nút trong (internal nodes): Mỗi nút trong của cây cĩ thể xem là nút gốc của một cây con (sub-tree). Mỗi nút trong cũng tương ứng với một thuộc tính điều kiện. Mỗi nút trong chỉ bao hàm những đối tượng dữ liệu thuộc một nhánh cụ thể của nút cha.
Các nút lá (leaf nodes): Là nút cuối trong nhánh mà tất cả các đối tượng đều thuộc một lớp, hoặc khơng cịn thuộc tính điều kiện nào để phân chia, hoặc khơng cịn đối tượng dữ liệu nào để phân chia.
Tiêu chí để lựa chọn thuộc tính phân lớp:
Tiêu chí đánh giá để nhằm tìm ra thuộc tính phân lớp tốt nhất là rất quan trọng. Ý tưởng chính cho việc đưa ra các tiêu chí trên là làm sao cho các phần tử trong các tập con được phân chia thuộc về cùng một nhãn Độ đo lượng thơng tin thu thêm Information Gain là đại lượng dùng để làm tiêu chí cho việc l a chọn thuộc tính phân lớp.
− Information Gain (IG)
Ký hiệu:
Thuộc tính đích C = {c1, c2, …, ck}: tập K lớp
Tập dữ liệu huấn luyện D= {(x1, c1), (x2, c2), …, (xn, cn)} trong đĩ xn ∈ X, cn ∈ C Entropy của C trên tập D, ký hiệu là HD(C), được tính như sau:
Ký hiệu pk là xác suất để một đối tượng x thuộc lớp ck. pk cĩ thể ước lượng từ dữ liệu huấn luyện: pk= |Dk| / |D| (với Dk ⊆D là tập các đối tượng x thuộc lớp ck)
( ) ∑ ∑ (2.1)
Chọn một thuộc tính Fi ∈F = {F1, F2, …, Fm} để phân chia D: khi đĩ entropy của C (trên D) điều kiện Fi, ký hiệu là HD(C|Fi), được tính:
Thuộc tính Fi cĩ miền xác định Vi= {vi1, vi2, …, vi Pi} Gọi Dj⊆D là tập các đối tượng x cĩ thuộc tính Fi = vij.
( ) ∑| |
( )
(2.2)
Khi đĩ Information Gain thu được là:
( ) ( ) ( ) (2.3)
Một thuộc tính được chọn làm thuộc tính phân lớp tốt nhất, khi thuộc tính đĩ đem lại giá trị Information Gain là lớn nhất.
b.Thuật tốn Microsoft Nạve Bayes
Thuật tốn này xây d ng mơ hình khai thác nhanh hơn các thuật tốn khác, phục vụ việc phân loại và d đốn. Nĩ tính tốn khả n ng cĩ thể xảy ra trong mỗi trường hợp hợp lệ của thuộc tính đầu vào, gán cho mỗi trường một thuộc tính cĩ thể d đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để d đốn kết quả của thuộc tính d đốn d a vào những thuộc tính đầu vào đã biết.
Bài tốn:
Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X). Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i Do
(2.4)
Giả thiết các thuộc tính là độc lập tức là
(2.5) Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci Sau đĩ mẫu X được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i. Nĩi cách khác, Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là c c đại.
c. Thuật tốn Microsoft Neural Network [8]
Neural nhân tạo là s mơ phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo th c hiện hai chức n ng: chức n ng tổng hợp đầu vào và chức n ng tạo đầu ra. Mỗi neural cĩ một giá trị ngưỡng, chức n ng đầu vào chính là tổng cĩ trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra tín hiều đầu vào. Chức n ng tạo đầu ra được th c hiện bằng hàm truyền đạt. Hàm này sẽ nhận tín hiệu đầu vào và tạo tín hiệu đầu ra của neural.
Mạng neural là một hệ thống gồm nhiều phần tử xử lý hoạt động song song. Chức n ng của nĩ được xác định bởi cấu trúc mạng, độ lớn của các liên kết và quá trình xử lý tại mỗi nút hoặc đơn vị tính tốn.
Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh. Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạng Neural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đầu ra. Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào cho các neural.
Hình 2.10 Mơ hình mạng nơron nhiều lớp
Cĩ ba loại neural trong một mạng Neural được tạo ra với thuật tốn Microsoft Neural Network:
Neural đầu vào: Neural đầu vào cung cấp các giá trị thuộc tính đầu vào cho các mơ hình khai thác dữ liệu Đối với thuộc tính đầu vào rời rạc, một neural đầu vào thường
đại diện cho một trạng thái đơn nhất từ các thuộc tính đầu vào. Một thuộc tính đầu vào liên tục tạo ra hai neural đầu vào: một neural cho một trạng thái bị thiếu, một neural cho giá trị của chính thuộc tính liên tục đĩ Neural đầu vào cung cấp đầu vào cho một hoặc nhiều neural ẩn.
Neural ẩn: neural ẩn nhận đầu vào từ các neural đầu vào và cung cấp đầu ra cho các neural đầu ra.
Neural đầu ra: Neural đầu ra đại diện cho các giá trị của thuộc tính d đốn của mơ hình khai phá dữ liệu Đối với các thuộc tính đầu ra là rời rạc, một neural đầu ra đại diện duy nhất cho một trạng thái d đốn của thuộc tính d đốn, bao gồm cả giá trị thiếu. Nếu các thuộc tính d đốn liên tục tạo ra hai neural đầu ra: một neural cho một trạng thái bị thiếu, một neural cho chính các giá trị của thuộc tính liên tục đĩ
Mỗi đầu vào cĩ một giá trị được gán cho nĩ cĩ trọng số là w, mơ tả s liên quan giữa đầu vào đến các neural ẩn hoặc các neural đầu ra.
Mạng Neural xây d ng lại cấu trúc bộ não cĩ khả n ng nhận biết dữ liệu thơng qua tiến trình học, với các thơng số t do của mạng cĩ thể thay đổi liên tục bởi những thay đổi của mơi trường và mạng neural ghi nhớ giá trị đĩ
Hình 2.11 Tiến trình học
Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dịng chảy trong mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng Neural với giá trị ra mong muốn. Nếu hai giá trị này giống nhau thì khơng thay đổi gì cả. Tuy nhiên, nếu cĩ một sai lệch giữa hai giá trị này vượt quá giá trị sai số mong muốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi một số kết nối.
Đây là một quá trình lặp liên tục và cĩ thể khơng dừng khi khơng tìm ra các giá trị w sao cho đầu ra tạo bởi mạng Neural bằng đúng đầu ra mong muốn Do đĩ trong th c tế người ta phải thiết lập tiêu chuẩn d a trên một giá trị sai số nào đĩ của hai giá trị này, hay d a trên một số lần lặp xác định.
2.4.2.2. Đánh giá hiệu quả của các mơ hình khai phá dữ liệu:
Để đánh giá hiệu quả của mơ hình khai phá dữ liệu, chúng ta cĩ thể c n cứ vào một số tiêu chí như tính chính xác, tính ổn định, tính hữu dụng Trong đĩ, tiêu chí về tính chính xác được đánh giá đầu tiên. SQL Server 2012 hỗ trợ nhiều phương pháp đánh giá hiệu quả của mơ hình khai phá dữ liệu, trong đĩ hai cơng cụ thường được sử dụng là Lift Chart và Confusion Matrix.
Chúng ta cĩ thể đánh giá các mơ hình khai phá dữ liệu bằng cách sử dụng Lift Chart như sau:
Giả sử, chúng ta dùng hai thuật tốn Microsoft Decision Tree và Microsoft Nạve Bayes để xây d ng mơ hình d đốn khả n ng mua xe đạp của khách hàng. Trong Lift Chart thuộc tính d đốn là BikeBuyer (Mua xe đạp, cĩ 2 giá trị là 1:mua và 0: khơng mua), nếu ta chọn giá trị cho BikeBuyer là 1 cho Lift Chart cĩ nghĩa Lift Chart thể hiện khả n ng d đốn của mơ hình cho các khách hàng cĩ khả n ng mua xe đạp. Kết quả thu được như trong hình 2.12.
Hình 2.12 Biểu đồ Lift Chart cho thuộc tính d đốn với giá trị bằng 1
Trong biểu đồ Lift Chart, trục X biểu diễn tỷ lệ phần tr m của tập dữ liệu kiểm thử sử dụng để so sánh với kết quả d đốn, trục Y biểu diễn tỷ lệ phần tr m của giá trị d đốn Trong hình 2.12 đường màu hồng biểu diễn đường lý tưởng cho các mơ hình, đường màu tím biểu diễn đường d đốn cho mơ hình Nạve Bayes, đường màu xanh lá cây thể hiện đường d đốn cho mơ hình Decision Tree và đường chéo (đường màu xanh nước biển) biểu diễn kết quả của việc chọn ngẫu nhiên, đường màu xám thẳng đứng xác định tỷ lệ phần tr m dữ liệu kiểm tra trên tồn bộ tập dữ liệu và kết quả được thể hiện trong bảng Mining Legend.
Các giá trị trong bảng Mining Legend:
Target population: giả sử, với vị trí thanh thẳng đứng màu xám đặt tại vị trí trục X là 40%, đối với mơ hình cây quyết định, nếu ta gửi email cho 40% tổng số khách hàng
trong Database, thì sẽ nhận được phản hồi là 60.24% Đối với mơ hình Nạve Bayes sẽ cĩ 49.49%
Predict Probability: cho biết xác suất d đốn, giá trị này chính là giá trị ngưỡng của mơ hình d đốn
Score là giá trị dùng để đánh giá hiệu quả của mơ hình, khi giá trị Score của mơ hình càng cao thì mơ hình đĩ được đánh giá là càng tốt.
Với việc sử dụng biểu đồ Lift Chart giúp ta cĩ thể so sánh được hiệu quả của các mơ hình và l a chọn mơ hình khai phá phù hợp để giải quyết bài tốn đặt ra.
2.5. Kết luận
Chương 2 trình bày một số khái niệm cơ bản và các kiến thức cĩ liên quan về kho dữ liệu, khai phá dữ liệu và kỹ thuật OLAP Đồng thời, trong nội dung của chương cũng giới thiệu bộ cơng cụ khai phá dữ liệu BI và một số thuật tốn khai phá dữ liệu điển hình.
Chƣơng 3. Phƣơng pháp giải quyết bài tốn
Theo định hướng bài tốn đã được trình bày trong chương 1, để giải quyết bài tốn: Xây dựng và khai thác kho dữ liệu điểm, luận v n đã tìm hiểu các thơng tin về dữ liệu điểm tại trường Cao đẳng Sư phạm Yên Bái đồng thời tiến hành phân tích dữ liệu và l a chọn hệ quản trị cơ sở dữ liệu SQL Server 2012 cùng bộ cơng cụ BI để giải quyết các yêu cầu đặt ra.