.8 – Các thành phần của BI - (LUẬN VĂN THẠC SĨ) Ng- 123docz.net

Cấu trúc của dịch vụ phân tích

Hình 2.7 - Cấu trúc của dịch vụ phân tích

Một thành phần chính là mơ hình chiều thống nhất (Unified Dimensional Model – UDM), tượng trưng cho những nơi lưu trữ dữ liệu quan hệ và đa chiều. Mơ hình chiều thống nhất cung cấp một cầu nối từ một máy khách chẳng hạn như trong Excel hoặc dịch vụ báo cáo của BI đến một tập hợp nguồn dữ liệu khơng thuần nhất đa dạng. Thay vì truy cập các nguồn dữ liệu bằng những ngơn ngữ gốc của chúng, mơ hình chiều thống nhất cho phép các ứng dụng máy khách gọi ra các lệnh trên mơ hình chiều thống nhất.

Tất cả sự giao tiếp giữa máy khách với dịch vụ phân tích của máy chủ thơng qua giao thức XML/A (ADOMD, ADODB.NET, OLE DB). XML/A là một tập con của ngơn ngữ kịch bản của dịch vụ phân tích. Trong đĩ, XML/A gởi các lệnh hành động như Create (tạo lập), Alter (sửa đổi) và Process (xử lý) để tạo khối, thay đổi một khối, xử lý một khối,…

Dịch vụ phân tích của BI – Khai phá dữ liệu

Dịch vụ phân tích của BI chứa các tính năng và cơng cụ cần thiết để tạo lập các giải pháp khai phá dữ liệu phức tạp.

Bộ thiết kế khai phá dữ liệu dùng để tạo, quản lý và khám phá các mơ hình khai phá dữ liệu, sau đĩ tạo các dự báo bằng cách sử dụng các mơ hình này.

Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thơng minh về các vấn đề khĩ khăn của doanh nghiệp. Sử dụng các cơng cụ khai phá dữ liệu trong

dịch vụ phân tích giúp nhận ra các mẫu trong dữ liệu, do đĩ xác định được tại sao lại xảy ra vấn đề đĩ, cho phép tạo ra các luật và kiến nghị, để cĩ thể dự báo điều gì sẽ xảy ra trong tương lai. Khơng cần phải tạo kho dữ liệu để khai phá dữ liệu; cĩ thể dùng dữ liệu bảng từ nhà cung cấp bên ngồi, bảng tính, và thậm chí là file văn bản.

Dịch vụ phân tích cung cấp một loạt các cơng cụ mà bạn cĩ thể sử dụng để xây dựng các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối.

Khi mơ hình khai phá dữ liệu được hồn tất, cĩ thể triển khai (deploy) trên máy chủ khác để người dùng cĩ thể thực hiện các phân tích và dự báo bằng cách sử dụng các mơ hình đĩ. Cĩ thể truy cập các mơ hình khai phá dữ liệu thơng qua ứng dụng khách (như Web services),…

Dịch vụ phân tích cung cấp một tập hợp các thuật tốn khai phá dữ liệu chuẩn. Ví dụ, để dự báo các thuộc tính rời rạc (dự báo rằng sinh viên học giỏi mơn tốn để nhắm tới dự đốn học lực của sinh viên đĩ?), cĩ thể sử dụng một số thuật tốn sau:

 Thuật tốn Decision Tree

 Thuật tốn Naive Bayes

 Thuật tốn Neural Network

 …

a. Giới thiệu một số thuật tốn:

Hãng Microsoft khi phát triển dịch vụ phân tích trong hệ quản trị SQL Server 2008, họ đã hồn thiện các thuật tốn thường sử dụng trong khai phá dữ liệu một cách hồn chỉnh nhất so với dịch vụ phân tích trong SQL Server 2000, 2005; bao gồm: Microsoft Decision Tree, Microsoft Clustering, Microsoft Nạve Bayes, Microsoft Time Series, Microsoft Association, Microsoft Sequence Clustering, Microsoft Neural Network, Microsoft Linear Regression, Microsoft Logistic Regression.

Trong phạm vi luận văn, chúng tơi xin trình bày chi tiết hơn 2 thuật tốn sau:

a.1 Thuật tốn Decision Tree:

Thuật tốn Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo rất tốt các mơ hình dự đốn. Sử dụng thuật tốn này cĩ thể dự đốn cả các thuộc tính rời rạc và liên tục.

Trong việc xây dựng mơ hình, thuật tốn này sẽ khảo sát sự ảnh hưởng của mỗi thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đốn. Và tiếp đến nĩ sử dụng các thuộc tính đầu vào để tạo thành một nhĩm phân hố gọi là các nút. Khi một nút mới được thêm vào mơ hình, một cấu trúc cây sẽ được thiết lập. Nút đỉnh của cây sẽ miêu tả sự phân tích của các thuộc tính dự đốn thơng qua các mẫu. Mỗi nút thêm vào sẽ được tạo ra dựa trên sự sắp xếp các trường của thuộc tính dự đốn, để so sánh với dữ liệu đầu vào. Nếu một thuộc tính đầu vào đựơc coi là nguyên nhân của thuộc tính dự đốn, một nút mới sẽ thêm vào mơ hình. Mơ hình tiếp tục phát triển cho đến lúc khơng cịn thuộc tính nào, tạo thành một sự phân tách để cung cấp một dự báo hồn chỉnh thơng qua các nút đã tồn tại. Mơ hình địi hỏi tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nĩ, nhằm thiết lập một sự phân phối khơng cân xứng giữa các trường trong thuộc tính dự đốn. Vì thế cho phép dự đốn kết quả của thuộc tính dự đốn một cách tốt nhất. [10], [17]

a.1.1.Tạo Cây

Cây quyết định được tạo thành bằng cách lần lượt chia một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp. Các nút khơng phải là nút lá là các điểm phân nhánh của cây. Việc phân nhánh tại các nút cĩ thể dựa trên việc kiểm tra một hay nhiều thuộc tính để xác định việc phân chia dữ liệu. Chúng ta chỉ xét việc phân nhánh nhị phân vì cho cây chính xác hơn.

a.1.2. Entropy và Information Gain

Đây là các cơng thức để tính tốn cho việc chọn thuộc tính để phân nhánh cây quyết định. Việc chọn thuộc tính nào tại một nút để phân nhánh cĩ thể dựa trên các chỉ số như Index hay Entropy.

Giả sử thuộc tính dự đốn cĩ m giá trị phân biệt (tức là cĩ m lớp Ci, i=1, …, m), S cĩ s mẩu tin, si là số các mẩu tin trong S thuộc lớp Ci. Index được tính như sau:

1.1 Entropy được tính như sau:

1.2 Giả sử thuộc tính A cĩ n giá trị phân biệt {a1, a2,…, an}. Gọi Sj là tập con của S cĩ giá trị của thuộc tính A là aj, sij là số các mẩu tin thuộc lớp Ci trong tập Sj. Nếu phân nhánh theo thuộc tính A thì.

1.3

Lúc đĩ ta cĩ được chỉ số Gain, và ứng với thuộc tính A là: Gain(A)=I(s1,s2,…,sm) - G(A)

Dựa vào chỉ số Gain ta chọn thuộc tính để phân nhánh cho cây quyết định. G(A) càng nhỏ thì các tập con càng đồng nhất hơn. Bởi vậy chúng ta chọn thuộc tính cho Gain(A) lớn nhất để phân nhánh.

Sau khi đã chọn được thuộc tính tốt nhất, chúng ta tạo thêm một nút phân nhánh cho cây, gán nhãn cho nút là thuộc tính được chọn và tiến hành phân chia tập S. [9]

a.1.3. Ví dụ:

TT Quê quán Điểm vào Kinh tế Giới tính

Học lực 1 Hà nội Trung bình Khơng tốt Nữ TB 2 Hà nội Cao Bình thường Na

Khá 3 Hưng Yên Thấp Bình thường Na

Khá 4 Hà nội Thấp Bình thường Nữ TB 5 Hải phịng Trung bình Tốt Nữ TB 6 Hưng Yên Cao Tốt Nữ Khá 7 Hưng Yên Trung bình Tốt Nữ Khá 8 Hà nội Thấp Khơng tốt Na

Khá Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật tốn Cây quyết định

Bƣớc 1:

Các thuộc tính và miền giá trị tương ứng baogồm:

 Thuộc tính Quê quán cĩ miền giá trị {Hà nội, Hưng Yên, Hải phịng}

 Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}

 Thuộc tính Kinh tế cĩ miền giá trị {Tốt, Bình thường, Khơng tốt}

 Thuộc tính Giới tính cĩ miền giá trị {Nam, Nữ}

 Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB) Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay N hay khơng là:

I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n)) I(5,3) = -(5/8)* log2(5/8)-(3/8)* log2(3/8) = 0,954

Tính Entropy cho thuộc tính Quê quán

Quê quán pi ni I(pi,ni) Hà nội 2 2 1 Hưng yên 3 0 0 Hải phịng 0 1 0

Hình 2.10 – Entrophy cho thuộc tính “Quê quán” Ta cĩ:

E(Quê quán) = (4/8)*I(2,2) + (3/8)*I(3,0) + (1/8)*I(0,1) = 0,5 Do đĩ:

Gain(Quê quán) = I(5,3) – E(Quê quán) = 0,954 – 0,5 = 0,454 Tương tự:

Hình 2.14 - Chọn nút phân nhánh của cây Tính Entropy cho thuộc tính Điểm vào Tính Entropy cho thuộc tính Điểm vào

Điểm vào pi ni I(pi,ni) Cao 2 0 0 Trung bình 1 2 0,918 Thấp 2 1 0,918

Hình 2.11 – Entrophy cho thuộc tính “Điểm vào” E(Điểm vào) = (2/8)*I(2,0) + (3/8)*I(1,2) + (3/8)*I(2,1) = 0,689

Gain(Điểm vào) = 0,954 – 0,689 = 0,265 Tính Entropy cho thuộc tính Kinh tế

Kinh tế pi ni I(pi,ni) Tốt 2 1 0,918 Bình thường 2 1 0,918 Khơng tốt 1 1 1

Hình 2.12 – Entrophy cho thuộc tính “Kinh tế” E(Kinh tế) = (3/8)*I(2,1) + (3/8)*I(2,1) + (2/8)*I(1,1) = 0,939 Gain(Kinh tế) = 0,954 – 0,939 = 0,015

Tính Entropy cho thuộc tính giới tính

Giới tính pi ni I(pi,ni) Nam 3 0 0 Nữ 2 3 0,970

Hình 2.13 – Entrophy cho thuộc tính “Giới tính” E(giới tính) = (3/8)*I(3,0) + (5/8)*I(2,3) = 0,607

Gain(giới tính) = 0,954 – 0,607 = 0,347

Chọn thuộc tính cĩ độ lợi thơng tin lớn nhất là thuộc tính “Quê quán”, ta cĩ cây cĩ dạng:

Bƣớc 2:

Trong cây này ta thấy ứng với quê ở Hà nội cịn 2 phần tử cĩ trị P và 2 phần tử cĩ trị N. Tiếp tục áp dụng thuật tốn cho nút con này cho đến khi đạt đến nút lá hoặc nút cĩ entropy=0. Ta cĩ tập dữ liệu (con) ứng với quê Hà nội như sau:

Quê quán

Điểm vào Kinh tế Giới tính Học lực Trung bình Khơng tốt Nữ TB Cao Bình thường Nam Khá Thấp Bình thường Nữ TB Thấp Khơng tốt Nam Khá

Hình 2.15 – Bảng dữ liệu đầu vào con Các thuộc tính và miền giá trị tương ứng baogồm: Các thuộc tính và miền giá trị tương ứng baogồm:

 Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}

 Thuộc tính Kinh tế cĩ miền giá trị {Bình thường, Khơng tốt}

 Thuộc tính giới tính cĩ miền giá trị {Nam, Nữ}

I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n)) I(2,2) = 1

Tính Entropy cho thuộc tính Điểm vào

Điểm vào pi ni I(pi,ni) Cao 1 0 0 Trung bình 0 1 0 Thấp 1 1 1

Hình 2.16 – Entrophy cho thuộc tính “Điểm vào” E(Điểm vào) = (1/4)*I(1,0) + (1/4)*I(0,1) + (2/4)*I(1,1) = 0,5 Gain(Điểm vào) = 1 – 0,5 = 0,5

Tính Entropy cho thuộc tính Kinh tế

Kinh tế pi ni I(pi,ni) Bình thường 1 1 1 Khơng tốt 1 1 1

Hình 2.17 – Entrophy cho thuộc tính “Kinh tế” E(Kinh tế) = (2/4)*I(1,1) + (2/4)*I(1,1) = 1

Gain(Kinh tế) = 0,954 – 1 = -0,046 Tính Entropy cho thuộc tính Giới tính

Giới tính pi ni I(pi,ni) Nam 2 0 0 Nữ 0 2 0

Hình 2.19 - Cây quyết định kết quả E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0 E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0

Gain(Giới tính) = 0,954 – 0 = 0,954

Như vậy thuộc tính “Giới tính” cĩ độ lợi thơng tin lớn nhất được dùng để phân lớp, ta cĩ cây quyết định tạo ra như hình 2.19.

Như vậy các luật được tạo ra như sau:

IF (Quê quán = ‘Hưng Yên’) OR (Quê quán = ‘Hà nội’ AND giới tính = ‘Nam’) THEN ‘Khá’

ELSE ‘TB’

a.2. Thuật tốn Nạve Bayes:

Thuật tốn này xây dựng mơ hình khai thác nhanh hơn các thuật tốn khác, phuc vụ việc phân loại và dự đốn. Nĩ tính tốn khả năng cĩ thể xảy ra trong mỗi trường hợp lệ của thuộc tính đầu vào, gán cho mỗi trường mộ t thuộc tính cĩ thể dự đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả của thuộc tính dự đốn dựa vào những thuộc tính đầu vào đã biết. Các khả năng sử dụng để sinh ra các mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của khối lập phương. Thuật tốn này chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và nĩ xem xét tất cả các thuộc tính đầu vào độc lập. Thuật tốn này cho ta một mơ hình khai thác đơn giản (cĩ thể được coi là điểm xuất phát của khai phá dữ liệu), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được sinh ra trong xử lí của khối, kết quả được trả về nhanh chĩng. Điều này tạo cho mơ hình một lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính đầu vào được phân bố trong các trường khác nhau của thuộc tính dự đốn như thế nào?

Bài tốn:

Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X).

 Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An.

 Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i.

Quê quán

Hà nội Hưng yên Hải phịng

 Do

1.4

nên P(Ci|X) > P(Cj|X)  P(X|Ci).P(Ci) > P(X|Cj).P(Cj)

 Giả thiết các thuộc tính là độc lập tức là

1.5

 Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đĩ mẫu X được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i . Nĩi cách khác, Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại.

Ví dụ:

Dựa vào bảng dữ liệu cho trong hình 2.9, ta cĩ thể tính các xác suất sau: - Xác suất lớp dương (Khá): P(p) = 5/8

- Xác suất lớp âm (TB): P(n) = 3/8

Quê quán

Hình 2.20 – Tính xác suất cho các thuộc tính Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác) Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác)

 P(Hưng Yên | n) = 0 => P(X|n)*P(n) = 0

 P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá)

 P(xi | p) > 0 => P(X | p) > 0 Suy ra mẫu X thuộc lớp P (Khá)

Hai phân lớp trên phù hợp với luật được suy ra từ giải thuật ID3. Tuy nhiên, xét mẫu X = <Hải phịng, Cao, Bình thường, nam>, ta cĩ:

 P(Hải phịng | p) = 0 => P(X|p)*P(p) = 0

 P(Cao | n) = 0 => P(X|n)*P(n) = 0

=> Khơng thể xác định X thuộc lớp nào!

Các bƣớc của khai phá dữ liệu:

Khai phá dữ liệu là quá trình khám phá các thơng tin hữu dụng từ bộ dữ liệu lớn. Khai phá dữ liệu sử dụng phân tích tốn học để lấy mẫu và các xu hướng tồn tại trong dữ liệu. Xây dựng một mơ hình khai phá dữ liệu là một phần của một quá trình lớn hơn bao gồm đủ mọi thứ từ đặt câu hỏi về dữ liệu và tạo ra một mơ hình để trả lời những câu hỏi, đến triển khai các mơ hình thành một mơi trường làm việc. Quá trình này cĩ thể được xác định bằng cách sử dụng sau 6 bước cơ bản:

 Xác định vấn đề

 Chuẩn bị dữ liệu

 Khám phá dữ liệu

 Xây dựng mơ hình

 Khám phá và kiểm tra mơ hình

 Triển khai và cập nhật mơ hình

Mặc dù quá trình minh họa trong biểu đồ là vịng trịn, mỗi bước khơng nhất thiết dẫn trực tiếp đến bước tiếp theo. Mỗi bước trong tiến trình cĩ thể cần phải được lặp lại nhiều lần để tạo ra một mơ hình tốt.

Xác định vấn đề:

Bước đầu tiên trong quá trình khai phá dữ liệu, như nêu bật trong sơ đồ sau đây, là để xác định rõ các vấn đề kinh doanh, dịch vụ, và cân nhắc các cách để cung cấp một câu trả lời cho vấn đề.

Chuẩn bị dữ liệu:

Bước thứ hai trong quá trình khai phá dữ liệu, là để củng cố và làm sạch dữ liệu đã được xác định ở bước xác định các vấn đề.

Cĩ thể tiến hành khai phá dữ liệu sử dụng bất kỳ nguồn dữ liệu đã được định nghĩa như là một nguồn dữ liệu dịch vụ phân tích. Cĩ thể bao gồm các tập tin văn bản, bảng tính Excel, hoặc dữ liệu từ các nhà cung cấp khác bên ngồi.

Thăm dị dữ liệu:

Bước thứ ba trong quá trình khai phá dữ liệu, là để khám phá những dữ liệu đã chuẩn bị sẵn sàng.

Phải hiểu được dữ liệu để đưa ra quyết định thích hợp khi tạo các mơ hình khai phá dữ liệu. Kỹ thuật khám phá bao gồm các tính tốn giá trị tối thiểu và tối đa, tính trung

.8 – Các thành phần của BI

.1 9 Cây quyết định kết quả

.20 – Tính xác suất cho các thuộc tính