Giới thiệu chung

Dƣới đây là hình ảnh tổng quan về khai phá dữ liệu với hệ quản trị CSDL SQL Server:

Hình 2.9: Hình ảnh tổng quan về khai phá dữ liệu với SQL 2008 [5]

Các cơng cụ cĩ thể ứng dụng khai phá dữ liệu với SQL Server gồm:

- SQL Server Business Intelligence Development Studio: đƣợc tích hợp sẵn trong Microsoft Visual Studio 2008 [7].

- Bộ cơng cụ SQL Server 2008 (Analysis Service): ứng dụng hỗ trỡ lƣu trữ dữ liệu và phân tích dữ liệu.

- Microsoft Excel 2007: Các cơng cụ đƣợc cung cấp nhƣ add-in cho Microsoft Excel 2007.

- Microsoft Office Word:Ứng dụng xử lý từ mà bạn cĩ thể sử dụng nhƣ một định dạng báo cáo. Sử dụng bộ render báo cáo yêu cầu cao, mới cho Microsoft

Word, chúng cĩ thể cho phép bạn render các báo cáo SQL Server 2008 Reporting Services theo định dạng Word.

- Microsoft Office Visio:Lƣu mơ hình khai thác dữ liệu nhƣ các tài liệu Visio đƣợc nhúng trong tài liệu Office khác hoặc cũng cĩ thể đƣợc lƣu nhƣ một trang web.

Các thuật tốn ứng dụng trong quá trình khai phá dữ liệu trong SQL Server:

Microsoft khi phát triển SQL Server 2008 Analysis Services, họ đã hồn thiện các thuật tốn thƣờng sử dụng trong DataMining một cách hồn chỉnh nhất so với SQL Server 2000 Analysis Services [10], bao gồm: MS(Microsoft) Decision Tree, MS Clustering, MS Nạve Bayes, MS Time Series, MS Association Rules, MS Sequence Clustering, MS Neural Network, MS Linear Regression, MS Logistic Regression.

Mơ hình khai phá dữ liệu cĩ thể dự đốn những giá trị, sản phẩm sơ lƣợc của dữ liệu, và tìm ra những tƣơng quan ẩn . Để giúp việc lựa chọn thuật tốn cho giải pháp khai phá dữ liệu ta thƣờng dựa trên bảng sau:

Bảng 2.1: Lựa chọn các thuật tốn khai phá dữ liệu theo mục đích

Nhiệm vụ Thuật tốn Microsoft sử dụng Dự đốn một thuộc tính rời rạc

Ví dụ dự đốn ngƣời nhận thƣ của mục tiêu chiến dich nhận thƣ sẽ mua sản phẩm.

Microsoft Decision Trees Algorithm Microsoft Naive Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm

Dự đốn một thuơc tính liên tục

Ví dụ nhƣ dự báo bán hàng năm sau

Microsoft Decision Trees Algorithm Microsoft Time Series Algorithm

Dự đốn một trình tự

Ví dụ thi hành một phân tích clickstream của một trang web cơng ty

Microsoft Sequence Clustering Algorithm

Tìm nhĩm của những mục chọn trong các giao dịch

Microsoft Association Rules Algorithm Microsoft Decision Trees Algorithm

Ví dụ sử dụng phân tích giỏ thị trườngđể giới thiệu thêm những sản phẩm để khách hàng mua

Tìm những mục giống nhau

Ví dụ để phân đoạn các dữ liệu nhân khẩu học vào một nhĩm để nhận thức dễ dàng mối quan hệ giữa các thuộc tính

Microsoft Clustering Algorithm

Microsoft Sequence Clustering Algorithm

2.6.2.Ngơn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions) DMX lần đầu tiên đƣợc giới thiệu trong DB OLE bởi Microsoft vào năm 1999. Mục đích của DMX là định nghĩa các khái niệm phổ biến và cách diễn đạt truy vấn phổ biến cho thế giới khai phá dữ liệu,tƣơng tự nhƣ cái mà SQL đã làm với cơ sở dữ liệu. Ngơn ngữ này đƣợc diễn đạt và thiết kế dễ hiểu. Bởi vì DMX đã đƣợc thiết kế tƣơng tự nhƣ SQL, cấu trúc và các mơ hình là rất giống việc tạo ra các bảng SQL. Cú pháp là đơn giản hơn nhiều vì cĩ ít lựa chọn hơn, và cĩ một số tính năng bổ sung, nhƣng bất cứ ai quen thuộc với SQL sẽ dễ dàng điều chỉnh cú pháp DMX.

Sử dụng ngơn ngữ truy vấn DMX làm trung gian: tƣơng tự nhƣ các câu Query trong SQL, cĩ thêm một số các khái niệm cơ bản trong việc truy vấn tới dịch vụ phân tích dữ liệu [7, 8, 9, 10]:

• Bao gồm các khái niệm: Structure, model (mơ hình dữ liệu), key, attribute, state, case key.

• Cú pháp truy vấn DMX (DMX Query Synax )

Những tốn tử cơ bản: CREATE, INSERT INTO, PREDICTION JOIN, SELECT, DELETE FROM, và DROP.

Các lệnh truy vấn DMX:

 Tạo cấu trúc khai phá (Creating Mining Structure)

CREATE MINING STRUCTURE [People1] (

[CustID] LONG KEY, [Name] TEXT DISCRETE, [Gender] TEXT DISCRETE, [Age] LONG CONTINUOUS, [CarMake] TEXT DISCRETE, [CarModel] TEXT DISCRETE )

Tạo MINING STRUCTURE tên là People1, với các cột CustID, Name,

Gender, Age, CarMake, và CarModel. Cột CustID là khĩa của cấu trúc và CustID

và Age là kiểu Long, trong khi các cột cịn lại là chuỗi (kiểu Text).  Bảng lồng bảng (Nested table)

CREATE MINING STRUCTURE [People3] (

[CustID] LONG KEY, [Name] TEXT DISCRETE, [Gender] TEXT DISCRETE, [Age] LONG CONTINUOUS,

[AgeDisc] LONG DISCRETIZED(EQUALAREAS,3), [CarMake] TEXT DISCRETE,

[CarModel] TEXT DISCRETE, [Purchases] TABLE

(

[Product] TEXT KEY,

[Quantity] LONG CONTINUOUS, [OnSale] BOOLEAN DISCRETE ) ,

[Movie Ratings] TABLE (

[Movie] TEXT KEY,

[Rating] LONG CONTINUOUS )

 Tạo mẫu khai phá (Creating Mining Models)

ALTER MINING STRUCTURE [People2] ADD MINING MODEL [PredictGender-Tree] (

[CustID],

[Gender] PREDICT, [Age],

[CarModel]

) USING Microsoft Decision Trees

 Bộ lọc (Filters)

Sau khi một cấu trúc đƣợc xử lý, cĩ thể truy vấn cấu trúc này để tìm những thứ cần tìm.

// (a) Select all cases

SELECT * FROM MINING STRUCTURE People3.CASES // (b) Select cases as a flat rowset

SELECT FLATTENED * FROM MINING STRUCTURE People3.CASES // (c) Select only test cases

SELECT * FROM MINING STRUCTURE People3.CASES WHERE IsTestCase()

 Truy xuất các kết quả(Prediction Function)

DMX cung cấp nhiều hàm để truy xuất các luật và các kết quả của quá trình khai phá và phân tích , từ khĩa Predict đƣợc sử dụng là cơ bản trong quá trình truy vấn. Trong nhiều trƣờng hợp khác thì ta cĩ thể cung cấp thêm nhiều tham số và tham trị để truy tìm ra kết quả mà mình mong muốn.

SELECT ’Histogram’ AS Label,

PredictHistogram(CarModel) AS Hist FROM FilterByAge

Ngồi ra cịn các hàm Predict khác nhƣ : PredictProbability, PredictSupport,PredictAdjustedProbability, PredictVariancevàPredictStdevall trả về các kết quả nhƣ là trong quá trình phân tích:

SELECT (PredictProbability(Gender, ’Female’) > 0.20) AS IsFemale FROM [PredictGender-Bayes]

2.6.3. Bộ cơng cụ SQL Server Business Intelligence Development Studio Business Intelligence Development Studio(BIDS) [7]là cơng cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng nhƣ xây

dựng các mơ hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft.BIDS cho phép triển khai các mơ hình khai phá dữ liệu sau:

1) Micorosft Decision Tree (Cây quyết định) 2) Microsoft Clustering (Phân cụm)

3) Micorosoft Naive Bayes(Phân lớp với Bayes Rules) 4) Micorosoft Time Series (Chuỗi thời gian)

5) Micorosoft Association (Luật kết hợp)

6) Micorsoft Sequence Clustering (Phân tích chuỗi) 7) Microsoft Neural Network (Mạng Neural)

8) Micorsoft Linear Regression(Hồi qui tuyến tính) 9) Micorsoft Logistics Regression(Hồi qui logistics)

Qui trình xây dựng mơ hình khai phá dữ liệu với BIDS nhƣ sau :

1) Tạo mới 1 project (Analysis Services Project) 2) Tạo một Data Source

3) Tạo một Data Source View 4) Tạo một Mining Structure. 5) Tạo các Mining Models. 6) Khai thác Mining Models.

7) Kiểm tra độ chính xác của Mining Models. 8) Sử dụng Mining Models để dự đốn.

Chi tiết các bƣớc xây dựng một ứng dụng BIDS đƣợc trình bày trong phụ lục của luận văn.

Khai phá luật kết hợp