Khai phá dữ lịêu với Microsoft OLEDB

II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:

9. Khai phá dữ lịêu với Microsoft OLEDB

Tại sao phải khai phá dữ liệu với OLE DB .

Tiêu chuẩn công nghiệp là tới hạn của sự phát triển khai phá dữ liệu , việc sử dụng , thao tác giữa các phần , và trao đổi .

OLEDB cho khai phá dữ liệu là một cuộc đổi mới tự nhiên từ OLEDB và OLDB thành OLAP .

Xây dựng những ứng dụng khai phá trên cơ sở dữ liệu quan hệ là đáng kể . Ta cần những giải thuật khai phá dữ liệu tùy biến khác nhau , công việc quan trọng trên phần của những người xây dựng ứng dụng .

Mục tiêu : xóa bỏ gánh nặng của việc phát triển ứng dụng trong cơ sở dữ liệu quan hệ lớn .

Động cơ của OLE DB đối với việc khai phá dữ liệu:

Làm cho phát triển của mô hình khai phá dữ liệu trở nên dễ dàng hơn . Tạo ra những mô hình khai phá dữ liệu . Chứa đựng , bảo quản và làm tươi mô hình dữ liệu được cập nhật .Chương trình sử dụng mô hình trên tập dữ liệu khác . Duyệt qua mô hình .

Cho phép những người phát triển ứng dụng tích hợp để tham gia trong việc xây dựng những giải pháp khai phá dữ liệu .

Những đặc điểm của OLE đối với khai phá dữ liệu:

Độc lập của nhà cung cấp phần mềm .Không đưa ra một mô hình xát định nào cho việc khai phá. Được cấu trúc để cung cấp dữ liệu cho tất cả những mô hình khai phá nổi tiếng .

Tổng quan:

Lõi cơ chế quan hệ thể hiện ở những API dựa trên ngôn ngữ. Server phân tích thể hiện OLE DB OLAP và OLE DB DM. Bảo trì SQL ẩn chứa. Sử dụng lại những khái niệm đang tồn tại.

Những toán tử chính để hỗ trợ dữ liệu mô hình khai phá:

Định nghĩa một mô hình khai phá. Những thuộc tính được tiên đoán . Những thuộc tính được sử dụng để tiên đoán. Giải thuật được sử dụng để xây dựng mô hình . Chuyển đến một mô hình khai phá dữ liệu từ một dữ liệu huấn luyện .Tiên đoán những thuộc tính cho những dữ liệu mới. Duyệt một mô hình khai phá từ việc báo và trực quan hóa .

Data Mining Module là tương tự với một bảng trong SQL:

Tạo một đối tượng data mining module :

CREATE MINING MODEL[model_name]

Chèn vào dữ liệu huấn luyện dữ liệu vào mô hình và huấn luyện nó . INSERT INTO [model_name]

Sử dụng mô hình khai phá dữ liệu :

SELECT relation_name.[id],[mode_name].[predict_arr]

quan tâm nội dung DMM để tạo tiên đoán và duyệt thống kê chứa bởi mô hình .

Sử dụng DELETE để làm rổng / reset dữ liệu .

Tiên đoán trong cơ sở dữ liệu : tiên đoán kết nối giữa một mô hình và tập dữ liệu (table) .

Khai triển DMM bởi chỉ viết lệnh SQL .

Hai thành phần chính :

Trường hợp và tập trường hợp : dữ liệu đầu vào .

Một bảng hoặc những bảng lồng ( cho dữ liệu phân cấp) . Mô hình khai phá dữ liệu : một kiểu đặc biệt của bảng .

Một tập hợp những trường hợp là liên quan với một mô hình khai phá dữ liệu và một thông tin thô trong khi tạo một DMM .

Những toán tử cơ bản : CREATE, INSERT INTO , PREDICTION JOIN , SELECT , DELETE FROM , và DROP .

Biểu diễn bảng logic được lồng nhau:

Sử dụng dịch vụ tạo hình dữ liệu để tạo một tập những hàng phân cấp. Phần của những sản phẩm Microsoft Data Access Component (MDAC).

Những bảng lồng nhau:

Không cần thiết cho những hệ thống con chứa đựng để hỗ trợ những record lồng nhau. Những trường hợp chỉ được cụ thể hóa như là tập những hàng lồng nhau trước huấn luyện, tiên đoán những mô hình khai phá dữ liệu. Cùng dữ liệu vật lý có thể được sử dụng để tạo những tập trường hợp khác.

Định nghĩa mô hình khai phá dữ liệu:

Việc định nghĩa tên mô hình khai phá dữ liệu bao gồm những giai đoạn sau:  Đặt tên của mô hình.

 Thiết lập giải thuật và những thông số đầu vào.

 Những cột của caseset và những quan hệ giữa những cột.  “những cột nguồn” và “những cột tiên đoán”.

Ví dụ :

CREATE MINING MODEL [Age Prediction] %Name of Model (

[Customer ID] LONG KEY, %source column

[Gender] TEXT DISCRETE, %source column

[Age] Double DISCRETIZED() PREDICT, %prediction column [Product Purchases] TABLE %source column

(

[Product Name] TEXT KEY, %source column

[Quantity] DOUBLE NORMAL CONTINUOUS, %source column [Product Type] TEXT DISCRETE RELATED TO [Product Name]

%source column ))

USING [Decision_Trees_101] %Mining algorithm used

Column Specifiers :

KEY ( khóa )

ATTRIBUTE (thuộc tính)

RELATION (quan hệ) (RELATED TO clause)

QUALIFIER (từ hạn định) (OF clause) PROBABILITY: [0, 1]

VARIANCE SUPPORT

ORDER TABLE Attribute Types : DISCRETE ORDERED CYCLICAL CONTINOUS DISCRETIZED SEQUENCE_TIME

Chuyển đến một mô hình phân tích dữ liệu :

Sử dụng phát biểu INSERT INTO . Tiêu tốn thời gian cho một trường hợp sử dụng mô hình khai phá dữ liệu . Sử dụng phát biểu SHAPE để tạo bảng lồng nhau từ dữ liệu input.Ví dụ:

INSERT INTO [Age Prediction] (

[Customer ID], [Gender], [Age],

[Product Purchases](SKIP, [Product Name], [Quantity], [Product Type]) )

SHAPE

{SELECT [Customer ID], [Gender], [Age] FROM Customers ORDER BY [Customer ID]} APPEND

{SELECT [CustID], {product Name], [Quantity], [Product Type] FROM Sales ORDER BY [CustID]}

RELATE [Customer ID] TO [CustID]

)

AS [Product Purchases]

Sử dụng mô hình dữ liệu để tiên đoán :

Tiên đoán kết nối. Tiên đoán trong tậpdữ liệu D sử dụng mô hình khai phá liệu M . Khác với equi-join. Mô hình khai phá dữ liệu: là một “ truth table”

Tình hình ứng dụng khai phá dữ liệu

Phương pháp phân lớp Bayesian: