. Phát biểu SELECT liên quan với PREDICTION JOIN những giá trị xát
10. Tạo cây quyết định trong Microsoft SQL Server
Trong phần này sẽ trình bày cách thức Microsoft Analysis services được sử dụng để hiện thực mô hình cây quyết định trong phần mềm Microsoft SQL Server 2000 .Chúng ta đề cập đến tạo mô hình cây quyết định với hai mô hình - một sử dụng những bảng quan hệ chuẩn như là nguồn và một cái khác sử dụng OLAP cubes .
Tạo mô hình
Bước đầu tiên trong hoạt động khai phá dữ liệu là tạo mô hình . Mô hình khai phá dữ liệu được tạo ra từ những mẫu tin chứa trong một nguồn dữ liệu (data source) . Một vài nguồn dữ liệu có thể được kết nối thông qua OLE DB có thể được sử dụng để tạo mô hình . Những nguồn này bao gồm cơ sở dữ liệu quan hệ , OLAP cubes, FoxPro tables, text file , hoặc thậm chí Microsoft Excel spreadsheets . Chúng ta cũng sẽ tập trung vào cách thức để sử dụng những nguồn dữ liệu này để lưu trữ test case được sử dụng để tạo tiên đoán và cách thức để chứa kết quả của những tiên đoán .
Analysis Manager
Điểm xuất phát để tạo mô hình khai phá dữ liệu với Analysis Manager bao gồm trong Analysis Services Installation package trong SQL Server 2000 CD-ROM.
li u
Trước khi bắt đầu , ta phải đăng ký với analysis server mà ta muốn tạo kết nối bằng cách kích chuột phải trên Analysis Server folder và chọn Register Server .
Chú ý rằng có nhiều Analysis Manager folder chứa những phần tử cần để tạo OLAP cubes và những mô hình khai phá dữ liệu . Server phân tích bao gồm những thành phần sau:
Databases : Mỗi Analysis Server chứa một hoặc nhiều cơ sở dữ liệu
, một icon đại diện mỗi cơ sở dữ liệu .Có 4 folder và một icon dưới mỗi database icon .
Data Sources : Data Source folder chứa data source xát định trong
database . Một data source duy trì thông tin OLE DB provider information , network setting , connection time-out , và thông tin cho phép truy cập . Một database có thể chứa nhiều data source trong folder Data Source của nó .
Cubes : Cube folder chứa cubes trong database . Một icon đại diện
mỗi cube . Ba kiểu của cubes được mô tả trong Analysis Manager Tree pane : Regular , Linked , và Virtual .
li u
Partitions : Một Partintion folder của cube chứa một icon cho mỗi
partition trong cube . Có hai kiểu partition được mô tả trong Analysis Manager Tree pane : Local và Remote .
Cube Roles : Dưới một cube , một Cube Roles icon đơn biểu diễn
tất cả những vai trò của cube .
Shared Dimensions : shared dimension folder chứa một icon đối
với mỗi mô hình khai phá dữ liệu trong cơ sở dữ liệu . Những dimension này có thể bao gồm trong một vài cube trong cơ sở dữ liệu . Bốn dạng của shared dimention folder được mô tả trong Analysis Manager Tree pane : là Regular, Vitual, Parent-Child và Data-Mining .
Mining Modes : những mô hình khai phá dữ liệu chứa một icon cho
mỗi mô hình khai phá dữ liệu trong database . Ta sẽ để ý rằng có hai icon thể hiện hai kiểu của mô hình khai phá dữ liệu .
Data Roles : Database roles icon biểu diễn tất cả cơ sở dữ liệu .
Role có thể gán cho một vài cube hoặc một vài mô hình khai phá dữ liệu trong cơ sở dữ liệu .
Để có thể tiến hành khai phá dữ liệu đầu tiên ta phải tạo cơ sở dữ liệu .
Tạo cơ sở dữ liệu : Tạo database là vấn đề đơn giản . Ta chỉ cần kích chuột
phải lên server và chọn New Database . Database dialog box hiện ra và ta phải gõ tên của cơ sở dữ liệu , có có phần tùy định để ta gõ mô tả của database .
li u
Mining Mode Wizard : sản phẩm của Microsoft đi đôi với những tác vụ
trong một giới hạn và có thể tiên đoán một số bước . Mining mode wizard sẽ dẫn dắt chúng ta từng bước để tạo một mô hình .
1. Chọn nguồn (Select source).
2. Chọn case table hoặc những bảng cho mô hình khai phá dữ liệu . 3. Chọn kĩ thuật khai phá dữ liệu (giải thuật) .
4. Hiệu chỉnh những kết nối của những bảng được chọn như là nguồn trong những bước trước .
5. Chọn cột Case Key .
6. Chọn Input và cột tiên đoán . 7. Kết thúc .
Select Source :
Ta phải chọn việc tạo mô hình khai phá dữ liệu mà chứa những trường hợp đặt ở bảng quan hệ hoặc OLAP cubes .
Select case tables :
Kết nối được sử dụng với mô hình quan hệ được tạo ra và hiển thị trong màn Select Case Table . Ở đây cũng cung cấp một tùy chọn của việc tạo ra một kết nối mới bằng việc kích lên một Data Source mới .
li u
Chọn một kỹ thuật khai phá dữ liệu :
Mining Model Wizard cung cấp hai giải thuật khai phá dữ liệu , hoặc "kĩ thuật" như chúng ta gọi trong wizard mà chúng ta chọn từ đó . Với mục đích đó , chúng ta chọn Microsoft Decision Tree trong màn hình Select Data Mining Techniques .
Tạo và hiệu chỉnh những kết nối : Nếu ta chọn nhiều bảng trong các bước
trước sau đó màn hình tạo và hiệu chỉnh những kết nối sẽ hiển thị tiếp theo . Màn hình này sẽ cho phép ta đồ họa hóa những bản kết nối bằng việc kéo những cột từ những bảng cha vào con của nó . Nếu bạn chọn chỉ một bảng đơn thì bước này bị bỏ qua .
Chọn khóa của cột : Bước kế tiếp là chọn ID như là Case Key column . Sự
chọn lựa của ID có một ảnh hưởng quan trọng lên đầu ra của quyết định bởi vì Key là công cụ để xát định sự duy nhất của một record.
Chọn lựa một khóa là điều bắt buột , do đó nó rất quan trọng để tạo một khóa trong SQL Server database nếu một cái chưa tồn tại .
Chọn input và tiên đoán cột : Trên màn hình tiên đoán và chọn cột , lấy ít
nhất một cột cho mô hình khai phá từ một cột cho phép trong danh sách trên cửa sổ bên trái . Mô hình Input column thể hiện dữ liệu thực sự mà đựơc sử dụng để huấn luyện mô hình khai phá dữ liệu . Nếu bạn chọn Microsoft Decision Trees trong Select Case Tables screen , và cũng chọn ít nhất một cột tiên đoán .
li u
Available columns : Chọn cột từ tree view . Sử dụng button được
cung cấp để chuyển những cột về cả cửa sổ Predictable Column hoặc cửa sổ Input Column để loại bỏ những cột từ sự chọn lựa . Ta không thể sử dụng ID Column ta đã chọn trong Select Key Column dialog box như là một Input column bởi vì nó là khóa .
Predictable columns : Xem những cột được chọn lựa có thể tiên
đoán được . Cửa sổ này chỉ được hiển thị chỉ nếu bạn lựa chọn Microsoft Decision Tree trong Select Case Tables dialog box .
Input columns : Xem selected input columns .
Kết thúc :
Cuối cùng những thông số mô hình khai phá dữ liệu được định nghĩa , ta phải nhập tên của mô hình khai phá dữ liệu .
Trình soạn thảo mô hình khai phá quan hệ :
Tiện dụng như wizard là những ứng dụng , chúng không giới hạn sự uyển chuyển trong mỗi bước bởi vì để quản lý đơn giản , wizard phải sử dụng những giá trị mặc định và những quyết định tường minh để hoàn thành một tác vụ . Bằng việc sử dụng Relational Mining Model Editor , ta có thể bỏ qua wizard .
li u
Trực quan mô hình :
Một trong những đặc điểm có giá trị nhất của cây quyết định là sự đơn giản của logic bên trong cấu trúc của nó .Data Mining Model Editor chứa hai tabs ở đáy màn hình , lược đồ tab , mà được sử dụng để thay đổi cấu trúc của mô hình và Content tab là nơi hiển thị dữ liệu được phân loại và được tổ chức thành cây.
Content tab là cách nhanh và tiện lợi để xem mô hình , những cấu trúc và thuộc tính .
Dependency Network Browser :
Dependency Network Browser là công cụ được sử dụng để xem những sự độc lập và những mối quan hệ giữa những đối tượng trong mô hình khai phá dữ liệu . Để hiển thị nó từ cửa sổ Analysis Manager Tree , kích chuột phải một mô hình khai phá dữ liệu và sau đó chọn Browser Dependency Network .
Trong Dependency Network Browser , một mô hình khai phá dữ liệu được thể hiện như là một mạng của những thuộc tính . Bên trong mô hình , chúng ta có thể xát định dữ liệu độc lập và tiên đoán trong những thuộc tính quan hệ . Sự phụ thuộc được thể hiện bởi những mũi tên . Hướng của sự tiên đoán được chỉ định bởi arrowhead và bởi color-coding của những notes .
li u
Bên trong giải thuật cây quyết định :
Giống như tên của chúng , giải thuật cây quyết định là mô hình dạng cây . Không có giới hạn cho cấp độ và những đầu vào và những biến được gán vào giải thuật , cây càng lớn - càng rộng và càng sâu hơn .
CART,CHAID và C4.5 :
Khi một giải thuật cây quyết định được áp dụng vào vấn đề khai phá dữ liệu , kết quả hoặc quyết định trông giống như một cây . Mặc dù Microsoft sử dụng giải thuật của chính nó để tạo cây quyết định , giải thuật này gây ra bởi những phương pháp khác đã được thử nghiệm và chứng minh .
Những cây phân lớp và hồi qui (CART) : CART là được sử dụng
rộng rãi nhất bởi vì sự phân lớp hiệu quả của nó và sử dụng những kĩ thuật tỉa cây tự động khác nhau , bao gồm sử dụng việc thẩm định chéo một tập hợp kiểm tra .
Chi-squared Automatic Interaction Detector (CHAID) : Giải
thuật CHAID sử dụng Chi-squared để phân tích dựa trên nhóm những bảng hoặc lưới ngẫu nhiên để xát định những gì phân bố của một giá trị cho trước là gì .
C4.5: Giải thuật này là một sự nâng cao từ một phiên bản củ là ID3 (
Iterative Dichotomizer version 3) .
Tạo cây quyết định với OLAP
OLAP là một dạng cấu trúc tốt được thiết kế từ trước để tối ưu sự lưu trữ của dữ liệu được kết hợp .Với OLAP ta có thể tạo sự kết hợp chắc chắn theo chiều có phân cấp và những giá trị truy cập được tính tổng theo chiều thời gian , chiều sản phẩm và những vị trí địa lý- giống như phát biểu GROUP BY trong SQL .Chiều cung cấp một phương tiện mà nó diễn đạt mối quan hệ giữa trường dữ liệu theo cách mà nó không dễ dàng làm với cơ sở dữ liệu quan hệ . Cho ví dụ , để chứa trong những bảng quan hệ phẳng quan hệ thứ bậc mà tồn tại giữa những người nhân viên và quản lý của họ trong cơ sở dữ liệu của tập đoàn nguồn nhân lực yêu cầu tính tương đối của logic phức .
Tạo mô hình :
Chúng ta bắt đầu tạo mô hình với Mining Model Wizard . Sự thảo luận chi tiết của việc làm thế nào tạo và sử dụng wizard này đã được đề cập ở phần cây quyết định .
Những bước nối tiếp để tạo mô hình sử dụng Mining Model Wizard như sau :
1. Chọn kiểu nguồn .
2. Chọn cube source cho mô hình khai phá . 3. Chọn kĩ thuật khai phá dữ liệu .
4. Chọn chiều và cấp của mô hình khai phá sẽ phân tích . 5. Chọn dữ liệu huấn luyện .
li u
6. Tạo chiều , một cube ảo , hoặc cả hai . Đây là những bước tùy chọn . 7. Kết thúc .
Chọn kiểu nguồn :
Màn hình giới thiệu yêu cầu không có input nhưng Select Source Type dialog hiển thị ra và yêu cầu ta phải xát định nguồn dữ liệu , mà trong trường hợp này là OLAP.
Chọn lựa OLAP cho bởi màn hình thứ tự tiếp theo được xát định thành cube và dimension , ngược lại với bảng và field như là trong cơ sở dữ liệu quan hệ .
Chọn Source Cube và kĩ thuật khai phá dữ liệu :
Trong Select Source Cube dialog box, ta chọn cube mà chứa những trường hợp mà ta sẽ sử dụng để huấn luyện mô hình .
li u
Chọn thông tin (Select Case) :
Trong màn hình Select Case , chọn chiều chứa những dữ liệu được sử dụng để huấn luyện cho mô hình khai phá dữ liệu . Cũng tùy chọn cấp độ mà ta quan tâm sử dụng . Nếu ta không chọn cấp độ thì wizard sẽ chọn cấp độ thấp nhất trong số các chiều của nó .
li u
Chọn lựa thực thể tiên đoán (Select Predicted Entity) :
Trong màn hình Selected Predicted Entity , chúng ta có ba tùy chọn cho nguồn của sự tiên đoán của ta .
+ Giới hạn source cube .
+ Thuộc tính thành viên của case level . + Những thành viên của chiều khác .
Tiêu chuẩn đánh giá của Source Cube :
Nếu ta muốn tạo sự tiên đoán với đơn vị đo lường - những giá trị số - trong cube . Ta sẽ chọn tiêu chuẩn đánh giá .
Thuộc tính thành viên của Case Level :
Tất cả những level dimension trong OLAP có thể chứa thuộc tính thành viên để thêm vào mô tả level đó .
Những thành viên của chiều (Dimension) khác :
Nếu có quan hệ giữa chiều chứa trong những những thông tin và những chiều khác , ta có thể sử dụng chiều liên quan như là nguồn để tiên đoán thuộc tính .
li u
Chọn dữ liệu huấn luyện :
Trong bước tiếp theo , ta chọn dữ liệu để huấn luyện mô hình của ta . Chiều mà ta chọn trong màn hình Select Case được chọn mặc định .
Chọn chiểu và Cube ảo :
Bước tiếp theo là tùy định nhưng cung cấp một đặc tính mạnh mẽ cho phép chỉ khi sử dụng OLAP giống như là nguồn dữ liệu và Microsoft Decision Trees giống như giải thuật khai phá dữ liệu . Bỏ qua tùy định mà ta chọn, mô hình khai phá dữ liệu sẽ tạo cấu trúc Analysis Service .
Chiều (Dimension) : Chiều là kết quả của output data-mining
model.Nếu ta nhìn vào một vài chiều OLAP, ta chú ý rằng dạng thức của nó là cây thứ bậc trong đó những nhánh có thể có những nhánh con , mỗi nhánh con có thể có những nhánh con của chính nó .
Khối ảo (Virtual Cube) : Khối ảo hầu như xác định khối từ đó dữ
liệu đến ngoại trừ là nó cũng chứa chiều mà được tạo trong lược hiện tại .
Hoàn tất Mô hình khai phá dữ liệu :
li u
Định nghĩa về giao tác : Có nhiều công việc được hoàn tất trong
succession khi xử lý một cube hoặc một mô hình khai phá dữ liệu . Chúng bao gồm :
1.Tạo cấu trúc .
2.Truy vấn nguồn dữ liệu .
3.Chèn dữ liệu vào những cấu trúc . 4.Tạo những trường được tính toán .
Trước khi Analysis Service phát biểu rằng mô hình khai phá dữ liệu là hoàn thành , nó kiểm tra tất cả các bước được hoàn tất . Nếu một vài bước trong đó sai , những bước trước đó không được hoàn tất .
Trình soạn thảo mô hình khai phá dữ liệu OLAP :
Khi sự xử lý kết thúc , kích vào Close button và chờ cho trình soạn thảo mô hình khai phá dữ liệu OLAP xuất hiện .
Trình chức năng trình soạn thảo về cơ bản giống như trình soạn thảo mô hình khai phá dữ liệu . Có một chút khác biệt là OLAP là nguồn của mô hình và không phải là cơ sở dữ liệu quan hệ .
li u
Nội dung chi tiết của sổ :
Điều đầu tiên ta sẽ để ý là những nút trong cây không có những tên trường hợp lệ như là trong cơ sở dữ liệu quan hệ .
Danh sách cây tiên đoán :
Danh sách cây tiên đoán chứa nhiều cấu trúc cây quyết định khác nhau có trong mô hình . Mỗi cây quyết định được thể hiện bởi trường quyết định mà sẽ được xuất phát thông qua việc sử dụng nó .
Phân tích dữ liệu với OLAP Data-Ming Model :