Mơ hình phiên dịch (Demo từ CSDL khảo sát tình hình chung của khu vực về mức sống, thu nhập, nhập khẩu…v.v.).

Một phần của tài liệu Nghiên cứu data mining trong microsoft server 2005 với thuật toán microsoft association rule và microsoft decision tree (Trang 52 - 59)

khu vực về mức sống, thu nhập, nhập khẩu…v.v.).

Sau khi các mơ hình đã được xử lý, ta cĩ thể xem chọn Mining Model Viewer trong editor để duyệt lại chúng. Sử dụng combo box Mining Model ở đầu thẻđể kiểm tra lại cấu trúc mơ hình.

(1) Microsoft Decision Trees Model

Trong thẻ Mining Model Viewer mặc định đang mở mơ hình KhaoSatmuc song, cấu trúc mơ hình đầu tiên. Trong phần Tree viewer thì chứa 2 thẻ là Decision Tree và Dependency Network.

(a) Decision Tree

Từ thẻ Decision Tree ta sẽ kiểm tra tất cả các mơ hình cây để chuẩn bị cho mơ hình khai thác. Sẽ khơng cĩ mơ hình cây nào cho mỗi thuộc tính cĩ khả năng dựđốn trong mơ hình trừ khi nĩ được lựa chọn theo yêu cầu. Bởi vì mơ hình chỉ chứa duy nhất một thuộc tính dự đốn nên sẽ khơng cĩ kiểu cây ở đây. Nếu cĩ sự hiện diện nhiều cây ta sẽ chọn mục Tree để xem được những cây khác.

Tree viewer mặc định hiển thị nhánh đầu tiên, nếu cây cĩ ích hơn ba cấp nhánh, Tree viewer sẽ hiện thị hết. Ta cĩ thể xem chi tiết cây hơn bằng cách chọn thanh trược Show Level hoặc Default Expansion.

Cách làm như sau:

1. Trược Show Level đến mức 5.

Từ thay đổi này, nhanh chĩng cho ta biết số lượng các trường hợp Mucsong

trong các node. Những node cĩ màu tối hơn thì cĩ nhiều trường hợp hơn.

Hình 4.7 Mơ hình cây quyết định

Mỗi node trong cây quyết định trên thể hiện 3 phần thơng tin sau:

• Điều kiện địi hỏi để đạt tới node của node trước nĩ. Ta cĩ thể thấy

đường dẫn đầy đủ của node từ cây trên.

• Một biểu đồ miêu tả sự phân bổ trạng thái của các cột cĩ khả năng dự đốn theo sự phổ biến. Việc kiểm sốt cĩ bao nhiêu trạng thái xuất hiện trong biểu đồ dựa vào cơng cụ Histogram.

• Sự tập trung các trường hợp, nếu trạng thái các thuộc tính cĩ thể dựđốn

được chỉ ra trong cơng cụ Background.

Xem các trường hợp huấn luyện node bằng cách phải chuột vào node rồi chọn Drillthrough.

Thẻ Dependency Network hiển thị thơng tin về mối liên hệ giữa các thuộc tính cĩ khả năng tạo nên quyết định trong mơ hình KPDL.

Hình 4.8: Mơ hình tạo mối liên hệ giữa các thuộc tính tạo cây

Node trung tâm là Mucsong, nĩ thể hiện các thuộc tính dựđốn trong mơ hình dữ liệu cịn các node xung quanh thể hiện thuộc tính bị tác động bởi thuộc tính dự đốn. Di chuyển con trược bên trái làm cho hình ảnh sẽ rỏ hơn.

e) Kiểm tra độ chính xác của các mơ hình

Đến đây thì các mơ hình đã được xử lý và khám phá. Thẻ Mining Accuracy Chart sử dụng dữ liệu kiểm tra tách biệt với tập dữ liệu huấn luyện gốc để so sánh dự đốn với kết quảđã biết. Những kết quả này được sắp xếp và vẽ lên đồ thị thể hiện khả

năng dựđốn của các mơ hình. Mơ hình lý tưởng cĩ khả năng dựđốn chính xác đến 100% theo thời gian.

Lift chart giúp phân biệt giữa mơ hình gần đúng về cấu trúc với việc xác định mơ hình cho dựđốn tốt nhất.

Từ thẻ Mining Accuracy Chart ta tạo mới theo 3 bước sau đây:

(1.1) Ánh xạ các cột dữ liệu

Bước đầu tiên là tạo ánh xạ từ các cột dữ liệu trong mơ hình KPDL đang xét với các cột trong dữ liệu kiểm tra, nếu các cột này được đặt cùng tên thì cơng cụ sẽ tự động tạo các mối quan hệ.

Cách thực hiện ánh xạ

• Từ bảng Select Input Table(s) , click vào Select case table.

• Bảng Select Table mở ra, ta chọn ra dữ liệu để kiểm tra. ( Trong trường hợp của chúng ta bảng KhaoSat được chọn tương đối giống so với bảng

KhaoSatmucsong trong mơ hình).

• Trong bảng Select Table, chọn DecisionTree DW từ data source. Chọn KhaoSat từ Table/View rồi OK.

Hình 4.9: Ánh xạ các cột dữ liệu

Một câu truy vấn dự đốn sẽ được tạo ra cho mỗi mơ hình trong cấu trúc dựa vào việc ánh xạ các cột dữ liệu này. Ta cĩ thể xĩa bỏ một ánh xạ bằng cách click chọn vào đường nối giữa chúng rồi DELETE, cũng cĩ thể tạo ánh xạ bằng cách kéo từ bảng Mining Structure sang bảng Select Input Tables(s).

(1.2) Lọc các dịng dữ liệu nhập

Việc xử lý lọc dữ liệu nhập thực hiện qua lưới dữ liệu dưới mục Filter the input data used to generate the lift chart, nằm ngay dưới 2 bảng dữ liệu ánh xạ bước trên. Lưới dữ liệu này hỗ trợ kéo thả giống như trên bảng dữ liệu của cơ sở dữ liệu quan hệ

SQL, ta cũng cĩ thể lọc dữ liệu qua các tốn tử Criteria/Argument ở phần cột sau cùng của lưới dữ liệu.

(1.3) Lựa chọn mơ hình, cột dựđốn, các giá trị

Bước này ta lựa chọn mơ hình để đưa vào lift chart và cột dựđốn để so sánh. Mặc định thì tất cả mơ hình trong cấu trúc mining sẽđược chọn, ta cĩ thể bỏ qua mơ

hình nào đĩ. Cĩ thể tạo ra 2 loại biểu đồ, nếu chọn một giá trị dựđốn ta sẽ thấy một biểu đồ cĩ một đường nâng các đường mơ hình lên, cịn nếu ta khơng chọn một giá trị

dựđốn nào thì biểu đồ sẽ khác, nĩ chỉ cho thấy độ chính xác của mơ hình (xem hình phần Xem lift chart).

Thực hiện:

Với mỗi mơ hình, trong phần Predictable Column Name, ta chọn Mucsong Với mỗi mơ hình, trong cột Predict Value, chọn 1 ( Mức sống = cao) hoặc 0 (Mức sống = thấp).

Hiển thịđộ chính xác của mơ hình:

Trong mục Predictable Column Name, chọn Mucsong

Cứđẻ cột Predict Value rỗng.

Nếu chọn Synchronize Prediction Columns and Values thì cột dựđốn sẽ được

đồng bộ với mỗi mơ hình trong cấu trúc mining.

(1.4) Hiển thị Lift Chart

Chọn vào thẻ Lift Chart để hiển thị, khi chọn vào thẻ này, một câu truy vấn chạy trên server, cơ sở dữ liệu của cả cấu trúc mining và bảng input. Kết quả dựđốn

được so sánh với kết quả thật đã biết và được sắp xếp theo khả năng rồi đưa lên biểu

đồ.

Nếu chọn một giá trị dự đốn ta sẽ thấy một biểu đồ cĩ một đường nâng các

Hình 4.10: Độ chính xác của mơ hình khi chọn giá trị dự đốn

Cịn nếu ta khơng chọn một giá trị dự đốn nào thì biểu đồ sẽ khác, nĩ chỉ cho thấy độ chính xác của mơ hình

Hình 4.11: Độ chính xác của mơ hình khi khơng chọn giá trị dự đốn

f) Tạo dựđốn và kết quả

Nếu đã hài lịng với mơ hình KPDL ta bắt đầu tạo câu truy vấn dự đốn DMX sử dụng cơng cụ Prediction Query Builder. Prediction Query Builder cĩ 3 cách dùng là Design, Query và Result. Nĩ tương tự như Access Query Builder và ta cĩ thể thực hiện việc kéo thảđể tạo câu truy vấn.

(1) Tạo câu truy vấn

Ta chọn mơ hình mining và bảng input 1. Trong Mining Model, chọn Select model.

Hộp thoại Select Mining Model mở ra. Mặc định mơ hình đầu tiên sẽ được chọn

2. Chọn KhaoSat.

Một phần của tài liệu Nghiên cứu data mining trong microsoft server 2005 với thuật toán microsoft association rule và microsoft decision tree (Trang 52 - 59)

Tải bản đầy đủ (PDF)

(82 trang)