Phân lớp dựa trên TANB

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 74 - 79)

4.3 Phân lớp dữ liệu tập trung

4.3.3 Phân lớp dựa trên TANB

Xây dựng mơ hình TANB cho các nguồn dữ liệu

Dựa trên các thủ tục xây dựng cây bao trùm cực đại, TANB cho các nguồn dữ liệu, tác giả đã xây dựng TANB cho các nguồn dữ liệu ADULT, CARS, NURSERY.

ADULT

Để xây dựng được mơ hình TANB cho nguồn dữ liệu ADULT, điều đầu tiên cần thực hiện đĩ là xây dựng cây bao trùm cực đại dựa trên nguồn dữ liệu huấn luyện.

Cây bao trùm cực đại (thuật tốn Kruskal)

Cây bao trùm cực đại là cây cĩ tổng trọng số của các cung là lớn nhất, trong đĩ, các cung là các thuộc tính của nguồn dữ liệu, trọng số của các cung là giá trị của hàm thơng tin hỗ trợ (mutual information function) (đã được trình bày cụ thể ở chương 3) của hai thuộc tính (mã nguồn của thuật tốn xây dựng cây bao trùm cực đại được lưu trữ trong CreateTree.java).

Input:

Danh sách các cạnh đã được sắp xếp theo thứ tự giảm dần của trọng số (các điểm đầu là các thuộc tính, trọng số là giá trị của hàm thơng tin hỗ trợ của hai thuộc tính tương ứng).

Output:

Danh sách các cạnh tạo nên cây bao trùm cực đại.

Thuật tốn:

1. Khởi tạo một cây rỗng.

2. Lấy một cạnh từ danh sách (theo thứ tự đã được sắp xếp giảm dần).

- Thêm vào cây nếu khơng tạo thành chu trình.

- Loại bỏ nếu tạo thành chu trình trong cây

Sau khi thực hiện chương trình với dữ liệu huấn luyện gồm 11.500 bản ghi, cây bao trùm cực đại biểu diễn sự hỗ trợ thơng tin của các thuộc tính được biểu diễn như sau (Hình 4.2).

Hình 4.2. Cây bao trùm cực đại được xây dựng trên nguồn dữ liệu ADULT.

Mơ hình TANB cho nguồn dữ liệu ADULT

Dựa trên cây bao trùm cực đại đã được xây dựng ở bước trên, bằng cách thêm thuộc tính class và thêm các cung đi ra từ thuộc tính class, ta cĩ được mơ hình TANB cho nguồn dữ liệu ADULT (Hình 4.3)

CARS

Sử dụng thuật tốn Kruskal cho nguồn dữ liệu huấn luyện CARS, ta thu được cây bao trùm cực đại thể hiện mối liên hệ giữa các thuộc tính trong nguồn dữ liệu.

Hình 4.4. Cây trùm cực đại được xây dựng dựa trên nguồn dữ liệu CARS

NURSERY

Thực hiện thuật tốn Kruskal nhằm xây dựng cây bao trùm cực đại cho nguồn dữ liệu NURSERY với 8.640 bản ghi, kết quả như sau (Hình 4.6):

Hình 4.6. Cây bao trùm cực đại của nguồn dữ liệu NURSERY

Phân lớp TANB cho các nguồn dữ liệu

Dựa trên mơ hình TANB của các nguồn dữ liệu, tính xác suất của các lớp dữ liệu đối với các bản ghi kiểm thử. Một đặc điểm khác của TANB đối với Naive Bayes (đã được mơ tả chi tiết ở trong chương 3) đĩ là các thuộc tính khơng chỉ phụ thuộc vào thuộc tính lớp mà cịn phụ thuộc vào các thuộc tính khác.

Ví dụ 4.1:

Khi tính xác suất cho các thuộc tính class của nguồn dữ liệu CARS, ta thực hiện như sau (Hình 4.5):

1 2 3 4 5 6 1 2 1 3 2 4 6 5 6 6 1 P(C)×P(X ,X ,X ,X ,X ,X |C)= P(C)×P(X |C)×P(X |X ,C) ×P(X |X ,C)×P(X |X ,C)×P(X |X ,C)×P(X |X ,C) Trong đĩ: 1 2 3 4 5 6

X : buying X : maint X : door X : person X : lugboot X : safety C = {unacc, acc, good, vgood}

Quá trình phân lớp dữ liệu dựa trên TANB tương tự với phương pháp dựa trên Naive Bayes, chỉ cĩ khác ở cơng thức tính xác suất cho các giá trị thuộc tính lớp.

Kết quả của phân lớp tập trung TANB cho các nguồn dữ liệu được thể hiện chi tiết trong bảng 4.6. Trong đĩ, nguồn dữ liệu ADULT với dữ liệu huấn luyện gồm 11.500 bản ghi, dữ liệu kiểm thử gồm 1.532 bản ghi, phân lớp đúng được 1.200 bản ghi, phân lớp khơng đúng 332 bản ghi, đạt độ chính xác 78,36%.

Nguồn dữ liệu CARS, với dữ liệu huấn luyện gồm 1.152 bản ghi, dữ liệu kiểm thử gồm 576 bản ghi, phân lớp đúng được 377 bản ghi, phân lớp sai 199 bản ghi, đạt độ chính xác 65,56%. Nguồn dữ liệu NURSERY, với dữ liệu huấn luyện gồm 8.640 bản ghi, dữ liệu kiểm thử gồm 4.320 bản ghi, phân lớp đúng 3.102 bản ghi, phân lớp sai 1.218 bản ghi, đạt độ chính xác 71,80%.

Tên nguồn dữ liệu Dữ liệu huấn luyện Dữ liệu kiểm thử Độ chính xác (%) Đúng Khơng đúng ADULT 11.500 1.532 78,36 1.200 332 CARS 1.152 576 65,56 377 199 NURSERY 8.640 4.320 71,80 3.102 1.218 Bảng 4.6. Kết quả phân lớp TANB cho các nguồn dữ liệu.

4.4 Phân lớp dữ liệu phân tán

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 74 - 79)

Tải bản đầy đủ (PDF)

(100 trang)