Các thuật toán phân cụm dữ liệu kiểu hạng mục- 123docz.net

Chúng ta coi các thuộc tính CSDL có giá trị kiểu hạng mục (categorical). Các giá trị này không thể được sắp xếp một cách đơn lẻ, và do đó, phân cụm dữ liệu kiểu hạng mục thực sự là một thách thức. Chúng ta tổng kết các đặc trưng của các dữ liệu như vậy trong danh sách dưới đây [9]-[17]-[24]:

 Dữ liệu kiểu hạng mục không sắp xếp đơn lẻ: Có một số cách để sắp xếp nhưng không có cách nào là có hiệu quả vượt trội

 Dữ liệu kiểu hạng mục có thể được trực quan hoá phụ thuộc vào một sự sắp xếp đặc biệt.

 Dữ liệu kiểu hạng mục định nghĩa cấu trúc tiên nghiệm (priori structure) để làm việc.

 Dữ liệu kiểu hạng mục có thể được ánh xạ lên trên các số đơn trị, như là một hệ quả, khoảng cách Euclidean có thể được sử dụng để xác định các lân cận của nó khi các hệ quả là không chắc chắn.

Guha và các cộng sự đưa ra một ví dụ: giả sử CSDL của các đối tượng 1 tới 6 được cho bởi các bộ như sau: (a) {1, 2, 3, 5} , (b) {2, 3, 4, 5} , (c) {1, 4} , và (d) {6} . Các đối tượng này có thể được xem như là các vector 0 và 1 biểu thị sự có mặt của các đối tượng này bên trong các bộ dữ liệu tương ứng. Bốn bộ dữ liệu trở thành:

{1, 2, 3, 5}  {1, 1, 1, 0, 1, 0} {2, 3, 4, 5}  {0, 1, 1, 1, 1, 0} {1, 4}  {1, 0, 0, 1, 0, 0} {6}  {0, 0, 0, 0, 0, 1}

Sử dụng khoảng cách Euclidean giữa bộ dữ liệu (a) và (b), ta có:

2 2 2 2 2 2 1 2

(1 0 0  1 0 0 )  2

Đây là khoảng cách nhỏ nhất giữa các cặp của các bộ dữ liệu, trộn (a) và (b) sử dụng một giải thuật phân cấp dựa theo trọng tâm. Trọng tâm của cụm mới là {0.5, 1, 1, 0.5, 1, 0}. Trong các bước dưới đây, (c) và (d) có khoảng cách nhỏ nhất, và như vậy chúng sẽ được trộn với nhau. Tuy nhiên, việc đó cũng tương ứng với việc trộn bộ dữ liệu {1, 4} với bộ dữ liệu {6}, không có các đối tượng chung, giả thiết rằng việc phù hợp dựa trên sự có mặt (presence) là quan trọng hơn việc phù hợp dựa trên sự vắng mặt (absence). Sau đó, chúng ta đạt được kết luận rằng khi sử dụng ánh xạ

không trong cụm tương tự cuối cùng được xếp cùng nhau. Trong trường hợp đặc biệt này, khoảng cách Hamming sẽ thực hiện tốt hơn.

Rõ ràng, chúng ta cần các phương pháp khác nhau, và các độ đo tương tự đặc biệt khác nhau, để khám phá các nhóm “tự nhiên” của dữ liệu kiểu hạng mục.