Một số thuật toán phân cụm dữ liệu hỗn hợp điển hình

Một phần của tài liệu Phân cụm các đối tượng phức tạp trong một lớp đối tượng (Trang 37 - 39)

Bài toán phân cụm với dữ liệu hỗn hợp là bài toán thường gặp trong thực tế. Hiện nay, dữ liệu trong các CSDL thực tế không chỉ có một kiếu như kiểu số hay kiểu phạm trù (phi số), mà có cả dữ liệu thuộc hai loại trên (dữ liệu hỗn hợp). Theo [23], [28] có hai hướng tiếp cận đối với bài toán phân cụm dữ liệu hỗn hợp: Xây dựng công thức khoảng cách hợp nhất áp dụng cho dữ liệu hỗn hợp, hoặc phân cụm song song.

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

- Cách tiếp cận xây dựng một công thức tính khoảng cách hoặc độ tương tự

hợp nhất có thể áp dụng cho dữ liệu hỗn hợp: d = f(dn,dc), trong đó dn là độ đo khoảng cách xác định trên các thuộc tính kiểu số, dc là độ đo khoảng cách xác định trên các thuộc tính phạm trù. Độ đo khoảng cách hợp nhất là một hàm số của dn và dc. Một số thuật toán điển hình: k-prototypes, AGNES , HIMIC.

- Hướng tiếp cận phân cụm song song:

o Đầu tiên, tập dữ liệu hỗn hợp ban đầu được chia làm hai tập con: một tập là dữ liệu xác định trên thuộc tính số và một tập là dữ liệu xác định trên thuộc tính phạm trù (phi số).

o Áp dụng những thuật toán tốt nhất có thể cho mỗi tập dữ liệu.

o Kết quả phân cụm trên dữ liệu số và dữ liệu phạm trù được kết hợp với nhau. (Kết quả của các thuật toán phân cụm là các đối tượng trong cụm được gán nhãn là nhãn của cụm chứa nó. Các nhãn là không đối sánh được, và coi nó như một thuộc tính phạm trù. Vậy có thể coi kết quả của phân cụm là một tập dữ liệu phạm trù với thuộc tính phạm trù là nhãn). Khi kết hợp hai kết quả phân cụm ta sẽđược tập dữ liệu phạm trù. Thuật toán phân cụm dữ liệu kiểu phạm trù được dùng để thu được kết quả cuối cùng.

Ngoài ra có thể có cách tiếp cận tương tự như phân cụm song song, sau khi chia dữ liệu thành hai tập con, chỉ phân cụm cho tập dữ liệu với thuộc tính số, sau khi

được kết quả phân cụm thì kết hợp với các thuộc tính phạm trù, ta sẽđược một tập dữ liệu phạm trù. Sau đó tiếp tục áp dụng thuật toán phân cụm cho tập dữ liệu phạm trù này đểđược kết quả cuối cùng.

Với hướng tiếp cận song song có thể sử dụng thuật toán CEBMDC (Cluster Esembler Based Mixed Data Clustering) để phân cụm.

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

Input: D (tập dữ liệu đầu vào gồm n bộ)

Output: Mỗi một đối tượng được gán nhãn của cụm.

CEBMDC algorithm:

1) Chia tập D thành hai tập con, CD là tập con thuần phạm trù, ND là tập con thuần số.

2) Áp dụng thuật toán phân cụm cho tập dữ liệu CD – sử dụng thuật toán Squeezer.

3) Áp dụng thuật toán phân cụm dữ liệu cho tập ND – sử dụng CURE.

4) Kết hợp kết quả phân cụm ở hai bước trên thành một tập dữ liệu phạm trù CombinedCD

5) Áp dụng thuật toán Squeezer cho tập dữ liệu CombinedCD.

Hình 2.10: Thuật toán CEBMDC

Ưu điểm của thuật toán CEBMDC: Tận dụng những ưu điểm của các thuật toán phân cụm cho dữ liệu thuần kiểu (số hoặc phi số). Chọn những thuật toán phù hợp sẽ cho kết quả tốt.

Nhược điểm: phải tiến hành phân cụm hai hoặc ba lần.

Một phần của tài liệu Phân cụm các đối tượng phức tạp trong một lớp đối tượng (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(93 trang)