Phương pháp phân hoạch

Một phần của tài liệu Phân cụm các đối tượng phức tạp trong một lớp đối tượng (Trang 27 - 30)

Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, theo phương pháp phân hoạch dữ liệu được chia thành k phân hoạch, mỗi phân hoạch tương ứng với một nhóm /cụm (k ≤ n) thoả các yêu cầu sau:

- Mỗi cụm chứa ít nhất một đối tượng. - Mỗi đối tượng thuộc về một cụm duy nhất.

Trong phân cụm dựa trên phương pháp phân hoạch, các ứng dụng thường sử

dụng một trong hai thuật toán phổ biến: (1) Thuật toán k-means với mỗi cụm được

đại diện bởi giá trị trung bình của các đối tượng trong cụm; (2) Thuật toán k- medoids với mỗi cụm được đại diện bởi một trong số các đối tượng định vị gần tâm của cụm.

™ Thuật toán k-means ( MacQueen’67).

Giải thuật k-means đối với việc phân chia dựa trên giá trị trung bình của các đối tượng trong cụm.

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

Input: Số cụm k và một cơ sở dữ liệu chứa n đối tượng. Output: Mộttập k cụm.

K-means algorithm:

1) Khởi tạo: Chọn tuỳ ý k đối tượng với tư cách là các tâm cụm ban đầu; 2) Lặp:

3) Ấn định (lại) mỗi đối tượng về một cụm mà đối tượng đó giống nhất, dựa trên giá trị trung bình của các đối tượng trong cụm;

4) Cập nhật các trung bình cụm, tức là tính giá trị trung bình của các đối tượng trong cụm đó;

5) Kết thúc: Khi không có sự thay đổi nào.

Ưu điểm của k- means:

- Thuật toán khá đơn giản.

- Áp dụng hiệu quả trên tập dữ liệu lớn.

- Độ phức tạp tính toán: O(nkt) với n là số đối tượng, k là số cụm, t là số lần lặp. Thông thường k, t << n.

Nhược điểm của k- means:

- Có thể áp dụng chỉ khi xác định được giá trị trung bình.

Hình 2.5: Phân cụm một tập các điểm dựa trên k-means Hình 2.4: Thuật toán k-means

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

- Cần chỉđịnh trước số cụm- k.

- Không thể xử lý nhiễu và outliers.

- Không thích hợp đối với các cụm có dạng lồi hay các cụm có kích thước khác nhau.

™ Thuật toán k- modes:

Cho X = {X1, X2,.., Xn} là tập n đối tượng định tính được mô tả bởi m thuộc tính định tính A1, A2,.., Am.

Một mode của X là một vector Q = [q1, q2, .., qm] nó cực tiểu hóa biểu thức:

∑ = = n i i Q X d Q X D 1 ) , ( ) , ( Input: Số cụm k và một cơ sở dữ liệu chứa n đối tượng.

Output: Một tập k cụm đã tối thiểu hoá tổng các độđo không tương đồng của tất cả các đối tượng tới mode gần nhất của chúng.

K-modes algorithm:

1) Khởi tạo: Chọn tuỳ ý k đối tượng giữ vai trò là các mode ban đầu; 2) Lặp:

3) Ấn định mỗi đối tượng vào cụm có mode gần nó nhất;

4) Tính hàm mục tiêu - là tổng các độđo không tương đồng của tất cả các đối tượng tới mode gần nhất của chúng;

5) Đổi mode x bằng một đối tượng y nếu như việc thay đổi này làm giảm hàm mục tiêu;

6) Kết thúc: Khi không có sự thay đổi nào.

Phân cụm các đối tượng phức tạp trong một lớp đối tượng

Vì thuật toán K-modes có quá trình phân cụm giống như K-means nên nó kế

thừa được tính hiệu quả cũng như một số hạn chế của K-means.

Ngoài hai thuật toán trên, để giải quyết với các tập dữ liệu lớn, một phương pháp dựa trên việc lấy mẫu gọi là CLARA (Clustering large applications) đã được phát triển bởi Kaufman và Rousseeuw. Để cải thiện chất lượng và khả năng mở

rộng của CLARA, một giải thuật phân cụm khác được giới thiệu gọi là CLARANS (Clustering Large Applications based upon RANdomized Search). Thay vì lấy giá trị trung bình của các đối tượng trong một cụm như một điểm tham khảo, các thuật toán này lấy một đối tượng đại diện trong cụm, gọi là medoid, nó là điểm đại diện

được định vị trung tâm nhất trong cụm.

Một phần của tài liệu Phân cụm các đối tượng phức tạp trong một lớp đối tượng (Trang 27 - 30)

Tải bản đầy đủ (PDF)

(93 trang)