Khái niệm về phân cụm thô tƣơng tự nhƣ lý thuyết tập thô - với bộ xấp xỉ dƣới và trên - cho phép các đối tƣợng thuộc nhiều cụm trong tập hợp dữ liệu. Theo định nghĩa, xấp xỉ dƣới của một cụm thô chứa các đối tƣợng mà nó chắc chắn thuộc về cụm đó, và các đối tƣợng thuộc về xấp xỉ trên có thể thuộc về nhiều hơn một cụm. Các thuật toán phân cụm sử dụng biện pháp khoảng cách để xây dựng một ma trận tƣơng tự, và mỗi cặp đối tƣợng trong ma trận này đƣợc gán cho cụm hiện tại hoặc mới, tùy thuộc vào một hoặc cả hai đối tƣợng trong cặp hiện đang đƣợc phân. Vấn đề với cách tiếp cận này là số lƣợng lớn các cụm đƣợc tạo ra và sự không chắc chắn về việc liệu xấp xỉ dƣới của mỗi cụm có cung cấp vùng phủ hiệu quả nhất cho tập dữ liệu.
Đối với kỹ thuật phân cụm, lý thuyết tập thô đƣợc tiếp cận hỗ trợ phân cụm dựa vào hai hƣớng [3]:
Cải tiến các thuật toán phân cụm cổ điển nhƣ K-Means, K-Medoid thành Rough K-Means, Rough K-Medoid... bằng cách kết hợp các khoảng cách hay độ tƣơng đồng với các phép xấp xỉ.
Hỗ trợ xác định số lƣợng phân cụm tối thiểu: Dựa trên số lƣợng phân cụm gợi ý ban đầu do ngƣời sử dụng cung cấp, các cụm sẽ đƣợc gom lại nếu các xấp xỉ trên các phân cụm giao nhau khác rỗng.
Trong phân cụm thô ta không xét tất cả các thuộc tính của tập thô. Tuy nhiên, bộ xấp xỉ trên và dƣới đƣợc yêu cầu phải làm theo một số các thuộc tính tập thô cơ bản nhƣ sau: Cho tập đối tƣợng U vớiX U, cặp A X , A X
- Một đối tƣợng v U , thuộc nhiều nhất một xấp xỉ dƣới A X . Nghĩa là hai xấp xỉ dƣới bất kỳ không chồng chéo lên nhau.
- Một đối tƣợng v thuộc xấp xỉ dƣới của một tập thì cũng thuộc xấp xỉ trên của nó (vA X v A X ). Nghĩa là một xấp xỉ dƣới của một tập là tập hợp con của xấp xỉ trên tƣơng ứng của nó (A X A X ).
- Nếu một đối tƣợng v không thuộc bất kỳ xấp xỉ dƣới A X thì nó thuộc hai hoặc nhiều hơn xấp xỉ trên
(vA X Y Y0, 1 U, A( )Y0 A Y( ),1 vA Y( )0 A Y( )1 ). Nghĩa là một đối tƣợng không thể chỉ thuộc một khu vực biên.
K-Means sử dụng lý thuyết tập thô (Rough K-Means )
Phƣơng pháp phân cụm thô [13] phổ biến nhất đƣợc bắt nguồn từ phân cụm K-Means cổ điển. Tạo ngẫu nhiên k cụm từ n đối tƣợng. Giả định rằng các đối tƣợng đƣợc biểu diễn bằng vector m chiều.
Mục tiêu là để chỉ định các đối tƣợng n vào k cụm. Mỗi cụm cũng đƣợc đại diện bởi một vector m chiều, đó là trọng tâm hay vector cho cụm đó. Quá trình bắt đầu bằng cách chọn ngẫu nhiên k trọng tâm của k cụm. Các đối tƣợng đƣợc gán cho một trong những cụm k dựa trên giá trị tối thiểu của khoảng cách d(v, x) giữa các vector đối tƣợng vv1, ,vj,..., vmvà vector cụm
1, , j,..., m
x x x x với 1 j m
Khoảng cách d (v, x) đƣợc cho nhƣ sau: ( , ) ||d v x v x|| ở đây thƣờng là chuẩn Euclide.
Sau khi phân tất cả các đối tƣợng vào các cụm khác nhau, các vector trọng tâm mới của các cụm đƣợc tính nhƣ sau:
| | j v x j v x x
với |x| là size của cụm x Quá trình dừng lại khi các trọng tâm của cụm ổn định, tức là các vector trọng tâm lặp lại trƣớc đó trùng với trọng tâm cụm mới trong lần lặp hiện tại.
Kết hợp bộ thô vào phân cụm K-Means đòi hỏi việc bổ sung các khái niệm về xấp xỉ dƣới và trên.
Đặc biệt: Tính toán các trọng tâm cần phù hợp và đƣợc quyết định liệu một đối tƣợng đƣợc gán cho một xấp xỉ thấp hơn hoặc trên của một cụm.
Các vấn đề sẽ giải chi tiết nhƣ sau:
(1) Tính toán các trọng tâm. Tính toán của các trọng tâm của cụm từ K- Means cổ điển cần phải đƣợc sửa đổi bao gồm có cả xấp xỉ dƣới và xấp xỉ trên.
Về cơ bản các đối tƣợng đƣợc quan tâm khác nhau của xấp xỉ dƣới và trên. Tính toán trọng tâm sửa đổi cho bộ thô đƣợc cho bởi:
Nếu [A x &A x A x ] Thì | | j v A x j v x A x
Ngƣợc lại Nếu [A x &A x A x ] thì | | j v A x A x j v x A x A x Ngƣợc lại wow w | | | | j j v A x A x v A x j l er upper v v x A x A x A x với 1 j m và wlower wuper 1
Các thông số wlower và wupper tƣơng ứng với tầm quan trọng tƣơng đối của xấp xỉ dƣới và xấp xỉ trên.
Nếu xấp xỉ trên của mỗi cụm là tƣơng đƣơng với xấp xỉ dƣới, các cụm sẽ là cụm thông thƣờng. Nhƣ vậy, điều kiện đầu tiên [A x &A x A x ]
luôn luôn giữ để tính toán trọng tâm thƣờng.
(2) Quyết định xem một đối tượng được gán cho một xấp xỉ dưới hoặc trên của một cụm.
Bƣớc tiếp theo trong việc sửa đổi các thuật toán K-Means cho bộ thô là thiết kế các tiêu chí để xác định xem một đối tƣợng thuộc các xấp xỉ trên hoặc dƣới của một cụm cụ thể nhƣ sau:
Về cơ bản, một đối tƣợng sẽ đƣợc giao cho xấp xỉ dƣới của một cụm khi khoảng cách giữa các đối tƣợng và các cụm trung tâm nhỏ hơn nhiều so với khoảng cách tới các trung tâm cụm còn lại khác (Hình 2.1).
Cụ thể, đối với mỗi vector đối tƣợng v, d(v, xj) là khoảng cách giữa v và trọng tâm của cụm xj. Sau đó, chúng ta có hai bƣớc để xác định các thành viên của một đối tƣợng: Bƣớc 1. Xác định trọng tâm gần nhất: min 1 , i min , j j k d d v x d v x
Bƣớc 2. Kiểm tra khoảng cách với trọng tâm cụm gần nhất và các trọng tâm khác T t :d v x , id v x , j Thresold,i j
Nếu T thì v thuộc xấp xỉ trên của 2 hoặc nhiều cụm Nếu T thì v thuộc xấp xỉ dƣới chỉ của một cụm
Do đó, ta có đƣợc các nguyên tắc sau cho sự phân công của các đối tƣợng đến xấp xỉ:
Nếu T
Thì vA x i &vA x j , j T
Ngƣợc lạivA x i &vA x i
Cần nhấn mạnh rằng không gian xấp xỉ A không đƣợc xác định dựa trên bất kỳ mối quan hệ đƣợc xác định trƣớc trên tập các đối tƣợng. Các xấp xỉ trên và dƣới đƣợc xây dựng dựa trên các tiêu chí mô tả ở trên.
Ý tƣởng thuật toán Rough K-Means có thể tóm tắt:
Bƣớc 1. Khởi tạo: Chọn ngẫu nhiên k tâm các cụm xuất phát xx1,...,xk
Bƣớc 2. Gom cụm các đối tƣợng dựa vào xấp xỉ trên và xấp xỉ dƣới (mỗi
cụm gồm 2 tập: tập các phần tử quan hệ với tâm ứng với xấp xỉ dƣới, tập các phần tử quan hệ với tâm ứng với xấp xỉ trên - Hình 2.2)
Hình 2.2. Mô tả gom cụm vào bộ xấp xỉ trên - dưới
Đối với mỗi đối tƣợng v, d(v, xi) là khoảng cách giữa nó và trọng tâm của cụm xi. Với d v x , id v x , j Thresold;1≤ i, j ≤ k đƣợc sử dụng để xác định các thành viên của cụm nhƣ sau:
Nếu d v x , id v x , j Thresoldthì vA x i &vA x j và v sẽ không thuộc bất kỳ xấp xỉ dƣới.
Ngƣợc lại, vA x i &vA x i nhƣ vậy là d (v, xi) là tối thiểu, 1≤ i ≤ k.
Bƣớc 3. Cập nhật lại trọng tâm xi bằng trọng tâm mới
xj= ow j j v A x v A x A x l er upper v v w w A x A x A x Nếu A x A x j v A x v A x Ngƣợc lại
Trong đó wlower, wupper là các trọng số thỏa wlower +wupper = 1.
Nếu tiêu chuẩn hội tụ đƣợc đáp ứng, nghĩa là trung tâm cụm trùng với lần lặp trƣớc thì dừng lại; Ngƣợc lại đi đến bƣớc 2.
Hình 2.3. Sơ đồ phân cụm K-Means thô
Bắt đầu
Input: k cụm, tập đối tƣợng
Xác định các trọng tâm cụm
Với mỗi đối tƣợng, Tìm tâm cụm gần nhất với khoảng cách d(v,xi)
Tìm khoảng cách của đối tƣợng đến trọng tâm khác d(v,x
j)
d(v,xi)- d(v,xj) ≤Thresold
Gom đối tƣợng vào xấp xỉ trên của Xi & Xj
Gom đối tƣợng vào xấp xỉ dƣới của Xi
Thay đổi thành viên trong cụm? Kết thúc No No Yes Yes
So sánh phân cụm thô và phân cụm K-Means
Voges [16] có sự so sánh phân cụm thô với phân cụm K-Means, nhận thấy hai kỹ thuật phân cụm này đều xác định số cụm cụ thể đƣợc sử dụng. Giải pháp phân cụm thô khác so với K-Means là khả năng nhóm đối tƣợng trong nhiều cụm khác nhau. Phân cụm thô cũng tạo nhiều cụm hơn phân cụm K-Means [16], với số lƣợng cụm cần thiết để mô tả dữ liệu phụ thuộc vào khoảng cách đo. Nhiều cụm có nghĩa là một đối tƣợng có cơ hội cao trong hơn một cụm. Một giải pháp với quá ít các cụm không cung cấp một giải pháp hữu ích các phân vùng của dữ liệu. Mặt khác, quá nhiều cụm làm cho lời giải khó khăn. Ngoài ra, mức độ trùng lặp giữa các cụm đƣợc giảm thiểu để đảm bảo rằng mỗi cụm đƣợc cung cấp thông tin để hỗ trợ trong việc giải thích.