Các thuật toán phân cụm phân cấp

Phƣơng pháp này còn gọi là phƣơng pháp phân cụm cây, trong đó sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này đƣợc xây dựng theo kỹ thuật đệ quy. Cây phân cụm có thể đƣợc xây dựng theo hai phƣơng pháp tổng quát: phƣơng pháp dƣới lên (Bottum up) và phƣơng pháp trên xuống (Top down).

Các thuật toán theo phƣơng pháp dƣới lên còn gọi là thuật toán trộn (merging algorithm) còn phƣơng pháp trên xuống còn đƣợc gọi là phƣơng pháp tách.

Với quy tắc liên kết để chọn cặp cụm trộn cho trƣớc, phƣơng pháp trộn bao gồm các bƣớc sau.

1. Khởi tạo mỗi phần tử làm một cụm i  xi

2. Khi c ≥ 1 thực hiện lặp:

Chọn hai cụm gần nhất ivà j theo quy tắc chọn trộn ivà jthành ij i j (còn c-1 cụm) Giảm c.

- Ví dụ: Trong mục này ta giả thiết đã có quy tắc liên kết và không bàn cụ thể tới cách chọn cụm trộn. Phƣơng pháp "dƣới lên" phân cụm tập dữ liệu S={a, b,c ,d, e} có thể thực hiện nhƣ sau:

 Bƣớc 0 : Mỗi đối tƣợng dữ liệu đƣợc gán cho mỗi cụm, nhƣ vậy các cụm ban đầu là {a},{b},{c},{d},{e}.

 Bƣớc 1 : {a} và {b} là đƣợc gộp vào thành một cụm lớn hơn là {a,b} và các cụm thu đƣợc là : {a, b}, {c},{d},{e}.

 Bƣớc 2 : gộp cụm {d},{e} thành {d, e}. Các cụm thu đƣợc là {a, b}, {c},{d, e}.

 Bƣớc 3 : gộp cụm {c } với {d,e} thành {c, d, e}. Các cụm thu đƣợc là {a, b}, {c,d, e}.

 Bƣớc 4 : gộp cụm hai cụm {c, d, e} với {a,b} thành {a, b, c, d, e}. Quá trình trên đƣợc mô tả trong hình:

Hình 2.7: Phân cụm phân cấp tập theo phương pháp “dưới lên” [4]

Trong phƣơng pháp phân cụm phân cấp cần nhắc lại cách xác định khoảng cách giữa hai nhóm:

- Single Link : khoảng cách ngắn nhất giữa hai đối tƣợng thuộc hai nhóm

Hình 2.8: Single link

- Complete Link : khoảng cách xa nhất giữa hai đối tƣợng thuộc hai nhóm

Các quy tắc liên kết:

Trong các thuật toán trộn, hai cụmivà j đƣợc chọn để trộn là cặp có "khoảng cách" (hoặc giả khoảng cách) d(i,j) nhỏ nhất. Các khoảng cách này đƣợc định nghĩa khác nhau cho các thuật toán và kết quả phân cụm khác nhau.

Sau đây là một số quy tắc liên kết:

1) Liên kết đơn(NN- Nearest neighbour). Còn gọi là quy tắc láng giềng gần nhất, khoảng cách d(i,j) xác định nhƣ sau:

2) Liên kết đầy (FN furthest neighbour). Còn gọi là phƣơng pháp láng giềng xa nhất, trong đó khoảng cách d(i,j) xác định nhƣ sau:

3) Liên kết trung bình giữa các nhóm. (UPGMA un-weighted pair-group method using arithmetic averages). trong đó khoảng cách d(i,j) xác định nhƣ sau:

4) Liên kết trung bình trong phạm vi nhóm. ( UWGM un-weighted within- group method using arithmetic averages), trong đó khoảng cách d(i,j) xác định nhƣ sau:

5) Phƣơng pháp Ward. Trong đó lấy trung bình tổng bình phƣơng khoảng cách tới tâm trong phạm vi cụm.

Các thuật toán điển hình của phƣơng pháp phân cụm phân cấp đó là: ANGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH (Balanced Interative Reducing and Clustering using Hierarchies), CURE (Clustering Using REpresentatives), ROCK, Chameleon ...

a. Thuật toán AGNES

Phƣơng pháp phân cụm AGNES là kỹ thuật kiểu tích tụ. AGNES bắt đầu ở ngoài với mỗi đối tƣợng dữ liệu trong các cụm riêng lẻ. Các cụm đƣợc hòa nhập theo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặc gặp điều kiện dừng. Hình dạng này của phân cụm phân cấp cũng liên quan đến tiếp cận bottom-up bắt đầu ở dƣới với các nút lá trong mỗi cụm riêng lẻ và duyệt lên trên phân cấp tới nút gốc, nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tƣợng dữ liệu đƣợc chứa trong cụm đó.

Thuật toán AGNES bao gồm các bƣớc cơ bản sau : Bƣớc 1: Mỗi đối tƣợng là một nhóm

Bƣớc 2: Hợp nhất các nhóm có khoảng cách giữa các nhóm là nhỏ nhất (Single Link).

Bƣớc 3: Nếu thu đƣợc nhóm “toàn bộ” thì dừng, ngƣợc lại quay lại bƣớc 2.

Hình 2.10: Các bước cơ bản của AGNES[4]

b. Thuật toán DIANA

DIANA thực hiện đối lập với AGNES. DIANA bắt đầu với tất cả các đối tƣợng dữ liệu đƣợc chứa trong một cụm lớn và chia tách lặp lại, theo phân loại giống nhau dựa trên luật, cho đến khi mỗi đối tƣợng dữ liệu của cụm lớn đƣợc chia tách hết. Hình dạng của cụm phân cấp cùng liên quan đế tiếp cận top-down bắt đầu

xuống các nút lá dƣới cùng nơi tất cả các đối tƣợng dữ liệu từng cái đƣợc chứa trong cụm của chính mình.

Trong mỗi phƣơng pháp của hai phƣơng pháp, có thể số các cụm dẫn tới các mức khác nhau trong phân cấp bằng cách duyệt lên hoặc xuống cây. Mỗi mức có thể khác nhau số các cụm và tất nhiên kết quả cũng khác nhau.

Một hạn chế lớn của cách tiếp cận này là các cụm đƣợc hòa nhập hoặc phân chia một lần, không thể quay lại quyết định đó, cho dù hòa nhập hoặc phân chia không phải là thích hợp ở mức đó.

Thuật toán DIANA bao gồm các bƣớc cơ bản sau : Bƣớc 1: Tất cả các đối tƣợng là một nhóm

Bƣớc 2: Chia nhỏ nhóm có khoảng cách giữa những đối tƣợng trong nhóm là lớn nhất (Complete Link).

Bƣớc 3: Nếu mỗi nhóm chỉ chứa một đối tƣợng thì dừng, ngƣợc lại quay lại quay lại bƣớc 2.

Hình 2.11: Các bước cơ bản của DIANA[4]

Cả hai thuật toán AGNES và DIANA về cơ bản mặc dù đơn giản nhƣng thƣờng gặp khó khăn khi ra các quyết định tới hạn cho việc lựa chọn của điểm hoà nhập hay phân chia một cách chính xác. Quyết định nhƣ vậy gọi là tới hạn bởi một khi một nhóm các đối tƣợng đƣợc hoà nhập hay chia, xử lý tại bƣớc tiếp theo sẽ làm việc trên trên các cụm mới sinh ra. Nó sẽ không bao giờ huỷ những việc đã làm trƣớc đó và cũng không thực hiện chuyển đổi đối tƣợng giữa các cụm. Do vậy các quyết định hoà nhập hay phân chia nếu không đủ sáng suốt ở mổi bƣớc thì có thể dẫn tới chất lƣợng các cụm sẽ kém. Hơn nữa, phƣơng pháp này khả năng mở rộng

không đƣợc tốt nên quyết định hoà nhập hay phân chia cần kiểm định và đánh giá một số lƣợng tốt các đối tƣợng hay các cụm.

c. Thuật toán BRICH

BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lƣợc Topdown. Tƣ tƣởng của BIRCH là không lƣu toàn bộ đối tƣợng dữ liệu của các cụm trong bộ nhớ mà chỉ lƣu các tham số thống kê. Đối với mỗi cụm dữ liệu, BIRCH chỉ lƣu bộ ba (N, LS, SS), trong đó N là số đối tƣợng trong cụm, LS là tổng các giá trị thuộc tính của các đối tƣợng trong cụm và SS là tổng bình phƣơng của các giá trị thuộc tính của các đối tƣợng trong cụm. Bộ ba này đƣợc gọi là đặc trƣng cụm (Cluster Feature - CF). Khi đó các cụm trong tập dữ liệu ban đầu sẽ đƣợc cho dƣới dạng một cây CF. Ngƣời ta đã chứng minh đƣợc rằng các đại lƣợng thống kê nhƣ độ đo có thể xác định từ cây CF.

Hình 2.12: Cấu trúc cây CF

Cây CF là một cây cân bằng nhằm lƣu các đặc trƣng của cụm. Một cây CF chứa các nút cha và lá, nút cha chứa các nút con, nút lá không có con. Nút cha lƣu giữ tổng các đặc trƣng cụm của các nút con của nó.

Cây CF có hai đặc trƣng cơ bản sau:

- Yếu tố nhánh (Branching Factor- B) nhằm xác định số lƣợng nút con tối đa trong một nút cha.

- Ngƣỡng (Threshold- T) nhằm xác định khoảng cách tối đa giữa bất kỳ một cặp đối tƣợng trong nút lá của cây CF, khoảng cách này chính là đƣờng kính của các cụm con đƣợc lƣu lại ở nút lá.

Thuật toán BIRCH đƣợc thực hiện qua hai giai đoạn sau:

Giai đoạn 1 : Duyệt tất cả các đối tƣợng trong tập dữ liệu và xây dựng một cây CF ban đầu. Ở giai đoạn này các đối tƣợng lần lƣợt đƣợc chèn vào nút lá gần nhất của cây CF (nút lá của cây đóng vai trò cụm con), sau khi chèn xong thì mọi nút trên cây CF đƣợc cập nhật thông tin. Nếu đƣờng kính của cụm con sau khi chèn lớn hơn ngƣỡng T thì nút đƣợc tách. Quá trình này đƣợc lặp đi lặp lại cho đến khi tất cả các đối tƣợng đều đƣợc chèn vào cây CF.

Giai đoạn 2 : BIRCH chọn một giải thuật toán phân cụm bất kỳ (nhƣ thuật toán phân hoạch) để thực hiện phân cụm cho tất các các nút lá CF.

Đánh giá thuật toán BIRCH: Ƣu điểm:

Nhờ sử dụng cây CF, BIRCH có tốc độ phân cụm nhanh độ phức tạp O(n) (vì BIRCH chỉ duyệt toàn bộ dữ liệu một lần). BIRCH đƣợc áp dụng đối với tập dữ liệu lớn, đặc biệt phù hợp với các dữ liệu gia tăng theo thời gian.

Nhƣợc điểm:

Chất lƣợng cụm đƣợc khám phá bởi BIRCH là không tốt. Tham số ngƣỡng T ảnh hƣởng lớn đến kích thƣớc và tính tự nhiên của cụm.

2.4.3. Các thuật toán phân cụm dựa trên mật độ

Để tìm ra các cụm có mật độ dày, với hình dạng tuỳ ý, các phƣơng pháp phân cụm dựa trên mật độ đã đƣợc phát triển, nó kết nối các miền với mật độ đủ cao vào trong các cụm hay phân cụm các đối tƣợng dựa trên phân bố hàm mật độ.

Chúng ta có các thuật toán phân cụm dựa trên mật độ nhƣ : DBSCAN, DENCLUE, CLIQUE , OPTICS...

a. Thuật toán DBSCAN

Thuật toán DBSCAN là một giải thuật phân cụm dựa trên mật độ, đƣợc phát triển bởi Ester, Kriegel, Sander và Xu năm 1996. Giải thuật này tăng trƣởng các

miền với mật độ cao vào trong các cụm và khám phá ra các cụm có hình dạng bất kỳ trong không gian cơ sở dữ liệu có nhiễu.

Ý tƣởng cơ bản của phân cụm dựa trên mật độ : Đối với mỗi đối tƣợng của một cụm, láng giềng trong một bán kính cho trƣớc (ε) (gọi là ε-láng giềng) phải chứa ít nhất một số lƣợng tối thiểu các đối tƣợng (MinPts). Một đối tƣợng nằm trong một bán kính cho trƣớc (ε) chứa không ít hơn một số lƣợng tối thiểu các đối tƣợng láng giềng (MinPts), đƣợc gọi là đối tƣợng nồng cốt (core object) đối với bán kính (ε) và số lƣợng tối thiểu các điểm (MinPts). Một đối tƣợng p là mật độ trực tiếp tiến (directly density-reachable) từ đối tƣợng q với bán kính ε và số lƣợng tối thiểu các điểm MinPts trong một tập các đối tƣợng D nếu p trong phạm vi ε-láng giềng của q với q chứa ít nhất một số lƣợng tối thiểu điểm MinPts.

Một đối tƣợng p là mật độ tiến (density-reachable) từ đối tƣợng q với bán kính ε và MinPts trong một tập hợp các đối tƣợng D nếu nhƣ có một đối tƣợng p1, p2, …,pn, p1=q và pn=p với 1 ≤ i ≤ n, pi thuộc D và pi+1 là mật độ trực tiếp tiến từ pi đối với ε và MinPts

Một đối tƣợng p là mật độ liên kết với đối tƣợng q đối với ε và MinPts trong một ập đối tƣợng D nếu nhƣ có một đối tƣợng o thuộc D để cả p và q là mật độ tiến từ o đối với ε và MinPts.

DBSCAN có thể tìm ra các cụm với hình thù bất kỳ, trong khi đó tại cùng một thời điểm ít bị ảnh hƣởng bởi thứ tự của các đối tƣợng dữ liệu nhập vào. Khi có một đối tƣợng đƣợc chèn vào chỉ tác động đến một láng giềng xác định. Mặt khác, DBSCAN sử dụng tham số ε và MinPts trong thuật toán để kiểm soát mật độ của các cụm. DBSCAN bắt đầu với một điểm tuỳ ý và xây dựng mật độ láng giềng có thể đƣợc đối với ε và MinPts. Vì vậy, DBSCAN yêu cầu ngƣời dùng xác định bán kính ε của các láng giềng và số các láng giềng tối thiểu MinPts, các tham số này khó mà xác định đƣợc tối ƣu, thông thƣờng nó đƣợc xác định bằng phép chọn ngẫu nhiên hoặc theo kinh nghiệm.

Độ phức tạp của DBSCAN là O(n2), nhƣng nếu áp dụng chỉ số không gian để giúp xác định các láng giềng của một đối tƣợng dữ liệu thì độ phức của BSCAN đã đƣợc cải tiến là O(nlogn). Thuật toán DBSCAN có thể áp dụng cho các tập dữ liệu

không gian lớn đa chiều, khoảng cách Euclide đƣợc sử dụng để đo sự tƣơng tự giữa các đối tƣợng nhƣng không hiệu quả đối vớidữ liệu đa chiều.

Hình 2.13: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN

Thuật toán : DBSCAN khởi tạo điểm p tùy ý và lấy tất cả các điểm liên lạc mật độ từ p tới ε và MinPts. Nếu p là điểm nhân thì thủ tục trên tạo ra một cụm theo ε và MinPts, nếu p là một điểm biên, không có điểm nào liên lạc mật độ từ p và DBSCAN sẽ đi thăm điểm tiếp theo của tập dữ liệu. Nếu sử dụng giá trị toàn cục ε và MinPts, DBSCAN có thể hoà nhập hai cụm thành một cụm nếu mật độ của hai cụm gần bằng nhau.

Giả sử khoảng cách giữa hai tập dữ liệu S1 và S2 đƣợc định nghĩa là : dist(S1, S2) = min{dist(p, q)} {p  S1 và q  S2}.

b. Thuật toán OPTICS

Mặc dù giải thuật phân cụm dựa trên mật độ DBSCAN có thể tìm ra cụm các đối tƣợng với việc lựa chọn các tham số đầu vào nhƣ ε và MinPts, ngƣời dùng vẫn chịu trách nhiệm lựa chọn các giá trị tham số tốt để tìm ra các cụm chính xác. Trên thực tế, đây là bài toán có sự kết hợp của nhiều giải thuật phân cụm khác. Các thiết lập tham số nhƣ vậy tƣơng đối khó, đặc biệt trong thế giới thực, các tập dữ liệu có số chiều cao. Hầu hết các giải thuật rất nhạy với các tham số: các thiết lập có sự khác biệt nhỏ có thể dẫn tới các phân chia dữ liệu rất khác nhau. Hơn nữa, các tập dữ liệu thực số chiều cao thƣờng có phân bố rất lệch, thậm trí ở đó không tồn tại một thiết lập tham số toàn cục cho đầu vào.

Để khắc phục khó khăn này, một phƣơng pháp sắp xếp cụm gọi là OPTICS đƣợc phát triển bởi Ankerst, Breunig , Kriegel và Sander năm 1999. nó cải tiến bằng cách giảm bớt các tham số đầu vào.

Thuật toán này không phân cụm các điểm dữ liệu mà thực hiện tính toán và sắp xếp trên các điểm dữ liệu theo thứ tự tăng dần nhằm tự động phân cụm dữ liệu và phân tích cụm tƣơng tác hơn là đƣa ra phân cụm một tập dữ liệu rõ ràng. Đây là thứ tự mô tả cấu trúc phân dữ liệu cụm dựa trên mật độ của dữ liệu, nó chứa thông tin tƣơng ứng với phân cụm dựa trên mật độ từ một dãy các tham số đƣợc thiết lập và tạo thứ tự của các đối tƣợng trong cơ sở dữ liệu, đồng thời lƣu trữ khoản cách lõi và khoảng cách liên lạc phù hợp của mỗi đối tƣợng. Hơn nữa, thuật toán đƣợc đề xuất rút ra các cụm dựa trên thứ tự thông tin. Nhƣ vậy thông tin đủ cho trích ra tất cả các cụm dựa trên mật độ khoảng cách bất kỳ ’ mà nhỏ hơn khoảng cách  đƣợc sử dụng trong sinh thứ tự

Việc sắp xếp thứ tự đƣợc xác định bởi hai thuộc tính riêng của các điểm dữ liệu đó là khoảng cách nhân và khoảng cách liên lạc. Các phép đo này chính là kích thƣớc mà có liên quan đến quá trình của thuật toán DBSCAN, tuy nhiên, chúng đƣợc sử dụng để xác định thứ tự của các điểm dữ liệu đã đƣợc xắp xếp. Thứ tự dựa trên cơ sở các điểm dữ liệu mà có khoảng cách nhân nhỏ nhất và tăng dần độ lớn.

Hình 2.14: Sắp xếp cụm trong OPTICS phụ thuộc vào [4]

trị tham số mà sẽ dãn đến khám phá các cụm chấp nhận đƣợc. Các thiết lập tham số thƣờng dựa theo kinh nghiệm tập hợp và khó xác định, đặc biệt là với các tập dữ liệu đa chiều.

Tuy nhiên, nó cũng có độ phức tạp thời gian thực hiện nhƣ DBSCAN bởi vì có cấu trúc tƣơng đƣơng với DBSCAN : O(nlogn) với n là kích thƣớc của tập dữ liệu. Thứ tự cụm của tập dữ liệu có thể đƣợc biểu diễn bằng đồ thị, và đƣợc minh họa hình sau, có thể thấy ba cụm, giá trị  quyết định số cụm.

2.4.3. Các thuật toán phân cụm dựa vào lưới

Một tiếp cận dựa trên lƣới dùng cấu trúc dữ liệu lƣới đa phân giải. Trƣớc tiên nó lƣợng tử hóa không gian vào trong một số hữu hạn các ô mà đã hình thành nên cấu trúc lƣới, sau đó thực hiện tất cả các thao tác trong cấu trúc lƣới đó. Thuận lợi

Các kỹ thuật phân cụm khác

Các thuật toán phân cụm phân hoạch