Phân cụm phân cấp

Một phần của tài liệu Nghiên cứu phương pháp phân đoạn ảnh sử dụng phân cụm và ứng dụng trong tra cứu ảnh dựa vào nội dung (Trang 26 - 29)

Phƣơng pháp phân cụm phân cấp(hierachical clustering)[4, 13] xây dựng một cấu trúc cây phân cấp chocác đối tƣợng và có hai phƣơng pháp chính là xây dựng cây theo hƣớng từ trên xuống(top-down) và xây dựng theo hƣớng từ dƣới lên (bottom-up).

Với phƣơng pháp bottom-up, đầu tiên mỗi đối tƣợng đƣợc coi nhƣ một cụm phânbiệt và sau đó tiến hành ghép lần lƣợt 2 cụm giống nhau nhiều nhất hay khác nhau ítnhất làm một đến khi tất cả các cụm đƣợc ghép vào một cụm duy nhất chứa tất cả cácđối tƣợng. Còn phân cụm phân cấp top-down lại ngƣợc với bottom-up, tất cả các đôi tƣợng coi nhƣ một cụm và đƣợc tách thành mỗi đối tƣợng thành một cụm duy nhất. Phƣơng pháp này đƣợc thực hiện bằng thuật toán đệ quy, tiến hànhtách đôi các cụm đến khi từng đối tƣợng phân biệt đƣợc đƣa ra.Phân cụm phân cấp bottom-up

cònđƣợc gọi là phân cụm tích lũy phân cấp (hierachical agglomerativeclustering- HAC).

Trong thực tế phân cụm phân cấp bottom-up đƣợc sử dụng rộng rãi hơn là top- downdo các tiêu chí để ghép cụm trong bottom-up đơn giản và dễ thực hiện hơn việcđánh giá tách cụm trong top-down. Trong báo cáo này tôi tập trung vào phƣơngpháp bottom-uptức là HAC.

Phƣơng pháp HAC

HAC dựa theo đặc thù của thuật toán phân cụm đệ quy và coi mỗi đối tƣợng nhƣmột điểm dữ liệu trong không gian Euclide. Việc tính toán độ tƣơng tự giữa các cụmdựa vào cách tính khoảng cách trong không gian Euclide [14].Bằng cách đi lên từ lớp dƣới cùng lên nút trên đầu, sơ đồ cây phân cấp cho chúngta thấy các bƣớc kết hợp

đôi một từng nhóm. Ví dụ nhìn vào sơ đồ Hình 2.1 ta có thểthấy rằng 2 cụm mang nhãn 1 2 đầu tiên đƣợc nhóm với nhau, sau đó đƣợc nhómvới cụm mang nhãn 3 trở thành cụm 123 đƣợc đƣa ra. Cụm 4 và 5 đƣợc nhóm vớinhau tạo thành cụm 45, cuối cùng hai cụm 123 và 45 ghép lại thành một cụm tổng thếchứa cả 5 đối tƣợng là 12345 để tạo thành một cây với gốc 12345 và các lá lần lƣợt là 1,2, 3, 4, 5.

Hình2.1: Biểu diễn phận cụm phân cấp bottom-up của 5 đối tượng

Phân cụm phân cấp không yêu cầu cố định số cụm và nếu tất cả các đối tƣợng đều thuộc một cụm thì việc phân cụm là vô nghĩa. Vì thế, trong việc phân cụm chúng ta cần bỏ đi một số bƣớc, tức cần dùng một nhát cắt để đƣa ra kết quả phân cụm của mình.

Một số phương pháp tính khoảng cách cụm của HAC

Single link hay single-linkage

Với phƣơng pháp này, khoảng cách giữa các cụm đƣợc định nghĩa là khoảngcách giữa những đối tƣợng giống nhau nhất giữa 2 nhóm:

𝐷 𝑟, 𝑠 = 𝑀𝑖𝑛(𝑑(𝑖, 𝑗)) Trong đó:

r, s: hai cụm

i, j: hai đối tượng bất kỳ thuộc hai cụm

1 2 3 4 5 1, 2 4, 5 1, 2, 3 1, 2, 3, 4, 5

Với 2 cụm, ta tính tất cả các khoảng cách giữa 2 phần tử bất kỳ thuộc 2 cụm đóvàkhoảng cách nhỏ nhất tìm đƣợc chính là khoảng cách giữa 2 cụm đó. Tại mỗi bƣớc,2 cụm gần nhau nhất sẽ đƣợc chọn để ghép lại với nhau.

Complete linkage hay còn gọi là fatherest neighbour – người hàng xóm xa nhất

Phƣơng pháp phân cụm này ngƣợc với single linkage. Với 2 cụm, ta tính tấtcả các khoảng cách giữa 2 phần tử bất kỳ thuộc 2 cụm đó và lấy khoảng cách lớn nhấtgiữa các tài liệu làm khoảng cách giữa 2 cụm. Khoảng cách giữa các cụm đƣợc địnhnghĩa:

𝐷 𝑟, 𝑠 = 𝑀𝑎𝑥(𝑑(𝑖, 𝑗)) Trong đó:

r, s: hai cụm

i, j: hai đối tượng bất kỳ thuộc hai cụm

Average-linkage

Phân cụm bằng cách tính khoảng cách giữa các cụm với average-linkageđánh giá ghép cụm dựa vào toàn bộ độ tƣơng tự giữa tất cả các đối tƣợng trong cụm vì vậy mà nó tránh đƣợc những thiếu sót của hai phƣơng pháp single-linkage complete- linkage – chỉ đánh giá đƣợc một phần các cụm.

𝐷 𝑟, 𝑠 = 𝑀𝑒𝑎𝑛(𝑑(𝑖, 𝑗)) Trong đó:

r, s: hai cụm

i, j: hai đối tượng bất kỳ thuộc hai cụm

Centroid

Khoảng cách giữa các cụm chính là khoảng cách giữa trọng tâm của các cụm.

Đặc điểm phân cụm HAC

Ưu điểm:

 Đơn giản

 Lý thuyết tốt

 Nhƣợc điểm

 Quyết định trộn tách các cụm là vĩnh cửu nên chƣơng trình không có tính quay lui, nếu có quyết định sai thì không thể khắc phục lại.

Một phần của tài liệu Nghiên cứu phương pháp phân đoạn ảnh sử dụng phân cụm và ứng dụng trong tra cứu ảnh dựa vào nội dung (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(57 trang)