Phân cụm phân cấp HAC (Hierachical agglomerative clustering)

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 50 - 54)

Bài toán phân cụm Web là một bài toán quan trọng trong lĩnh vực khai phá dữ liệu Web. Phân cụm Web là việc tự động sinh ra các cụm trang web dựa vào sự tương tự của các trang web. Số lượng cụm Web chưa được biết trước, nhiệm vụ của hệ thống phân cụm Web là tự động đưa ra các tập trang Web, mỗi tập tương ứng với một cụm sao cho các

39

trang Web ở trong một cụm có độ tương đồng cao, các trang Web ở trong các cụm khác nhau có độ tương đồng thấp [1].

Phương pháp phân cụm phân cấp HAC xây dựng một cấu trúc cây phân cấp cho các tài liệu theo hướng từ dưới lên (bottom-up). Để tìm ra cụm, đầu tiên mỗi phần tử được coi như một cụm phân biệt, sau đó tiến hành ghép 2 cụm giống nhau nhiều nhất hoặc khác nhau ít nhất. Thuật toán dừng lại khi gặp một trong ba điều kiện: đã đạt được số cụm mong muốn, chỉ còn một cụm duy nhất chứa tất cả các trang Web hoặc thỏa mãn môt điều kiện dừng nào đó. Sơ đồ trong hình 16 minh họa cho ý tưởng thuật toán HAC:

Hình 18. Sơ đồ thuật toán phân cụm HAC [1]

Khóa luận sử dụng điều kiện dừng là hoặc khi đã đạt được số cụm mong muốn hoặc khi độ tương đồng của tất cả các cụm đều nhỏ hơn một ngưỡng tương đồng α.

Thuật toán HAC cho phân cụm Web

Các tham số trong thuật toán:

A B C D E F BC DE DEF BCDEF ABCDEF

40

- G = {G1, G2, ... Gn} là tập các cụm

- D = {d1, d2, ... dm} là tập m trang Web cần phân cụm

- k là tham số để dừng thuật toán khi số lượng cụm mong muốn đã được tạo ra

- q là tham số ngưỡng dừng thuật toán khi độ tương tự giữa 2 cụm nhỏ hơn một ngưỡng nào đó.

Thuật toán

Để ghép 2 cụm giống nhau nhiều nhất hoặc khác nhau ít nhất vào một cụm, thuật toán HAC yêu cầu đo khoảng cách (hay độ tương đồng) giữa các cụm.

Một số phƣơng pháp đo khoảng giữa các cụm

 Độ tương tự giữa trọng tâm của cụm Gi và Gj:

sim (Gi,Gj) = sim (ci, cj)

Với ci, cj lần lượt là trọng tâm của 2 cụm Gi và Gj.

 Độ tương tự cực đại giữa 2 tài liệu thuộc vào 2 cụm (single-link hay single-

linkage):

sim (Gi,Gj) = ( )

Trong đó: di là tài liệu trong cụm Gi, dj là tài liệu trong cụm Gj.

1. 𝐺 ← 𝑑 𝑑 𝐷 (Khởi tạo G là tập các cụm chỉ gồm một trang Web trong

tập D)

2. Nếu |G| < k thì dừng thuật toán ( Đã được số lượng cụm mong muốn ). 3. Tìm 2 cụm GiGj thuộc G sao cho (i,j) = arg max(i,j) sim (Gi,Gj) ( Tìm 2

cụm có độ tương tự lớn nhất ).

4. Nếu sim (Gi,Gj) < q thì dừng thuật toán ( độ tương tự của 2 cụm nhỏ hơn ngưỡng cho phép )

5. Loại bỏ Gi, Gj khỏi G

6. 𝐺 𝐺 ∪ 𝐺𝑖 𝐺𝑗 (ghép 2 cụm Gi, Gj và đưa vào trong tập G )

41

Trong phương pháp này, khoảng cách giữa 2 cụm được định nghĩa là độ tương tự lớn nhất của 2 tài liệu trọng 2 cụm. Phương pháp này cho độ chính xác không cao với trường hợp chỉ có duy nhất 2 tài liệu ở trong 2 cụm là tương đồng cao, còn các tài liệu còn lại trong 2 cụm có độ tương đồng rất thấp.

Hình 19: Phân cụm với độ đo single-link [1]

 Độ tương tự cực tiểu giữa 2 tài liệu thuộc 2 cụm (complete-link):

sim (Gi,Gj) = ( )

Hình 20: Phân cụm với độ đo complete-link [1]

Trong phương pháp này, khoảng cách giữa hai cụm i, j được tính bằng độ tương đồng của hai tài liệu nằm trong hai cụm có giá trị nhỏ nhất. Giải thuật phâm cụm với

complete-link kém chính xác khi hai tài liệu trong cụm có độ tương đồng rất thấp, trong

khi trọng tâm của hai cụm này có độ tương đồng cao.

42

sim (Gi,Gj)=| | ∑ ( )

Phương pháp tính toán độ tương tự giữa hai cụm dựa trên độ tương tự của toàn bộ các cặp tài liệu trong hai cụm chứ không phải dựa trên một cặp tài liệu duy nhất, do đó phương pháp tránh được nhược điểm của độ đo single-linkcomplete-link.

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 50 - 54)

Tải bản đầy đủ (PDF)

(78 trang)