L ời cam đ oan iii
3.3.1. Quá trình phân cụm 32
Các tham số dùng trong quá trình phân cụm HAC: G là tập hợp các cụm.
D là tập hợp các cặp <thể hiện đặc trưng, nghĩa> cần phân cụm. Gọi mỗi cặpnày là 1 văn bản.
ןlà ngưỡng để cắt cây phân cấp HAC tìm ra được số cụm, tương ứng là số nhĩm đặc trưng.
Các bước trong quá trình phân cụm:
Độđo tương tự sử dụng trong quá trình phân cụm:
- Độ tượng tự giữa 2 cụm đơn (cụm chỉ chứa 1 văn bản)sử dụng độ đo Euclide, được định nghĩa:
sim (d1 , d2) = cos (d1 , d2)
Trường hợp 1 thể hiện đặc trưng cĩ nhiều nghĩa thì như vậy cụm chứa thể hiện đặc trưng đĩ cĩ thể tương tự với nhiều cụm khác nhau. Để tránh trường hợp này, chúng tơi chỉ xét 1 thể hiện đặc trưng chỉ thuộc 1 cụm nào mà cĩ độ tương tự cao nhất trong các độ tương tựứng với từng nghĩa của thể hiện đặc trưng đĩ với những thể hiện đặc trưng khác.
1. G ՚ {{d} | d thuộc S } (Khởi tạo G là tập các cụm chỉ gồm 1 cặp <thể hiện đặc trưng, nghĩa>
2. Tìm 2 cụm Si và Sj thuộc G sao cho:
(i , j) = arg max(i , j) sim (Si , Sj) (Tìm 2 cụm cĩ độ tương tự lớn nhất)
3. Nếu sim (Si, Sj) <ן thì dừng thuật tốn. (Độ tương tự của 2 cụm nhỏ hơn ngưỡng cho phép)
4. Loại bỏ Si, Sj khỏi G 5. G = G {Si, Sj} 6. Chuyển đến bước 2
33
Nĩi cách khác, nếu gọi I = (di1, di2, …, din) là các nghĩa của tài liệu di và J = (dj1, dj2, …, djm) là các nghĩa của tài liệu dj thì độ tương tựđược tính bởi:
,
( , ) ax os( , )
it jk
i j d I d J it jk
sim d d =m ∈ ∈ c d d
- Độ tương tự giữa 2 cụm khơng đơn S1 và S2 (cụm chứa nhiều hơn 1 văn bản) được tính dựa trên một số phương pháp tính độ tương tự như:
+ Đo độ tương tự giữa trọng tâm c1, c2của S1và S1:
sim(S1, S2) = sim(c1, c2)
+ Đo độ tương tự cực đại giữa 2 văn bản thuộc vào 2 cụm (hay cịn gọi là single- link):
sim(S1, S2) = maxd1∈S d1, 2∈S2sim (d1, d2)
+ Đo độ tương tự cực tiểu giữa 2 mẫu thuộc vào 2 cụm (hay cịn gọi là complete- link):
sim(S1, S2) = mind1∈S d1, 2∈S2sim (d1, d2)
+ Đơ độ tương tự trung bình giữa các mẫu trong 2 cụm (hay cịn gọi là group- average): 1 1 2 2 1 2 1 2 , 1 2 1 ( , ) ( , ) | || |d S d S sim S S sim d d S S ∈ ∈ = ∑
Theo [3], độ đo group-average tránh được những trường hợp khơng mong muốn gặp phải như các độ đo cịn lại, như : Độ đo single-link mang tính cục bộ, do vậy chất lượng phân cụm cĩ thể sẽ kém nếu cĩ trường hợp chỉ cĩ duy nhất 2 văn bản ở trong 2 cụm là gần nhau, cịn các văn bản cịn lại trong 2 cụm là ở rất xa nhau. Độđo complete- link, tương tự với độ đo single-link, chất lượng phân cụm cĩ thể sẽ kém nếu cĩ trường hợp chỉ cĩ duy nhất 2 văn bản ở trong 2 cụm là xa nhau, cịn các văn bản cịn lại trong 2 cụm là ở rất gần nhau. Hơn nữa, cả 2 độ đo này cĩ thể tạo ra các cụm khơng mong muốn do đều đánh giá độ tương tự của 2 cụm dựa trên một cặp văn bản duy nhất. Độ tương tự
giữa trọng tâm của các cụm từ dưới lên trên cây phân cấp cĩ thể là khơng giảm dần. Điều này trái ngược với giả thuyết cơ bản là các cụm nhỏ thường cĩ độ kết dính cao hơn các cụm cĩ kích thước lớn hơn.
34
Từ những nhận xét trên, khĩa luận này tập trung sử dụng độđo Euclide để tính độ tương tự giữa 2 cụm đơn và độ đo group-avarage để tính tốn độ tương tự giữa 2 cụm khơng đơn.