3.3. Thuật toán phân cụm sử dụng cây phân cụm tài liệu
3.3.2. Trích chọn đặc trưng và phân cụm tài liệu
Nhiệm vụ đầu tiên là nhận biết một phương pháp trích chọn đặc trưng tốt thích hợp cho môi trường Web. Trong phần này, luận văn trình bày một phương pháp trích chọn đặc trưng. Ngoài ra, tài liệu và sự biểu diễn phân cụm tài liệu cũng sẽ được mô tả. Cuối cùng, phương pháp ước lượng chất lượng phân cụm cũng sẽ được trình bày.
a, Trích chọn đặc trưng tài liệu
Phương pháp trích chọn đặc trưng cho thuật toán phân cụm tài liệu Web được đưa ra không phụ thuộc vào tần xuất xuất hiện từ. Phương pháp này cân bằng các yếu tố khác nhau để đạt được sự kết hợp tốt nhất giữa độ hồi tưởng và số các đặc trưng sử dụng cho biểu diễn tài liệu. Trong vấn đề của chúng ta phạm vi phân cụm mục tiêu để giúp đỡ trong việc lấy thông tin trong việc tìm kiếm bằng cách thu hẹp phạm vi tìm kiếm. Trong một viễn cảnh, người sư dụng có thể không muốn quá nhiều phân cụm trong kết quả. Đồng thời, các cụm quá lớn hoặc quá nhỏ là không được mong muốn.
Các cụm quá lớn không thể giúp thu hẹp phạm vi tìm kiếm. Các cụm qúa nhỏ có thể làm tăng tổng số các cụm,và nó có thể thậm chí gây nên trạng thái “nhiễu”. Tham số k được sử dụng để thiết lập một số xấp xỉ trên cỡ của cụm. Do đó số các phân cụm là xấp xỉ N/k, trong đó N là tổng số các tài liệu. Phương pháp được đề xuất bao gồm các bước sau:
1. Lấy ngẫu nhiên một tập con của các tài liệu với cỡ m từ tập sao lục.
2. Trích tập các từ có xuất hiện ít nhất một lần trong các tài liệu.
Xoá các từ kết thúc và kết nối các từ vào cùng một gốc bằng cách sử dụng kỹ thuật lấp đầy.
3. Đếm tần xuất tài liệu của các từ đã được trích trong bước 2.
4. Đặt lower=k và upper=k
5. Lấy tất cả các từ với tần xuất tài liệu trong giá trị từ lower và upper.
6. Kiểm tra nếu coverage ( độ hồi tưởng) của các từ là lớn hơn ngưỡng định nghĩa trước. Nếu vậy, dừng. Nếu không, đặt lower=lower-1 và upper=upper+1, và quay lại bước 5.
Để trích chọn các đặc trưng tiêu biểu từ các tài liệu, chúng ta lựa chọn ngẫu nhiên một tập các tài liệu mẫu cho bước trích chọn đặc trưng trong bước 1. Một vài thử nghiệm [24] chỉ ra rằng phương pháp trích chọn đặc trưng này có thể trích ra một tập các đặc trưng tốt cho phân cụm tài liệu Web. Một danh sách các từ kết thúc thường được sử dụng để xoá các từ ít có ý nghĩa. Kỹ thuật lấp đầy thường được sử dụng để kết nối các từ này trong dạng tương tự.
Bởi vì các vector đặc trưng ngắn nhất dẫn tới thời gian phân cụm ngắn hơn, bước 4 và 6 cố gắng để làm nhỏ nhất số các đặc trưng và thu được độ hồi tưởng hợp lý cho các đặc trưng. Thừa nhận người sử dụng muốn cụm kết quả bao gồm khoảng k tài liệu.Trong trường hợp lý tưởng, một đặc trưng cho một cụm sẽ xuất hiện chỉ trong cụm và do đó tần xuất tài liệu của của đặc trưng là k. Bởi vậy, đầu tiên chúng ta chọn các đặc trưng với tần xuất tài liệu là bằng k, bằng cách thiết lập lower và upper bằng k trong bước 4. Khoảng giá trị {lower, upper} là tăng lên một cách lặp lại trong bước 6 để bảo đảm đủ bảo phủ cho tập đặc trưng kết quả. Chúng ta thấy rằng N/k chỉ là một hướng dẫn phỏng đoán, số lượng thực tế các phân cụm của kết quả phân cụm có thể không giống như N/k. Phương pháp cũng sử dụng một ngưỡng hồi tưởng để đảm bảo rằng các đặc trưng được chọn
có đủ độ hồi tưởng. Với các thử nghiệm ([24]), chúng ta thấy rằng 0.8 là giá trị ngưỡng hồi tưởng khá tốt.
b, Biểu diễn tài liệu
Trong thuật toán của chúng ta, một tài liệu (Di) được biểu diễn theo dạng sau: Di=(Wi,IDi), trong đó IDi là sự nhận dạng tài liệu có thể được sử dụng để lấy tài liệu (Di), và Wi là vector đặc trưng của tài liệu:
Wi=(wi1,wi2,...,win). Do đó n là số các đặc trưng đã được trích chọn, và wij là trọng số của đặc trưng thứ j, trong đó j Є {1,2,..,n}. Trong thuật toán của chúng ta, sự sắp xếp trọng số nhị phân được sử dụng. Đó là, wij =1 nếu Di
bao gồm đặc trưng thứ j, ngược lại, wij =0. Như đã đề cập tại phần trích chọn đặc trưng phía trên, một trang Web điển hình không bao gồm nhiều từ mà tần xuất xuất hiện của một từ không biểu thị sự quan trọng trong thực tế của từ này. Bởi vậy, lược đồ trọng số nhị phân là thích hợp nhất cho phạm vi vấn đề của chúng ta.
c, Phân cụm tài liệu (DC)
Một giá trị phân cụm tài liệu (DC- Document Cluster) là một bộ ba thông tin mà chúng ta duy trì bởi một tập các tài liệu trong cùng một cụm:
(1) số các tài liệu
(2) tập các nhận dạng tài liệu (3) vector đặc trưng của phân cụm
Định nghĩa1: (DC) Cho N tài liệu trong một phân cụm:
{D1,D2,...DN}, giá trị DC của một nút được định nghĩa như một bộ ba: DC
= (N,ID,W), trong đó N là số lượng các tài liệu trong cụm, ID là tập các nhận dạng tài liệu của các tài liệu trong cụm, ví dụ ID={ID1,ID2,...IDN}, và
W là vector đặc trưng của cụm tài liệu, ví dụ W=(w1,w2,...,wn), trong đó wj=∑ , và n là số các đặc trưng đã được trích chọn.
= N
i
wij 1
Bộ ba này không chỉ ra tổng hợp tần suất tài liệu trong cụm, nhưng có thể sử dụng để đánh giá sự giống nhau giữa hai cụm. Bổ đề sau cung cấp một cách linh hoạt kết nối hai cụm thành một và cho ra giá trị DC cho cụm kết hợp.
Bổ đề [24] (Phép cộng) Cho DC1 = (N1,ID1,W1) and DC2= (N2,ID2,W2) là bộ giá trị DC của hai cụm tài liệu tách rời, trong đó tách rời có nghĩa là một tài liệu không thuộc về nhiều hơn một cụm tại cùng một thời điểm. Khi đó bộ giá trị DC mới, DCnew, của cụm được hình thành bằng cách kết hợp hai cụm tách biệt là: DCnew = (N1+N2, ID1 ID∪ 1, W1+W2), trong đó W1+W2= (w11+w21,w12+w22,...,w1n+w2n), và n là số các đặc trưng đã được trích chọn.
d, Các kỹ thuật đánh giá
Để đánh giá chất lượng của kết quả việc phân cụm, chúng ta chọn kỹ thuật đánh giá F-Measure (độ đo lường F) [23]. Chi tiết của phương pháp đánh giá được mô tả như sau:
Cho từng topic được gán nhãn bằng tay T trong tập tài liệu, giả sử rằng một phân cụm X tương ứng với topic đó được hình thành.
N1= số các tài liệu của topic T trong phân cụm X N2=số các tài liệu trong phân cụm X
N3= tổng số các tài liệu của topic T P=Precision(X,T)=N1/N2
R=Recall(X,T)=N1/N3
F-measure cho topic T được địng nghĩa như sau:
F(T)=
R P
PR + 2
Với đánh giá cao với một topic T, chúng ta quan tâm phân cụm với độ đo F-measure cao nhất để phân cụm C cho T, và độ đo F-measure đó trở thành điểm số cho topic T. Độ đo overall F-measure[22] cho cây kết quả phân cụm là giá trị trung bình của F-measure cho từng topic T:
Overall_F_Measure=
∑ ∑
∈
∈ ×
M T M T
T T F T ( )) (
trong đó M là tập các topic, |T| là số các tài liệu của topic T, và F(T) là F-Measure cho topic T.