Cỏc thuật toỏn phõn cụm tài liệu dựa trờn TRSM

Một phần của tài liệu Ứng dụng tập thô vào tìm kiếm Web (Trang 59)

Cựng với sự ra đời của mụ hỡnh tập thụ dung sai [14], một vài thuật toỏn phõn cụm tài liệu dựa trờn mụ hỡnh này cũng được giới thiệu [14, 17]. Điểm mới chớnh mà TRSM mang lại trong cỏc thuật toỏn phõn cụm chớnh là cỏch biểu diễn cỏc cụm và tài liệu.

5.2.1. Biểu diễn cụm

Như đó trỡnh bày ở chương 3, việc xỏc định cỏch biểu diễn cụm là yếu tố rất quan trọng trong phõn cụm phõn hoạch. Thụng thường, cụm được biểu diễn như là giỏ trị trung bỡnh hay trung vị của tất cả cỏc tài liệu trong nhúm đú. Tuy nhiờn, đụi khi một cỏch biểu diễn khụng dựa vào vector lại cần thiết khi mụ tả về cụm xuất phỏt trực tiếp từ sự biểu diễn của nú. Vớ dụ cụm cú thể biểu diễn bằng phần lớn cỏc từ riờng biệt từ cỏc tài liệu trong cụm (chẳng hạn hầu hết cỏc từ nằm trong cụm nhưng khụng thường xuyờn xuất hiện một cỏch toàn diện).

Trong [17], một cỏch tiếp cận để xõy dựng một cỏch biểu diễn cụm đó được giới thiệu. Giả sử Rk ký hiệu cho cỏch biểu diễn của cụm k. Ta cần xõy dựng một tập của cỏc từ chỉ mục Rk biểu diễn cụm Ck sao cho:

- Mỗi tài liệu di trong Ck cú chung một hoặc nhiều từ với Rk

- Cỏc từ trong Rk xuất hiện trong hầu hết cỏc tài liệu của cụm Ck

- Cỏc từ trong Rk khụng phải xuất hiện trong tất cả cỏc tài liệu của Ck Trọng số của từ tj trong Rk được tớnh là giỏ trị trung bỡnh cỏc trọng số của tất

cả cỏc lần xuất hiện trong cỏc tài liệu của Ck: ij W W | { | }| i K d C kj i k j i d C t d     

Thuật toỏn xỏc định cỏch biểu diễn cụm 1: Rk =  2: foreach (di Ck tj di){ 3: if ( fCk(tj)/|Ck | > σ){ 4: Rk = Rk tj 5: } 6: } 7: foreach (di Ck ){ 8: if ( di ∩ Rk = ∅){ 8: argmax w j i k k t d ij RR   9: } 10:} Giả sử ( ) k C j

f t là số lượng văn bản trong Ck cú chứa tj. Giả sử trờn dẫn tới cỏc qui tắc sau để tạo ra cỏc cỏch biểu diễn cụm:

Tập biểu diễn đầu tiờn được khởi tạo là rỗng, cỏc từ xuất hiện trong cỏc tài liệu trong cụm với tần số cho phộp (được điều khiển bởi ngưỡng ) được thờm vào. Sau pha này, mỗi tài liệu chưa được biểu diễn trong tập biểu diễn (vớ dụ cỏc tài liệu khụng cú cỏc từ chung với Rk), cỏc từ “mạnh nhất/khỏe nhất” từ cỏc tài liệu đú được thờm vào cỏch biểu diễn cụm.

5.2.2. Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM

Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM là 1 dạng khỏc của thuật toỏn phõn cụm K-Means cú phủ giữa cỏc cụm với một số cải tiến sau:

Sử dụng xấp xỉ trờn của cỏc tài liệu khi tớnh toỏn độ tương tự giữa tài liệu với tài liệu và giữa tài liệu với cỏc cụm.

Cỏc tài liệu được gỏn mềm vào cụm với giỏ trị thành viờn (membership) thớch hợp.

Sử dụng khỏi niệm “hàng xúm gần nhất” (nearest-neighbor) để gỏn cỏc tài liệu chưa được phõn cụm vào cụm.

Việc sử dụng xấp xỉ trờn trong đỏnh giỏ độ tương tự làm giảm số lượng giỏ trị độ tương tự bằng 0 là sự cải tiến chớnh của thuận toỏn dựa trờn TRSM so với cỏc cỏch tiếp cận truyền thống khỏc. Điều này cho phộp hai văn bản là tương tự (chẳng hạn cú độ tương tự khỏc 0) mặc dự chỳng khụng cú chung cỏc từ.

Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM Input:

Tập cỏc tài liệu D. Số lượng cụm K.

Output: K cụm tài liệu từ trong tập D với giỏ trị thành viờn phự hợp Thuật toỏn:

1. Lấy ngẫu nhiờn k tài liệu từ trong tập D để khởi tạo cho K cụm C1, C2, …, Ck. Đặc trưng của cỏc cụm được thể hiện bởi cỏc tập R1, R2, …, Rk 2. Repeat

Foreach di D{

Foreach Ck (k=1,…, K) {

Tớnh toỏn độ tương tự giữa xấp xỉ trờn của tài với cỏc đặc trưng của cụm S(Ur(di), Rk)

If (S(Ur(di), Rk) > ) then{

Gỏn di vào cụm Ck với mức độ thành viờn được tớnh là: m(di, Ck)= S(Ur(di), Rk)

}

}

}

foreach( Ck){

Tớnh lại biểu diễn cụm Rk }

Until Thành viờn của cỏc cụm khụng cú sự thay đổi hoặc sự thay đổi rất

nhỏ

3. Gỏn cỏc tài liệu chưa được phõn cụm vào cỏc lỏng giềng gần nhất. 4. foreach( Ck){

Tớnh lại biểu diễn cụm Rk }

5.2.3. Thuật toỏn phõn cụm phõn cấp dựa trờn TRSM

Thuật toỏn phõn cụm phõn cấp theo kiểu vun đống dựa trờn TRSM được giới thiệu trong [14]. Nú sử dụng xấp xỉ trờn để tớnh toỏn độ tương tự giữa cỏc cụm trong bước hũa nhập.

Tất cả cỏc thuật toỏn phõn cụm hiện tại đó được đỏnh giỏ với bộ dữ liệu test chuẩn và đó cho thấy một số thành cụng [14, 17].

Một phần của tài liệu Ứng dụng tập thô vào tìm kiếm Web (Trang 59)