.Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 61 - 63)

Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM là 1 dạng khỏc của thuật toỏn phõn cụm K-Means cú phủ giữa cỏc cụm với một số cải tiến sau:

Sử dụng xấp xỉ trờn của cỏc tài liệu khi tớnh toỏn độ tương tự giữa tài liệu với tài liệu và giữa tài liệu với cỏc cụm.

Cỏc tài liệu được gỏn mềm vào cụm với giỏ trị thành viờn (membership) thớch hợp.

Sử dụng khỏi niệm “hàng xúm gần nhất” (nearest-neighbor) để gỏn cỏc tài liệu chưa được phõn cụm vào cụm.

Việc sử dụng xấp xỉ trờn trong đỏnh giỏ độ tương tự làm giảm số lượng giỏ trị độ tương tự bằng 0 là sự cải tiến chớnh của thuận toỏn dựa trờn TRSM so với cỏc cỏch tiếp cận truyền thống khỏc. Điều này cho phộp hai văn bản là tương tự (chẳng hạn cú độ tương tự khỏc 0) mặc dự chỳng khụng cú chung cỏc từ.

Thuật toỏn phõn cụm khụng phõn cấp dựa trờn TRSM Input:

Tập cỏc tài liệu D. Số lượng cụm K.

Output: K cụm tài liệu từ trong tập D với giỏ trị thành viờn phự hợp

Thuật toỏn:

1. Lấy ngẫu nhiờn k tài liệu từ trong tập D để khởi tạo cho K cụm C1, C2, …, Ck. Đặc trưng của cỏc cụm được thể hiện bởi cỏc tập R1, R2, …, Rk 2. Repeat

Foreach di D{

Foreach Ck (k=1,…, K) {

Tớnh toỏn độ tương tự giữa xấp xỉ trờn của tài với cỏc đặc trưng của cụm S(Ur(di), Rk)

If (S(Ur(di), Rk) > ) then{

Gỏn di vào cụm Ck với mức độ thành viờn được tớnh là: m(di, Ck)= S(Ur(di), Rk)

}

}

}

foreach( Ck){

Tớnh lại biểu diễn cụm Rk }

Until Thành viờn của cỏc cụm khụng cú sự thay đổi hoặc sự thay đổi rất nhỏ

3. Gỏn cỏc tài liệu chưa được phõn cụm vào cỏc lỏng giềng gần nhất. 4. foreach( Ck){

Tớnh lại biểu diễn cụm Rk }

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 61 - 63)

Tải bản đầy đủ (PDF)

(89 trang)