Biểu diễn cluster – cluster representation

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 89 - 91)

Xỏc định biểu diễn cluster là một việc làm quan trọng trong bài toỏn

clustering. Thụng thường mỗi cluster được biểu diễn như là trung bỡnh hoặc trọng tõm của cỏc tài liệu mà nú chứa. Tuy nhiờn, một biểu diễn khụng dựa trờn vector cần phải cú một mụ tả cluster nhận được một cỏch trực tiếp từ cỏch biểu diễn này.

Chẳng hạn, mỗi cluster cú thể được biểu diễn bằng cỏc thuật ngữ khỏc nhau nhiều nhất trong cỏc tài liệu của cluster.

Cỏc phương phỏp clustering dựa trờn TRSM tạo ra một biểu diễn polythetic Rk cho mỗi cluster Ck với k = 1, 2, …, K. Thực tế thỡ Rk là một tập hợp cỏc thuật ngữ

mà:

• Mỗi tài liệu djCk cú một vài hoặc nhiều thuật ngữ chung với Rk

• Cỏc thuật ngữ trong Rk cú mặt trong phần lớn cỏc tài liệu djCk

• Khụng cú thuật ngữ nào trong Rk phải được chứa trong mỗi tài liệu của Ck

Trong lý thuyết Bayesian ta biết luật quyết định tối thiểu húa mức độ rủi ro để gỏn một tài liệu dj vào cluster Ck là:

Với giả thiết rằng cỏc thuật ngữ xuất hiện một cỏch độc lập trong mỗi tài liệu, khi

đú ta cú:

Ký hiệu fC (ti)

k là số tài liệu trong Ck chứa thuật ngữti. Khi đú:

k i C k i C t f C t P k( ) ) | ( =

ở bước 3 của giải thuật ở trờn, tất cả thuật ngữ xuất hiện trong cỏc tài liệu thuộc về

Ckở bước 2 sẽđược xem như là đưa vào Rk và tất cả thuật ngữđang xuất hiện trong

Rk được xem như bị loại bỏ hoặc giữ nguyờn trong Rk. Biểu thức xỏc định P(dj | Ck)

ở trờn và cỏc heuristic của tớnh chất polythetic của biểu diễn cluster giỳp ta lựa chọn cỏc luật để hỡnh thành biểu diễn cluster như sau:

1. Khởi tạo Rk = Θ

2. Với tất cảdjCkvà với tất cảtidj, nếu fC ti Ck

k( )/ thỡ Rk = Rk ∪{ti} 3. Nếu djCkdjRk = Θthỡ Rk= Rk ∪ argmaxtidjwij

Trọng số của cỏc thuật ngữ ti trong Rk trước tiờn được lấy bằng trung bỡnh trọng số

của tất cả thuật ngữ trong tất cả tài liệu thuộc vềCk, tức là:

} : { j i j C d ij ik d t d w w j k ∈ = ∑ ∈ sau đú được chuẩn húa bởi chiều dài của mụ tảRk.

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 89 - 91)

Tải bản đầy đủ (PDF)

(118 trang)