Xỏc định biểu diễn cluster là một việc làm quan trọng trong bài toỏn
clustering. Thụng thường mỗi cluster được biểu diễn như là trung bỡnh hoặc trọng tõm của cỏc tài liệu mà nú chứa. Tuy nhiờn, một biểu diễn khụng dựa trờn vector cần phải cú một mụ tả cluster nhận được một cỏch trực tiếp từ cỏch biểu diễn này.
Chẳng hạn, mỗi cluster cú thể được biểu diễn bằng cỏc thuật ngữ khỏc nhau nhiều nhất trong cỏc tài liệu của cluster.
Cỏc phương phỏp clustering dựa trờn TRSM tạo ra một biểu diễn polythetic Rk cho mỗi cluster Ck với k = 1, 2, …, K. Thực tế thỡ Rk là một tập hợp cỏc thuật ngữ
mà:
• Mỗi tài liệu dj∈ Ck cú một vài hoặc nhiều thuật ngữ chung với Rk
• Cỏc thuật ngữ trong Rk cú mặt trong phần lớn cỏc tài liệu dj ∈ Ck
• Khụng cú thuật ngữ nào trong Rk phải được chứa trong mỗi tài liệu của Ck
Trong lý thuyết Bayesian ta biết luật quyết định tối thiểu húa mức độ rủi ro để gỏn một tài liệu dj vào cluster Ck là:
Với giả thiết rằng cỏc thuật ngữ xuất hiện một cỏch độc lập trong mỗi tài liệu, khi
đú ta cú:
Ký hiệu fC (ti)
k là số tài liệu trong Ck chứa thuật ngữti. Khi đú:
k i C k i C t f C t P k( ) ) | ( =
ở bước 3 của giải thuật ở trờn, tất cả thuật ngữ xuất hiện trong cỏc tài liệu thuộc về
Ckở bước 2 sẽđược xem như là đưa vào Rk và tất cả thuật ngữđang xuất hiện trong
Rk được xem như bị loại bỏ hoặc giữ nguyờn trong Rk. Biểu thức xỏc định P(dj | Ck)
ở trờn và cỏc heuristic của tớnh chất polythetic của biểu diễn cluster giỳp ta lựa chọn cỏc luật để hỡnh thành biểu diễn cluster như sau:
1. Khởi tạo Rk = Θ
2. Với tất cảdj∈Ckvà với tất cảti∈dj, nếu fC ti Ck >σ
k( )/ thỡ Rk = Rk ∪{ti} 3. Nếu dj ∈ Ck và dj∩Rk = Θthỡ Rk= Rk ∪ argmaxti∈djwij
Trọng số của cỏc thuật ngữ ti trong Rk trước tiờn được lấy bằng trung bỡnh trọng số
của tất cả thuật ngữ trong tất cả tài liệu thuộc vềCk, tức là:
} : { j i j C d ij ik d t d w w j k ∈ = ∑ ∈ sau đú được chuẩn húa bởi chiều dài của mụ tảRk.