o Sim(q,dj) = [Σ wij * wiq] / |dj| * |q|
o Làm thế nào để tớnh được trọng số wij và wiq ?
o Một trọng số tốt phải thỏa món được một số điều kiện sau - Xỏc định được nội dung của Intra-Documents (Tương tự)
Thành phần tf, thuật ngữ về tần suất bờn trong tài liệu - Xỏc định được phần cắt của Inter-Documents (Phi tương tự)
Thành phần idf, tần suất đảo tài liệu - wij = tf(i,j) * idf(i)
Vớ dụ:
- Một thu thập cú 10,000 tài liệu
- Thuật ngữ A xuất hiện 20 lần trong những tài liệu cụ thể
- Khả năng xuất hiện lớn nhất của một thuật ngữ trong tài liệu là 50 - Thuật ngữ A xuất hiện trong 2000 tài liệu
• f(i,j) = freq(i,j) / max(freq(l,j)) = 20/50 = 0.4
• wij = f(i,j) * log(N/ni) = 0.4 * 2.32 = 0.93
4.3. PHÂN CỤM THEO CẤU TRÚC WEB
4.3.1. Đặc điểm và phộp đo tương tự
Trang web chứa đựng khụng chỉ một trang duy nhất mà cũn cú những siờu liờn kết trỏ tới cỏc trang web khỏc. Những siờu liờn kết đú chứa đựng một số lượng khổng lồ những lời chỳ thớch. Một siờu liờn kết trỏ tới một trang web khỏc cú thể được xem xột như là lời chứng thực của tỏc giả trang web [9][19].
ỉ Phộp phõn tớch liờn kết web được sử dụng cho những mục đớch:
- Sắp thứ tự tài liệu phự hợp với truy vấn của người sử dụng, đú là sự xếp hạng.
- Quyết định web nào được đưa vào lựa chọn. - Phõn trang
- Tỡm kiếm những trang liờn quan. - Tỡm kiếm những bản sao của web. ỉ Web được xem như là đồ thị:
- Liờn kết đồ thị: Mỗi nỳt là một trang, cú hướng từ u đến v nếu cú một siờu liờn kết từ trang web u sang trang web v.
- Đồ thị đồng trớch dẫn: Mỗi nỳt cho một trang, khụng cú hướng từ u đến v nếu cú một trang thứ ba (w) cú liờn kết đến cả u và v.
- Giả định: Một liờn kết từ trang A đến trang B được thụng bỏo ở trang B bởi trang A. Nếu A và B được kết nối bởi một đường liờn kết thỡ rất cú khả năng hai trang web này đều cú những nội dung giống nhau.
- Khỏm phỏ ra một nhúm những trang Web giống nhau để phõn cụm. Để phõn cụm, chỳng ta phải chỉ ra sự giống nhau của hai nỳt theo một tiờu chuẩn nào đú.
- Tiờu chuẩn I: Đối với mỗi trang web A và B. Ta núi A và B là quan hệ với nhau khi cú một siờu liờn kết từ A đến B hoặc từ B đến A.