Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
530,26 KB
Nội dung
IT4853 Tìm kiếm trình diễn thơng tin Phân tích liên kết, HITS Giảng viên TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung Giải thuật HITS Tính hội tụ giải thuật HITS Giải thuật HITS Hyperlink-Induced Topic Search (HITS), Klei98 Có hai nhóm kết phù hợp Web: Nhóm 1: Hubs: Trang giới thiệu: chứa danh sách liên kết có chất lượng cao, đáp ứng nhu cầu thơng tin Nhóm 2: Authorities: Trang uy tín: Có nội dung tốt, trực tiếp đáp ứng nhu cầu thơng tin Hầu hết phương pháp tìm kiếm khơng phân biệt hai nhóm kết phù hợp Điểm giới thiệu điểm uy tín Trang giới thiệu tốt cho chủ đề phải chứa nhiều liên kết đến trang uy tín chủ đề Trang uy tín chủ đề phải trích dẫn nhiều trang giới thiệu tốt chủ đề Định nghĩa quay vòng, sử dụng phương pháp lặp để tính điểm giới thiệu điểm uy tín Ví dụ trang giới thiệu trang uy tín Tính điểm giới thiệu điểm uy tín Đầu tiên, thực tìm kiếm bình thường Gọi tập kết tập gốc Mở rộng tập gốc với trang có liên kết với trang đó, gọi tập sở Cuối cùng, tính điểm giới thiệu điểm uy tín cho trang tập sở Tập gốc tập sở Tập gốc Tập gốc: Kết tìm kiếm thơng thường Tập gốc tập sở Tập gốc Các trang với liên kết từ tập gốc Tập gốc tập sở Tập gốc Các trang với liên kết đến tập gốc 10 Tập gốc tập sở Tập sở Tập gốc Tập sở = Tập gốc + Các trang có liên kết với tập gốc 11 Kích thước tập sở [Klei98] Tập gốc thường có 200-1000 nút Tập sở có tới 5000 nút Tìm nút tập sở cách nào? Theo liên kết cách đọc trang tập gốc Lấy liên kết vào (và liên kết ra) từ máy chủ liên kết 12 Tìm trang giới thiệu trang uy tín Khởi tạo: với x, h(x)1; a(x) 1; Lặp cập nhật h(x), a(x); Sau hội tụ Đưa trang với với điểm giới thiệu h() cao , trang với điểm uy tín a() cao Hai danh sách kết quả: theo h() theo a()! 13 Cập nhật giá trị a4 = h1 + h2 + h3 h4 = a5 + a6 + a7 14 Cập nhật giá trị Với trang x : h( x ) a( y) y’s x x y a( x) h( y ) y’s x y x 15 Tỉ lệ Để đảm bảo giá trị h() a() khơng phát triển q lớn, chia giá trị cho số sau vòng lặp Giá trị cụ thể số tỉ lệ không quan trọng: Chúng ta quan tâm tới kết xêp hạng 16 Đặc điểm giải thuật HITS Gom trang chất lượng theo tiêu trí độc lập với nội dung Các trang tập sở thường không chứa từ truy vấn Về mặt lý thuyết, trả trang tiếng Nhật cho truy vấn tiếng Anh Topic drift – Các trang mở rộng hồn tồn khơng liên quan đến câu truy vấn! 17 Nội dung Giải thuật HITS Tính hội tụ giải thuật HITS 18 Tính hội tụ giải thuật HITS Ma trận kề A kích thước nn : n kích thước tập sở Aij = tồn liên kết ij = trường hợp ngược lại A= 1 1 0 19 Viết lại dạng ma trận Gọi h a biểu diễn vec-tơ điểm giới thiệu điểm uy tín Có thể biểu diễn luật cập nhật sau: h=Aa; a=Ath h=AAth a=AtAa Như vậy, h vec-tơ riêng AAt a vec-tơ riêng AtA Có thể xác định vec-tơ riêng phương pháp lũy thừa 20 So sánh PageRank HITS PageRank tính trước, HITS phải tính q trình thực truy vấn Hạn chế khả ứng dụng, khối lượng tính tốn lớn … nhiên, hốn đổi vị trí, áp dụng HITS cho toàn Web PageRank cho tập kết quả! Cho rằng, Web trang có điểm giới thiệu cao thường đồng thời có điểm uy tín cao! Như khác biệt xếp hạng theo HITS theo PageRank khơng q lớn 21 22