Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
22,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN PHÂN TÍCH LINK • GVHD: - PGS TS Hồ Bảo Quốc • Học Viên: - Phạm Thành Đạt – 16C12001 - Nguyễn Thị Huệ Minh – 16C12003 NỘI DUNG CHÍNH PageRank Hubs Authorities Tính hiệu PageRank PageRank Topic-Sensitive Link Spam Thuật toán PageRank Đối với số web search trước đó: blue sky blue sky Sao chép nội dung SPAM - Người dùng Web Search tự bỏ phiếu cho trang web mà họ truy cập đến SPAM Giải pháp - Dựa hành vi lướt web người dùng Web Search, trang web có nhiều người dùng lướt qua trang quan trọng nằm đầu danh sách tìm kiếm PAGERANK PageRank gì? - Pagerank phân bố xác suất khả người click chuột ngẫu nhiên vào đường link tới đc trang web cụ thể - PageRank gán số cho trang web - Một trang có PageRank cao, "tính quan trọng" cao - Thuật tốn PageRank khơng cố định, có nhiều biến thể chúng làm thay đổi PageRank tương đối hai trang web PAGERANK PageRank gì? Xác suất bắt đầu v0= A B C D 1/2 MaBtrận chuyển đổi 1/3 0 1/2 A C 1/3 0 1/2 D 1/3 1/2 0 PAGERANK PageRank gì? V=V0.M V0 V1 V2 V3 Xác suất bắt đầu v0= A B C D 1/2 MaBtrận chuyển đổi 1/3 0 1/2 V50 Xác suất người dùng truy cập đến trang A cao so với trang khác => Trang A có tầm quan trọng cao so với trang khác A C 1/3 0 1/2 D 1/3 1/2 0 PAGERANK Cấu trúc web Từ in SCC liên kết đến Chỉ liên kết đến SCC (in SCC) Liên kết đến out SCC Liên kết mạnh mẽ với (SCC) Kết thúc chết Chỉ SCC liên kết đến (out SCC) Bẫy nhện Từ in SCC liên kết đến out SCC 10 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn - Tiêu chí: • Một Hub tốt liên kết đến Authorities tốt • Một Authority tốt liên kết Hubs tốt - h = La ( số) - a = LTh ( số) 24 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn - h = La ( số) - a = LTh ( số) h, a đủ nhỏ dừng - Tính h = La - Tính lại h - h = LLTh - a = LTLa - Khởi tạo h vector đơn vị - Tính a = LTh - Tính lại a với giá trị lớn 25 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn 26 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn 27 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn - h = La ( số) - a = LTh ( số) - a, b, c, d, e => h - va, vb, vc, vd, ve - h = LLTh - a = LTLa - Tính LLT Bắt đầu tính LTL để tìm a - Đặt v = 1/() - Đặt thành phần h tương ứng nút từ A đến E a đến e 28 HUBS AND AUTHORITIES - Ví dụ mơ tả thuật tốn 29 LINK SPAM Kiến trúc Spam Farm - Spam Farm tập hợp trang web tạo với mục đích làm tăng PageRank trang định Các trang truy cập được: trang Spam không ảnh hưởng trang Các trang sở hữu: sở hữu kiểm soát Các trang truy cập được: khơng kiểm sốt, ảnh hưởng 30 LINK SPAM Hoạt động Spam Farm - Trên trang web có n trang liên kết tới - Xét Spam Farm có trang đích t m trang hỗ trợ - x số lượng PageRank n trang truy cập đến t - y PageRank t Đóng góp x từ bên ngồi PageRank trang hỗ trợ: y tính từ nguồn Chia n trang truy cập đến t: 31 LINK SPAM Hoạt động Spam Farm Đóng góp x từ bên ngồi PageRank trang hỗ trợ: y tính từ nguồn Chia n trang truy cập đến t: y tính sau: Chọn = 0.85 1/(1-2) = 3.6 c = 0.46 32 LINK SPAM Các phương pháp chống Link Spam 3.1 TrustRank: biến thể PageRank Topic – Sensitive thiết kế để làm giảm số trang spam 3.2 Spam Mass: tính tốn để xác định trang spam cho phép cơng cụ tìm kiếm loại bỏ trang hạ thấp PageRank cách mạnh mẽ 33 LINK SPAM 3.1 TrustRank Chủ đề là: tập trang đáng tin cậy spam Cách làm 1: Con người tự kiểm tra tập trang định xem chúng có đáng tin cậy hay khơng Cách làm 2: Chọn miền kiểm soát: edu, org, 34 LINK SPAM 3.2 Spam Mass Ý tưởng: tính PageRank thơng thường TrustRank cho trang Cụ thể: Giả sử trang p có PageRank r TrustRank t Spam Mass p (r – t)/r Ý nghĩa: Spam Mass có giá trị âm trang p khơng spam Spam Mass có giá trị dần trang p spam 35 PAGERANK HIỆN TẠI Xem video 36 KẾT LUẬN Google cơng cụ tìm kiếm mạnh mẽ tính đến thời điểm 37 CÁM ƠN THẦY VÀ CÁC BẠN ĐÃ LẮNG NGHE 38 ...2 NỘI DUNG CHÍNH PageRank Hubs Authorities Tính hiệu PageRank PageRank Topic-Sensitive Link Spam Thuật toán PageRank Đối với số web search trước đó: blue sky blue... tìm kiếm PAGERANK PageRank gì? - Pagerank phân bố xác suất khả người click chuột ngẫu nhiên vào đường link tới đc trang web cụ thể - PageRank gán số cho trang web - Một trang có PageRank cao,... PageRank cao, "tính quan trọng" cao - Thuật tốn PageRank khơng cố định, có nhiều biến thể chúng làm thay đổi PageRank tương đối hai trang web PAGERANK PageRank gì? Xác suất bắt đầu v0= A B C D