ỨNG DỤNG CỦA MƠ HÌNH MARKOV TRONG THUẬT TỐN GOOGLE PAGERANK

10 36 0
ỨNG DỤNG CỦA MƠ HÌNH MARKOV TRONG THUẬT TỐN GOOGLE PAGERANK

Đang tải... (xem toàn văn)

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA    BÁO CÁO BÀI TẬP LỚN NHĨM LỚP L02 Mơn : Đại số tuyến tính ỨNG DỤNG CỦA MƠ HÌNH MARKOV TRONG THUẬT TỐN GOOGLE PAGERANK Giáo viên hướng dẫn: ThS Nguyễn Hữu Hiệp Thành viên MSSSV Nguyễn Hoài Nam 1914229 Đặng Thị Thảo Ngân 1914269 Vũ Hoàng Bảo Ngân 1914296 Đào Hiếu Nghĩa 1914306 Dương Thủy Hoài Ngọc 1914333 Nguyễn Thị Hồng Ngọc 1914349 Chu Thái Nguyên 1914364 Nguyễn Thị Nhàn 1914418 Nguyễn Thanh Nhân 1914440 Lê Anh Nhật 1914473 Đoàn Trần Uyển Nhi 1914499 Mục lục Câu : Ứng dụng mơ hình markov thuật tốn Googale Pagerank….3 I Định nghĩa ………………………………………………………… II Mơ tả……………………………………………………………… III Thuật tốn………………………………………………………… IV Yếu tố Damping…………………………………………………….4 Câu : viết chương trình sử dụng thuật tốn trên………………………………4 Tài liệu tham khảo………………………………………………………………7 Câu : Ứng dụng mơ hình markov thuật toán Googale Pagerank I Định nghĩa Pagerank thuật tốn phân tích liên kết dùng Google Search để xếp hạng trang web Pagerank đặt tên theo Larry Page, nhà đồng sáng lập Google o Thuật toán định giá trị định cho thành phần tập hợp văn liên kết với nhau, ví dụ World Wide Web o Mục đích "đo" tầm quan trọng tương đối liên kết tập hợp o Áp dụng cho tập hợp văn có trích dẫn đối ứng liên kết cụ thể o Giá trị (weight) mà gán cho thành phần E gọi PageRank E ký hiệu Tại cần có pagerank? Khi google ngày phát triển số lượng trang web tăng lên với tốc độ nhanh Việc dẫn đến có nhiều kết (trang web) cho lần tìm kiếm Nó khiến cho người dùng khơng thể phân biệt đâu trang web chứa thông tin liên quan xác với tìm kiếm Văn hóa trích dẫn Một số trang web nên ưu tiên hơn, trang nội dung nguồn Những trang trích dẫn lại, hay nói cách khác sử dụng tài ngun trang nguồn phải ưu tiên II Mơ tả Giá trị Pagerank hình thành từ thuật toán toán học dựa biểu đồ trang web: trang web coi đỉnh đường link cạnh Mỗi đường link tới trang web tính hỗ trợ làm tăng thêm giá trị Pagerank Giá trị Pagerank trang định nghĩa đệ quy phụ thuộc vào số lượng giá trị trang mà có link dẫn đến trang Một trang web có chứa nhiều link liên kết từ trang web có giá trị PageRank cao giá trị PageRank trang cao III Thuật toán Pagerank phân bố xác suất, sử dụng để thể khả người click chuột ngẫu nhiên vào đường link tới trang web cụ thể Xác suất có giá trị từ đến 1, trang web có Pagerank 0.5 có 50% hội click vào link đến trang wed Mơ tả thuật tốn cách đơn giản hóa Giả sử nhóm gồm trang web: A, B, C, D liên kết từ trang đến khơng tính, trang web có đường dẫn đến trang web khác Giá trị Pagerank trang ban đầu cho nhau.Giả sử giá trị ban đầu cho trang 0.25 Pagerank chuyển từ trang đến trang khác đường link, bước tính giá trị chia cho tất liên kết Nếu liên kết hệ thống từ trang B, C D tới A, liên kết chuyển giá trị 0.25 Pagerank A tính lần tiếp theo, tổng cộng 0,75 Khác với ví dụ trên, B có liên kết đến trang C A, D có link đến ba trang Như bước tiếp theo, trang B chuyển tải nửa giá trị mình, tương đương với 0.125 tới trang A 0.125 tới trang C Khi trang D có liên kết trỏ đi, có nghĩa chuyển 1/3 giá trị mình, tương đương với 0.083 tới A Như vậy: Hay Giá trị Pagerank trang u tính sau: ∑ Giá trị PageRank trang u phụ thuộc vào giá trị Pagerank trang v có chứa set Bu (tập hợp có chứa trang có link đến trang u), chia cho số L (v) link từ trang v IV Yếu tố Damping Theo google thống kê, người lướt web trang có 85% xác suất chọn link ngẫu nhiên trang mà họ xem, 15% họ chọn chuyển sang trang web từ tồn hệ thống liên kết Do yếu tố Damping xác suất người dùng tiếp tục click giá Và mang giá trị d=0.85 Cơng thức Pagerank có tính đến yếu tố damping sử dụng mơ hình người dùng cảm thấy chán sau vài lần click chuyển đến vài trang web khác cách ngẫu nhiên Như vậy: ( ) Công thức sử dụng mơ hình người dùng ngẫu nhiên cảm thấy chán sau click chuyển đến số trang ngẫu nhiên Giá trị Pagerank thể hội mà người dùng ngẫu nhiên chuyển đến trang cách click vào đường link Mơ hình hiểu tương tự Markov chain, trạng thái trang web, q trình di chuyển có xác suất ngang coi link trang web Nếu trang web khơng có đường link đến trang khác, thành ngõ cụt việc truy cập ngẫu nhiên dừng lại Nhưng người dùng đến trang khơng có link khác, người dùng chọn ngẫu nhiên trang khác để tiếp tục truy cập Khi tính Pagerank, trang khơng có link trỏ trang khác giả định có link trỏ đến tất trang tập văn Và giá trị Pagerank chia cho trang khác Nói cách khác, để cơng với trang web có outbound link, truy cập ngẫu nhiên thêm vào tất trang Web, với xác suất d=0.85 Câu 2: Viết chương trình sử dụng thuật tốn  Xác định input, output Input: ma trận chuyển đổi quy n n (n số trang web ta xét tới) Output: vecto xác suất trạng thái ổn định xác suất thể khả người click chuột ngẫu nhiên vào đường link tới trang web cụ thể  Các phép toán  Với input trên, chương trình trước tiên tính tốn cơng thức Với ma trận Markov(input)  Sau chương trình tìm vecto xác suất trạng thái ổn định v Ứng với tốn tìm vecto v ứng với Trị riêng =1 ma trận P  Code matlab function pagerank d =0.85; v_sailech= 0.0001; M= input('Nhap ma tran M = '); N = size(M, 2); v = rand(N, 1); v = v / norm(v, 1); v_sau = ones(N, 1) * inf; p = (d * M) + (((1 - d) / N) * ones(N, N)); while(norm(v - v_sau, 2) > v_sailech) v_sau = v; v = p * v; end disp(v); end Ví dụ: Cho trang wed: A, B, C, D,E Giả sử ban đầu giá trị page rank chúng Hãy tính Pagerank trang web chúng có đường link dẫn hình vẽ Giải Code chương trình matlab Kết Tài liệu tham khảo  Sách đại số tuyến tính Đặng Văn Vinh     Trang https://en.wikipedia.org/wiki/PageRank Trang https://vi.wikipedia.org/wiki/PageRank Trang https://forum.machinelearningcoban.com/t/pagerank-va-moi-lien-he-xichmarkov/2122/1 10

Ngày đăng: 19/09/2021, 10:03

Tài liệu cùng người dùng

Tài liệu liên quan