1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật xử lý trong

28 660 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 235,53 KB

Nội dung

Báo cáo tập lớn xử lý ngôn ngữ tự nhiên GVHD: PGS Lê Thanh Hương SVTH: Ngô Ngọc Đức Bùi Tuấn Điệp Nguyễn Huy Dưỡng Nguyễn Văn Dương Nguyễn Văn Kiên 20080738 20080663 20080575 20086082 20081453  Đề tài:Tìm hiểu cấu trúc hệ thống tìm kiếm thơng tin Google kỹ thuật xử lý tìm kiếm thông tin Google Nội dung báo cáo  A.Tổng quan hệ thống Search engine  B Ranking I.Giới thiệu ranking II Một số kỹ thuật sử dụng Ranking III Thuật toán Pagerank IV Google Panda Các phận cấu thành nên hệ thống search engine  1.Bộ thu thập thơng tin Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu  2.Bộ lập mục Thực việc phân tích, trích chọn thơng tin cần thiết từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu  3.Bộ tìm kiếm thơng tin Là thành phần xử lý truy vấn từ phía người sử dụng, tiếp nhận yêu cầu tìm kiếm ,phân tích từ, tìm kiếm Cơ sở liệu mục, so khớp từ khóa, lấy kết phù hợp, sau trả lại kết cho người sử dụng thông qua giao diện GUI Nguyên lý hoạt động search engine  1.Search Engine điều khiển robot thu thập thông tin mạng thông qua siêu liên kết Hyperlink  2.Robots phát website mới, gửi tài liệu webpage cho server để tạo CSDL mục phục vụ cho nhu cầu tìm kiếm thơng tin  3.Search engine nhận yêu cầu truy vấn từ User, tiến hành phân tích, tìm CSDL mục trả tài liệu thỏa yêu cầu Ranking  Trong lĩnh vực tìm kiếm, ranking kỹ thuật đánh giá giá trị kết tập trả người dùng truy vấn Bằng cách thức cho điểm, danh sách kết xếp theo thứ tự trước sau tương ứng với số điểm Các kỹ thuật sử dụng ranking Đánh giá thống kê Thuật toán dựa vào yếu tố sau điểm từ khoá trang Web:  Số lần xuất từ khoá viết  Tỉ lệ tần suất xuất từ khoá với độ dài viết Thuật toán mang tính chất thống kê tương đối Khơng phải viết có xuất tần suất xuất cao từ khoá thứ mà người tìm kiếm cần Các kỹ thuật sử dụng ranking 2.Đánh giá theo địa trang  Đây cách đánh giá độ quan trọng từ khóa với trang Web thường có trọng số cao Thay từ khóa nằm viết lại nằm đường dẫn URL hay tên miền trang Web (domain name) Các kỹ thuật sử dụng ranking Đánh giá từ khoá quan trọng  Web Page tài liệu có định dạng hiển thị Thơng dụng chuẩn HTML Dựa vào cấu trúc định dạng đó, thuật tốn cho điểm cao với từ khóa nằm thẻ đặc biệt  Cách thông thường mà Search Engine hay áp dụng cho điểm cao với từ khoá nằm anchor text(liên kết), thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 từ khoá in đậm, viết hoa Các kỹ thuật sử dụng ranking 4.Đánh giá từ gần  Thuật tốn cho phép tính tốn độ gần từ khoá Đánh giá theo ngày tháng  Thơng thường, người tìm kiếm có xu hướng tìm kiếm vấn đề hay kiện xảy  Chẳng hạn, với từ khoá "Ronaldo", người ta quan tâm đến vấn đề Ronaldo gần cặp kè với ai, đá cho đội hay mức lương bao nhiêu? PageRank  Chỉ số PageRank cho biết trang web có quan trọng hay khơng theo cách nhìn nhận Google Website có số PageRank cao chứng tỏ website có chất lượng cao quan trọng Vì thế, tìm kiếm, Google ưu tiên cho site có PageRank cao  Tất nhiên tìm kiếm khơng phải website có PageRank cao xếp trang đầu tiên, điều phụ thuộc vào việc bạn muốn tìm kiếm nhiều yếu tố khác Google kết hợp PageRank với số heuristics khác kết phù hợp Cơng thức thuật tốn PageRank  Giá trị PageRank trang Pi tính sau:  Trong đó: • P1,P2,…,Pn trang cần tính PageRank • M(Pi) tập trang có link trỏ tới trang Pi • L(Pj) số link từ trang Pj • N tổng số trang • Tham số giảm sóc d có giá trị xấp xỉ 0.85 Ý nghĩa thuật toán Định nghĩa thuật tốn PageRank cho ta thấy có yếu tố ảnh hưởng đến vị trí trang web Google Đó là:  Số lượng link đến ( incoming links): Thơng thường nhiều link đến tốt  Số lượng link trang web trỏ tới ( outgoing links): Càng tốt  Thuật toán PageRank đơn phần thuật toán xếp hạng Google  Ta coi yếu tố bổ sung, xử lý kết tìm kiếm Google sau tất tính tốn khác hồn tất PageRank tính tốn a.Phương pháp lặp: Tại t=0 Giả sử phân bố xác suất ban đầu là: Tại bước, ta tính theo cơng thức: PageRank tính tốn  Hoặc cơng thức : (*)   Trong đó: ma trận N*1 gồm toàn số Ma trận định nghĩa sau:  Mij=1/L(pj) trang j có link tới trang i  Mij=0 trường hợp cịn lại Thuật tốn kết thúc khi: PageRank tính tốn b.Phương pháp đại số Cho (Khi trạng thái ổn định) Phương trình (*) trở thành: (**) Do ta tính R sau: Với I ma trận đơn vị cấp n PageRank tính tốn c Phương pháp “Power Method”  Chuỗi Markov  Chuỗi Markov trình ngẫu nhiên thời gian rời rạc với tính chất Markov thông qua tập trạng thái  Tuân theo ma trận xác suất chuyển đổi P:  Pij = Xác suất chuyển đến trạng thái j trạng thái i  ∑jPij =  Chú ý: Trạng thái chuỗi phụ thuộc vào trạng thái thời chuỗi PageRank tính toán  Phương pháp Power Method PageRank tính tốn  Áp dụng tính PageRank Ta có: Phương trình (**) trở thành: Bây để tính R ta dùng hàm: PowerMethod( , V0 , Trong Ma trận xác suất chuyển đổi M định nghĩa sau: Mij=0 Nếu trang i khơng có link đến trang j Mij=1/L(i) Nếu trang I có link đến trang j Mii=0 trường hợp Mij=1/n j=1 n Nếu trang i khơng có link đến trang E ma trận chứa ) Google Panda Algorithm  Tháng 11-2011 Google thức thay đổi thuật tốn Ranking lấy tên Panda Đây thay đổi mạnh mẽ Google Thuật toán Panda có tư tưởng chủ đạo “ Content is King”  Nó loại bỏ giảm số xếp hạng trang web có nội dung chất lượng, chép nội dung, trang web có nội dung chủ yếu sưu tập từ trang khác, tăng số xếp hạng trang có nội dung nguồn chất chất lượng  Thuật toán Panda cố gắng xác định nguồn gốc, tác giả nội dung tăng thứ hạng cho trang đó, đồng thời hạ thứ hạng tất trang có nội dung trùng lặp với nội dung Những tiêu chí thuật tốn Google Panda:  “Content is king”: Coi trọng liệu Coi trọng liệu text.Chính tả ngữ pháp quan trọng  Tỉ lệ viết có nội dung trùng lặp Điều áp dụng cho trang riêng lẻ, cho trang web hai  Thời gian khách truy cập website Nếu người dùng tìm thấy nội dung hữu ích đáp ứng nhu cầu họ, khả họ lại website để tìm thơng tin liên quan cao Do trang web mà người dùng giành nhiều thời gian để đọc tìm viết website Google đánh giá cao Những tiêu chí thuật tốn Google Panda:  Tỷ lệ Bounce Rate Thuật toán Google đưa website người dùng thường xuyên truy cập website có giá trị  Tỷ lệ khách hàng quay trở lại  Mạng xã hội Mục đích Google Panda để giúp chọn lọc website hoạt động thực người khơng phải máy móc (Auto post) Do mạng xã hội tiêu chí đánh giá quan trọng yếu tố tương tác mạnh có người làm Facbook, Youtube, Twister… Những tiêu chí thuật tốn Google Panda:  Lượng nội dung gốc site trang  Số lượng link trỏ đến trang web  Số lượng từ không tự nhiên trang  Tỷ lệ người dùng kích qua trang kết Google (cho trang site)  Tỷ lệ nội dung không trung thực (như tất trang)  Số lượng quảng cáo trang web Thanks for listening ... Đề tài: Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google kỹ thuật xử lý tìm kiếm thơng tin Google Nội dung báo cáo  A.Tổng quan hệ thống Search engine  B Ranking... Một số kỹ thuật sử dụng Ranking III Thuật toán Pagerank IV Google Panda Các phận cấu thành nên hệ thống search engine  1.Bộ thu thập thông tin Robot chương trình tự động duyệt qua cấu trúc siêu... sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu  3.Bộ tìm kiếm thơng tin Là thành phần xử lý truy vấn từ phía người sử dụng, tiếp nhận yêu cầu tìm kiếm ,phân tích từ, tìm kiếm Cơ sở liệu mục,

Ngày đăng: 23/10/2014, 23:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w