slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

21 468 0
slike thuyết trình đề tài đề tài  tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

GVHD:PGS- T S Lê Thanh Hươ ng Nhóm 29: Nguyễn Q u a ng Huy Nguyễn Trọng Tú Tr ầ n Đức Việt Tìm hiểu cấu trúc google hiện tại và các kĩ thuật xử lý trong tìm kiếm thông tin I.Giới thiệu công cụ tìm kiếm  1.Công cụ tìm kiếm là gì?  Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và có cơ chế xử lý và tìm được thông tin tương ứng. Thông tin cần tìm sẽ tương ứng với một câu truy vấn 2.Các thành phần của công cụ tìm kiếm:  Bộ thu thập thông tin(Robot)  Bộ lập chỉ mục  Bộ tìm kiếm thông tin 3.Nguyên tắc của công cụ tìm kiếm Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn được 3 điều kiện: - Cho phép tìm kiếm trong một tập hợp lớn các trang web. - Đưa ra kết quả gần với mong muốn của người sử dụng nhất. - Tốc độ tìm kiếm chấp nhận được 3.Nguyên tắc của công cụ tìm kiếm Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank page và searching. Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google II.Công cụ tìm kiếm google Kiến trúc hệ thống: Web crawler Web crawler là bộ phận chịu trách nhiệm download các trang web và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu. Mục đích thiết kế của web crawler là làm cho nó download được số lượng trang web nhiều nhất trong khả năng đáp ứng của tài nguyên mạng và tốc độ, khả năng lưu trữ của máy Web crawler Indexing Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục vụ cho các truy vấn. Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ mục offset (offset index),chỉ mục text (text index) và chỉ mục link/graph (link/graph index). INDEXING  Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ liệu.  Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ liệu.  Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD: Gọi đến tập các trang mà trang X trỏ tới ). [...]... nhau trên tất cả các trang)  Tỷ lệ người dùng kích qua các trang kết quả của Google …… SEARCHING  Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)  Lợi ích của PageRank trong tìm kiếm là rất lớn  VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN  Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web liên quan đến ĐHBKHN  Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ hiện ra đầu tiên... các trang web liên quan đến ĐHBKHN  Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ hiện ra đầu tiên SEARCHING  Qui trình tìm kiếm:  Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt động, liên kết, PageRank Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào có ảnh hưởng... mục cơ sở này và các trang web, khối Phân Tích sẽ xây dựnglên các chỉ mục gốc khác nhau Ví dụ, sử dụng chỉ mục liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ mục PageRank ) PAGE RANK  PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google, được phát triển tại Đại học Stanford bởi Larry Page và Sergey Brin... chỉ có 1 từ đơn.Với mục đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm trêndanh sách chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…) trên những kết quả phù hợp, mỗi thuộc tính có điểm của riêng nó  Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính  Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng Sau đó sử dụng... copy, loại bỏ những website có thương hiệu kém… Google Panda là bộ lọc quan trọng để cải tiến các kết quả tìm kiếm mới của Google GOOGLE PANDA ALGORITHM  những tiêu chí chính trong thuật toán Google Panda:  “Content is king”  Thời gian khách truy cập trên website  Tỷ lệ khách hàng quay trở lại  Lượng nội dung gốc trên site hoặc mỗi trang  Số lượng các link trỏ đến trang web  Mạng xã hội  Tỷ... đến các trang T1 thông qua Tn, PageRank của trang A được xác định bởi phương trình sau đây: PR (A) = (1-d) + d (PR (T1) / C (T1) + + PR (Tn) / C (TN)) PR (A) là PageRank của trang "A" đang được tính toán, PR (Tn) là PageRank của Tn C (Tn) là tổng số các liên kết đi trên Tn và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận PAGERANK Có 2 yếu tố ảnh hưởng đến vị trí của trang web của bạn trên Google. .. trang có 5 link đi ra và 1 trang có 10 link đi ra thì PageRank đ ược tính từ trang có 5 link đi ra sẽ gấp đôi trang có 10 link đi ra PAGE RANK  Thuật toán PageRank trên thực tế rất đơn giản Nhưng khi một phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần thì thuật toán trở lên rất phức tạp!  PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả tìm kiếm của Google Nhưng nó là... thiếu trong việc sắp xếp thứ tự dữ liệu GOOGLE PANDA ALGORITHM  Tháng 11-2011 Google chính th ức thay đổi thuật toán Ranking c ủa mình lấy tên là Panda  Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của n ội dung và tăng thứ hạng cho trang đó, đồng thời hạ thứ hạng của tất cả các trang có nội dung trùng lặp với nội dung trên  Với tầm nhìn rõ ràng của Google Panda là loại bỏ những nội dung... Engine” PAGE RANK  Chỉ số PageRank của một trang web là kết quả bầu chọn của tất cả các trang web khác trên toàn thế giới cho website Mỗi 1liên kết ngược là 1 phiếu bầu Các phiếu bầu này có mức độ ảnh hưởng khác nhau,sự khác nhau đó phụ thuộc vào chất lượng của mỗi trang đặt liên kết ngược.Một trang được liên kết đến bởi các trang có PageRank cao sẽ nhận được PageRank cao Nếu 1 trang web không có liên... vị trí của trang web của bạn trên Google Đó là:  Số lượng các link đi đến ( incoming links)  Thông thường thì càng nhiều link đi đến càng tốt Có 1 điểm đáng chú ý mà thuật toán chỉ ra đó là: Nếu 1trang không có link trỏ đến có th ể gây ra ảnh hưởng ngược lại đến PageRank của trang web mà nó trỏ tới ( C(T) = 0 )  Số lượng các link đi ra của các trang web tr ỏ tới ( outgoing links):  Càng ít càng tốt, . Việt Tìm hiểu cấu trúc google hiện tại và các kĩ thuật xử lý trong tìm kiếm thông tin I.Giới thiệu công cụ tìm kiếm  1.Công cụ tìm kiếm là gì?  Công cụ tìm kiếm( Search Engine) là một hệ thống. lý và tìm được thông tin tương ứng. Thông tin cần tìm sẽ tương ứng với một câu truy vấn 2 .Các thành phần của công cụ tìm kiếm:  Bộ thu thập thông tin( Robot)  Bộ lập chỉ mục  Bộ tìm kiếm thông. thập thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một giao diện giúp cho người dùng có thể chọnthông tin cần tìm và

Ngày đăng: 23/10/2014, 23:26

Từ khóa liên quan

Mục lục

  • Slide 1

  • I.Giới thiệu công cụ tìm kiếm

  • 2.Các thành phần của công cụ tìm kiếm:

  • 3.Nguyên tắc của công cụ tìm kiếm

  • 3.Nguyên tắc của công cụ tìm kiếm

  • II.Công cụ tìm kiếm google

  • Web crawler

  • Web crawler

  • Indexing

  • INDEXING

  • INDEXING

  • PAGE RANK

  • PAGE RANK

  • PAGE RANK

  • PAGERANK

  • PAGE RANK

  • GOOGLE PANDA ALGORITHM

  • GOOGLE PANDA ALGORITHM

  • SEARCHING

  • SEARCHING

Tài liệu cùng người dùng

Tài liệu liên quan