Indexer của Google

Một phần của tài liệu Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm google (Trang 25 - 28)

Googlebot cung cấp cho các chỉ mục đầy đủ của các dữ liệu trong các trang mà nó tìm thấy. Những trang này được lưu trữ trong cơ sở dữ liệu chỉ mục của Google. Chỉ số này được sắp xếp theo bảng chữ cái của thuật ngữ tìm kiếm, với mỗi chỉ mục lưu trữ một danh sách các tài liệu nơi mà các thuật ngữ xuất hiện và vị trí trong văn bản mà nó xảy ra. Cấu trúc dữ liệu này cho phép truy cập nhanh đến các tài liệu có chứa thuật ngữ truy vấn.

26

Để cải thiện hiệu suất tìm kiếm, Google sẽ bỏ qua (không chỉ) từ thông thường gọi là stoped words (ví dụ the, is, on, or, of, why,how, cũng như một số con số và chữ cái đơn).Stoped word xuất hiện nhiều mà không dùng nó cũng không làm ảnh hưởng đến kết quả tìm kiếm,nên stoped word có thể loại bỏ được. Indexer cũng bỏ qua một số dấu chấm câu và dấu cách, cũng như chuyển đổi tất cả các chữ cái thành chữ cái thường, để tăng hiệu suất làm việc của Google.

1.3.3.Bộ xử lý truy vấn của Google

Bộ xử lý truy vấn có một số bộ phận, bao gồm giao diện người dùng (hộp tìm kiếm), "cơ chế" nơi đánh giá truy vấn và so sánh chúng với các tài liệu có liên quan, và kết quả định dạng.

PageRank là một hệ thống của Google để xếp hạng các trang web. Một trang với hệ PageRank cao hơn được coi là quan trọng hơn và có khả năng được đưa ra ở trên trong kết quả tìm kiếm so với một PageRank thấp hơn.

Google xem xét hơn một trăm các yếu tố trong việc tính toán một PageRank và xác định những tài liệu phù hợp nhất với một truy vấn,trong đó bao gồm các yếu tố trang web đó có phổ biến hay không?, vị trí và kích thước của các từ tìm kiếm trong trang, và sự tương ứng của các từ tìm kiếm với các trang khác.

Google cũng áp dụng kỹ thuật để nâng cao hiệu quả tự động tìm kiếm của nó bằng cách tìm hiểu các mối quan hệ và các hiệp hội trong các dữ liệu được lưu trữ. Ví dụ hệ thống sửa lỗi chính tả sử dụng các kỹ thuật như vậy để tìm ra khả năng thay thế cách viết. Google giữ chặt chẽ các công thức dùng để tính toán phù hợp, Google đang tinh chỉnh để nâng cao chất lượng và hiệu suất, và để ngăn chặn các kĩ thuật mới nhất của các spammer.

Lập chỉ mục đầy đủ các văn bản của các trang web cho phép Google không chỉ đơn giản là phù hợp với điều kiện tìm kiếm mà còn nhiều hơn thế. Google ưu tiên hơn cho các trang có yêu cầu tìm kiếm tương tự nhau và theo thứ tự như truy vấn. Google cũng có thể làm việc với các cụm từ và các câu. Kể từ khi Google lập

27

chỉ số mã HTML ngoài các văn bản trên trang web, người dùng có thể giới hạn tìm kiếm dựa trên việc sử dụng các thuật ngữ tìm kiếm, ví dụ như intitle, inurl,link….

CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ

CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN

2.1. Các cú pháp tìm kiếm nâng cao trong Google

Ngoài các kỹ thuật tìm kiếm cơ bản ta đã tìm hiểu trong chương trước, Google cũng cung cấp các thuật ngữ đặc biệt được gọi là advanced operator

(phương pháp khai thác tìm kiếm nâng cao,tiên tiến)để giúp ta thực hiện các truy vấn nâng cao .Cách khai thác tiên tiến này nếu sử dụng đúng cách có thể giúp ta có được chính xác các thông tin ta đang tìm kiếm mà không cần tốn quá nhiều thời gian suy nghĩ sau khi trang kết quả tìm kiếm hiển thi. Khi các advanced operator

không được cung cấp trong một truy vấn thì Google sẽ xác định xem các thuật ngữ tìm kiếm đó có trong những trang Web nào , bao gồm tiêu đề, nội dung liên quan, Uniform Resource Locator (URL), hoặc những điều thứ tương tự như thế. Trong phần này chúng ta sẽ tìm hiểu về advanced operator:

 intitle, allintitle  inurl, allinurl  filetype  allintext  site  link  inanchor  daterange  cache  info  related

28  phonebook  author  group  msgid  insubject  stocks  define

Một phần của tài liệu Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm google (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(70 trang)