Giới thiệu về khảo duyệt web

Thuật ngữ máy tìm kiếm là các trang web đặc biệc đƣợc thiết kế nhằm giúp ngƣời dùng tìm kiếm các thông tin đƣợc lƣu trữ trên các trang web khác. Có rất nhiều máy tìm kiếm nhƣng hầu nhƣ tất cả các máy tìm kiếm đều có ba nhiệm vụ chính nhƣ sau:

- Tìm kiếm các thông tin trên Internet hoặc dựa trên các từ khoá quan trọng.

- Đánh chỉ số các từ khoá mà chúng tìm đƣợc và trang chúng tìm thấy - Cho phép ngƣời dùng tìm kiếm từ khoá hoặc kết nối các từ tìm đƣợc

Thuật ngữ “Máy tìm kiếm” đƣợc dùng chung để chỉ hai hệ thống tìm kiếm: một do các chƣơng trình máy tính tự động tạo ra goi là hệ thống tìm kiếm trên nền tự động (Crawler-Based Máy tìm kiếms) và dạng thƣ mục Internet do con ngƣời quản lý (Human-Powered Directories). Hai hệ thống tìm kiếm này tìm và lập danh mục website theo hai cách khác nhau. Ngoài ra còn có một hệ thống lai giữa hai hệ thống tìm kiếm này.

Hệ thống tìm kiếm trên nền tự động: những cỗ máy tìm kiếm tự động, nhƣ Google, tạo ra những danh sách của họ tự động. Chúng sử dụng các chƣơng trình máy tính, đƣợc gọi là “robot“, “spider”, hay “crawler” để lần tìm thông tin trên mạng. Khi có ai đó tìm kiếm một thông tin, các Máy tìm kiếm lập tức hiển thị các thông tin lƣu trữ tƣơng ứng. Nếu bạn thay đổi những trang web của các bạn, những cỗ máy tìm kiếm tự động sẽ dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hƣởng đến kết quả trả về. Những tiêu đề trang, nội dung văn bản và các phần tử khác đều giữ một vai trò nhất định.

Hệ thống tìm kiếm do con ngƣời quản lý và cập nhật: các thƣ mục Internet, ví dụ nhƣ Dự án thƣ mục mở - Open Directory Project (Dmoz.org) hoàn toàn phụ thuộc vào sự quản lý của con ngƣời. Bạn đăng ký website của bạn vào thƣ mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thƣ mục viết giúp phần mô tả cho bạn. Chúng phù hợp với nội dung và chủ đề của từng danh mục. Việc thay đổi những trang web của các bạn không có hiệu lực trên danh mục của các bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thƣ mục. Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn để đƣợc xem xét so với một website nghèo nàn.

Các hệ thống tìm kiếm tổng hợp: trƣớc đây, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sự khác biệt và hệ thống tìm kiếm tự động thƣờng không kèm theo một thƣ mục Internet và ngƣợc lại. Nhƣng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm tự động và một thƣ mục do con ngƣời quản lý. Ví dụ, Yahoo có Yahoo Directory, Google có Google directory (dựa trên thƣ mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy.

Bộ thu thập thông tin: Bộ thu thập thông tin hay còn gọi là khảo duyệt có tên tiếng anh spider, robot hoặc cũng đƣợc gọi là crawler. Khi hầu hết mọi ngƣời nói về máy tìm kiếm trên Internet là ám chỉ tới các công cụ tìm kiếm trên WWW. Bộ thu thập thông tin đƣợc thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu word, PDF hay PostScrips). Trƣớc khi web trở thành phần quan trọng nhất của Internet, thì đã có một số công cụ tìm kiếm giúp ngƣời dùng có thể tìm kiếm thông tin nhƣ “Gopher” và “Archie” lƣu trữ chỉ mục của các file trên server kết nối Internet, giúp giảm đáng kế thời gian tìm kiếm tài liệu.

Bộ lập chỉ mục: Mọi thứ bộ thu thập thông tin tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm đó là phần chỉ mục. Chỉ mục, đôi khi gọi là tài liệu, là một kho lƣu trữ khổng lồ chứa đựng một sự sao chép của mọi trang web mà bộ thu thập tìm thấy. Nếu một trang web thay đổi, thì danh sách này đƣợc cập nhật với thông tin mới.

Đôi khi, cần phải có thời gian để các bộ thu thập lập chỉ mục cho một trang mới hay một trang đƣợc thay đổi nội dung. Nhƣ vậy, sẽ có trƣờng hợp: một trang đã đƣợc các bộ thu thập tìm đến, nhƣng lại chƣa đƣợc lập chỉ mục. Và trong khoảng thời gian này, trang web sẽ hoàn toàn không tồn tại trên máy tìm kiếm.

Bộ tìm kiếm thông tin (Máy tìm kiếm): Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là một chƣơng trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tƣơng tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công ty SEO (Search Engine Optimization - tối ƣu hoá công cụ tìm kiếm) khai thác để đƣa một website nào đó lên vị trí top khi đƣợc tìm kiếm với một hay nhiều từ khóa chỉ định. Các máy tìm kiếm giống nhau nhƣng cũng khác nhau đối với nhà cung cấp dịch vụ tìm kiếm trên internet.

Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản đƣợc mô tả ở trên, nhƣng có những sự khác nhau trong những phần này trong việc nó đƣợc điều chỉnh tác động nhƣ thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ máy tìm kiếm khác nhau thƣờng cho ra những kết quả khác nhau. Một ví dụ cụ thể: nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau.

2.2.2 Khảo duyệt web

Ngày nay, hầu hết mọi ngƣời đều tìm kiếm thông tin cần tìm nhƣ file hoặc tài liệu trên internet. Trƣớc khi một máy tìm kiếm có thể chỉ cho bạn biết file hoặc tài liệu thì các tài liệu này cần đƣợc tìm thấy trƣớc. Để tìm kiếm thông tin trên hàng trăm triệu trang web hiện có, mỗi máy tìm kiếm sử dụng các phần mềm robot, hay còn gọi là spider hoặc crawler, để xây dựng ra danh sách từ khoá đƣợc tìm kiếm trên mạng. Khi một bộ thu thập thông tin thực hiện xây dựng danh sách này, thì quá trình này đƣợc gọi là Khảo duyệt web. Để mà xây dựng và duy trì kết quả danh sách các từ khoá hữu ích, bộ thu thập của máy tìm kiếm phải tìm kiếm từ rất nhiều trang trên Internet.

Làm thế nào để bất kỳ bộ thu thập thông tin có thể thu thập dữ liệu trên web? Thông thƣờng, điểm bắt đầu tìm kiếm sẽ là các trang phổ biến hay đƣợc xem hoặc cá máy chủ hoạt động nhiều. bộ thu thập thông tin sẽ bắt đầu từ một trang phổ biến, đánh chỉ mục từ khoá trên các trang này và lần theo tất cả các đƣờng link đƣợc tìm thấy trong trang này. Theo cách này, hệ thống thu thập nhanh chóng bắt đầu quá trình thu thập thông tin, lan rộng khắp tới các thành phần đƣợc sử dụng rộng rãi trên web.

Khi bộ thu thập thông tin đến thăm một trang web, đọc nó, và sau đó đi theo sau những mối liên kết tới những trang khác bên trong website có nghĩa là, khi có ai đó tìm kiếm đến một trang, các crawler sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu kỳ 1 đến 2 tháng. Nhƣ vậy, nếu trang web đƣợc tìm thấy càng nhiều, thì các bộ thu thập thông tin càng năng quay trở lại hơn và nhƣ thế, kết quả tìm kiếm của bạn cũng đƣợc cải thiện theo.

Kiến trúc khảo duyệt Apoidea

Thiết kế mô hình LDHT