Giới thiệu một số Search Engine điển hình

Một phần của tài liệu Search Engine (Trang 25 - 28)

2.6.1 Search Engine Altavista

Altavista cĩ địa chỉ http://www.altavista.com Kiến trúc của nĩ cĩ thể coi như là một kiến trúc điển hình của Search Engine, Altavista cĩ hai phần rõ rệt crawler và indexer, ngồi ra cịn cĩ hệ thống giao diện người dùng và thực hiện

các câu lệnh tìm kiếm.Tính tới thời điểm 1998 Alvista chạy trên 20 bộ vi xử lý, mỗi bộ cĩ tổng cộng 130 Gb Ram sử dụng trên 500 Gb khơng gian đĩa.

2.6.2 Search Engine Harvest

Harvest là một Search Engine mạnh được sử dụng bởi CIA, NASA, US National Academy of Sciences

2.6.3 Search Engine Google

Search Engine Google cĩ địa chỉ http://www.google.com .Đây là Search Engine thương mại, rất mạnh được sử dụng rộng rãi nhất trên thế giới. Nĩ hỗ trợ nhiều hình thức tìm kiếm khác nhau như tìm kiếm theo chủ đề, tìm kiếm theo từ khĩa, tìm kiếm sử dụng tốn tử Boolean, tìm kiếm khơng chính xác,... Google cĩ khối lượng dữ liệu khổng lồ nhưng thời gian tìm kiếm vẫn tương đối nhanh. Phần lớn các module của Google được viết bằng C/C++, cĩ thể chạy trên các hệ điều hành Solaris và Linux.

Trong Google các Search Engine được tạo bởi nhiều Clawler phân tán khác nhau.Cĩ một máy chủ URL server gửi các địa chỉ URL cần truy cập tới các crawler. Các trang web sau khi tải về được chuyển đến Store Server. Store Server nén và lưu các trang Web này vào kho chứa – repository. Mỗi trang Web khác nhau được gán một định danh duy nhất gọi là docID, chúng được đánh chỉ mục bởi Indexer, sắp xếp bởi Sorter. Indexer giải nén các tài liệu phân tích chúng để tạo ra các hit. Các hit chứa các từ khĩa, vị trí của nĩ, cỡ chữ,... những thơng tin này nhằm Index các dữ liệu. Indexer phân bố các hit này trong các khoang chứa (barrel) khác nhau theo chủ đề để thuận tiện cho việc tìm kiếm. Sorter lấy các hit này trong các khoang chứa để lưu chúng vào các inverted index. Goolge sử dụng một chương trình gọi là DumpLexicon tạo ra bộ từ điển các từ để Searcher sử dụng. Searcher sẽ tìm kiếm trên các inverted file để lấy ra thơng tin yêu cầu. Thơng tin này được PageRank sắp xếp lại và trả về cho người truy vấn.

Vào thời điểm 1998 Goolge đã thu thập được trên 24 triệu trang web. Kích thước lưu trữ của thơng tin đã nén là 55.2 GB, tương đương 108.7 GB chưa nén. Thời gian trung bình cho một câu truy vấn từ 1 đến 10 giây

Chương 3: Xây dựng mơ hình tìm kiếm thơng tin theo Search Engine

Cùng với sự phát triển của Internet mơ hình giáo dục từ xa đã và đang cĩ xu thế mở rộng và hồn thiện, các sách điện tử được xuất bản nhiều hơn, chúng ta dễ dàng xây dựng được một thư viện sấch điện tử cho riêng mình. Luận văn này xây dựng một chương trình tìm kiếm các sách thoả mãn yêu cầu tìm kiếm, các sách ở đây giả định là các sách điện tử được viết dưới dạng HTML, HTM, text - dạng phổ biến của các sách điện tử lưu thơng trên Internet. Đây là một ứng dụng nhỏ song tư tưởng ở đây là xây dựng một mơ hình tìm kiếm theo Search Engine áp dụng trong các ứng dụng khác nhau: nĩ cĩ thể cải tiến với các phương thức tạo chỉ mục, tìm kiếm trên các loại dữ liệu khác nhau: tìm kiếm mờ hoặc tìm kiếm với thơng tin khơng chính xác...

Từ một thư mục chứa các sách từ trước, sau khi thực hiện Index dữ liệu chương trình tạo ra một thư mục Index chứa thơng tin tổng quan về thư viện sách. Khi một yêu cầu tìm kiếm được đặt ra chương trình duyệt trên thư mục Index này đưa ra các tài liệu thoả mãn.

Một phần của tài liệu Search Engine (Trang 25 - 28)