Mô hình của máy tìm kiếm

Một phần của tài liệu Xây dựng, thử nghiệm giải pháp tìm kiếm theo yêu cầu người dùng, sử dụng cloud computing và thuật toán mapreduce (Trang 39 - 40)

Một máy tìm kiếm thông thường bao gồm ba bộ phận chính sau [34]: - Bộ phận thu thập nội dung các trang Web

- Bộ phận đánh chỉ mục các trang Web - Bộ phận tìm kiếm.

Máy tìm kiếm hoạt động bằng cách lưu trữ thông tin về các trang Web được lưu trữ dưới dạng HTML. Những trang web này được thu thập bởi một bộ thu thập nội dung Web được gọi là Web Crawler hoặc đôi khi gọi là Web Spider, tự động lấy về nội dung của các trang web và các link bên trong trang Web. Để có thể bảo vệ nội dung, không muốn bị các Web Crawler lấy về, chúng ta có thể thêm file robot.txt để chặn không cho các Web Crawler lấy nội dung về. Nội dung của mỗi trang Web sẽ được phân tích và xác định cách thức để đánh chỉ mục nó, tùy thuộc vào nội dung, thành phần, các định dạng trong trang web. Quá trình này được gọi là bóc tách nội dung, từ nội dung thô là các trang Web đến nội dung cơ bản, quan trọng và trọng tâm của mỗi trang.

Nội dung của phần dữ liệu sau khi đã bóc tách vẫn khá nặng, nếu tìm kiếm trực tiếp sẽ rất chậm, nên chúng ta phải đánh chỉ mục nội dung này và tất cả các chỉ mục sẽ được lưu trữ vào cơ sở dữ liệu chỉ mục phục vụ cho quá trình tìm kiếm sau này. Nội dung tìm kiếm sẽ được tìm kiếm trong CSDL chỉ mục, tuy nhiên một số hệ thống tìm kiếm vẫn lưu trữ cả nội dung văn bản gốc để người dùng có thể xem sau này, gọi là lưu trữ đệm (cached).

Khi người dùng tìm kiếm một truy vấn, bộ phận tìm kiếm sẽ tìm trong CSDL chỉ mục và tìm ra những văn bản “tốt nhất” phù hợp với nội dung tìm kiếm của người dùng. Phần lớn các máy tìm kiếm đều hỗ trợ các toán tử tìm kiếm cơ bản là: AND, OR,

NOT trong nội dung tìm kiếm. Chất lượng của các máy tìm kiếm phụ thuộc vào kết quả trả lại cho người dùng. Kết quả càng chính xác, càng có nhiều độ liên quan với yêu cầu tìm kiếm của khách hàng thì càng hoàn thiện. Ngoài ra còn các yếu tố về số lượng kết quả trả về phải đủ lớn và thời gian tìm kiếm chấp nhận được, về cơ bản là dưới 1 giây.

Hình 3.1-3: Mô hình máy tìm kiếm

Một phần của tài liệu Xây dựng, thử nghiệm giải pháp tìm kiếm theo yêu cầu người dùng, sử dụng cloud computing và thuật toán mapreduce (Trang 39 - 40)