Kiến trúc chung của máy tìm kiếm lớp trên 34 

Một phần của tài liệu Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm (Trang 44 - 47)

Hình 9. Kiến trúc của một máy tìm kiếm lớp trên điển hình [18]

Kiến trúc của một máy tìm kiếm Web lớp trên cũng gần giống với kiến trúc của một máy tìm kiếm Web thơng thường [18]. Sự khác biệt cơ bản đó là máy tìm kiếm lớp trên khơng có thành phần cơ sở dữ liệu để lưu trữ các trang Web như máy tìm kiếm Web thơng thường. Thay vào đó là một cơ sở dữ liệu ảo bao gồm: bộ điều vận (dispatcher), các máy tìm kiếm thơng thường khác, và một bộ xử lý kết quả (result processor). Một máy tìm kiếm lớp trên bao gồm bốn thành phần chính: giao diện người dùng (user interface), bộ điều vận (dispatcher), bộ xử lý kết quả (result processor), và mơ đun tính hạng (scoring module).

35

3.1.1. Giao diện người dùng

Giao diện người dùng là bộ phận nhận truy vấn đầu vào của người dùng và hiển thị kết quả đầu ra. Giao diện thường là một trang Web có hộp thoại nhận các mơ tả về thơng tin mà người dùng cần tìm kiếm. Một máy tìm kiếm lớp trên thường có một số tùy chọn như là chọn danh sách các máy tìm kiếm mà máy tìm kiếm lớp trên sẽ lấy dữ liệu từ đó từ một danh sách các máy tìm kiếm thơng thường cho trước, thiết lập độ sâu tìm kiếm, thời gian tìm kiếm…Một trong những hạn chế của máy tìm kiếm lớp trên là thời gian kiếm thường chậm vì phải chờ kết quả trả về từ các máy tìm kiếm khác. Nếu một máy tìm kiếm lớp trên gửi truy vấn đến càng nhiều máy tìm kiếm thì tốc độ của nó càng chậm.

3.1.2. Bộ điều vận

Bộ điều vận của máy tìm kiếm lớp trên gần giống với bộ xử lý truy vấn của máy tìm kiếm thông thường. Bộ xử lý truy vấn tạo ra các truy vấn đến cơ sở dữ liệu dựa trên các truy vấn đầu vào cịn bộ điều vận thì tạo ra các truy vấn đến máy tìm kiếm thơng thường từ truy vấn của người dùng. Một bộ điều vận phải xác định được các máy tìm kiếm mà nó sẽ truy vấn và làm thế nào để truy vấn trên chúng.

Hình 10. Một thiết kế của bộ điều vận [18]

Một bộ điều vận có thể bao gồm bốn thành phần:

Source Selector: Thành phần này sẽ lựa chọn các máy tìm kiếm thơng thường để

truy vấn trên nó. Nếu bộ điều vận gửi yêu cầu đến q nhiều máy tìm kiếm thì có thể sẽ làm quá tải tài nguyên mạng và do đó sẽ mất nhiều thời gian để hồn tất cơng việc tìm kiếm. Việc quyết định gửi yêu cầu đến máy tìm kiếm nào là rất quan trọng, bởi vì mỗi máy tìm kiếm khác nhau sẽ cho tập dữ liệu khác nhau và sẽ ảnh hưởng đến kết quả tìm kiếm của máy tìm kiếm lớp trên. Nếu máy tìm kiếm X cho kết quả trả về quá tốt, hơn hẳn máy tìm kiếm Y và Z, thì máy tìm kiếm lớp trên kết hợp cả ba máy này

36

chưa chắc đã có kết quả tìm kiếm tốt hơn kết quả của X. Tuy nhiên, nếu kết hợp các kết quả của các máy tìm kiếm khác khơng q tốt lại có thể giúp cho kết quả tốt hơn.

Query Generator: thực hiện việc sửa đổi các truy vấn sao cho phù hợp với mỗi

máy tìm kiếm nguồn. Mỗi máy tìm kiếm thường chỉ làm việc hiệu quả trên một số dạng truy vấn nhất định. Do đó, một truy vấn khơng thích hợp sẽ mang lại kết quả tìm kiếm khơng tốt.

Request Generator: Thành phần tạo yêu cầu kết hợp truy vấn của người dùng với

máy tìm kiếm nguồn được lựa chọn và lựa chọn truy vấn sửa đổi để tạo một yêu cầu hợp lệ.

Request Submitter: Thành phần này nhận các yêu cầu từ request generator và

thực thi chúng. Request submitter phải tương tác với các giao thức cấp thấp và đảm bảo rằng các lỗi xảy ra được ghi lại một cách thích hợp.

3.1.3. Bộ xử lý kết quả

Bộ xử lý kết quả của một máy tìm kiếm lớp trên nhận kết quả tìm kiếm của các máy tìm kiếm thơng thường và xử lý chúng để chuyển sang cho mơ đun tính hạng. Các kết quả gửi tới mơ đun tính hạng từ bộ xử lý kết quả cũng giống với các kết quả nhận được từ cơ sở dữ liệu trong máy tìm kiếm thơng thường. Bộ xử lý kết quả nhận các hồi đáp từ máy tìm kiếm và trích xuất chúng từ các kết quả đơn lẻ.

Trang phản hồi từ một máy tìm kiếm chỉ chứa thông tin tối thiểu về mỗi kết quả. Và thông tin được cung cấp trong đầu ra của các máy tìm kiếm khác nhau cũng rất đa dạng, theo nghĩa mỗi máy tìm kiếm có một dạng đầu ra khác nhau. Ví dụ một máy tìm kiếm có thể cung cấp tên, địa chỉ URL, bản tóm tắt, trong khi một máy tìm kiếm khác có thể cung cấp tên, ngày tháng, địa chỉ URL, ngữ cảnh của truy vấn…. Cùng một trang Web được trả về từ hai máy tìm kiếm khác nhau có thể trông sẽ khác nhau. Một bộ xử lý kết quả tiên tiến có thể thực hiện hành động thu thập thông tin để bổ sung thêm dữ liệu vào mỗi kết quả nhằm làm giàu cho dữ liệu.

Hơn nữa, trong các kết quả trả về từ các máy tìm kiếm nguồn khác nhau có thể có những kết quả giống nhau. Vì vậy, bộ xử lý kết quả cần phải nhận biết các kết quả trùng lặp này và loại bỏ bớt những kết quả thừa, chỉ giữ lại một kết quả duy nhất.

3.1.4. Mô đun tính hạng

Cũng giống như mơ đun tính hạng trong các máy tìm kiếm thơng thường, mơ đun tính hạng của một máy tìm kiếm lớp trên thực hiện việc tính hạng cho mỗi kết quả

37

trong nguồn dữ liệu nhận được từ bộ xử lý kết quả. Máy tìm kiếm lớp trên cần phải có các thuật tốn hiệu quả để có thể hiểu được đâu là kết quả phù hợp nhất với người dùng trong tập hợp kết quả tìm kiếm từ nhiều nguồn khác nhau, từ đó trả về kết quả theo thứ tự xếp hạng mới. Khơng giống như các máy tìm kiếm thơng thường, máy tìm kiếm lớp trên bị giới hạn thơng tin về các kết quả nhận được. Sự thiếu thốn thông tin này làm cho việc tính hạng trở nên khó khăn hơn.

Một phần của tài liệu Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(75 trang)