Các phương thức tìm kiếm

Một phần của tài liệu tim_hieu_va_xay_dung_search_engine (Trang 47 - 49)

Chương 4 : BỘ TÌM KIẾM THƠNG TIN – SEARCH ENGINE

2. Các phương thức tìm kiếm

2.1 Tìm theo từ khố – Keyword searching

Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau. Các từ được đề cập trong phần II chương II hoặc các từ lặp lại nhiều lần đều được chú ý. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.

Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những cơng cụ tìm kiếm cịn phân biệt cả chữ hoa lẫn chữ thường.

2.2 Những khó khăn khi tìm theo từ khố

Search engine thường gặp rắc rối với những từ đồng âm khác nghĩa (ví dụ hard cider, hard stone, a hard exam, hard drive) hoặc những từ có các biến thể khác nhau do có tiền tố và hậu tố như big, bigger, student, students, …. Bên cạnh đó search engine cũng khơng thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.

2.3 Tìm theo ngữ nghĩa – Concept-based searching

Excite đã từng nổi tiếng với chiến thuật tìm theo ngữ nghĩa nhưng giờ đây chiến thuật này khơng cịn được sử dụng nữa. Khơng giống các hệ thống tìm theo từ khố, hệ thống tìm theo ngữ nghĩa sẽ ‘đốn’ ý muốn của người dùng thơng qua câu chữ. Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngơn ngữ học, các thuyết về trí tuệ nhân tạo. Excite tiếp cận dựa vào phương pháp tính tốn bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì Excite sẽ cho rằng chúng đang ám chỉ một chủ đề nào đó.

Ví dụ, khi từ ‘heart‘ đứng gần các từ như ‘attack‘ (cơn đau tim), ‘blood‘ (sự sống), ‘stroke‘ (sự say nắng), thì search engine sẽ xếp những trang chứa các từ này vào chủ đề y học và sức khoẻ. Ngược lại, khi từ ‘heart‘ đứng gần các từ ‘flowers’, ‘candy’, … thì search engine sẽ xếp những trang chứa các từ này vào chủ đề trữ tình.

Một phần của tài liệu tim_hieu_va_xay_dung_search_engine (Trang 47 - 49)

Tải bản đầy đủ (DOC)

(149 trang)
w