Các phương thức tìm kiếm

Một phần của tài liệu Tìm hiểu và xây dựng Search Engine (Trang 47 - 49)

2.1 Tìm theo từ khoá – Keyword searching

Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau. Các từ được đề cập trong phần II chương II hoặc các từ lặp lại nhiều lần đều được chú ý. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.

Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.

2.2 Những khó khăn khi tìm theo từ khoá

Search engine thường gặp rắc rối với những từ đồng âm khác nghĩa (ví dụ hard cider, hard stone, a hard exam, hard drive) hoặc những từ có các biến thể khác nhau do có tiền tố và hậu tố như big, bigger, student, students, …. Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.

2.3 Tìm theo ngữ nghĩa – Concept-based searching

Excite đã từng nổi tiếng với chiến thuật tìm theo ngữ nghĩa nhưng giờ đây chiến thuật này không còn được sử dụng nữa. Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ học, các thuyết về trí tuệ nhân tạo. Excite tiếp cận dựa vào phương pháp tính toán bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì Excite sẽ cho rằng chúng đang ám chỉ một chủ đề nào đó.

Ví dụ, khi từ ‘heart‘ đứng gần các từ như ‘attack‘ (cơn đau tim), ‘blood‘ (sự sống), ‘stroke‘ (sự say nắng), thì search engine sẽ xếp những trang chứa các từ này vào chủ đề y học và sức khoẻ. Ngược lại, khi từ ‘heart‘ đứng gần các từ ‘flowers’, ‘candy’, … thì search engine sẽ xếp những trang chứa các từ này vào chủ đề trữ tình.

Một phần của tài liệu Tìm hiểu và xây dựng Search Engine (Trang 47 - 49)

Tải bản đầy đủ (DOC)

(147 trang)
w