2.2 Một số kỹ thuật tìm kiếm văn bản theo nội dung
2.2.1.3 Các bước để xây dựng hệ thống tìm kiếm thơng tin – IR
Tìm kiếm thơng tin (Information retrieval) là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp người sử dụng có thể tìm thấy các thơng tin mình cần trong một khối lượng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thơng tin tương tự như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ thống tìm kiếm thơng tin có hai chức năng chính: lập chỉ mục (indexing) và
tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục (term / index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các chỉ mục từ chính nội dung của tài liệu (free text).
Trong đồ án này tôi chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu được biểu diễn bằng tập các chỉ mục.
a. Lập chỉ mục cho tài liệu
Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm kiếm thơng tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu. Sau khi có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục. Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục. Các từ có khả năng đại diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để chọn ra các key word thích hợp. Ta sẽ loại bỏ danh sách các từ ít có khả năng đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stop list). Đối với tiếng Anh hay tiếng Việt đều có danh sách stop list.
b. Tìm kiếm
Người dùng nhập câu truy vấn và yêu cầu tìm kiếm, câu truy vấn mà người dùng nhập vào cũng sẽ được xử lý, nghĩa là ta sẽ tách từ cho câu truy vấn. Phương
pháp tách từ cho câu truy vấn cũng nên là phương pháp tách từ cho các tài liệu thu thập được để đảm bảo sự tương thích. Sau đó, hệ thống sẽ tìm kiếm trong tập tin chỉ mục để xác định các tài liệu liên quan đến câu truy vấn của người dùng.
c. Sắp xếp các tài liệu trả về (Ranking)
Các tài liệu sau khi đã xác định là liên quan đến câu truy vấn của người dùng sẽ được sắp xếp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đến câu truy vấn nhiều hơn. Hệ thống sẽ dựa vào một số phương pháp để xác định tài liệu nào liên quan nhiều nhất, sắp xếp lại (ranking) và trả về cho người dùng theo thứ tự ưu tiên.