Các phương pháp truy hồi thông tin

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 26)

CƠ SỞ LÝ THUYẾT

2.1.3.Các phương pháp truy hồi thông tin

Nhìn chung, có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR: hướng thống kê và hướng ngữ nghĩa. Trong phương pháp tiếp cận thống kê, các tài liệu kết quả được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê, trong khi các phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm lại cố gắng thực hiện việc phân tích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người (có thể tham khảo thêm trong các tài liệu [15]).

Hình 2.1. Các phương pháp truy hồi thông tin  Truy tìm thông tin theo hướng tiếp cận thống kê

Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean), Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models). Ý tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó. Term, nghĩa là thuật ngữ, là một từ hay cụm từ biểu thị một khái niệm khoa học. Khi một phép biểu diễn tài liệu được chọn, chúng ta cần mã hóa chúng trong một dạng thức toán học phù hợp với chương trình máy tính để máy có thể hiểu và xử lý được. Phương pháp đơn giản nhất là mã hóa Boolean.

Truy hồi thông tin theo hướng ngữ nghĩa

- Xử lý ngôn ngữ tự nhiên - Hướng tiếp cận Ontology

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 26)