Tra cứu thông tin

Từ những năm 1940, vấn đề thông tin lưu trữ và tra cứu thông tin đã thu hút sự chú ý của nhiều học giả, chuyên gia. Đơn giản chỉ là tuyên bố: “chúng tôi cần số lượng lớn các thông tin chính xác”. Tuy nhiên, điều đó ngày càng khó khăn, do khối lượng thông tin trên Internet ngày càng tăng. Nếu phương pháp tra cứu thông tin không hiệu quả, những thông tin quan trọng liên quản sẽ không bao giờ phát hiện. Với sự ra đời của máy tính, rất nhiều các tri thức của các chuyên gia đã được sử dụng để xây dựng các hệ thống tra cứu thông tin. Tuy nhiên, nhiều khi các hệ thống chưa được sử dụng một cách hợp lý.

Về nguyên tắc, thông tin lưu trữ và tra cứu rất đơn giản. Giả sử có một lưu trữ các tài liệu và một người sử dụng, người sử dụng đặt ra các câu hỏi truy vấn và nhận được các thông tin liên quan, những thông tin không liên quan sẽ được loại bỏ. Trong một nghĩa nào đó, điều này tạo nên tra cứu "hoàn hảo". Một người sử dụng hoặc không có thời gian hoặc không muốn dành thời gian đọc toàn bộ các thông tin dư thừa không liên quan tới vấn đề họ cần tìm kiếm. Hình 3.1 dưới đây mô tả nguyên lý tra cứu thông tin (IR).

Hệ thống tra

cứu thông tin Database

Truy vấn Kết quả

Tra cứu thông tin là một phần của khoa học máy tính liên quan đến việc tra cứu các thông tin từ các tài liệu mà là dựa trên nội dung và bối cảnh chủ yếu của tài liệu. Hay định nghĩa một cách khác: “Tra cứu thông tin là một cách tìm kiếm thông tin (thường là một tài liệu) dựa trên một truy vấn (người sử dụng yêu cầu) để đưa ra một tập hợp các tài liệu phù hợp với truy vấn của người sử dụng”.

Khi công nghệ tạo ra máy tính với tốc độ xử lý vô cùng lớn, nhiều người nghĩ rằng một máy tính sẽ có thể "đọc" một bộ sưu tập toàn bộ tài liệu để trích xuất các tài liệu liên quan. Tuy nhiên, rõ ràng rằng việc sử dụng máy tính để lưu trữ văn bản chỉ làm được nhiệm vụ là đầu vào và các vấn đề lưu trữ mà chưa được giải quyết được khai phá các trí tuệ của mô tả nội dung tài liệu. Và các chuyên gia ý thức được rằng, sự phát triển công nghệ phần cứng chỉ có thể tạo được kho lưu trữ tốt hơn cho thông tin mà vẫn khó khăn trong vấn đề làm cho máy tính hiểu được tri thức từ thông tin. Giả sử khi người sử dụng nhập vào một câu, máy tính phải có khả năng đọc và phân tích để đưa ra thông tin cần thiết. Cụ thể hơn, 'đọc' liên quan đến việc cố gắng để trích xuất thông tin, cả hai cú pháp và ngữ nghĩa, từ các văn bản và sử dụng nó để quyết định xem mỗi tài liệu có liên quan hoặc không một yêu cầu cụ thể. Khó khăn không chỉ biết làm thế nào để trích xuất các thông tin mà còn làm thế nào để sử dụng nó để đưa ra các quyết định liên quan. Các nghiên cứu về ngôn ngữ học hiện đại tương đối chậm cho thấy những vấn đề này phần lớn chưa được giải quyết. Trí tuệ có thể làm cho một con người hiểu được sự liên quan của một tài liệu để truy vấn. Đối với máy tính để làm điều này, chúng ta cần phải xây dựng một mô hình mà trong đó các quyết định đều phải mang tính định lượng.

Thuật toán lập nhóm theo cây phân cấp