Một mô hình khái niệm

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 50 - 52)

Tầm quan trọng của mô hình khái niệm được công nhận rộng rãi trong những thuộc tính như: Hệ thống quản lý cơ sở dữ liệu và Hệ thống thông tin. Trong luận văn này, mô hình khái niệm được đề xuất bởi Fuhr [Fuhr 1992] được sử dụng, có lợi thế là cả hai rất đơn giản và nói chung đủ để được coi là một cơ sở khái niệm cho tất cả các mô hình xác suất được trình bày trong luận văn, mô hình này được thể hiện trong hình 2.6.

Q Q’ D D’  D Q DDQQ

Hình 2.6 Mô hình khái niệm cơ bản

Các đối tượng cơ bản của một hệ thống IR là: một tập các tài liệu D (ví dụ như sách, bài viết, hình ảnh) và định nghĩa một tập của các truy vấn Q (ví dụ, nhu cầu thông tin). Chúng ta xét một tập hợp các truy vấn và không phải là truy vấn duy nhất vì một người dùng có thể có những nhu cầu tìm kiếm thông tin khác nhau. Nếu chúng ta coi R một tập hợp hữu hạn liên quan, ví dụ trong trường hợp nhị phân R = {R, R}, đó là, một tài liệu có thể có liên quan hay không đến một truy vấn, thì nhiệm vụ của hệ thống IR là để lập sơ đồ tất cả các cặp tài liệu truy vấn đến một phần tử của R. Hệ thống IR không làm việc trực tiếp với các truy vấn và các tài liệu, nhưng với đại diện của chúng (ví dụ, một văn bản cho một tài liệu, hoặc một biểu thức Boolean cho một truy vấn). Biểu thị Q là ánh xạ giữa một tập hợp các truy vấn Q và các đại diện của Q.

Ví dụ, một người sử dụng tìm kiếm thông tin về sữa có thể thể hiện mình truy vấn của mình như sau: “Tôi đang tìm kiếm các bài viết kinh doanh sữa”. Tương tự như vậy, biểu thị Dlà ánh xạ giữa một tập hợp các tài liệu D và các đại diện của nó D. Ví dụ, trong một thư viện, một cuốn sách được đại diện bởi tác giả, tiêu đề, một bản tóm tắt, thực tế nó là một cuốn sách (và không phải là một bài viết), và một số từ khoá. Hai ánh xạ có thể là khác nhau. Rõ ràng, đại diện của các truy vấn và các tài liệu tốt hơn, sẽ có hiệu suất tốt hơn trong hệ thống IR.

Để thực hiện các mô hình khái niệm chung, và cũng để đối phó với các mô hình phức tạp nhất của IR, có thêm một sơ đồ để giới thiệu giữa các đại diện và mô tả. Ví dụ, một mô tả của các truy vấn trên có thể 2 từ gốc sau: “bài viết” và “sữa”.

Tập các đại diện Q và D được mô tả bởi ánh xạ Q’ và D’. Hơn nữa, sự cần thiết để lập sơ đồ bổ sung những phát sinh cho các mô hình có tính năng tổng hợp để cho phép các mẫu đủ lớn cho dự toán. Tuy nhiên, hầu hết các mô hình làm việc trực tiếp với tài liệu gốc và các đại diện truy vấn.

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 50 - 52)