Tìm kiếm tương tự dựa vào ngữ nghĩa:

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào sql server nhằm hỗ trợ cho hệ thống trả lời truy vấn (Trang 28 - 32)

Một hệ thống mẫu tìm kiếm tương tự dựa vào ngữ nghĩa [4] được xây dựng tại học viện FAW gọi là hệ thống VQS. Mục đích chính của việc phát triển hệ thống VQS là để nâng cấp các hệ quản trị cơ sở dữ liệu hiện nay với khả năng trả lời các truy vấn linh hoạt. Bởi vì trong các hệ quản trị cơ sở dữ liệu hiện nay chưa có các khả năng truy tìm thông tin mang tính linh hoạt cao.

Dù VQS có thể trả lời các truy vấn mờ nhưng không có nghĩa là VQS được thiết kế chỉ để làm việc với dữ liệu mờ của cơ sở dữ liệu mờ. Điều khác biệt là phương pháp của VQS giả định rằng các cơ sở dữ liệu chỉ lưu trữ thông tin chính xác và các giải pháp của VQS được sử dụng kết hợp với kỹ thuật cơ sở dữ liệu trước đây: các cơ sở dữ liệu hiện nay có thể được khuyếch trương với siêu thông tin ngữ nghĩa của các thuộc tính và các hệ quản trị cơ sở dữ liệu hiện nay có thể được mở rộng để sử dụng các truy vấn mờ. Mục đích chung cũng giống với hệ thống VAGUE và ARES, tuy nhiên phương pháp tiếp cận và ý đồ của VQS là hoàn toàn khác biệt.

Việc dựa trên lý thuyết về tập mờ và xác suất, có nhiều công việc được thực hiện để làm cho các hệ quản trị cơ sở dữ liệu hiện nay thuận tiện hơn với các khả năng truy tìm thông tin linh hoạt, chẳng hạn như việc

mở rộng của ngôn ngữ SQL cho phép biểu diễn một phạm vi rộng các truy vấn mềm dẻo dựa trên lý thuyết tập mờ hoặc một sự mở rộng của phép toán phân chia, trong ngữ cảnh của các hệ quản trị cơ sở dữ liệu, cho đến các quan hệ mờ, v.v... Hầu hết các phương pháp này có thể được phân loại sang mô hình CDFQ_FR bởi vì chúng sử dụng dữ liệu mờ trong các truy vấn hoặc trong suốt quá trình xử lý truy vấn. Mặt khác, VQS được phân loại sang mô hình CDCQ_FR. VQS sử dụng một toán tử mờ "IS" ("similar to"), nhưng hoàn toàn không phải là các giá trị mờ. Điểm chính của VQS là việc giới thiệu một khái niệm mới gọi là bảng biểu thị tọa độ số NCR-Tables (Numeric-Coordinate- Representation-Tables) và sử dụng các thuộc tính siêu thông tin ngữ nghĩa. Trên thực tế thông tin số biểu diễn các thuộc tính ngữ nghĩa của các quan hệ trước đây được lưu trữ trong các bảng NCR để được sử dụng về sau trong việc xử lý truy vấn.

Trong hệ thống mẫu VQS, thông tin ngữ nghĩa là dạng số và việc ánh xạ ngữ nghĩa chỉ ở mức đầu tiên. Ở đây thông tin ngữ nghĩa dạng số được xuất phát từ một giá trị thuộc tính của một bộ trong một quan hệ biểu diễn ý nghĩa đặc trưng của giá trị thuộc tính này. Ví dụ, xét một quan hệ đơn giản TT_BDS với hai thuộc tính: MA_BDS (mã bất động sản), MA_KH (mã khách hàng), QUAN (vị trí bất động sản) và DT (diện tích bất động sản). Cho hai bộ (1, DN01, QUẬN 1, 100) và (3, TP09, QUẬN 2, 500) từ quan hệ này. Khi đó thông tin ngữ nghĩa của các quận tên QUẬN 1, QUẬN 2 có thể được hiểu như các tọa độ địa lý của chúng hoặc là diện tích, hoặc thậm chí là khoảng cách của quận so với Chợ Bến Thành, v.v...

Sự tạo lập, biểu diễn và sử dụng thông tin ngữ nghĩa trong VQS rất giống với việc tạo lập, biểu diễn và sử dụng các vector đặc trưng trong các hệ thống truy tìm thông tin đa phương tiện hoặc hình ảnh hiện đại (ví

dụ: hình dạng, kết cấu, gram màu, ...). Các đặc trưng khác nhau tương ứng với các biểu diễn khác nhau của nội dung đối tượng. Ví dụ đặc trưng gam màu là khác với đặc trưng về hình dạng trong việc xác định nội dung của một hình ảnh (ví dụ: hai hình ảnh có thể có hình dạng tương tự nhau nhưng khác nhau về màu sắc). Điều này chỉ đúng cho việc ánh xạ ngữ nghĩa khác nhau trong VQS (nghĩa là các bảng NCR khác nhau) của một thuộc tính trong một bộ. Điều đó có nghĩa là việc ánh xạ khác nhau của một thuộc tính cho ra các nghĩa khác nhau. Như chúng ta thấy, tất cả các thuật toán tìm kiếm chúng tôi giới thiệu trong luận văn này còn phù hợp với các hệ thống truy tìm thông tin đa phương tiện/hình ảnh. Bên cạnh đó, sự tương tự của hai bộ thường được đánh giá bởi nhiều thuộc tính liên quan trong các bộ, nhưng không chỉ bằng một thuộc tính đặc trưng cố định. Nhìn chung, không có đặc trưng đơn nào của các đối tượng (thuộc tính đơn của các bộ) có thể làm mẫu tốt nhất cho các đối tượng (các bộ) từ mỗi miền và mọi miền. Hơn nữa, khái niệm tìm kiếm tương tự và ngữ nghĩa còn là một vấn đề cần quan tâm lớn trong các miền ứng dụng hiện đại chẳng hạn như web ngữ nghĩa, tìm kiếm trên internet, các hệ thống trả lời truy vấn cộng tác, ...

Bằng việc mở rộng và quan điểm chung đó, chúng tôi giới thiệu một định nghĩa chính thức cho các hệ thống tìm kiếm dựa vào ngữ nghĩa như sau [4]:

Định nghĩa 3.1 (Các hệ thống tìm kiếm dựa vào ngữ nghĩa): Một hệ thống truy vấn được gọi là một hệ thống tìm kiếm dựa vào ngữ nghĩa nếu nó sử dụng thông tin ngữ nghĩa, hệ thống có thể được biểu diễn bởi các dạng khác nhau các đối tượng phức tạp trong suốt quá trình xử lý truy vấn.

Định nghĩa 3.1 là định nghĩa tổng quát của các hệ thống tìm kiếm dựa vào ngữ nghĩa. Thông tin ngữ nghĩa có thể là dữ liệu số, văn bản hoặc các dạng phức tạp khác. Tuy nhiên, ở đây chúng tôi phải chú ý rằng trong một vài trường hợp thông tin ngữ nghĩa của các đối tượng không được trích ra, nhưng nó có giá trị cho hệ thống, chẳng hạn các bảng NCR logic trong hệ thống VQS. Trong các trường hợp này, việc sử dụng thông tin ngữ nghĩa là một sự hiểu ngầm bên trong hệ thống. Dưới đây chúng tôi xin giới thiệu một định nghĩa rõ ràng hơn về các hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa [4]:

Định nghĩa 3.2 (các hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa): Một hệ thống truy vấn được gọi là một hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa nếu (1) nó là một hệ thống tìm kiếm dựa vào ngữ nghĩa và (2) nó có thể trả về các kết quả tương tự về mặt ngữ nghĩa với đối tượng truy vấn trong một khả năng nào đó.

Rõ ràng, các hệ thống giống như VQS vậy có thể được đặt tên là các hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa. Tuy vậy, dù các thuật toán của chúng tôi giới thiệu trong luận văn này có thể được áp dụng cho các hệ thống truy tìm hình ảnh dựa vào nội dung (CBIR) hiện nay, về cơ bản các hệ thống CBIR không thể được phân vào kiểu hệ thống tìm kiếm dựa vào ngữ nghĩa vì nội dung của một hình ảnh không có nghĩa là ngữ nghĩa của nó.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào sql server nhằm hỗ trợ cho hệ thống trả lời truy vấn (Trang 28 - 32)