2.2 .VAGUE
2. Tìm kiếm tƣơng tự dựa vào ngữ nghĩa:
Một hệ thống mẫu tìm kiếm tương tự dựa vào ngữ nghĩa [4] đƣợc xây dựng tại học viện FAW gọi là hệ thống VQS. Mục đích chính của việc phát triển hệ thống VQS là để nâng cấp các hệ quản trị cơ sở dữ liệu hiện nay với khả năng trả lời các truy vấn linh hoạt. Bởi vì trong các hệ quản trị cơ sở dữ liệu hiện nay chƣa có các khả năng truy tìm thơng tin mang tính linh hoạt cao.
Dù VQS có thể trả lời các truy vấn mờ nhƣng khơng có nghĩa là VQS đƣợc thiết kế chỉ để làm việc với dữ liệu mờ của cơ sở dữ liệu mờ. Điều khác biệt là phƣơng pháp của VQS giả định rằng các cơ sở dữ liệu chỉ lƣu trữ thơng tin chính xác và các giải pháp của VQS đƣợc sử dụng kết hợp với kỹ thuật cơ sở dữ liệu trƣớc đây: các cơ sở dữ liệu hiện nay có thể đƣợc khuyếch trƣơng với siêu thơng tin ngữ nghĩa của các thuộc tính và các hệ quản trị cơ sở dữ liệu hiện nay có thể đƣợc mở rộng để sử dụng các truy vấn mờ. Mục đích chung cũng giống với hệ thống VAGUE và ARES, tuy nhiên phƣơng pháp tiếp cận và ý đồ của VQS là hoàn toàn khác biệt.
Việc dựa trên lý thuyết về tập mờ và xác suất, có nhiều cơng việc đƣợc thực hiện để làm cho các hệ quản trị cơ sở dữ liệu hiện nay thuận tiện hơn với các khả năng truy tìm thơng tin linh hoạt, chẳng hạn nhƣ việc
mở rộng của ngôn ngữ SQL cho phép biểu diễn một phạm vi rộng các truy vấn mềm dẻo dựa trên lý thuyết tập mờ hoặc một sự mở rộng của phép toán phân chia, trong ngữ cảnh của các hệ quản trị cơ sở dữ liệu, cho đến các quan hệ mờ, v.v... Hầu hết các phƣơng pháp này có thể đƣợc phân loại sang mơ hình CDFQ_FR bởi vì chúng sử dụng dữ liệu mờ trong các truy vấn hoặc trong suốt quá trình xử lý truy vấn. Mặt khác, VQS đƣợc phân loại sang mơ hình CDCQ_FR. VQS sử dụng một toán tử mờ "IS" ("similar to"), nhƣng hồn tồn khơng phải là các giá trị mờ. Điểm chính của VQS là việc giới thiệu một khái niệm mới gọi là bảng biểu thị tọa độ số NCR-Tables (Numeric-Coordinate- Representation-Tables) và sử dụng các thuộc tính siêu thơng tin ngữ nghĩa. Trên thực tế thông tin số biểu diễn các thuộc tính ngữ nghĩa của các quan hệ trƣớc đây đƣợc lƣu trữ trong các bảng NCR để đƣợc sử dụng về sau trong việc xử lý truy vấn.
Trong hệ thống mẫu VQS, thông tin ngữ nghĩa là dạng số và việc ánh xạ ngữ nghĩa chỉ ở mức đầu tiên. Ở đây thông tin ngữ nghĩa dạng số đƣợc xuất phát từ một giá trị thuộc tính của một bộ trong một quan hệ biểu diễn ý nghĩa đặc trƣng của giá trị thuộc tính này. Ví dụ, xét một quan hệ đơn giản TT_BDS với hai thuộc tính: MA_BDS (mã bất động sản), MA_KH (mã khách hàng), QUAN (vị trí bất động sản) và DT (diện tích bất động sản). Cho hai bộ (1, DN01, QUẬN 1, 100) và (3, TP09, QUẬN 2, 500) từ quan hệ này. Khi đó thông tin ngữ nghĩa của các quận tên QUẬN 1, QUẬN 2 có thể đƣợc hiểu nhƣ các tọa độ địa lý của chúng hoặc là diện tích, hoặc thậm chí là khoảng cách của quận so với Chợ Bến Thành, v.v...
Sự tạo lập, biểu diễn và sử dụng thông tin ngữ nghĩa trong VQS rất giống với việc tạo lập, biểu diễn và sử dụng các vector đặc trƣng trong các hệ thống truy tìm thơng tin đa phƣơng tiện hoặc hình ảnh hiện đại (ví
dụ: hình dạng, kết cấu, gram màu, ...). Các đặc trƣng khác nhau tƣơng ứng với các biểu diễn khác nhau của nội dung đối tƣợng. Ví dụ đặc trƣng gam
màu là khác với đặc trƣng về hình dạng trong việc xác định nội dung của
một hình ảnh (ví dụ: hai hình ảnh có thể có hình dạng tƣơng tự nhau
nhƣng khác nhau về màu sắc). Điều này chỉ đúng cho việc ánh xạ ngữ
nghĩa khác nhau trong VQS (nghĩa là các bảng NCR khác nhau) của một thuộc tính trong một bộ. Điều đó có nghĩa là việc ánh xạ khác nhau của một thuộc tính cho ra các nghĩa khác nhau. Nhƣ chúng ta thấy, tất cả các thuật tốn tìm kiếm chúng tơi giới thiệu trong luận văn này còn phù hợp với các hệ thống truy tìm thơng tin đa phƣơng tiện/hình ảnh. Bên cạnh đó, sự tƣơng tự của hai bộ thƣờng đƣợc đánh giá bởi nhiều thuộc tính liên quan trong các bộ, nhƣng không chỉ bằng một thuộc tính đặc trƣng cố định. Nhìn chung, khơng có đặc trƣng đơn nào của các đối tƣợng (thuộc tính đơn của các bộ) có thể làm mẫu tốt nhất cho các đối tƣợng (các bộ) từ mỗi miền và mọi miền. Hơn nữa, khái niệm tìm kiếm tƣơng tự và ngữ nghĩa còn là một vấn đề cần quan tâm lớn trong các miền ứng dụng hiện đại chẳng hạn nhƣ web ngữ nghĩa, tìm kiếm trên internet, các hệ thống trả lời truy vấn cộng tác, ...
Bằng việc mở rộng và quan điểm chung đó, chúng tơi giới thiệu một định nghĩa chính thức cho các hệ thống tìm kiếm dựa vào ngữ nghĩa nhƣ sau [4]:
Định nghĩa 3.1 (Các hệ thống tìm kiếm dựa vào ngữ nghĩa): Một hệ
thống truy vấn được gọi là một hệ thống tìm kiếm dựa vào ngữ nghĩa nếu nó sử dụng thơng tin ngữ nghĩa, hệ thống có thể được biểu diễn bởi các dạng khác nhau các đối tượng phức tạp trong suốt quá trình xử lý truy vấn.
Định nghĩa 3.1 là định nghĩa tổng quát của các hệ thống tìm kiếm dựa vào ngữ nghĩa. Thơng tin ngữ nghĩa có thể là dữ liệu số, văn bản hoặc các dạng phức tạp khác. Tuy nhiên, ở đây chúng tôi phải chú ý rằng trong một vài trƣờng hợp thông tin ngữ nghĩa của các đối tƣợng khơng đƣợc trích ra, nhƣng nó có giá trị cho hệ thống, chẳng hạn các bảng NCR logic trong hệ thống VQS. Trong các trƣờng hợp này, việc sử dụng thông tin ngữ nghĩa là một sự hiểu ngầm bên trong hệ thống. Dƣới đây chúng tôi xin giới thiệu một định nghĩa rõ ràng hơn về các hệ thống tìm kiếm tƣơng tự dựa vào ngữ nghĩa [4]:
Định nghĩa 3.2 (các hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa):
Một hệ thống truy vấn được gọi là một hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa nếu (1) nó là một hệ thống tìm kiếm dựa vào ngữ nghĩa và (2) nó có thể trả về các kết quả tương tự về mặt ngữ nghĩa với đối tượng truy vấn trong một khả năng nào đó.
Rõ ràng, các hệ thống giống nhƣ VQS vậy có thể đƣợc đặt tên là các hệ thống tìm kiếm tƣơng tự dựa vào ngữ nghĩa. Tuy vậy, dù các thuật toán của chúng tơi giới thiệu trong luận văn này có thể đƣợc áp dụng cho các hệ thống truy tìm hình ảnh dựa vào nội dung (CBIR) hiện nay, về cơ bản các hệ thống CBIR không thể đƣợc phân vào kiểu hệ thống tìm kiếm dựa vào ngữ nghĩa vì nội dung của một hình ảnh khơng có nghĩa là ngữ nghĩa của nó.