Các công trình liên quan

Một phần của tài liệu Luận án tiến sĩ Truy hồi thông tin dựa trên ontology (Trang 34 - 37)

Trong [137], mỗi khái niệm trong một văn bản đƣợc liên kết với các khái niệm tương ứng được định nghĩa trong Wikipedia, và sự biểu diễn của văn bản này được làm giàu bởi các từ đồng nghĩa, nghĩa cha và các khái niệm liên quan. Các từ đồng nghĩa và nghĩa cha của các khái niệm chung có thể xem tương tự như các bí danh và lớp cha của các thực thể có tên. Trong [138], các tác giả đề xuất một mô hình không gian vectơ dựa trên ontology để tính quan hệ tương tự theo ngữ nghĩa giữa các khái niệm trong tài liệu. Tuy nhiên, hai công trình này thuộc lĩnh vực phân loại tài liệu (document classification), chứ không phải truy hồi tài liệu.

Trong lĩnh vực hệ thống thông tin địa lý, công trình [139] báo cáo tóm tắt các thí nghiệm kiểm tra độ ảnh hưởng của các đặc điểm địa lý, đặc biệt là nơi chốn, đến hiệu quả truy hồi trang web. Cũng khai thác đặc điểm ontology của thực thể có tên nhƣng không dùng cho truy hồi tài liệu, hệ thống Falcons trong [140] cung cấp một môi trường thân thiện cho người dùng để mô tả lớp của đối tượng muốn tìm.

Trong [20], một mô hình dựa trên xác suất đƣợc đề xuất để tìm kiếm các đoạn văn bản nói về các kiểu thực thể y sinh học nhƣ là các loại gen, bệnh hoặc thuốc, tương tự như các lớp của thực thể có tên. Cũng trong lĩnh vực y sinh học, mô hình dựa trên độ tương tự ở [28] xem xét các khái niệm là các gen và các chủ đề trong y khoa.

Các khái niệm đồng nghĩa, nghĩa cha và nghĩa con cũng được khai thác, tương ứng với các bí danh, lớp cha và lớp con của thực thể có tên. Mỗi truy vấn hoặc tài liệu đƣợc biểu diễn bởi hai vectơ thành phần, là vectơ cho các khái niệm và vectơ cho các từ khóa. Một tài liệu được xem là tương tự hơn với truy vấn so với một tài liệu khác nếu vectơ khái niệm của tài liệu đầu tương tự với vectơ khái niệm của truy vấn hơn. Nếu hai vectơ khái niệm của hai tài liệu có cùng độ tương tự với vectơ khái niệm của truy vấn, thì độ tương tự của hai vectơ từ khóa của hai tài liệu và vectơ từ khóa của truy vấn sẽ quyết định. Tức là, thành phần từ khóa đƣợc xem nhƣ thứ yếu hơn thành phần khái niệm.

Công trình [141] phát triển một động cơ tìm kiếm trong đó chỉ xét đến lớp của thực thể trong việc kết hợp với từ khóa. Hơn nữa, công trình này thiên về hiệu quả thời gian tìm kiếm hơn là chất lƣợng tìm kiếm vì chỉ đánh giá độ chính xác và độ đầy đủ của động cơ bằng một số truy vấn đơn giản. Trong [142], mục tiêu của hệ thống là tìm

kiếm các thực thể có tên thuộc các lớp trong truy vấn và các thực thể này có ràng buộc với các từ khóa trong truy vấn. Ví dụ, truy vấn “Amazon Customer Service Phone”, trong đó Phone đƣợc xem nhƣ là một thực thể có tên trong câu hỏi về lớp PhoneNumber, tìm các số điện thoại của đúng Amazon Customer Service trong các trang web, trong khi các trang web này có thể chứa các số điện thoại của các tổ chức khác. Nhƣ vậy, công trình này chỉ xem xét đến lớp của thực thể và không phải về truy hồi tài liệu.

Trong [31], từ các tài liệu liên quan với truy vấn ban đầu dựa trên từ khóa, các thực thể có tên được rút trích, sắp xếp và tổ chức theo các lớp tổng quát để người dùng có thể chọn một số thực thể phù hợp với truy vấn. Tiếp theo, tên của các thực thể đƣợc bổ sung vào truy vấn để làm rõ nghĩa. Sau cùng, truy vấn mở rộng đƣợc sử dụng để truy hồi lại các tài liệu. Công trình này chỉ xem xét đến tên và lớp của thực thể, mà không xem xét đến bí danh và định danh. Nghiên cứu trong [30] cho thấy rằng việc chuẩn hóa (normalization) thực thể có tên giúp cải thiện hiệu quả truy hồi. Tuy nhiên, công trình này chỉ xem xét đến các tên của thực thể và việc chuẩn hóa này là một cách để giải quyết vấn đề một thực thể có thể có nhiều bí danh.

Các công trình liên quan gần với luận án là [27], [29] và [143]. Công trình [27]

làm giàu các truy vấn và văn bản bằng các nhãn thực thể có tên. Các nhãn này đƣợc kết hợp với từ khóa để truy hồi tài liệu. Các từ để hỏi cũng đƣợc thay thế bởi các nhãn thực thể tương ứng. Tuy nhiên, các nhãn thực thể này chỉ đơn giản là một số lớp tổng quát của thực thể có tên. Hơn nữa, các lớp cha và các bí danh của thực thể không đƣợc xem xét.

Trong [29], các tác giả hiệu chỉnh mô hình không gian vectơ truyền thống thành các vectơ trên không gian thực thể có tên và từ khóa. Với mỗi truy vấn hoặc tài liệu, các tác giả áp dụng sự kết hợp tuyến tính giữa vectơ dựa trên thực thể và vectơ dựa trên từ khóa với trọng số của từng vectơ là 0,5. Hệ thống đƣợc thực nghiệm trên tập kiểm tra do các tác giả xây dựng. Nhƣợc điểm của hệ thống này là mỗi truy vấn phải đƣợc viết bằng ngôn ngữ RDQL (một ngôn ngữ truy vấn cho RDF) để tìm kiếm trong ontology các thực thể có tên trong truy vấn, trước khi vectơ biểu diễn truy vấn được xây dựng dựa trên các thực thể tìm đƣợc. Ví dụ, với truy vấn tìm kiếm các tài liệu về Basketball Player, vectơ biểu diễn truy vấn này đƣợc xây dựng dựa trên các tên cầu

thủ bóng rổ trong ontology. Điều này làm tốn thời gian tìm kiếm một cách không cần thiết so với cách chỉ cần tìm các tài liệu có chứa các thực thể thuộc lớp Basketball Player. Hơn nữa, một ontology thường không đầy đủ, nên các tài liệu phù hợp chứa các thực thể có tên không tồn tại trong ontology sẽ không đƣợc trả về, vì các thực thể này không đƣợc dùng để xây dựng truy vấn.

Trong lúc đó, mô hình khai thác ngữ nghĩa tiềm ẩn đƣợc đề xuất ở [143] sử dụng cả thực thể có tên và từ khóa nhƣ là thuật ngữ của một không gian vectơ chung. Đặc điểm chính của mô hình này là việc mở rộng tài liệu bằng các thuật ngữ không xuất hiện trong tài liệu nhƣng có quan hệ đồng xuất hiện với các thuật ngữ có trong tài liệu.

Các tác giả thực nghiệm mô hình trên 20 câu truy vấn đƣợc chọn ngẫu nhiên từ 112 truy vấn của tập kiểm tra CISI ([77]) với 1.460 tài liệu đƣợc chọn từ [144]. Hạn chế của công trình này là chỉ khai thác tên của thực thể mà không khai thác các đặc điểm ontology khác.

Bảng 3.1. Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên cho truy hồi tài liệu

Công trình

Đặc điểm ontology đƣợc sử dụng để biểu diễn truy vấn và tài liệu

Tên Lớp

[31], [30], [29], [143] x

[20], [141], [27] x

[139], [28] x x

Nhƣ trình bày ở trên, mỗi công trình liên quan đƣợc tham khảo và phân tích chỉ khai thác một số đặc điểm ontology của thực thể có tên, chứ không phải tất cả. Riêng trong lĩnh vực truy hồi tài liệu, Bảng 3.1 phân nhóm các công trình liên quan theo các đặc điểm ontology mà các công trình này sử dụng để biểu diễn truy vấn và tài liệu. Cụ thể là, các công trình [31], [30], [29] và [143] chỉ sử dụng tên, còn các công trình [20], [141] và [27] chỉ sử dụng lớp. Các công trình [139] và [28] có sử dụng tên và lớp của thực thể để biểu diễn truy vấn và tài liệu, nhƣng tách rời hai đặc điểm ontology này dù là của cùng một thực thể. Việc tách rời này làm cho các tài liệu chứa thực thể có cùng tên (nhƣng khác lớp) hoặc chứa thực thể có cùng lớp (nhƣng khác tên) với thực thể ở truy vấn đƣợc truy hồi, trong khi các thực thể trong các tài liệu này không phải là các

thực thể nhƣ truy vấn mong đợi (tức mỗi thực thể có cùng cả tên và lớp với thực thể ở truy vấn). Khảo sát này cho thấy các công trình này chƣa khai thác hai đặc điểm ontology của thực thể có tên là: (1) định danh, xác định chính xác một thực thể; và (2) cặp tên-lớp, tức là về việc đặc tả các thực thể có cùng một tên và thuộc cùng một lớp xác định nào đó.

Một phần của tài liệu Luận án tiến sĩ Truy hồi thông tin dựa trên ontology (Trang 34 - 37)

Tải bản đầy đủ (PDF)

(138 trang)