MỤC LỤC
Hệ thống, sau khi xử lý bằng phương pháp ít phụ thuộc vào cú pháp, sẽ trả về tài liệu chứa thông tin được tìm kiếm hoặc trả về số liệu được yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu trả lời). Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn [tham khảo anh Dũng], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-đun chú giả, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-đun xử lý câu truy vấn.
Nên, ở bước nhận biết thực thể, đề tài sẽ sử dụng công cụ sẵn có, và giả sử là quá trình này hoàn toàn chính xác. Đề tài cũng không giải quyết vấn đề về quan hệ 3 ngôi trong [HA], vì việc đó liên quan tới việc mở rộng, “làm mịn” Ontology, là một bài toán khác.
Luận văn cũng đề xuất và hiện thực cách xử lý câu truy vấn có chứa dạng so sánh hơn của tính từ định lượng. Các câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể, như.
Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên đã biết. Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên còn phải rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên với thực thể không tên.
Trong ví dụ này, [STUDENT: John], [SUBJECT:*], [FIELD: CS] là các khái niệm với STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là các quan hệ với STUDY và IN là các kiểu quan hệ. Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc (Ta nghĩ chỗ này mình nên nói: trong tài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn bằng hình chữ nhật vát góc, vì các ví dụ sau này đâu phải tròn góc).
Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND, OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truy vấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giá trị. Khác biệt chủ yếu giữa Lucene và S-Lucene đó là Lucene đánh chỉ mục và tìm kiếm trên từ khóa, trong khi đó S-Lucene mở rộng cho đánh chỉ mục và tìm kiếm theo thực thể.
Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng tham chiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập. Một đường liên kết nét đôi sẽ được nối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con.
Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 2” là ứng với mỗi tính từ ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà có tính chất thỏa ADJ theo một độ đo nào đó. Trong đề tài này, phương pháp tiếp cận đã sử dụng cả hai giải pháp nêu trên, trong đó “Giải pháp 1” được sử dụng để biểu diễn các tính từ định lượng (tall, hight,…), còn “Giải pháp 2” được sử dụng cho việc biểu diễn các tính từ định tính (famous, good,…).
Nhiệm vụ còn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liên kết nét đôi sẽ được nối từ quan hệ MIN, MAX tới biểu diễn tính từ nằm trong đỉnh truy vấn con. Theo đó, với câu truy vấn “What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp MOST_FAMOUS_MODEL là lớp con của lớp MODEL.
Đối với tính từ so sánh nhất thuộc loại định tính, chúng tôi giải quyết tương tự như cho trường hợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3. Tuy nhiên, để truy vấn được tài liệu, hoặc tìm được số liệu trả lời, việc biểu diễn các câu truy vấn có tính từ sang đồ thị ý niệm phải phụ thuộc vào cách ontology thể hiện thuộc tính của thực thể. Lấy ví dụ với tính từ định tính: trong ontology đã có lớp MODEL bao gồm các thực thể là người mẫu, để thể hiện thuộc tính nổi tiếng (FAMOUS) của người mẫu, Ontology có thể định nghĩa thêm lớp FAMOUS_MODEL là lớp con của lớp MODEL, chứa các thực thể là người mẫu được xem là nổi tiếng.
Cũng có thể với lớp MODEL như trên, nhưng thuộc tính FAMOUS có thể được định nghĩa là một quan hệ HAS_FAME_PROPERTY với miền chủ ngữ (domain) là lớp MODEL, còn tầm vực vị ngữ (range) là lớp STRING với các giá trị “Yes” hoặc “No” để cho biết các thực thể người mẫu là nổi tiếng hay không.
Nhiệm vụ còn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng.
Để giải quyết truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêm Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm). Các thực thể không tên là các thực thể không xác định và không tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng có thể thuộc về một lớp xác định nào đó trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các thực thể không tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớp biểu diễn cho các thực thể không tên này. Ta xét câu truy vấn “Who are members of the board of the IMG?”, sau Bước 4.1.6 (Xác định lớp của thực thể), chúng ta được hai thực thể không tên: Who, member thuộc lớp PERSON và một thực thể có tên IMG thuộc lớp COMPANY.
Cho nên sau khi áp dụng phương pháp đề nghị, một số truy vấn mặc dù đã được giải quyết lỗi thuộc về Q-Error nhưng những lỗi thuộc về O-Error hoặc M-Error đã tồn tại từ trước nên vẫn còn tồn đọng và do đó một số lượng lỗi Q-Error sẽ được phân loại lại thành lỗi O-Error hoặc lỗi M-Error. “Adverb/Temporal query”, 2 truy vấn phụ thuộc vào ngữ cảnh, nghĩa là các đối tượng được truy vấn không xác định được tại câu truy vấn mà nó thuộc về một câu khác, chúng tôi tạm gọi là “Context query”, và 10 câu truy vấn phức tạp mà phương pháp không giải quyết được. Những lỗi thuộc về M-Error cũng có cùng nguyên nhân do phương pháp không phân biệt được từ quan hệ và thực thể đối với một số từ vựng tiếng Anh như chúng tôi đã phân tích ở trường hợp kết quả thực nghiệm trên tập TREC 2002.
Trong ví dụ trên, từ khóa ELEMENT được dùng để khai báo cấu trúc của một thành phần; từ khóa ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không bắt buộc của thuộc tính. Đường liên kết nét đôi sẽ được nối từ quan hệ gộp vừa tạo tới thực thể câu truy vấn về số lượng trong trường hợp truy vấn “How many” hoặc nối tới biểu diễn tính từ nằm trong đỉnh truy vấn con tương ứng trong trường hợp câu truy vấn có chứa tính từ so sánh nhất.”. Do đó, để dịch sang đồ thị ý niệm cho các câu truy vấn bằng các ngôn ngữ khác chỉ cần xây dựng một Ontology tương ứng và xây dựng danh sách các thực thể không tên và danh sách các từ quan hệ tương ứng trên ngôn ngữ đó.
Bên cạnh đó, đề tài đã góp phần mở rộng giải quyết thêm những vấn đề còn hạn chế trong kết quả nghiên cứu của tác giả Cao Duy Trường [18] cho việc dịch các câu truy vấn hỏi về số lượng, các câu truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý. • Có một số quan hệ phức tạp, là các quan hệ có ba ngôi, bằng đồ thị ý niệm đơn giản không thể thể hiện được đầy đủ ý nghĩa của các quan hệ đó, do đó cần nghiên cứu phương pháp biểu diễn các quan hệ này trên Ontology cũng như dùng đồ thị ý niệm lồng nhau để biểu diễn các quan hệ này. • Ngoài ra, đề tài mới chỉ dừng lại ở việc giải quyết liên từ luận lý NOT giữa các mệnh đề, nhưng chưa giải quyết triệt để khi liên từ luận lý NOT tác động vào tính từ, cần có những nghiên cứu thêm về vấn đề này.