Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 38 - 39)

Khái niệm quan hệ thượng hạ danh: quan hệ thượng hạ danh (hyponym) là quan hệ giữa hai từ, trong đó một từ luôn bao gồm nghĩa của từ kia nhưng không ngược lại [30].

Hình 5 là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”, “hoa hướng dương”, “hoa cúc”, ….

Thông thường các thực thể trong cùng một tập hợp sẽ có một hoặc một vài điểm chung. Hay nói cách khác, ta có thể gán cho tập hợp một cái tên. Ví dụ như một tập gồm “khỉ”, “mèo”, “gà” ta có thể gán đây là tập “động vật”, đây cũng chính là đặc điểm chung của tập hợp này. Như đã phân tích trong phần “Xác định từ khóa câu trả lời” (1.2.3): các từ khóa trong câu hỏi của hệ thống hỏi đáp danh sách sẽ chỉ ra đặc điểm chung của tập kết quả trả lời mong đợi. Các thực thể này thường xuất hiện gần với cụm từ mô tả đặc điểm chung của chúng, ví dụ như “Một số động vật như bò, lợn gà, …”, do đó có thể sử dụng các luật để trích chọn ra các thực thể, trong ví dụ này là “bò”, “lợn”, “gà”. Như vậy, một phương pháp để tìm được câu trả lời cho hệ thống hỏi đáp danh sách dựa vào quan hệ thượng hạ danh của từ khóa trong câu hỏi.

Giả sử đã có từ khóa của câu hỏi, hệ thống sẽ xây dựng các câu truy vấn dựa vào từ khóa đó và các mẫu luật thượng hạ danh đã được xây dựng từ trước. Các câu truy vấn sẽ được đưa vào máy tìm kiếm để thu thập các tài liệu văn bản web tương ứng, thông thường sẽ thu thập 100 trang web được trả về đầu tiên bởi máy tìm kiếm. Sau đó bằng các kỹ thuật so khớp mẫu và xử lý xâu chuỗi, ta có thể trích chọn ra được các thực thể tiềm năng. Bằng cách sử dụng phương pháp xếp hạng dựa vào tần suất xuất

Hình 5. Ví dụ về quan hệ thượng hạ danh.

là Hoa

Hoa hồng

Hoa hướng dương

30

hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được theo trọng số của chúng. Bằng việc lựa chọn các thực thể có trọng số lớn hơn một ngưỡng xác định trước, ta thu được một danh sách các thực thể, là danh sách câu trả lời cho câu hỏi tương ứng.

Bảng 9 liệt kê một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt tương ứng. Các mẫu trong tiếng Việt được xây dựng dựa trên việc tham khảo các mẫu thể hiện quan hệ thượng hạ danh trong tiếng Anh mà Hearst [20] đã đề xuất và dựa vào việc tìm hiểu miền dữ liệu tiếng Việt. Trong đó <C> thể hiện vị trí của tên lớp, tên tập hợp (từ khóa) và <I> thể hiện vị trí của các thực thể trong quan hệ thượng hạ danh của các <C> đó.

Tiếng Anh Tiếng Việt

<C> such as <I> một số <C> như <I> such <C> as <I> các <C> như <I> <C> i.e. <I> <C> nghĩa là <I> <C> e.g. <I> <C> ví dụ như <I> <C> include <I>

<C> bao gồm <I> <C> including <I>

<I> and other <C> <I> và các <C> khác <I> or other <C> <I> hoặc các <C> khác

Một phần của tài liệu phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt (Trang 38 - 39)