thống hỏi đáp
Sự phát triển của các kỹ thuật phân tích câu hỏi không song song với sự phát triển của các hệ thống hỏi đáp . Các hệ thống trả lời câu hỏi phát triển từ các hệ thống miền đóng (giải quyết những câu hỏi về một lĩnh vực nhất định) cho đến những hệ thống miền mở (giải quyết những câu hỏi về tất cả mọi thứ), từ những hệ thống sử dụng cơ sở dữ liệu (NLIDB) cho đến những hệ thống sử dụng cơ sở tri thức (web ngữ nghĩa,
Ontology). Tuy các kỹ thuật được trình bày ở phần 2.2 được sử dụng trong các hệ
thống NLIDB, nhưng chúng lại được phát triển, mở rộng và áp dụng trên hầu hết các
loại hệ thống trả lời câu hỏi. Phương pháp phân tích cú pháp của câu hỏi được dùng trong cả các hệ thống miền mở như Falcon [10] hoặc [11] bằng cách sử dụng gán nhãn từ loại (Part-of-Speech Tagging hay POS Tagging). Phương pháp so khớp mẫu được dùng trong các hệ thống miền mở như trong [33][36].
Thời gian gần đây, phương pháp sử dụng chú giải ngữ nghĩa đã đem lại hiệu quả cao trong phân tích câu hỏi. Hệ thống xử lý ngôn ngữ tự nhiên xây dựng các chú giải được biết đến và được sử dụng nhiều nhất là GATE [40][45] (General
Architecture for Text Engineering). GATE được sử dụng trong rất nhiều hệ thống trả
lời câu hỏi như: Aqualog [20][21], QuestIO [5],…
Hệ thống Aqualog được giới thiệu bởi Vanessa Lopez và các tác giả khác là một
hệ thống trả lời câu hỏi được đánh giá rất cao trong thời điểm hiện nay. Aqualog lấy các câu hỏi được biểu diễn trong ngôn ngữ tự nhiên và một Ontology như đầu vào, sau đó trả về trả lời thu được từ những đánh dấu ngữ nghĩa phù hợp với Ontology có sẵn.
Kiến trúc Aqualog có thể được mô tả như một mô hình thác nước, trong đó câu hỏi ngôn ngữ tự nhiên thông qua thành phần ngôn ngữ (Linguistic Component) được
27
chuyển một tập các các biểu diễn dựa trên bộ ba trung gian được hiểu như là Query- Triple. Sau đó, thành phần phục vụ tương tự quan hệ (Relation Similarity Service) lấy
đầu vào là các Query-Triple và xử lý chúng để sinh ra các truy vấn phù hợp với
Ontology được gọi là các Onto-Triple. Kiến trúc của Aqualog được chỉ ra trong hình
2-6 dưới đây:
Hình 2-6: Kiến trúc của Aqualog
Aqualog thực hiện phân tích ngữ nghĩa và cú pháp của câu hỏi thông qua việc sử dụng các tài nguyên xử lý của GATE [40][45] cho tách từ, phân đoạn câu, gán nhãn từ loại, cụm động từ trong thành phần ngôn ngữ. Khi một câu hỏi được hỏi, nhiệm vụ của thành phần ngôn ngữ là chuyển từ ngôn ngữ tự nhiên tới định dạng bộ ba biểu diễn trung gian Query-Triple. Một Query-Triple có dạng: <thuật ngữ chung, mối quan hệ, từ thứ hai>, trong đó, “mối quan hệ” có thể thiếu tùy thuộc vào kiểu của câu hỏi. Đầu
ra khi sử dụng GATE là một tập các các chú giải ngữ nghĩa được liên kết với câu hỏi
đầu vào. Thông qua việc sử dụng văn phạm JAPE (Java Annotations Pattern Engine) [40][45], AquaLog mở rộng tập các chú giải được trả về bởi GATE, bằng cách nhận
biết các thuật ngữ, các mối quan hệ, và kiểu của các câu hỏi.
Một số hệ thống khác không sử dụng GATE phân tích câu hỏi nhưng vẫn dựa
28
Chƣơng 3. GATE