Chú giải ngữ nghĩa phục vụ phân tích câu hỏi trong- 123docz.net

thống hỏi đáp

Sự phát triển của các kỹ thuật phân tích câu hỏi không song song với sự phát triển của các hệ thống hỏi đáp . Các hệ thống trả lời câu hỏi phát triển từ các hệ thống miền đóng (giải quyết những câu hỏi về một lĩnh vực nhất định) cho đến những hệ thống miền mở (giải quyết những câu hỏi về tất cả mọi thứ), từ những hệ thống sử dụng cơ sở dữ liệu (NLIDB) cho đến những hệ thống sử dụng cơ sở tri thức (web ngữ nghĩa,

Ontology). Tuy các kỹ thuật được trình bày ở phần 2.2 được sử dụng trong các hệ

thống NLIDB, nhưng chúng lại được phát triển, mở rộng và áp dụng trên hầu hết các

loại hệ thống trả lời câu hỏi. Phương pháp phân tích cú pháp của câu hỏi được dùng trong cả các hệ thống miền mở như Falcon [10] hoặc [11] bằng cách sử dụng gán nhãn từ loại (Part-of-Speech Tagging hay POS Tagging). Phương pháp so khớp mẫu được dùng trong các hệ thống miền mở như trong [33][36].

Thời gian gần đây, phương pháp sử dụng chú giải ngữ nghĩa đã đem lại hiệu quả cao trong phân tích câu hỏi. Hệ thống xử lý ngôn ngữ tự nhiên xây dựng các chú giải được biết đến và được sử dụng nhiều nhất là GATE [40][45] (General

Architecture for Text Engineering). GATE được sử dụng trong rất nhiều hệ thống trả

lời câu hỏi như: Aqualog [20][21], QuestIO [5],…

Hệ thống Aqualog được giới thiệu bởi Vanessa Lopez và các tác giả khác là một

hệ thống trả lời câu hỏi được đánh giá rất cao trong thời điểm hiện nay. Aqualog lấy các câu hỏi được biểu diễn trong ngôn ngữ tự nhiên và một Ontology như đầu vào, sau đó trả về trả lời thu được từ những đánh dấu ngữ nghĩa phù hợp với Ontology có sẵn.

Kiến trúc Aqualog có thể được mô tả như một mô hình thác nước, trong đó câu hỏi ngôn ngữ tự nhiên thông qua thành phần ngôn ngữ (Linguistic Component) được

chuyển một tập các các biểu diễn dựa trên bộ ba trung gian được hiểu như là Query- Triple. Sau đó, thành phần phục vụ tương tự quan hệ (Relation Similarity Service) lấy

đầu vào là các Query-Triple và xử lý chúng để sinh ra các truy vấn phù hợp với

Ontology được gọi là các Onto-Triple. Kiến trúc của Aqualog được chỉ ra trong hình

2-6 dưới đây:

Hình 2-6: Kiến trúc của Aqualog

Aqualog thực hiện phân tích ngữ nghĩa và cú pháp của câu hỏi thông qua việc sử dụng các tài nguyên xử lý của GATE [40][45] cho tách từ, phân đoạn câu, gán nhãn từ loại, cụm động từ trong thành phần ngôn ngữ. Khi một câu hỏi được hỏi, nhiệm vụ của thành phần ngôn ngữ là chuyển từ ngôn ngữ tự nhiên tới định dạng bộ ba biểu diễn trung gian Query-Triple. Một Query-Triple có dạng: <thuật ngữ chung, mối quan hệ, từ thứ hai>, trong đó, “mối quan hệ” có thể thiếu tùy thuộc vào kiểu của câu hỏi. Đầu

ra khi sử dụng GATE là một tập các các chú giải ngữ nghĩa được liên kết với câu hỏi

đầu vào. Thông qua việc sử dụng văn phạm JAPE (Java Annotations Pattern Engine) [40][45], AquaLog mở rộng tập các chú giải được trả về bởi GATE, bằng cách nhận

biết các thuật ngữ, các mối quan hệ, và kiểu của các câu hỏi.

Một số hệ thống khác không sử dụng GATE phân tích câu hỏi nhưng vẫn dựa

Chƣơng 3. GATE

Chú giải ngữ nghĩa phục vụ phân tích câu hỏi trong các hệ thống hỏi đáp

Các hệ thống so khớp mẫu

Các hệ thống dựa trên cú pháp