Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên

Một phần của tài liệu LUẬN VĂN:PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT doc (Trang 50 - 53)

nhiên

Bài báo [15] đã đưa ra một phương pháp tích hợp nhiều kĩ thuật trong xử lý ngôn ngữ tự nhiên dựa trên tri thức vào hệ thống hỏi đáp tự động và thu được kết quả rất tốt. Phương pháp xác định loại câu hỏi được tiến hành như sau (xem minh họa trong Hình 8):

- Câu hỏi được phân tích ngữ pháp và biểu diễn dưới dạng cây cú pháp.

- Các nút lá của cây được gán nhãn là các từ tương ứng và được chia làm hai loại: non-skip và skip. Các lá non-skip là lá mà nhãn là danh từ, động từ, tính từ, trạng từ. Các lá còn lại thuộc loại skip.

Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên

- Duyệt cây theo thứ tự bottom-up, gán nhãn cho các nút cha theo nhãn của các nút con nonskip dựa theo các luật xác định. Một luật căn cứ vào nhãn ngữ pháp của nút cha

để chọn ra một nút con thích hợp và lan truyền nhãn của nút con này lên mức kế tiếp của cây. Nút con được chọn được coi là nút có mối liên hệ với các nút anh em nonskip khác. Quá trình lan truyền được thực hiện cho đến khi gốc của cây cú pháp được gán nhãn. Một

đồ thị ngữ nghĩa cũng được tạo ra trong khi quá trình lan truyền nhãn và từ có số lượng mối liên hệ nhiều nhất với các từ khác được xem là từ trọng tâm (focus word).

- Để xác định loại câu hỏi, người ta sử dụng một cây phân cấp các loại câu hỏi dựa trên Wordnet. Loại câu hỏi là các nút cha (hypermym) của từ trọng tâm trong WordNet.

Hình 9. Ánh xạ từ trọng tâm vào Wordnet

Trong ví dụ ở hình 9, từ researcher là từ trọng tâm, được ánh xạ vào tập subset về

scientist, có hypermym là PERSON. Vì vậy câu hỏi này được xác định là câu hỏi về

người.

Ưu điểm:

- Rất mạnh mẽ, có thể xử lý được nhiều loại câu hỏi khác nhau. Dễ dàng mở rộng các lớp do chỉ cần thêm các nhãn lớp vào trong tập synset của WordNet.

Nhược điểm:

-Việc ánh xạ từ loại câu hỏi vào các tập từ của WordNet phải làm hoàn toàn bằng tay.

- Không có cơ chế khử nhập nhằng ngữ nghĩa của từ, nếu từ trọng tâm có nhiều nghĩa trong WordNet thì sẽ chọn tập synset nào đại diện cho loại câu hỏi ?

- Chưa xử lý với trường hợp từ trọng tâm không có trong WordNet. - Phải cần tới các công cụ xử lý và các nguồn tài nguyên ngôn ngữ.

researcher oceanographe chemist Scientist, man of science America islander, island- westerner inhabitant, dweller, denizen actor actress dancer performer, performing artist ballet dancer tragedian ERSON P What researcher discovered Hepatitis-B vaccine

What researcher discovered the

vaccine against Hepatitis-B? What is the name of the French oceanographerwho owned Calypso?

PERSO What oceanographer

owned Calypso

name French

Một phần của tài liệu LUẬN VĂN:PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT doc (Trang 50 - 53)