d. Câu cảm thán
6.1.1. Giao diện của chương trình
Như đã phân tích ở trên, chương trình là một phần của hệ thống hội thoại tích hợp, do đó giao diện được thống nhất phù hợp với các yêu cầu của cả hệ thống hội thoại. Cụ thể , trên giao diện sẽ có :
Phần trung tâm bao gồm 3 textbox :
• Textbox trên cùng là nơi người dùng nhập câu hội thoại với máy.
• Textbox ở giữa là nơi chương trình phân giải đồng tham chiếu và tỉnh lược in ra câu của người dùng sau khi được hệ thống xử lý.
• Textbox cuối cùng là để hệ thống hội thoại phản hồi lại người dùng
Phần bên trái và và bên phải có các textbox hiển thị các câu hội thoại phía trước (textbox bên phải) . Giao diện cụ thể :
6.1.2. Thử nghiệm và kết quả.
Sau đây là một số câu thử nghiệm minh họa và kết quả đầu ra của chương trình.
Bảng thử nghiệm
Đầu vào. Đầu ra.
1.John lấy chiếc bánh ở trên bàn và ăn nó.
John lấy chiếc bánh ở trên bàn và ăn chiếc bánh
T 2.John lấy chiếc bánh ở trên bàn và
rửa nó.
John lấy chiếc bánh ở trên bàn và rửa bàn.
T 3.Họa sĩ Tô Ngọc Vân vẽ được 5
tranh?
Tôi nghĩ thế.
Tôi nghĩ họa sĩ Tô Ngọc Vân vẽ được 5 tranh.
T
4. Họa sĩ Tô Ngọc Vân có được 5 tranh.
Ảnh ?
Họa sĩ Tô Ngọc Vân có được mấy ảnh ?
T
5. quốc tịch của họa sĩ Tô Ngọc Vân là gì ?
….
Quê quán?
Quê quán của họa sĩ Tô Ngọc Vân là gì?
T
6.Họa sĩ Tô Ngọc Vân nhà ở đâu? …
Ngày sinh?
Họa sĩ Tô Ngọc Vân ngày sinh ở đâu? F
7. Bảo tàng trưng bày bao nhiêu tranh ?
5 tranh.
Bảo tàng trưng bày 5 tranh T
8. Bức tranh “ The Mona Lisa” là của họa sĩ Leonardo da Vinci phải không?
Vâng, bức tranh đó do ông ấy vẽ.
Vâng, The Mona Lisa do Leonardo da Vinci vẽ.
T
9.A: Bức họa “ The Madonna with the Yamwinder” của Leonardo đã bị đánh cắp phải không?
B: Vâng, bức tranh của ông ấy bị đánh cắp vào hồi tháng 8/2003
bức tranh của Leonardo bị đánh cắp vào hồi tháng 8/2003
T
10. Bạn biết họa sĩ Tô Ngọc Vân chứ?
có chứ,”thiếu nữ bên hoa huệ “ chính là bức tranh sơn dầu nổi tiếng của Tô
B: có chứ,”thiếu nữ bên hoa huệ “ chính là bức tranh sơn dầu nổi tiếng của ông ấy
Ngọc Vân .
11.Ai đã phục chế bức tranh này ? B: Caroline Fry.
Caroline Fry đã phục chế bức tranh này .
F
12. Bức tranh sơn dầu “ hoa mười giờ” do họa sĩ nào vẽ ?
B: Họa sĩ Vũ Kim Thanh
A: Hiện tại ông ý sống ở Luân Đôn phải không?
12. Bức tranh sơn dầu “ hoa mười giờ” do Vũ Kim Thanh vẽ.
A: Hiện tại Vũ Kim Thanh sống ở Luân Đôn phải không?
T
12Bức tranh “ The Mona Lisa” là của họa sĩ Leonardo da Vinci phải không?
B: Vâng, bức tranh đó do ông ta vẽ.
Vâng,“ The Mona Lisa” do Leonardo da Vinci vẽ.
T
13.Quê quán của họa sĩ Tô Ngọc Vân ở đâu?
…
Chứng minh thư?
Chứng minh thư của họa sĩ Tô Ngọc Vân ở đâu ?
N
14.John lấy chiếc gậy ở trên bàn và lau nó
John lấy chiếc gậy ở trên bàn và lau chiếc gậy
N 15.: Kiệt tác” ao súng” được bán
với giá 80 triệu USD
B: Nó là tác phẩm của Claude Monet?
A:Vâng, ông ta là danh họa ngưừoi Pháp theo trường phái ấn tượng
Ao Súng là tác phẩm của Claude Monet?
A:Vâng, Claude Monet là danh họa người Pháp theo trường phái ấn tượng
T
16. Bạn muốn tìm tranh gì ? Trừu tượng
Tôi muốn tìm tranh trừu tượng. T 17. Bạn muốn tìm gì?
Tranh trừu tượng.
F F
18. Goya là ai vậy?
B: Ông ấy là đại danh họa thế giới
Goya là đại danh họa thế giới người Tây Ban Nha
người Tây Ban Nha 19. Mary rất yêu quý Lan.
Bà ấy thường ngồi hàng giờ nói chuyện với cô ấy
Mary thường ngồi hàng giờ nói chuyện với Lan
T
6.2.Đánh giá kết quả.
Cách tiếp cận của đồ án này dựa trên ý tưởng tổng hợp các thuật toán có tính khả thi cao cả về độ chính xác và khả năng hiện thực hóa. Trong quá trình thực hiện đồ án này, em cũng đã nghiên cứu nhiều ý tưởng mới lạ, tuy nhiên thực tiễn chứng minh chúng không có sự khả thi cài đặt cao, nhất là đối với tiếng Việt.
Chương trình đã đạt được kết quả khả quan với những câu hội thoại đồng tham chiếu đơn giản. Với những câu đơn giản sự nhập nhằng được loại bỏ. Với những câu phức tạp hơn, sự chính xác của chương trình bị giảm đi. Các kết quả sai hay rơi vào trường hợp nhập nhằng giữa câu hỏi – trả lời của câu xảy ra hiện tượng tỉnh lược, như vấn đề về các phụ từ, ngôi nhân xưng.
Mặc dù hội thoại chỉ bao gồm những câu đơn giản nhưng không vì thế mà không có sự nhập nhằng xảy ra. Xét ví dụ thực nghiệm thứ 14
• John lấy chiếc gậy ở trên bàn và lau nó Có thể hiểu là
• John lấy chiếc gậy ở trên bàn và lau chiếc gậy. • John lấy chiếc gậy ở trên bàn và lau bàn.
Không thể nói được trường hợp nào là đúng và trường hợp nào là sai nếu chỉ dựa vào phân tích cú pháp, phải dựa vào những kiến thức thực tế về điều kiện hoàn cảnh xảy ra câu nói đó.
Thuật toán khá hiệu quả trong các câu ngắn, có từ 2 đến 3 đại từ tham chiếu. Mặc dù không phải lúc nào cũng tìm được tiền ngữ thích hợp nhất dù đã dùng tất cả các giới hạn. Ví dụ:
• John mang một cái hộp hộ Bill cho Tom. Anh ấy còn gửi cậu ta cuốn sách của Mary.
Dù có đầy đủ các tiền ngữ nhưng “anh ấy” và “cậu ta” vẫn không thể xác định được là (John|Bill) và (Bill|Tom).
Chương trình sử dụng lại phần tách từ vntagger, lấy kết quả đó làm đầu vào nên độ chính xác của chương trình thu được sẽ là tích số của độ chính xác thuật toán và độ chính xác của chương trình vntagger.
• P (chương trình) = P (vntagger) * P (thuật toán).
Do cách tiếp cận này đòi hỏi phải có một từ điển mới chứa thông tin về ngữ nghĩa của từ nhưng em chỉ có nguồn là cấu trúc cây Semantic và một từ điển từ thông dụng chưa có phân loại, vì thế em phải tự xây dựng thủ công nên số từ chưa nhiều . Do đó, số từ là chưa nhiều và em chưa có nhiều thời gian để thực hiện thử nghiệm chương trình với nhiều câu và có một kết quả đánh giá chính xác nhất về chương trình.
Chương trình được xây dựng hướng lĩnh vực, cụ thể ở đây là lĩnh vực liên qua đến viện bảo tàng. Bộ từ điển xây dựng cũng dựa trên lĩnh vực này. Lý do em xây dựng các bộ từ điển hướng lĩnh vực là để hạn chế sự nhập nhằng ngữ nghĩa của từ loại, qua đó nâng cao độ chính xác của chương trình. Trong thời gian tới em sẽ xây dựng và thử nghiệm thêm các bộ từ điển ở lĩnh vực khác để cho ra kết quả chính xác nhất.
CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong báo cáo này, em đã trình bày các vấn đề cơ bản như sau :
• Định nghĩa và phân loại hiện tượng đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại.
• Tích hợp thuật toán sử dụng tập luật ràng buộc, từ điển cầu trúc từ, chia để trị…để giải quyết từng trường hợp con của vấn đề, sau đó tích hợp thành bài toán lớn.
• Thiết kế ngoài của chương trình, kết quả kiểm tra và đánh giá.