6. Nội dung luận vă n 20
4.7.2 Xây dựng tập câu định nghĩa 81
Chúng tôi sử dụng 348 case frame định nghĩa (xem chương 3) để so khớp (matching) với tập các câu đã được phân vào các lớp Class_Intro và Class _Back. Kết quả thể hiện trong bảng 4.5 và hình 4.12. Các câu thỏa mãn các điều kiện rút trích của case frame được chúng tôi trích lọc và lưu trữ dưới dạng thể hiện trong hình 4.13 nhằm phục vụ cho việc đánh chỉ mục dữ liệu. Một số ví dụ rút trích thông tin định nghĩa sử dụng case frame được đính kèm trong phụ lục D.
Bảng 4.5 Bảng kết quả thực nghiệm xây dựng tập câu định nghĩa
Số câu ban đầu Thỏa case frame Không thỏa case frame
Class_Intro 115,615 25,442 90,173
Class _Back 4,541,718 1,208,462 3,333,256
Tổng cộng 4,657,333 1,233,904 3,423,419
82
==> Câu định nghĩa n ==> Câu định nghĩa 1 …
<[Đối tượng được định nghĩa]>
Hình 4.13 Hình thức lưu trữ tập câu định nghĩa
4.7.3 Xây dựng chỉ mục CSDL
Với cấu trúc đánh chỉ mục đã đề xuất (mục 4.6.2) và tập các thuật ngữ cùng các câu định nghĩa tương ứng đã được xây dựng (mục 4.7.2), chúng tôi đã tiến hành
đánh chỉ mục tạo CSDL trả lời cho hệ thống hỏi đáp với kết quả như bảng 4.6.
Bảng 4.6 Kết quảđánh chỉ mục CSDL trả lời
Số lượng thuật ngữđược đánh chỉ mục 484,252 Số lượng câu được lưu trữ tương ứng 1,233,904 Kích thước (MB) của CSDL trả lời 365
4.8 Kết luận
Trong chương này, chúng tôi đã giải quyết được các vấn đề sau: -Các mô hình xử lý dữ liệu thô.
-Đề xuất cách thức đánh chỉ mục CSDL trả lời.
-Thực nghiệm phân lớp các câu với độ chính xác trung bình 80.96%. Độ
chính xác của huấn luyện phân lớp dữ liệu có ảnh hưởng lớn đến hiệu quả
trả lời của hệ thống hỏi đáp. Do vậy, nâng cao độ chính xác huấn luyện phân lớp là hướng phát triển trong các công trình nghiên cứu tiếp theo nhằm mục đích nâng cao hiệu quả của hệ thống trả lời.
-Thực nghiệm đã xây dựng được tập các đối tượng cùng với câu định nghĩa tương ứng bằng mô hình case frame. Theo đó, khi áp dụng mô hình case frame, chúng tôi đã loại bỏ đi rất nhiều các câu không phù hợp (hình 4.12) với hệ thống hỏi đáp cho câu hỏi định nghĩa.
83
5 CHƯƠNG 5 XÂY DỰNG HỆ THỐNG TRẢ
LỜI TỰ ĐỘNG
5.1 Mô hình xử lý tổng quan
Chúng tôi đã xây dựng và cài đặt các module ứng với các thành phần xử lý chính: Phân tích câu hỏi, Tìm kiếm tài liệu và Lựa chọn câu trả lời. Ngoài ra, hệ
thống còn hỗ trợ đưa ra các gợi ý đáp ứng tốt hơn nhu cầu thông tin của người dùng. (chi tiết xem mục 2.5.2, 2.5.3, 2.5.4). Mô hình xử lý của toàn bộ hệ thống hỏi đáp
được mô hình hóa như hình 5.1.
Chúng tôi xây dựng và cài đặt hệ thống hỏi đáp tự động cho câu hỏi định nghĩa như là một ứng dụng web để thuận tiện và phổ biến rộng rãi đáp ứng nhu cầu tra cứu thông tin của mọi người.
5.2 Thiết kế giao diện
Giao diện bao gồm các thành phần chính (hình 5.2): -Cho phép người dùng nhập câu hỏi.
-Danh sách hiển thị các thuật ngữđồng nghĩa. -Danh sách các thuật ngữ khác có liên quan. -Phần hiển thị câu trả lời.
84
85
Hình 5.2 Giao diện thiết kế hệ thống hỏi đáp