Tập câu truy vấn dùng đểđánh giá
Đề tài tiến hành thử nghiệm trên tập các câu truy vấn lấy từ Question Answering Track của tập dữ liệu mẫu TREC 2002. Tập mẫu này có 440 câu truy vấn, bao gồm:
Phân loại theo từ để hỏi: 201 câu hỏi What, 67 câu hỏi Who, 62 câu hỏi Where, 45 câu
hỏi When, 38 câu hỏi How, 3 câu hỏi Which và 24 câu không dùng từđể hỏi.
Phân loại theo dạng câu: 16 câu có từđể hỏi How many, 6 câu có tính từ, 35 câu có tính từ so sánh nhất, 1 câu có liên từ luận lý, 382 câu còn lại không thuộc các dạng trên. Ngoài ra, do một sốđề xuất mở rộng của đề tài không có trong tập mẫu TREC 2002. Cụ thể
là các câu truy vấn có chứa tính từso sánh hơn, các câu truy vấn kết hợp lượng từ, tính từ… Do vậy, đề tài còn sử dụng thêm 5 câu truy vấn được sưu tầm bằng tay để kiểm tra các trường hợp này.
Các phần mềm, công cụ sử dụng trong thử nghiệm này
KIM platform phiên bản 3.0, cùng với Ontology và cơ sở tri thức đi kèm (được cập nhật lần cuối vào ngày 8/7/2010): dùng để nhận diện thực thể có tên.
GATE phiên bản 5.1: dùng để nhận diện thực thể không tên và các thành phần khác.
Sesame phiên bản 2.3.1: dùng để chạy câu truy vấn SeRQL tìm thực thể thỏa mãn.
Apache Tomcat phiên bản 6.0: để triển khai hệ thống.
JDK SE 1.6.0.
Đềtài đã bổ sung 65 lớp thực thể và 87 quan hệ còn thiếu vào Ontology, cũng như thêm 288 thực thể còn thiếu vào cơ sở tri thức.