Sử dụng bộ dữ liệu câu hỏi tiếng Anh gồm 5500 câu hỏi cho tập luyện và 500 câu hỏi cho tập kiểm tra được cơng bố trong tài liệu [11] của tác giả Nguyễn Trí Thành [9].
Trong hội thảo TREC(Text Retrieval Conference – Voorhees 1999, 2000, 2001) đưa ra sáu lớp câu hỏi là abbreviation, description, entity, humen,
location và numeric. Tuy nhiên với hệ thống trả lời câu hỏi(QAS) dành cho rất
nhiều lĩnh vực nên sáu lớp này là chưa đủ. Số lượng lớp câu hỏi càng nhiều thì độ chính xác trong câu trả lời càng cao. Từ sáu lớp chính được định nghĩa bởi TREC, (Li và Roth 2002) đã đề xuất chia các lớp câu hỏi thành 50 lớp. Nguyễn Trí Thành đã sử dụng định nghĩa lớp này trong cải tiến Tri-Train, trong phạm vi luận văn này tác giả cũng sử dụng định nghĩa lớp này. Tập dữ liệu được sử dụng bao gồm 5952 câu hỏi, trong đĩ 500 câu hỏi từ TREC 10 (Voorhees 2001) được dùng làm tập test và bốn tập các câu hỏi từ 1000, 2000, 3000, đến 4000 được tạo ra từ cách chọn ngẫu nhiên trong 5500 câu hỏi. Dữ liệu này cĩ tại
http://L2R.cs.uiuc.edu/~cogcomp/. Tác giả sửdụng bốn tập con này như là các
tập đã được gán nhãn và tạo ra bốn tập chưa được gán nhãn tương ứng bằng cách chọn các câu hỏi khơng thuộc vào tập đã gán nhãn.
Thuật tốn sử dụng: Tri-Train cải tiến Cơng cụ:
- Cơng cụ thực nghiệm với Tri-Train, luận văn sử dụng tool của tác giả Nguyễn Trí Thành [10]
- Tất cả các mã nguồn và dữ liệu test cũng như kết quả thực hiện của thuật tốn được lưu tại phịng Lab của bộ mơn Hệ thống Thơng tin, Khoa Cơng nghệ Thơng tin, Trường Đại học Cơng nghệ- Đại học Quốc gia Hà nội.
Các khung nhìn được sử dụng trong Tri -Train cải tiến cũng thừa kế từ các khung nhìn của tác giả Nguyễn Trí Thành trong cải tiến sử dụng nhiều view và nhiều bộ phân lớp
28
Kết quả của các phép thực nghiệm được thống kê trong phần “mục lục” và được sử dụng để xây dựng các biểu đồ, kết luận sẽ được trình bày ở các phần ngay sau của chương này.