Dữ liệu và công cụ cho thực nghiệm 27

Một phần của tài liệu Một giải thuật Tri-train chỉnh sửa và ứng dụng vào bài toán phân lớp câu hỏi (Trang 27)

Sử dụng bộ dữ liệu câu hỏi tiếng Anh gồm 5500 câu hỏi cho tập luyện và 500 câu hỏi cho tập kiểm tra được công bố trong tài liệu [11] của tác giả Nguyễn Trí Thành [9].

Trong hội thảo TREC(Text Retrieval Conference – Voorhees 1999, 2000, 2001) đưa ra sáu lớp câu hỏi là abbreviation, description, entity, humen, location

numeric. Tuy nhiên với hệ thống trả lời câu hỏi(QAS) dành cho rất nhiều lĩnh vực nên sáu lớp này là chưa đủ. Số lượng lớp câu hỏi càng nhiều thì độ chính xác trong câu trả lời càng cao. Từ sáu lớp chính được định nghĩa bởi TREC, (Li và Roth 2002) đã đề xuất chia các lớp câu hỏi thành 50 lớp. Nguyễn Trí Thành đã sử dụng định nghĩa lớp này trong cải tiến Tri-Train, trong phạm vi luận văn này tác giả cũng sử dụng định nghĩa lớp này. Tập dữ liệu được sử dụng bao gồm 5952 câu hỏi, trong đó 500 câu hỏi từ TREC 10 (Voorhees 2001) được dùng làm tập test và bốn tập các câu hỏi từ 1000, 2000, 3000, đến 4000 được tạo ra từ cách chọn ngẫu nhiên trong 5500 câu hỏi. Dữ liệu này có tại http://L2R.cs.uiuc.edu/~cogcomp/. Tác giả sử dụng bốn tập con này như là các tập đã được gán nhãn và tạo ra bốn tập chưa được gán nhãn tương ứng bằng cách chọn các câu hỏi không thuộc vào tập đã gán nhãn.

Thuật toán sử dụng: Tri-Train cải tiến Công cụ:

- Công cụ thực nghiệm với Tri-Train, luận văn sử dụng tool của tác giả Nguyễn Trí Thành [10]

- Tất cả các mã nguồn và dữ liệu test cũng như kết quả thực hiện của thuật toán được lưu tại phòng Lab của bộ môn Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ- Đại học Quốc gia Hà nội. Các khung nhìn được sử dụng trong Tri-Train cải tiến cũng thừa kế từ các khung nhìn của tác giả Nguyễn Trí Thành trong cải tiến sử dụng nhiều view và nhiều bộ phân lớp

Kết quả của các phép thực nghiệm được thống kê trong phần “mục lục” và được sử dụng để xây dựng các biểu đồ, kết luận sẽ được trình bày ở các phần ngay sau của chương này.

Một phần của tài liệu Một giải thuật Tri-train chỉnh sửa và ứng dụng vào bài toán phân lớp câu hỏi (Trang 27)