Các tập dữ liệu chuẩn để đánh giá

Nhiệm vụ chính của bất kỳ việc thử nghiệm phân loại văn bản nào là đo hiệu năng của phương pháp phát triển cho một tập dữ liệu chuẩn và so sánh kết quả với các phương pháp khác. Có nhiều tập dữ liệu chuẩn được sử dụng rộng rãi trong việc đánh giá các thuật toán phân lớp văn bản. Dưới đây là một trong số đó:

6.1. 20 Newsgroups

Tập dữ liệu 20 Newsgroups là một tập hợp xấp xỉ 20,000 tài liệu, được chia thành 20 nhóm khác nhau. Nó được thu thập bởi Ken Lang, công việc của ông ta là đánh đầu mục “Newsweeder: Leanring to filter net news”. Tập 20

Newsgroups đã trở thành một tập dữ liệu phổ biến cho việc thử nghiệm trong phân lớp văn bản và phân nhóm văn bản. Các tài liệu trong tập dữ liệu này được tổ chức thành 20 nhóm, mỗi nhóm tương ứng với một chủ đề khác nhau. Vài nhóm thì có quan hệ gần giống nhau (ví dụ, comp.sys.ibm.pc.hardware và

comp.sys.mac.hardware), trong khi những nhóm khác thì không hoặc ít liên quan với nhau (ví dụ, misc.forsale và soc.religion.christian). Dưới đây là danh sách 20 chủ đề của tập dữ liệu

6.2. Reuters-21578

Đây là một tập dữ liệu kiểm thử phổ biến khác cho công việc phân lớp văn bản. Nó chứa 21578 tài liệu được công bố vào năm 1987. Chúng được gán nhãn bằng tay bởi các nhân viên Reuters. Tổng số lượng lớp trong tập dữ liệu này là 672, nhưng nhiều lớp thì hiếm khi xảy ra. Vài tài liệu thuộc nhiều lớp khác nhau, một số khác thuộc chỉ một, và một vài không thuộc lớp nào. Qua nhiều năm, đã có những nỗ lực để làm sạch tập dữ liệu này, và cải tiến nó để sử dụng cho nghiên cứu khoa học.

6.3. OHSUMED

Tập dữ liệu OHSUMED chứa 348,566 văn bản. Các văn bản là các bản ghi của các bài báo y học chứa các trường về tác giả, tiêu đề, nguồn, kiểu xuất bản, một số còn được gán các khóa thuật ngữ (chủ đề), và 2/3 trường hợp có tóm tắt. Yiming [8] đo độ chính xác của một số thuật toán ATC phổ biến cho các tập dữ liệu phân lớp văn bản nổi tiếng. Một trong số các tập dữ liệu được thử nghiệm trong đó là OHSUMED và cho thấy tập dữ liệu này thì khó phân lớp hơn khi so sánh với các tập dữ liệu khác chẳng hạn như là Reuters-21578.

6.4. Four Universities

Tập dữ liệu này chứa các trang web thu thập từ các khoa khoa học máy tính của các trường đại học vào 1/1997 bởi dự án World Wide Knowledge Base (WebKb) của CMU. 8,282 trang web được phân lớp bằng tay thành 7 lớp: ‘student’, ‘faculty’, ‘staff’, ‘deparment’, ‘course’, ‘project’, và ‘other’. Cho mỗi lớp tập dữ liệu chứa các trang web từ 4 trường đại học: Cornell, Texas,

Washington, Wisconsin, và 4,120 trang hỗn hợp từ các trường đại học khác. Các tập tin được tổ chức thành một cấu trúc thư mục, với một thư mục cho mỗi lớp. Mỗi một thư mục chứa 5 thư mục con, 4 của 4 trường đại học và 1 cho các trang web hỗn hợp.

Các tập dữ liệu chuẩn để đánh giá

1.1.Lược đồ phân lớp tổng quát