Bộ dữ liệu này là tập hợp các bản tin của hãng tin Reuters trong năm 1987.
Các bản tin được tập hợp và đánh nhãn theo các tập khác nhau bởi các tác giả thuộc Reuters và Carnegie Group, Inc.
Đến năm 1990, bộ dữ liệu được hồn thành để phục vụ cho việc nghiên cứ tại phịng thí nghiệm Information Retrieval Laboratory của khoa Computer and Information Science Department tại trường đại học University of Massachusetts at
Amherst. Định dạng của các văn bản và xây dựng các mối liên hệ giữa các văn bản trong tập dữ liệu được hồn thành bởi David D. Lewis và Stephen Harding. [10]
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 58
Sau đĩ, bộ dữ liệu được chuẩn hố và được hồn thiện, bởi David D. Lewis và
Peter Shoemaker và năm 1991-1992. Và phiên bản được đưa lên mạng với phiên bản "Reuters-22173, Distribution 1.0" vào tháng 1 năm 1993 đến năm 1996.
Sau đĩ đến tháng 7 năm 1996, bộ dữ liệu được biên tập lại và tổng hợp kỹ
càng do thấy được lợi ích cho việc nghiên cứu các bài tốn văn bản nĩi chung, với sự đĩng gĩp của rất nhiều nhà nghiên cứu. Phiên bản được đưa lên sau đĩ được dùng rất phổ biến trong việc nghiên cứu các bài tốn liên quan đến văn bản, bộ dữ
liệu mới được đổi tên thành Reuters-21578:
a)Cách tổ chức dữ liệu
Bộ dữ liệu cĩ thể cĩ nhiều cách lựa chọn phân loại khác nhau, tuỳ vào tập các lớp văn bản mà tập dữ liệu cĩ thể phần thành số lượng lớp như sau:
Tên của các tập lớp Số lượng lớp Số lượng lớp mà mỗi lớp cĩ số văn bản > 1 Số lượng lớp mà mỗi lớp cĩ số văn bản > 20 Exchanges 39 32 7 ORG 56 32 9 People 267 114 15 Places 175 147 60 Topics 135 120 57 b) Đĩng gĩi dữ liệu
Bộ dữ liệu được cung cấp tại trang web:
http://www.daviddlewis.com/resources/testcollections/reuters21578/ http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
Dưới định dạng file nén (đuơi file .gtar.gz), cĩ thể bung nén từ các chương
trình phổ biến hiện nay.
Một số lưu ý:
Với bộ dữ liệu trên cĩ thể phân theo rất nhiều các tập lớp như đã kể trên, để
tiện phân loại, trong quá trình thử nghiệm em sẽ sử dụng phân theo các lớp topic, sử dụng phép chia tương tự với phép chia tập test và tập traning của Chidanand Apte và Fred Damerau và Sholom M. Weiss được gọi tắt là Apte94 [1].
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 59