Bộ dữ liệu Reuters-21578

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 62 - 64)

Bộ dữ liệu này là tập hợp các bản tin của hãng tin Reuters trong năm 1987.

Các bản tin được tập hợp và đánh nhãn theo các tập khác nhau bởi các tác giả thuộc Reuters và Carnegie Group, Inc.

Đến năm 1990, bộ dữ liệu được hồn thành để phục vụ cho việc nghiên cứ tại phịng thí nghiệm Information Retrieval Laboratory của khoa Computer and Information Science Department tại trường đại học University of Massachusetts at

Amherst. Định dạng của các văn bản và xây dựng các mối liên hệ giữa các văn bản trong tập dữ liệu được hồn thành bởi David D. Lewis và Stephen Harding. [10]

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 58

Sau đĩ, bộ dữ liệu được chuẩn hố và được hồn thiện, bởi David D. Lewis và

Peter Shoemaker và năm 1991-1992. Và phiên bản được đưa lên mạng với phiên bản "Reuters-22173, Distribution 1.0" vào tháng 1 năm 1993 đến năm 1996.

Sau đĩ đến tháng 7 năm 1996, bộ dữ liệu được biên tập lại và tổng hợp kỹ

càng do thấy được lợi ích cho việc nghiên cứu các bài tốn văn bản nĩi chung, với sự đĩng gĩp của rất nhiều nhà nghiên cứu. Phiên bản được đưa lên sau đĩ được dùng rất phổ biến trong việc nghiên cứu các bài tốn liên quan đến văn bản, bộ dữ

liệu mới được đổi tên thành Reuters-21578:

a)Cách t chc d liu

Bộ dữ liệu cĩ thể cĩ nhiều cách lựa chọn phân loại khác nhau, tuỳ vào tập các lớp văn bản mà tập dữ liệu cĩ thể phần thành số lượng lớp như sau:

Tên của các tập lớp Số lượng lớp Số lượng lớp mà mỗi lớp cĩ số văn bản > 1 Số lượng lớp mà mỗi lớp cĩ số văn bản > 20 Exchanges 39 32 7 ORG 56 32 9 People 267 114 15 Places 175 147 60 Topics 135 120 57 b) Đĩng gĩi dữ liu

Bộ dữ liệu được cung cấp tại trang web:

http://www.daviddlewis.com/resources/testcollections/reuters21578/ http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html

Dưới định dạng file nén (đuơi file .gtar.gz), cĩ thể bung nén từ các chương

trình phổ biến hiện nay.

Mt số lưu ý:

Với bộ dữ liệu trên cĩ thể phân theo rất nhiều các tập lớp như đã kể trên, để

tiện phân loại, trong quá trình thử nghiệm em sẽ sử dụng phân theo các lớp topic, sử dụng phép chia tương tự với phép chia tập test và tập traning của Chidanand Apte và Fred Damerau và Sholom M. Weiss được gọi tắt là Apte94 [1].

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 59

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 62 - 64)