Bộ dữ liệu 20 newsgroups

Bộ dữ liệu 20 Newsgroups là tập hợp của khoảng 20,000 văn bán của các nhĩm tin tức, được chia gần như đều cho 20 nhĩm tin từ khác nhau. Bộ dữ liệu

được tập hợp bởi Ken Lang, phục vụ cho việc nghiên cứu được viết trong bài báo

Newsweeder: Learning to filter netnews, mặc dù khơng được đề cập một cách rõ ràng trong bài báo này. Bộ dữ liệu này ngày càng phổ biến cho việc làm thí nghiệm và nghiên cứu trong các ứng dụng về văn bản trong lĩnh vực học máy nĩi chung và bài tốn phân loại văn bản, gom cụm văn bản nĩi riêng.

a)Cách tổ chức bộ dữ liệu

Bộ dữ liệu được tổ chức thành 20 nhĩm tin tức khác nhau. Một vài nhĩm tin tức cĩ nghĩa liên quan gần với nhau, ví dụ: comp.sys.ibm.pc.hardware / comp.sys.mac.hardware), trong khi đĩ lại cĩ những nhĩm tin tức lại khơng hề liên

quan đến các nhĩm tin tức cịn lại như: misc.forsale / soc.religion.christian. Bảng

dưới đây thể hiện danh sách của 20 nhĩm tin tức trong tập dữ liệu được phân tách giữa độ liên quan với nhau giữa các nhĩm tin:

comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci.crypt sci.electronics sci.med sci.space misc.forsale talk.politics.misc talk.politics.guns talk.politics.mideast talk.religion.misc alt.atheism soc.religion.christian

Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC

Trang 55

b) Đĩng gĩi dữ liệu và lựa chọn phiên bản

Bộ dữ liệu được down từ trang web

http://people.csail.mit.edu/~jrennie/20News-groups/ được để dưới dạng file nén

(.tar.gz). Để bung file nén này cĩ thể dùng rất nhiều các phần mềm giải nén hiện cĩ

như 7-zip, WinRAR,… Sau khi giải nén dữ liệu sẽ được thể dưới dạng thư mục, mỗi thư mục con là một nhĩm tin tức, với các file dữ liệu trong là các file text thể

hiện nội dung của từng bản tin cụ thể trong nhĩm tin.

Bộ dữ liệu trên được cung cấp dưới 03 phiên bản (đều cĩ link download tại trang nêu trên):

●20news-19997.tar.gz: Đây là bộ dữ liệu cơ sở chưa được tinh chỉnh

●20news-bydate.tar.gz: Bộ dữ liệu sau khi được chỉnh sửa với các file dữ

liệu của các nhĩm tin được sắp xếp theo ngày, các dữ liệu trùng lặp, và loại bỏ bớt một chút dữ liệu headers thừa (bao gồm 18846 tin). Với cấu trúc

được tác rõ thành 60% dữ liệu cho training, 40% dữ liệu cịn lại cho testing.

●20news-18828.tar.gz: Bộ dữ liệu sau khi được chỉnh sửa với việc loại bỏ

các dữ liệu trùng lặp, và cá trường dữ liệu thừa nhưng vẫn giữ lại trường

“From” và trường dữ liệu “Subject” (bao gồm 18828 tin)

Với việc thực hiện kiểm nghiệm, em lựa chọn phiên bản thứ ba (20news- 18828.tar.gz) đảm bảo việc tránh trùng lặp nhất, cũng cĩ thể cho phép dữ liệu training và test cĩ thể thay đổi khơng bị ảnh hưởng vào dữ liệu sẵn cĩ.

Lý thuyết đối ngẫu (Duality)

Phi tuyến – Sử dụng hàm nhân