Bộ dữ liệu này bao gồm thơng tin của các trang web (WWW-pages) được tổng hợp từ bộ mơn khoa học máy tính của nhiều trường đại học khác nhau của Mĩ trong
tháng 01 năm 1997. Tồn bộ dữ liệu được thu thập nhằm phục vụ cho dự án World Wide Knowledge Base (Web-Kb) do nhĩm nghiên cứu dữ liệu văn bản của CMU (CMU text learning group) thực hiện.
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 56
a)Cách tổ chức bộ dữ liệu
Hình 21. Cây thư mục của dữ liệu WebKb
Tổng cộng với 8,282 trang tin được phân loại bằng tay thành các nhĩm tin sau:
●Student: bao gồm 1641 trang tin
●Faculty: bao gồm 1124 trang tin
●Staff: bao gồm 137 trang tin
●Department: bao gồm 182 trang tin
●Course: bao gồm 930 trang tin
●Project: bao gồm 504 trang tin
●Other: bao gồm 3764 trang tin
Nhĩm tin Other là tập hợp của các tin được xem là khơng cĩ các đặc tính nội
dung liên quan đến 06 nhĩm tin cịn lại (ví dụ, một giảng viên của một khoa cụ thể thường được đưa thơng tin cho mọi người thơng qua trang cá nhân – home page, sơ
yếu lý lịch, các bài báo khoa học đã cơng bố, và một vài hướng tập trung nghiên cứu; khi đĩ chỉ cĩ các trang thơng tin cá nhân là được đưa vào nhĩm tin faculty.
Các thơng tin như sơ yếu lý lịch, các bài báo khoa học đã cơng bố, và một vài
hướng tập trung nghiên cứu sẽ được đưa vào nhĩm tin other).
Với mỗi nhĩm tin (lớp dữ liệu) được chia thành nhĩm của 4 trường như sau:
●Cornell: tổng cộng gồm 867 tin
●Texas: tổng cộng gồm 827 tin
●Washington: tổng cộng gồm 1205 tin
●Wisconsin: tổng cộng gồm 1263 tin
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 57
b)Đĩng gĩi dữ liệu
Bộ dữ liệu được cung cấp tại trang web:
http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/webkb- data.gtar.gz
Dưới định dạng file nén (đuơi file .gtar.gz), cĩ thể bung nén từ các chương
trình phổ biến hiện nay. Các file văn bản được tổ chức thành các thư mục, mỗi thư
mục đại diện cho một nhĩm tin (lớp văn bản). Trong mỗi thư mục, sẽ được chia tiếp thành 5 thư mục con, mỗi thư mục con đại diện cho dữ liệu của một trường (04
trường đại học đã nêu trên, và 1 thư mục đại diện cho các trường cịn lại). Tại các
thư mục con sẽ chứa các dữ liệu là các trang web. Các tên của trang web chính là
các đường dẫn URL của các trang web được thay ký tự ‘/’ bằng ký tự ‘^’. Chú ý rằng:
●Các trang web được bắt đầu bằng MIME-header.
●Một vài trang sẽ khơng chứa các thơng tin văn bản, cũng như nội dung phục vụ cho việc phân loại, mà chỉ chứa thơng tin chuyển tiếp hoặc thơng
tin hướng dẫn đến các trang khác. Và các trang như vậy phân bố khơng đều trên nhĩm tin khác nhau.
Một số lưu ý:
Do dữ liệu được lấy từ các trường đại học khác nhau, vì vậy mỗi trường sẽ cĩ một phong cách khác nhau và cho dễ dàng nhận diện các dữ liệu thuộc các lớp văn
bản. Vì vậy để đảm bảo cho kết quả của việc phân loại chỉ tập trung vào nội dung của văn bản, người lập ra bộ dữ liệu đề xuất khơng sử dụng dữ liệu của 1 trường đại học vào cả quá trình test và training, và sử dụng bộ dữ liệu của 01 trong 4 trường làm dữ liệu test, và 04 dữ liệu của 03 trường và misc để thực hiện training.
Thực hiện quay vịng như vậy cĩ thể coi là four-fold cross validation.