Bộ dữ liệu WebKB

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 60 - 62)

Bộ dữ liệu này bao gồm thơng tin của các trang web (WWW-pages) được tổng hợp từ bộ mơn khoa học máy tính của nhiều trường đại học khác nhau của Mĩ trong

tháng 01 năm 1997. Tồn bộ dữ liệu được thu thập nhằm phục vụ cho dự án World Wide Knowledge Base (Web-Kb) do nhĩm nghiên cứu dữ liệu văn bản của CMU (CMU text learning group) thực hiện.

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 56

a)Cách t chc b d liu

Hình 21. Cây thư mục của dữ liệu WebKb

Tổng cộng với 8,282 trang tin được phân loại bằng tay thành các nhĩm tin sau:

●Student: bao gồm 1641 trang tin

●Faculty: bao gồm 1124 trang tin

●Staff: bao gồm 137 trang tin

●Department: bao gồm 182 trang tin

●Course: bao gồm 930 trang tin

●Project: bao gồm 504 trang tin

●Other: bao gồm 3764 trang tin

Nhĩm tin Other là tập hợp của các tin được xem là khơng cĩ các đặc tính nội

dung liên quan đến 06 nhĩm tin cịn lại (ví dụ, một giảng viên của một khoa cụ thể thường được đưa thơng tin cho mọi người thơng qua trang cá nhân – home page, sơ

yếu lý lịch, các bài báo khoa học đã cơng bố, và một vài hướng tập trung nghiên cứu; khi đĩ chỉ cĩ các trang thơng tin cá nhân là được đưa vào nhĩm tin faculty.

Các thơng tin như sơ yếu lý lịch, các bài báo khoa học đã cơng bố, và một vài

hướng tập trung nghiên cứu sẽ được đưa vào nhĩm tin other).

Với mỗi nhĩm tin (lớp dữ liệu) được chia thành nhĩm của 4 trường như sau:

●Cornell: tổng cộng gồm 867 tin

●Texas: tổng cộng gồm 827 tin

●Washington: tổng cộng gồm 1205 tin

●Wisconsin: tổng cộng gồm 1263 tin

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 57

b)Đĩng gĩi dữ liu

Bộ dữ liệu được cung cấp tại trang web:

http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/webkb- data.gtar.gz

Dưới định dạng file nén (đuơi file .gtar.gz), cĩ thể bung nén từ các chương

trình phổ biến hiện nay. Các file văn bản được tổ chức thành các thư mục, mỗi thư

mục đại diện cho một nhĩm tin (lớp văn bản). Trong mỗi thư mục, sẽ được chia tiếp thành 5 thư mục con, mỗi thư mục con đại diện cho dữ liệu của một trường (04

trường đại học đã nêu trên, và 1 thư mục đại diện cho các trường cịn lại). Tại các

thư mục con sẽ chứa các dữ liệu là các trang web. Các tên của trang web chính là

các đường dẫn URL của các trang web được thay ký tự ‘/’ bằng ký tự ‘^’. Chú ý rằng:

●Các trang web được bắt đầu bằng MIME-header.

●Một vài trang sẽ khơng chứa các thơng tin văn bản, cũng như nội dung phục vụ cho việc phân loại, mà chỉ chứa thơng tin chuyển tiếp hoặc thơng

tin hướng dẫn đến các trang khác. Và các trang như vậy phân bố khơng đều trên nhĩm tin khác nhau.

Mt số lưu ý:

Do dữ liệu được lấy từ các trường đại học khác nhau, vì vậy mỗi trường sẽ cĩ một phong cách khác nhau và cho dễ dàng nhận diện các dữ liệu thuộc các lớp văn

bản. Vì vậy để đảm bảo cho kết quả của việc phân loại chỉ tập trung vào nội dung của văn bản, người lập ra bộ dữ liệu đề xuất khơng sử dụng dữ liệu của 1 trường đại học vào cả quá trình test và training, và sử dụng bộ dữ liệu của 01 trong 4 trường làm dữ liệu test, và 04 dữ liệu của 03 trường và misc để thực hiện training.

Thực hiện quay vịng như vậy cĩ thể coi là four-fold cross validation.

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 60 - 62)