Để chuẩn bị dữ liệu huấn luyện và kiểm tra mô hình khóa luận thực hiện phân lớp bằng tay dựa vào các mục tin (category) của Website báo điện tử nguồn. Đối với mỗi một phân lớp, sau khi được phân bằng tay, khóa luận tạo một số đoạn mã chương trình bằng Java thực hiện việc lấy các tin tức cũ hơn của mục tin (phân lớp) đó theo ngày tháng.
STT Tên phân lớp VnExpress Mô tả
1 XAHOI Xã hội Giáo dục, lối sống, du lịch,…
2 THEGIOI Thế giới Tình hình thế giới, chủ yếu là tình hình chính trị.
3 KINHDOANH Kinh doanh Kinh doanh, tình hình kinh tế, thị
trường chứng khoán,…
4 VANHOA Văn hoá Âm nhạc, thời trang, điện ảnh, nghệ sĩ, mỹ thuật,…
5 THETHAO Thế giới Tình hình thế giới, chủ yếu là tình hình chính trị.
6 PHAPLUAT Pháp luật Vụ án, vụ việc, các văn bản luật mới.
7 DOISONG Đời sống Tâm sự, gia đình, tình cảm, nội trợ, nhà ở, ẩm thực,…
8 KHOAHOC Khoa học Khoa học nói chung, không liên quan đến lớp Công nghệ.
9 VITINH Vi tính Công nghệ thông tin và truyền thông.
10 XE Ôtô-Xe máy Phương tiện đi lại.
Dữ liệu dùng cho việc huấn luyện mô hình là các bài báo được lấy từ trang báo điện tử vnexpress.net, với số lượng các phân lớp như sau:
STT Phân lớp Số lượng văn bản 1 XAHOI 1000 2 THEGIOI 1000 3 KINHDOANH 1000 4 VANHOA 1000 5 THETHAO 1000 6 PHAPLUAT 1000 7 DOISONG 1000 8 KHOAHOC 1000 9 VITINH 1000 10 XE 1000 Tổng số 10000
Ở đây, khóa luận xin đưa ra 2 thực nghiệm kiểm tra chất lượng phân loại tin tự động.