Tơi thu thập 3 bộ dữ liệu từ 3 chủ đề: giáo dục, phim ảnh và thể thao. Mỗi bộ dữ liệu bao gồm hơn 250 câu bình luận về các chủ đề:
- Giáo dục: gồm 405 câu bình luận thu thập ở tin “Phạm Minh Hiếu (19 tuổi) vừa đƣợc Stanford University (Mỹ), đứng thứ tƣ trong danh sách đại học hàng đầu thế giới, đồng ý cấp học bổng. Đại học Chicago, Columbia (top 15 thế giới) cũng mời Hiếu sang học.” trên trang VnExpress.net của mạng xã hội facebook.
- Phim ảnh: gồm 379 câu bình luận thu thập chủ yếu từ tin “Cha là ngƣời hùng đầu tiên của con trai và là tình yêu đầu tiên của con gái” về phim “La Vita e Bella”, tin “Thế giới quan của mỗi con ngƣời đều hạn hẹp, ai cũng đầy trong tâm tƣởng những định kiến về một phần cịn lại của thế giới.” về phim “Intoucha les” trên trang “Mann up” và một số tin trên trang “CGV Cinemas Vietnam” của mạng xã hội facebook.
- Thể thao: gồm 500 câu bình luận thu thập từ tin “Nếu tơi hài lịng với những gì đã đạt đƣợc, tơi là kẻ thất bại ngay từ bây giờ, chứ khơng phải chờ tới ngày mai.” về vận động viên Ánh Viên và tin “Điều mà nhà vơ địch điền kinh SEA Games năm nào cần bây giờ là chữa khỏi cái lƣng, đi lại đƣợc và tiếp tục cơng tác huấn luyện, để chăm sĩc cho cậu út vẫn cịn bệnh tật và trả nợ cho ngơi nhà.” về vận động viên Vũ Bích Hƣờng trên trang VnExpress.net của mạng xã hội facebook.
Tƣơng tự nhƣ ộ dữ liệu huấn luyện, tơi tổng hợp các chủ để trên để xây dựng bộ dữ liệu lớn hơn ao gồm 707 câu.
Sau đĩ, tơi tiến hành phân loại chủ quan và phân loại cảm xúc bằng tay. Kết quả đƣợc trình bày theo bảng sau:
Bảng 4-1 Kết quả bộ dữ liệu thử nghiệm STT Chủ đề Dữ liệu thử nghiệm Câu chủ quan Câu khách quan Câu tích cực Câu tiêu cực 1 Giáo dục 162 38 65 40 2 Phim ảnh 151 74 45 33 3 Thể thao 261 53 70 8 4 Tổng hợp 574 165 160 54