Bình luận cĩ ý định Bình luận khơng cĩ ý định Tổng
23.181 11.788 34.969
3.5. Thực nghiệm đánh giá mơ hình phân lớp
Trong hệ thống của mình, tơi tiến hành phân loại các bài viết bán hàng và phân loại ý định trong ý kiến của cá nhân. Các bài viết sẽ được tiến hành phân loại bài viết cĩ phải cĩ nội dung bán hàng hay khơng, nếu một bài viết cĩ liên quan đến bán hàng sẽ thực hiện lấy các ý kiến bình luận trong bài viết đĩ tiến hành phân loại xem cĩ chứa ý định mua hàng hay khơng.
Các thực nghiệm đánh giá mơ hình sử dụng phương pháp kiểm thử chéo 10 folds (10-folds cross validation) nghĩa là chia làm 10 phần bằng nhau, lần lượt huấn luyện 9 phần để đánh giá 1 phần sau đĩ sử dụng độ đo đã được nêu trước đĩ.
Luận văn so sánh đánh giá hiệu quả của các phân lớp riêng biệt cùng với các mơ hình sử dụng kỹ thuật lai ghép. Danh sách các kỹ thuật được sử dụng như sau:
- Phương pháp K người láng giếng gần nhất (KNearest Neighbors - KNN)
o Sử dụng tham số K = 3
o Độ đo tính sự tương tự là độ đo Cosine
- Phương pháp máy vector hỗ trợ (Support Vector Machine)
o Cơng cụ Liblinear
o Sử dụng tham số L2-loss linear SVM, L1-loss linear SVM - Phương pháp cực đại entropy (Maximum Entropy - Maxent)
o Cơng cụ OpenNLP 1.6.0
o Tham số iteration = 200, cutoff= 1
- Phương pháp lai ghép 3 mơ hình sử dụng kỹ thuật Bagging
o Sử dụng kỹ thuật ghép bình chọn (voting), nhãn chiếm đa số sẽ là nhãn cuối cùng của dữ liệu
Dưới đây là kết quả phân lớp bài viết bán hàng: