Sau quá trình xây dựng bộ phân lớp, cần phải đánh giá kết quả phân lớp để xem xét khả năng sử dụng các phương pháp đã chọn trong việc triển khai một hệ thống chạy được. Cũng như một hệ thống tìm kiếm hay phân loại văn bản, một hệ thống phân loại ý kiến cũng được đánh giá thơng qua thực nghiệm hơn là sử dụng phân tích hoạt động của thuật tốn.
Các độ đo được dùng để đánh giá bao gồm: TP, FP, FN, TN
TP (True Positives): số lượng các tài liệu bộ phân lớp đánh giá là thuộc về lớp ci và trong kho ngữ liệu tài liệu đĩ cũng được gán nhãn ci.
TN (True Negatives): số lượng các tài liệu bộ phân lớp đánh giá là khơng thuộc về lớp ci và trong kho ngữ liệu tài liệu đĩ cũng khơng được gán nhãn ci .
49
FP (False Positives): số lượng các tài liệu bộ phân lớp đánh giá là thuộc về lớp ci nhưng trong kho ngữ liệu tài liệu đĩ khơng được gán nhãn ci .
FN (False Negatives): số lượng các tài liệu bộ phân lớp đánh giá là khơng thuộc về lớp ci nhưng trong kho ngữ liệu tài liệu đĩ được gán nhãn ci.
Dựa trên các giá trị này một số tiêu chuẩn đánh giá một hệ thống phân loại văn bản được đưa ra thể hiện qua các độ đo:
Độ chính xác (Precision) là tỉ lệ các câu phân loại đúng trên tổng số câu được phân thành loại đĩ.
Độ bao phủ (Recall) là tỉ lệ các câu phân loại đúng trên tổng số câu đáng ra là phải thuộc loại đĩ.
Phƣơng pháp đánh giá: Sử dụng một tập dữ liệu kiểm thử (tập dữ liệu được gán nhãn thủ cơng) đưa vào bộ phân lớp được xây dựng trên tập huấn luyện. Sau đĩ tính tốn các giá trị độ chính xác, độ bao phủ. Cĩ nhiều cách chọn tập kiểm thử và tập huấn luyện. Ở đây, chúng ta sử dụng phương pháp kiểm thử chéo 10 lần (10 fold cross-vadidation ), đây là phương pháp cho độ đánh giá tương đối khách quan.
Cách tiến hành đánh giá chéo 10 lần (10-fold cross validation):
Chia tập dữ liệu thành 10 phần.
Sử dụng lần lượt phần 1, 2,…,10 làm tập kiểm thử, 9 phần cịn lại làm tập huấn luyện. Lấy độ chính xác, độ bao phủ của từng lần thử nghiệm.
Tính các độ đo bằng cách lấy giá trị trung bình của tất cả các lần.
Bên cạnh đĩ, luận văn cũng sử dụng một cơng cụ được phát triển cho mục đích phân loại ý kiến thành tích cực, tiêu cực LingPipe [19] để so sánh với kết quả phân tích của các phương pháp đã chọn lựa. Cơng cụ phân tích ý
50
kiến này được xây dựng dựa trên ý tưởng kỹ thuật phân loại của Bo Pang và Lilian Lee trình bày trong 2004 ACL paper "A sentimental education" [23].