Độ chính xác của mơ hình thử nghiệm trong luận văn được đánh giá dựa trên Hệ số tương quan Matthews (MCC) [51].
MCC là một phương pháp riêng của giới Machine Learning, dùng để đánh giá phẩm chất của mơ hình phân loại nhị phân. Mục tiêu của MCC là khắc phục vấn đề dữ liệu bị mất cân bằng. MCC cĩ bản chất là một hệ số tương quan giữa giá trị thực tế và kết quả dự báo của mơ hình, nĩ được xác định như sau:
(6) Trong đĩ: TP - True Positive (dự đốn đúng là Positive), TN - True Negative (dự đốn đúng là Negative), FP - False Positive (dự đốn sai là Positive), FN - False Negative (dự đốn sai là Negative).
Giá trị của MCC dao động trong khoảng từ -1 đến +1, MCC = +1 biểu thị cho “kết quả phân loại hồn hảo”, MCC = 0 cho thấy mơ hình vơ dụng (khơng hơn gì sự phán đốn ngẫu nhiên), cịn MCC = -1 cho thấy mơ hình khơng những vơ dụng hồn tồn mà cịn tuyệt đối sai, vì kết quả phân loại hồn tồn trái nghịch với quan sát thực tế.
Như giải thích của Davide Chicco và Giuseppe Jurman [51] trong bài báo “Ưu điểm của hệ số tương quan Matthews (MCC) so với điểm F1 và độ chính xác trong hệ nhị phân đánh giá phân loại” (2020), hệ số tương quan MCC cĩ nhiều thơng tin trong việc đánh giá các vấn đề phân loại nhị phân, vì nĩ tính đến tỷ lệ cân bằng của bốn loại ma trận nhầm lẫn (TP, TN, FP, FN), trong khi nhiều độ đo khác bỏ qua số lượng phủ định thực (TN).
Ví dụ: Ma trận nhầm lẫn với các mục: TP = 90, FP = 4; TN = 1, FN = 5. Điểm F1 = 0,9524, khiến chúng ta hiểu nhầm rằng, bộ phân loại là cực kỳ tốt. Ngược lại, bằng cách cắm những con số đĩ vào cơng thức của MCC, chúng ta nhận được MCC = 0,14. MCC nằm trong khoảng từ -1 đến 1 (dù sao nĩ cũng là hệ số tương quan) và 0,14 cĩ nghĩa là bộ phân loại rất gần với bộ phân loại đốn ngẫu nhiên. Từ ví dụ này, chúng ta cĩ thể nĩi rằng, MCC giúp người ta xác định sự kém hiệu quả của bộ phân loại trong việc phân loại, đặc biệt là các mẫu lớp phủ định.
Hãy xem xét một ví dụ khác bằng cách đảo ngược nhãn âm và dương: Ma trận nhầm lẫn với các mục: TP = 1, FP = 5; TN = 90, FN = 4. Điểm F1 là 0,18 và MCC là 0,103. Cả hai chỉ số đều gửi tín hiệu cho rằng, trình phân loại hoạt động khơng tốt.
Kết luận: Để đánh giá phân loại nhị phân, các nhà nghiên cứu cĩ thể sử
dụng một tỉ lệ thống kê phù hợp với mục tiêu bài tốn mà họ đặt ra. Mặc dù đây là một vấn đề quan trọng trong học máy, tuy nhiên hiện nay vẫn chưa đạt được sự đồng thuận rộng rãi về lựa chọn chỉ số nào là tốt nhất. Độ chính xác (Acccuracy) và F1 score tính tốn trên ma trận nhầm lẫn (confusion matrix) đã (và vẫn là) những chỉ số được sử dụng phổ biến nhất trong các nhiệm vụ phân loại nhị phân. Tuy nhiên, các biện pháp thống kê nhiều khi sử dụng các chỉ số này để thổi phồng quá mức các kết quả thí nghiệm đạt được, đặc biệt là trên các bộ dữ liệu khơng cân bằng (imbalanced dataset). Trong khi F1 score bỏ qua số lượng phủ định thực (TN), MCC mở rộng cơng thức của mình áp dụng cho cả 4 chỉ số của ma trận nhầm lẫn (TP, FP, TN, FN). Chỉ số MCC chỉ cao khi mơ hình “hoạt động tốt trên cả hai yếu tố tích cực và tiêu cực”. Đối với bài tốn phân loại bài viết, bình luận phản động, tơi nhận thấy sự mất cân bằng giữa hai loại nội dung phản động và khơng phản động. Do đĩ, trong luận văn này, tơi thử nghiệm dùng hệ số tương quan Matthews (MCC) để tính tốn độ chính xác của các bộ phân lớp.
CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM
Trong chương này, tơi trình bày mơ hình dịch vụ phát hiện bài viết, bình luận mang nội dung phản động trên MXH Facebook. Từ mơ hình này, tơi tập trung tìm hiểu và khai thác các đặc trưng bổ trợ là blacklist về user, fanpage, group trên Facebook và các website, blog phản động. Sau đĩ, tơi xây dựng mơ hình huấn luyện sử dụng học máy để tự động phát hiện nội dung phản động trong các bài viết, bình luận. Để xây dựng mơ hình, tơi bắt đầu từ việc thu thập dữ liệu mẫu, gán nhãn dữ liệu, xây dựng bộ từ điển phản động (do nhiều hạn chế, thuật tốn được cài đặt mới chỉ dừng lại ở khai thác đặc trưng blacklist word là chủ yếu, chưa xét đến phụ thuộc cú pháp hay từ loại trong tính độ phản động của bài viết, bình luận). Tơi cũng trình bày quy trình triển khai, cài đặt một extension cho trình duyệt Chrome với chức năng phát hiện nội dung phản động trong bài viết, bình luận trên Facebook. Với extension này, các nội dung phản động trên Facebook sẽ hạn chế hiển thị trên dịng thời gian của người dùng vì phải chạy qua các bộ lọc của extension kiểm duyệt. Nếu phát hiện nội dung phản động, extension sẽ ẩn nội dung đĩ trước khi đến với người dùng.