5. Bố cục của luận án
1.4. Các độ đo đánh giá
Tính hiệu quả của mơ hình đề xuất cần được đánh giá bằng một độ đo phù hợp. Đối với bài tốn nhận dạng hoạt động ở người nĩi chung và phát hiện VĐBT ở người nĩi riêng, nhiều nghiên cứu trước đây [24, 26, 76, 77, 84, 85] đã sử dụng ma trận nhầm lẫn (confusion matrix) để đánh giá hiệu suất của mơ hình và cho thấy được sự hiệu quả. Confusion matrix thể hiện kết quả phân loại chính xác và kết quả phân loại khơng chính xác được tạo ra bởi mơ hình phân loại bằng cách so sánh với giá trị thật của biến phân loại của dữ liệu kiểm tra.
Với confusion matrix, chúng ta sẽ tính được hai đại lượng quan trọng đĩ là độ chính xác (precision), độ bao phủ hoặc độ nhạy (recall) theo cơng thức như sau:
= (1.2) + = (1.3) +
Trong đĩ, True Positive (TP) là tỉ lệ đo số lần hệ thống phát hiện đúng vận động a và số lần thực tế là vận động a; ví dụ vận động ngã được phát hiện đúng là vận động ngã. True Negative (TN) là tỉ lệ đo số lần hệ thống phát hiện đúng khơng phải vận động a và số lần thực tế khơng phải vận phải a; ví dụ khơng phải vận động ngã được phát hiện đúng là khơng phải vận động ngã. False Positive (FP) là tỉ lệ đo số lần hệ thống phát hiện là vận động a và số lần thực tế khơng phải vận động a; ví dụ hệ thống phát hiện là vận động ngã nhưng thực tế khơng phải là vận động ngã. False Negative (FN) là tỉ lệ đo số lần hệ thống phát hiện khơng phải vận động a và số lần thực tế lại là vận động a; chẳng hạn, thực tế là vận động ngã nhưng hệ thống phát hiện sai là khơng phải vận động ngã.
Theo cơng thức 1.2 và 1.3, mơ hình phát hiện VĐBT cĩ Precision và Recall càng cao thì hiệu suất phát hiện đúng VĐBT càng cao. Với Precision, giả sử mơ hình
dự đốn được 10 vận động là ngã và đúng các vận động này là ngã, theo cơng thức trên Precision sẽ là:
= + = 10+010 = 100%
Như vậy, tỷ lệ phát hiện chính xác vận động ngã của mơ hình là 100%.
Cịn đối với Recall, trong những vận động thực sự là vận động ngã, cĩ bao nhiêu vận động được phát hiện đúng là vận động ngã bởi mơ hình, hay nĩi cách khác cĩ bao nhiêu phát hiện là “positive” đúng trong mơ hình, giả sử mơ hình chỉ dự đốn đúng 10 vận động là ngã trong 100 vận động thực sự là ngã, theo cơng thức trên Recall được tính như sau:
10
= + =10+90=10%
Cĩ thể thấy rằng, mơ hình chỉ dự đốn được 10 vận động ngã trong khi cĩ tới 100 vận động thự sự là ngã. Vậy mơ hình chỉ đạt được tỷ lệ phát hiện vận động ngã là 10% số vận động là ngã trong thực tế.
Đối với mơ hình nhận dạng hoạt động ở người và phát hiện VĐBT, cả hai giá trị Precision và Recall đều rất cĩ ý nghĩa, cĩ lúc giá trị này quan trọng hơn giá trị kia và ngược lại. Tuy nhiên, vấn đề đặt ra là làm sao chúng ta biết chọn giá trị nào là cơng cụ đánh giá chính và phải điều chỉnh mơ hình như thế nào để mơ hình đạt được hiệu suất tốt nhất. Đĩ là lý do cần sử dụng thêm độ đo cĩ tên điểm F1 (F1- score), với độ đo này chúng ta chỉ cần quan tâm đến một giá trị duy nhất (thay vì cả hai như trên). F1-score được tính như sau:
1=2
. (1.4)
+
F1-score cĩ giá trị càng cao càng tốt và thường được sử dụng trong nhiều trường hợp cần một sự cân bằng giữa Precision và Recall hoặc dữ liệu thu thập cĩ sự mất cân bằng giữa nhãn “cĩ” và “khơng”. Cần lưu ý rằng nếu một trong hai giá trị Precision và Recall được cải thiện nhưng cĩ sự ảnh hưởng lớn đến giá trị cịn lại thì
giá trị F1-score khi đĩ sẽ khơng cao và mơ hình bị đánh giá là khơng thực sự tốt. Trong các thử nghiệm phát hiện VĐBT (ngã) trình bày trong chương 2 và chương 3, NCS cũng sẽ sử dụng các độ đo nĩi trên để đánh giá mơ hình, so sánh mơ hình đề xuất với các nghiên cứu cĩ liên quan đã cơng bố.