6 Kết Luận
5.11 Thành phần của confusion matrix
Confusion matrix là một ma trận dùng đánh giá hiệu suất của một mô hình phân loại trên một tập dữ liệu cố định, trong đó có một số định nghĩa như sau: True Positive (TP): Mô hình kết luận mẫu dữ liệu thuộc về một lớp nào đó, thực tế kết luận đó đúng.
False Positive (FP): Mô hình kết luận mẫu dữ liệu thuộc về một lớp nào đó, thực tế kết luận đó sai.
True Negative (TN): Mô hình kết luận mẫu dữ liệu không thuộc về lớp đó, thực tế kết luận đó đúng.
False Negative (FN): Mô hình kết luận mẫu dữ liệu không thuộc về lớp đó, thực tế kết luận đó sai.
5.2.1 Mean Accuracy - mA
Là trung bình độ chính của các mẫu dương và mẫu âm. Mean accuracy thường được sử dụng trong các bài toán về phân loại để đánh giá mô hình, bởi vì mA đáng tin cậy trong trường hợp tập dữ liệu mất cân bằng.
mA= 1 2N L X i=1 (T Pi Pi +T Ni Ni ) (5.1) Trong đó:
• N: số mẫu dữ liệu trong tập dữ liệu
• L: số thuộc tính trong tập dữ liệu
• T Pi: True Positive của thuộc tính thứ i
• T Ni: True Negative của thuộc tính thứ i
• Ni: Negative của thuộc tính thứ i
5.2.2 Accuracy - Accu
Được định nghĩa tỉ lệ mẩu dữ liệu được dự đoán đúng trên tất cả tổng tất cả các mẩu dữ liệu được dự đoán. Trong trường hợp lý tưởng, Accuracy càng cao thể hiện mô hình dự đoán càng tốt. Tuy nhiên, có một nhược điểm khi dùng
Accuracy trong trường hợp dữ liệu không cân bằng giữa các lớp. Vì thế,Accuracy
không phải là độ đo khách quan để đánh giá. 5.2.3 Precision - Prec
Được định nghĩa là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive P recision= T P T P +F P (5.2) Trong đó: • T P là True Positive • F P là False Positive
Trong trường hợp mỗi mẫu dương của mô hình đưa ra cần độ chính xác cao, dù có thể bỏ sót mẩu dương thì precision nên cần được ưu tiên để tối ưu, ví dụ như đề xuất video trên youtube hoặc từ khóa tìm kiếm trên google.
5.2.4 Recall
Được định nghĩa là tỉ lệ số mẩu true positive trong những mẩu số thực sự là positive.
Recall = T P
T P +F N (5.3)
Trường hợp mô hình không được phép bỏ sót mẫu dương hay còn gọi là “chọn nhầm còn hơn bỏ sót”, recall là thông số cần được chú trọng, ví dụ như không được phép bỏ sót mẩu dương khi xét nghiệm dịch bệnh hoặc tội phạm.
5.2.5 F1 score - F1
F1 score là trung bình điều hòa của P recision và Recall, có giá trị nằm trong khoảng (0,1]. Vì thế F1 là một thang đo cân bằng, không bị ảnh hưởng bởi mật độ cân bằng từ dữ liệu, cũng như mật độ từ các dữ liệu mất cân bằng. Cũng vì chính lý do này, F1 là một thước đo đáng tin cậy trong mô hình phân lớp.
F1 = 2∗ P recision∗Recall
P recision+Recall (5.4)
5.3 Môi trường thực nghiệm
Tất cả các quá trình thực nghiệm đều được tiến hành trên Colab Pro có cấu hình như sau:
• GPU: Tesla V100, 16 GB
• RAM: 13 GB
• Disk: 147 GB
Ngoài ra, chúng tôi sử dụng Pytorch framework là thư viện chính cho việc hiện thực các mang nơ-ron và quán trình huấn luyện, kiểm tra. Sử dụng các thư viện như matplotlib, keras cho quá trình trực quan hoá dữ liệu.
5.4 Kết quả
5.4.1 Thử nghiệm 1
Với thử nghiệm này, chúng ta cần thay đổi tỷ lệ loại bỏ q được đề cập ở phần 4.2.1, để có thể thấy sự ảnh hưởng của thông số này. Các thông số còn lại được cài đặt như sau:
• Tập dữ liệu: PA100K
• Số thuộc tính: 26 đối với PA100K
• Kích thước batch size: 32
• Kích thước ảnh đầu vào: 256x128
• Tổng số epoch: 60
• Tối ưu hoá: Adam với các hệ số α= 0.005, β1 = 0.9 và β2 = 0.99
• Tỉ lệ loại bỏ lần lượt là : q = 0.1, q = 0.33, q = 0.5, q = 0.7 (được đề cập ở phần 4.2.1)
Sau khi tiến hành các thử nghiệm lần lượt với tỷ lệ loại bỏ khác nhau, chúng ta thu được kết quả như bảng 5.1
Dataset PA-100K
Method mA Accu Prec Recall F1
Baseline 79.10 78.86 86.43 88.21 87.31
q= 0.1 81.00 78.24 84.81 89.27 86.98
q= 0.33 81.61 78.25 84.57 89.55 86.99
q= 0.5 80.71 77.85 84.39 89.25 86.76
q= 0.7 81.18 77.59 83.81 89.57 86.59 Bảng 5.1: Sự ảnh hưởng của tỷ lệ loại bỏ trên tập PA100K
Như chúng ta đã thấy, việc sử dụng Top DropBlock đã làm tăng hiệu quả rất đáng kể so với Baseline, đặc biệt trên thông số mA, tăng khoảng hơn 1%. Khi tăng tỷ lệ loại các đặc trưng đóng góp nhiều thông tin từ 0.1 lên 0.7, có xu hướng giảm mA, Prec vàF1. Trong khi đó mA đạt giá trị cao nhất khi q = 0.33, giá trị này cũng là giá trị do Quispe [1] đề xuất trong bài báo về việc truy tìm đối tượng dựa trên nội dung ảnh. Để xem tại sao có sự thay đổi này, chúng ta cùng xem bản đồ nhiệt của các thuộc tính mà mạng đã học đối với từng giá trị tỷ lệ.
Chúng ta có thể thấy ở hình 5.13, bản đồ nhiệt (heat map) của thuộc tính Front. Đối với Baseline, mạng đã tập trung (attention) vùng đúng những đặc trưng có nhiều thông tin nhất, cụ thể ở đây và vùng cổ của người đi bộ. Nhưng khi chúng ta sử dụng Top DropBlock, những vùng này đã được mở rộng ra và độ lan rộng tỷ lệ với chỉ số loại bỏ, từ vùng cổ được lan rộng ra đến phần ngực và đầu. Những khi tỷ lệ loại bỏ tăng cao cũng sẽ dẫn đến mạng tập trung trên quá nhiều vùng khác nhau, nên khả năng quyết định sẽ giảm xuống. Để giải
thích cho nguyên nhân này, là do chúng ta đã tăng cường học các vùng khác có ít thông tin hơn, thay vì tập trung vào một vùng duy nhất, như cách tiếp cận của Baseline.