THỰC NGHIỆM VÀ ĐÁNH GIÁ
Chương 4. THUC NGHIEM VA ĐÁNH GIA 43
4.2 Phương pháp đánh giá
Kế thừa từ bài báo của Sultani và cộng sự (42), cùng với việc bài toán phát hiện
bạo lực trong video sử dụng MIL được xem như bài toán phân lớp nhị phân cho
từng khung hình, hai độ đo ROC-AUC (Area Under the ROC Curve) và FAR (False
Alarm Rate) đã được dùng để đánh giá cho các phương pháp đã thực nghiệm. Bên cạnh đó, độ đo Recall cũng được sử dụng để có thể đánh giá kết quả công bằng nhất.
4.2.1 ROC-AUC
Diện tích dưới đường cong ROC, thường được viết tat là AUC, là một phép do được dùng để đánh giá hiệu quả của mô hình cho một bài toán phân lớp. Để có thể tính được AUC, cần nắm rõ:
© TP (True Positive): số lượng khung hình bạo lực được mô hình dự đoán đúng.
¢ TN (True Negative): sO lượng khung hình bình thường được mô hình dự đoán
đúng.
¢ FP (False Positive): số lượng khung hình bình thường được mô hình dự đoán
là bạo lực.
e FN (False Negative): số lượng khung hình bạo lực được mô hình dự đoán là
bình thường.
Các khái niệm này được thể hiện rõ ở ma trận nhầm lẫn (confusion matrix) tại
bảng4.1|
Và:
¢ TPR (True Positive Rate): tỉ lệ không bỏ sót (Recall).
TP
Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 44
Thuc té
Bao luc Binh thuong
Bao luc True Positive | False Positive
Du doan
Bình thường | False Negative | True Negative
BANG 4.1: Ma tran nham lan.
¢ FPR (False Positive Rate): tỉ lệ cảnh báo gia (False Alarm Rate).
FPR = 5a TaN (42)FP
Can luu y rang, các giá trị TP, TN, FP, FN, TPR, FPR có thé tăng hay giảm, tùy
thuộc vào cách chọn ngưỡng. Nói cách khác, với một mô hình phân lớp có sẵn, ứng với mỗi giá trị của ngưỡng, ta được một cặp giá trị (FPR, TPR). Tập hợp các cặp giá trị (FPR,TPR) khi ngưỡng thay đổi từ 0 đến 1 tạo thành một đường - đường cong ROC (Receiver Operating Characteristic) như ở hình] Một mô hình hiệu quả khi
nó có FPR thấp và TPR cao, tức đường cong ROC càng gần với điểm có tọa độ (0,1) thì càng tốt. Để có số đo chính xác về “độ gần” này, một đại lượng đã được sử dụng: AUC (Area Under the Curve). AUC là phần diện tích được giới hạn bởi đường cong
ROC, trục hoành (trục FPR) và đường thẳng vuông góc với trục hoành tại điểm có
tọa độ (1,0). Đây là diện tích phần nằm dưới đường ROC màu cam ở hình|4.1] AUC
là một số đương luôn nhỏ hơn hoặc bằng 1. Khi AUC càng cao, mô hình có khả năng
dự đoán càng chính xác. AUC bằng 0 nghĩa là mô hình bi du đoán ngược, tức cảnh bạo lực luôn bị dự đoán thành bình thường và ngược lại, AUC bằng 0.5 thì mô hình không có khả năng phân biệt giữa các lớp và AUC bằng 1 nghĩa là mô hình cho ra
dự đoán hoàn toàn chính xác.
Lưu ý: ROC-AUC ở đây chỉ quan tâm đến các dự đoán ở mức độ khung hình, các
dự đoán ở mức độ phân đoạn hoặc mức độ video (nếu có) sẽ không được xem xét đến.
Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 45
Tue Positive Rate
00 02 04 06 08 10
False Positive Rate
HINH 4.1: Minh họa đường cong ROC.
4.2.2 FAR
Trên thực tế, các sự kiện bình thường chiếm phan lớn thời lượng video camera giám sát, do đó, một mô hình nếu có tỉ lệ cảnh báo giả cao sẽ không tốt. đã sử dụng FAR tại mức ngưỡng 0.5 trên các video bình thường để đánh giá tính hiệu quả
của mô hình:
FAR = FPR = 5 ey (4.3)FP
Với FP, TN được tinh ở các video bình thường của tập kiểm tra tại mức ngưỡng
0.5.
FAR sẽ có giá trị trong đoạn [0, 1]. FAR càng gần 1, mô hình càng tệ vì chứa nhiều cảnh báo giả và ngược lại, FAR càng gan 0 thì càng tốt.
4.2.3. Recall
Dù ROC-AUC và FAR đã có thể đánh giá chất lượng của một mô hình, tuy nhiên
nó vẫn có hạn chế: dễ cho ra kết quả thiên vị đối với các mô hình luôn dự đoán
Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 46
các điểm số bao lực thấp. Ví du, cho tập kiểm tra gồm 2 video, một video bình thường có 3 khung hình và một video bạo lực có 5 khung hình, với nhãn lần lượt
là [0,0,0,0,1,1,1,1] (0 là khung hình bình thường và 1 là khung hình bạo lực). Mô
hình đầu tiên cho ra các điểm số bạo lực là {1,0.8,0.6, 0.4,0.2,0,0.5, 1] và mô hình thứ hai cho ra điểm số bằng 1y mô hình dau: [0.1, 0.08, 0.06, 0.04, 0.02, 0,0.05, 0.1]. Cả hai mô hình đều có AUC là 28.13% nhưng do mô hình đầu dự đoán cả 3 khung hình trong video bình thường với điểm số bạo lực đều lớn hơn 0.5 nên có FAR là 1 (cao
- không tốt), còn mô hình thứ hai thì ngược lại nên có FAR là 0 (thấp - tốt), nghĩa
là mô hình thứ hai sẽ được đánh giá cao hơn, trong khi xét về bản chất, khả năng phát hiện bạo lực của cả hai mô hình là như nhau. Do đó, chúng tôi dé xuất sử dụng
thêm độ đo Recall tại mức ngưỡng 0.5, được tính như sau:
Recall = TPR = TPLEN (4.4)TP
Với TP, FN được tinh ở các video của tap kiểm tra tại mức ngưỡng 0.5.
Cũng như FAR, Recall có miền giá trị thuộc |0, 1]. Tuy nhiên, Recall càng cao thì càng tốt, vì nó đồng nghĩa với việc tỉ lệ bỏ sót các hành vi bạo lực thấp.
4.3. Phương pháp thực nghiệm
Trong quá trình huấn luyện, chúng tôi chọn ngẫu nhiên 4 video bạo lực và 4
video bình thường từ bộ dữ liệu UIT-ViolenceCCTV thành một lô (mini-batch) cho
mỗi đợt hoc. Hàm mục tiêu tổng thể được tính thông qua Theano và việc lan truyền ngược (back-propagation) được thực hiện bởi Keras Framework. Chúng tôi thực hiện huấn luyện từng mô hình với 20000 lần duyệt (epoch) và sử dụng thuật
toán tối ưu Adagrad 4 . Tham khảo từ [42], các hệ số ứng với ràng buộc về tính
trơn tru và tính thưa thớt được chọn là Aq = As = 8 x 1075 và trọng số 6 các lớp FC được regularization bằng chuẩn L2 với hệ số 0.001.
Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 47
4.3.1 Phương pháp Deep MIL Ranking
Ban dau, chúng tôi thực hiện tinh chỉnh bộ tham số đã được huấn luyện sẵn từ UCF-Crime [42], lần lượt với:
* Tốc độ học (learning rate) khởi tạo: 0.001 (tham khảo từ 42) và 0.01.
s Các mức độ đóng băng khác nhau: 2 lớp, 1 lớp và không đóng băng (do bộ phân lớp được sử dụng chỉ có 3 lớp).
Tuy nhiên, việc tinh chỉnh tham số nói chung và đóng băng nói riêng không thể phát huy tốt tiềm năng của nó khi luôn cho ra AUC thấp (dưới 75%). Nguyên nhân
có thể là do kiến trúc bộ phân lớp không quá sâu cùng với việc các tham số từ
được huấn luyện trên bộ dữ liệu phục vụ cho bài toán phát hiện bất thường (bao gồm cả bạo lực và nhiều hành vi khác). Cuối cùng, chúng tôi quyết định thực hiện huấn luyện cho toàn bộ mạng từ ban đầu, giữ nguyên tốc độ học khởi tạo so với
là 0.001 và đã đạt được kết quả tốt nhất về AUC cho phương pháp nay: 75.88%, với Recall là 3.16% và FAR là 0 (xem bảng[4-4).
4.3.2. Phương pháp Complementary Inner Bag Loss
Chúng tôi giữ nguyên tốc độ hoc khởi tạo là 0.001 so với thực nghiệm tốt nhất ở phẩn|4.3.1|và đã thử nghiệm nhiều hệ số A1, Az và A3 khác nhau cho phương pháp
Complementary Inner Bag Loss. Các A này được chọn dao động trong đoạn [0, 1]
(trong đó có tham khảo các hệ số đã được sử dụng ở bài báo cho bộ dữ liệu
UCF-Crime [42] với Ay = Az = Az = 1). Các kết quả thực nghiệm|'|được thể hiện ở
bảng[4.2|
Trong các thực nghiệm, dé dàng thấy được kết quả tốt nhất (ở cả ba độ đo) diễn
ra khi Ay = Az = 1 và A3 = 0. Điều đáng chú ý ở đây là A3 = 0 thì mang lại kết quả
Chúng tôi chỉ ghi nhận lại một vài kết quả đáng chú ý cho phương pháp Complementary Inner
Bag Loss