THUC NGHIEM VA ĐÁNH GIA 43

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện bạo lực trong video theo cách tiếp cận Multiple Instance Learning Ranking (Trang 56 - 61)

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Chương 4. THUC NGHIEM VA ĐÁNH GIA 43

4.2 Phương pháp đánh giá

Kế thừa từ bài báo của Sultani và cộng sự (42), cùng với việc bài toán phát hiện

bạo lực trong video sử dụng MIL được xem như bài toán phân lớp nhị phân cho

từng khung hình, hai độ đo ROC-AUC (Area Under the ROC Curve) và FAR (False

Alarm Rate) đã được dùng để đánh giá cho các phương pháp đã thực nghiệm. Bên cạnh đó, độ đo Recall cũng được sử dụng để có thể đánh giá kết quả công bằng nhất.

4.2.1 ROC-AUC

Diện tích dưới đường cong ROC, thường được viết tat là AUC, là một phép do được dùng để đánh giá hiệu quả của mô hình cho một bài toán phân lớp. Để có thể tính được AUC, cần nắm rõ:

© TP (True Positive): số lượng khung hình bạo lực được mô hình dự đoán đúng.

¢ TN (True Negative): sO lượng khung hình bình thường được mô hình dự đoán

đúng.

¢ FP (False Positive): số lượng khung hình bình thường được mô hình dự đoán

là bạo lực.

e FN (False Negative): số lượng khung hình bạo lực được mô hình dự đoán là

bình thường.

Các khái niệm này được thể hiện rõ ở ma trận nhầm lẫn (confusion matrix) tại

bảng4.1|

Và:

¢ TPR (True Positive Rate): tỉ lệ không bỏ sót (Recall).

TP

Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 44

Thuc té

Bao luc Binh thuong

Bao luc True Positive | False Positive

Du doan

Bình thường | False Negative | True Negative

BANG 4.1: Ma tran nham lan.

¢ FPR (False Positive Rate): tỉ lệ cảnh báo gia (False Alarm Rate).

FPR = 5a TaN (42)FP

Can luu y rang, các giá trị TP, TN, FP, FN, TPR, FPR có thé tăng hay giảm, tùy

thuộc vào cách chọn ngưỡng. Nói cách khác, với một mô hình phân lớp có sẵn, ứng với mỗi giá trị của ngưỡng, ta được một cặp giá trị (FPR, TPR). Tập hợp các cặp giá trị (FPR,TPR) khi ngưỡng thay đổi từ 0 đến 1 tạo thành một đường - đường cong ROC (Receiver Operating Characteristic) như ở hình] Một mô hình hiệu quả khi

nó có FPR thấp và TPR cao, tức đường cong ROC càng gần với điểm có tọa độ (0,1) thì càng tốt. Để có số đo chính xác về “độ gần” này, một đại lượng đã được sử dụng: AUC (Area Under the Curve). AUC là phần diện tích được giới hạn bởi đường cong

ROC, trục hoành (trục FPR) và đường thẳng vuông góc với trục hoành tại điểm có

tọa độ (1,0). Đây là diện tích phần nằm dưới đường ROC màu cam ở hình|4.1] AUC

là một số đương luôn nhỏ hơn hoặc bằng 1. Khi AUC càng cao, mô hình có khả năng

dự đoán càng chính xác. AUC bằng 0 nghĩa là mô hình bi du đoán ngược, tức cảnh bạo lực luôn bị dự đoán thành bình thường và ngược lại, AUC bằng 0.5 thì mô hình không có khả năng phân biệt giữa các lớp và AUC bằng 1 nghĩa là mô hình cho ra

dự đoán hoàn toàn chính xác.

Lưu ý: ROC-AUC ở đây chỉ quan tâm đến các dự đoán ở mức độ khung hình, các

dự đoán ở mức độ phân đoạn hoặc mức độ video (nếu có) sẽ không được xem xét đến.

Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 45

Tue Positive Rate

00 02 04 06 08 10

False Positive Rate

HINH 4.1: Minh họa đường cong ROC.

4.2.2 FAR

Trên thực tế, các sự kiện bình thường chiếm phan lớn thời lượng video camera giám sát, do đó, một mô hình nếu có tỉ lệ cảnh báo giả cao sẽ không tốt. đã sử dụng FAR tại mức ngưỡng 0.5 trên các video bình thường để đánh giá tính hiệu quả

của mô hình:

FAR = FPR = 5 ey (4.3)FP

Với FP, TN được tinh ở các video bình thường của tập kiểm tra tại mức ngưỡng

0.5.

FAR sẽ có giá trị trong đoạn [0, 1]. FAR càng gần 1, mô hình càng tệ vì chứa nhiều cảnh báo giả và ngược lại, FAR càng gan 0 thì càng tốt.

4.2.3. Recall

Dù ROC-AUC và FAR đã có thể đánh giá chất lượng của một mô hình, tuy nhiên

nó vẫn có hạn chế: dễ cho ra kết quả thiên vị đối với các mô hình luôn dự đoán

Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 46

các điểm số bao lực thấp. Ví du, cho tập kiểm tra gồm 2 video, một video bình thường có 3 khung hình và một video bạo lực có 5 khung hình, với nhãn lần lượt

là [0,0,0,0,1,1,1,1] (0 là khung hình bình thường và 1 là khung hình bạo lực). Mô

hình đầu tiên cho ra các điểm số bạo lực là {1,0.8,0.6, 0.4,0.2,0,0.5, 1] và mô hình thứ hai cho ra điểm số bằng 1y mô hình dau: [0.1, 0.08, 0.06, 0.04, 0.02, 0,0.05, 0.1]. Cả hai mô hình đều có AUC là 28.13% nhưng do mô hình đầu dự đoán cả 3 khung hình trong video bình thường với điểm số bạo lực đều lớn hơn 0.5 nên có FAR là 1 (cao

- không tốt), còn mô hình thứ hai thì ngược lại nên có FAR là 0 (thấp - tốt), nghĩa

là mô hình thứ hai sẽ được đánh giá cao hơn, trong khi xét về bản chất, khả năng phát hiện bạo lực của cả hai mô hình là như nhau. Do đó, chúng tôi dé xuất sử dụng

thêm độ đo Recall tại mức ngưỡng 0.5, được tính như sau:

Recall = TPR = TPLEN (4.4)TP

Với TP, FN được tinh ở các video của tap kiểm tra tại mức ngưỡng 0.5.

Cũng như FAR, Recall có miền giá trị thuộc |0, 1]. Tuy nhiên, Recall càng cao thì càng tốt, vì nó đồng nghĩa với việc tỉ lệ bỏ sót các hành vi bạo lực thấp.

4.3. Phương pháp thực nghiệm

Trong quá trình huấn luyện, chúng tôi chọn ngẫu nhiên 4 video bạo lực và 4

video bình thường từ bộ dữ liệu UIT-ViolenceCCTV thành một lô (mini-batch) cho

mỗi đợt hoc. Hàm mục tiêu tổng thể được tính thông qua Theano và việc lan truyền ngược (back-propagation) được thực hiện bởi Keras Framework. Chúng tôi thực hiện huấn luyện từng mô hình với 20000 lần duyệt (epoch) và sử dụng thuật

toán tối ưu Adagrad 4 . Tham khảo từ [42], các hệ số ứng với ràng buộc về tính

trơn tru và tính thưa thớt được chọn là Aq = As = 8 x 1075 và trọng số 6 các lớp FC được regularization bằng chuẩn L2 với hệ số 0.001.

Chương 4. THUC NGHIEM VÀ ĐÁNH GIA 47

4.3.1 Phương pháp Deep MIL Ranking

Ban dau, chúng tôi thực hiện tinh chỉnh bộ tham số đã được huấn luyện sẵn từ UCF-Crime [42], lần lượt với:

* Tốc độ học (learning rate) khởi tạo: 0.001 (tham khảo từ 42) và 0.01.

s Các mức độ đóng băng khác nhau: 2 lớp, 1 lớp và không đóng băng (do bộ phân lớp được sử dụng chỉ có 3 lớp).

Tuy nhiên, việc tinh chỉnh tham số nói chung và đóng băng nói riêng không thể phát huy tốt tiềm năng của nó khi luôn cho ra AUC thấp (dưới 75%). Nguyên nhân

có thể là do kiến trúc bộ phân lớp không quá sâu cùng với việc các tham số từ

được huấn luyện trên bộ dữ liệu phục vụ cho bài toán phát hiện bất thường (bao gồm cả bạo lực và nhiều hành vi khác). Cuối cùng, chúng tôi quyết định thực hiện huấn luyện cho toàn bộ mạng từ ban đầu, giữ nguyên tốc độ học khởi tạo so với

là 0.001 và đã đạt được kết quả tốt nhất về AUC cho phương pháp nay: 75.88%, với Recall là 3.16% và FAR là 0 (xem bảng[4-4).

4.3.2. Phương pháp Complementary Inner Bag Loss

Chúng tôi giữ nguyên tốc độ hoc khởi tạo là 0.001 so với thực nghiệm tốt nhất ở phẩn|4.3.1|và đã thử nghiệm nhiều hệ số A1, Az và A3 khác nhau cho phương pháp

Complementary Inner Bag Loss. Các A này được chọn dao động trong đoạn [0, 1]

(trong đó có tham khảo các hệ số đã được sử dụng ở bài báo cho bộ dữ liệu

UCF-Crime [42] với Ay = Az = Az = 1). Các kết quả thực nghiệm|'|được thể hiện ở

bảng[4.2|

Trong các thực nghiệm, dé dàng thấy được kết quả tốt nhất (ở cả ba độ đo) diễn

ra khi Ay = Az = 1 và A3 = 0. Điều đáng chú ý ở đây là A3 = 0 thì mang lại kết quả

Chúng tôi chỉ ghi nhận lại một vài kết quả đáng chú ý cho phương pháp Complementary Inner

Bag Loss

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện bạo lực trong video theo cách tiếp cận Multiple Instance Learning Ranking (Trang 56 - 61)

Tải bản đầy đủ (PDF)

(81 trang)