Chương này trình bày chỉ tiết các phương pháp thực nghiệm và bộ đữ liệu (UIT-
ViolenceCCTV) được sử dụng cho khóa luận.
3.1 Cơ sở líthuyết
3.11 C3D
Video là một tập các khung hình có cùng độ phân giải được sắp xếp theo một thứ tự nhất định. Bên cạnh hai chiều không gian có sẵn của các khung hình, video còn có thêm chiều thứ ba: chiều thời gian. Để có thể khai thác tốt thông tin trên
cả ba chiều, Tran và cộng sự đã đề xuất kiến trúc mạng C3D - một kiến trúc thuộc dang 3D CNN, thay vì 2D CNN truyền thống. C3D sử dung dau vào là một đoạn video với kích thước 3 x 16 x 128 x 171. Đây là đoạn video gồm 16 khung
hình chứa 3 kênh màu và có độ phân giải là 128 x 171 (tỉ lệ 4:3).
Các bộ tích chập được sử dụng trong kiến trúc mạng này có kích thước ở dạng
dx k x k, với d chỉ chiều thời gian và k x k để chỉ chiều không gian. Nếu như các
phép tích chập thông thường (tích chập 2D) dù được sử dụng trên một hình ảnh
hay một tập hình ảnh/đoạn video cũng đều tạo ra một ma trận hai chiều, tức làm mat đi thông tin vẻ thời gian của đoạn video, thì các phép tích chập trong C3D
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 26
(tích chập 3D) vẫn cho ra kết quả là một ma trận ba chiều nếu đầu vào của nó là một
), giúp bảo toàn được cả thông tin về không gian lẫn thời
đoạn video (xem hình|Š
gian của đoạn video này. Nói cách khác, tích chập 3D như thế này có khả năng khai thác thông tin về không gian và thời gian cùng một lúc, giúp phục vụ nhiều bài toán liên quan đến video như phát hiện sự kiện, nhận diện hành động.
HÌNH 3.1: So sánh tích chập 2D và 3D. (a) áp dụng tích chập 2D lên một
hình ảnh và (b) áp dụng tích chập 2D lên một đoạn video đều cho ra kết quả là một ma trận hai chiều. (c) áp dụng tích chập 3D lên một đoạn
video cho ra một ma trận ba chiều
Kiến trúc chỉ tiết của C3D 46] được minh hoa ở hình B.2| Năm khối đầu tiên của
3D CNN này chứa một hoặc hai lớp tích chập, được theo sau bởi một lớp pooling.
Tiếp đó là hai tang kết nói day đủ (fully-connected layer) được gọi là “fc6” và “fc7”
và một tầng softmax. Các thực nghiệm cho thấy 3 x 3 x 3 là bộ lọc mang lại hiệu
quả khai thác thông tin tốt nhất. Tran và cộng sự [46 đã sử dụng bước đệm (stride)
bằng 1 cho cả chiều không gian và chiều thời gian cho bộ lọc. Về các lớp pooling, ngoại trừ lớp đầu tiên “Pool1” sử dụng nhân tử (kernel) có kích thước 1 x 2 x 2 thì các lớp còn lại đều sử dụng 2 x 2 x 2. Hai tang kết nói day đủ đều chứa 4096 đơn vị.
| om fl =- A _
HÌNH 3.2: Kiến trúc Mạng C3D [46].
Conv4a |[ Convab ||[ Convsa |[Convsb ||H[ feo |[ íc7
512 512 512 512 14096] [4096]
C3D được huấn luyện trên bộ dữ liệu Sports-1M với hơn một triệu video
từ 487 hạng mục thể thao khác nhau. Hơn nữa, kết hợp với việc có khả năng mô tả
thông tin tốt và tốc độ tính toán nhanh (hơn gap hàng trăm lần so với TSN (39) , theo (), C3D đã trở thành một bộ trích xuất đặc trưng phổ biến được sử dụng cho
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 27
các bài toán khác liên quan đến video. Chẳng hạn, để rút trích đặc trưng cho một phân đoạn, đã chia phân đoạn này thành nhiều đoạn ngắn chứa đúng 16 khung hình. Mỗi đoạn ngắn này sau khi đi đến lớp “fc6” của C3D [46] sẽ cho ra kết quả
là một véc-tơ 4096 chiêu, rồi lấy trung bình thông qua cách chuẩn hóa L2 của các véc-tơ này để tạo nên đặc trưng cho phân đoạn.
3.1.2 Hàm mục tiêu đối ngoại
Lay ý tưởng từ ham Hinge thường được sử dung trong SVM (Support Vector Machine), Sultani và cộng sự đã dé xuất hàm mục tiêu đối ngoại - hàm Hinge
cho bài toán MIL (hình |.3):
lover = max{0,1— max ƒ(1/) + max ƒ(V)) 3.1)
Với:
© Ba, Bn: lần lượt là video bao lực và video bình thường.
s_V;: phân đoạn i của video.
® ƒ(V;): điểm số bạo lực được dự đoán của phân đoạn V;.
Khác với SVM ở hướng giám sát hoàn toàn, MIL chỉ có thể tận dụng nhãn của
video trong quá trình huấn luyện. Do đó, thay vì sử dụng tat cả các phân đoạn thì
chỉ mỗi phân đoạn có điểm số bạo lực [| cao nhất được chọn để đại diện cho cả
video, với nhãn được giả định trùng với nhãn của cả video. Việc này giúp đưa bài
toán giám sát yếu gần với bài toán giám sát hoàn toàn hơn, làm đơn giản hóa hàm mục tiêu. Cũng như Hinge cho SVM, hàm mục tiêu này nhằm mục đích làm cho điểm số của phân đoạn bạo lực phải cao hơn điểm số của phân đoạn bình thường
Điểm số bạo lực càng cao đồng nghĩa với việc mô hình tin rằng khả năng phân đoạn này có chứa
cảnh bạo lực càng lớn
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 28
và phải cao hơn một ngưỡng khoảng cách (margin) nhất định, do đó hàm này yêu cầu cả video bình thường và video bạo lực cùng lúc. Điều này đồng nghĩa với việc phân đoạn bạo lực có điểm càng cao và phân đoạn bình thường có điểm càng thấp thì càng tốt. Nhóm tác giả tin rằng phân đoạn “có vẻ” bạo lực nhất (có điểm số cao
nhất) trong video bạo lực sẽ thực sự là phân đoạn có bạo lực, còn phân đoạn “có vẻ”
bạo lực nhất trong video bình thường vẫn sẽ là phân đoạn bình thường, do nó có điểm số thấp hơn nhiều so với phân đoạn có điểm số cao nhất trong video bạo lực
(gây ra bởi ngưỡng khoảng cách).
tròn là điểm số bạo lực của các phân đoạn, negative bag biể
bình thường và positive bag biểu thị video bạo. lực
thị video
3.1.3 Hàm mục tiêu đối nội
Hàm mục tiêu đối ngoại dẫu vẫn có khả năng phục vụ cho bài toán MIL,
tuy nhiên việc chỉ sử dụng phân đoạn có điểm số cao nhất để đại điện cho toàn bộ
video là thiếu hiệu quả (43). Zhang va cộng sự 57] đã đề xuất hàm mục tiêu mới
- hàm mục tiêu đối nội, để sử dụng kết hợp với hàm mục tiêu đối ngoại (hình
B3. Hàm mục tiêu đối nội 57] gồm hai thành phan:
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 29
¢ Hàm mục tiêu đối nội cho video bạo lực - dua trên giả thiết rằng tồn tại cả
phân đoạn bình thường và phân đoạn có bạo lực trong video bạo lực, vì sự
kiện bạo lực chỉ chiếm tỉ trọng nhỏ trong tổng thời lượng của video. Do đó, cần tối đa khoảng cách điểm số giữa phân đoạn “có vẻ“ bạo lực (điểm cao nhất) và phân đoạn “có vẻ” bình thường (điểm thấp nhất) trong video.
inner violence = Max(0,1— max f(Vi) + pun f (Vj) (3.2)
¢ Ham mục tiêu đối nội cho video bình thường - muốn toàn bộ phân đoạn trong video đều có điểm thấp và thấp đều nhau, tức dù là phân đoạn “có vẻ” bạo lực nhất trong video bình thường thì cũng phải có điểm số thật thấp. Để làm được điều đó, hàm này tdi thiểu hóa sự chênh lệch về điểm số giữa phân đoạn
có điểm cao nhất và thấp nhất trong video.
limernoemal = | max ƒ(Wí) — min ƒ(W))| G3)
Hàm mục tiêu đối nội nhằm mục đích tạo thêm ràng buộc cho các phân đoạn trong cùng một video: tăng sự khác biệt về điểm số giữa các phân đoạn trong video bạo lực và giảm sự khác biệt về điểm số giữa các phân đoạn trong video bình
thường. sử dụng cả phân đoạn có điểm số cao nhất và thấp nhất để đại diện
cho một video, thay vì chỉ sử đụng phân đoạn có điểm cao nhất như hàm mục tiêu
đối ngoại của 42). Nhóm tác giả tin rằng, phân đoạn có điểm số thấp nhất, dù là
trong video bạo lực hay bình thường, đều sẽ không chứa bạo lực và ý tưởng lấy từ
hàm mục tiêu đối ngoại 2 , tức phân đoạn có điểm số cao nhất trong video bình
thường sẽ là bình thường, cao nhất trong video bạo lực sẽ là bạo lực.
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 30
3.1.4 Rang buộc về tính trơn tru
Để ràng buộc về mặt thời gian, Sultani và cộng sự đã bổ sung thêm ràng buộc về tính trơn tru. Ràng buộc này nhằm làm tối thiểu hóa sự chênh lệch về điểm
số giữa các phân đoạn kể nhau trong video, giúp duy trì tính ổn định theo dong thời gian trong video. Ràng buộc về tính trơn tru được tính như sau:
n—-1
smoothness = (f (Vi) ~ f (Visa)? (3.4)
i=1
Với n là tổng số phân đoạn có trong video bạo lực.
3.1.5 Rang buộc về tính thưa thớt
Cũng nhằm mục đích tạo ra các ràng buộc chặt chẽ hơn về mặt thời gian, ràng
buộc về tính thưa thớt đã được đề xuất tại [42]. Nhóm tac gia tin rang các sự kiện
bạo lực thường chỉ chiếm một phần nhỏ trong toàn bộ thời lượng video. Nói cách khác, nó hiếm khi xảy ra, tức “thưa thớt”:
sparsity = VFM) (3.5)
i=1
Voin là tong số phân đoạn có trong video bạo lực.
3.2 Phương pháp Deep MIL Ranking
Phương pháp cơ sở - Deep MIL Ranking hoàn toàn dựa theo công trình
nghiên cứu của Sultani và cộng sự [42], gồm các bước (xem hình |3.4):
e© Bước 1: Tiền xử lí.
— Video được đưa về 30 fps với kích thước 240 x 320.
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 31
Positive bag Instance scores in positive bag
Anomaly video
32 temporal segments
MIL Ranking Loss with sparsity and smoothness constraints
Normal video
HINH 3.4: Phuong phap Deep MIL Ranking [42].
- Chuẩn hóa giá trị của các khung hình dựa trên 16 ảnh trung bình được
tính từ bộ dữ liệu Sports-1M [23].
® Bước 2: Chia phân đoạn - mỗi video được chia thành 32 phân đoạn không
trùng lắp nhau.
¢ Bước 3: Rút trích đặc trưng.
— Chia nhỏ phân đoạn - mỗi phân đoạn được chia thành nhiều tập 16 khung
hình không trùng lắp nhau.
— Tính đặc trưng cho tập 16 khung hình - mỗi tập được đưa vào mạng C3D
để tính đặc trưng tại lớp “fc6”. Véc-tơ đặc trưng của mỗi tập có 4096
chiều.
— Tính đặc trưng cho phân đoạn - tính trung bình theo chuẩn L2 cho tat cả
các đặc trưng của các tập 16 khung hình có trong phân đoạn để làm đặc
trưng cho cả phân đoạn. Véc-tơ đặc trưng của mỗi phân đoạn cũng có
4096 chiều.
¢ Bước 4: Phân lớp phân đoạn - đặc trưng của tat cả các phân đoạn trong một
hoặc nhiều cặp video (một video bạo lực và một video bình thường) được đưa vào mạng FCNN sử dụng đầu vào là một véc-tơ 4096 chiều. FCNN này gồm
ba lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 01 đơn vị. Lớp đầu có hàm kích
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 32
hoạt được sử dung là ReLU, còn lớp cuối là Sigmoid. Giữa các lớp đều được sử dụng dropout 60%. Số lượng tham số của bộ phân lớp này được đề cập ở bảng
Mạng sử dung hàm mục tiêu Deep MIL Ranking [42] gồm ba thành phan
- hàm mục tiêu đối ngoại, ràng buộc về tính trơn tru và ràng buộc về tính thưa
thớt:
ldeep =louter + Aal smoothness + Asl sparsity
= max(0,1 — max ƒ(V;) + max ƒ(V;))
ViEBa VjEBn
n-1 2
+44) (Vị) — ƒ(Wi1))
j=,
n
+As5 0 (Vi)
i=1
Với Ag, As lần lượt là hệ số ứng với ràng buộc về tính trơn tru và ràng buộc về
tính thưa thớt.
Lớp (loại) Kích thước dau ra | Sô lượng tham so dense_13 (Dense) (None, 512) 2097664
dropout_13 (Dropout) | (None, 512) 0 dense_14 (Dense) (None, 32) 16416 dropout_14 (Dropout) | (None, 32) 0 dense_15 (Dense) (None, 1) 33
Tổng lượng tham số 2114113
BẢNG 3.1: Thông tin chỉ tiết kiến trúc bộ phân lớp sử dụng.
° Bước 5: Hậu xử lí - gan điểm bạo lực của từng khung hình bằng chính điểm
bạo lực của phân đoạn mà khung hình đó thuộc vẻ.
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 33
3.3. Phương pháp Complementary Inner Bag Loss
Dé có thể so sánh khách quan nhất, tất cả các phần đã được sử dung ở phương pháp Deep MIL Ranking đều được giữ nguyên, ngoại trừ hàm mục tiêu phục
vụ cho quá trình huấn luyện bộ phân lớp là có sự chỉnh sửa. Phương pháp Comple- mentary Inner Bag Loss sử dụng hàm mục tiêu là sự kết hợp giữa hàm mục tiêu đối ngoại và hàm mục tiêu đối nội:
ẽcomplementary =ÀIouter + À2ẽimner violence + A3linner normal + Nal smoothness + Asl sparsity
=A max(0,1 — max ƒ((/) + max /(/))
A 1— Vị in f(V;
+ Àa max(0, agit ait 7))
+ As pe Lge — pin f(Vj)|
Với Ay, Az, Ag lần lượt là hệ số ứng với hàm mục tiêu đối ngoại, hàm mục tiêu đối nội cho video bạo lực và hàm mục tiêu đối nội cho video bình thường.
3.4 Phương pháp đề xuất - Top MIL Ranking
Cũng nhằm mục đích có thể so sánh khách quan nhất, phương pháp này chỉ thay đổi hàm mục tiêu so với phương pháp cơ sở. Lấy ý tưởng từ Top-MI-SVM [3] khi
sử dụng nhiều hơn một thể hiện để đại diện cho mỗi túi, chúng tôi dé xuất phương
pháp Top MIL Ranking với hàm mục tiêu như sau:
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 34
họp = ằ Ym max(0, 1 — top„ƒ(V, Ă) + VieB, f(V; i)) (3.6)
V;cBạ Cu V6i:
® k:sỐ phân đoạn được chọn để đại diện cho video bạo lực.
© top„/(V;): phân đoạn có điểm số bạo lực cao thứ m trong video Ba.
ViEBa
© Ym: hệ số ứng với top,,, f (Vi).
Vị€B„
Khi bổ sung thêm ràng buộc về tính tron tru [42] và tính thưa thớt [42], hàm mục
tiêu cuối cùng trở thành:
họp w cons # a5 Nal smoothness + Asl sparsity
F 4 > apy re ))
Ss ViEBa "
f(Via1))?
Cũng như Deep MIL Ranking với ham mục tiêu đối nội, phương pháp dé xuất này chỉ sử dụng mỗi phân đoạn có điểm số bạo lực cao nhất để đại điện cho video bình thường. Tuy nhiên, k phân đoạn có điểm số bạo lực cao nhất trong video bạo lực sẽ được xem xét đến, thay vì chỉ một. Tham số k sẽ được chọn từ trước và được giữ nguyên trong suốt quá trình huấn luyện bộ phân lớp. Việc chọn lựa k cần
phải lưu ý:
© Khi k lớn, nhiều phân đoạn bạo lực được sử dụng để hoc, không gian huấn
luyện cũng sẽ được mở rộng nhiều hơn. Tuy nhiên, k quá lớn sẽ dễ gây ra
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 35
nhiều nhiễu, tức sẽ có một vài/nhiều phân đoạn trong số k phân đoạn được
chọn không phải là phân đoạn bạo lực. Ví dụ, một video được chia làm 32
phân đoạn bằng nhau, trong đó chỉ có 4 phân đoạn bạo lực (lưu ý: tập huấn luyện không cung cấp thông tin này). Nếu chọn k = 10 thì sẽ có đến 6 phân đoạn gây nhiễu trong quá trình huấn luyện bộ phân lớp.
¢ Khi k nhỏ, khả năng các phân đoạn được chọn thực sự là bao lực sẽ cao, tức ti
lệ nhiễu thấp, nhưng không gian huấn luyện sẽ bị thu hẹp lại, không đủ các phân đoạn bạo lực để học.
® Khi k = 1, hàm mục tiêu trở thành hàm mục tiêu đối ngoại đo chỉ duy
nhất một phân đoạn có điểm số bạo lực cao nhất được chọn.
Việc thêm vào tham số k ở đây nhằm mục đích mở rộng không gian huấn luyện, giúp mô hình có thể học được nhiều đặc trưng bạo lực và hiểu “khái niệm” bạo lực tốt hơn. Hiệu quả của phương pháp này phụ thuộc rất nhiều vào tham số k. Để tìm được k tối ưu, đòi hỏi cần phải thực nghiệm nhiều lần, sao cho vừa có thể mở rộng không gian huấn luyện tối đa, vừa hạn chế được nhiễu. Bên cạnh đó, tham số này còn phụ thuộc vào bộ dữ liệu, tức các bộ dữ liệu khác nhau sẽ có các k tối ưu khác
nhau. Tương tự, k cũng phụ thuộc vào cách chia phân đoạn cho video.
3.5 Bộ dư liệu đánh giá
Như đã dé cập ở phân[I| các bộ dix liệu có sẵn [7], [10], [19], [55], (371, 42],
vẫn còn hạn chế: hành vi bạo lực được diễn lại, trích từ phim ảnh, thiếu tính thực tế, không được quay lai bằng camera giám sát hoặc không thể hiện được các bồi cảnh,
đặc trưng của Việt Nam (không gian, con người, văn hóa, hình thức bạo lực...). Do
đó, nhóm thực hiện khóa luận đã tiến hành xây dựng một bộ dữ liệu mới phục vụ
cho bài toán phát hiện bạo lực trong video camera giám sát tại Việt Nam. Bộ dữ liệu
Chương 3. PHƯƠNG PHÁP SỬ DỤNG 36
mang tên UIT-ViolenceCCTV P| được xây dựng dựa trên đúng quy trình xây dung
của Sultani và cộng sự cho bộ UCF-Crime [42].
3.5.1 Thu thập
Đầu tiên, các video được tìm kiếm với các từ khóa tiếng Việt như "bạo lực cam- era", "đánh nhau camera", "ấu đả camera", "trộm xe bị đánh", "camera giám sát
demo", "bao luc cctv", "camera đám đông" và các cụm từ có nghĩa tương tự trên
Youtube. Các video không được quay lại bằng camera giám sát hoặc các video cam- era giám sát được quay lại bằng điện thoại đều được xem là không hợp lệ. Chỉ những video phù hợp mới được chọn để tải về.
3.5.2 Lam sạch
Dù chắc chắn được quay lại trực tiếp bằng camera giám sát, các video sau bước thu thập vẫn có khả năng cao bị cắt phép chỉnh sửa, chèn thêm hiệu ứng, âm thanh,
tua nhanh - chậm.... Vì vậy, nhóm thực hiện đã xem lại từng video một để chỉ chọn
ra những video chưa qua bước chỉnh sửa. Tuy nhiên, số lượng các video thực sự thỏa mãn diéu kiện này rat ít. Xét trong số video không thỏa mãn, có không ít video chỉ bị can thiệp một phần nhỏ. Do đó, nhóm quyết định “làm sạch” các video này, chẳng hạn như loại bỏ những phần khung viền được chèn vào (crop video), loại bỏ những đoạn không phù hợp (trim video), chỉnh tốc độ video về bình thường nếu video bị tua nhanh /chậm..., đồng thời giữ lại những video bị chỉnh sửa không đáng
kể để có thể tận dụng thêm video. Chỉ những video bị chỉnh sửa quá mức, không
thể khắc phục mới bị loại bỏ. Các video sau đó đều được đưa về 30 fps để thống
nhất. Về phần âm thanh, do các hệ thống camera giám sát thông thường đa phần
đều không có khả năng thu âm [58], va lai các video bị chèn các hiệu ứng âm thanh,
Luu ý rằng, các video trong bộ đữ liệu UIT-ViolenceCCTV không thuộc quyên sở hữu của chúng
tôi