Tùy thuộc vào thiết lập (cách gán nhãn) của bộ dữ liệu, có ba hướng tiếp cận chính để giải quyết bài toán phát hiện bạo lực trong video: không giám sát, giám sát hoàn toàn và giám sát yếu.
2.1 Hướng tiếp cận không giám sát
Các sự kiện bạo lực thường diễn ra với tần suất thấp trong thực tế, do đó khó mà sưu tầm một bộ dit liệu thể hiện được day đủ sự đa dạng của hành vi này. Trong
khi đó, các video bình thường, tức video không chứa bạo lực, lại được thu thập một
cách dé dàng. Vì thé, hướng tiếp cận không giám sát sử dụng bộ đữ liệu có tập huấn luyện chỉ gồm những video không chứa hành vi bạo lực. Điều này đồng nghĩa với việc không cần gán nhãn cho tập này vì đây là tập đơn lớp, giúp tiết kiệm tối đa thời gian và công sức xây dựng bộ dit liệu. Tuy nhiên, vẫn cần xác định rõ thời gian bắt đầu và kết thúc của các sự kiện bạo lực diễn ra trong video ở tập kiểm tra.
1Phát hiện bạo lực có thể được phân vào nhóm phát hiện sự kiện hoặc phát hiện bất thường trong video, tùy vào hướng tiếp cận của tác giả/nhóm tác giả mà sẽ có những tên gọi khác nhau. Để thống nhất, chỉ mỗi thuật ngữ phát hiện bạo lực được sử dụng cho phần này.
?Đề tài này tập chỉ tập trung vào thông tin thị giác, do đó các thông tin hay đặc trưng khác như
âm thanh, chỉ số gia tốc... sẽ không được đề cập.
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 8
Điểm chung của các phương pháp theo hướng không giám sát là chúng thường
khó đạt được độ chính xác cao, lại dé phát sinh cảnh báo giả, đặc biệt là các van dé
an ninh trong thực tế. Dẫu vậy, hướng này được tin là có khả năng tổng quát hóa
định nghĩa bạo lực tốt [60].
2.1.1 Tái tạo đặc trưng
Tái tạo đặc trưng (feature reconstruction, điển hình là Autoencoder - hình |2.1}
là một phương pháp phổ biến theo hướng tiếp cận không giám sát. Phương pháp này học cách tái cấu trúc khung hình hiện tại dựa trên chính khung hình này và các khung hình trước đó của nó. Khi huấn luyện mô hình, chỉ cần dùng các khung hình bình thường (không chứa bạo lực) để học cách tái tạo, và chạy mô hình đã được huấn luyện với khung hình cần kiểm tra, với mong muốn mô hình tái tạo tốt (độ lỗi tái tạo thấp) cho các khung hình chỉ chứa hành vi bình thường và sẽ tái tạo kém (độ lỗi cao) nếu khung hình có chứa cảnh bạo lực. Nghiên cứu còn kết hợp
thêm FCN (Fully Convolutional Network) với LSTM, tạo thành ConvLSTM-AE để
có thể mô hình hóa chiều thời gian trong video tốt hơn, giúp nâng cao hiệu năng
của phương pháp tái tạo đặc trưng. Tuy nhiên, phương pháp này thường có nhược
điểm là dé bị quá khớp (overfitting), có thể tái câu trúc các trường hợp bạo lực với
độ lỗi tái tạo nhỏ [50].
2.1.2 Dự đoán khung hình
Ngoài tái tạo đặc trưng, phương pháp dự đoán khung hình (frame prediction)
cũng đang được quan tâm. Phương pháp này mong muốn dự đoán được khung hình hiện tại thông qua các khung hình trước đó của nó, rồi đem ra so sánh giữa khung hình dự đoán được và khung hình thực tế, tựa như phương pháp tái tạo đặc trưng. Khác là, dự đoán khung hình không sử dụng khung hình hiện tại làm đầu
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 9
input output
~_| code eae
decoder encoder
HÌNH 2.1: Kiến trúc Autoencoder (9) gồm hai phan: encoder dé mã hóa
(từ không gian anh - RGB sang không gian đặc trưng) va decoder giúp
giải mã (ngược lại).
vào, vì thế mới được gọi là “dự đoán”. Ý tưởng về GAN (Generative Adversarial
Network) cũng được sử dụng cho phương pháp này với kỳ vọng huấn luyện được
bộ tạo ảnh (generator) có khả năng cho ra các khung ảnh thật nhất và giống voi khung hình cần dự đoán nhất có thé. Liu cùng cộng sự đã bổ sung các ràng
buộc về cường độ, hướng và chuyển động nhằm mang lại khả năng dự đoán khung
hình tốt hơn cho bộ tạo ảnh U-Net (hình|2.2} trong mạng GAN của mình.
2.2 Hướng tiếp cận giám sát hoàn toàn
Với hướng tiếp cận giám sát hoàn toàn, toàn bộ bộ dữ liệu cần được gán nhãn
theo mức độ khung hình (frame-level), tức xác định xem đâu là khung hình có bạo
lực, đâu là khung hình bình thường. Đây có lẽ là bước tốn kém nhất trong quá trình
xây dựng bộ dữ liệu.
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 10
256x256 ——- ® 256256. 2, 256x256 ,.m——————* i ‘co 256x256 „„. 256256 „ 288056 _„ | = 256x256
oft 28 „128 co 296 128 Fe 8—
N NI N
II „ ——— -šÌ a
Ol ol & s
1 s | Bị ẽ ya
128 256 256 DU eee nearer
si fl ye © ens9 1
š hà Re Ÿ ' ax pooling64
:—* Convolution |
32x32 64x64 il 32x32 È ”È
ị | Deconvolution:
* Concatenate ị
HINH 2.2: Mạng U-Net có vai trò là bộ tạo ảnh trong Es|. Mạng này có
độ phân giải của đầu vào và đầu ra là như nhau.
2.2.1 Ngoại suy
Một giải pháp phổ biến theo hướng tiếp cận này là tận dụng các kiến thức biết trước (hành vi, sự kiện, đối tượng) liên quan đến bạo lực để giải bài toán, như hình
Nói cách khác, phát hiện bạo lực được giải quyết dựa trên một hoặc một vài bài
toán xác định khác như phát hiện vật thể (máu, súng ống, bom đạn, hỏa hoạn...) (61, [13], [25], (44), nhận diện hành động (au đả, ban súng, rượt đuổi, chiến tranh...) (6,
[25], [44]. Tuy nhiên, phương pháp đứng trước hai hạn chế: khả năng phát hiện thấp
và tỉ lệ cảnh báo giả cao [58].
2.2.2 Nội suy
Các công trình nghiên cứu theo kiểu nội suy có điểm chung: hướng tới việc đưa
bài toán phát hiện bạo lực trở thành bài toán phân lớp nhị phân thường gặp và tập
trung khai thác, phát triển bộ trích xuất đặc trưng trước khi đưa vào mạng phân lớp.
Có ba cách trích xuất đặc trưng phổ biến: dựa trên khung hình (image-based), dựa trên đoạn video (volume-based) và dựa trên luồng quang học (optical flow).
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 11
Bộ phân lớp sub-concepts
Lửa
s |” —e lim:
'Véc tơ đặc trưng
shot! 4ldiL
Shot2 atid TM [ Keo) | SVM
ShotN Mô hình
. .iuuớ....ẹ phỏt hiện
bao luc
<> xử
<> video
Riit tríchkh KP s a
Kes ther
trung
Key frame
HèNH 2.3: Kiến trỳc hệ thống sử dụng kiến thức biết trước ủ3l. Cảnh
bạo lực được xác định bằng cách tổng hợp điểm tương ứng của các bộ
phân lớp cho các khái niệm/thuộc tính trên.
Dựa trên khung hình
Từng khung hình riêng rẽ sẽ được rút trích để lấy đặc trưng về không gian. Các
đặc trưng này sau đó sẽ được đưa vào mạng hệ RNN/LSTM (Recurrent Neural
Network/Long Short-Term Memory) để rút trích thêm đặc trưng về thời gian nhằm hiểu được sự khác nhau giữa các khung hình liền kể hay sự thay đổi đang diễn ra
trong video.
lay trung bình các đặc trưng học sâu CNN trích xuất được từ 16 khung hình liền kể trước khi đưa vào bộ phân lớp. sử dụng HOG (Histogram of Oriented Gradient) cho từng khung hình và dùng nó để huấn luyện BD-LSTM (BiDirectional Long Short-Term Memory). dùng mang CNN để trích xuất đặc trưng về không
gian trước khi đưa vào một ConvLSTM (Convolutional Long Short-Term Memory)
(hình E.4). Việc kết hợp các kiến trúc mạng với nhau nhằm biểu diễn đặc trưng
không-thời gian (spatiotemporal feature) tốt hơn, với mong muốn có thể thu được thông tin của các chuyển động cục bộ. Bên cạnh đó, so với LSTM truyền thống, ConvLSTM có thể biểu diễn đặc trưng cho video tốt hơn và giảm nguy cơ bị quá
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 12
khớp [58].
ConvLSTM
Y tes
L. UH Ua a Pr ea a-
6 ire
F mm Big ` (256)
‘2: UR-UR-B-B-8-0
Fr E3
a 1
o> Ul Un-Uin-@-O-8-0-[-|-1-
256 384
1000
HÌNH 2.4: Kiến trúc mô hình kết hợp giữa CNN (đỏ) va ConvLSTM
(xanh lá) [41].
Tuy nhiên, đứng trước sự da dạng về hình thé con người trong video (gây ra bởi
góc nhìn, tỉ lệ và sự che khuất (58}), cach rut trich dac trung dua trén khung hinh thường gặp khó khăn trong việc tìm ra các đặc trưng tốt [48].
Dựa trên đoạn video
Rút trích dựa trên đoạn video sử dung một day các khung hình liền ké để trích xuất đặc trưng. Nếu như CNN (2D CNN) được sử dụng phổ biến cho rút trích dựa
trên khung hình thì 3D CNN cũng đóng vai trò tương tự cho rút trích dựa trên đoạn
video. 3D CNN được dùng để chỉ những kiến trúc mạng CNN có khả năng thực hiện các phép tích chập trên không gian ba chiều (3D), cho phép khai thác thông tin trên cả chiều không gian và chiều thời gian giữa các khung hình. Do đó, thông tin
về chuyển động được biểu diễn tốt hơn hẳn cách rút trích dựa trên khung hình, bất
kể độ sâu của mạng và số chiều của đặc trưng [61]. Thong tin nay giup viéc giai bai
toán phát hiện bao lực trở nên dé dang hơn, vi bạo luc thường gồm những chuyển động đột ngột bat thường.
Vào năm 2014, Ding và cộng sự đã dé xuất mô hình 3D CNN cho bài toán phát hiện bạo lực trong video mà không cần sử dụng các đặc trưng thủ công hay
kiến thức biết trước. Các nghiên cứu gần đây (1, cho thấy, việc tinh chỉnh lại
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 13
(fine-tuning) các kiến trúc mạng 3D CNN đã được huấn luyện trên các bộ dữ liệu
lớn (chẳng hạn như Sports-1M 23) giúp đem lại hiệu quả tốt hơn cho các bài toán
liên quan đến xử lí video. Hoặc đơn giản hơn, chỉ sử dụng 3D CNN như một bộ
trích xuất đặc trưng bằng cách giữ nguyên bộ tham số đã được huấn luyện từ trước
như cách mà [53], thực hiện cũng đem lại hiệu quả cao. không sử dụng
thông tin về luồng quang học mà chỉ dùng dau ra từ lớp lớp “fc6” của C3D [46] (sẽ
được làm rõ ở phan 3) để đưa vào mạng RNN (như hình |2.5|. cũng làm điều
tương tự, nhưng mạng hệ RNN với kiến trúc và các siêu tham số (hyperparameter) được chọn thông qua tìm kiếm lưới (grid search - tức chọn kiến trúc/tham số tốt nhất trong tất cả các tổ hợp kiến trúc /tham số cho trước).
4 Convolutional Recurrent Activity
Video Clips
Neural Network Neural Network Classification
„80mm
Ls
HINH 2.5: Kiến trúc mang sử dung C3D như một bộ trích xuất đặc
trưng [33].
Dau mang lại khả năng trích xuất đặc trưng tốt, các 3D CNN lại có chi phí tính toán vô cùng tốn kém khi so với 2D CNN. Cho rằng nhiều phương pháp đã lãng
phí tài nguyên khi phải xử lí toàn bộ video, chỉ sử dụng 3D CNN cho nhóm các khung hình có chứa người - những khung hình được cho là quan trọng, được chọn
Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 14
lọc thông qua MobileNet - một mô hình CNN vô cùng gọn nhẹ. Framework này
được thể hiện ở hình|2.6]
a *“ ~~!
Camera Input video Object detection CNN model Persons detected
mãn 14 Convda 7 ConvSa 4 -
Cony Convdb. ConvSb k6 ®
= = = = Violence
3 Pool4 ag PoolS ag detection
4 2
8
sử siz
HÌNH 2.6: Framework giúp han chế lãng phí tai nguyên khi sử dụng