CÁC NGHIÊN CỨU LIÊN QUAN

Tùy thuộc vào thiết lập (cách gán nhãn) của bộ dữ liệu, có ba hướng tiếp cận chính để giải quyết bài toán phát hiện bạo lực trong video: không giám sát, giám sát hoàn toàn và giám sát yếu.

2.1 Hướng tiếp cận không giám sát

Các sự kiện bạo lực thường diễn ra với tần suất thấp trong thực tế, do đó khó mà sưu tầm một bộ dit liệu thể hiện được day đủ sự đa dạng của hành vi này. Trong

khi đó, các video bình thường, tức video không chứa bạo lực, lại được thu thập một

cách dé dàng. Vì thé, hướng tiếp cận không giám sát sử dụng bộ đữ liệu có tập huấn luyện chỉ gồm những video không chứa hành vi bạo lực. Điều này đồng nghĩa với việc không cần gán nhãn cho tập này vì đây là tập đơn lớp, giúp tiết kiệm tối đa thời gian và công sức xây dựng bộ dit liệu. Tuy nhiên, vẫn cần xác định rõ thời gian bắt đầu và kết thúc của các sự kiện bạo lực diễn ra trong video ở tập kiểm tra.

1Phát hiện bạo lực có thể được phân vào nhóm phát hiện sự kiện hoặc phát hiện bất thường trong video, tùy vào hướng tiếp cận của tác giả/nhóm tác giả mà sẽ có những tên gọi khác nhau. Để thống nhất, chỉ mỗi thuật ngữ phát hiện bạo lực được sử dụng cho phần này.

?Đề tài này tập chỉ tập trung vào thông tin thị giác, do đó các thông tin hay đặc trưng khác như

âm thanh, chỉ số gia tốc... sẽ không được đề cập.

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 8

Điểm chung của các phương pháp theo hướng không giám sát là chúng thường

khó đạt được độ chính xác cao, lại dé phát sinh cảnh báo giả, đặc biệt là các van dé

an ninh trong thực tế. Dẫu vậy, hướng này được tin là có khả năng tổng quát hóa

định nghĩa bạo lực tốt [60].

2.1.1 Tái tạo đặc trưng

Tái tạo đặc trưng (feature reconstruction, điển hình là Autoencoder - hình |2.1}

là một phương pháp phổ biến theo hướng tiếp cận không giám sát. Phương pháp này học cách tái cấu trúc khung hình hiện tại dựa trên chính khung hình này và các khung hình trước đó của nó. Khi huấn luyện mô hình, chỉ cần dùng các khung hình bình thường (không chứa bạo lực) để học cách tái tạo, và chạy mô hình đã được huấn luyện với khung hình cần kiểm tra, với mong muốn mô hình tái tạo tốt (độ lỗi tái tạo thấp) cho các khung hình chỉ chứa hành vi bình thường và sẽ tái tạo kém (độ lỗi cao) nếu khung hình có chứa cảnh bạo lực. Nghiên cứu còn kết hợp

thêm FCN (Fully Convolutional Network) với LSTM, tạo thành ConvLSTM-AE để

có thể mô hình hóa chiều thời gian trong video tốt hơn, giúp nâng cao hiệu năng

của phương pháp tái tạo đặc trưng. Tuy nhiên, phương pháp này thường có nhược

điểm là dé bị quá khớp (overfitting), có thể tái câu trúc các trường hợp bạo lực với

độ lỗi tái tạo nhỏ [50].

2.1.2 Dự đoán khung hình

Ngoài tái tạo đặc trưng, phương pháp dự đoán khung hình (frame prediction)

cũng đang được quan tâm. Phương pháp này mong muốn dự đoán được khung hình hiện tại thông qua các khung hình trước đó của nó, rồi đem ra so sánh giữa khung hình dự đoán được và khung hình thực tế, tựa như phương pháp tái tạo đặc trưng. Khác là, dự đoán khung hình không sử dụng khung hình hiện tại làm đầu

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 9

input output

~_| code eae

decoder encoder

HÌNH 2.1: Kiến trúc Autoencoder (9) gồm hai phan: encoder dé mã hóa

(từ không gian anh - RGB sang không gian đặc trưng) va decoder giúp

giải mã (ngược lại).

vào, vì thế mới được gọi là “dự đoán”. Ý tưởng về GAN (Generative Adversarial

Network) cũng được sử dụng cho phương pháp này với kỳ vọng huấn luyện được

bộ tạo ảnh (generator) có khả năng cho ra các khung ảnh thật nhất và giống voi khung hình cần dự đoán nhất có thé. Liu cùng cộng sự đã bổ sung các ràng

buộc về cường độ, hướng và chuyển động nhằm mang lại khả năng dự đoán khung

hình tốt hơn cho bộ tạo ảnh U-Net (hình|2.2} trong mạng GAN của mình.

2.2 Hướng tiếp cận giám sát hoàn toàn

Với hướng tiếp cận giám sát hoàn toàn, toàn bộ bộ dữ liệu cần được gán nhãn

theo mức độ khung hình (frame-level), tức xác định xem đâu là khung hình có bạo

lực, đâu là khung hình bình thường. Đây có lẽ là bước tốn kém nhất trong quá trình

xây dựng bộ dữ liệu.

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 10

256x256 ——- ® 256256. 2, 256x256 ,.m——————* i ‘co 256x256 „„. 256256 „ 288056 _„ | = 256x256

oft 28 „128 co 296 128 Fe 8—

N NI N

II „ ——— -šÌ a

Ol ol & s

1 s | Bị ẽ ya

128 256 256 DU eee nearer

si fl ye © ens9 1

š hà Re Ÿ ' ax pooling64

:—* Convolution |

32x32 64x64 il 32x32 È ”È

ị | Deconvolution:

* Concatenate ị

HINH 2.2: Mạng U-Net có vai trò là bộ tạo ảnh trong Es|. Mạng này có

độ phân giải của đầu vào và đầu ra là như nhau.

2.2.1 Ngoại suy

Một giải pháp phổ biến theo hướng tiếp cận này là tận dụng các kiến thức biết trước (hành vi, sự kiện, đối tượng) liên quan đến bạo lực để giải bài toán, như hình

Nói cách khác, phát hiện bạo lực được giải quyết dựa trên một hoặc một vài bài

toán xác định khác như phát hiện vật thể (máu, súng ống, bom đạn, hỏa hoạn...) (61, [13], [25], (44), nhận diện hành động (au đả, ban súng, rượt đuổi, chiến tranh...) (6,

[25], [44]. Tuy nhiên, phương pháp đứng trước hai hạn chế: khả năng phát hiện thấp

và tỉ lệ cảnh báo giả cao [58].

2.2.2 Nội suy

Các công trình nghiên cứu theo kiểu nội suy có điểm chung: hướng tới việc đưa

bài toán phát hiện bạo lực trở thành bài toán phân lớp nhị phân thường gặp và tập

trung khai thác, phát triển bộ trích xuất đặc trưng trước khi đưa vào mạng phân lớp.

Có ba cách trích xuất đặc trưng phổ biến: dựa trên khung hình (image-based), dựa trên đoạn video (volume-based) và dựa trên luồng quang học (optical flow).

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 11

Bộ phân lớp sub-concepts

Lửa

s |” —e lim:

'Véc tơ đặc trưng

shot! 4ldiL

Shot2 atid TM [ Keo) | SVM

ShotN Mô hình

. .iuuớ....ẹ phỏt hiện

bao luc

<> xử

<> video

Riit tríchkh KP s a

Kes ther

trung

Key frame

HèNH 2.3: Kiến trỳc hệ thống sử dụng kiến thức biết trước ủ3l. Cảnh

bạo lực được xác định bằng cách tổng hợp điểm tương ứng của các bộ

phân lớp cho các khái niệm/thuộc tính trên.

Dựa trên khung hình

Từng khung hình riêng rẽ sẽ được rút trích để lấy đặc trưng về không gian. Các

đặc trưng này sau đó sẽ được đưa vào mạng hệ RNN/LSTM (Recurrent Neural

Network/Long Short-Term Memory) để rút trích thêm đặc trưng về thời gian nhằm hiểu được sự khác nhau giữa các khung hình liền kể hay sự thay đổi đang diễn ra

trong video.

lay trung bình các đặc trưng học sâu CNN trích xuất được từ 16 khung hình liền kể trước khi đưa vào bộ phân lớp. sử dụng HOG (Histogram of Oriented Gradient) cho từng khung hình và dùng nó để huấn luyện BD-LSTM (BiDirectional Long Short-Term Memory). dùng mang CNN để trích xuất đặc trưng về không

gian trước khi đưa vào một ConvLSTM (Convolutional Long Short-Term Memory)

(hình E.4). Việc kết hợp các kiến trúc mạng với nhau nhằm biểu diễn đặc trưng

không-thời gian (spatiotemporal feature) tốt hơn, với mong muốn có thể thu được thông tin của các chuyển động cục bộ. Bên cạnh đó, so với LSTM truyền thống, ConvLSTM có thể biểu diễn đặc trưng cho video tốt hơn và giảm nguy cơ bị quá

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 12

khớp [58].

ConvLSTM

Y tes

L. UH Ua a Pr ea a-

6 ire

F mm Big ` (256)

‘2: UR-UR-B-B-8-0

Fr E3

a 1

o> Ul Un-Uin-@-O-8-0-[-|-1-

256 384

1000

HÌNH 2.4: Kiến trúc mô hình kết hợp giữa CNN (đỏ) va ConvLSTM

(xanh lá) [41].

Tuy nhiên, đứng trước sự da dạng về hình thé con người trong video (gây ra bởi

góc nhìn, tỉ lệ và sự che khuất (58}), cach rut trich dac trung dua trén khung hinh thường gặp khó khăn trong việc tìm ra các đặc trưng tốt [48].

Dựa trên đoạn video

Rút trích dựa trên đoạn video sử dung một day các khung hình liền ké để trích xuất đặc trưng. Nếu như CNN (2D CNN) được sử dụng phổ biến cho rút trích dựa

trên khung hình thì 3D CNN cũng đóng vai trò tương tự cho rút trích dựa trên đoạn

video. 3D CNN được dùng để chỉ những kiến trúc mạng CNN có khả năng thực hiện các phép tích chập trên không gian ba chiều (3D), cho phép khai thác thông tin trên cả chiều không gian và chiều thời gian giữa các khung hình. Do đó, thông tin

về chuyển động được biểu diễn tốt hơn hẳn cách rút trích dựa trên khung hình, bất

kể độ sâu của mạng và số chiều của đặc trưng [61]. Thong tin nay giup viéc giai bai

toán phát hiện bao lực trở nên dé dang hơn, vi bạo luc thường gồm những chuyển động đột ngột bat thường.

Vào năm 2014, Ding và cộng sự đã dé xuất mô hình 3D CNN cho bài toán phát hiện bạo lực trong video mà không cần sử dụng các đặc trưng thủ công hay

kiến thức biết trước. Các nghiên cứu gần đây (1, cho thấy, việc tinh chỉnh lại

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 13

(fine-tuning) các kiến trúc mạng 3D CNN đã được huấn luyện trên các bộ dữ liệu

lớn (chẳng hạn như Sports-1M 23) giúp đem lại hiệu quả tốt hơn cho các bài toán

liên quan đến xử lí video. Hoặc đơn giản hơn, chỉ sử dụng 3D CNN như một bộ

trích xuất đặc trưng bằng cách giữ nguyên bộ tham số đã được huấn luyện từ trước

như cách mà [53], thực hiện cũng đem lại hiệu quả cao. không sử dụng

thông tin về luồng quang học mà chỉ dùng dau ra từ lớp lớp “fc6” của C3D [46] (sẽ

được làm rõ ở phan 3) để đưa vào mạng RNN (như hình |2.5|. cũng làm điều

tương tự, nhưng mạng hệ RNN với kiến trúc và các siêu tham số (hyperparameter) được chọn thông qua tìm kiếm lưới (grid search - tức chọn kiến trúc/tham số tốt nhất trong tất cả các tổ hợp kiến trúc /tham số cho trước).

4 Convolutional Recurrent Activity

Video Clips

Neural Network Neural Network Classification

„80mm

HINH 2.5: Kiến trúc mang sử dung C3D như một bộ trích xuất đặc

trưng [33].

Dau mang lại khả năng trích xuất đặc trưng tốt, các 3D CNN lại có chi phí tính toán vô cùng tốn kém khi so với 2D CNN. Cho rằng nhiều phương pháp đã lãng

phí tài nguyên khi phải xử lí toàn bộ video, chỉ sử dụng 3D CNN cho nhóm các khung hình có chứa người - những khung hình được cho là quan trọng, được chọn

Chương 2. CÁC NGHIÊN CUU LIÊN QUAN 14

lọc thông qua MobileNet - một mô hình CNN vô cùng gọn nhẹ. Framework này

được thể hiện ở hình|2.6]

a *“ ~~!

Camera Input video Object detection CNN model Persons detected

mãn 14 Convda 7 ConvSa 4 -

Cony Convdb. ConvSb k6 ®

= = = = Violence

3 Pool4 ag PoolS ag detection

4 2

sử siz

HÌNH 2.6: Framework giúp han chế lãng phí tai nguyên khi sử dụng

THUC NGHIEM VA ĐÁNH GIA 43