PHƯƠNG PHÁP SỬ DỤNG

Chương này trình bày chỉ tiết các phương pháp thực nghiệm và bộ đữ liệu (UIT-

ViolenceCCTV) được sử dụng cho khóa luận.

3.1 Cơ sở líthuyết

3.11 C3D

Video là một tập các khung hình có cùng độ phân giải được sắp xếp theo một thứ tự nhất định. Bên cạnh hai chiều không gian có sẵn của các khung hình, video còn có thêm chiều thứ ba: chiều thời gian. Để có thể khai thác tốt thông tin trên

cả ba chiều, Tran và cộng sự đã đề xuất kiến trúc mạng C3D - một kiến trúc thuộc dang 3D CNN, thay vì 2D CNN truyền thống. C3D sử dung dau vào là một đoạn video với kích thước 3 x 16 x 128 x 171. Đây là đoạn video gồm 16 khung

hình chứa 3 kênh màu và có độ phân giải là 128 x 171 (tỉ lệ 4:3).

Các bộ tích chập được sử dụng trong kiến trúc mạng này có kích thước ở dạng

dx k x k, với d chỉ chiều thời gian và k x k để chỉ chiều không gian. Nếu như các

phép tích chập thông thường (tích chập 2D) dù được sử dụng trên một hình ảnh

hay một tập hình ảnh/đoạn video cũng đều tạo ra một ma trận hai chiều, tức làm mat đi thông tin vẻ thời gian của đoạn video, thì các phép tích chập trong C3D

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 26

(tích chập 3D) vẫn cho ra kết quả là một ma trận ba chiều nếu đầu vào của nó là một

), giúp bảo toàn được cả thông tin về không gian lẫn thời

đoạn video (xem hình|Š

gian của đoạn video này. Nói cách khác, tích chập 3D như thế này có khả năng khai thác thông tin về không gian và thời gian cùng một lúc, giúp phục vụ nhiều bài toán liên quan đến video như phát hiện sự kiện, nhận diện hành động.

HÌNH 3.1: So sánh tích chập 2D và 3D. (a) áp dụng tích chập 2D lên một

hình ảnh và (b) áp dụng tích chập 2D lên một đoạn video đều cho ra kết quả là một ma trận hai chiều. (c) áp dụng tích chập 3D lên một đoạn

video cho ra một ma trận ba chiều

Kiến trúc chỉ tiết của C3D 46] được minh hoa ở hình B.2| Năm khối đầu tiên của

3D CNN này chứa một hoặc hai lớp tích chập, được theo sau bởi một lớp pooling.

Tiếp đó là hai tang kết nói day đủ (fully-connected layer) được gọi là “fc6” và “fc7”

và một tầng softmax. Các thực nghiệm cho thấy 3 x 3 x 3 là bộ lọc mang lại hiệu

quả khai thác thông tin tốt nhất. Tran và cộng sự [46 đã sử dụng bước đệm (stride)

bằng 1 cho cả chiều không gian và chiều thời gian cho bộ lọc. Về các lớp pooling, ngoại trừ lớp đầu tiên “Pool1” sử dụng nhân tử (kernel) có kích thước 1 x 2 x 2 thì các lớp còn lại đều sử dụng 2 x 2 x 2. Hai tang kết nói day đủ đều chứa 4096 đơn vị.

| om fl =- A _

HÌNH 3.2: Kiến trúc Mạng C3D [46].

Conv4a |[ Convab ||[ Convsa |[Convsb ||H[ feo |[ íc7

512 512 512 512 14096] [4096]

C3D được huấn luyện trên bộ dữ liệu Sports-1M với hơn một triệu video

từ 487 hạng mục thể thao khác nhau. Hơn nữa, kết hợp với việc có khả năng mô tả

thông tin tốt và tốc độ tính toán nhanh (hơn gap hàng trăm lần so với TSN (39) , theo (), C3D đã trở thành một bộ trích xuất đặc trưng phổ biến được sử dụng cho

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 27

các bài toán khác liên quan đến video. Chẳng hạn, để rút trích đặc trưng cho một phân đoạn, đã chia phân đoạn này thành nhiều đoạn ngắn chứa đúng 16 khung hình. Mỗi đoạn ngắn này sau khi đi đến lớp “fc6” của C3D [46] sẽ cho ra kết quả

là một véc-tơ 4096 chiêu, rồi lấy trung bình thông qua cách chuẩn hóa L2 của các véc-tơ này để tạo nên đặc trưng cho phân đoạn.

3.1.2 Hàm mục tiêu đối ngoại

Lay ý tưởng từ ham Hinge thường được sử dung trong SVM (Support Vector Machine), Sultani và cộng sự đã dé xuất hàm mục tiêu đối ngoại - hàm Hinge

cho bài toán MIL (hình |.3):

lover = max{0,1— max ƒ(1/) + max ƒ(V)) 3.1)

Với:

s_V;: phân đoạn i của video.

® ƒ(V;): điểm số bạo lực được dự đoán của phân đoạn V;.

Khác với SVM ở hướng giám sát hoàn toàn, MIL chỉ có thể tận dụng nhãn của

video trong quá trình huấn luyện. Do đó, thay vì sử dụng tat cả các phân đoạn thì

chỉ mỗi phân đoạn có điểm số bạo lực [| cao nhất được chọn để đại diện cho cả

video, với nhãn được giả định trùng với nhãn của cả video. Việc này giúp đưa bài

toán giám sát yếu gần với bài toán giám sát hoàn toàn hơn, làm đơn giản hóa hàm mục tiêu. Cũng như Hinge cho SVM, hàm mục tiêu này nhằm mục đích làm cho điểm số của phân đoạn bạo lực phải cao hơn điểm số của phân đoạn bình thường

Điểm số bạo lực càng cao đồng nghĩa với việc mô hình tin rằng khả năng phân đoạn này có chứa

cảnh bạo lực càng lớn

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 28

và phải cao hơn một ngưỡng khoảng cách (margin) nhất định, do đó hàm này yêu cầu cả video bình thường và video bạo lực cùng lúc. Điều này đồng nghĩa với việc phân đoạn bạo lực có điểm càng cao và phân đoạn bình thường có điểm càng thấp thì càng tốt. Nhóm tác giả tin rằng phân đoạn “có vẻ” bạo lực nhất (có điểm số cao

nhất) trong video bạo lực sẽ thực sự là phân đoạn có bạo lực, còn phân đoạn “có vẻ”

bạo lực nhất trong video bình thường vẫn sẽ là phân đoạn bình thường, do nó có điểm số thấp hơn nhiều so với phân đoạn có điểm số cao nhất trong video bạo lực

(gây ra bởi ngưỡng khoảng cách).

tròn là điểm số bạo lực của các phân đoạn, negative bag biể

bình thường và positive bag biểu thị video bạo. lực

thị video

3.1.3 Hàm mục tiêu đối nội

Hàm mục tiêu đối ngoại dẫu vẫn có khả năng phục vụ cho bài toán MIL,

tuy nhiên việc chỉ sử dụng phân đoạn có điểm số cao nhất để đại điện cho toàn bộ

video là thiếu hiệu quả (43). Zhang va cộng sự 57] đã đề xuất hàm mục tiêu mới

- hàm mục tiêu đối nội, để sử dụng kết hợp với hàm mục tiêu đối ngoại (hình

B3. Hàm mục tiêu đối nội 57] gồm hai thành phan:

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 29

¢ Hàm mục tiêu đối nội cho video bạo lực - dua trên giả thiết rằng tồn tại cả

phân đoạn bình thường và phân đoạn có bạo lực trong video bạo lực, vì sự

kiện bạo lực chỉ chiếm tỉ trọng nhỏ trong tổng thời lượng của video. Do đó, cần tối đa khoảng cách điểm số giữa phân đoạn “có vẻ“ bạo lực (điểm cao nhất) và phân đoạn “có vẻ” bình thường (điểm thấp nhất) trong video.

inner violence = Max(0,1— max f(Vi) + pun f (Vj) (3.2)

¢ Ham mục tiêu đối nội cho video bình thường - muốn toàn bộ phân đoạn trong video đều có điểm thấp và thấp đều nhau, tức dù là phân đoạn “có vẻ” bạo lực nhất trong video bình thường thì cũng phải có điểm số thật thấp. Để làm được điều đó, hàm này tdi thiểu hóa sự chênh lệch về điểm số giữa phân đoạn

có điểm cao nhất và thấp nhất trong video.

limernoemal = | max ƒ(Wí) — min ƒ(W))| G3)

Hàm mục tiêu đối nội nhằm mục đích tạo thêm ràng buộc cho các phân đoạn trong cùng một video: tăng sự khác biệt về điểm số giữa các phân đoạn trong video bạo lực và giảm sự khác biệt về điểm số giữa các phân đoạn trong video bình

thường. sử dụng cả phân đoạn có điểm số cao nhất và thấp nhất để đại diện

cho một video, thay vì chỉ sử đụng phân đoạn có điểm cao nhất như hàm mục tiêu

đối ngoại của 42). Nhóm tác giả tin rằng, phân đoạn có điểm số thấp nhất, dù là

trong video bạo lực hay bình thường, đều sẽ không chứa bạo lực và ý tưởng lấy từ

hàm mục tiêu đối ngoại 2 , tức phân đoạn có điểm số cao nhất trong video bình

thường sẽ là bình thường, cao nhất trong video bạo lực sẽ là bạo lực.

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 30

3.1.4 Rang buộc về tính trơn tru

Để ràng buộc về mặt thời gian, Sultani và cộng sự đã bổ sung thêm ràng buộc về tính trơn tru. Ràng buộc này nhằm làm tối thiểu hóa sự chênh lệch về điểm

số giữa các phân đoạn kể nhau trong video, giúp duy trì tính ổn định theo dong thời gian trong video. Ràng buộc về tính trơn tru được tính như sau:

n—-1

smoothness = (f (Vi) ~ f (Visa)? (3.4)

i=1

Với n là tổng số phân đoạn có trong video bạo lực.

3.1.5 Rang buộc về tính thưa thớt

Cũng nhằm mục đích tạo ra các ràng buộc chặt chẽ hơn về mặt thời gian, ràng

buộc về tính thưa thớt đã được đề xuất tại [42]. Nhóm tac gia tin rang các sự kiện

bạo lực thường chỉ chiếm một phần nhỏ trong toàn bộ thời lượng video. Nói cách khác, nó hiếm khi xảy ra, tức “thưa thớt”:

sparsity = VFM) (3.5)

i=1

Voin là tong số phân đoạn có trong video bạo lực.

3.2 Phương pháp Deep MIL Ranking

Phương pháp cơ sở - Deep MIL Ranking hoàn toàn dựa theo công trình

nghiên cứu của Sultani và cộng sự [42], gồm các bước (xem hình |3.4):

e© Bước 1: Tiền xử lí.

— Video được đưa về 30 fps với kích thước 240 x 320.

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 31

Positive bag Instance scores in positive bag

Anomaly video

32 temporal segments

MIL Ranking Loss with sparsity and smoothness constraints

Normal video

HINH 3.4: Phuong phap Deep MIL Ranking [42].

- Chuẩn hóa giá trị của các khung hình dựa trên 16 ảnh trung bình được

tính từ bộ dữ liệu Sports-1M [23].

® Bước 2: Chia phân đoạn - mỗi video được chia thành 32 phân đoạn không

trùng lắp nhau.

¢ Bước 3: Rút trích đặc trưng.

— Chia nhỏ phân đoạn - mỗi phân đoạn được chia thành nhiều tập 16 khung

hình không trùng lắp nhau.

— Tính đặc trưng cho tập 16 khung hình - mỗi tập được đưa vào mạng C3D

để tính đặc trưng tại lớp “fc6”. Véc-tơ đặc trưng của mỗi tập có 4096

chiều.

— Tính đặc trưng cho phân đoạn - tính trung bình theo chuẩn L2 cho tat cả

các đặc trưng của các tập 16 khung hình có trong phân đoạn để làm đặc

trưng cho cả phân đoạn. Véc-tơ đặc trưng của mỗi phân đoạn cũng có

4096 chiều.

¢ Bước 4: Phân lớp phân đoạn - đặc trưng của tat cả các phân đoạn trong một

hoặc nhiều cặp video (một video bạo lực và một video bình thường) được đưa vào mạng FCNN sử dụng đầu vào là một véc-tơ 4096 chiều. FCNN này gồm

ba lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 01 đơn vị. Lớp đầu có hàm kích

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 32

hoạt được sử dung là ReLU, còn lớp cuối là Sigmoid. Giữa các lớp đều được sử dụng dropout 60%. Số lượng tham số của bộ phân lớp này được đề cập ở bảng

Mạng sử dung hàm mục tiêu Deep MIL Ranking [42] gồm ba thành phan

- hàm mục tiêu đối ngoại, ràng buộc về tính trơn tru và ràng buộc về tính thưa

thớt:

ldeep =louter + Aal smoothness + Asl sparsity

= max(0,1 — max ƒ(V;) + max ƒ(V;))

ViEBa VjEBn

n-1 2

+44) (Vị) — ƒ(Wi1))

j=,

+As5 0 (Vi)

i=1

Với Ag, As lần lượt là hệ số ứng với ràng buộc về tính trơn tru và ràng buộc về

tính thưa thớt.

Lớp (loại) Kích thước dau ra | Sô lượng tham so dense_13 (Dense) (None, 512) 2097664

dropout_13 (Dropout) | (None, 512) 0 dense_14 (Dense) (None, 32) 16416 dropout_14 (Dropout) | (None, 32) 0 dense_15 (Dense) (None, 1) 33

Tổng lượng tham số 2114113

BẢNG 3.1: Thông tin chỉ tiết kiến trúc bộ phân lớp sử dụng.

° Bước 5: Hậu xử lí - gan điểm bạo lực của từng khung hình bằng chính điểm

bạo lực của phân đoạn mà khung hình đó thuộc vẻ.

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 33

3.3. Phương pháp Complementary Inner Bag Loss

Dé có thể so sánh khách quan nhất, tất cả các phần đã được sử dung ở phương pháp Deep MIL Ranking đều được giữ nguyên, ngoại trừ hàm mục tiêu phục

vụ cho quá trình huấn luyện bộ phân lớp là có sự chỉnh sửa. Phương pháp Comple- mentary Inner Bag Loss sử dụng hàm mục tiêu là sự kết hợp giữa hàm mục tiêu đối ngoại và hàm mục tiêu đối nội:

ẽcomplementary =ÀIouter + À2ẽimner violence + A3linner normal + Nal smoothness + Asl sparsity

=A max(0,1 — max ƒ((/) + max /(/))

A 1— Vị in f(V;

+ Àa max(0, agit ait 7))

+ As pe Lge — pin f(Vj)|

Với Ay, Az, Ag lần lượt là hệ số ứng với hàm mục tiêu đối ngoại, hàm mục tiêu đối nội cho video bạo lực và hàm mục tiêu đối nội cho video bình thường.

3.4 Phương pháp đề xuất - Top MIL Ranking

Cũng nhằm mục đích có thể so sánh khách quan nhất, phương pháp này chỉ thay đổi hàm mục tiêu so với phương pháp cơ sở. Lấy ý tưởng từ Top-MI-SVM [3] khi

sử dụng nhiều hơn một thể hiện để đại diện cho mỗi túi, chúng tôi dé xuất phương

pháp Top MIL Ranking với hàm mục tiêu như sau:

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 34

họp = ằ Ym max(0, 1 — top„ƒ(V, Ă) + VieB, f(V; i)) (3.6)

V;cBạ Cu V6i:

® k:sỐ phân đoạn được chọn để đại diện cho video bạo lực.

ViEBa

Vị€B„

Khi bổ sung thêm ràng buộc về tính tron tru [42] và tính thưa thớt [42], hàm mục

tiêu cuối cùng trở thành:

họp w cons # a5 Nal smoothness + Asl sparsity

F 4 > apy re ))

Ss ViEBa "

f(Via1))?

Cũng như Deep MIL Ranking với ham mục tiêu đối nội, phương pháp dé xuất này chỉ sử dụng mỗi phân đoạn có điểm số bạo lực cao nhất để đại điện cho video bình thường. Tuy nhiên, k phân đoạn có điểm số bạo lực cao nhất trong video bạo lực sẽ được xem xét đến, thay vì chỉ một. Tham số k sẽ được chọn từ trước và được giữ nguyên trong suốt quá trình huấn luyện bộ phân lớp. Việc chọn lựa k cần

phải lưu ý:

luyện cũng sẽ được mở rộng nhiều hơn. Tuy nhiên, k quá lớn sẽ dễ gây ra

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 35

nhiều nhiễu, tức sẽ có một vài/nhiều phân đoạn trong số k phân đoạn được

chọn không phải là phân đoạn bạo lực. Ví dụ, một video được chia làm 32

phân đoạn bằng nhau, trong đó chỉ có 4 phân đoạn bạo lực (lưu ý: tập huấn luyện không cung cấp thông tin này). Nếu chọn k = 10 thì sẽ có đến 6 phân đoạn gây nhiễu trong quá trình huấn luyện bộ phân lớp.

¢ Khi k nhỏ, khả năng các phân đoạn được chọn thực sự là bao lực sẽ cao, tức ti

lệ nhiễu thấp, nhưng không gian huấn luyện sẽ bị thu hẹp lại, không đủ các phân đoạn bạo lực để học.

® Khi k = 1, hàm mục tiêu trở thành hàm mục tiêu đối ngoại đo chỉ duy

nhất một phân đoạn có điểm số bạo lực cao nhất được chọn.

Việc thêm vào tham số k ở đây nhằm mục đích mở rộng không gian huấn luyện, giúp mô hình có thể học được nhiều đặc trưng bạo lực và hiểu “khái niệm” bạo lực tốt hơn. Hiệu quả của phương pháp này phụ thuộc rất nhiều vào tham số k. Để tìm được k tối ưu, đòi hỏi cần phải thực nghiệm nhiều lần, sao cho vừa có thể mở rộng không gian huấn luyện tối đa, vừa hạn chế được nhiễu. Bên cạnh đó, tham số này còn phụ thuộc vào bộ dữ liệu, tức các bộ dữ liệu khác nhau sẽ có các k tối ưu khác

nhau. Tương tự, k cũng phụ thuộc vào cách chia phân đoạn cho video.

3.5 Bộ dư liệu đánh giá

Như đã dé cập ở phân[I| các bộ dix liệu có sẵn [7], [10], [19], [55], (371, 42],

vẫn còn hạn chế: hành vi bạo lực được diễn lại, trích từ phim ảnh, thiếu tính thực tế, không được quay lai bằng camera giám sát hoặc không thể hiện được các bồi cảnh,

đặc trưng của Việt Nam (không gian, con người, văn hóa, hình thức bạo lực...). Do

đó, nhóm thực hiện khóa luận đã tiến hành xây dựng một bộ dữ liệu mới phục vụ

cho bài toán phát hiện bạo lực trong video camera giám sát tại Việt Nam. Bộ dữ liệu

Chương 3. PHƯƠNG PHÁP SỬ DỤNG 36

mang tên UIT-ViolenceCCTV P| được xây dựng dựa trên đúng quy trình xây dung

của Sultani và cộng sự cho bộ UCF-Crime [42].

3.5.1 Thu thập

Đầu tiên, các video được tìm kiếm với các từ khóa tiếng Việt như "bạo lực camera", "đánh nhau camera", "ấu đả camera", "trộm xe bị đánh", "camera giám sát

demo", "bao luc cctv", "camera đám đông" và các cụm từ có nghĩa tương tự trên

Youtube. Các video không được quay lại bằng camera giám sát hoặc các video camera giám sát được quay lại bằng điện thoại đều được xem là không hợp lệ. Chỉ những video phù hợp mới được chọn để tải về.

3.5.2 Lam sạch

Dù chắc chắn được quay lại trực tiếp bằng camera giám sát, các video sau bước thu thập vẫn có khả năng cao bị cắt phép chỉnh sửa, chèn thêm hiệu ứng, âm thanh,

tua nhanh - chậm.... Vì vậy, nhóm thực hiện đã xem lại từng video một để chỉ chọn

ra những video chưa qua bước chỉnh sửa. Tuy nhiên, số lượng các video thực sự thỏa mãn diéu kiện này rat ít. Xét trong số video không thỏa mãn, có không ít video chỉ bị can thiệp một phần nhỏ. Do đó, nhóm quyết định “làm sạch” các video này, chẳng hạn như loại bỏ những phần khung viền được chèn vào (crop video), loại bỏ những đoạn không phù hợp (trim video), chỉnh tốc độ video về bình thường nếu video bị tua nhanh /chậm..., đồng thời giữ lại những video bị chỉnh sửa không đáng

kể để có thể tận dụng thêm video. Chỉ những video bị chỉnh sửa quá mức, không

thể khắc phục mới bị loại bỏ. Các video sau đó đều được đưa về 30 fps để thống

nhất. Về phần âm thanh, do các hệ thống camera giám sát thông thường đa phần

đều không có khả năng thu âm [58], va lai các video bị chèn các hiệu ứng âm thanh,

Luu ý rằng, các video trong bộ đữ liệu UIT-ViolenceCCTV không thuộc quyên sở hữu của chúng

tôi

CÁC NGHIÊN CỨU LIÊN QUAN

THUC NGHIEM VA ĐÁNH GIA 43