Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện bạo lực trong video theo cách tiếp cận Multiple Instance Learning Ranking

TOM TAT KHOA LUAN Trong khóa luận tốt nghiệp này, chúng tôi tap trung nghiên cứu về bài toán phát hiện bạo lực trong video, với đầu vào là một video trích từ camera giám sát tại ViệtNam

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TÍNH

LE QUOC THINH

VÕ VAN TUẦN

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN BẠO LỰC TRONG VIDEO

THEO CÁCH TIẾP CẬN MULTIPLE INSTANCE LEARNING RANKING

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TÍNH

LE QUOC THỊNH - 17521087

VÕ VĂN TUẦN - 17521229

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN BẠO LỰC TRONG VIDEO

THEO CÁCH TIẾP CẬN MULTIPLE INSTANCE LEARNING RANKING

CỬ NHÂN NGANH KHOA HỌC MAY TÍNH

GIẢNG VIÊN HƯỚNG DAN PGS.TS LÊ ĐÌNH DUY

TP HO CHÍ MINH, 2021

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

-Tgầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 PGS.TS Lê Hoàng Thái - ~ Chủ tịch.

2 ThS Cáp Pham Dinh Thăng - — Thư ký.

3 TS Mai Tiến Dũng -: -= ~ Ủy viên

Trang 4

LOI CAM ON

Trong suốt quá trình học tập, nghiên cứu và thực hiện khóa luận, chúng em luôn

nhận được sự quan tâm, giúp đỡ nhiệt tình từ các quý thầy cô, các anh chị cũng như bạn bè gần xa.

Chúng em xin gửi lời cảm ơn sâu sắc đến thầy Lê Đình Duy - giảng viên hướng

dẫn khóa luận - đã không quản khó khăn gian khổ để giúp đỡ những đứa trẻ cứng đầu như chúng em Dù bộn bé công việc, thầy vẫn tận tình chi day cho chúng em những kiến thức và kinh nghiệm vô cùng quý báu Thay cũng là người đã rèn luyện

tư duy và kỹ năng cho chúng em, không chỉ để phục vụ cho khóa luận mà còn mang

tính định hướng cho tương lai sau này.

Chúng em xin gửi lời cảm ơn chân thành đến các thay cô khoa Khoa học Máy tính - những người lái đò thầm lặng đưa chúng em đến bến bờ tri thức.

Chúng em cũng xin cảm ơn Ban Giám hiệu nhà trường, phòng thí nghiệm

MM-Lab và B2DL đã tạo điều kiện tối đa về cơ sở vật chất, trang thiết bị phục vụ cho

khóa luận này.

Cảm ơn các anh chị khoa Khoa học Máy tính khóa 2015 và 2016 đã giúp đỡ chúng

em rất nhiều về tinh than, tâm lý, kinh nghiệm thông qua những lời khuyên thật sự

bổ ích.

Cảm ơn các bạn lớp KHTN2017 đã luôn bên cạnh, động viên và ủng hộ chúng

mình trong suốt thời gian học tập và rèn luyện tại trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh.

Chúng em xin chân thành cảm ơn!

TPHCM, tháng 01 năm 2021.

Trang 5

2_ CÁC NGHIÊN CỨU LIÊN QUAN 7

2.1 Hướng tiếp cận không giámsát| - 7

2.1.1 Tái tạo đặctrưng| co 8 2.12 Dự đoán khunghình| - 8

D.2_ Hướng tiếp cận giám sát hoàn toàn| 9

2.2.1 Ngoạisuy| QẶ Q Q eee ee 10

2.2.2 Nộisuy| ee 10

B3 Hướng tiếp can giám sityễ| 16

2.4 Framework phát hiện bạo lực sử dụng MIL| 18

Trang 6

2.41 Tiền xử lỈ ẶẶ eee

242 Cha phân đom|

2.43 Trích xuất đặc trưng|

2.44 Phân

lớpphânđoạn -E45 Hậuxửl|

3_ PHƯƠNG PHAP SỬ DỤNG B1 Cosélithuyéf} co BIT C3DI

B12 Hammuctioudéingoa) 000

3.1.3 Hàm mục tiêu

đốinội -3.1.4 Rang buộc về tính trơn

tru| -3.1.5 Rang buộc vẻ tính thưa

thớt| -3.2 Phuong pháp Deep MIL Rankingl

8.3" Phuong pháp Complementary Inner Bag Loss]

8.4 Phương pháp dé xuất - Top MIL Ranking|

3.5 Bộ dử liệu đánh giá

3.5.1 Thuthap) 0.000000 ee eee 3.52 Lamsach| 2.2 0 eee ee 3.5.3 Gannhan| 2 2 eee 3.5.4 Kétqual na 3.5.5 Tổ chức dữ liệu - cc ee 4_ THỰC NGHIỆM VÀ ĐÁNH GIA| 4.1 Môi trường và ngôn ngữ cài

đặt| -4.2 Phuong pháp đánh

vi

18 19

21 21

23

Trang 7

4.2.3 Recall]

4.3 Phương pháp thực

nghiệm| -4.3.1 Phương pháp Deep MILRankng]|

4.3.2 Phuong pháp Complementary Inner BagLoss|

4.3.3 Phương pháp Top MILRankng]

4.4 So sánh giữa các phương

pháp| -4.5 Chương trình

mnhhọa|. -4.51 7 Ngônngữ và môi trường

-5 KET LUẬN 5.3 Hướng phat triển| Tài liệu tham khảo| 4.5.2 Mô tả chương trình minh họa|

vii

45 46

47 47

48 49

55 55 55

58

58 59

60

61

Trang 8

Danh sach hinh ve

1.1 Minh họa dau vào và đầu ra của bài toán| 4

1.2 Một số hình ảnh về bộ dữ liệu Movies Eight| 5

2.1 Kiến trúc Autoencoder]| s 9

2.2_ Kiến rúcU-Net| 10

2.3 Kiến trúc 11 2.4 Kiến trúc mô hình kết hợp giữa CNN và ConvLSTM| 12

2.5 Kiến trúc mang sử dụng C3D để trích xuất đặc trưng| 13

2.6 Framework giúp hạn ché lang phí tài nguyên khi sử dụng 3D CNN] 14 2.8 Kiến trúcmạngTSN| 15

2.9 Minh họa tập huấn luyện của MI| - 17

2.10 Framework phát hiện bạo lực sử dụng MII| 18

2.11 Tiền xử lí sử dun háp xác định vùng chú ý 19 2.12 Ví dụ vẻ bộ phân lớp ¬ eee 22 2.13 Ví dụ về bộ phân lớp| - 23

2.14 Ví dụ về bộ phân lớp| - 24

3.1 So sánh tích chap 2D2và3D| - 26

3.2 Kiến rúcmangC3D| 26

3.3 Minh họa cho hàm mục tiêu| - 28

3.4 Phương pháp Deep MIL Rankingl] - 31

Trang 9

4.3 Hàm mục tiêu của các phương pháp qua các lần duyệt khi huấn luyện| 50

4.4 Đường cong ROC của các phương pháp thucnghiém] 52

G5 Minhhoa trường hợp thànhcông| 53

4.6 Minh họa trường hợp that bại 1| 54

[4.7 Giao điện khởi tạo của chương trình minhhọa| 56

4.8 Giao diện tải lên video của chương trình minh họa| 56

4.10 Hình minh họa khi video không phát hiện được bạo lực trong videol 57

Trang 10

Danh sách bảng

B.1 Thông tin chỉ tiết kiến trúc bộ phân lớp sử dụng| 32

3.2 Sự phân bố theo không gian và thời gian của UIT-ViolenceCCTV| 39

3.3 So sánh các bộ du liệu phục vụ cho bài toán phát hiện bạo lực|_ 40

4.1 Ma trận nhằm lẫn| 44

4.2 Kết qua thực nghiệm phương pháp Complementary Inner Bag Loss| 48 4.3 Kết quả thực nghiệm phương pháp Top MIL Rankingl 49 4.4 So sánh kết quả đánh giá của các phương pháp thực nghiém| 52

Trang 11

Danh mục từ viết tắt

CNN

FCNN

LSTM MIL

RNN

Convolutional Neural Network

Fully Connected Neural Network

Long Short-Term Memory Multiple Instance Learning

Recurrent Neural Network

x1

Trang 12

TOM TAT KHOA LUAN

Trong khóa luận tốt nghiệp này, chúng tôi tap trung nghiên cứu về bài toán phát

hiện bạo lực trong video, với đầu vào là một video trích từ camera giám sát tại ViệtNam và đầu ra là nhãn (có bạo lực hay không có bạo lực) cho từng phân đoạn, tức

xác định đâu là phân đoạn bình thường, đâu là phân đoạn có bạo lực.

Bài toán này xuất phát từ thực trạng rằng bạo lực tại Việt Nam luôn là một vấn

dé nhức nhói và việc phát hiện bạo lực trong video camera giám sát vẫn được thực

hiện bằng sức người Từ đó cho thấy, việc tận dụng sức mạnh của máy tính để tự

động phát hiện hành vi bạo lực trong video camera giám sát là cần thiết.

Để giải quyết bài toán này, các nghiên cứu trước đây thường tập trung vào hướngtiếp cận giám sát hoàn toàn hoặc không giám sát Tuy nhiên, do đữ liệu về bạo lực

trong video camera giám sát tại Việt Nam không có sẵn, việc xây dựng một bộ dữ

liệu mới theo hướng giám sát hoàn toàn sẽ vô cùng tốn kém Trong khi đó, hướng

không giám sát dù có chi phí xây dựng bộ dữ liệu thấp nhưng kha năng ứng dụng

van còn hạn ché với tỉ lệ cảnh báo giả cao [60] Vào năm 2018, hướng tiếp cận giám

sát yêu, cụ thể hơn là phương pháp MIL (Multiple Instance Learning) với mô hìnhDeep MIL Ranking đã được đề xuất tại hội nghị CVPR Đây là một trong những

SOTA (state of the art) của bộ dữ liệu UCF-Crime trên cả hai độ đo AUC và

FAR Do đó, để vừa tiết kiệm chi phí xây dựng bộ dữ liệu mới, vừa cho ra hiệu nang

ổn định, nhóm da chọn phương pháp MIL để giải bài toán này, với phương pháp cơ

sở (baseline) là mô hình Deep MIL Ranking [42] Framework cua MIL gom ba thanh

phan chính: chia phân đoạn, trích xuất đặc trưng và phan lớp phân đoạn Thành

phần quan trọng nhất và đặc trưng nhất của MIL là phân lớp phân đoạn (bộ phân

lớp), cụ thể hơn là hàm mục tiêu Vì hướng MIL có độ chính xác vẫn chưa thực sự

cao nên nhóm muốn tìm câu trả lời cho câu hỏi nghiên cứu: liệu việc tỉnh chỉnh

Trang 13

hàm mục tiêu có giúp cải thiện hiệu qua cua MIL cho bai toán phát hiện bao lực

trong video camera giám sát tại Việt Nam không?

Để trả lời cho câu hỏi này, chúng tôi đã thực hiện những điều sau - cũng là những

đóng góp chính của khóa luận:

¢ Phương pháp dé xuất - Top MIL Ranking cho bài toán phát hiện bạo lực trong

video.

¢ Bộ dữ liệu UIT-ViolenceCCTV với 106 video trích từ camera giám sát tại Việt

Nam (trong đó có 54 video chứa bạo lực), tương đương khoảng 155 phút, tức

xấp xỉ 280000 khung hình

¢ Thực nghiệm và đánh giá mô hình Deep MIL Ranking [42], Complementary

Inner Bag Loss [57] và Top MIL Ranking trên bộ dữ liệu UIT-ViolenceCCTV.

¢ Phương pháp dé xuất của chúng tôi - Top MIL Ranking - đã đạt được AUC là

80.11%, cao hơn 4.23% so với phương pháp cơ sở và Recall là 6.88%, cao hơn

hai lần phương pháp cơ sở (3.16%)

s Xây dung ứng dụng minh họa cho bài toán trên nền tảng web.

Từ khóa: Violence, Violence Detection, Surveillance Video, MIL, Deep Learning,

CNN, 3D CNN, Weakly Supervised.

Trang 14

Chương 1

TỔNG QUAN

Chương này giới thiệu bài toán phát hiện bạo lực trong video và các thách thức

cũng như đóng góp chính của khóa luận.

11 Bạo lực

1.11 Dinh nghĩa

Theo Tổ chức Y tế Thế giới (WHO), bạo lực là hành vi de dọa hoặc cố ý sử dung

sức mạnh, năng lực để chống lại một người hoặc một nhóm người nhằm gây ra

thương tích, tàn tật, chết người hoặc tâm thần 2] Nói cách khác, bạo lực là hành vi

gây tổn hại hoặc de doa gây tổn hại đến người khác về mặt tinh thần hoặc thể chat.Bao lực tinh than, còn được gọi là bạo lực tâm lý, bao gồm: xúc phạm danh dự, nhânphẩm, uy tín, cô lập, xua đuổi, quấy rồi, gây áp lực gây nên khủng hoảng tâm lýcho nạn nhân Bạo lực thể chất là hành vi sử dụng sức mạnh thể chất với mục đích

gây thương vong, tổn hại đến sức khỏe của một người nào đó Nó bao gồm hành hạ,

ngược đãi, đánh đập hoặc các hành vi cố ý gây tổn thương khác

Nhìn chung, những ảnh hưởng trực tiếp mà nạn nhân của bạo lực phải gánh

chịu trải rộng từ thể chất: tổn thương sức khỏe, có thể bị khuyết tật suốt đời hoặc

thậm chí tử vong, cho đến tinh thần: ám ảnh, lo lắng, sợ hãi, căng thẳng, mắt tự tin,

Trang 15

Chương 1 TỔNG QUAN 2

trầm cảm và tuyệt vọng Hai nhóm đối tượng đặc biệt được quan tâm nhiều nhất

chính là nạn nhân của bạo lực gia đình và bạo lực học đường, vì phụ nữ và trẻ em

là những người có khả năng phòng vệ kém, rất dé bị tổn thương

1.12 Tình hình bao lực tại Việt Nam

Trong những năm qua, Đảng và Nhà nước đã dành nhiễu sự quan tâm đến việcphòng, chống bạo lực gia đình thông qua việc ban hành các văn bản quy phạm phápluật, vận động, tuyên truyền, nâng cao ý thức người dân Điều này đã phần nào tạo

ra những chuyển biến tích cực trong đời sống xã hội của người dân Việt Nam Tuynhiên, bao lực vẫn luôn là một van đề nhức nhối và nó dan trở thành một hiện tượng

xã hội ở nước ta.

Hình thức kỷ luật bằng bạo lực đang diễn ra phổ biến với gần 68,4% trẻ em ở độ

tuổi từ 1 đến 14 được báo cáo là đã từng bị cha mẹ hoặc người chăm sóc bạo lực ở

nhà [36] Khoảng 20% trẻ em 8 tuổi nói rằng các em bị trừng phạt về mặt thể chat ở trường [22] Theo [32], cứ 03 phụ nữ thì có gan 02 phụ nữ (62.9%) phải chịu ít nhất

một hình thức bạo lực do chồng gây ra trong đời và 31.6% bị bạo lực trong vòng

12 tháng qua Tại Hội nghị tổng kết 10 năm thi hành Luật Phòng chống bạo lực giađình do Bộ Văn hóa, Thể thao và Du lịch tổ chức vào ngày 12/12/2018, mỗi năm cả

nước có 100000 vụ bạo lực gia đình dẫn đến ly hôn, làm tổn hại tinh thần, sức khỏe,

ảnh hưởng tới kinh tế và năng suất lao động, ước tính gây thiệt hại khoảng 1.78%

GDP.

Trang 16

Chương 1 TỔNG QUAN 3 1.2 Phát hiện bạo lực|]

Các phát hiện và báo cáo về hành vi bạo lực thường xuất phát từ những ngườichứng kiến hoặc người thân, hàng xóm của các đối tượng có liên quan Ngoài ra,việc này còn có thể được thực hiện từ xa thông qua hệ thống camera giám sát Ngày

này, sự bùng nổ về số lượng camera giám sát đã góp phần làm cho việc phát hiện

bạo lực từ xa càng trở nên phổ biến hơn Nếu như trước đây, camera giám sát thường

chỉ được đặt ở những nơi tối quan trọng như sân bay, ngân hàng, kho bạc thì ngày

nay, những hệ thống như thế này đã được sử dụng rộng rãi hơn, không chỉ tại các cơquan hành chính, các doanh nghiệp mà còn xuất hiện trên đường phố, các trung tâmmua sắm, chung cư, thậm chí là ở cả mức độ hộ gia đình Do đó, tối ưu hóa năng lựcphát hiện bạo lực trong video camera giám sát là một bài toán vô cùng tiểm năng

Tại Việt Nam, phát hiện bạo lực trong video camera giám sát phần lớn vẫn đượcthực hiện dựa vào sức người Việc này đã dẫn đến ba hạn chế:

* Không có khả năng xử lí khối lượng lớn các video hay tập trung quan sát nhiều

màn hình camera cùng lúc.

¢ Khó duy trì hiệu suất cao trong thời gian dài (không quá 20 phút [17)).

se Lang phí khi đầu tư vào việc mở rộng quy mô nhân lực vì dữ liệu được camera

ghỉ lại hầu hết chỉ là những hoạt động thông thường quen thuộc, còn các hành

vi bạo lực lại không thường xảy ra.

Từ đó cho thấy, chức năng của camera giám sát vẫn chưa được khai thác triệt để

mà chủ yếu chỉ dùng để lưu trữ hình ảnh, phục vu cho quá trình diéu tra sau này

0] Vì vậy, tận dụng sức mạnh của máy tính để tự động phát hiện hành vi bạo lực

trong video camera giám sát là cần thiết

TKhóa luận này tập trung vào van dé bạo lực thể chất Do đó, kể từ phn[1.2|trở đi, thuật ngữ bạo

lực sẽ được sử dụng với ý nghĩa duy nhất: bạo lực thể chất.

Trang 17

1.3 Phát biểu bài toán

Trong khuôn khổ đề tài này, chúng tôi hướng đến giải bài toán phát hiện hành vi

bạo lực trong video camera giám sát tại Việt Nam theo cách tiếp cận MIL (Multiple

Instance Learning) Ranking Bài toán được xác định như sau (xem hình[1.1):

e Đầu vào: video trích từ camera giám sát tại Việt Nam

e Đầu ra: xác định đâu là phân đoạn bình thường, đâu là phân đoạn có bạo lực

trong video.

HÌNH 1.1: Minh họa đầu vào va dau ra của bài toán Các khung hình

(frame) có viễn đỏ thuộc phân đoạn được dự đoán là bạo lực.

Với thông tin từ đầu ra của bài toán, một video có thể dễ dàng được tóm lượcbằng những phân đoạn chỉ chứa bạo lực, giúp giảm nhẹ khối lượng công việc cho

giám sát viên/ điều tra viên sau này

1.4 Thách thức

Thách thức lớn nhất của bài toán này khi áp dụng tại Việt Nam đó chính là việc

thiếu dữ liệu Các bộ dữ liệu có sẵn liên quan đến bao lực thường lay từ phim ảnh

Trang 18

mà không phải trích từ camera giám sát, không mang tính thực tế cao [10], 9, B5], (xem hình|1.2} hoặc không thể hiện được bồi cảnh, đặc trưng của Việt Nam (không gian, con người, văn hóa, hình thức bạo lực ) (71, 71 [42] Diéu nay doi hoi

can phải xây dung một bộ dữ liệu mới về bạo lực trong video camera giám sát tạiViệt Nam Tuy nhiên, các video như thế này không được đăng tải công khai nhiều,

lại thường được quay màn hình bởi điện thoại di động, video bị cắt ghép chỉnh sửa,

chèn thêm hiệu ứng, âm thanh, tua nhanh - chậm đã gây khó khăn trong việc thu

thập và làm sạch dữ liệu Hơn thế nữa, việc xác định thời điểm bắt đầu và kết thúccủa hành vi bạo lực trong video là tương đối chủ quan, phụ thuộc vào suy nghĩ của

mỗi cá nhân cũng ảnh hưởng ít nhiều đến quá trình gán nhãn Bên cạnh đó, cần

phải xem xét xây dựng bộ dữ liệu sao cho vừa phù hợp với thời gian thực hiện khóa

luận, vừa đáp ứng được yêu cầu của các phương pháp học mang lại hiệu quả cao.Nếu như hướng tiếp cận không giám sát thường không có kết quả tốt thì hướng học

giám sát hoàn toàn lại có chỉ phí xây dựng bộ đữ liệu mới vô cùng tốn kém, chỉ còn

hướng tiếp cận giám sát yêu là phù hợp Dẫu vậy, hướng này vẫn có khuyết điểm:

độ chính xác chưa thực sự cao.

Trang 19

Tóm lại, hai thách thức gặp phải khi thực hiện khóa luận là:

¢ Thiếu dữ liệu để huấn luyện và đánh giá

se Cách tiếp cận MIL có độ chính xác chưa thực sự cao

1.5 Đóng góp

Khóa luận bao gồm các đóng góp chính sau:

¢ Phương pháp dé xuất - Top MIL Ranking cho bài toán phát hiện bạo lực trong

video.

¢ Bộ dữ liệu UIT-ViolenceCCTV với 106 video trích từ camera giám sát tại Việt

Nam (trong đó có 54 video chứa bạo lực), tương đương khoảng 155 phút, tức

xấp xỉ 280000 khung hình

¢ Thực nghiệm và đánh giá mô hình Deep MIL Ranking [42], Complementary

Inner Bag Loss [57] và Top MIL Ranking trên bộ dữ liệu UIT-ViolenceCCTV.

¢ Phương pháp dé xuất của chúng tôi - Top MIL Ranking - đã đạt được AUC là

80.11%, cao hon 4.23% so với phương pháp cơ sở và Recall là 6.88%, cao hơn

hai lần phương pháp cơ sở (3.16%)

° Xây dựng ứng dụng minh hoa cho bài toán trên nền tang web

Trang 20

Chương 2

CÁC NGHIÊN CỨU LIÊN QUAN

Tùy thuộc vào thiết lập (cách gán nhãn) của bộ dữ liệu, có ba hướng tiếp cậnchính để giải quyết bài toán phát hiện bạo lực trong video: không giám sát, giám sáthoàn toàn và giám sát yếu

2.1 Hướng tiếp cận không giám sát

Các sự kiện bạo lực thường diễn ra với tần suất thấp trong thực tế, do đó khó màsưu tầm một bộ dit liệu thể hiện được day đủ sự đa dạng của hành vi này Trong

khi đó, các video bình thường, tức video không chứa bạo lực, lại được thu thập một

cách dé dàng Vì thé, hướng tiếp cận không giám sát sử dụng bộ đữ liệu có tập huấnluyện chỉ gồm những video không chứa hành vi bạo lực Điều này đồng nghĩa vớiviệc không cần gán nhãn cho tập này vì đây là tập đơn lớp, giúp tiết kiệm tối đa thời

gian và công sức xây dựng bộ dit liệu Tuy nhiên, vẫn cần xác định rõ thời gian bắtđầu và kết thúc của các sự kiện bạo lực diễn ra trong video ở tập kiểm tra

1Phát hiện bạo lực có thể được phân vào nhóm phát hiện sự kiện hoặc phát hiện bất thường trong

video, tùy vào hướng tiếp cận của tác giả/nhóm tác giả mà sẽ có những tên gọi khác nhau Để thống

nhất, chỉ mỗi thuật ngữ phát hiện bạo lực được sử dụng cho phần này.

?Đề tài này tập chỉ tập trung vào thông tin thị giác, do đó các thông tin hay đặc trưng khác như

âm thanh, chỉ số gia tốc sẽ không được đề cập.

Trang 21

Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 8

Điểm chung của các phương pháp theo hướng không giám sát là chúng thường

khó đạt được độ chính xác cao, lại dé phát sinh cảnh báo giả, đặc biệt là các van dé

an ninh trong thực tế Dẫu vậy, hướng này được tin là có khả năng tổng quát hóa

định nghĩa bạo lực tốt [60].

2.1.1 Tái tạo đặc trưng

Tái tạo đặc trưng (feature reconstruction, điển hình là Autoencoder - hình |2.1}

là một phương pháp phổ biến theo hướng tiếp cận không giám sát Phương phápnày học cách tái cấu trúc khung hình hiện tại dựa trên chính khung hình này vàcác khung hình trước đó của nó Khi huấn luyện mô hình, chỉ cần dùng các khung

hình bình thường (không chứa bạo lực) để học cách tái tạo, và chạy mô hình đã

được huấn luyện với khung hình cần kiểm tra, với mong muốn mô hình tái tạo tốt(độ lỗi tái tạo thấp) cho các khung hình chỉ chứa hành vi bình thường và sẽ tái tạo

kém (độ lỗi cao) nếu khung hình có chứa cảnh bạo lực Nghiên cứu còn kết hợp

thêm FCN (Fully Convolutional Network) với LSTM, tạo thành ConvLSTM-AE để

có thể mô hình hóa chiều thời gian trong video tốt hơn, giúp nâng cao hiệu năng

của phương pháp tái tạo đặc trưng Tuy nhiên, phương pháp này thường có nhược

điểm là dé bị quá khớp (overfitting), có thể tái câu trúc các trường hợp bạo lực với

độ lỗi tái tạo nhỏ [50].

2.1.2 Dự đoán khung hình

Ngoài tái tạo đặc trưng, phương pháp dự đoán khung hình (frame prediction)

cũng đang được quan tâm Phương pháp này mong muốn dự đoán được khunghình hiện tại thông qua các khung hình trước đó của nó, rồi đem ra so sánh giữakhung hình dự đoán được và khung hình thực tế, tựa như phương pháp tái tạo đặctrưng Khác là, dự đoán khung hình không sử dụng khung hình hiện tại làm đầu

Trang 22

input output

~_| code eae

decoder encoder

HÌNH 2.1: Kiến trúc Autoencoder (9) gồm hai phan: encoder dé mã hóa

(từ không gian anh - RGB sang không gian đặc trưng) va decoder giúp

giải mã (ngược lại).

vào, vì thế mới được gọi là “dự đoán” Ý tưởng về GAN (Generative Adversarial

Network) cũng được sử dụng cho phương pháp này với kỳ vọng huấn luyện được

bộ tạo ảnh (generator) có khả năng cho ra các khung ảnh thật nhất và giống voikhung hình cần dự đoán nhất có thé Liu cùng cộng sự đã bổ sung các ràng

buộc về cường độ, hướng và chuyển động nhằm mang lại khả năng dự đoán khung

hình tốt hơn cho bộ tạo ảnh U-Net (hình|2.2} trong mạng GAN của mình.

2.2 Hướng tiếp cận giám sát hoàn toàn

Với hướng tiếp cận giám sát hoàn toàn, toàn bộ bộ dữ liệu cần được gán nhãn

theo mức độ khung hình (frame-level), tức xác định xem đâu là khung hình có bạo

lực, đâu là khung hình bình thường Đây có lẽ là bước tốn kém nhất trong quá trình

xây dựng bộ dữ liệu.

Trang 23

256x256 ——- ® 256256 2, 256x256 ,.m——————* i ‘co 256x256 „„ 256256 „ 288056 _„ | = 256x256

—oft 28 „128 co 296 128 Fe 8

HINH 2.2: Mạng U-Net có vai trò là bộ tạo ảnh trong Es| Mạng này có

độ phân giải của đầu vào và đầu ra là như nhau.

2.2.1 Ngoại suy

Một giải pháp phổ biến theo hướng tiếp cận này là tận dụng các kiến thức biết

trước (hành vi, sự kiện, đối tượng) liên quan đến bạo lực để giải bài toán, như hình

Nói cách khác, phát hiện bạo lực được giải quyết dựa trên một hoặc một vài bài

toán xác định khác như phát hiện vật thể (máu, súng ống, bom đạn, hỏa hoạn ) (61,

[13], [25], (44), nhận diện hành động (au đả, ban súng, rượt đuổi, chiến tranh ) (6,

[25], [44] Tuy nhiên, phương pháp đứng trước hai hạn chế: khả năng phát hiện thấp

và tỉ lệ cảnh báo giả cao [58]

2.2.2 Nội suy

Các công trình nghiên cứu theo kiểu nội suy có điểm chung: hướng tới việc đưa

bài toán phát hiện bạo lực trở thành bài toán phân lớp nhị phân thường gặp và tập

trung khai thác, phát triển bộ trích xuất đặc trưng trước khi đưa vào mạng phân lớp

Có ba cách trích xuất đặc trưng phổ biến: dựa trên khung hình (image-based), dựa

trên đoạn video (volume-based) và dựa trên luồng quang học (optical flow)

Trang 24

HÌNH 2.3: Kiến trúc hệ thống sử dụng kiến thức biết trước ñ3l Cảnh

bạo lực được xác định bằng cách tổng hợp điểm tương ứng của các bộ

phân lớp cho các khái niệm/thuộc tính trên.

Dựa trên khung hình

Từng khung hình riêng rẽ sẽ được rút trích để lấy đặc trưng về không gian Các

đặc trưng này sau đó sẽ được đưa vào mạng hệ RNN/LSTM (Recurrent Neural

Network/Long Short-Term Memory) để rút trích thêm đặc trưng về thời gian nhằmhiểu được sự khác nhau giữa các khung hình liền kể hay sự thay đổi đang diễn ra

trong video.

lay trung bình các đặc trưng học sâu CNN trích xuất được từ 16 khung hìnhliền kể trước khi đưa vào bộ phân lớp sử dụng HOG (Histogram of OrientedGradient) cho từng khung hình và dùng nó để huấn luyện BD-LSTM (BiDirectionalLong Short-Term Memory) dùng mang CNN để trích xuất đặc trưng về không

gian trước khi đưa vào một ConvLSTM (Convolutional Long Short-Term Memory)

(hình E.4) Việc kết hợp các kiến trúc mạng với nhau nhằm biểu diễn đặc trưng

không-thời gian (spatiotemporal feature) tốt hơn, với mong muốn có thể thu đượcthông tin của các chuyển động cục bộ Bên cạnh đó, so với LSTM truyền thống,ConvLSTM có thể biểu diễn đặc trưng cho video tốt hơn và giảm nguy cơ bị quá

Trang 25

Tuy nhiên, đứng trước sự da dạng về hình thé con người trong video (gây ra bởi

góc nhìn, tỉ lệ và sự che khuất (58}), cach rut trich dac trung dua trén khung hinh thường gặp khó khăn trong việc tìm ra các đặc trưng tốt [48].

Dựa trên đoạn video

Rút trích dựa trên đoạn video sử dung một day các khung hình liền ké để tríchxuất đặc trưng Nếu như CNN (2D CNN) được sử dụng phổ biến cho rút trích dựa

trên khung hình thì 3D CNN cũng đóng vai trò tương tự cho rút trích dựa trên đoạn

video 3D CNN được dùng để chỉ những kiến trúc mạng CNN có khả năng thực

hiện các phép tích chập trên không gian ba chiều (3D), cho phép khai thác thông tin

trên cả chiều không gian và chiều thời gian giữa các khung hình Do đó, thông tin

về chuyển động được biểu diễn tốt hơn hẳn cách rút trích dựa trên khung hình, bất

kể độ sâu của mạng và số chiều của đặc trưng [61] Thong tin nay giup viéc giai bai

toán phát hiện bao lực trở nên dé dang hơn, vi bạo luc thường gồm những chuyểnđộng đột ngột bat thường

Vào năm 2014, Ding và cộng sự đã dé xuất mô hình 3D CNN cho bài toánphát hiện bạo lực trong video mà không cần sử dụng các đặc trưng thủ công hay

kiến thức biết trước Các nghiên cứu gần đây (1, cho thấy, việc tinh chỉnh lại

Trang 26

(fine-tuning) các kiến trúc mạng 3D CNN đã được huấn luyện trên các bộ dữ liệu

lớn (chẳng hạn như Sports-1M 23) giúp đem lại hiệu quả tốt hơn cho các bài toán

liên quan đến xử lí video Hoặc đơn giản hơn, chỉ sử dụng 3D CNN như một bộ

trích xuất đặc trưng bằng cách giữ nguyên bộ tham số đã được huấn luyện từ trước

như cách mà [53], thực hiện cũng đem lại hiệu quả cao không sử dụng

thông tin về luồng quang học mà chỉ dùng dau ra từ lớp lớp “fc6” của C3D [46] (sẽ

được làm rõ ở phan 3) để đưa vào mạng RNN (như hình |2.5| cũng làm điều

tương tự, nhưng mạng hệ RNN với kiến trúc và các siêu tham số (hyperparameter)

được chọn thông qua tìm kiếm lưới (grid search - tức chọn kiến trúc/tham số tốt

nhất trong tất cả các tổ hợp kiến trúc /tham số cho trước)

4 Convolutional Recurrent Activity

phí tài nguyên khi phải xử lí toàn bộ video, chỉ sử dụng 3D CNN cho nhóm các

khung hình có chứa người - những khung hình được cho là quan trọng, được chọn

Trang 27

lọc thông qua MobileNet - một mô hình CNN vô cùng gọn nhẹ Framework này

Dựa trên luồng quang hoc

Trước đây, luồng quang học được tính thông qua các thuật toán cổ điển (điển

hình là thuật toán Lucas — Kanade hay TV-I1 4) nhằm xấp xỉ các chuyển động

giữa các khung hình Thuật toán nhận đầu vào là sự khác nhau giữa hai khung hình

(ở mức độ điểm ảnh - pixel) và cho ra kết quả là hai ma trận đặc trưng cho luồng

quang học ứng với trục tung và trục hoành HOF (Histogram of Optical Flow)

và các phiên bản khác của nó, chẳng hạn như HOFM (Histograms of Optical Flow

Orientation and Magnitude - hình|2.7} sử dụng thông tin từ luồng quang học để

tạo ra các đặc trưng liên quan đến chuyển động trong video, đặt nền móng cho sựphát triển của các kỹ thuật liên quan đến luồng quang học sau này

Nhằm mang lại hiệu quả cao hơn cho các bài toán liên quan đến video, TSN(Two-Stream Network - hình sử dụng cả thông tin về không gian có sẵn

trong các khung hình và thông tin về luồng quang học TSN gồm hai mô hình 2D

CNN, một cho dòng không gian (spatial stream - RGB) và một cho dong thời gian

(temporal stream - luồng quang học), lần lượt được tinh chỉnh từ bộ tham số đã được

Trang 28

huấn luyện trên bộ dữ liệu ImageNet và UCF101 [40] Mang TSN có đầu vào là

một khung hình trích từ video và nhiều luồng quang học (thường là 10), sẽ cho ra

kết quả cuồi cùng là điểm số được hợp nhất từ dự đoán của hai CNN thành phần Vì

luéng quang học có khả năng biểu diễn các chuyển động tốt nên các phương pháp

hai luồng (two-stream based approach) là một trong những phương pháp mang lại

{et} Tuy vay, TSN van con

han chế khi đòi hỏi các tính toán ở bước tiền xử li để cho ra thông tin về các luéng

quang học và phải huấn luyện hai mô hình CNN độc lập nhau (38).

hiệu quả cao nhất cho hau hết các bộ dữ liệu về video

Spatial stream ConvNet

Full |[ full? [Soft

Lay cảm hứng từ TSN va 3D CNN, Carreira và cộng sự [4] đã phát triển một

mô hình được gọi là I3D Cũng như TSN, 13D sử dụng hai luéng thông tin, một về không gian và một về luồng quang học Khác ở chỗ, I3D sử dụng các 3D CNN để

Trang 29

rút trích đặc trưng từ mỗi luồng, nhằm khai thác thông tin không-thời gian tốt hơn.

Tuy vậy, I3D vẫn chưa khắc phục được những nhược điểm của TSN và 3D CNN.

Dù những phương pháp học sâu có sử dụng luồng quang học có thể tận dụng được các đặc trưng thủ công, chúng thường không thể huấn luyện từ đầu đến cuối (end-to-end) và phải phụ thuộc nhiều vào đặc trưng thủ công đó, cả về hiệu quả lẫn

chỉ phí tính toán

mãn: giữa các khung ảnh liền kề có độ sáng ổn định, thời gian không ngắt quãng,

khẳng định rằng, việc sử dụng luồng quang học phải thỏa

chuyển động nhỏ và các điểm ảnh gần nhau phải có cùng hướng chuyển động; nếu

không, hiệu năng của những phương pháp sử dụng luồng quang học sẽ giảm đáng

kể.

2.3 Hướng tiếp cận giám sát yêu

Bởi thiếu dir liệu được gán nhãn sẵn, thiếu chuyên gia để gan nhãn chính xác hoặc không đủ thời gian để gán nhãn, hướng tiếp cận giám sát yếu đã ra đời, tập

trung vào việc huấn luyện với sự giám sát/gán nhãn theo ba hình thức [59]:

* Không day đủ: chỉ một phan dữ liệu huấn luyện được gan nhãn.

® Không chỉ tiết: dữ liệu huấn luyện được gan nhãn sơ sài.

s Không chính xác: nhãn có thể không đúng tuyệt đối.

Nói cách khác, hướng tiếp cận này có tập huấn luyện được gán nhãn không toàn vẹn, nhưng đòi hỏi phải học ra được cách dự đoán toàn vẹn, vì tập kiểm tra của nó van được gán nhãn day đủ hệt như học có giám sát Do đó, so với hướng tiếp cận giám sát hoàn toàn, chi phi gan nhãn cho dữ liệu của giám sát yếu rất thấp Tuy nhiên, hiệu quả của phương pháp học này vẫn tốt hơn rất nhiều so với học không

giám sát B1].

Trang 30

MIL là một kiểu học giám sát yêu phổ biến, thuộc hình thức gán nhãn không chỉ

tiết Nhiệm vụ của MIL là tìm ra mô hình có khả năng dự đoán nhãn cho từng thể

hiện (instance-level) thông qua thông tin nhãn ở các túi (bag-level), biết rằng mỗi túi

gồm nhiều thể hiện như hình 2.9} Ánh xạ sang bài toán phát hiện bạo lực, thay vì

từng khung hình/phân đoạn (thể hiện) được gán nhãn như ở hướng tiếp cận giám sát hoàn toàn, chỉ nhãn của video (túi) được cung cấp trong quá trình huấn luyện Một video sẽ được gán nhãn là bạo lực nếu nó có chứa ít nhất một khung hình/phân đoạn chứa hành vi bạo lực, còn ngược lại sẽ được gán nhãn là bình thường Điều này có nghĩa là video bạo lực có thể chứa một hoặc nhiều cảnh bạo lực và vẫn có thể chứa cảnh bình thường, còn video bình thường thì hoàn toàn không chứa bat kỳ

cảnh bạo lực nào Dù vị trí của các phân đoạn bạo lực không được xác định trong

tập huấn luyện nhưng trong quá trình kiểm tra, mô hình phải dự đoán được phân đoạn bạo lực nằm ở đâu trong video (nếu có).

Multiple Instance Learning:

Negative Bags Label =0

Positive Bags

Label=+1 |

HÌNH 2.9: Minh họa tập huấn luyện của MIL (21).

Nhìn chung, giải bai toán phát hiện bao lực dua trên MIL cũng tương tự như

phương pháp nội suy của học có giám sát Framework tổng thể và các nghiên cứu

liên quan của phương pháp này sẽ được trình bày chỉ tiết tại phần E-4

Trang 31

2.4 Framework phát hiện bạo lực sử dung MIL

Một hệ thống phát hiện bạo lực sử dụng MIL thường bao gồm ba thành phần chính: chia phân đoạn, trích xuất đặc trưng và phân lớp phân đoạn, kết hợp cùng với hai thành phần phụ: tiền xử lí và hậu xử lí Framework này được mô tả như hình

hóa Có nhiều cách để chuẩn hóa, tuy nhiên cách trừ cho hình ảnh trung bình (mean

image) rồi đưa về miền giá trị [0, 1] hoặc [-1, 1] là phổ biến hơn cả El Hình ảnh

trung bình được hiểu là hình ảnh với mỗi điểm ảnh mang giá trị trung bình của các

điểm ảnh có cùng vị trí cho tất cả các hình ảnh có trong tập huấn luyện, tức:

Image1[x] + Image2|x] + Image3[x] + + ImageN[x]

N

MeanImage[x] = (2.1)

Với x là vị trí điểm ảnh va N là tổng số ảnh trong tập huấn luyện Điều này đòi

hỏi mọi hình ảnh phải có cùng kích thước và giá trị trung bình cần được tính toán

cho từng vị trí và từng kênh màu khác nhau Mục đích của việc chuẩn hóa là để các hàm kích hoạt luôn nằm trong phạm vi hợp lí, giúp mạng được huấn luyện nhanh

hơn [2] [42] sử dung tập 16 ảnh trung bình để chuẩn hóa Số 16 này tương ứng với

Trang 32

số lượng khung hình đầu vào của một mạng C3D (461, được huấn luyện sẵn trên bộ

du liệu Sports-1M 23] Lưu ý rằng, tập 16 ảnh trung bình cũng được tính từ bộ dữ liệu Sports-1M (23), vi để có thể kế thừa các tham số đã được huan luyện san, giữ

nguyên cách tiền xử lí của mô hình là một việc làm tối quan trọng.

Bên cạnh bước tiền xử lí thông thường, còn dé xuất phương pháp tập trung,

tức chỉ tập trung vào các vùng quan trọng, vùng cần chú ý (attention region) thay vì

toàn bộ khung hình (xem hinh[2.11).

song phương (bilateral filter) kết hop cùng phương pháp loại bỏ nền (background

Vung cần chú ý được xác định thông qua bộ lọc

subtraction) Bộ lọc song phương giúp hạn chế nhiễu gây ra từ sự nhòe, che khuất,

thay đổi ánh sáng và các ảnh hưởng khác từ môi trường, (261, trong khi loại bỏ nền

giúp nhắn mạnh các vùng, đối tượng cần chú ý hon (foreground) Sau đó, một 3D CNN sẽ được dùng để trích xuất đặc trưng chỉ từ các vùng này.

Visual attention detection

HINH 2.11: Tiên xử lí sử dung phương pháp xác định vùng chú ý [34].

2.4.2 Chia phân đoạn

Các phương pháp hiện nay đều hướng tới sử dụng bài bài toán phân lớp cho các

phân đoạn nhỏ có trong video để giải bài toán phát hiện bạo lực Bước chia phân

Trang 33

đoạn giúp chia video thành nhiều phân đoạn/phân cảnh nhỏ hơn phục vụ cho bài toán phân lớp này Có hai cách chia phân đoạn phổ biến: kích thước phân đoạn phụ thuộc vào độ dài video và kích thước phân đoạn cố định Cụ thể:

® Kích thước phân đoạn phụ thuộc vào độ dai video: từng video được chia ra với

số lượng phân đoạn được xác định sẵn, tức số lượng phân đoạn cho mọi video

là như nhau, bắt kể video dài hay ngắn Điều này đồng nghĩa với việc các phân đoạn cùng một video sẽ có độ dài như nhau, nhưng có thể sẽ khác nhau nếu

chúng thuộc về các video khác nhau Cách chia này nhằm đem lại khả năng

xử lí video dài ngắn bat kì mà chi phí tính toán vẫn không bị đội lên quá cao.

chia mỗi video thành 32 phân đoạn không trùng lắp (non-overlapping).

Cách chia này là kết quả từ các thực nghiệm của Sultani và cộng sự trên bộ

dữ liệu UCF-Crime (42) Các thực nghiệm này có bao gồm cách chia các phân

đoạn trùng lắp nhau với nhiều mức độ, nhưng không đem lại kết quả tốt Các

công trình sau này như [I8], cũng chia video thành 32 phân đoạn không

trùng lắp để có sự so sánh khách quan với phương pháp (42).

¢ Kích thước phân đoạn cố định: kích thước của mọi phân đoạn là như nhau bat

kể chúng có cùng một video hay không, tức video càng dai sẽ càng có nhiều

phân đoạn Cách chia này được cho là sẽ hạn chế được hiện tượng các đặc trưng của sự kiện bạo lực ngắn (so với phân đoạn) bị lan at bởi các đặc trưng

bình thường mà phương pháp chia với kích thước phân đoạn phụ thuộc vào

độ dài video mắc phải [51] [34] sử dụng kích thước cho từng phân đoạn là 160

khung hình, do kích thước đầu vào của một C3D [46] là 16 khung hình Với lí

do tương tự, nhưng chỉ dùng 16 khung hình #] dù cũng theo cách chia

với kích thước phân đoạn có định, nhưng nghiên cứu này lại sử dụng cách lấy

mẫu thưa ngẫu nhiên (random sparse-sampling) để chọn một vài khung hình

từ một phân đoạn để rút trích, thay vì sử dụng tất cả khung hình từ phân đoạn

Trang 34

đó, vì nhóm tác giả cho rằng cách này sẽ huấn luyện được một bộ phân lớp tốthơn và vì các khung hình gần nhau thường có thông tin bị lặp lại dư thừa

thì chỉ sử dụng 15 khung hình cho mỗi phân đoạn, vì nghiên cứu này không

sử dung 3D CNN mà lại trích xuất đặc trưng thang từ từng khung hình rồi lay

trung bình 15 đặc trưng này để làm đặc trưng cho cả phân đoạn

Các cách chia trên dẫu có sự khác biệt nhưng chúng đều phải đảm bảo được rằng

kích thước các phân đoạn trong cùng một video là như nhau.

2.4.3 Trích xuất đặc trưng

Các đặc trưng của mỗi phân đoạn sẽ được rút trích trước khi đưa vào bộ phân

lớp Các phương pháp rút trích được sử dụng trong framework phát hiện bạo lực

bang MIL cũng tương tự như các cách rút trích được dé cập trong phan nội suy của

phương pháp học giám sát hoàn toàn (xem phân|2.2.2) Dù là cách rút trích dựa trên

khung hình hay dựa trên đoạn video thì đặc trưng của phân đoạn cũng thường được

suy ra bằng cách lay trung bình đặc trưng của các thành phần thuộc phân đoạn đó

2.4.4 Phân lớp phân đoạn

Phân lớp phân đoạn là thành phần quan trọng nhất và đặc trưng nhất của MIL

Thành phần này nhằm mục đích xác định xem đâu là phân đoạn bạo lực, đâu là

phân đoạn bình thường Một mô hình phân lớp được đại diện bởi hai yếu tố: kiến

trúc mạng và hàm mục tiêu.

sử dung một mạng FCNN (Fully Connected Neural Network) với đầu vào

là một véc-tơ 4096 chiều (tương ứng với lớp “fc6” của C3D [46] FCNN này gồm ba

lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 01 đơn vị Lớp đầu có hàm kích hoạt được

sử dụng là ReLU, còn lớp cuối là Sigmoid Giữa các lớp đều được sử dụng dropout

60% nhằm hạn chế việc học quá khớp Kiến trúc mạng được mô tả như hình|2.12|với

Trang 35

hàm mục tiêu đối ngoại (outer bag loss) kết hợp cùng hai thành phần ràng buộc về

tính thưa thớt và tinh trơn tru (sẽ được làm rõ ở phân.

Dropout 60%

MIL Ranking Loss with sparsity and smoothness constraints

HÌNH 2.12: Bộ phân lớp được sử dung trong [42].

Ở hình|2.13] sử dụng một TCN (Temporal Convolutional Network) trước khi

đưa vào các lớp của FCNN nhằm khai thác tốt hơn các đặc trưng về thời gian giữacác phân đoạn liền kề nhau trong một video Mạng FCNN được sử dung ở nghiên

cứu này gồm hai nhánh sử dụng chung đầu vào từ TCN Nhánh đầu tiên có 2 lớp,lần lượt gồm 32 đơn vị và 1 đơn vị Nhánh thứ hai chỉ có 1 lớp chứa 1 đơn vị Việc

sử dụng hai nhánh thế này nhằm mục đích khai thác thông tin ở nhiều độ sâu khác

nhau của kiến trúc mạng FCNN Kết quả cuối cùng là điểm số được lay trung bình

từ kết quả của cả hai nhánh Tương tự như [42], hàm kích hoạt ReLU cho lớp đầu,

Sigmoid cho lớp cuối và 60% dropout được sử dụng Hàm mục tiêu của bổ sung

thêm hai thành phần đối nội (inner bag loss), được sử dụng kết hợp cùng với hàm

mục tiêu ban đầu của [42].

dé xuất sử dụng mang CLAWS (CLustering Assisted Weakly Supervised)

[55] cho bài toán giám sát yếu Bên cạnh mạng FCNN truyền thống, CLAWS

còn có thêm một cơ chế làm mờ những thông tin bình thường - NSM (Normalcy

Trang 36

current

instance

Feature map

T IC lut (xD-4098) _ gait Phú Sanaa Hài

eS L sẽ ' T ae | Instance scores in positive bag

eee at 031 |

Negative inner bag similar loss

Outer bag ranking loss

Instance scores in negative bag

HÌNH 2.13: Bộ phân lớp được sử dung trong [57].

Suppression Module), với mục đích tương tu như phương pháp xác định vùng chú

ý ở bước tiền xử lí của [34] NSM có bản chat là FCNN, sẽ tối thiểu hóa các giá trị liên

quan đến các thông tin bình thường và giữ nguyên các thông tin bạo lực thông qua

một phép nhân với kết quả từ mỗi lớp FCNN truyền thống Bên cạnh đó, hàm mục

tiêu tổng thể của nghiên cứu này còn được kết hợp với hàm mục tiêu trong bài toán

gom cụm để hạn chế nhiễu Kiến trúc mạng CLAWS được mô tả ở hình

2.4.5 Hậu xử lí

Như đã đề cập ở những phần trước, bộ dữ liệu phục vụ cho hướng tiếp cận giámsát yêu có tập kiểm tra vẫn được gán nhãn day đủ hệt như học có giám sát Do đó,

để có thể được đánh giá, các phương pháp phải thực hiện dự đoán trên từng khung

hình trong video, chứ không phải chỉ trên từng phân đoạn Bước hậu xử lí sẽ giúp

chuyển đổi đầu ra của bước phân lớp phân đoạn, tức điểm bạo lực của từng phân

đoạn, sang điểm bạo lực cho từng khung hình Các phương pháp phần lớn đều thực

hiện dựa trên cách mà Sultani và cộng sự dé xuất: điểm bao lực của từng khunghình bằng chính điểm bạo lực của phân đoạn mà khung hình đó thuộc về Nói cách

Trang 37

h : Loss Module

HINH 2.14: Bộ phân lớp được sử dung trong (55}.

khác, nếu khung hình a thuộc phân đoạn b thi điểm bạo lực của khung hình a bang

điểm bao lực của phân đoạn b.

Trang 38

Chương 3

PHƯƠNG PHÁP SỬ DỤNG

Chương này trình bày chỉ tiết các phương pháp thực nghiệm và bộ đữ liệu

(UIT-ViolenceCCTV) được sử dụng cho khóa luận.

3.1 Cơ sở líthuyết

3.11 C3D

Video là một tập các khung hình có cùng độ phân giải được sắp xếp theo một thứ tự nhất định Bên cạnh hai chiều không gian có sẵn của các khung hình, video còn có thêm chiều thứ ba: chiều thời gian Để có thể khai thác tốt thông tin trên

cả ba chiều, Tran và cộng sự đã đề xuất kiến trúc mạng C3D - một kiến trúc thuộc dang 3D CNN, thay vì 2D CNN truyền thống C3D sử dung dau vào là một đoạn video với kích thước 3 x 16 x 128 x 171 Đây là đoạn video gồm 16 khung

hình chứa 3 kênh màu và có độ phân giải là 128 x 171 (tỉ lệ 4:3).

Các bộ tích chập được sử dụng trong kiến trúc mạng này có kích thước ở dạng

dx k x k, với d chỉ chiều thời gian và k x k để chỉ chiều không gian Nếu như các

phép tích chập thông thường (tích chập 2D) dù được sử dụng trên một hình ảnh

hay một tập hình ảnh/đoạn video cũng đều tạo ra một ma trận hai chiều, tức làm

mat đi thông tin vẻ thời gian của đoạn video, thì các phép tích chập trong C3D

Trang 39

Chương 3 PHƯƠNG PHÁP SỬ DỤNG 26

(tích chập 3D) vẫn cho ra kết quả là một ma trận ba chiều nếu đầu vào của nó là một

), giúp bảo toàn được cả thông tin về không gian lẫn thời

đoạn video (xem hình|Š

gian của đoạn video này Nói cách khác, tích chập 3D như thế này có khả năng khai thác thông tin về không gian và thời gian cùng một lúc, giúp phục vụ nhiều bài toán liên quan đến video như phát hiện sự kiện, nhận diện hành động.

HÌNH 3.1: So sánh tích chập 2D và 3D (a) áp dụng tích chập 2D lên một

hình ảnh và (b) áp dụng tích chập 2D lên một đoạn video đều cho ra

kết quả là một ma trận hai chiều (c) áp dụng tích chập 3D lên một đoạn

video cho ra một ma trận ba chiều

Kiến trúc chỉ tiết của C3D 46] được minh hoa ở hình B.2| Năm khối đầu tiên của

3D CNN này chứa một hoặc hai lớp tích chập, được theo sau bởi một lớp pooling.

Tiếp đó là hai tang kết nói day đủ (fully-connected layer) được gọi là “fc6” và “fc7”

và một tầng softmax Các thực nghiệm cho thấy 3 x 3 x 3 là bộ lọc mang lại hiệu

quả khai thác thông tin tốt nhất Tran và cộng sự [46 đã sử dụng bước đệm (stride)

bằng 1 cho cả chiều không gian và chiều thời gian cho bộ lọc Về các lớp pooling, ngoại trừ lớp đầu tiên “Pool1” sử dụng nhân tử (kernel) có kích thước 1 x 2 x 2 thì các lớp còn lại đều sử dụng 2 x 2 x 2 Hai tang kết nói day đủ đều chứa 4096 đơn vị.

| om fl =- A _

HÌNH 3.2: Kiến trúc Mạng C3D [46].

Conv4a |[ Convab ||[ Convsa |[Convsb ||H[ feo |[ íc7

512 512 512 512 14096] [4096]

C3D được huấn luyện trên bộ dữ liệu Sports-1M với hơn một triệu video

từ 487 hạng mục thể thao khác nhau Hơn nữa, kết hợp với việc có khả năng mô tả

thông tin tốt và tốc độ tính toán nhanh (hơn gap hàng trăm lần so với TSN (39) , theo (), C3D đã trở thành một bộ trích xuất đặc trưng phổ biến được sử dụng cho

Trang 40

Chương 3 PHƯƠNG PHÁP SỬ DỤNG 27

các bài toán khác liên quan đến video Chẳng hạn, để rút trích đặc trưng cho một phân đoạn, đã chia phân đoạn này thành nhiều đoạn ngắn chứa đúng 16 khung hình Mỗi đoạn ngắn này sau khi đi đến lớp “fc6” của C3D [46] sẽ cho ra kết quả

là một véc-tơ 4096 chiêu, rồi lấy trung bình thông qua cách chuẩn hóa L2 của các

véc-tơ này để tạo nên đặc trưng cho phân đoạn.

3.1.2 Hàm mục tiêu đối ngoại

Lay ý tưởng từ ham Hinge thường được sử dung trong SVM (Support Vector Machine), Sultani và cộng sự đã dé xuất hàm mục tiêu đối ngoại - hàm Hinge

cho bài toán MIL (hình |.3):

lover = max{0,1— max ƒ(1/) + max ƒ(V)) 3.1)

Với:

s_V;: phân đoạn i của video.

® ƒ(V;): điểm số bạo lực được dự đoán của phân đoạn V;.

Khác với SVM ở hướng giám sát hoàn toàn, MIL chỉ có thể tận dụng nhãn của

video trong quá trình huấn luyện Do đó, thay vì sử dụng tat cả các phân đoạn thì

chỉ mỗi phân đoạn có điểm số bạo lực [| cao nhất được chọn để đại diện cho cả

video, với nhãn được giả định trùng với nhãn của cả video Việc này giúp đưa bài

toán giám sát yếu gần với bài toán giám sát hoàn toàn hơn, làm đơn giản hóa hàm mục tiêu Cũng như Hinge cho SVM, hàm mục tiêu này nhằm mục đích làm cho điểm số của phân đoạn bạo lực phải cao hơn điểm số của phân đoạn bình thường

Điểm số bạo lực càng cao đồng nghĩa với việc mô hình tin rằng khả năng phân đoạn này có chứa

cảnh bạo lực càng lớn

Tiêu đề	Phát hiện bạo lực trong video theo cách tiếp cận Multiple Instance Learning Ranking
Tác giả	Lê Quốc Thịnh, Võ Văn Tuần
Người hướng dẫn	PGS.TS. Lê Đình Duy
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	81
Dung lượng	37,39 MB

Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện bạo lực trong video theo cách tiếp cận Multiple Instance Learning Ranking

CÁC NGHIÊN CỨU LIÊN QUAN

THUC NGHIEM VA ĐÁNH GIA 43