TOM TAT KHOA LUAN Trong khóa luận tốt nghiệp này, chúng tôi tap trung nghiên cứu về bài toán phát hiện bạo lực trong video, với đầu vào là một video trích từ camera giám sát tại ViệtNam
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TÍNH
LE QUOC THINH
VÕ VAN TUẦN
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN BẠO LỰC TRONG VIDEO
THEO CÁCH TIẾP CẬN MULTIPLE INSTANCE LEARNING RANKING
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TÍNH
LE QUOC THỊNH - 17521087
VÕ VĂN TUẦN - 17521229
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN BẠO LỰC TRONG VIDEO
THEO CÁCH TIẾP CẬN MULTIPLE INSTANCE LEARNING RANKING
CỬ NHÂN NGANH KHOA HỌC MAY TÍNH
GIẢNG VIÊN HƯỚNG DAN PGS.TS LÊ ĐÌNH DUY
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
-Tgầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 PGS.TS Lê Hoàng Thái - ~ Chủ tịch.
2 ThS Cáp Pham Dinh Thăng - — Thư ký.
3 TS Mai Tiến Dũng -: -= ~ Ủy viên
Trang 4LOI CAM ON
Trong suốt quá trình học tập, nghiên cứu và thực hiện khóa luận, chúng em luôn
nhận được sự quan tâm, giúp đỡ nhiệt tình từ các quý thầy cô, các anh chị cũng như bạn bè gần xa.
Chúng em xin gửi lời cảm ơn sâu sắc đến thầy Lê Đình Duy - giảng viên hướng
dẫn khóa luận - đã không quản khó khăn gian khổ để giúp đỡ những đứa trẻ cứng đầu như chúng em Dù bộn bé công việc, thầy vẫn tận tình chi day cho chúng em những kiến thức và kinh nghiệm vô cùng quý báu Thay cũng là người đã rèn luyện
tư duy và kỹ năng cho chúng em, không chỉ để phục vụ cho khóa luận mà còn mang
tính định hướng cho tương lai sau này.
Chúng em xin gửi lời cảm ơn chân thành đến các thay cô khoa Khoa học Máy tính - những người lái đò thầm lặng đưa chúng em đến bến bờ tri thức.
Chúng em cũng xin cảm ơn Ban Giám hiệu nhà trường, phòng thí nghiệm
MM-Lab và B2DL đã tạo điều kiện tối đa về cơ sở vật chất, trang thiết bị phục vụ cho
khóa luận này.
Cảm ơn các anh chị khoa Khoa học Máy tính khóa 2015 và 2016 đã giúp đỡ chúng
em rất nhiều về tinh than, tâm lý, kinh nghiệm thông qua những lời khuyên thật sự
bổ ích.
Cảm ơn các bạn lớp KHTN2017 đã luôn bên cạnh, động viên và ủng hộ chúng
mình trong suốt thời gian học tập và rèn luyện tại trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh.
Chúng em xin chân thành cảm ơn!
TPHCM, tháng 01 năm 2021.
Trang 52_ CÁC NGHIÊN CỨU LIÊN QUAN 7
2.1 Hướng tiếp cận không giámsát| - 7
2.1.1 Tái tạo đặctrưng| co 8 2.12 Dự đoán khunghình| - 8
D.2_ Hướng tiếp cận giám sát hoàn toàn| 9
2.2.1 Ngoạisuy| QẶ Q Q eee ee 10
2.2.2 Nộisuy| ee 10
B3 Hướng tiếp can giám sityễ| 16
2.4 Framework phát hiện bạo lực sử dụng MIL| 18
Trang 62.41 Tiền xử lỈ ẶẶ eee
242 Cha phân đom|
2.43 Trích xuất đặc trưng|
2.44 Phân
lớpphânđoạn -E45 Hậuxửl|
3_ PHƯƠNG PHAP SỬ DỤNG B1 Cosélithuyéf} co BIT C3DI
B12 Hammuctioudéingoa) 000
3.1.3 Hàm mục tiêu
đốinội -3.1.4 Rang buộc về tính trơn
tru| -3.1.5 Rang buộc vẻ tính thưa
thớt| -3.2 Phuong pháp Deep MIL Rankingl
8.3" Phuong pháp Complementary Inner Bag Loss]
8.4 Phương pháp dé xuất - Top MIL Ranking|
3.5 Bộ dử liệu đánh giá
3.5.1 Thuthap) 0.000000 ee eee 3.52 Lamsach| 2.2 0 eee ee 3.5.3 Gannhan| 2 2 eee 3.5.4 Kétqual na 3.5.5 Tổ chức dữ liệu - cc ee 4_ THỰC NGHIỆM VÀ ĐÁNH GIA| 4.1 Môi trường và ngôn ngữ cài
đặt| -4.2 Phuong pháp đánh
vi
18 19
21 21
23
Trang 74.2.3 Recall]
4.3 Phương pháp thực
nghiệm| -4.3.1 Phương pháp Deep MILRankng]|
4.3.2 Phuong pháp Complementary Inner BagLoss|
4.3.3 Phương pháp Top MILRankng]
4.4 So sánh giữa các phương
pháp| -4.5 Chương trình
mnhhọa|. -4.51 7 Ngônngữ và môi trường
-5 KET LUẬN 5.3 Hướng phat triển| Tài liệu tham khảo| 4.5.2 Mô tả chương trình minh họa|
vii
45 46
47 47
48 49
55 55 55
58
58 59
60
61
Trang 8Danh sach hinh ve
1.1 Minh họa dau vào và đầu ra của bài toán| 4
1.2 Một số hình ảnh về bộ dữ liệu Movies Eight| 5
2.1 Kiến trúc Autoencoder]| s 9
2.2_ Kiến rúcU-Net| 10
2.3 Kiến trúc 11 2.4 Kiến trúc mô hình kết hợp giữa CNN và ConvLSTM| 12
2.5 Kiến trúc mang sử dụng C3D để trích xuất đặc trưng| 13
2.6 Framework giúp hạn ché lang phí tài nguyên khi sử dụng 3D CNN] 14 2.8 Kiến trúcmạngTSN| 15
2.9 Minh họa tập huấn luyện của MI| - 17
2.10 Framework phát hiện bạo lực sử dụng MII| 18
2.11 Tiền xử lí sử dun háp xác định vùng chú ý 19 2.12 Ví dụ vẻ bộ phân lớp ¬ eee 22 2.13 Ví dụ về bộ phân lớp| - 23
2.14 Ví dụ về bộ phân lớp| - 24
3.1 So sánh tích chap 2D2và3D| - 26
3.2 Kiến rúcmangC3D| 26
3.3 Minh họa cho hàm mục tiêu| - 28
3.4 Phương pháp Deep MIL Rankingl] - 31
Trang 94.3 Hàm mục tiêu của các phương pháp qua các lần duyệt khi huấn luyện| 50
4.4 Đường cong ROC của các phương pháp thucnghiém] 52
G5 Minhhoa trường hợp thànhcông| 53
4.6 Minh họa trường hợp that bại 1| 54
[4.7 Giao điện khởi tạo của chương trình minhhọa| 56
4.8 Giao diện tải lên video của chương trình minh họa| 56
4.10 Hình minh họa khi video không phát hiện được bạo lực trong videol 57
Trang 10Danh sách bảng
B.1 Thông tin chỉ tiết kiến trúc bộ phân lớp sử dụng| 32
3.2 Sự phân bố theo không gian và thời gian của UIT-ViolenceCCTV| 39
3.3 So sánh các bộ du liệu phục vụ cho bài toán phát hiện bạo lực|_ 40
4.1 Ma trận nhằm lẫn| 44
4.2 Kết qua thực nghiệm phương pháp Complementary Inner Bag Loss| 48 4.3 Kết quả thực nghiệm phương pháp Top MIL Rankingl 49 4.4 So sánh kết quả đánh giá của các phương pháp thực nghiém| 52
Trang 11Danh mục từ viết tắt
CNN
FCNN
LSTM MIL
RNN
Convolutional Neural Network
Fully Connected Neural Network
Long Short-Term Memory Multiple Instance Learning
Recurrent Neural Network
x1
Trang 12TOM TAT KHOA LUAN
Trong khóa luận tốt nghiệp này, chúng tôi tap trung nghiên cứu về bài toán phát
hiện bạo lực trong video, với đầu vào là một video trích từ camera giám sát tại ViệtNam và đầu ra là nhãn (có bạo lực hay không có bạo lực) cho từng phân đoạn, tức
xác định đâu là phân đoạn bình thường, đâu là phân đoạn có bạo lực.
Bài toán này xuất phát từ thực trạng rằng bạo lực tại Việt Nam luôn là một vấn
dé nhức nhói và việc phát hiện bạo lực trong video camera giám sát vẫn được thực
hiện bằng sức người Từ đó cho thấy, việc tận dụng sức mạnh của máy tính để tự
động phát hiện hành vi bạo lực trong video camera giám sát là cần thiết.
Để giải quyết bài toán này, các nghiên cứu trước đây thường tập trung vào hướngtiếp cận giám sát hoàn toàn hoặc không giám sát Tuy nhiên, do đữ liệu về bạo lực
trong video camera giám sát tại Việt Nam không có sẵn, việc xây dựng một bộ dữ
liệu mới theo hướng giám sát hoàn toàn sẽ vô cùng tốn kém Trong khi đó, hướng
không giám sát dù có chi phí xây dựng bộ dữ liệu thấp nhưng kha năng ứng dụng
van còn hạn ché với tỉ lệ cảnh báo giả cao [60] Vào năm 2018, hướng tiếp cận giám
sát yêu, cụ thể hơn là phương pháp MIL (Multiple Instance Learning) với mô hìnhDeep MIL Ranking đã được đề xuất tại hội nghị CVPR Đây là một trong những
SOTA (state of the art) của bộ dữ liệu UCF-Crime trên cả hai độ đo AUC và
FAR Do đó, để vừa tiết kiệm chi phí xây dựng bộ dữ liệu mới, vừa cho ra hiệu nang
ổn định, nhóm da chọn phương pháp MIL để giải bài toán này, với phương pháp cơ
sở (baseline) là mô hình Deep MIL Ranking [42] Framework cua MIL gom ba thanh
phan chính: chia phân đoạn, trích xuất đặc trưng và phan lớp phân đoạn Thành
phần quan trọng nhất và đặc trưng nhất của MIL là phân lớp phân đoạn (bộ phân
lớp), cụ thể hơn là hàm mục tiêu Vì hướng MIL có độ chính xác vẫn chưa thực sự
cao nên nhóm muốn tìm câu trả lời cho câu hỏi nghiên cứu: liệu việc tỉnh chỉnh
Trang 13hàm mục tiêu có giúp cải thiện hiệu qua cua MIL cho bai toán phát hiện bao lực
trong video camera giám sát tại Việt Nam không?
Để trả lời cho câu hỏi này, chúng tôi đã thực hiện những điều sau - cũng là những
đóng góp chính của khóa luận:
¢ Phương pháp dé xuất - Top MIL Ranking cho bài toán phát hiện bạo lực trong
video.
¢ Bộ dữ liệu UIT-ViolenceCCTV với 106 video trích từ camera giám sát tại Việt
Nam (trong đó có 54 video chứa bạo lực), tương đương khoảng 155 phút, tức
xấp xỉ 280000 khung hình
¢ Thực nghiệm và đánh giá mô hình Deep MIL Ranking [42], Complementary
Inner Bag Loss [57] và Top MIL Ranking trên bộ dữ liệu UIT-ViolenceCCTV.
¢ Phương pháp dé xuất của chúng tôi - Top MIL Ranking - đã đạt được AUC là
80.11%, cao hơn 4.23% so với phương pháp cơ sở và Recall là 6.88%, cao hơn
hai lần phương pháp cơ sở (3.16%)
s Xây dung ứng dụng minh họa cho bài toán trên nền tảng web.
Từ khóa: Violence, Violence Detection, Surveillance Video, MIL, Deep Learning,
CNN, 3D CNN, Weakly Supervised.
Trang 14Chương 1
TỔNG QUAN
Chương này giới thiệu bài toán phát hiện bạo lực trong video và các thách thức
cũng như đóng góp chính của khóa luận.
11 Bạo lực
1.11 Dinh nghĩa
Theo Tổ chức Y tế Thế giới (WHO), bạo lực là hành vi de dọa hoặc cố ý sử dung
sức mạnh, năng lực để chống lại một người hoặc một nhóm người nhằm gây ra
thương tích, tàn tật, chết người hoặc tâm thần 2] Nói cách khác, bạo lực là hành vi
gây tổn hại hoặc de doa gây tổn hại đến người khác về mặt tinh thần hoặc thể chat.Bao lực tinh than, còn được gọi là bạo lực tâm lý, bao gồm: xúc phạm danh dự, nhânphẩm, uy tín, cô lập, xua đuổi, quấy rồi, gây áp lực gây nên khủng hoảng tâm lýcho nạn nhân Bạo lực thể chất là hành vi sử dụng sức mạnh thể chất với mục đích
gây thương vong, tổn hại đến sức khỏe của một người nào đó Nó bao gồm hành hạ,
ngược đãi, đánh đập hoặc các hành vi cố ý gây tổn thương khác
Nhìn chung, những ảnh hưởng trực tiếp mà nạn nhân của bạo lực phải gánh
chịu trải rộng từ thể chất: tổn thương sức khỏe, có thể bị khuyết tật suốt đời hoặc
thậm chí tử vong, cho đến tinh thần: ám ảnh, lo lắng, sợ hãi, căng thẳng, mắt tự tin,
Trang 15Chương 1 TỔNG QUAN 2
trầm cảm và tuyệt vọng Hai nhóm đối tượng đặc biệt được quan tâm nhiều nhất
chính là nạn nhân của bạo lực gia đình và bạo lực học đường, vì phụ nữ và trẻ em
là những người có khả năng phòng vệ kém, rất dé bị tổn thương
1.12 Tình hình bao lực tại Việt Nam
Trong những năm qua, Đảng và Nhà nước đã dành nhiễu sự quan tâm đến việcphòng, chống bạo lực gia đình thông qua việc ban hành các văn bản quy phạm phápluật, vận động, tuyên truyền, nâng cao ý thức người dân Điều này đã phần nào tạo
ra những chuyển biến tích cực trong đời sống xã hội của người dân Việt Nam Tuynhiên, bao lực vẫn luôn là một van đề nhức nhối và nó dan trở thành một hiện tượng
xã hội ở nước ta.
Hình thức kỷ luật bằng bạo lực đang diễn ra phổ biến với gần 68,4% trẻ em ở độ
tuổi từ 1 đến 14 được báo cáo là đã từng bị cha mẹ hoặc người chăm sóc bạo lực ở
nhà [36] Khoảng 20% trẻ em 8 tuổi nói rằng các em bị trừng phạt về mặt thể chat ở trường [22] Theo [32], cứ 03 phụ nữ thì có gan 02 phụ nữ (62.9%) phải chịu ít nhất
một hình thức bạo lực do chồng gây ra trong đời và 31.6% bị bạo lực trong vòng
12 tháng qua Tại Hội nghị tổng kết 10 năm thi hành Luật Phòng chống bạo lực giađình do Bộ Văn hóa, Thể thao và Du lịch tổ chức vào ngày 12/12/2018, mỗi năm cả
nước có 100000 vụ bạo lực gia đình dẫn đến ly hôn, làm tổn hại tinh thần, sức khỏe,
ảnh hưởng tới kinh tế và năng suất lao động, ước tính gây thiệt hại khoảng 1.78%
GDP.
Trang 16Chương 1 TỔNG QUAN 3 1.2 Phát hiện bạo lực|]
Các phát hiện và báo cáo về hành vi bạo lực thường xuất phát từ những ngườichứng kiến hoặc người thân, hàng xóm của các đối tượng có liên quan Ngoài ra,việc này còn có thể được thực hiện từ xa thông qua hệ thống camera giám sát Ngày
này, sự bùng nổ về số lượng camera giám sát đã góp phần làm cho việc phát hiện
bạo lực từ xa càng trở nên phổ biến hơn Nếu như trước đây, camera giám sát thường
chỉ được đặt ở những nơi tối quan trọng như sân bay, ngân hàng, kho bạc thì ngày
nay, những hệ thống như thế này đã được sử dụng rộng rãi hơn, không chỉ tại các cơquan hành chính, các doanh nghiệp mà còn xuất hiện trên đường phố, các trung tâmmua sắm, chung cư, thậm chí là ở cả mức độ hộ gia đình Do đó, tối ưu hóa năng lựcphát hiện bạo lực trong video camera giám sát là một bài toán vô cùng tiểm năng
Tại Việt Nam, phát hiện bạo lực trong video camera giám sát phần lớn vẫn đượcthực hiện dựa vào sức người Việc này đã dẫn đến ba hạn chế:
* Không có khả năng xử lí khối lượng lớn các video hay tập trung quan sát nhiều
màn hình camera cùng lúc.
¢ Khó duy trì hiệu suất cao trong thời gian dài (không quá 20 phút [17)).
se Lang phí khi đầu tư vào việc mở rộng quy mô nhân lực vì dữ liệu được camera
ghỉ lại hầu hết chỉ là những hoạt động thông thường quen thuộc, còn các hành
vi bạo lực lại không thường xảy ra.
Từ đó cho thấy, chức năng của camera giám sát vẫn chưa được khai thác triệt để
mà chủ yếu chỉ dùng để lưu trữ hình ảnh, phục vu cho quá trình diéu tra sau này
0] Vì vậy, tận dụng sức mạnh của máy tính để tự động phát hiện hành vi bạo lực
trong video camera giám sát là cần thiết
TKhóa luận này tập trung vào van dé bạo lực thể chất Do đó, kể từ phn[1.2|trở đi, thuật ngữ bạo
lực sẽ được sử dụng với ý nghĩa duy nhất: bạo lực thể chất.
Trang 17Chương 1 TỔNG QUAN 4
1.3 Phát biểu bài toán
Trong khuôn khổ đề tài này, chúng tôi hướng đến giải bài toán phát hiện hành vi
bạo lực trong video camera giám sát tại Việt Nam theo cách tiếp cận MIL (Multiple
Instance Learning) Ranking Bài toán được xác định như sau (xem hình[1.1):
e Đầu vào: video trích từ camera giám sát tại Việt Nam
e Đầu ra: xác định đâu là phân đoạn bình thường, đâu là phân đoạn có bạo lực
trong video.
HÌNH 1.1: Minh họa đầu vào va dau ra của bài toán Các khung hình
(frame) có viễn đỏ thuộc phân đoạn được dự đoán là bạo lực.
Với thông tin từ đầu ra của bài toán, một video có thể dễ dàng được tóm lượcbằng những phân đoạn chỉ chứa bạo lực, giúp giảm nhẹ khối lượng công việc cho
giám sát viên/ điều tra viên sau này
1.4 Thách thức
Thách thức lớn nhất của bài toán này khi áp dụng tại Việt Nam đó chính là việc
thiếu dữ liệu Các bộ dữ liệu có sẵn liên quan đến bao lực thường lay từ phim ảnh
Trang 18Chương 1 TỔNG QUAN 5
mà không phải trích từ camera giám sát, không mang tính thực tế cao [10], 9, B5], (xem hình|1.2} hoặc không thể hiện được bồi cảnh, đặc trưng của Việt Nam (không gian, con người, văn hóa, hình thức bạo lực ) (71, 71 [42] Diéu nay doi hoi
can phải xây dung một bộ dữ liệu mới về bạo lực trong video camera giám sát tạiViệt Nam Tuy nhiên, các video như thế này không được đăng tải công khai nhiều,
lại thường được quay màn hình bởi điện thoại di động, video bị cắt ghép chỉnh sửa,
chèn thêm hiệu ứng, âm thanh, tua nhanh - chậm đã gây khó khăn trong việc thu
thập và làm sạch dữ liệu Hơn thế nữa, việc xác định thời điểm bắt đầu và kết thúccủa hành vi bạo lực trong video là tương đối chủ quan, phụ thuộc vào suy nghĩ của
mỗi cá nhân cũng ảnh hưởng ít nhiều đến quá trình gán nhãn Bên cạnh đó, cần
phải xem xét xây dựng bộ dữ liệu sao cho vừa phù hợp với thời gian thực hiện khóa
luận, vừa đáp ứng được yêu cầu của các phương pháp học mang lại hiệu quả cao.Nếu như hướng tiếp cận không giám sát thường không có kết quả tốt thì hướng học
giám sát hoàn toàn lại có chỉ phí xây dựng bộ đữ liệu mới vô cùng tốn kém, chỉ còn
hướng tiếp cận giám sát yêu là phù hợp Dẫu vậy, hướng này vẫn có khuyết điểm:
độ chính xác chưa thực sự cao.
Trang 19Chương 1 TỔNG QUAN 6
Tóm lại, hai thách thức gặp phải khi thực hiện khóa luận là:
¢ Thiếu dữ liệu để huấn luyện và đánh giá
se Cách tiếp cận MIL có độ chính xác chưa thực sự cao
1.5 Đóng góp
Khóa luận bao gồm các đóng góp chính sau:
¢ Phương pháp dé xuất - Top MIL Ranking cho bài toán phát hiện bạo lực trong
video.
¢ Bộ dữ liệu UIT-ViolenceCCTV với 106 video trích từ camera giám sát tại Việt
Nam (trong đó có 54 video chứa bạo lực), tương đương khoảng 155 phút, tức
xấp xỉ 280000 khung hình
¢ Thực nghiệm và đánh giá mô hình Deep MIL Ranking [42], Complementary
Inner Bag Loss [57] và Top MIL Ranking trên bộ dữ liệu UIT-ViolenceCCTV.
¢ Phương pháp dé xuất của chúng tôi - Top MIL Ranking - đã đạt được AUC là
80.11%, cao hon 4.23% so với phương pháp cơ sở và Recall là 6.88%, cao hơn
hai lần phương pháp cơ sở (3.16%)
° Xây dựng ứng dụng minh hoa cho bài toán trên nền tang web
Trang 20Chương 2
CÁC NGHIÊN CỨU LIÊN QUAN
Tùy thuộc vào thiết lập (cách gán nhãn) của bộ dữ liệu, có ba hướng tiếp cậnchính để giải quyết bài toán phát hiện bạo lực trong video: không giám sát, giám sáthoàn toàn và giám sát yếu
2.1 Hướng tiếp cận không giám sát
Các sự kiện bạo lực thường diễn ra với tần suất thấp trong thực tế, do đó khó màsưu tầm một bộ dit liệu thể hiện được day đủ sự đa dạng của hành vi này Trong
khi đó, các video bình thường, tức video không chứa bạo lực, lại được thu thập một
cách dé dàng Vì thé, hướng tiếp cận không giám sát sử dụng bộ đữ liệu có tập huấnluyện chỉ gồm những video không chứa hành vi bạo lực Điều này đồng nghĩa vớiviệc không cần gán nhãn cho tập này vì đây là tập đơn lớp, giúp tiết kiệm tối đa thời
gian và công sức xây dựng bộ dit liệu Tuy nhiên, vẫn cần xác định rõ thời gian bắtđầu và kết thúc của các sự kiện bạo lực diễn ra trong video ở tập kiểm tra
1Phát hiện bạo lực có thể được phân vào nhóm phát hiện sự kiện hoặc phát hiện bất thường trong
video, tùy vào hướng tiếp cận của tác giả/nhóm tác giả mà sẽ có những tên gọi khác nhau Để thống
nhất, chỉ mỗi thuật ngữ phát hiện bạo lực được sử dụng cho phần này.
?Đề tài này tập chỉ tập trung vào thông tin thị giác, do đó các thông tin hay đặc trưng khác như
âm thanh, chỉ số gia tốc sẽ không được đề cập.
Trang 21Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 8
Điểm chung của các phương pháp theo hướng không giám sát là chúng thường
khó đạt được độ chính xác cao, lại dé phát sinh cảnh báo giả, đặc biệt là các van dé
an ninh trong thực tế Dẫu vậy, hướng này được tin là có khả năng tổng quát hóa
định nghĩa bạo lực tốt [60].
2.1.1 Tái tạo đặc trưng
Tái tạo đặc trưng (feature reconstruction, điển hình là Autoencoder - hình |2.1}
là một phương pháp phổ biến theo hướng tiếp cận không giám sát Phương phápnày học cách tái cấu trúc khung hình hiện tại dựa trên chính khung hình này vàcác khung hình trước đó của nó Khi huấn luyện mô hình, chỉ cần dùng các khung
hình bình thường (không chứa bạo lực) để học cách tái tạo, và chạy mô hình đã
được huấn luyện với khung hình cần kiểm tra, với mong muốn mô hình tái tạo tốt(độ lỗi tái tạo thấp) cho các khung hình chỉ chứa hành vi bình thường và sẽ tái tạo
kém (độ lỗi cao) nếu khung hình có chứa cảnh bạo lực Nghiên cứu còn kết hợp
thêm FCN (Fully Convolutional Network) với LSTM, tạo thành ConvLSTM-AE để
có thể mô hình hóa chiều thời gian trong video tốt hơn, giúp nâng cao hiệu năng
của phương pháp tái tạo đặc trưng Tuy nhiên, phương pháp này thường có nhược
điểm là dé bị quá khớp (overfitting), có thể tái câu trúc các trường hợp bạo lực với
độ lỗi tái tạo nhỏ [50].
2.1.2 Dự đoán khung hình
Ngoài tái tạo đặc trưng, phương pháp dự đoán khung hình (frame prediction)
cũng đang được quan tâm Phương pháp này mong muốn dự đoán được khunghình hiện tại thông qua các khung hình trước đó của nó, rồi đem ra so sánh giữakhung hình dự đoán được và khung hình thực tế, tựa như phương pháp tái tạo đặctrưng Khác là, dự đoán khung hình không sử dụng khung hình hiện tại làm đầu
Trang 22Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 9
input output
~_| code eae
decoder encoder
HÌNH 2.1: Kiến trúc Autoencoder (9) gồm hai phan: encoder dé mã hóa
(từ không gian anh - RGB sang không gian đặc trưng) va decoder giúp
giải mã (ngược lại).
vào, vì thế mới được gọi là “dự đoán” Ý tưởng về GAN (Generative Adversarial
Network) cũng được sử dụng cho phương pháp này với kỳ vọng huấn luyện được
bộ tạo ảnh (generator) có khả năng cho ra các khung ảnh thật nhất và giống voikhung hình cần dự đoán nhất có thé Liu cùng cộng sự đã bổ sung các ràng
buộc về cường độ, hướng và chuyển động nhằm mang lại khả năng dự đoán khung
hình tốt hơn cho bộ tạo ảnh U-Net (hình|2.2} trong mạng GAN của mình.
2.2 Hướng tiếp cận giám sát hoàn toàn
Với hướng tiếp cận giám sát hoàn toàn, toàn bộ bộ dữ liệu cần được gán nhãn
theo mức độ khung hình (frame-level), tức xác định xem đâu là khung hình có bạo
lực, đâu là khung hình bình thường Đây có lẽ là bước tốn kém nhất trong quá trình
xây dựng bộ dữ liệu.
Trang 23Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 10
256x256 ——- ® 256256 2, 256x256 ,.m——————* i ‘co 256x256 „„ 256256 „ 288056 _„ | = 256x256
—oft 28 „128 co 296 128 Fe 8
HINH 2.2: Mạng U-Net có vai trò là bộ tạo ảnh trong Es| Mạng này có
độ phân giải của đầu vào và đầu ra là như nhau.
2.2.1 Ngoại suy
Một giải pháp phổ biến theo hướng tiếp cận này là tận dụng các kiến thức biết
trước (hành vi, sự kiện, đối tượng) liên quan đến bạo lực để giải bài toán, như hình
Nói cách khác, phát hiện bạo lực được giải quyết dựa trên một hoặc một vài bài
toán xác định khác như phát hiện vật thể (máu, súng ống, bom đạn, hỏa hoạn ) (61,
[13], [25], (44), nhận diện hành động (au đả, ban súng, rượt đuổi, chiến tranh ) (6,
[25], [44] Tuy nhiên, phương pháp đứng trước hai hạn chế: khả năng phát hiện thấp
và tỉ lệ cảnh báo giả cao [58]
2.2.2 Nội suy
Các công trình nghiên cứu theo kiểu nội suy có điểm chung: hướng tới việc đưa
bài toán phát hiện bạo lực trở thành bài toán phân lớp nhị phân thường gặp và tập
trung khai thác, phát triển bộ trích xuất đặc trưng trước khi đưa vào mạng phân lớp
Có ba cách trích xuất đặc trưng phổ biến: dựa trên khung hình (image-based), dựa
trên đoạn video (volume-based) và dựa trên luồng quang học (optical flow)
Trang 24Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 11
HÌNH 2.3: Kiến trúc hệ thống sử dụng kiến thức biết trước ñ3l Cảnh
bạo lực được xác định bằng cách tổng hợp điểm tương ứng của các bộ
phân lớp cho các khái niệm/thuộc tính trên.
Dựa trên khung hình
Từng khung hình riêng rẽ sẽ được rút trích để lấy đặc trưng về không gian Các
đặc trưng này sau đó sẽ được đưa vào mạng hệ RNN/LSTM (Recurrent Neural
Network/Long Short-Term Memory) để rút trích thêm đặc trưng về thời gian nhằmhiểu được sự khác nhau giữa các khung hình liền kể hay sự thay đổi đang diễn ra
trong video.
lay trung bình các đặc trưng học sâu CNN trích xuất được từ 16 khung hìnhliền kể trước khi đưa vào bộ phân lớp sử dụng HOG (Histogram of OrientedGradient) cho từng khung hình và dùng nó để huấn luyện BD-LSTM (BiDirectionalLong Short-Term Memory) dùng mang CNN để trích xuất đặc trưng về không
gian trước khi đưa vào một ConvLSTM (Convolutional Long Short-Term Memory)
(hình E.4) Việc kết hợp các kiến trúc mạng với nhau nhằm biểu diễn đặc trưng
không-thời gian (spatiotemporal feature) tốt hơn, với mong muốn có thể thu đượcthông tin của các chuyển động cục bộ Bên cạnh đó, so với LSTM truyền thống,ConvLSTM có thể biểu diễn đặc trưng cho video tốt hơn và giảm nguy cơ bị quá
Trang 25Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 12
Tuy nhiên, đứng trước sự da dạng về hình thé con người trong video (gây ra bởi
góc nhìn, tỉ lệ và sự che khuất (58}), cach rut trich dac trung dua trén khung hinh thường gặp khó khăn trong việc tìm ra các đặc trưng tốt [48].
Dựa trên đoạn video
Rút trích dựa trên đoạn video sử dung một day các khung hình liền ké để tríchxuất đặc trưng Nếu như CNN (2D CNN) được sử dụng phổ biến cho rút trích dựa
trên khung hình thì 3D CNN cũng đóng vai trò tương tự cho rút trích dựa trên đoạn
video 3D CNN được dùng để chỉ những kiến trúc mạng CNN có khả năng thực
hiện các phép tích chập trên không gian ba chiều (3D), cho phép khai thác thông tin
trên cả chiều không gian và chiều thời gian giữa các khung hình Do đó, thông tin
về chuyển động được biểu diễn tốt hơn hẳn cách rút trích dựa trên khung hình, bất
kể độ sâu của mạng và số chiều của đặc trưng [61] Thong tin nay giup viéc giai bai
toán phát hiện bao lực trở nên dé dang hơn, vi bạo luc thường gồm những chuyểnđộng đột ngột bat thường
Vào năm 2014, Ding và cộng sự đã dé xuất mô hình 3D CNN cho bài toánphát hiện bạo lực trong video mà không cần sử dụng các đặc trưng thủ công hay
kiến thức biết trước Các nghiên cứu gần đây (1, cho thấy, việc tinh chỉnh lại
Trang 26Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 13
(fine-tuning) các kiến trúc mạng 3D CNN đã được huấn luyện trên các bộ dữ liệu
lớn (chẳng hạn như Sports-1M 23) giúp đem lại hiệu quả tốt hơn cho các bài toán
liên quan đến xử lí video Hoặc đơn giản hơn, chỉ sử dụng 3D CNN như một bộ
trích xuất đặc trưng bằng cách giữ nguyên bộ tham số đã được huấn luyện từ trước
như cách mà [53], thực hiện cũng đem lại hiệu quả cao không sử dụng
thông tin về luồng quang học mà chỉ dùng dau ra từ lớp lớp “fc6” của C3D [46] (sẽ
được làm rõ ở phan 3) để đưa vào mạng RNN (như hình |2.5| cũng làm điều
tương tự, nhưng mạng hệ RNN với kiến trúc và các siêu tham số (hyperparameter)
được chọn thông qua tìm kiếm lưới (grid search - tức chọn kiến trúc/tham số tốt
nhất trong tất cả các tổ hợp kiến trúc /tham số cho trước)
4 Convolutional Recurrent Activity
phí tài nguyên khi phải xử lí toàn bộ video, chỉ sử dụng 3D CNN cho nhóm các
khung hình có chứa người - những khung hình được cho là quan trọng, được chọn
Trang 27Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 14
lọc thông qua MobileNet - một mô hình CNN vô cùng gọn nhẹ Framework này
Dựa trên luồng quang hoc
Trước đây, luồng quang học được tính thông qua các thuật toán cổ điển (điển
hình là thuật toán Lucas — Kanade hay TV-I1 4) nhằm xấp xỉ các chuyển động
giữa các khung hình Thuật toán nhận đầu vào là sự khác nhau giữa hai khung hình
(ở mức độ điểm ảnh - pixel) và cho ra kết quả là hai ma trận đặc trưng cho luồng
quang học ứng với trục tung và trục hoành HOF (Histogram of Optical Flow)
và các phiên bản khác của nó, chẳng hạn như HOFM (Histograms of Optical Flow
Orientation and Magnitude - hình|2.7} sử dụng thông tin từ luồng quang học để
tạo ra các đặc trưng liên quan đến chuyển động trong video, đặt nền móng cho sựphát triển của các kỹ thuật liên quan đến luồng quang học sau này
Nhằm mang lại hiệu quả cao hơn cho các bài toán liên quan đến video, TSN(Two-Stream Network - hình sử dụng cả thông tin về không gian có sẵn
trong các khung hình và thông tin về luồng quang học TSN gồm hai mô hình 2D
CNN, một cho dòng không gian (spatial stream - RGB) và một cho dong thời gian
(temporal stream - luồng quang học), lần lượt được tinh chỉnh từ bộ tham số đã được
Trang 28Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 15
huấn luyện trên bộ dữ liệu ImageNet và UCF101 [40] Mang TSN có đầu vào là
một khung hình trích từ video và nhiều luồng quang học (thường là 10), sẽ cho ra
kết quả cuồi cùng là điểm số được hợp nhất từ dự đoán của hai CNN thành phần Vì
luéng quang học có khả năng biểu diễn các chuyển động tốt nên các phương pháp
hai luồng (two-stream based approach) là một trong những phương pháp mang lại
{et} Tuy vay, TSN van con
han chế khi đòi hỏi các tính toán ở bước tiền xử li để cho ra thông tin về các luéng
quang học và phải huấn luyện hai mô hình CNN độc lập nhau (38).
hiệu quả cao nhất cho hau hết các bộ dữ liệu về video
Spatial stream ConvNet
Full |[ full? [Soft
Lay cảm hứng từ TSN va 3D CNN, Carreira và cộng sự [4] đã phát triển một
mô hình được gọi là I3D Cũng như TSN, 13D sử dụng hai luéng thông tin, một về không gian và một về luồng quang học Khác ở chỗ, I3D sử dụng các 3D CNN để
Trang 29Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 16
rút trích đặc trưng từ mỗi luồng, nhằm khai thác thông tin không-thời gian tốt hơn.
Tuy vậy, I3D vẫn chưa khắc phục được những nhược điểm của TSN và 3D CNN.
Dù những phương pháp học sâu có sử dụng luồng quang học có thể tận dụng được các đặc trưng thủ công, chúng thường không thể huấn luyện từ đầu đến cuối (end-to-end) và phải phụ thuộc nhiều vào đặc trưng thủ công đó, cả về hiệu quả lẫn
chỉ phí tính toán
mãn: giữa các khung ảnh liền kề có độ sáng ổn định, thời gian không ngắt quãng,
khẳng định rằng, việc sử dụng luồng quang học phải thỏa
chuyển động nhỏ và các điểm ảnh gần nhau phải có cùng hướng chuyển động; nếu
không, hiệu năng của những phương pháp sử dụng luồng quang học sẽ giảm đáng
kể.
2.3 Hướng tiếp cận giám sát yêu
Bởi thiếu dir liệu được gán nhãn sẵn, thiếu chuyên gia để gan nhãn chính xác hoặc không đủ thời gian để gán nhãn, hướng tiếp cận giám sát yếu đã ra đời, tập
trung vào việc huấn luyện với sự giám sát/gán nhãn theo ba hình thức [59]:
* Không day đủ: chỉ một phan dữ liệu huấn luyện được gan nhãn.
® Không chỉ tiết: dữ liệu huấn luyện được gan nhãn sơ sài.
s Không chính xác: nhãn có thể không đúng tuyệt đối.
Nói cách khác, hướng tiếp cận này có tập huấn luyện được gán nhãn không toàn vẹn, nhưng đòi hỏi phải học ra được cách dự đoán toàn vẹn, vì tập kiểm tra của nó van được gán nhãn day đủ hệt như học có giám sát Do đó, so với hướng tiếp cận giám sát hoàn toàn, chi phi gan nhãn cho dữ liệu của giám sát yếu rất thấp Tuy nhiên, hiệu quả của phương pháp học này vẫn tốt hơn rất nhiều so với học không
giám sát B1].
Trang 30Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 17
MIL là một kiểu học giám sát yêu phổ biến, thuộc hình thức gán nhãn không chỉ
tiết Nhiệm vụ của MIL là tìm ra mô hình có khả năng dự đoán nhãn cho từng thể
hiện (instance-level) thông qua thông tin nhãn ở các túi (bag-level), biết rằng mỗi túi
gồm nhiều thể hiện như hình 2.9} Ánh xạ sang bài toán phát hiện bạo lực, thay vì
từng khung hình/phân đoạn (thể hiện) được gán nhãn như ở hướng tiếp cận giám sát hoàn toàn, chỉ nhãn của video (túi) được cung cấp trong quá trình huấn luyện Một video sẽ được gán nhãn là bạo lực nếu nó có chứa ít nhất một khung hình/phân đoạn chứa hành vi bạo lực, còn ngược lại sẽ được gán nhãn là bình thường Điều này có nghĩa là video bạo lực có thể chứa một hoặc nhiều cảnh bạo lực và vẫn có thể chứa cảnh bình thường, còn video bình thường thì hoàn toàn không chứa bat kỳ
cảnh bạo lực nào Dù vị trí của các phân đoạn bạo lực không được xác định trong
tập huấn luyện nhưng trong quá trình kiểm tra, mô hình phải dự đoán được phân đoạn bạo lực nằm ở đâu trong video (nếu có).
Multiple Instance Learning:
Negative Bags Label =0
Positive Bags
Label=+1 |
HÌNH 2.9: Minh họa tập huấn luyện của MIL (21).
Nhìn chung, giải bai toán phát hiện bao lực dua trên MIL cũng tương tự như
phương pháp nội suy của học có giám sát Framework tổng thể và các nghiên cứu
liên quan của phương pháp này sẽ được trình bày chỉ tiết tại phần E-4
Trang 31Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 18
2.4 Framework phát hiện bạo lực sử dung MIL
Một hệ thống phát hiện bạo lực sử dụng MIL thường bao gồm ba thành phần chính: chia phân đoạn, trích xuất đặc trưng và phân lớp phân đoạn, kết hợp cùng với hai thành phần phụ: tiền xử lí và hậu xử lí Framework này được mô tả như hình
hóa Có nhiều cách để chuẩn hóa, tuy nhiên cách trừ cho hình ảnh trung bình (mean
image) rồi đưa về miền giá trị [0, 1] hoặc [-1, 1] là phổ biến hơn cả El Hình ảnh
trung bình được hiểu là hình ảnh với mỗi điểm ảnh mang giá trị trung bình của các
điểm ảnh có cùng vị trí cho tất cả các hình ảnh có trong tập huấn luyện, tức:
Image1[x] + Image2|x] + Image3[x] + + ImageN[x]
N
MeanImage[x] = (2.1)
Với x là vị trí điểm ảnh va N là tổng số ảnh trong tập huấn luyện Điều này đòi
hỏi mọi hình ảnh phải có cùng kích thước và giá trị trung bình cần được tính toán
cho từng vị trí và từng kênh màu khác nhau Mục đích của việc chuẩn hóa là để các hàm kích hoạt luôn nằm trong phạm vi hợp lí, giúp mạng được huấn luyện nhanh
hơn [2] [42] sử dung tập 16 ảnh trung bình để chuẩn hóa Số 16 này tương ứng với
Trang 32Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 19
số lượng khung hình đầu vào của một mạng C3D (461, được huấn luyện sẵn trên bộ
du liệu Sports-1M 23] Lưu ý rằng, tập 16 ảnh trung bình cũng được tính từ bộ dữ liệu Sports-1M (23), vi để có thể kế thừa các tham số đã được huan luyện san, giữ
nguyên cách tiền xử lí của mô hình là một việc làm tối quan trọng.
Bên cạnh bước tiền xử lí thông thường, còn dé xuất phương pháp tập trung,
tức chỉ tập trung vào các vùng quan trọng, vùng cần chú ý (attention region) thay vì
toàn bộ khung hình (xem hinh[2.11).
song phương (bilateral filter) kết hop cùng phương pháp loại bỏ nền (background
Vung cần chú ý được xác định thông qua bộ lọc
subtraction) Bộ lọc song phương giúp hạn chế nhiễu gây ra từ sự nhòe, che khuất,
thay đổi ánh sáng và các ảnh hưởng khác từ môi trường, (261, trong khi loại bỏ nền
giúp nhắn mạnh các vùng, đối tượng cần chú ý hon (foreground) Sau đó, một 3D CNN sẽ được dùng để trích xuất đặc trưng chỉ từ các vùng này.
Visual attention detection
HINH 2.11: Tiên xử lí sử dung phương pháp xác định vùng chú ý [34].
2.4.2 Chia phân đoạn
Các phương pháp hiện nay đều hướng tới sử dụng bài bài toán phân lớp cho các
phân đoạn nhỏ có trong video để giải bài toán phát hiện bạo lực Bước chia phân
Trang 33Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 20
đoạn giúp chia video thành nhiều phân đoạn/phân cảnh nhỏ hơn phục vụ cho bài toán phân lớp này Có hai cách chia phân đoạn phổ biến: kích thước phân đoạn phụ thuộc vào độ dài video và kích thước phân đoạn cố định Cụ thể:
® Kích thước phân đoạn phụ thuộc vào độ dai video: từng video được chia ra với
số lượng phân đoạn được xác định sẵn, tức số lượng phân đoạn cho mọi video
là như nhau, bắt kể video dài hay ngắn Điều này đồng nghĩa với việc các phân đoạn cùng một video sẽ có độ dài như nhau, nhưng có thể sẽ khác nhau nếu
chúng thuộc về các video khác nhau Cách chia này nhằm đem lại khả năng
xử lí video dài ngắn bat kì mà chi phí tính toán vẫn không bị đội lên quá cao.
chia mỗi video thành 32 phân đoạn không trùng lắp (non-overlapping).
Cách chia này là kết quả từ các thực nghiệm của Sultani và cộng sự trên bộ
dữ liệu UCF-Crime (42) Các thực nghiệm này có bao gồm cách chia các phân
đoạn trùng lắp nhau với nhiều mức độ, nhưng không đem lại kết quả tốt Các
công trình sau này như [I8], cũng chia video thành 32 phân đoạn không
trùng lắp để có sự so sánh khách quan với phương pháp (42).
¢ Kích thước phân đoạn cố định: kích thước của mọi phân đoạn là như nhau bat
kể chúng có cùng một video hay không, tức video càng dai sẽ càng có nhiều
phân đoạn Cách chia này được cho là sẽ hạn chế được hiện tượng các đặc trưng của sự kiện bạo lực ngắn (so với phân đoạn) bị lan at bởi các đặc trưng
bình thường mà phương pháp chia với kích thước phân đoạn phụ thuộc vào
độ dài video mắc phải [51] [34] sử dụng kích thước cho từng phân đoạn là 160
khung hình, do kích thước đầu vào của một C3D [46] là 16 khung hình Với lí
do tương tự, nhưng chỉ dùng 16 khung hình #] dù cũng theo cách chia
với kích thước phân đoạn có định, nhưng nghiên cứu này lại sử dụng cách lấy
mẫu thưa ngẫu nhiên (random sparse-sampling) để chọn một vài khung hình
từ một phân đoạn để rút trích, thay vì sử dụng tất cả khung hình từ phân đoạn
Trang 34Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 21
đó, vì nhóm tác giả cho rằng cách này sẽ huấn luyện được một bộ phân lớp tốthơn và vì các khung hình gần nhau thường có thông tin bị lặp lại dư thừa
thì chỉ sử dụng 15 khung hình cho mỗi phân đoạn, vì nghiên cứu này không
sử dung 3D CNN mà lại trích xuất đặc trưng thang từ từng khung hình rồi lay
trung bình 15 đặc trưng này để làm đặc trưng cho cả phân đoạn
Các cách chia trên dẫu có sự khác biệt nhưng chúng đều phải đảm bảo được rằng
kích thước các phân đoạn trong cùng một video là như nhau.
2.4.3 Trích xuất đặc trưng
Các đặc trưng của mỗi phân đoạn sẽ được rút trích trước khi đưa vào bộ phân
lớp Các phương pháp rút trích được sử dụng trong framework phát hiện bạo lực
bang MIL cũng tương tự như các cách rút trích được dé cập trong phan nội suy của
phương pháp học giám sát hoàn toàn (xem phân|2.2.2) Dù là cách rút trích dựa trên
khung hình hay dựa trên đoạn video thì đặc trưng của phân đoạn cũng thường được
suy ra bằng cách lay trung bình đặc trưng của các thành phần thuộc phân đoạn đó
2.4.4 Phân lớp phân đoạn
Phân lớp phân đoạn là thành phần quan trọng nhất và đặc trưng nhất của MIL
Thành phần này nhằm mục đích xác định xem đâu là phân đoạn bạo lực, đâu là
phân đoạn bình thường Một mô hình phân lớp được đại diện bởi hai yếu tố: kiến
trúc mạng và hàm mục tiêu.
sử dung một mạng FCNN (Fully Connected Neural Network) với đầu vào
là một véc-tơ 4096 chiều (tương ứng với lớp “fc6” của C3D [46] FCNN này gồm ba
lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 01 đơn vị Lớp đầu có hàm kích hoạt được
sử dụng là ReLU, còn lớp cuối là Sigmoid Giữa các lớp đều được sử dụng dropout
60% nhằm hạn chế việc học quá khớp Kiến trúc mạng được mô tả như hình|2.12|với
Trang 35Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 22
hàm mục tiêu đối ngoại (outer bag loss) kết hợp cùng hai thành phần ràng buộc về
tính thưa thớt và tinh trơn tru (sẽ được làm rõ ở phân.
Dropout 60%
MIL Ranking Loss with sparsity and smoothness constraints
HÌNH 2.12: Bộ phân lớp được sử dung trong [42].
Ở hình|2.13] sử dụng một TCN (Temporal Convolutional Network) trước khi
đưa vào các lớp của FCNN nhằm khai thác tốt hơn các đặc trưng về thời gian giữacác phân đoạn liền kề nhau trong một video Mạng FCNN được sử dung ở nghiên
cứu này gồm hai nhánh sử dụng chung đầu vào từ TCN Nhánh đầu tiên có 2 lớp,lần lượt gồm 32 đơn vị và 1 đơn vị Nhánh thứ hai chỉ có 1 lớp chứa 1 đơn vị Việc
sử dụng hai nhánh thế này nhằm mục đích khai thác thông tin ở nhiều độ sâu khác
nhau của kiến trúc mạng FCNN Kết quả cuối cùng là điểm số được lay trung bình
từ kết quả của cả hai nhánh Tương tự như [42], hàm kích hoạt ReLU cho lớp đầu,
Sigmoid cho lớp cuối và 60% dropout được sử dụng Hàm mục tiêu của bổ sung
thêm hai thành phần đối nội (inner bag loss), được sử dụng kết hợp cùng với hàm
mục tiêu ban đầu của [42].
dé xuất sử dụng mang CLAWS (CLustering Assisted Weakly Supervised)
[55] cho bài toán giám sát yếu Bên cạnh mạng FCNN truyền thống, CLAWS
còn có thêm một cơ chế làm mờ những thông tin bình thường - NSM (Normalcy
Trang 36Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 23
current
instance
Feature map
T IC lut (xD-4098) _ gait Phú Sanaa Hài
eS L sẽ ' T ae | Instance scores in positive bag
eee at 031 |
Negative inner bag similar loss
Outer bag ranking loss
Instance scores in negative bag
HÌNH 2.13: Bộ phân lớp được sử dung trong [57].
Suppression Module), với mục đích tương tu như phương pháp xác định vùng chú
ý ở bước tiền xử lí của [34] NSM có bản chat là FCNN, sẽ tối thiểu hóa các giá trị liên
quan đến các thông tin bình thường và giữ nguyên các thông tin bạo lực thông qua
một phép nhân với kết quả từ mỗi lớp FCNN truyền thống Bên cạnh đó, hàm mục
tiêu tổng thể của nghiên cứu này còn được kết hợp với hàm mục tiêu trong bài toán
gom cụm để hạn chế nhiễu Kiến trúc mạng CLAWS được mô tả ở hình
2.4.5 Hậu xử lí
Như đã đề cập ở những phần trước, bộ dữ liệu phục vụ cho hướng tiếp cận giámsát yêu có tập kiểm tra vẫn được gán nhãn day đủ hệt như học có giám sát Do đó,
để có thể được đánh giá, các phương pháp phải thực hiện dự đoán trên từng khung
hình trong video, chứ không phải chỉ trên từng phân đoạn Bước hậu xử lí sẽ giúp
chuyển đổi đầu ra của bước phân lớp phân đoạn, tức điểm bạo lực của từng phân
đoạn, sang điểm bạo lực cho từng khung hình Các phương pháp phần lớn đều thực
hiện dựa trên cách mà Sultani và cộng sự dé xuất: điểm bao lực của từng khunghình bằng chính điểm bạo lực của phân đoạn mà khung hình đó thuộc về Nói cách
Trang 37Chương 2 CÁC NGHIÊN CUU LIÊN QUAN 24
[© Eesecse mipicaion | (i) Clustering
h : Loss Module
HINH 2.14: Bộ phân lớp được sử dung trong (55}.
khác, nếu khung hình a thuộc phân đoạn b thi điểm bạo lực của khung hình a bang
điểm bao lực của phân đoạn b.
Trang 38Chương 3
PHƯƠNG PHÁP SỬ DỤNG
Chương này trình bày chỉ tiết các phương pháp thực nghiệm và bộ đữ liệu
(UIT-ViolenceCCTV) được sử dụng cho khóa luận.
3.1 Cơ sở líthuyết
3.11 C3D
Video là một tập các khung hình có cùng độ phân giải được sắp xếp theo một thứ tự nhất định Bên cạnh hai chiều không gian có sẵn của các khung hình, video còn có thêm chiều thứ ba: chiều thời gian Để có thể khai thác tốt thông tin trên
cả ba chiều, Tran và cộng sự đã đề xuất kiến trúc mạng C3D - một kiến trúc thuộc dang 3D CNN, thay vì 2D CNN truyền thống C3D sử dung dau vào là một đoạn video với kích thước 3 x 16 x 128 x 171 Đây là đoạn video gồm 16 khung
hình chứa 3 kênh màu và có độ phân giải là 128 x 171 (tỉ lệ 4:3).
Các bộ tích chập được sử dụng trong kiến trúc mạng này có kích thước ở dạng
dx k x k, với d chỉ chiều thời gian và k x k để chỉ chiều không gian Nếu như các
phép tích chập thông thường (tích chập 2D) dù được sử dụng trên một hình ảnh
hay một tập hình ảnh/đoạn video cũng đều tạo ra một ma trận hai chiều, tức làm
mat đi thông tin vẻ thời gian của đoạn video, thì các phép tích chập trong C3D
Trang 39Chương 3 PHƯƠNG PHÁP SỬ DỤNG 26
(tích chập 3D) vẫn cho ra kết quả là một ma trận ba chiều nếu đầu vào của nó là một
), giúp bảo toàn được cả thông tin về không gian lẫn thời
đoạn video (xem hình|Š
gian của đoạn video này Nói cách khác, tích chập 3D như thế này có khả năng khai thác thông tin về không gian và thời gian cùng một lúc, giúp phục vụ nhiều bài toán liên quan đến video như phát hiện sự kiện, nhận diện hành động.
HÌNH 3.1: So sánh tích chập 2D và 3D (a) áp dụng tích chập 2D lên một
hình ảnh và (b) áp dụng tích chập 2D lên một đoạn video đều cho ra
kết quả là một ma trận hai chiều (c) áp dụng tích chập 3D lên một đoạn
video cho ra một ma trận ba chiều
Kiến trúc chỉ tiết của C3D 46] được minh hoa ở hình B.2| Năm khối đầu tiên của
3D CNN này chứa một hoặc hai lớp tích chập, được theo sau bởi một lớp pooling.
Tiếp đó là hai tang kết nói day đủ (fully-connected layer) được gọi là “fc6” và “fc7”
và một tầng softmax Các thực nghiệm cho thấy 3 x 3 x 3 là bộ lọc mang lại hiệu
quả khai thác thông tin tốt nhất Tran và cộng sự [46 đã sử dụng bước đệm (stride)
bằng 1 cho cả chiều không gian và chiều thời gian cho bộ lọc Về các lớp pooling, ngoại trừ lớp đầu tiên “Pool1” sử dụng nhân tử (kernel) có kích thước 1 x 2 x 2 thì các lớp còn lại đều sử dụng 2 x 2 x 2 Hai tang kết nói day đủ đều chứa 4096 đơn vị.
| om fl =- A _
HÌNH 3.2: Kiến trúc Mạng C3D [46].
Conv4a |[ Convab ||[ Convsa |[Convsb ||H[ feo |[ íc7
512 512 512 512 14096] [4096]
C3D được huấn luyện trên bộ dữ liệu Sports-1M với hơn một triệu video
từ 487 hạng mục thể thao khác nhau Hơn nữa, kết hợp với việc có khả năng mô tả
thông tin tốt và tốc độ tính toán nhanh (hơn gap hàng trăm lần so với TSN (39) , theo (), C3D đã trở thành một bộ trích xuất đặc trưng phổ biến được sử dụng cho
Trang 40Chương 3 PHƯƠNG PHÁP SỬ DỤNG 27
các bài toán khác liên quan đến video Chẳng hạn, để rút trích đặc trưng cho một phân đoạn, đã chia phân đoạn này thành nhiều đoạn ngắn chứa đúng 16 khung hình Mỗi đoạn ngắn này sau khi đi đến lớp “fc6” của C3D [46] sẽ cho ra kết quả
là một véc-tơ 4096 chiêu, rồi lấy trung bình thông qua cách chuẩn hóa L2 của các
véc-tơ này để tạo nên đặc trưng cho phân đoạn.
3.1.2 Hàm mục tiêu đối ngoại
Lay ý tưởng từ ham Hinge thường được sử dung trong SVM (Support Vector Machine), Sultani và cộng sự đã dé xuất hàm mục tiêu đối ngoại - hàm Hinge
cho bài toán MIL (hình |.3):
lover = max{0,1— max ƒ(1/) + max ƒ(V)) 3.1)
Với:
© Ba, Bn: lần lượt là video bao lực và video bình thường.
s_V;: phân đoạn i của video.
® ƒ(V;): điểm số bạo lực được dự đoán của phân đoạn V;.
Khác với SVM ở hướng giám sát hoàn toàn, MIL chỉ có thể tận dụng nhãn của
video trong quá trình huấn luyện Do đó, thay vì sử dụng tat cả các phân đoạn thì
chỉ mỗi phân đoạn có điểm số bạo lực [| cao nhất được chọn để đại diện cho cả
video, với nhãn được giả định trùng với nhãn của cả video Việc này giúp đưa bài
toán giám sát yếu gần với bài toán giám sát hoàn toàn hơn, làm đơn giản hóa hàm mục tiêu Cũng như Hinge cho SVM, hàm mục tiêu này nhằm mục đích làm cho điểm số của phân đoạn bạo lực phải cao hơn điểm số của phân đoạn bình thường
Điểm số bạo lực càng cao đồng nghĩa với việc mô hình tin rằng khả năng phân đoạn này có chứa
cảnh bạo lực càng lớn