Tuy nhiên, phát hiện bất thường trong video là một nhiệm vụ còn nhiều thách thức, các phương pháp hiện nay không thé tổng quát hóa tat cả hành vi bat thường trong thực tế vì chúng hiếm k
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VÕ THÀNH TRUNG DŨNG
KHÓA LUẬN TÓT NGHIỆP
Anomaly detection in video filmed in Vietnam by weakly supervised
learning
CU NHÂN NGANH KHOA HOC DU LIEU
TP HO CHi MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
VÕ THÀNH TRUNG DŨNG - 18520641
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN BÁT THƯỜNG TRONG VIDEO TẠI VIỆT
NAM THEO CÁCH TIẾP CAN GIÁM SÁT YEU
Anomaly detection in video filmed in Vietnam by weakly supervised
learning
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
THS VO DUY NGUYEN
TP HO CHÍ MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
-H8ẦY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 Chủ tịch— TS Nguyễn Gia Tuấn Anh
2 Thư ky — ThS Tạ Thu Thủy
3 Ủy viên — Th§ Võ Ngọc Tân
Trang 4LỜI CẢM ƠN
Trong quá trình thực hiện khóa luận, em đã gặp rất nhiều khó khăn và vướngmắc, nếu không có sự hướng dẫn, sự quan tâm và giúp đỡ từ quý thầy cô, các anh chị
và bạn bè thì khóa luận này khó có thé hoàn thành theo đúng tiễn độ Em cảm thấy
mình thật hạnh phúc vì luôn nhận được sự chăm sóc từ mọi người.
Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến thầy hướng dẫn khóaluận của em, thầy Võ Duy Nguyên Em cảm thấy rất vinh dự khi thầy đã dành thờigian quý bau dé giúp đỡ một đứa sinh viên còn non not trong nghiên cứu khoa họcnhư em Cảm ơn thầy vì đã tận tâm dạy bảo, mang lại nhiều bài học thiết thực, những
ý tưởng hay và truyền đạt những kinh nghiệm giá trị mà thầy đã đúc kết cho em
Ngoài việc học được những kiến thức chuyên môn, em còn được thầy dạy về các câu
chuyện cuộc sống và những hành trang cần thiết cho tương lai Cảm ơn thay vi đã làthầy hướng dẫn, là người bạn đồng hành cùng em trong khoảng thời gian vừa qua
Em xin bay tỏ lòng biết ơn đến các thầy cô khoa Khoa học và Kỹ thuật Thôngtin đã quan tâm và giúp đỡ em từ những ngày đầu mới vào trường
Em xin cảm ơn Ban Giảm hiệu nhà trường, phòng thí nghiệm MMLab đã tạo
điều kiện tốt nhất về cơ sở vật chất, trang thiết bị phục vụ cho khóa luận này
Em cảm ơn các anh chị khóa trên đã cho em những lời khuyên, kinh nghiệm bổ
ích, là chỗ dựa tinh thần vững chắc giúp em vượt qua những căng thắng
Trong khoảng thời gian 4 năm học tập và rèn luyện tại trường Đại học Công
nghệ Thông tin — Đại học Quốc gia Thành phố Hồ Chí Minh, mình rất cảm ơn cácbạn lớp KHDL2018, các ban trong nhóm nghiên cứu UIT-Together va tất cả bạn bèmình kết giao đã luôn quan tâm, hỗ trợ và chia sẻ kiến thức với mình Đây là điều
mình vô cùng trân quý và biệt ơn.
Em xin chân thành cảm ơn tat cả mọi người!
Trang 5TOM TAT KHOA 00090557 Ả.Àồ 1 1Chương 1 MỞ DAU veececcccccsscssssssessesssessessssssessessecsessusssecsessusssessessessesssessessessesaneeseeses 2
1.1 Động lực nghiÊn CỨU -. G3 11T HH kt 2 1.2 Mục tiêu và phạm vi nghiÊn CỨU - 5 5 + 1x E*vE£eEeeEreeeseeerserrre 3
Chương 2 TONG QUAN 2-©22©22+SE‡SE2E2EEEEEEEE21121127171121121111 1.1.1 4
2.5 Cấu trúc bág HO URE Fame «a.fB Í 0 ceriiceee 9
2.6 Các nghiên cứu lIÊn QU4I 5 5E 182318330 E391 E931 1 8111 1 kg rườn 10
2.6.1 Các hướng tiẾp cẬn -¿- ¿52522 SEEEEEEEEEEE1E2121121121 2111111 cxe 102.6.2 Hướng tiếp cận không giám sát :- 2 2 2+E£+E+Ee£Eerxerxersree 11
2.6.3 Hướng tiếp cận có giám sắt eececccecceccesessessessessesseesecssessessessessesseeseeaee 14
2.6.4 Hướng tiếp cận giám sát yếu - ¿+ + ©x+EE+EEEEEEEEEEerkerkerrrree l62.6.5 Framework phát hiện bất thường sử dụng MIL . - 18
2.6.6 Các bộ dit liệu cho bai toán phát hiện bat thường -. - 23
Chương 3 NGHIÊN CỨU THỰC NGHIỆM - 2 2 +£x+2£++£++zx+rxczsz 29
s1 na Ả ÔÒỎ 29
3.1.1 I3D Q.22 2222 HE HH HH 21 1e 29
Trang 63.1.3 Ràng buộc về tính thưa thớt - 2 5¿©+2+++£x++£xt+rxrzxesrxesrxee 31
3.2 Phương pháp RTEÌM - - Ăn TH TH HH Hưng ng già 32Chương 4 XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN BÁT THƯỜNG TRONG
VIDEO TẠI VIỆT NAM 2: + £++£+EE£EE£EEEEEEEE2EEE2E21121171 71211211111 ce, 39
4.1 Lí do xây dựng bộ dit liệu ¿2-2 +2E£+EE+Ek£EEtEEEEEEEEEEEEEEEErEkrrkerkrrex 39
4.2 Thu thập và tiền xử lý -c- sSk+Ek+EE2E2E1 1715211111111 111111111 40
Chương 5 TRÌNH BAY, ĐÁNH GIA BAN LUẬN VE KET QUẢ 51
5.1 Dữ liệu thực nghiệm cccecceccecceecesscssessessesssessessecsesssessessessesssessessessessseeseesess 51
5.1.1 Mô tả cơ bản cc-55-©5< 2222k 2 E2E1E21127121121171 1121.111 1e cxe 51
5.1.2 Mô tả chỉ tiẾt cc-c5-5c 25c 2< 2kEt TH EE1E11211111011 1111.111 cxrree 51
5.2 M6 ta thurc 3.75 e 52
5.2.1 Mô tả quy trình thực nghiém 2.0.00 eee eecceeseceseeeeeeeeeeceeeeeaeeeseeceeeeeaes 525.2.2 Cấu hình thực nghiệm - 2-2 +++x+2EE+EEEEEE+SExzExrrrrerkeerxee 545.3 Phương pháp đánh giá — ROC—AUC 5c SĂ 13213 ESseerseserseeeree 54
5.4 Kết qua thực nghiệm và đánh giá - 2-2 5+22++2z++zx+erxesrxesrxees 56
5.4.1 Kết quả thực nghiệm - 2 2 2+ +E#EE#EESEEEEEEEEEEEEEEEEEEEerkerkrree 565.4.2 Trực quan hóa kết qua 2-2 2 £+E+EE+EE+EE+EE£EE+E£EeEEerEerxrrxrvee 585.4.3 Danh gid két Qua nh ăOỪOỪDỪỒVỦ , 59
5.5 Churong trinh minh hoa A."A 60
Trang 75.5.1 Giới thiỆU nh HH TH TH HH Hà HH nh 60 5.5.2 Mô tả cách hoạt động của chương trình - - «+«=+<£+sx+sxss 60Chương 6 KẾT LUẬN VA HƯỚNG PHÁT TRIEN 22 s2 szzxczs+ 63
6.1 KẾt luận -2-5c 2E 2 2E EE1E212112112112711112112111111211 11 1xx 63
S]"n.‹° 0 ẽaaÁs 64
6.1.2 THUAN 0 2.0177 A,BH.HH 64
Đá) n vớo.'Ể£Ầ”" 65TÀI LIEU THAM KHẢO - ¿St St+EEEE‡EEEEEEESEEEESEEEESEEEEEEEEEEEEEEEEkrkerkrrerkrrr 66
Trang 8DANH MỤC HÌNH
Hình 2-1: Bài toán phát hiện bất thường trong video tại Việt Nam Đầu vào (bên trái)
là một video và đầu ra (bên phải) là kết quả dự đoán trên từng khung hình Các khunghình viền đỏ thuộc phân đoạn được dự đoán có chứa bất thường .- 6
Hình 2-2: Ví dụ video đánh nhau từ bộ dữ liệu phim hành động (the action movie Cataset) [4] di 8Hình 2-3: Một số ví dụ về sự đa dạng ngữ cảnh được quay từ camera an ninh tại Việt
II 0 — 8
Hình 2-4: Kiến trúc mang co bản của mạng Autoencoder 5 s2 s2 12Hình 2-5: Kiến trúc phương pháp ConvLSTM AE [10] -. ¿ 5:522=5+ 13Hình 2-6: Quá trình huấn luyện phương pháp FFP [ 1 I] -2- 2-5552 14Hình 2—7: Tổng quan hệ thống phát hiện cảnh bạo lực trong [18] 15Hình 2-8: Minh họa tap huấn luyện của MIL [23] -««-+-<<+<e+ssx++ 17Hình 2-9: Các thành phần trong framework phát hiện bat thường theo kiêu MIL .18Hình 2-10: So đồ hoạt động của phương pháp MIL Các video bat thường và videobình thường sẽ được chia thành nhiều phân đoạn tạm thời (temporal segments) Các
video lúc này được thê hiện dưới dạng một túi gồm các phân đoạn tạm thời, trong đó
một phân đoạn tạm thời là một thê hiện (instance) trong túi Sau khi rút trích đặc trưngC3D của các phân đoạn, MIL huấn luyện mạng FCNN băng cách sử dụng một hàmmục tiêu xếp hang (ranking loss) để xếp hang các thé hiện có điểm số bất thường(anomaly score) cao nhất trong túi bình thường và túi bat thường - 18Hình 2-11: Quá trình tiền xử lý sử dụng phương pháp xác định vùng chú ý [27] 20
Trang 9Hình 3-2: So sánh tích chập 2D va 3D (a) áp dụng tích chập 2D trên một hình ảnh
và (b) áp dụng tích chập 2D lên một đoạn video đều tạp ra một hình ảnh hay là một
ma trận hai chiều (c) áp dụng tích chập 3D lên một đoạn video tạo ra một không gian
ba chiều, bảo toàn thông tin thời gian - ¿5-55 St+SE‡EE+EE£EE2EZEEEerEerkerkerkrree 30
Hình 3-3: Kiến trúc Inflated Inception—V 1 (bên trái) và Inception Module (bên phải).
¬— 30 Hình 3-4: Phương pháp RTFM [] - 5 2 +1 +11 9319111 119 1 9111 ng re 32
Hình 3-5: Kiến trúc mạng tìm hiểu sự phụ thuộc thời gian MTN 34
Hình 3-6: Minh họa định lÚ Ác 2 122112113211 19111 119111111 11T 1 HH ng ry 37
Hình 4-1: Một số mẫu dữ liệu ở mỗi lớp trong bộ dữ liệu UIT-Anomaly 41
Hình 4-2: Quy trình thu thập va gan nhãn bộ dữ liệu UIT—Anomaly 46
Hình 4-3: Số lượng video ở các lớp trong tập huấn luyện và tập kiểm tra của bộ dữ
lid UIT—Annomally T1 48
Hình 4-4: Sự phân bồ video theo thời lượng trong tập huấn luyện và tập kiểm tra của
98)/9)080) 02910011) 49 Hình 5—1: Mô tả phân chia bộ dữ liệu UT—Anomalyy «5+5 «<+<<<++ss+ 51
Hình 5-2: Mô ta thời lượng của mỗi lớp dit liệu trong tập huấn luyện và tập kiểm tra
của bộ dữ liệu UTI—AnomaÌy - - 1 2 112111191119 11191 1g 1n ng ng rry 52 Hình 5—3: Quy trình thực nghiỆệm - c5 2+ 1S HH HH giết 53
Hình 5-4: Biéu đồ kết quả khi AUC = I 2¿©22¿©5222S22E+2EEtEE+eExzrxerreeree 55
Hình 5-5: Biéu đồ kết quả khi AUC = (.5 - ¿22 ESE+2E22EE2EEtEEtEEEEEErrkerkrrer 55
Hình 5—6: Biểu đồ kết quả khi AUC = Ö ¿2-2 E+EE+EE£EE+EEZEEEeEEerkerkerkrree 56Hình 5-7: Minh họa kết quả dự đoán phát hiện bất thườn g của RTFM (k=2) trên ULT—Anomaly Đường màu đỏ, đường màu xanh lần lượt là điểm số bất thường và độ lớnđặc trưng Khu vực màu hồng là ground truth, biểu thị các khung hình được gán nhãn
DU Ì8i ho OƯNg 58
Hình 5-8: Giao diện màn hình khởi động của chương trình . - - 61
Hình 5-9: Giao diện tải video lên của chương trinh .- s55 ss**+s++s+eexsss 61
Hình 5—10: Giao diện video kết quả được dự đoán có chứa sự kiện bất thường 62
Trang 10Hình 5—11: Giao diện video kết quả không phát hiện sự kiện bat thường
Trang 11DANH MỤC BẢNG
Bang 2-1: Tóm tắt thông tin các bộ dữ liệu cho phát hiện bat thường và bộ dữ liệu
lði 8000100200007 24
Bang 4-1: Quy tắc khi thực hiện gán nhãn - 2-2-5 ©5£2S£+£E+£EtzEzEerxerxezez 44
Bảng 4-2: Mô tả ý nghĩa các thuộc tính của mỗi dòng nhãn cho mỗi video trong
UTT-i0 na 47Bang 4-3: Sự phân bố video theo không gian (bên trái) và theo điều kiện ánh sáng(bên phải) trong bộ dữ liệu UFT—AnomalÌy - - s5 5 +3 seeseeeeseeeresee 49
Bang 5—1: Kết quả thực nghiệm MIL trên UIT—Anomaly 5-52 s2 56Bảng 5-2: Kết quả thực nghiệm phương pháp RTFM (k = 3) trên các bộ dữ liệu 56
Bảng 5-4: Kết quả thực nghiệm RTFM với nhiều trường hợp k trên UIT—Anomaly
k là số phân đoạn của mỗi video được dùng dé huấn luyện . - 57
Bang 5—5: So sánh kết quả thực nghiệm với các tham số đã được huấn luyện sẵn từ
các bộ dit liệu điểm chuẩn trên UTI—Anomally - +5 s + ssseesesersesereree 57
Trang 12DANH MỤC TỪ VIET TAT
STT Từ viết tắt Viết đầy đủ
01 AE Autoencoder
02 C3D Convolutional 3D
03 ConvLSTM Convolutional Long Short-Term Memory
04 FAR False Alarm Rate
05 FC Fully Connected
06 FCN Fully Convolution Network
07 FCNN Fully Connected Neural Network
08 FFP Future Frame Prediction
09 FPS Frame per second
09 GAN Generative Adversarial Network
10 13D Two-Stream Inflated 3D ConvNet
11 MIL Multiple Instance Learning
12 MTN Multi—scale Temporal Network
13 ROC-—AUC Area Under the ROC Curve
14 RTFM Robust Temporal Feature Magnitude learning
15 SOTA State—of—the—art
16 TSA Temporal self—attention
Trang 13TÓM TAT KHÓA LUẬN
Ngày nay, sự gia tăng về số lượng camera giám sát đã góp phần làm cho việc pháthiện bất thường từ xa ngày càng trở nên phổ biến hơn Trong bài báo này, chúng tôitập trung nghiên cứu bài toán phát hiện bat thường trong video tại Việt Nam Chúng
tôi tiếp cận bài toán theo hướng giám sát yếu dé tránh mat nhiều thời gian vào việc
gán nhãn mức khung hình trong video huấn luyện thông qua hai phương pháp SOTA
là Robust Temporal Feature Magnitude (RTFM) va Multiple Instance Learning
(MIL) Bên cạnh đó, chúng tôi cũng thu thập bộ dữ liệu video UIT—Anomaly có tổngthời lượng hơn 150 phút được quay trong thực tế trong nhiều ngữ cảnh đa dạng Bộ
dữ liệu này bao gồm 224 video được quay tại Việt Nam, với 6 loại bất thường khác
nhau: Tai nạn giao thông, Danh nhau, Cướp giật, Trộm chó, Chống đối người thi
hành công vụ và Hành vi phi thé thao Sau đó chúng tôi tiến hành thực nghiệm các
phương pháp nghiên cứu trên bộ dữ liệu thu thập và xây dựng chương trình minh họa
trực quan kết quả phát hiện bất thường Kết quả của nghiên cứu đạt được gồm 01 bài
báo hội nghị danh mục SCOPUS (NICS).
Trang 14Chương 1 MO DAU
Nội dung chương này sẽ trình bày động lực nghiên cứu, mục dich, đối tượng va phạm
vỉ nghiên cứu.
1.1 Động lực nghiên cứu
Bên cạnh xã hội ngày một phát triển và nền công nghệ ngày càng tiên tiến thì
tần suất các tệ nạn xã hội diễn ra cũng ngày càng nhiều và không thê lường trước Đó
là lí do vì sao hệ thống camera và thiết bị an ninh trở thành một thiết bị quan trọng từđường phó, trường học, trung tâm thương mại, quán ăn, cửa hàng tạp hóa đến hộ giađình Lợi ích mà camera an ninh mang lại rất lớn, chúng hỗ trợ bộ phận quản lý kiểmsoát các hoạt động đã và đang diễn ra tại nơi được lắp đặt như nhà ở, cửa hàng, công
ty, văn phòng, ngân hang, ma không cần trực tiếp có mặt dé giám sát, đồng thời
giúp giảm thiêu được những tệ nạn như trộm cắp, cướp giật, giúp bảo vệ tai sản, tính
mạng, sự bình yên cho xã hội Cùng với đó, những thước phim được quay lại bởi hệ
thống giám sát này đóng vai trò như những chứng cứ quan trọng, ghi lại những sựviệc đã xảy ra trong quá trình thực hiện hành vi phạm tội, nhằm hỗ trợ cho việc tìmkiếm, điều tra được minh bạch và nhanh chóng hơn Tuy nhiên, những hệ thống vàthiết bị an ninh trong thực tế vẫn có một số hạn chế nhất định trong việc phát hiện bất
thường một cách tự động và kịp thời, hau hết chúng đều cần có sự theo dõi 24/24 của
người quản lý camera hoặc nhân viên bảo vệ Đều này đã vô tình dẫn đến việc lãngphí nhân lực vì các hành vi bất thường hiếm khi xảy ra trong thực tế Điều này cónghĩa là vai trò của thiết bị giám sát hiện tại chỉ được khai thác ở mức ghi lại nhữngvideo làm bằng chứng sau khi những hành vi bất thường đã diễn ra Do đó, để kịp
thời cảnh báo cho người dân, giúp đưa ra hướng xử lý các hành vi khả nghi ngay lập
tức doi hỏi phải có một công cụ tự động phát hiện những bất thường trong camera
giám sát.
Xuất phát từ thực tế trên, bài toán phát hiện bất thường trong video giám sát
đóng vai trò ngày càng quan trọng, được nhắc đến trong các cộng đồng khác nhaunhư khai thác dit liệu, học máy, thị giác máy tính và số liệu thống kế Trong những
2
Trang 15năm gần đây, học sâu đã cho thấy khả năng to lớn trong việc học các thông tin của
dữ liệu phức tạp Tuy nhiên, phát hiện bất thường trong video là một nhiệm vụ còn
nhiều thách thức, các phương pháp hiện nay không thé tổng quát hóa tat cả hành vi
bat thường trong thực tế vì chúng hiếm khi xảy ra và diễn ra theo nhiều cách và nhiềubối cảnh (không gian và thời gian) khác nhau, cũng như sự không chắc chắn khi dựđoán đâu là sự kiện bất thường thực sự Ngoài ra, nhìn chung những video được quay
lại từ các thiết bị an ninh có chất lượng thấp chưa ké đến các video được quay trong
điều kiện đặc biệt như ban đêm, sương mù, mưa, góc máy bị che khuất bởi nhiều vậtthé cũng khiến các phương pháp hiện tại gặp nhiều khó khăn trong việc dự đoán
Tóm lại, từ sự phát triển của xã hội cũng như xu hướng tăng lên về nhu cầu quản
lý an ninh và xử lý rủi ro, bài toán phát hiện bat thường đã và đang thu hút nhiều sự
quan tâm và được nghiên cứu từ nhiều lĩnh vực khác nhau, đặc biệt là thị giác máytính Đó cũng chính là động lực giúp nhóm nghiên cứu đề tài này
1.2 Mục tiêu và phạm vỉ nghiên cứu
Trong phạm vi nghiên cứu, mục tiêu chính của nghiên là:
(1) Tìm hiểu tổng quan về các phương pháp và bài toán phát hiện bất thường
trong video từ các nghiên cứ sẵn có.
(2) Tham khảo các bộ dữ liệu liên quan đến bài toán đã được công bố, từ đó xây
dựng bộ dữ liệu video mới gồm các cảnh quay chứa hành vi bất thường tạiViệt Nam.
(3) Tìm hiểu kỹ thuật rút trích đặc trưng cho dữ liệu video
(4) Tìm hiéu các kỹ thuật học sâu và trình bày phương pháp phát hiện bất thường
trong video dựa trên phương pháp SOTA: MIL [5] và RTFM [6].
(5) Tién hanh thuc nghiệm, so sánh và đánh giá hiệu suất phương pháp đã nghiên
cứu trên bộ dữ liệu xây dựng.
Trang 16Chuong2 TỎNG QUAN
Phan này trình bày định nghĩa bat thường, tình trạng các sự kiện bat thường ở ViệtNam, phát biểu bài toán, các thách thức, những đóng góp của khóa luận, hướng tiếpcận và bộ dữ liệu liên quan đến bài toán
dia diém va thời gian xảy ra sự kiện đó.
Kế thừa từ những định nghĩa trên, nhóm đưa ra một mô tả về bất thường theo
cách dễ hiểu hơn khi thực hiện đề tài này Hành vi được coi là bất thường khi nó
không bình thường, hiếm khi xảy ra và khác thường, bao gồm những hành vi khôngmong muốn và có thể gây ra những hậu quả nghiêm trọng đến cá nhân, tổ chức vàcộng đồng Nói cách khác, bất thường trong hành vi là hành vi được coi là lệch lạc
với các kỳ vọng của xã hội, văn hóa và đạo đức Những kỳ vọng này phụ thuộc vào
truyền thống, văn hóa, xã hội và luật pháp ở Việt Nam.
Trong xã hội ngày nay, các hành động bất thường diễn ra với tần suất ngày càngnhiều và dưới nhiều hình thức khác nhau, trong đó có thể ké đến các hành vi gây tonhại đến trật tự an toàn xã hội và thậm chí là tính mạng của con người như hành vi giếtngười, cướp giật, tai nạn giao thông, đánh nhau, âu đả, Những tác động xấu lên xã
hội do các hành vi này mang lại vô cùng lớn, đáng nói nhất chính là sự bat an và nỗi
sợ hãi kéo dài của người dân.
Trang 172.1.2 Tình trạng các sự kiện bất thường ở Việt Nam
Ngày nay, mặc dù toàn Đảng toàn dân đang chung tay xây dựng xã hội văn minh
tiến bộ nhưng những hành vi bất thường gây nguy hiểm van còn tôn tại và diễn raphức tạp bang nhiều hình thức Trong 10 tháng đầu năm 2021, tổng cộng có 34,638
vụ phạm tội về trật tự xã hội xảy ra trong cả nước, trong đó có 3,987 vụ mang tính
chất nghiêm trọng và đặc biệt nghiêm trọng, tăng 15.57%, nổi bật là 24 vụ giết người
cướp tài sản; 22 vụ giết người từ 2 người trở lên; nhiều vụ giết người thân trong giađình Bên cạnh đó, tinh trạng các đối tượng ở độ tuổi thanh thiếu niên đánh nhau ởđịa phương làm nhiều người chết và bị thương; bạo lực gia đình, bạo hành, xâm hạitrẻ em tăng (số vụ giao cấu với trẻ em tăng 2.81%; mua bán người dưới 16 tuôi tăng
66.67%) Theo Phó Chánh Văn phòng Bộ Công an, dịch bệnh COVID-19 cũng ảnh
hưởng đến số vụ vi phạm quy định về an toàn ở nơi đông người, làm gia tăng 44.44%;chống người thi hành công vụ tăng 37.08%, trong đó, chống lại lực lượng phòng,chống dịch COVID-19 và lực lượng công an tăng 56.34% Nhóm tội phạm xâm phạm
sở hữu (cướp, cướp giật, cưỡng đoạt, lừa đảo, trộm cắp) chiếm tỉ lệ cao (49.67%),trong đó, tội phạm lừa đảo, chiếm đoạt tài sản tăng 4.51%
Đề xử lý các hành vi này, nhà nước đã ban hành các quy định pháp luật xử phạt
đối với các hành vi bất thường trong xã hội nhằm phòng tránh, giáo dục và bảo vệ
người dân khỏi những hậu quả không mong muốn Mặc dù điều này đã phần nào tạo
ra những chuyên biến tích cực trong đời sống xã hội của người dân Việt Nam nhưng
dé xử lý triệt dé các van nạn này vẫn còn là thách thức lớn đối với các cơ quan, bộ
phận quản lý.
2.2 Phát biểu bài toán
Trong phạm vi đề tài này, chúng tôi hướng đến giải bài toán phát hiện sự kiệnbất thường trong video được quay tại Việt Nam theo cách tiếp cận giám sát yếu Bài
toán được xác định như sau (xem Hình 2-1):
e Đầu vào: video được quay trong thực tế tại Việt Nam
Trang 18e Đầu ra: kết quả dự đoán khung hình nào là bất thường và khung hình nào là
bình thường trong video.
Hình 2—1: Bài toán phát hiện bất thường trong video tại Việt Nam Đầu vào (bên
trái) là một video và đầu ra (bên phải) là kết quả dự đoán trên từng khung hình Các
khung hình viền đỏ thuộc phân đoạn được dự đoán có chứa bat thường
Bài toán phát hiện bất thường trong video giám sát là một trong những nhiệm
vụ quan trọng hiện nay giúp phát hiện được sự kiện bất thường xuất hiện trong video,
là tiền đề để xây dựng các công cụ phát hiện bất thường một cách tự động Việc hiểu
những hành vi bất thường xuất hiện trong video mang lại rất nhiều lợi ích cho việcthông báo và dự đoán những chuyện không mong muốn có thể xảy ra dé kịp thời xử
lý cũng như việc tập hợp được các phân đoạn có chứa bất thường trong video gópphần đây nhanh quá trình điều tra, tìm kiếm
2.3 Thách thức của bài toán
Không giống với những bài toán khác, phát hiện hành vi bất thường giải quyếtcác sự kiện hiếm gặp, không thé đoán trước hình thức diễn ra của chúng sẽ như thénào, điều này dẫn đến nhiều khó khăn khi nghiên cứu bài toán phát hiện bất thường
nói chung và bài toán phát hiện bất thường tại Việt Nam nói riêng
Qua khảo sát về các bộ dữ liệu có sẵn liên quan đến bài toán phát hiện hành vi
bat thường, có những bộ dữ liệu chi lay video từ phim ảnh [4] (xem Hình 2—2) mà
không phải trích xuất từ camera giám sát, điều này làm giảm di tính thực tế của bộ
6
Trang 19dữ liệu và hầu hết các bộ đữ liệu sẵn có đều không chứa các hành vi bất thường được
quay trong bối cảnh Việt Nam Đề giải quyết van đề này thì việc xây dựng một bộ dit
liệu video bất thường mới tại Việt Nam là điều cần thiết Tuy nhiên tại Việt Nam, các
video chứa hành vi bất thường mang tính bạo lực như đánh nhau, bắn súng, cướp giật, bị hạn chế chia sẻ rộng rãi vì một số điều luật liên quan đến an ninh mạng Khôngnhững thế, những video này thường đã qua chỉnh sửa thủ công khá nhiều như cắt
ghép, tốc độ được điều chỉnh nhanh hoặc chậm hơn bình thường, chứa hiệu ứng âm
thanh hoặc chất lượng video thấp, sự kiện bất thường nằm cách xa camera nên khôngthé hiện rõ ràng, tat cả những điều này đều gây cản trở và mat nhiều thời gian trongquá trình thu thập và làm sạch dữ liệu Cùng với đó, sự đa dạng về bối cảnh diễn ra
sự kiện bat thường trong video và sự không cô định về định nghĩa bất thường cũnggây ra nhiều thách thức cho bài toán (Hình 2-3) Dé tăng hiệu suất phát hiện batthường đòi hỏi các mô hình phải hiểu tường tận tat cả thông tin liên quan đến sự kiện
vì để xác định một hành vi bất thường cần phải dựa vào ngoại hình, chuyên động của
đối tượng và cả ngữ cảnh trong video đó Có những hành vi được xem là bất thường
trong ngữ cảnh nay nhưng lại là bình thường trong ngữ cảnh khác Ví dụ hai người
đánh nhau trên đường phố là bất thường, nhưng trong ngữ cảnh phim trường của một
phim hành động thi đây được xem là bình thường Bên cạnh đó, vì những sự kiện bất
thường xảy ra với tần suất thấp trong thực tế nên việc thu thập một bộ dữ liệu bất
thường lớn và đầy đủ là điều vô cùng khó Trong quá trình gán nhãn, sự chủ quan,
kinh nghiệm và suy nghĩ của mỗi cá nhân cũng ảnh hưởng ít nhiều đến quan điểmtrong việc xác định khung hình bắt đầu đến khung hình kết thúc sự kiện bất thường
trong video Ngoài ra, trong khoảng thời gian có giới hạn dé thực hiện khóa luận, cầnxây dựng một bộ dữ liệu mới sao cho đáp ứng về mặt số lượng và chất lượng dé cácphương pháp học mang lại hiệu quả cao cũng là một thách thức lớn.
Trang 20Hình 2-2: Ví dụ video đánh nhau từ bộ dữ liệu phim hành động (the action movie
dataset) [4]
Hình 2-3: Một số ví dụ về sự đa dạng ngữ cảnh được quay từ camera an ninh tại
Việt Nam.
Ngoài những khó khăn liên quan đến dữ liệu, bài toán còn gặp những thách thức
về mặt kỹ thuật Nếu như hướng tiếp cận có giám sát gặp khó khăn và tốn nhiều chiphí trong việc thu thập dữ liệu bất thường được gán nhãn quy mô lớn và được đánh
giá là không khả thi vì không thể tổng quát toàn bộ những hành vi bất thường thì
8
Trang 21hướng tiếp cận không giám sát lại thường không đạt kết quả tốt do không được họcbat kỳ kiến thức nào về hành vi bất thường thực sự trước đó, chỉ còn hướng tiếp cận
giám sát yếu là ôn định Vì vậy, chúng tôi quyết định chọn phương pháp MIL [5] va
RTFM [6] dé tiến hành thực nghiệm và đánh giá
2.4 Đóng góp của nghiên cứu
Xây dựng thành công bộ dữ liệu video mới về các sự kiện bất thường được quay
tại Việt Nam (tông thời lượng hơn 150 phút) với 6 loại bat thuong: Tai nan giao
thông, Đánh nhau, Cướp giật, Trộm chó, Chong đối người thi hành công vụ va Hanh
vi phi thể thao, có tên là UIT—Anomaly
Trình bày các phương pháp phát hiện đối tượng trong video theo hướng tiếp cậngiám sát yếu, cụ thể là MIL [5] và RTFM [6] So sánh và đánh giá kết quả thực
nghiệm trên bộ dữ liệu UIT—Anomaly dựa trên độ đo ROC—AUC.
Báo cáo tổng hợp về toàn bộ quá trình nghiên cứu bao gồm giới thiệu bài toán,trình bay các công trình nghiên cứu liên quan trên thé giới, quá trình xây dựng bộ dữliệu, phương pháp thực nghiệm cũng như phân tích đánh giá kết quả đạt được trên bộ
dữ liệu thu thập, từ đó đưa ra những hướng phát triển trong tương lai
2.5 Cấu trúc báo cáo
Báo cáo khóa luận bao gồm 6 chương với các nội dung chính như sau:
Chương 1: Mở đầu
Nội dung chương này sẽ trình bày động lực nghiên cứu, mục đích, đối tượng và phạm
vi nghiên cứu.
Chương 2: Tổng quan
Phần này trình bày định nghĩa bắt thường, tình trạng các sự kiện bat thường ở Việt
Nam, phát biéu bài toán, các thách thức, những đóng góp của khóa luận, hướng tiếp
cận và bộ dt liệu liên quan đến bài toán
Chương 3: Nghiên cứu thực nghiệm
Trang 22Trình bày ý tưởng của các phương pháp được sử dụng.
Chương 4: Xây dựng bộ dữ liệu phát hiện bat thường trong video tại Việt Nam
Giải thích lí do xây dựng bộ dữ liệu mới — UIT—Anomaly, đồng thời mô tả toàn bộquá trình xây dựng bộ dữ liệu Sau đó, phân tích và thống kê các số liệu liên quan đến
bộ dữ liệu.
Chương 5: Thực nghiệm và đánh giá.
Trình bày cách cài đặt thực nghiệm, các thông số và đánh giá kết quả thu được dựa
vào độ đo ROC-AUC Phân tích các trường hợp đạt kết quả tốt và không tốt Miêu
tả chương trình minh họa.
Chương 6: Kết luận và hướng phát triển
Tổng hợp các kết quả đạt được sau khi thực hiện đề tài và từ đó đề ra hướng pháttriển trong tương lai
2.6 Cac nghiên cứu liên quan
2.6.1 Cac hướng tiếp cận
Có thé hiểu nhiệm vụ phát hiện bat thường là nhiệm vụ phân loại hai lớp bìnhthường và bất thường Tuy nhiên, do các lớp bất thường không nhất quán và trongcùng một lớp bất thường, không thể đoán trước được hành vi bất thường đó sẽ diễn
ra như thế nào nên việc thu thập một bộ dữ liệu đa dạng chứa tất cả các loại bất thườngtrong thực tế là điều nan giải Thế nên việc phát hiện bất thường được giám sát đầy
đủ được xem là không thực tế [7]
Ngoài ra, khác với những bài toán triển khai trên dữ liệu quen thuộc và có sốlượng lớn, phát hiện bất thường phải đối mặt với vấn đề mắt cân bằng trong dữ liệu
Cả số lượng và thời lượng sự kiện bất thường đều chiếm tỉ lệ thấp hơn hoặc có thểnói là bị lan át hoàn toàn bởi sự kiện bình thường do tính chất sự kiện bất thường lànhững sự kiện hiểm gặp trong thực tế Do đó, nhiệm vụ phát hiện bat thường đòi hỏi
các cách xử lý và tiép cận khác với các bài toán phân loại khác.
10
Trang 23Tùy thuộc vào cách gán nhãn của dit liệu huấn luyện, các phương pháp phát
hiện bất thường trong video được phân loại theo 3 hướng tiệp cận: không giám sát,
có giám sát và giám sát yếu [8]
2.6.2 Hướng tiếp cận không giám sát
Như đã nói trên, thách thức của bài toán phát hiện bất thường là việc thiếu dữ
liệu, các sự kiện bất thường diễn ra với tần suất thấp trong thực tế, điều này gây khó
khăn cho việc thu thập một bộ dữ liệu chứa đầy đủ các hành vi này Trái lại, SỐ lượngvideo bình thường lại vô cùng dồi dao và dé dang thu thập Do đó, các phương phápthuộc hướng tiếp cận không giám sát chỉ học những video không chứa hành vi batthường trong quá trình huấn luyện Điều này giúp tiết kiệm rất nhiều thời gian vàcông sức trong việc xây dựng bộ dữ liệu vì tập huấn luyện chỉ có video bình thườngnên không cần gán nhãn Cùng với đó, những video có chứa sự kiện bất thường sẽđược thu thập dé phuc vu cho muc dich kiém tra
Nhóm các phương pháp thuộc hướng tiếp cận này tập trung tìm hiểu đặc trưng
của các khung hình bình thường trong tập huấn luyện và sau đó dự đoán các khunghình trong tập kiểm tra có chứa sự kiện bất thường hay không dựa vào hàm tính độlỗi tái tạo hoặc dự đoán của mô hình Hướng tiếp cận này được cho rằng có khả năngtông quát hóa các hành vi bat thường tốt, nghĩa là không chỉ có thé phát hiện các hành
vi bất thường đã biết mà còn cả các loại bất thường mới [7] Tuy nhiên, các mô hìnhtrong hướng tiếp cận này có thé hoạt động không hiệu quả khi dữ liệu bình thường có
phân phối phức tạp [7], điều này ảnh hưởng không tốt đến khả năng dự đoán và làm
tăng tỉ lệ cảnh báo giả của mô hình.
2.6.2.1 Tdi tạo đặc trưng
Những phương pháp tái tạo đặc trưng tập trung vào việc học cách tái tạo lại một
khung hình trong các video huấn luyện Đối với nhóm phương pháp này, tập huấnluyện chỉ gồm những video bình thường và với cách học tái tạo khung hình sẽ giúp
mô hình học được những đặc trưng quan trọng của các sự kiện bình thường Những
đặc trưng bình thường mà mô hình học được sẽ được đưa vào module phân loại.
lãi
Trang 24Theo [9], autoencoder (Hình 2—4) là một loại mạng nơ-ron nhân tạo được huấn
luyện dé học cách tái câu trúc dit liệu gần giống với đầu vào ban đầu của nó hiệu qua
theo cách không giám sát Autoencoder network bao gồm 2 phan: encoder và decoder,
2 thành phần này bao gồm các lớp fully connected layers Hàm encoder có nhiệm vụgiảm số chiều đặc trưng nhỏ hơn số chiều ban đầu của khung hình đầu vào dé tránh
việc tái tao lại khung hình một cách hoàn hảo Sau đó, mục đích của hàm decoder là
cố gang tái tạo lại khung hình từ những đặc trưng đã giảm chiều càng giống với khung
hình đâu vào của nó càng tôt.
Input Y Output
Hình 2-4: Kiến trúc mang co ban của mang Autoencoder
Trong nhiém vu phat hién bat thường, mang Autoencoder được huấn luyện dựa
trên các khung hình bình thường, với mục tiêu trước tiên là giảm chiều đặc trưngkhung hình đầu vào và sau đó tái tạo lại các khung hình đó ở đầu ra Trong quá trìnhgiảm chiều dữ liệu, mạng phải học cách ưu tiên những đặc trưng có ích và có thé tái
tạo chúng trở lai gần giống với khung hình đầu vào ở đầu ra Y tưởng chính của mạng
là khi áp dụng mô hình trên dữ liệu tương lai không giống với dữ liệu đầu vào để môhình có thê nhận ra dữ liệu bất thường, tức là dữ liệu trông khác với dữ liệu đầu vào.Một khung hình có biểu hiện bất thường sẽ ảnh hưởng đến quá trình tái tạo, khi điềunày xảy ra, lỗi tái tạo sẽ gia tăng khi cấu trúc lại khung hình đầu vào Băng cách theo
12
Trang 25dõi lỗi tái tạo, mô hình có thê dự đoán được khung hình nào có khả năng là bất thường.
Weixin Luo và cộng sự [10] đã đề xuất framework ConvLSTM-AE (Hình 2-5), là
sự kết hợp của FCN (Fully Convolution Network) và LSTM với Auto Encoder (AE)
Dé xem xét có sự xuất hiện của bat thường hay không, mô hình không chỉ tái taokhung hình hiện tại mà còn tái tạo những khung hình trong quá khứ, nắm bắt sự phụ
thuộc thời gian, để tính lỗi tái tạo về sự thay đôi ngoại hình hoặc chuyền động của sự
kiện bình thường Điều này giúp nâng cao hiệu suất của phương pháp tái tạo đặctrưng Tuy nhiên, những phương pháp theo hướng này thường gặp phải vấn đề quákhớp, có khả năng tái tạo tốt ở cả khung hình bình thường và bất thường với độ lỗitái tạo nhỏ, dẫn đến khó phát hiện khung hình bất thường
T j
-HïIx "II"
Hình 2-5: Kiến trúc phương pháp ConvLSTM-—AE [10]
2.6.2.2 Dự đoán khung hình
Nhóm phương pháp dự đoán khung hình tập trung tìm hiểu cách dự đoán các
khung hình hiện tại dựa vào các đặc trưng của các khung hình trước đó Sau đó, khung
hình vừa được dự đoán sẽ được so sánh với khung hình thực tế và dựa vào hàm lỗi
để so sánh sự khác nhau giữa chúng để xác định khung hình đó là bình thường haybất thường Ngoài tái tạo đặc trưng, nhóm phương pháp dự đoán khung hình cũng thu
hút được nhiều sự quan tâm trong phát hiện bất thường không giám sát
13
Trang 26Future Frame Prediction (FFP) [11] là thuật toán điển hình trong hướng tiếp cậnnày Từ điểm yếu của hướng tái tạo đặc trưng, tác giả của FFP đã đề xuất thay đổi
đầu vào của khung hình hiện tại như trong AE bằng các khung hình đứng trước khung
hình đang xét dé tránh trường hợp tái tạo quá tốt, vì thế phương pháp này được gọi là
dự đoán thay vì tái tạo Vì vậy phương pháp này vừa đảm bảo khung hình hiện tại có
thé mang những đặc điểm về hình dáng và chuyển động từ những khung hình liền
trước nó, vừa có thê hạn chế vấn đề quá khớp vì dự đoán khung hình không sử dụngkhung hình hiện tại làm đầu vào Ý tưởng về GAN (Generative Adversarial Network)
[12] được tác gia sử dung cho phương pháp nay GAN bao gồm Generator có nhiệm
vụ tạo ra các khung hình thật nhất và giống nhất có thể với khung hình dự đoán nhất
va Discriminator có vai trò phân biệt khung hình được tạo ra là giả hay thật Ngoài
ra, Liu và cộng sự [11] đã đề xuất mạng Flownet dé trích xuất đặc trưng chuyển động
(optical flow) trong các chuỗi ảnh và bổ sung bộ tạo ảnh U-Net trong Generator détrích xuất đặc trưng ngoại hình tốt hơn, nhằm cải thiện khả năng dự đoán khung hình
trong mang GAN của mình Quá trình huấn luyện FFP được mô tả trong Hình 2-6
Ie
|
Se Flownet Ea Ị IN Optical } Discriminator
âm Flow Loss Hail
Ty, lạ, , Ï; |
(U-Net) Fy’
Hình 2-6: Quá trình huấn luyện phương pháp FFP [11]
2.6.3 Hướng tiếp cận có giám sát
Real or Fake Intensity Loss and
Gradient Loss
Đối với hướng tiếp cận này, tất cả video trong tập huấn luyện và kiểm tra của
bộ dir liệu đều cần phải gán nhãn mức khung hình (frame-level), nghĩa là xác địnhmột khung hình là bình thường hay bat thường Ngoài ra, vì bản chat các sự kiện bat
thường là những sự kiện hiếm khi xảy ra và không thé dự đoán trước được cách mà
những sự kiện này sẽ diễn ra như thé nào, do đó việc thu thập day đủ các thé hiện của
14
Trang 27hành vi bất thường trong thực tế sẽ là điều vô cùng khó khăn hay thậm chí là không
khả thi Điều này đã khiến hướng tiếp có giám sát mất nhiều thời gian và công sức
hơn so với hai hướng tiếp cận còn lại trong quá trình xây dựng bộ dữ liệu
Đối với các công trình phát hiện bất thường trong giao thông như [13], [14] đã
tiếp cận theo hướng có giám sát, các mô hình được huấn luyện trên video được gán
nhãn mức khung hình, tức biết được thời gian bắt đầu và kết thúc các sự kiện bất
thường có trong video.
Một cách giải quyết phổ biến của hướng tiếp cận này là tận dụng những kiếnthức biết trước liên quan đến sự kiện bất thường đang quan tâm dé giải quyết van đề.Chang hạn như đối với bài toán phát hiện hành vi bạo lực có thé được phân tách thànhmột hoặc vài bài toán xác định khác như nhận ra một số một số đặc điểm liên quan
(tiếng phanh xe, vụ nô, súng, dao, máu, lửa và các loại vũ khí khác) [15], [16], [17],
[18], [19] và nhận dạng hành động (chiến tranh, bắn súng, ) [17], [18], [19] Tuynhiên, phương pháp này bị hạn chế bởi hai nhược điểm: tỉ lệ phát hiện thấp và cảnh
Trang 282.6.4 Hướng tiếp cận giám sát yếu
Ở hướng tiếp cận này, những video huấn luyện chỉ cần gán nhãn mức video,điều này giúp tiết kiệm thời gian gán nhãn so với hướng tiếp cận có giám sát Ngoài
ra, hướng tiếp cận giám sát yếu chỉ yêu cầu một số dữ liệu về bất thường nên côngviệc thu thập chúng cũng sẽ khả thi hơn so với hướng tiếp cận giám sát đầy đủ Còn
so với hướng tiếp cận không giám sát chỉ huấn luyện mô hình trên những dữ liệu bìnhthường thì hướng tiếp cận giám sát yếu mang lại kết quả tốt hơn vì dit liệu huấn luyện
có nhăn mức video là bình thường và bat thường Vì vậy, tiếp cận bài toán theo hướng
giám sát yếu vô cùng cần thiết trong mục tiêu cải thiện độ chính xác phát hiện bất
thường với chi phí thu thập và gan nhãn tương đối nhỏ [6] Theo [21] có 3 hình thức
gán nhãn chính theo hướng giám sát yếu:
— Không đầy đủ: chỉ một tập hợp nhỏ của dữ liệu huấn luyện được gán nhãn
trong khi những dữ liệu khác thì chưa được gán nhãn.
— Không chi tiết: đữ liệu huấn luyện không được gán nhãn cụ thể mà chỉ được
gan tong thé
— Không chính xác: nhãn đã cho không phải lúc nao cũng đúng.
Điều này có nghĩa là mặc dù tập huấn luyện của hướng tiếp cận giám sát yếu
không được gán nhãn rõ ràng trên từng khung hình như hướng có giám sát nhưng yêucầu mô hình phải học được cách phát hiện bat thường rõ ràng trên từng khung hình,
do tập kiểm tra của hướng tiếp cận này vẫn được gán nhãn mức khung hình Vì vậy,
so với hướng tiếp cận có giám sát thì chi phí xây dựng bộ dữ liệu của giám sát yếurất thấp Tuy nhiên, hiệu suất của hướng giám sát yếu vẫn vượt trội hơn so với các
phương pháp không giám sát [22].
Một trong số các phương pháp giám sát yếu SOTA hiện nay là MIL (MultipleInstance Learning), nhãn dữ liệu huấn luyện của phương này thuộc hình thức gán
không chi tiết và MIL có khả năng học được cách dự đoán bat thường trên từng thể
hiện/khung hình (instance/frame—level) thông qua nhãn được gan ở mức túi (bag—level) Đối chiếu sang bài toán phát hiện bất thường, chỉ nhãn của video (túi) được
16
Trang 29cung cấp trong quá trình huấn luyện thay vì nhãn được gan chi tiết trên mỗi khung
hình (thể hiện) như hướng tiếp cận có giám sát Một video được gán là bình thường
nếu video đó không có khung hình nào chứa sự kiện bất thường và ngược lại một
video chỉ cần chứa một khung hình có sự kiện bat thường thì video đó sé được gan là bất thường Nói cách khác, một video có nhãn bất thường là video chứa một hoặc
nhiều cảnh bắt thường nhưng vẫn có thể chứa sự kiện bình thường, còn video có nhãn
bình thường là video chỉ chứa sự kiện bình thường Mặc dù trong quá trình huấn luyện
ngoài nhãn của mỗi video thì không có thông tin nào khác về thời điểm các hành vibất thường xảy ra nhưng mô hình phải học được cách tìm ra phân đoạn có chứa bấtthường trong video (nếu có) khi kiểm tra
Multiple Instance Learning:
Hình 2-8: Minh họa tập huấn luyện của MIL [23]
Tuy nhiên, một trong những thách thức lớn của việc phát hiện bất thường giámsát yếu là làm thé nào dé xác định được các phân đoạn bat thường từ toàn bộ videođược gán nhãn là bất thường Có hai lí do dẫn đến điều này: trong quá trình huấnluyện các phân đoạn bắt thường có thé sẽ bị lan án bởi số lượng áp đảo của phân đoạn
bình thường trong video bất thường và các phân đoạn bất thường không đủ khác biệt
so với các phân đoạn bình thường nên dẫn đến việc phân biệt rõ ràng giữa phân đoạn
bình thường và bat thường là một thách thức [6].
17
Trang 302.6.5 Framework phát hiện bất thường sử dung MIL
Một hệ thống phát hiện bất thường sử dụng MIL thường bao gồm ba thành phầnchính: chia phân đoạn, trích xuất đặc trưng và phân lớp phân đoạn, kết hợp cùng với
các bước xử lý trước và sau huân luyện, được mô tả như Hình 2-9.
Tiền xử lý Chia phan đoạn
Instance scores in positive bag
MIL Ranking Loss with sparsity and smoothness constraints
Hình 2-10: So đồ hoạt động của phương pháp MIL Các video bat thường va video
bình thường sẽ được chia thành nhiều phân đoạn tạm thời (temporal segments) Cácvideo lúc này được thể hiện dưới dang một túi gồm các phân đoạn tạm thời, trong
đó một phân đoạn tạm thời là một thể hiện (instance) trong tui Sau khi rút trích đặctrưng C3D của các phân đoạn, MIL huấn luyện mạng FCNN băng cách sử dụng
một hàm mục tiêu xếp hang (ranking loss) dé xếp hang các thể hiện có điểm số bat
thường (anomaly score) cao nhất trong túi bình thường và túi bất thường
2.6.5.1 Tiền xử lý
Giống với các bài toán phát hiện trên ảnh, những video cũng cần tiền xử lý để
đưa các khung hình về cùng một kích thước Một trong những cách phô biến đề thực
hiện là trừ cho hình ảnh trung bình (mean image) dé giới hạn miền giá tri trong đoạn[0 1] hoặc [—1, 1] [24] Giá tri từng điểm ảnh trên hình ảnh trung bình lá giá tri trung
bình của các điêm ảnh có cùng vi trí ở tat cả các hình ảnh có trong tập huân luyện.
18
Trang 31Image,[x] + Image;[x] + Image3[x] + + Imagey [x]
Mean Image [x] = N
Trong đó, N là tổng số lượng ảnh/khung hình trong tập huấn luyện va x là vị tríđiểm ảnh Mục tiêu chính dé thực hiện việc chuẩn hóa nay là đưa kích thước các hìnhảnh về quy mô chung mà vẫn không làm sai lệch sự khác biệt trong phạm vi của các
giá trị [5] chuẩn hóa bằng cách sử dụng tập 16 ảnh trung bình vì số lượng khung hìnhđầu vào của mạng C3D [25] là 16, được huấn luyện trước trên bộ dit liệu Sports—1M
[26].
Công trình [27] còn dé xuất phương pháp tập trung vào vùng thông tin quan
trọng, cần chú ý (attention region) từ thông tin không gian mà không cần học toàn bộ
thông tin trong khung hình như những công trình trước đó Phương pháp nay sử dụng
kết hợp phép loại bỏ nền (background subtraction) và bộ lọc song phương (bilateral
filter) dé khoanh vùng các vùng thông tin cần chú ý giúp cải thiện hiệu suất quá trình
phát hiện bat thường Cụ thé, bộ lọc song phương có nhiệm vụ giảm nhiễu từ cáckhung hình được quay ở môi trường bên ngoài có thé là sự che khuất, độ sáng, độnhòe [28] và phép loại bỏ nền giúp tìm ra các đặc điểm tiền cảnh cần chú ý(foreground) Cuối cùng, chỉ các vùng chú ý nay được đưa qua mạng dé rút trích đặc
trưng.
19
Trang 32Visual attention
detection
Hình 2—11: Quá trình tiền xử lý sử dụng phương pháp xác định vùng chú ý [27]
2.6.5.2 Chia phân đoạn
Hiện nay, nhóm phương pháp giám sát yêu hướng tới việc xem bài toán phát
hiện bất thường như bài toán phân lớp cho từng phân đoạn trong video Giai đoạn
chia phân đoạn giúp chia video thành nhiều phân đoạn nhỏ trước khi thực hiện phânlớp Theo như tìm hiểu, có hai cách chia phân đoạn phô biến: phân đoạn có kích thướcphụ thuộc vào độ dài của video và phân đoạn với kích thước cố định, được trình bày
cụ thé dudi đây:
— Phân đoạn có kích thước phụ thuộc vào độ dài của video: mỗi video sẽ được
phân thành các phân đoạn nhỏ với số lượng có định, nghĩa là số lượng phânđoạn sau khi được chia từ các video là bằng nhau, dù thời lượng của mỗi video
khác nhau Với cách chia này thì thời lượng của các phân đoạn trong cùng một
video sẽ bằng nhau nhưng có thê sẽ khác nhau nếu chúng nằm trong các video
có thời lượng dai hay ngắn hon Ví dụ: tap dit liệu gồm hai video: video A dai
20 giây và video B dài 40 giây, sau khi chia phân đoạn với số lượng định sẵn
là 4 thì video A được chia thành 4 phân đoạn 5 giây va video B cũng được chia
thành 4 phân đoạn nhưng mỗi phân đoạn dai 10 giây Điều này nhằm đem lại
sự nhât quán, có thê xử lí video với thời lượng dài ngăn khác nhau mà vân
20
Trang 33không phat sinh thêm chi phí tính toán Kế thừa từ Sultani và cộng sự [5], [29],[22] và RTFM [6] đã chia mỗi video thành 32 phân đoạn không trùng lắp nhau.Phân đoạn với kích thước cố định: ngược lại với cách chia trên, kích thước củamỗi phân đoạn là như nhau bat kê thời lượng video dài ngắn như thé nào Điềunày có nghĩa là một video dài sẽ được chia thành nhiều phân đoạn hơn một
video ngắn Cách chia này sẽ giúp hạn chế tình trạng các đặc trưng bình thườnglấn at các đặc trưng bat thường đối với sự kiện bat thường ngắn (chiếm phan
nhỏ trong phân đoạn) ma cách chia phân đoạn với kích thước phụ thuộc vào
độ dài video mắc phải [30] [27], vì mạng rút trích đặc trưng C3D [25] xử lý
từng phân đoạn có 16 khung hình nên tác giả đã chia các video thành từngphân đoạn có kích thước cố định là 160 khung hình Cùng lí đo đó, nhưng [31]chia thành các phân đoạn có kích thước 16 khung hình [32] cũng sử dụng cách
chia phân đoạn với thời lượng cố định, nhưng nhóm tác giả của nghiên cứunày cho rằng các khung hình liền kề nhau thường không có sự thay đổi đáng
kề nên họ chỉ chọn một vài khung hình từ một phân đoạn bằng cách lay mauthưa ngẫu nhiên (random sparse-sampling) dé rút trích thay vì sử dụng toàn
bộ khung hình từ phân đoạn đó, như vậy sẽ huấn luyện được bộ phân lớp hiệuquả hơn [33] thì chia phân đoạn với thời lượng cố định là 15 khung hình vìnghiên cứu này sử dụng mạng ResNet50 dé rút trích đặc trưng trên từng khunghình rồi tính trung bình 15 vector đặc trưng ấy đại diện cho cả phân đoạn
Dù chia phân đoạn theo cách nào thì thời lượng hay kích thước của các phân
đoạn trong cùng một video sau khi chia đều phải bằng nhau
2.6.5.3 Trích xuất đặc trưng
Công việc trích xuất đặc trưng các phân đoạn là giai đoạn được thực hiện táchbiệt trước khi bắt đầu huấn luyện trình phân lớp Dù sử dụng phương pháp rút trích
đặc trưng dựa trên khung hình hay trên đoạn video thì đặc trưng của phân đoạn cũng
được suy ra bằng cách tính trung bình các đặc trưng của các thành phần thuộc phân
đoạn đó.
21
Trang 342.0.5.4 Phân lớp phân đoạn
Trong mô hình, phần sẽ được huấn luyện bắt đầu từ mạng nơ-ron được kết nốiđầy đủ (Fully Connected Neural Network — FCNN) với đầu vào là vector có 4096chiều Thành phần này có nhiệm vụ xác định đâu là phân đoạn bình thường và đâu làphân đoạn bat thường
Mạng FCNN gồm ba lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 1 đơn vị, giữacác lớp đều được sử dụng dropout 60% đề giảm thiểu việc học quá khớp [5] sử dụnghàm kích hoạt ReLu [34] cho lớp FC đầu tiên và Sigmoid cho lớp FC cuối cùng Dùđầu vào là video bình thường hay bat thường thì sau khi qua mạng FCNN đều sẽ tính
ra điểm số bất thường cho các phân đoạn trong mỗi video Sau đó, MIL sẽ sử dụngmỗi phân đoạn có điểm số bất thường cao nhất dé đại diện cho cả video với nhãnđược giả định giống với nhãn của video Từ đó, MIL sẽ tính hàm mục tiêu rankingloss từ các phân đoạn có điểm số bất thường cao nhất từ video bình thường và bấtthường Rank loss bao gồm ba thành phan: hàm mục tiêu đối ngoại (outer bag loss)
đi kèm với hai thành phần ràng buộc về tính trơn tru (smoothness) theo thời gian vàràng buộc về tính thưa thớt (sparsity) được mô tả như Hình 2-12 Trong đó, hàm mục
tiêu đôi ngoại được tính như sau:
loueer = max (0,1 — max s{;) + max s(//))
Trong đó: F;, Fj lần lượt là video bat thường và video bình thường f;, fj lần lượt
là phân đoạn thuộc video bat thường và video bình thường s(f,) là điểm số bat thường của các phân đoạn Hàm mục tiêu này nhàm làm cho điểm số của phân đoạn bat thường phải cao hơn điểm số của phân đoạn bình thường Điều này cũng đồng nghĩa rằng phân đoạn bắt thường có điểm số càng cao và phân đoạn
bình thường có điểm số càng thấp thì càng tốt.
22
Trang 35Dropout 60%
MIL Ranking Loss with sparsity and smoothness constraints
Hình 2—12: Trình phan lớp [5] sử dụng.
2.6.5.5 Hậu xử lý
Như đã phân tích trong các mục trước, mặc dù được huấn luyện trên nhãn mức
video nhưng tập kiêm tra của bộ dữ liệu theo hướng giám sát yếu vẫn được gan nhãnmức khung hình Vì vậy, dé phục vụ cho công đoạn đánh giá thì các phương phápphải dự đoán được sự kiện bất thường trên từng khung hình chứ không dừng lại ở
mức video hay phân đoạn Sau khi có được kết quả của bước phân lớp phân đoạn,
giai đoạn hậu xử lý có nhiệm vụ chuyền đôi điểm số bất thường của mỗi phân đoạn
thành điểm số bắt thường trên từng khung hình [5] đã đề xuất rằng điểm số bất thườngcủa phân đoạn cũng chính là điểm số bất thường của tất cả khung hình thuộc phân
đoạn đó, đây cũng là cách mà các phương pháp khác áp dụng.
2.6.6 Các bộ dữ liệu cho bài toán phát hiện bất thường
Trong những năm gần đây, do thu hút được sự quan tâm trong cộng đông thịgiác máy tính, các nhóm nghiên cứu đã xây dựng và đề xuất những bộ dữ liệu để phục
vụ cho nhiệm vụ phát hiện bất thường Dựa vào ngữ cảnh, những bộ dữ liệu này có
thê được chia thành hai nhóm chính sau: bộ dữ liệu đơn cảnh và bộ đữ liệu đa cảnh
Bang 2—1 sẽ trình bày thông tin chỉ tiết về các bộ dữ liệu này
23
Trang 36Bảng 2-1: Tóm tắt thông tin các bộ dữ liệu cho phát hiện bat thường và bộ dữ liệu
384x 512
384x 512
158 x 238
240 x 360
360 x 640
480 x 856
Trang 372.6.6.1 Bộ dữ liệu đơn cảnh
Nhóm bộ dữ liệu đơn cảnh bao gồm các bộ dữ liệu không đa dạng trong cảnh
quay (thường ít hơn 3 cảnh) Bởi vì trước đây khi thiết bị an ninh chưa phổ biến vàđược lắp đặt ở nhiều nơi như hiện nay nên việc thu thập được video quay từ camera
giám sát đã gặp nhiều khó khăn, chưa ké đến góc quay Do đó đã có các bộ dit liệu
đơn cảnh được đề xuất trong suốt những năm qua là điều dễ hiểu Tuy nhiên trongthời diém hiện tại, những bộ dữ liệu đơn cảnh gặp phải van đề thiếu sự đa dang, điềunày ảnh hướng không tốt đến khả năng ứng dụng vào thực tế Một số hình ảnh củacác bộ dit liệu đơn cảnh thường được sử dụng để giải quyết bài toán được thé hiện
Bộ dữ liệu UMN [27] bao gồm 11 video ngắn được quay trong 3 cảnh khác
nhau: sân ngoài trời, không gian và tiền sảnh trong nhà Bộ dữ liệu có tổng cộng 3,855khung hình với mỗi khung hình có độ phân giải 240 x 320 UMN chỉ có một loại bấtthường đó là hành động tất cả mọi người đột ngột bỏ chạy Bộ dữ liệu cung cấp nhãn
25
Trang 38ở mức khung hình nhưng không có quy định rõ ràng về việc chia khung hình huấnluyện và khung hình kiểm thử.
Bộ dữ liệu Subway [28] được chia thành hai bộ con là Subway Entrance vàSubway Exit tương ứng với địa điểm quay là cổng vào và công ra của trạm xe tàuđiện ngầm và bao gồm 2 video tương ứng với 2 địa điểm Video quay tại cổng vào
của tàu điện dài 1 tiếng 36 phút trong khi video tại cổng ra dài 43 phút với độ phângiải 384 x 512 Hành động hành khách nhảy ra và cố gắng vượt rào mà không thanh
toán tiền vé hoặc đi không đúng hướng chỉ dẫn là sự kiện bat thường chủ yếu có trong
bộ dữ liệu này.
Bộ dữ liệu UCSD Pedestrian [37] cũng bao gồm 2 bộ con là UCSD Ped I (Ped1) và UCSD Ped 2 (Ped 2) Bộ Ped 1 chứa 34 video huấn luyện và 36 video đánh giávới 40 sự kiện bất thường Các sự kiện bất thường thường xảy ra bao gồm đi xe đạp,
xe máy hoặc xe hơi trên làng đường dành cho người đi bộ Trong khi đó, Ped 2 bao
gồm 16 video huấn luyện và 12 video đánh giá với 12 sự kiện bất thường Các loạibat thường trong Ped 2 cũng tương tự như trong Ped 1 Tat cả sự kiện bat thường đềuxảy ra một cách tự nhiên trong thực tế và không có sự dàn dựng Hai bộ con khácnhau chủ yêu từ góc quay, kích thước bộ dữ liệu và độ phân giải của khung hình (158
x 238 ở Ped 1 và 240 x 360 ở Ped 2) Mỗi bộ con đều chỉ chứa duy nhất một cảnhquay trong toàn bộ video.
Bộ dữ liệu CUHK Avenue [38] bao gồm 16 video huấn luyện và 21 video đánh
giá với độ phân giải mỗi khung hình là 480 x 856 Bộ dữ liệu này chứa tổng cộng 47
sự kiện bất thường gồm thảy/ném vật thể, chạy, nhảy Và CUHK Avenue cũng chỉquay ở một góc cố định, tuy nhiên kích thước của người trong các khung hình có thé
thay đổi do di chuyên ra xa hoặc lại gần so với camera
2.6.6.2 Bộ dữ liệu da cảnh
Những năm trở lại đây, do nhu câu về sự đảm bảo an ninh tăng lên đã dân đên
sự phô biên vê sô lượng camera giám sát Cùng với đó, sự phát triên của các trang
mạng xã hội đã giúp những nhà nghiên cứu có cơ hội thu thập những video bat thường
26
Trang 39thuận tiện hơn ShanghaiTech [11], UCF—Crime [5] và XD—Violence [39] là những
bộ dữ liệu nỗi tiếng thường được sử dụng trong các nghiên cứu hiện nay Một vài ví
dụ được trình bày trong Hình 2-14.
Bộ dữ liệu ShanghaiTech Campus [11] được quay tại khuôn viên trong một
trường đại học bao gồm 330 video huấn luyện và 107 video đánh giá với độ phân giải
mỗi khung hình là 480 x 856 Bộ dữ liệu này chứa 130 sự kiện bất thường trong 13cảnh khác nhau cùng với điều kiện ánh sáng phức tạp và góc quay của camera
ShanghaiTech UCF - Crime XD - Violence
Bất thường
Bình thường
Hình 2—14: Một số mẫu khung hình bình thường và bat thường có trong các bộ dữ
liệu đa cảnh.
Bộ dữ liệu UCE-Crime [5] là một bộ di liệu phức tạp quy mô lớn dành cho
hướng tiếp cận giám sát yếu với tổng thời lượng 128 giờ và có độ phân giải trung
bình 240 x 320 Toàn bộ video trong bộ dit liệu này đều được quay từ camera CCTV
Bộ dữ liệu được chia làm 2 tập, trong đó, tap huấn luyện chứa 800 video bình thường
và 810 video bat thường và tập kiểm tra có 150 video bình thường và 140 video bat
thường Đây là bộ dữ liệu vô cùng đa dạng về ngữ cảnh cũng như các loại sự kiện bất
27
Trang 40thường đêu liên quan đên yêu tô an ninh va cũng là bộ dữ liệu điêm chuân thường được đê cập trong các nghiên cứu liên quan.
Bộ dữ liệu XD—Violenee [39] là bộ dữ liệu về bạo lực có quy mô lớn nhất hiệntại với tông thời lượng 217 giờ và gồm 6 loại bất thường Khác với những bộ dữ liệu
trước đó, XD—Violence được thu thập từ nhiều nền tảng khác nhau, trong đó có trích
xuất từ phim và YouTube, và các video có chứa âm thanh Bộ dữ liệu được chia thànhhai tập, tập huấn luyện bao gồm 1905 video bạo lực và 2049 video không chứa bạolực, trong khi tập kiểm tra chứa 500 video bạo lực và 300 video không chứa bạo lực.Đây cũng là bộ dữ liệu theo hướng tiếp cận giám sát yếu, số lượng video vô cùng lớn,
đa dạng về ngữ cảnh và các hành vi bat thường liên quan đên vân đê an ninh.
28