Khóa luận tốt nghiệp Khoa học dữ liệu: Phát hiện bất thường trong video tại Việt Nam theo cách tiếp cận giám sát yếu

Tuy nhiên, phát hiện bất thường trong video là một nhiệm vụ còn nhiều thách thức, các phương pháp hiện nay không thé tổng quát hóa tat cả hành vi bat thường trong thực tế vì chúng hiếm k

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

VÕ THÀNH TRUNG DŨNG

KHÓA LUẬN TÓT NGHIỆP

Anomaly detection in video filmed in Vietnam by weakly supervised

learning

CU NHÂN NGANH KHOA HOC DU LIEU

TP HO CHi MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

VÕ THÀNH TRUNG DŨNG - 18520641

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN BÁT THƯỜNG TRONG VIDEO TẠI VIỆT

NAM THEO CÁCH TIẾP CAN GIÁM SÁT YEU

Anomaly detection in video filmed in Vietnam by weakly supervised

learning

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

THS VO DUY NGUYEN

TP HO CHÍ MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

-H8ẦY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch— TS Nguyễn Gia Tuấn Anh

2 Thư ky — ThS Tạ Thu Thủy

3 Ủy viên — Th§ Võ Ngọc Tân

Trang 4

LỜI CẢM ƠN

Trong quá trình thực hiện khóa luận, em đã gặp rất nhiều khó khăn và vướngmắc, nếu không có sự hướng dẫn, sự quan tâm và giúp đỡ từ quý thầy cô, các anh chị

và bạn bè thì khóa luận này khó có thé hoàn thành theo đúng tiễn độ Em cảm thấy

mình thật hạnh phúc vì luôn nhận được sự chăm sóc từ mọi người.

Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến thầy hướng dẫn khóaluận của em, thầy Võ Duy Nguyên Em cảm thấy rất vinh dự khi thầy đã dành thờigian quý bau dé giúp đỡ một đứa sinh viên còn non not trong nghiên cứu khoa họcnhư em Cảm ơn thầy vì đã tận tâm dạy bảo, mang lại nhiều bài học thiết thực, những

ý tưởng hay và truyền đạt những kinh nghiệm giá trị mà thầy đã đúc kết cho em

Ngoài việc học được những kiến thức chuyên môn, em còn được thầy dạy về các câu

chuyện cuộc sống và những hành trang cần thiết cho tương lai Cảm ơn thay vi đã làthầy hướng dẫn, là người bạn đồng hành cùng em trong khoảng thời gian vừa qua

Em xin bay tỏ lòng biết ơn đến các thầy cô khoa Khoa học và Kỹ thuật Thôngtin đã quan tâm và giúp đỡ em từ những ngày đầu mới vào trường

Em xin cảm ơn Ban Giảm hiệu nhà trường, phòng thí nghiệm MMLab đã tạo

điều kiện tốt nhất về cơ sở vật chất, trang thiết bị phục vụ cho khóa luận này

Em cảm ơn các anh chị khóa trên đã cho em những lời khuyên, kinh nghiệm bổ

ích, là chỗ dựa tinh thần vững chắc giúp em vượt qua những căng thắng

Trong khoảng thời gian 4 năm học tập và rèn luyện tại trường Đại học Công

nghệ Thông tin — Đại học Quốc gia Thành phố Hồ Chí Minh, mình rất cảm ơn cácbạn lớp KHDL2018, các ban trong nhóm nghiên cứu UIT-Together va tất cả bạn bèmình kết giao đã luôn quan tâm, hỗ trợ và chia sẻ kiến thức với mình Đây là điều

mình vô cùng trân quý và biệt ơn.

Em xin chân thành cảm ơn tat cả mọi người!

Trang 5

TOM TAT KHOA 00090557 Ả.Àồ 1 1Chương 1 MỞ DAU veececcccccsscssssssessesssessessssssessessecsessusssecsessusssessessessesssessessessesaneeseeses 2

1.1 Động lực nghiÊn CỨU -. G3 11T HH kt 2 1.2 Mục tiêu và phạm vi nghiÊn CỨU - 5 5 + 1x E*vE£eEeeEreeeseeerserrre 3

Chương 2 TONG QUAN 2-©22©22+SE‡SE2E2EEEEEEEE21121127171121121111 1.1.1 4

2.5 Cấu trúc bág HO URE Fame «a.fB Í 0 ceriiceee 9

2.6 Các nghiên cứu lIÊn QU4I 5 5E 182318330 E391 E931 1 8111 1 kg rườn 10

2.6.1 Các hướng tiẾp cẬn -¿- ¿52522 SEEEEEEEEEEE1E2121121121 2111111 cxe 102.6.2 Hướng tiếp cận không giám sát :- 2 2 2+E£+E+Ee£Eerxerxersree 11

2.6.3 Hướng tiếp cận có giám sắt eececccecceccesessessessessesseesecssessessessessesseeseeaee 14

2.6.4 Hướng tiếp cận giám sát yếu - ¿+ + ©x+EE+EEEEEEEEEEerkerkerrrree l62.6.5 Framework phát hiện bất thường sử dụng MIL . - 18

2.6.6 Các bộ dit liệu cho bai toán phát hiện bat thường -. - 23

Chương 3 NGHIÊN CỨU THỰC NGHIỆM - 2 2 +£x+2£++£++zx+rxczsz 29

s1 na Ả ÔÒỎ 29

3.1.1 I3D Q.22 2222 HE HH HH 21 1e 29

Trang 6

3.1.3 Ràng buộc về tính thưa thớt - 2 5¿©+2+++£x++£xt+rxrzxesrxesrxee 31

3.2 Phương pháp RTEÌM - - Ăn TH TH HH Hưng ng già 32Chương 4 XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN BÁT THƯỜNG TRONG

VIDEO TẠI VIỆT NAM 2: + £++£+EE£EE£EEEEEEEE2EEE2E21121171 71211211111 ce, 39

4.1 Lí do xây dựng bộ dit liệu ¿2-2 +2E£+EE+Ek£EEtEEEEEEEEEEEEEEEErEkrrkerkrrex 39

4.2 Thu thập và tiền xử lý -c- sSk+Ek+EE2E2E1 1715211111111 111111111 40

Chương 5 TRÌNH BAY, ĐÁNH GIA BAN LUẬN VE KET QUẢ 51

5.1 Dữ liệu thực nghiệm cccecceccecceecesscssessessesssessessecsesssessessessesssessessessessseeseesess 51

5.1.1 Mô tả cơ bản cc-55-©5< 2222k 2 E2E1E21127121121171 1121.111 1e cxe 51

5.1.2 Mô tả chỉ tiẾt cc-c5-5c 25c 2< 2kEt TH EE1E11211111011 1111.111 cxrree 51

5.2 M6 ta thurc 3.75 e 52

5.2.1 Mô tả quy trình thực nghiém 2.0.00 eee eecceeseceseeeeeeeeeeceeeeeaeeeseeceeeeeaes 525.2.2 Cấu hình thực nghiệm - 2-2 +++x+2EE+EEEEEE+SExzExrrrrerkeerxee 545.3 Phương pháp đánh giá — ROC—AUC 5c SĂ 13213 ESseerseserseeeree 54

5.4 Kết qua thực nghiệm và đánh giá - 2-2 5+22++2z++zx+erxesrxesrxees 56

5.4.1 Kết quả thực nghiệm - 2 2 2+ +E#EE#EESEEEEEEEEEEEEEEEEEEEerkerkrree 565.4.2 Trực quan hóa kết qua 2-2 2 £+E+EE+EE+EE+EE£EE+E£EeEEerEerxrrxrvee 585.4.3 Danh gid két Qua nh ăOỪOỪDỪỒVỦ , 59

5.5 Churong trinh minh hoa A."A 60

Trang 7

5.5.1 Giới thiỆU nh HH TH TH HH Hà HH nh 60 5.5.2 Mô tả cách hoạt động của chương trình - - «+«=+<£+sx+sxss 60Chương 6 KẾT LUẬN VA HƯỚNG PHÁT TRIEN 22 s2 szzxczs+ 63

6.1 KẾt luận -2-5c 2E 2 2E EE1E212112112112711112112111111211 11 1xx 63

S]"n.‹° 0 ẽaaÁs 64

6.1.2 THUAN 0 2.0177 A,BH.HH 64

Đá) n vớo.'Ể£Ầ”" 65TÀI LIEU THAM KHẢO - ¿St St+EEEE‡EEEEEEESEEEESEEEESEEEEEEEEEEEEEEEEkrkerkrrerkrrr 66

Trang 8

DANH MỤC HÌNH

Hình 2-1: Bài toán phát hiện bất thường trong video tại Việt Nam Đầu vào (bên trái)

là một video và đầu ra (bên phải) là kết quả dự đoán trên từng khung hình Các khunghình viền đỏ thuộc phân đoạn được dự đoán có chứa bất thường .- 6

Hình 2-2: Ví dụ video đánh nhau từ bộ dữ liệu phim hành động (the action movie Cataset) [4] di 8Hình 2-3: Một số ví dụ về sự đa dạng ngữ cảnh được quay từ camera an ninh tại Việt

II 0 — 8

Hình 2-4: Kiến trúc mang co bản của mạng Autoencoder 5 s2 s2 12Hình 2-5: Kiến trúc phương pháp ConvLSTM AE [10] -. ¿ 5:522=5+ 13Hình 2-6: Quá trình huấn luyện phương pháp FFP [ 1 I] -2- 2-5552 14Hình 2—7: Tổng quan hệ thống phát hiện cảnh bạo lực trong [18] 15Hình 2-8: Minh họa tap huấn luyện của MIL [23] -««-+-<<+<e+ssx++ 17Hình 2-9: Các thành phần trong framework phát hiện bat thường theo kiêu MIL .18Hình 2-10: So đồ hoạt động của phương pháp MIL Các video bat thường và videobình thường sẽ được chia thành nhiều phân đoạn tạm thời (temporal segments) Các

video lúc này được thê hiện dưới dạng một túi gồm các phân đoạn tạm thời, trong đó

một phân đoạn tạm thời là một thê hiện (instance) trong túi Sau khi rút trích đặc trưngC3D của các phân đoạn, MIL huấn luyện mạng FCNN băng cách sử dụng một hàmmục tiêu xếp hang (ranking loss) để xếp hang các thé hiện có điểm số bất thường(anomaly score) cao nhất trong túi bình thường và túi bat thường - 18Hình 2-11: Quá trình tiền xử lý sử dụng phương pháp xác định vùng chú ý [27] 20

Trang 9

Hình 3-2: So sánh tích chập 2D va 3D (a) áp dụng tích chập 2D trên một hình ảnh

và (b) áp dụng tích chập 2D lên một đoạn video đều tạp ra một hình ảnh hay là một

ma trận hai chiều (c) áp dụng tích chập 3D lên một đoạn video tạo ra một không gian

ba chiều, bảo toàn thông tin thời gian - ¿5-55 St+SE‡EE+EE£EE2EZEEEerEerkerkerkrree 30

Hình 3-3: Kiến trúc Inflated Inception—V 1 (bên trái) và Inception Module (bên phải).

¬— 30 Hình 3-4: Phương pháp RTFM [] - 5 2 +1 +11 9319111 119 1 9111 ng re 32

Hình 3-5: Kiến trúc mạng tìm hiểu sự phụ thuộc thời gian MTN 34

Hình 3-6: Minh họa định lÚ Ác 2 122112113211 19111 119111111 11T 1 HH ng ry 37

Hình 4-1: Một số mẫu dữ liệu ở mỗi lớp trong bộ dữ liệu UIT-Anomaly 41

Hình 4-2: Quy trình thu thập va gan nhãn bộ dữ liệu UIT—Anomaly 46

Hình 4-3: Số lượng video ở các lớp trong tập huấn luyện và tập kiểm tra của bộ dữ

lid UIT—Annomally T1 48

Hình 4-4: Sự phân bồ video theo thời lượng trong tập huấn luyện và tập kiểm tra của

98)/9)080) 02910011) 49 Hình 5—1: Mô tả phân chia bộ dữ liệu UT—Anomalyy «5+5 «<+<<<++ss+ 51

Hình 5-2: Mô ta thời lượng của mỗi lớp dit liệu trong tập huấn luyện và tập kiểm tra

của bộ dữ liệu UTI—AnomaÌy - - 1 2 112111191119 11191 1g 1n ng ng rry 52 Hình 5—3: Quy trình thực nghiỆệm - c5 2+ 1S HH HH giết 53

Hình 5-4: Biéu đồ kết quả khi AUC = I 2¿©22¿©5222S22E+2EEtEE+eExzrxerreeree 55

Hình 5-5: Biéu đồ kết quả khi AUC = (.5 - ¿22 ESE+2E22EE2EEtEEtEEEEEErrkerkrrer 55

Hình 5—6: Biểu đồ kết quả khi AUC = Ö ¿2-2 E+EE+EE£EE+EEZEEEeEEerkerkerkrree 56Hình 5-7: Minh họa kết quả dự đoán phát hiện bất thườn g của RTFM (k=2) trên ULT—Anomaly Đường màu đỏ, đường màu xanh lần lượt là điểm số bất thường và độ lớnđặc trưng Khu vực màu hồng là ground truth, biểu thị các khung hình được gán nhãn

DU Ì8i ho OƯNg 58

Hình 5-8: Giao diện màn hình khởi động của chương trình . - - 61

Hình 5-9: Giao diện tải video lên của chương trinh .- s55 ss**+s++s+eexsss 61

Hình 5—10: Giao diện video kết quả được dự đoán có chứa sự kiện bất thường 62

Trang 10

Hình 5—11: Giao diện video kết quả không phát hiện sự kiện bat thường

Trang 11

DANH MỤC BẢNG

Bang 2-1: Tóm tắt thông tin các bộ dữ liệu cho phát hiện bat thường và bộ dữ liệu

lði 8000100200007 24

Bang 4-1: Quy tắc khi thực hiện gán nhãn - 2-2-5 ©5£2S£+£E+£EtzEzEerxerxezez 44

Bảng 4-2: Mô tả ý nghĩa các thuộc tính của mỗi dòng nhãn cho mỗi video trong

UTT-i0 na 47Bang 4-3: Sự phân bố video theo không gian (bên trái) và theo điều kiện ánh sáng(bên phải) trong bộ dữ liệu UFT—AnomalÌy - - s5 5 +3 seeseeeeseeeresee 49

Bang 5—1: Kết quả thực nghiệm MIL trên UIT—Anomaly 5-52 s2 56Bảng 5-2: Kết quả thực nghiệm phương pháp RTFM (k = 3) trên các bộ dữ liệu 56

Bảng 5-4: Kết quả thực nghiệm RTFM với nhiều trường hợp k trên UIT—Anomaly

k là số phân đoạn của mỗi video được dùng dé huấn luyện . - 57

Bang 5—5: So sánh kết quả thực nghiệm với các tham số đã được huấn luyện sẵn từ

các bộ dit liệu điểm chuẩn trên UTI—Anomally - +5 s + ssseesesersesereree 57

Trang 12

DANH MỤC TỪ VIET TAT

STT Từ viết tắt Viết đầy đủ

01 AE Autoencoder

02 C3D Convolutional 3D

03 ConvLSTM Convolutional Long Short-Term Memory

04 FAR False Alarm Rate

05 FC Fully Connected

06 FCN Fully Convolution Network

07 FCNN Fully Connected Neural Network

08 FFP Future Frame Prediction

09 FPS Frame per second

09 GAN Generative Adversarial Network

10 13D Two-Stream Inflated 3D ConvNet

11 MIL Multiple Instance Learning

12 MTN Multi—scale Temporal Network

13 ROC-—AUC Area Under the ROC Curve

14 RTFM Robust Temporal Feature Magnitude learning

15 SOTA State—of—the—art

16 TSA Temporal self—attention

Trang 13

TÓM TAT KHÓA LUẬN

Ngày nay, sự gia tăng về số lượng camera giám sát đã góp phần làm cho việc pháthiện bất thường từ xa ngày càng trở nên phổ biến hơn Trong bài báo này, chúng tôitập trung nghiên cứu bài toán phát hiện bat thường trong video tại Việt Nam Chúng

tôi tiếp cận bài toán theo hướng giám sát yếu dé tránh mat nhiều thời gian vào việc

gán nhãn mức khung hình trong video huấn luyện thông qua hai phương pháp SOTA

là Robust Temporal Feature Magnitude (RTFM) va Multiple Instance Learning

(MIL) Bên cạnh đó, chúng tôi cũng thu thập bộ dữ liệu video UIT—Anomaly có tổngthời lượng hơn 150 phút được quay trong thực tế trong nhiều ngữ cảnh đa dạng Bộ

dữ liệu này bao gồm 224 video được quay tại Việt Nam, với 6 loại bất thường khác

nhau: Tai nạn giao thông, Danh nhau, Cướp giật, Trộm chó, Chống đối người thi

hành công vụ và Hành vi phi thé thao Sau đó chúng tôi tiến hành thực nghiệm các

phương pháp nghiên cứu trên bộ dữ liệu thu thập và xây dựng chương trình minh họa

trực quan kết quả phát hiện bất thường Kết quả của nghiên cứu đạt được gồm 01 bài

báo hội nghị danh mục SCOPUS (NICS).

Trang 14

Chương 1 MO DAU

Nội dung chương này sẽ trình bày động lực nghiên cứu, mục dich, đối tượng va phạm

vỉ nghiên cứu.

1.1 Động lực nghiên cứu

Bên cạnh xã hội ngày một phát triển và nền công nghệ ngày càng tiên tiến thì

tần suất các tệ nạn xã hội diễn ra cũng ngày càng nhiều và không thê lường trước Đó

là lí do vì sao hệ thống camera và thiết bị an ninh trở thành một thiết bị quan trọng từđường phó, trường học, trung tâm thương mại, quán ăn, cửa hàng tạp hóa đến hộ giađình Lợi ích mà camera an ninh mang lại rất lớn, chúng hỗ trợ bộ phận quản lý kiểmsoát các hoạt động đã và đang diễn ra tại nơi được lắp đặt như nhà ở, cửa hàng, công

ty, văn phòng, ngân hang, ma không cần trực tiếp có mặt dé giám sát, đồng thời

giúp giảm thiêu được những tệ nạn như trộm cắp, cướp giật, giúp bảo vệ tai sản, tính

mạng, sự bình yên cho xã hội Cùng với đó, những thước phim được quay lại bởi hệ

thống giám sát này đóng vai trò như những chứng cứ quan trọng, ghi lại những sựviệc đã xảy ra trong quá trình thực hiện hành vi phạm tội, nhằm hỗ trợ cho việc tìmkiếm, điều tra được minh bạch và nhanh chóng hơn Tuy nhiên, những hệ thống vàthiết bị an ninh trong thực tế vẫn có một số hạn chế nhất định trong việc phát hiện bất

thường một cách tự động và kịp thời, hau hết chúng đều cần có sự theo dõi 24/24 của

người quản lý camera hoặc nhân viên bảo vệ Đều này đã vô tình dẫn đến việc lãngphí nhân lực vì các hành vi bất thường hiếm khi xảy ra trong thực tế Điều này cónghĩa là vai trò của thiết bị giám sát hiện tại chỉ được khai thác ở mức ghi lại nhữngvideo làm bằng chứng sau khi những hành vi bất thường đã diễn ra Do đó, để kịp

thời cảnh báo cho người dân, giúp đưa ra hướng xử lý các hành vi khả nghi ngay lập

tức doi hỏi phải có một công cụ tự động phát hiện những bất thường trong camera

giám sát.

Xuất phát từ thực tế trên, bài toán phát hiện bất thường trong video giám sát

đóng vai trò ngày càng quan trọng, được nhắc đến trong các cộng đồng khác nhaunhư khai thác dit liệu, học máy, thị giác máy tính và số liệu thống kế Trong những

2

Trang 15

năm gần đây, học sâu đã cho thấy khả năng to lớn trong việc học các thông tin của

dữ liệu phức tạp Tuy nhiên, phát hiện bất thường trong video là một nhiệm vụ còn

nhiều thách thức, các phương pháp hiện nay không thé tổng quát hóa tat cả hành vi

bat thường trong thực tế vì chúng hiếm khi xảy ra và diễn ra theo nhiều cách và nhiềubối cảnh (không gian và thời gian) khác nhau, cũng như sự không chắc chắn khi dựđoán đâu là sự kiện bất thường thực sự Ngoài ra, nhìn chung những video được quay

lại từ các thiết bị an ninh có chất lượng thấp chưa ké đến các video được quay trong

điều kiện đặc biệt như ban đêm, sương mù, mưa, góc máy bị che khuất bởi nhiều vậtthé cũng khiến các phương pháp hiện tại gặp nhiều khó khăn trong việc dự đoán

Tóm lại, từ sự phát triển của xã hội cũng như xu hướng tăng lên về nhu cầu quản

lý an ninh và xử lý rủi ro, bài toán phát hiện bat thường đã và đang thu hút nhiều sự

quan tâm và được nghiên cứu từ nhiều lĩnh vực khác nhau, đặc biệt là thị giác máytính Đó cũng chính là động lực giúp nhóm nghiên cứu đề tài này

1.2 Mục tiêu và phạm vỉ nghiên cứu

Trong phạm vi nghiên cứu, mục tiêu chính của nghiên là:

(1) Tìm hiểu tổng quan về các phương pháp và bài toán phát hiện bất thường

trong video từ các nghiên cứ sẵn có.

(2) Tham khảo các bộ dữ liệu liên quan đến bài toán đã được công bố, từ đó xây

dựng bộ dữ liệu video mới gồm các cảnh quay chứa hành vi bất thường tạiViệt Nam.

(3) Tìm hiểu kỹ thuật rút trích đặc trưng cho dữ liệu video

(4) Tìm hiéu các kỹ thuật học sâu và trình bày phương pháp phát hiện bất thường

trong video dựa trên phương pháp SOTA: MIL [5] và RTFM [6].

(5) Tién hanh thuc nghiệm, so sánh và đánh giá hiệu suất phương pháp đã nghiên

cứu trên bộ dữ liệu xây dựng.

Trang 16

Chuong2 TỎNG QUAN

Phan này trình bày định nghĩa bat thường, tình trạng các sự kiện bat thường ở ViệtNam, phát biểu bài toán, các thách thức, những đóng góp của khóa luận, hướng tiếpcận và bộ dữ liệu liên quan đến bài toán

dia diém va thời gian xảy ra sự kiện đó.

Kế thừa từ những định nghĩa trên, nhóm đưa ra một mô tả về bất thường theo

cách dễ hiểu hơn khi thực hiện đề tài này Hành vi được coi là bất thường khi nó

không bình thường, hiếm khi xảy ra và khác thường, bao gồm những hành vi khôngmong muốn và có thể gây ra những hậu quả nghiêm trọng đến cá nhân, tổ chức vàcộng đồng Nói cách khác, bất thường trong hành vi là hành vi được coi là lệch lạc

với các kỳ vọng của xã hội, văn hóa và đạo đức Những kỳ vọng này phụ thuộc vào

truyền thống, văn hóa, xã hội và luật pháp ở Việt Nam.

Trong xã hội ngày nay, các hành động bất thường diễn ra với tần suất ngày càngnhiều và dưới nhiều hình thức khác nhau, trong đó có thể ké đến các hành vi gây tonhại đến trật tự an toàn xã hội và thậm chí là tính mạng của con người như hành vi giếtngười, cướp giật, tai nạn giao thông, đánh nhau, âu đả, Những tác động xấu lên xã

hội do các hành vi này mang lại vô cùng lớn, đáng nói nhất chính là sự bat an và nỗi

sợ hãi kéo dài của người dân.

Trang 17

2.1.2 Tình trạng các sự kiện bất thường ở Việt Nam

Ngày nay, mặc dù toàn Đảng toàn dân đang chung tay xây dựng xã hội văn minh

tiến bộ nhưng những hành vi bất thường gây nguy hiểm van còn tôn tại và diễn raphức tạp bang nhiều hình thức Trong 10 tháng đầu năm 2021, tổng cộng có 34,638

vụ phạm tội về trật tự xã hội xảy ra trong cả nước, trong đó có 3,987 vụ mang tính

chất nghiêm trọng và đặc biệt nghiêm trọng, tăng 15.57%, nổi bật là 24 vụ giết người

cướp tài sản; 22 vụ giết người từ 2 người trở lên; nhiều vụ giết người thân trong giađình Bên cạnh đó, tinh trạng các đối tượng ở độ tuổi thanh thiếu niên đánh nhau ởđịa phương làm nhiều người chết và bị thương; bạo lực gia đình, bạo hành, xâm hạitrẻ em tăng (số vụ giao cấu với trẻ em tăng 2.81%; mua bán người dưới 16 tuôi tăng

66.67%) Theo Phó Chánh Văn phòng Bộ Công an, dịch bệnh COVID-19 cũng ảnh

hưởng đến số vụ vi phạm quy định về an toàn ở nơi đông người, làm gia tăng 44.44%;chống người thi hành công vụ tăng 37.08%, trong đó, chống lại lực lượng phòng,chống dịch COVID-19 và lực lượng công an tăng 56.34% Nhóm tội phạm xâm phạm

sở hữu (cướp, cướp giật, cưỡng đoạt, lừa đảo, trộm cắp) chiếm tỉ lệ cao (49.67%),trong đó, tội phạm lừa đảo, chiếm đoạt tài sản tăng 4.51%

Đề xử lý các hành vi này, nhà nước đã ban hành các quy định pháp luật xử phạt

đối với các hành vi bất thường trong xã hội nhằm phòng tránh, giáo dục và bảo vệ

người dân khỏi những hậu quả không mong muốn Mặc dù điều này đã phần nào tạo

ra những chuyên biến tích cực trong đời sống xã hội của người dân Việt Nam nhưng

dé xử lý triệt dé các van nạn này vẫn còn là thách thức lớn đối với các cơ quan, bộ

phận quản lý.

2.2 Phát biểu bài toán

Trong phạm vi đề tài này, chúng tôi hướng đến giải bài toán phát hiện sự kiệnbất thường trong video được quay tại Việt Nam theo cách tiếp cận giám sát yếu Bài

toán được xác định như sau (xem Hình 2-1):

e Đầu vào: video được quay trong thực tế tại Việt Nam

Trang 18

e Đầu ra: kết quả dự đoán khung hình nào là bất thường và khung hình nào là

bình thường trong video.

Hình 2—1: Bài toán phát hiện bất thường trong video tại Việt Nam Đầu vào (bên

trái) là một video và đầu ra (bên phải) là kết quả dự đoán trên từng khung hình Các

khung hình viền đỏ thuộc phân đoạn được dự đoán có chứa bat thường

Bài toán phát hiện bất thường trong video giám sát là một trong những nhiệm

vụ quan trọng hiện nay giúp phát hiện được sự kiện bất thường xuất hiện trong video,

là tiền đề để xây dựng các công cụ phát hiện bất thường một cách tự động Việc hiểu

những hành vi bất thường xuất hiện trong video mang lại rất nhiều lợi ích cho việcthông báo và dự đoán những chuyện không mong muốn có thể xảy ra dé kịp thời xử

lý cũng như việc tập hợp được các phân đoạn có chứa bất thường trong video gópphần đây nhanh quá trình điều tra, tìm kiếm

2.3 Thách thức của bài toán

Không giống với những bài toán khác, phát hiện hành vi bất thường giải quyếtcác sự kiện hiếm gặp, không thé đoán trước hình thức diễn ra của chúng sẽ như thénào, điều này dẫn đến nhiều khó khăn khi nghiên cứu bài toán phát hiện bất thường

nói chung và bài toán phát hiện bất thường tại Việt Nam nói riêng

Qua khảo sát về các bộ dữ liệu có sẵn liên quan đến bài toán phát hiện hành vi

bat thường, có những bộ dữ liệu chi lay video từ phim ảnh [4] (xem Hình 2—2) mà

không phải trích xuất từ camera giám sát, điều này làm giảm di tính thực tế của bộ

6

Trang 19

dữ liệu và hầu hết các bộ đữ liệu sẵn có đều không chứa các hành vi bất thường được

quay trong bối cảnh Việt Nam Đề giải quyết van đề này thì việc xây dựng một bộ dit

liệu video bất thường mới tại Việt Nam là điều cần thiết Tuy nhiên tại Việt Nam, các

video chứa hành vi bất thường mang tính bạo lực như đánh nhau, bắn súng, cướp giật, bị hạn chế chia sẻ rộng rãi vì một số điều luật liên quan đến an ninh mạng Khôngnhững thế, những video này thường đã qua chỉnh sửa thủ công khá nhiều như cắt

ghép, tốc độ được điều chỉnh nhanh hoặc chậm hơn bình thường, chứa hiệu ứng âm

thanh hoặc chất lượng video thấp, sự kiện bất thường nằm cách xa camera nên khôngthé hiện rõ ràng, tat cả những điều này đều gây cản trở và mat nhiều thời gian trongquá trình thu thập và làm sạch dữ liệu Cùng với đó, sự đa dạng về bối cảnh diễn ra

sự kiện bat thường trong video và sự không cô định về định nghĩa bất thường cũnggây ra nhiều thách thức cho bài toán (Hình 2-3) Dé tăng hiệu suất phát hiện batthường đòi hỏi các mô hình phải hiểu tường tận tat cả thông tin liên quan đến sự kiện

vì để xác định một hành vi bất thường cần phải dựa vào ngoại hình, chuyên động của

đối tượng và cả ngữ cảnh trong video đó Có những hành vi được xem là bất thường

trong ngữ cảnh nay nhưng lại là bình thường trong ngữ cảnh khác Ví dụ hai người

đánh nhau trên đường phố là bất thường, nhưng trong ngữ cảnh phim trường của một

phim hành động thi đây được xem là bình thường Bên cạnh đó, vì những sự kiện bất

thường xảy ra với tần suất thấp trong thực tế nên việc thu thập một bộ dữ liệu bất

thường lớn và đầy đủ là điều vô cùng khó Trong quá trình gán nhãn, sự chủ quan,

kinh nghiệm và suy nghĩ của mỗi cá nhân cũng ảnh hưởng ít nhiều đến quan điểmtrong việc xác định khung hình bắt đầu đến khung hình kết thúc sự kiện bất thường

trong video Ngoài ra, trong khoảng thời gian có giới hạn dé thực hiện khóa luận, cầnxây dựng một bộ dữ liệu mới sao cho đáp ứng về mặt số lượng và chất lượng dé cácphương pháp học mang lại hiệu quả cao cũng là một thách thức lớn.

Trang 20

Hình 2-2: Ví dụ video đánh nhau từ bộ dữ liệu phim hành động (the action movie

dataset) [4]

Hình 2-3: Một số ví dụ về sự đa dạng ngữ cảnh được quay từ camera an ninh tại

Việt Nam.

Ngoài những khó khăn liên quan đến dữ liệu, bài toán còn gặp những thách thức

về mặt kỹ thuật Nếu như hướng tiếp cận có giám sát gặp khó khăn và tốn nhiều chiphí trong việc thu thập dữ liệu bất thường được gán nhãn quy mô lớn và được đánh

giá là không khả thi vì không thể tổng quát toàn bộ những hành vi bất thường thì

8

Trang 21

hướng tiếp cận không giám sát lại thường không đạt kết quả tốt do không được họcbat kỳ kiến thức nào về hành vi bất thường thực sự trước đó, chỉ còn hướng tiếp cận

giám sát yếu là ôn định Vì vậy, chúng tôi quyết định chọn phương pháp MIL [5] va

RTFM [6] dé tiến hành thực nghiệm và đánh giá

2.4 Đóng góp của nghiên cứu

Xây dựng thành công bộ dữ liệu video mới về các sự kiện bất thường được quay

tại Việt Nam (tông thời lượng hơn 150 phút) với 6 loại bat thuong: Tai nan giao

thông, Đánh nhau, Cướp giật, Trộm chó, Chong đối người thi hành công vụ va Hanh

vi phi thể thao, có tên là UIT—Anomaly

Trình bày các phương pháp phát hiện đối tượng trong video theo hướng tiếp cậngiám sát yếu, cụ thể là MIL [5] và RTFM [6] So sánh và đánh giá kết quả thực

nghiệm trên bộ dữ liệu UIT—Anomaly dựa trên độ đo ROC—AUC.

Báo cáo tổng hợp về toàn bộ quá trình nghiên cứu bao gồm giới thiệu bài toán,trình bay các công trình nghiên cứu liên quan trên thé giới, quá trình xây dựng bộ dữliệu, phương pháp thực nghiệm cũng như phân tích đánh giá kết quả đạt được trên bộ

dữ liệu thu thập, từ đó đưa ra những hướng phát triển trong tương lai

2.5 Cấu trúc báo cáo

Báo cáo khóa luận bao gồm 6 chương với các nội dung chính như sau:

Chương 1: Mở đầu

Nội dung chương này sẽ trình bày động lực nghiên cứu, mục đích, đối tượng và phạm

vi nghiên cứu.

Chương 2: Tổng quan

Phần này trình bày định nghĩa bắt thường, tình trạng các sự kiện bat thường ở Việt

Nam, phát biéu bài toán, các thách thức, những đóng góp của khóa luận, hướng tiếp

cận và bộ dt liệu liên quan đến bài toán

Chương 3: Nghiên cứu thực nghiệm

Trang 22

Trình bày ý tưởng của các phương pháp được sử dụng.

Chương 4: Xây dựng bộ dữ liệu phát hiện bat thường trong video tại Việt Nam

Giải thích lí do xây dựng bộ dữ liệu mới — UIT—Anomaly, đồng thời mô tả toàn bộquá trình xây dựng bộ dữ liệu Sau đó, phân tích và thống kê các số liệu liên quan đến

bộ dữ liệu.

Chương 5: Thực nghiệm và đánh giá.

Trình bày cách cài đặt thực nghiệm, các thông số và đánh giá kết quả thu được dựa

vào độ đo ROC-AUC Phân tích các trường hợp đạt kết quả tốt và không tốt Miêu

tả chương trình minh họa.

Chương 6: Kết luận và hướng phát triển

Tổng hợp các kết quả đạt được sau khi thực hiện đề tài và từ đó đề ra hướng pháttriển trong tương lai

2.6 Cac nghiên cứu liên quan

2.6.1 Cac hướng tiếp cận

Có thé hiểu nhiệm vụ phát hiện bat thường là nhiệm vụ phân loại hai lớp bìnhthường và bất thường Tuy nhiên, do các lớp bất thường không nhất quán và trongcùng một lớp bất thường, không thể đoán trước được hành vi bất thường đó sẽ diễn

ra như thế nào nên việc thu thập một bộ dữ liệu đa dạng chứa tất cả các loại bất thườngtrong thực tế là điều nan giải Thế nên việc phát hiện bất thường được giám sát đầy

đủ được xem là không thực tế [7]

Ngoài ra, khác với những bài toán triển khai trên dữ liệu quen thuộc và có sốlượng lớn, phát hiện bất thường phải đối mặt với vấn đề mắt cân bằng trong dữ liệu

Cả số lượng và thời lượng sự kiện bất thường đều chiếm tỉ lệ thấp hơn hoặc có thểnói là bị lan át hoàn toàn bởi sự kiện bình thường do tính chất sự kiện bất thường lànhững sự kiện hiểm gặp trong thực tế Do đó, nhiệm vụ phát hiện bat thường đòi hỏi

các cách xử lý và tiép cận khác với các bài toán phân loại khác.

10

Trang 23

Tùy thuộc vào cách gán nhãn của dit liệu huấn luyện, các phương pháp phát

hiện bất thường trong video được phân loại theo 3 hướng tiệp cận: không giám sát,

có giám sát và giám sát yếu [8]

2.6.2 Hướng tiếp cận không giám sát

Như đã nói trên, thách thức của bài toán phát hiện bất thường là việc thiếu dữ

liệu, các sự kiện bất thường diễn ra với tần suất thấp trong thực tế, điều này gây khó

khăn cho việc thu thập một bộ dữ liệu chứa đầy đủ các hành vi này Trái lại, SỐ lượngvideo bình thường lại vô cùng dồi dao và dé dang thu thập Do đó, các phương phápthuộc hướng tiếp cận không giám sát chỉ học những video không chứa hành vi batthường trong quá trình huấn luyện Điều này giúp tiết kiệm rất nhiều thời gian vàcông sức trong việc xây dựng bộ dữ liệu vì tập huấn luyện chỉ có video bình thườngnên không cần gán nhãn Cùng với đó, những video có chứa sự kiện bất thường sẽđược thu thập dé phuc vu cho muc dich kiém tra

Nhóm các phương pháp thuộc hướng tiếp cận này tập trung tìm hiểu đặc trưng

của các khung hình bình thường trong tập huấn luyện và sau đó dự đoán các khunghình trong tập kiểm tra có chứa sự kiện bất thường hay không dựa vào hàm tính độlỗi tái tạo hoặc dự đoán của mô hình Hướng tiếp cận này được cho rằng có khả năngtông quát hóa các hành vi bat thường tốt, nghĩa là không chỉ có thé phát hiện các hành

vi bất thường đã biết mà còn cả các loại bất thường mới [7] Tuy nhiên, các mô hìnhtrong hướng tiếp cận này có thé hoạt động không hiệu quả khi dữ liệu bình thường có

phân phối phức tạp [7], điều này ảnh hưởng không tốt đến khả năng dự đoán và làm

tăng tỉ lệ cảnh báo giả của mô hình.

2.6.2.1 Tdi tạo đặc trưng

Những phương pháp tái tạo đặc trưng tập trung vào việc học cách tái tạo lại một

khung hình trong các video huấn luyện Đối với nhóm phương pháp này, tập huấnluyện chỉ gồm những video bình thường và với cách học tái tạo khung hình sẽ giúp

mô hình học được những đặc trưng quan trọng của các sự kiện bình thường Những

đặc trưng bình thường mà mô hình học được sẽ được đưa vào module phân loại.

lãi

Trang 24

Theo [9], autoencoder (Hình 2—4) là một loại mạng nơ-ron nhân tạo được huấn

luyện dé học cách tái câu trúc dit liệu gần giống với đầu vào ban đầu của nó hiệu qua

theo cách không giám sát Autoencoder network bao gồm 2 phan: encoder và decoder,

2 thành phần này bao gồm các lớp fully connected layers Hàm encoder có nhiệm vụgiảm số chiều đặc trưng nhỏ hơn số chiều ban đầu của khung hình đầu vào dé tránh

việc tái tao lại khung hình một cách hoàn hảo Sau đó, mục đích của hàm decoder là

cố gang tái tạo lại khung hình từ những đặc trưng đã giảm chiều càng giống với khung

hình đâu vào của nó càng tôt.

Input Y Output

Hình 2-4: Kiến trúc mang co ban của mang Autoencoder

Trong nhiém vu phat hién bat thường, mang Autoencoder được huấn luyện dựa

trên các khung hình bình thường, với mục tiêu trước tiên là giảm chiều đặc trưngkhung hình đầu vào và sau đó tái tạo lại các khung hình đó ở đầu ra Trong quá trìnhgiảm chiều dữ liệu, mạng phải học cách ưu tiên những đặc trưng có ích và có thé tái

tạo chúng trở lai gần giống với khung hình đầu vào ở đầu ra Y tưởng chính của mạng

là khi áp dụng mô hình trên dữ liệu tương lai không giống với dữ liệu đầu vào để môhình có thê nhận ra dữ liệu bất thường, tức là dữ liệu trông khác với dữ liệu đầu vào.Một khung hình có biểu hiện bất thường sẽ ảnh hưởng đến quá trình tái tạo, khi điềunày xảy ra, lỗi tái tạo sẽ gia tăng khi cấu trúc lại khung hình đầu vào Băng cách theo

12

Trang 25

dõi lỗi tái tạo, mô hình có thê dự đoán được khung hình nào có khả năng là bất thường.

Weixin Luo và cộng sự [10] đã đề xuất framework ConvLSTM-AE (Hình 2-5), là

sự kết hợp của FCN (Fully Convolution Network) và LSTM với Auto Encoder (AE)

Dé xem xét có sự xuất hiện của bat thường hay không, mô hình không chỉ tái taokhung hình hiện tại mà còn tái tạo những khung hình trong quá khứ, nắm bắt sự phụ

thuộc thời gian, để tính lỗi tái tạo về sự thay đôi ngoại hình hoặc chuyền động của sự

kiện bình thường Điều này giúp nâng cao hiệu suất của phương pháp tái tạo đặctrưng Tuy nhiên, những phương pháp theo hướng này thường gặp phải vấn đề quákhớp, có khả năng tái tạo tốt ở cả khung hình bình thường và bất thường với độ lỗitái tạo nhỏ, dẫn đến khó phát hiện khung hình bất thường

T j

-HïIx "II"

Hình 2-5: Kiến trúc phương pháp ConvLSTM-—AE [10]

2.6.2.2 Dự đoán khung hình

Nhóm phương pháp dự đoán khung hình tập trung tìm hiểu cách dự đoán các

khung hình hiện tại dựa vào các đặc trưng của các khung hình trước đó Sau đó, khung

hình vừa được dự đoán sẽ được so sánh với khung hình thực tế và dựa vào hàm lỗi

để so sánh sự khác nhau giữa chúng để xác định khung hình đó là bình thường haybất thường Ngoài tái tạo đặc trưng, nhóm phương pháp dự đoán khung hình cũng thu

hút được nhiều sự quan tâm trong phát hiện bất thường không giám sát

13

Trang 26

Future Frame Prediction (FFP) [11] là thuật toán điển hình trong hướng tiếp cậnnày Từ điểm yếu của hướng tái tạo đặc trưng, tác giả của FFP đã đề xuất thay đổi

đầu vào của khung hình hiện tại như trong AE bằng các khung hình đứng trước khung

hình đang xét dé tránh trường hợp tái tạo quá tốt, vì thế phương pháp này được gọi là

dự đoán thay vì tái tạo Vì vậy phương pháp này vừa đảm bảo khung hình hiện tại có

thé mang những đặc điểm về hình dáng và chuyển động từ những khung hình liền

trước nó, vừa có thê hạn chế vấn đề quá khớp vì dự đoán khung hình không sử dụngkhung hình hiện tại làm đầu vào Ý tưởng về GAN (Generative Adversarial Network)

[12] được tác gia sử dung cho phương pháp nay GAN bao gồm Generator có nhiệm

vụ tạo ra các khung hình thật nhất và giống nhất có thể với khung hình dự đoán nhất

va Discriminator có vai trò phân biệt khung hình được tạo ra là giả hay thật Ngoài

ra, Liu và cộng sự [11] đã đề xuất mạng Flownet dé trích xuất đặc trưng chuyển động

(optical flow) trong các chuỗi ảnh và bổ sung bộ tạo ảnh U-Net trong Generator détrích xuất đặc trưng ngoại hình tốt hơn, nhằm cải thiện khả năng dự đoán khung hình

trong mang GAN của mình Quá trình huấn luyện FFP được mô tả trong Hình 2-6

Ie

|

Se Flownet Ea Ị IN Optical } Discriminator

âm Flow Loss Hail

Ty, lạ, , Ï; |

(U-Net) Fy’

Hình 2-6: Quá trình huấn luyện phương pháp FFP [11]

2.6.3 Hướng tiếp cận có giám sát

Real or Fake Intensity Loss and

Gradient Loss

Đối với hướng tiếp cận này, tất cả video trong tập huấn luyện và kiểm tra của

bộ dir liệu đều cần phải gán nhãn mức khung hình (frame-level), nghĩa là xác địnhmột khung hình là bình thường hay bat thường Ngoài ra, vì bản chat các sự kiện bat

thường là những sự kiện hiếm khi xảy ra và không thé dự đoán trước được cách mà

những sự kiện này sẽ diễn ra như thé nào, do đó việc thu thập day đủ các thé hiện của

14

Trang 27

hành vi bất thường trong thực tế sẽ là điều vô cùng khó khăn hay thậm chí là không

khả thi Điều này đã khiến hướng tiếp có giám sát mất nhiều thời gian và công sức

hơn so với hai hướng tiếp cận còn lại trong quá trình xây dựng bộ dữ liệu

Đối với các công trình phát hiện bất thường trong giao thông như [13], [14] đã

tiếp cận theo hướng có giám sát, các mô hình được huấn luyện trên video được gán

nhãn mức khung hình, tức biết được thời gian bắt đầu và kết thúc các sự kiện bất

thường có trong video.

Một cách giải quyết phổ biến của hướng tiếp cận này là tận dụng những kiếnthức biết trước liên quan đến sự kiện bất thường đang quan tâm dé giải quyết van đề.Chang hạn như đối với bài toán phát hiện hành vi bạo lực có thé được phân tách thànhmột hoặc vài bài toán xác định khác như nhận ra một số một số đặc điểm liên quan

(tiếng phanh xe, vụ nô, súng, dao, máu, lửa và các loại vũ khí khác) [15], [16], [17],

[18], [19] và nhận dạng hành động (chiến tranh, bắn súng, ) [17], [18], [19] Tuynhiên, phương pháp này bị hạn chế bởi hai nhược điểm: tỉ lệ phát hiện thấp và cảnh

Trang 28

2.6.4 Hướng tiếp cận giám sát yếu

Ở hướng tiếp cận này, những video huấn luyện chỉ cần gán nhãn mức video,điều này giúp tiết kiệm thời gian gán nhãn so với hướng tiếp cận có giám sát Ngoài

ra, hướng tiếp cận giám sát yếu chỉ yêu cầu một số dữ liệu về bất thường nên côngviệc thu thập chúng cũng sẽ khả thi hơn so với hướng tiếp cận giám sát đầy đủ Còn

so với hướng tiếp cận không giám sát chỉ huấn luyện mô hình trên những dữ liệu bìnhthường thì hướng tiếp cận giám sát yếu mang lại kết quả tốt hơn vì dit liệu huấn luyện

có nhăn mức video là bình thường và bat thường Vì vậy, tiếp cận bài toán theo hướng

giám sát yếu vô cùng cần thiết trong mục tiêu cải thiện độ chính xác phát hiện bất

thường với chi phí thu thập và gan nhãn tương đối nhỏ [6] Theo [21] có 3 hình thức

gán nhãn chính theo hướng giám sát yếu:

— Không đầy đủ: chỉ một tập hợp nhỏ của dữ liệu huấn luyện được gán nhãn

trong khi những dữ liệu khác thì chưa được gán nhãn.

— Không chi tiết: đữ liệu huấn luyện không được gán nhãn cụ thể mà chỉ được

gan tong thé

— Không chính xác: nhãn đã cho không phải lúc nao cũng đúng.

Điều này có nghĩa là mặc dù tập huấn luyện của hướng tiếp cận giám sát yếu

không được gán nhãn rõ ràng trên từng khung hình như hướng có giám sát nhưng yêucầu mô hình phải học được cách phát hiện bat thường rõ ràng trên từng khung hình,

do tập kiểm tra của hướng tiếp cận này vẫn được gán nhãn mức khung hình Vì vậy,

so với hướng tiếp cận có giám sát thì chi phí xây dựng bộ dữ liệu của giám sát yếurất thấp Tuy nhiên, hiệu suất của hướng giám sát yếu vẫn vượt trội hơn so với các

phương pháp không giám sát [22].

Một trong số các phương pháp giám sát yếu SOTA hiện nay là MIL (MultipleInstance Learning), nhãn dữ liệu huấn luyện của phương này thuộc hình thức gán

không chi tiết và MIL có khả năng học được cách dự đoán bat thường trên từng thể

hiện/khung hình (instance/frame—level) thông qua nhãn được gan ở mức túi (bag—level) Đối chiếu sang bài toán phát hiện bất thường, chỉ nhãn của video (túi) được

16

Trang 29

cung cấp trong quá trình huấn luyện thay vì nhãn được gan chi tiết trên mỗi khung

hình (thể hiện) như hướng tiếp cận có giám sát Một video được gán là bình thường

nếu video đó không có khung hình nào chứa sự kiện bất thường và ngược lại một

video chỉ cần chứa một khung hình có sự kiện bat thường thì video đó sé được gan là bất thường Nói cách khác, một video có nhãn bất thường là video chứa một hoặc

nhiều cảnh bắt thường nhưng vẫn có thể chứa sự kiện bình thường, còn video có nhãn

bình thường là video chỉ chứa sự kiện bình thường Mặc dù trong quá trình huấn luyện

ngoài nhãn của mỗi video thì không có thông tin nào khác về thời điểm các hành vibất thường xảy ra nhưng mô hình phải học được cách tìm ra phân đoạn có chứa bấtthường trong video (nếu có) khi kiểm tra

Multiple Instance Learning:

Hình 2-8: Minh họa tập huấn luyện của MIL [23]

Tuy nhiên, một trong những thách thức lớn của việc phát hiện bất thường giámsát yếu là làm thé nào dé xác định được các phân đoạn bat thường từ toàn bộ videođược gán nhãn là bất thường Có hai lí do dẫn đến điều này: trong quá trình huấnluyện các phân đoạn bắt thường có thé sẽ bị lan án bởi số lượng áp đảo của phân đoạn

bình thường trong video bất thường và các phân đoạn bất thường không đủ khác biệt

so với các phân đoạn bình thường nên dẫn đến việc phân biệt rõ ràng giữa phân đoạn

bình thường và bat thường là một thách thức [6].

17

Trang 30

2.6.5 Framework phát hiện bất thường sử dung MIL

Một hệ thống phát hiện bất thường sử dụng MIL thường bao gồm ba thành phầnchính: chia phân đoạn, trích xuất đặc trưng và phân lớp phân đoạn, kết hợp cùng với

các bước xử lý trước và sau huân luyện, được mô tả như Hình 2-9.

Tiền xử lý Chia phan đoạn

Instance scores in positive bag

MIL Ranking Loss with sparsity and smoothness constraints

Hình 2-10: So đồ hoạt động của phương pháp MIL Các video bat thường va video

bình thường sẽ được chia thành nhiều phân đoạn tạm thời (temporal segments) Cácvideo lúc này được thể hiện dưới dang một túi gồm các phân đoạn tạm thời, trong

đó một phân đoạn tạm thời là một thể hiện (instance) trong tui Sau khi rút trích đặctrưng C3D của các phân đoạn, MIL huấn luyện mạng FCNN băng cách sử dụng

một hàm mục tiêu xếp hang (ranking loss) dé xếp hang các thể hiện có điểm số bat

thường (anomaly score) cao nhất trong túi bình thường và túi bất thường

2.6.5.1 Tiền xử lý

Giống với các bài toán phát hiện trên ảnh, những video cũng cần tiền xử lý để

đưa các khung hình về cùng một kích thước Một trong những cách phô biến đề thực

hiện là trừ cho hình ảnh trung bình (mean image) dé giới hạn miền giá tri trong đoạn[0 1] hoặc [—1, 1] [24] Giá tri từng điểm ảnh trên hình ảnh trung bình lá giá tri trung

bình của các điêm ảnh có cùng vi trí ở tat cả các hình ảnh có trong tập huân luyện.

18

Trang 31

Image,[x] + Image;[x] + Image3[x] + + Imagey [x]

Mean Image [x] = N

Trong đó, N là tổng số lượng ảnh/khung hình trong tập huấn luyện va x là vị tríđiểm ảnh Mục tiêu chính dé thực hiện việc chuẩn hóa nay là đưa kích thước các hìnhảnh về quy mô chung mà vẫn không làm sai lệch sự khác biệt trong phạm vi của các

giá trị [5] chuẩn hóa bằng cách sử dụng tập 16 ảnh trung bình vì số lượng khung hìnhđầu vào của mạng C3D [25] là 16, được huấn luyện trước trên bộ dit liệu Sports—1M

[26].

Công trình [27] còn dé xuất phương pháp tập trung vào vùng thông tin quan

trọng, cần chú ý (attention region) từ thông tin không gian mà không cần học toàn bộ

thông tin trong khung hình như những công trình trước đó Phương pháp nay sử dụng

kết hợp phép loại bỏ nền (background subtraction) và bộ lọc song phương (bilateral

filter) dé khoanh vùng các vùng thông tin cần chú ý giúp cải thiện hiệu suất quá trình

phát hiện bat thường Cụ thé, bộ lọc song phương có nhiệm vụ giảm nhiễu từ cáckhung hình được quay ở môi trường bên ngoài có thé là sự che khuất, độ sáng, độnhòe [28] và phép loại bỏ nền giúp tìm ra các đặc điểm tiền cảnh cần chú ý(foreground) Cuối cùng, chỉ các vùng chú ý nay được đưa qua mạng dé rút trích đặc

trưng.

19

Trang 32

Visual attention

detection

Hình 2—11: Quá trình tiền xử lý sử dụng phương pháp xác định vùng chú ý [27]

2.6.5.2 Chia phân đoạn

Hiện nay, nhóm phương pháp giám sát yêu hướng tới việc xem bài toán phát

hiện bất thường như bài toán phân lớp cho từng phân đoạn trong video Giai đoạn

chia phân đoạn giúp chia video thành nhiều phân đoạn nhỏ trước khi thực hiện phânlớp Theo như tìm hiểu, có hai cách chia phân đoạn phô biến: phân đoạn có kích thướcphụ thuộc vào độ dài của video và phân đoạn với kích thước cố định, được trình bày

cụ thé dudi đây:

— Phân đoạn có kích thước phụ thuộc vào độ dài của video: mỗi video sẽ được

phân thành các phân đoạn nhỏ với số lượng có định, nghĩa là số lượng phânđoạn sau khi được chia từ các video là bằng nhau, dù thời lượng của mỗi video

khác nhau Với cách chia này thì thời lượng của các phân đoạn trong cùng một

video sẽ bằng nhau nhưng có thê sẽ khác nhau nếu chúng nằm trong các video

có thời lượng dai hay ngắn hon Ví dụ: tap dit liệu gồm hai video: video A dai

20 giây và video B dài 40 giây, sau khi chia phân đoạn với số lượng định sẵn

là 4 thì video A được chia thành 4 phân đoạn 5 giây va video B cũng được chia

thành 4 phân đoạn nhưng mỗi phân đoạn dai 10 giây Điều này nhằm đem lại

sự nhât quán, có thê xử lí video với thời lượng dài ngăn khác nhau mà vân

20

Trang 33

không phat sinh thêm chi phí tính toán Kế thừa từ Sultani và cộng sự [5], [29],[22] và RTFM [6] đã chia mỗi video thành 32 phân đoạn không trùng lắp nhau.Phân đoạn với kích thước cố định: ngược lại với cách chia trên, kích thước củamỗi phân đoạn là như nhau bat kê thời lượng video dài ngắn như thé nào Điềunày có nghĩa là một video dài sẽ được chia thành nhiều phân đoạn hơn một

video ngắn Cách chia này sẽ giúp hạn chế tình trạng các đặc trưng bình thườnglấn at các đặc trưng bat thường đối với sự kiện bat thường ngắn (chiếm phan

nhỏ trong phân đoạn) ma cách chia phân đoạn với kích thước phụ thuộc vào

độ dài video mắc phải [30] [27], vì mạng rút trích đặc trưng C3D [25] xử lý

từng phân đoạn có 16 khung hình nên tác giả đã chia các video thành từngphân đoạn có kích thước cố định là 160 khung hình Cùng lí đo đó, nhưng [31]chia thành các phân đoạn có kích thước 16 khung hình [32] cũng sử dụng cách

chia phân đoạn với thời lượng cố định, nhưng nhóm tác giả của nghiên cứunày cho rằng các khung hình liền kề nhau thường không có sự thay đổi đáng

kề nên họ chỉ chọn một vài khung hình từ một phân đoạn bằng cách lay mauthưa ngẫu nhiên (random sparse-sampling) dé rút trích thay vì sử dụng toàn

bộ khung hình từ phân đoạn đó, như vậy sẽ huấn luyện được bộ phân lớp hiệuquả hơn [33] thì chia phân đoạn với thời lượng cố định là 15 khung hình vìnghiên cứu này sử dụng mạng ResNet50 dé rút trích đặc trưng trên từng khunghình rồi tính trung bình 15 vector đặc trưng ấy đại diện cho cả phân đoạn

Dù chia phân đoạn theo cách nào thì thời lượng hay kích thước của các phân

đoạn trong cùng một video sau khi chia đều phải bằng nhau

2.6.5.3 Trích xuất đặc trưng

Công việc trích xuất đặc trưng các phân đoạn là giai đoạn được thực hiện táchbiệt trước khi bắt đầu huấn luyện trình phân lớp Dù sử dụng phương pháp rút trích

đặc trưng dựa trên khung hình hay trên đoạn video thì đặc trưng của phân đoạn cũng

được suy ra bằng cách tính trung bình các đặc trưng của các thành phần thuộc phân

đoạn đó.

21

Trang 34

2.0.5.4 Phân lớp phân đoạn

Trong mô hình, phần sẽ được huấn luyện bắt đầu từ mạng nơ-ron được kết nốiđầy đủ (Fully Connected Neural Network — FCNN) với đầu vào là vector có 4096chiều Thành phần này có nhiệm vụ xác định đâu là phân đoạn bình thường và đâu làphân đoạn bat thường

Mạng FCNN gồm ba lớp lần lượt chứa 512 đơn vị, 32 đơn vị và 1 đơn vị, giữacác lớp đều được sử dụng dropout 60% đề giảm thiểu việc học quá khớp [5] sử dụnghàm kích hoạt ReLu [34] cho lớp FC đầu tiên và Sigmoid cho lớp FC cuối cùng Dùđầu vào là video bình thường hay bat thường thì sau khi qua mạng FCNN đều sẽ tính

ra điểm số bất thường cho các phân đoạn trong mỗi video Sau đó, MIL sẽ sử dụngmỗi phân đoạn có điểm số bất thường cao nhất dé đại diện cho cả video với nhãnđược giả định giống với nhãn của video Từ đó, MIL sẽ tính hàm mục tiêu rankingloss từ các phân đoạn có điểm số bất thường cao nhất từ video bình thường và bấtthường Rank loss bao gồm ba thành phan: hàm mục tiêu đối ngoại (outer bag loss)

đi kèm với hai thành phần ràng buộc về tính trơn tru (smoothness) theo thời gian vàràng buộc về tính thưa thớt (sparsity) được mô tả như Hình 2-12 Trong đó, hàm mục

tiêu đôi ngoại được tính như sau:

loueer = max (0,1 — max s{;) + max s(//))

Trong đó: F;, Fj lần lượt là video bat thường và video bình thường f;, fj lần lượt

là phân đoạn thuộc video bat thường và video bình thường s(f,) là điểm số bat thường của các phân đoạn Hàm mục tiêu này nhàm làm cho điểm số của phân đoạn bat thường phải cao hơn điểm số của phân đoạn bình thường Điều này cũng đồng nghĩa rằng phân đoạn bắt thường có điểm số càng cao và phân đoạn

bình thường có điểm số càng thấp thì càng tốt.

22

Trang 35

Dropout 60%

MIL Ranking Loss with sparsity and smoothness constraints

Hình 2—12: Trình phan lớp [5] sử dụng.

2.6.5.5 Hậu xử lý

Như đã phân tích trong các mục trước, mặc dù được huấn luyện trên nhãn mức

video nhưng tập kiêm tra của bộ dữ liệu theo hướng giám sát yếu vẫn được gan nhãnmức khung hình Vì vậy, dé phục vụ cho công đoạn đánh giá thì các phương phápphải dự đoán được sự kiện bất thường trên từng khung hình chứ không dừng lại ở

mức video hay phân đoạn Sau khi có được kết quả của bước phân lớp phân đoạn,

giai đoạn hậu xử lý có nhiệm vụ chuyền đôi điểm số bất thường của mỗi phân đoạn

thành điểm số bắt thường trên từng khung hình [5] đã đề xuất rằng điểm số bất thườngcủa phân đoạn cũng chính là điểm số bất thường của tất cả khung hình thuộc phân

đoạn đó, đây cũng là cách mà các phương pháp khác áp dụng.

2.6.6 Các bộ dữ liệu cho bài toán phát hiện bất thường

Trong những năm gần đây, do thu hút được sự quan tâm trong cộng đông thịgiác máy tính, các nhóm nghiên cứu đã xây dựng và đề xuất những bộ dữ liệu để phục

vụ cho nhiệm vụ phát hiện bất thường Dựa vào ngữ cảnh, những bộ dữ liệu này có

thê được chia thành hai nhóm chính sau: bộ dữ liệu đơn cảnh và bộ đữ liệu đa cảnh

Bang 2—1 sẽ trình bày thông tin chỉ tiết về các bộ dữ liệu này

23

Trang 36

Bảng 2-1: Tóm tắt thông tin các bộ dữ liệu cho phát hiện bat thường và bộ dữ liệu

384x 512

158 x 238

240 x 360

360 x 640

480 x 856

Trang 37

2.6.6.1 Bộ dữ liệu đơn cảnh

Nhóm bộ dữ liệu đơn cảnh bao gồm các bộ dữ liệu không đa dạng trong cảnh

quay (thường ít hơn 3 cảnh) Bởi vì trước đây khi thiết bị an ninh chưa phổ biến vàđược lắp đặt ở nhiều nơi như hiện nay nên việc thu thập được video quay từ camera

giám sát đã gặp nhiều khó khăn, chưa ké đến góc quay Do đó đã có các bộ dit liệu

đơn cảnh được đề xuất trong suốt những năm qua là điều dễ hiểu Tuy nhiên trongthời diém hiện tại, những bộ dữ liệu đơn cảnh gặp phải van đề thiếu sự đa dang, điềunày ảnh hướng không tốt đến khả năng ứng dụng vào thực tế Một số hình ảnh củacác bộ dit liệu đơn cảnh thường được sử dụng để giải quyết bài toán được thé hiện

Bộ dữ liệu UMN [27] bao gồm 11 video ngắn được quay trong 3 cảnh khác

nhau: sân ngoài trời, không gian và tiền sảnh trong nhà Bộ dữ liệu có tổng cộng 3,855khung hình với mỗi khung hình có độ phân giải 240 x 320 UMN chỉ có một loại bấtthường đó là hành động tất cả mọi người đột ngột bỏ chạy Bộ dữ liệu cung cấp nhãn

25

Trang 38

ở mức khung hình nhưng không có quy định rõ ràng về việc chia khung hình huấnluyện và khung hình kiểm thử.

Bộ dữ liệu Subway [28] được chia thành hai bộ con là Subway Entrance vàSubway Exit tương ứng với địa điểm quay là cổng vào và công ra của trạm xe tàuđiện ngầm và bao gồm 2 video tương ứng với 2 địa điểm Video quay tại cổng vào

của tàu điện dài 1 tiếng 36 phút trong khi video tại cổng ra dài 43 phút với độ phângiải 384 x 512 Hành động hành khách nhảy ra và cố gắng vượt rào mà không thanh

toán tiền vé hoặc đi không đúng hướng chỉ dẫn là sự kiện bat thường chủ yếu có trong

bộ dữ liệu này.

Bộ dữ liệu UCSD Pedestrian [37] cũng bao gồm 2 bộ con là UCSD Ped I (Ped1) và UCSD Ped 2 (Ped 2) Bộ Ped 1 chứa 34 video huấn luyện và 36 video đánh giávới 40 sự kiện bất thường Các sự kiện bất thường thường xảy ra bao gồm đi xe đạp,

xe máy hoặc xe hơi trên làng đường dành cho người đi bộ Trong khi đó, Ped 2 bao

gồm 16 video huấn luyện và 12 video đánh giá với 12 sự kiện bất thường Các loạibat thường trong Ped 2 cũng tương tự như trong Ped 1 Tat cả sự kiện bat thường đềuxảy ra một cách tự nhiên trong thực tế và không có sự dàn dựng Hai bộ con khácnhau chủ yêu từ góc quay, kích thước bộ dữ liệu và độ phân giải của khung hình (158

x 238 ở Ped 1 và 240 x 360 ở Ped 2) Mỗi bộ con đều chỉ chứa duy nhất một cảnhquay trong toàn bộ video.

Bộ dữ liệu CUHK Avenue [38] bao gồm 16 video huấn luyện và 21 video đánh

giá với độ phân giải mỗi khung hình là 480 x 856 Bộ dữ liệu này chứa tổng cộng 47

sự kiện bất thường gồm thảy/ném vật thể, chạy, nhảy Và CUHK Avenue cũng chỉquay ở một góc cố định, tuy nhiên kích thước của người trong các khung hình có thé

thay đổi do di chuyên ra xa hoặc lại gần so với camera

2.6.6.2 Bộ dữ liệu da cảnh

Những năm trở lại đây, do nhu câu về sự đảm bảo an ninh tăng lên đã dân đên

sự phô biên vê sô lượng camera giám sát Cùng với đó, sự phát triên của các trang

mạng xã hội đã giúp những nhà nghiên cứu có cơ hội thu thập những video bat thường

26

Trang 39

thuận tiện hơn ShanghaiTech [11], UCF—Crime [5] và XD—Violence [39] là những

bộ dữ liệu nỗi tiếng thường được sử dụng trong các nghiên cứu hiện nay Một vài ví

dụ được trình bày trong Hình 2-14.

Bộ dữ liệu ShanghaiTech Campus [11] được quay tại khuôn viên trong một

trường đại học bao gồm 330 video huấn luyện và 107 video đánh giá với độ phân giải

mỗi khung hình là 480 x 856 Bộ dữ liệu này chứa 130 sự kiện bất thường trong 13cảnh khác nhau cùng với điều kiện ánh sáng phức tạp và góc quay của camera

ShanghaiTech UCF - Crime XD - Violence

Bất thường

Bình thường

Hình 2—14: Một số mẫu khung hình bình thường và bat thường có trong các bộ dữ

liệu đa cảnh.

Bộ dữ liệu UCE-Crime [5] là một bộ di liệu phức tạp quy mô lớn dành cho

hướng tiếp cận giám sát yếu với tổng thời lượng 128 giờ và có độ phân giải trung

bình 240 x 320 Toàn bộ video trong bộ dit liệu này đều được quay từ camera CCTV

Bộ dữ liệu được chia làm 2 tập, trong đó, tap huấn luyện chứa 800 video bình thường

và 810 video bat thường và tập kiểm tra có 150 video bình thường và 140 video bat

thường Đây là bộ dữ liệu vô cùng đa dạng về ngữ cảnh cũng như các loại sự kiện bất

27

Trang 40

thường đêu liên quan đên yêu tô an ninh va cũng là bộ dữ liệu điêm chuân thường được đê cập trong các nghiên cứu liên quan.

Bộ dữ liệu XD—Violenee [39] là bộ dữ liệu về bạo lực có quy mô lớn nhất hiệntại với tông thời lượng 217 giờ và gồm 6 loại bất thường Khác với những bộ dữ liệu

trước đó, XD—Violence được thu thập từ nhiều nền tảng khác nhau, trong đó có trích

xuất từ phim và YouTube, và các video có chứa âm thanh Bộ dữ liệu được chia thànhhai tập, tập huấn luyện bao gồm 1905 video bạo lực và 2049 video không chứa bạolực, trong khi tập kiểm tra chứa 500 video bạo lực và 300 video không chứa bạo lực.Đây cũng là bộ dữ liệu theo hướng tiếp cận giám sát yếu, số lượng video vô cùng lớn,

đa dạng về ngữ cảnh và các hành vi bat thường liên quan đên vân đê an ninh.

28

Tiêu đề	Phát hiện bất thường trong video tại Việt Nam theo cách tiếp cận giám sát yếu
Tác giả	Về Thành Trung Dũng
Người hướng dẫn	ThS. Võ Duy Nguyễn
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	62,56 MB