Khóa luận tốt nghiệp Khoa học dữ liệu: Phát hiện bất thường từ camera giám sát sử dụng các thuật toán học sâu

đề tài phát hiện hành vi bất thường thông qua video sử dụng các thuậttoán học sâu là một lĩnh vực nghiên cứu đầy hấp dẫn và thách thức trong lĩnh vựcthị giác máy tính.. Mục tiêu khóa luậ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGUYEN MANH ĐỨC - 20521196

LÊ HUY HOÀNG - 20521339

KHÓA LUẬN TÓT NGHIỆP

DEEP LEARNING-BASED ANOMALY DETECTION IN

VIDEO SURVEILLANCE

CU NHÂN NGÀNH KHOA HỌC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHi MINH, 2024

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

33/QD-DHCNTT ngày 10 tháng 1 năm 2024 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 TS Nguyễn Tan Cầm - Chủ tịch

2 ThS Huỳnh Văn Tín - Thư ký.

3 ThS Phạm Thế Sơn - Ủy viên

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, nhóm xin gửi lời cảm ơn đến các thầy cô Khoa Khoa học và Kỹ thuậtThông tin nói riêng cũng như quý thầy cô Trường Đại học Công nghệ Thông tin nóichung đã tận tâm chỉ dạy, truyền đạt những kiến thức quý giá cũng như các kĩ năngcần thiết dé có thé đạt được những thành công nhất định trong tương lai

Đặc biệt, chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Đỗ Trọng Hợp và TS.Trần Văn Thành đã giúp nhóm có được những cái nhìn lẫn hướng đi đúng đắn, chỉdẫn và tạo điều kiện thuận lợi trong suốt quá trình thực hiện dé tài và hoàn chỉnhKhóa luận Tốt nghiệp ngành Khoa học dir liệu

Và lời cảm ơn cuôi cùng xin chân thành gửi đên gia đình và bạn bè vì đã luôn bên cạnh ủng hộ và động viên, tạo điêu kiện tinh than và vat chat cho chúng tôi trong suôt quá trình dài học tập và nghiên cứu.

Nhóm tác giả

Nguyễn Mạnh Đức - Lê Huy Hoàng

Trang 4

1.3 Mục tiêu khĩa luận - 2211112221 111253 111193111 19311119 111g vn vết 4

1.4 Đối tượng và phạm vi nghiên cứu 2-2 2 s+2E++E++EE+EEerxezxezrxsrxerxee 4

1.5 Cac noi dung Chink 4 5

Chương 2 TONG QUANN -2- 2-52 SE EE19E1211212111711121121121111111111 1.1 xe 6

2.1 Tình hình nghiên cứu trên thế giới - 2-2 +2 £+EE+EE+EEt£E2EE2EEerxerxerree 6

2.2 Thách thỨC - - 2c 3223 1112111121111111 111191111011 111 1811 1H 1E TH HH ng 8

Chương 3 CƠ SỞ LÝ THUYÊT - - 2-52 E9 EEEEEEE2EE2EEEEE2112112117171E2122E re 10

3.1 Phát hiện bất thường từ Video 2-©52+S2+EEeEEeEE211211271 271212112 xe 103.2 Các thành phan tính tốn chính - - + 2 252 E2 E£E£EE£EE£EE2EE2EzEerxered 12

3.2.1 Mạng Nơ-ron tích chập (CNN) c1 1211 1 re 12

3.2.2 Mạng Nơ-ron hồi tiếp (RNN) ¿5252k 2EE2EEEEEerErrerrrred 153.2.3 Bộ chuyền đối hình ảnh (Vision Transformer) - 2 2 5z: 193.2.4 Học nhiều trường hợp - Multiple Instance Learning 213.2.5 Cơ chế tự tập trung (Self-Attention) - 25+ +s+xerxezsrzrzrerxee 22

3.2.6 Đường cong ÁC-ROC - c St S2 SH HH HH HH nhớt 25

Chương 4 BO DU LIỆU ¿+52 S£ S252 E2E22E£EE2EEE12EEE52EE212E21E2121E21212121 212 cre 27

4.1 Giới thiệu về Bộ dữ liệu - -: -55cccccttttrrtrtirrrtrrirrrrrrrrrrrrirrrre 27

4.2 MG ta BO 0 0 31

4.3 Chia dtt LGU Ả 33

Chương 5 PHƯƠNG PHÁP TIẾP CAN VÀ KET QUẢ - 2: 2-55z5522 35

5.1 Khởi nguồn và lý do tiếp cận video được giám sát yếu - 355.2 Trích xuất đặc trưng thơng qua I3D - 2 2 2 2+E+E££EeEE+EEzEzEerxers 36

5.3 Mơ hình học cường độ tính năng thời gian (RTEM) ‹+s-52 38

5.3.1 Học tính năng thời gian đa quy mơ (Multi-scale Temporal Feature

5.3.2 Học tam quan trọng của tính năng (Feature Magnitude Learning) 42

5.3.3 Học phân loại phân đoạn (Snippet Classifier Learning) 42

5.3.4 Triển khai thực 0301900000277 “ 11iI 435.4 Mạng lay nét và lay nét tương phản độ lớn (MGEN) -: 5¿ 43

5.4.1 Cơ chế khuếch đại tính năng (Feature Amplification Mechanism) 45

Trang 5

5.4.2 Khối nhìn thoáng qua (Glance Bloek) -2- 2 2 s++sz+sz+zz+zxe+ 455.4.3 Khối lấy nét (Focus BloeK) - ¿- 2 + s+xeEk+EE£EE2E2EeEEerkerkersrreee 475.4.4 Ham mắt mát tương phản độ lớn (Magnitude Contrastive Loss) 485.4.4 Triển khai thực 30150000117 -Ã11ä 495.5 Kết quả thực nghiệm ¿2 s52 SE2EE2EEEEEEE 21121121171 717111211 21.1 xe 50Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIỀN -5¿©5255z22+z2ss2 52

6.1 Tổng kẾt - - s21 1 1 11121121121121121111111 111121121111 1111210111111 eerrau 52

6.2 Hướng nghiên cứu trong tương laI 5c 2c 3233 EEteressssreesrres 52

Trang 6

DANH MỤC HÌNH

Hình 3.1: Kiến trúc mạng Nơ-ron tích chập (Nguồn [ I ]) 2-52 225552 12Hình 3.2: Phép tính tích chập của một bộ lọc kích thước 3x3 trên ảnh (Nguồn [5]) 13Hình 3.3: Kiến trúc mạng AlexNet (Ngu6n [2 I]) 2-©52522csccxezxzrzrssred 15Hình 3.4 Kiến trúc mạng Nơ-ron tái phát (Nguồn [22]) 5-55 2cz+xs+s+ 16Hình 3.5: Kiến trúc RNN One to One (Ngu6n [22]) - 2-52 55ccc++£zz£zeczez 17Hình 3.6: Kiến trúc RNN One to Many (Nguồn [22]) 2-52 52cccccczcssced 17Hình 3.7: Kiến trac RNN Many to One (Nguồn [22]) - 5-5522 z+szxecxez 18Hình 3.8: Kiến trac RNN Many to Many (Nguồn [22]) c.ccsccscsscessesesseeesesesseseeees 19Hình 3.9: Kiến trúc của mô hình ViT (Nguồn [2]) cc.ccsccescessessessesssessessesseeseeseeseees 20Hình 3.10: Minh họa giả định MIL tiêu chuẩn (Nguồn [24]) - 2-5252 22Hình 3.11: Kiến trúc cơ chế tự tập trung trong mạng LSTM (Nguồn [3]) 23Hình 3.12: Kiến trúc bộ chuyên đổi (Nguồn [3]) 2-52 5+2E+EzEzrxerxeez 24

Hình 3.13: Ví du về đường cong ROC (Nguồn [4]) - 2-5255 scc2£zEzxrxez 26

Hình 4.1: Khung hình cắt từ video mẫu ví dụ của video có cảnh Trộm cắp, Cháy nô,

900100i):1 0 29

Hình 4.2 Khung hình cắt từ video mẫu ví dụ của video có cảnh Cướp bóc, Tai nạn

giao thông, Bình thường - ¿- c6 + 1v HH nh TT TH HH HH th tiệt 30

Hình 4.3: Thời lượng và kích thước từng loại Video - ¿ +5 + ss+++sxsss 31

Hình 4.4: Mô tả phân bó theo thời lượng của từng loại video - z5 32Hình 5.1: Dua ra kết luận không hợp lý dựa vào nhãn cấp độ khung hình 36Hình 5.2: Kiến trúc Inflated Inception-V1 (Nguồn [38]) - 5-52 55252 37

Hình 5.3: Kết quả một số phương pháp về nhận dạng hành động trên Kinetic400

II 00:0 6220 ^^ 37

Hình 5.4: Kiến trúc Robust Temporal Feature Magnitude Learning - 39Hình 5.5 Kiến trúc mạng thời gian đa quy mô (Multi-scale Temporal Network) 40Hình 5.6 Kiến trúc mạng lấy nét và lấy nét tương phản độ lớn - 44Hình 5.7: Kiến trúc khối nhìn thoáng qua 2-2 £©s E+EE+E++E++E££EeEEeEEerszrezes 46Hình 5.8: Kiến trúc khối lẫy nét - 2: 222 22Et2EE2EE22EE22212731221221221222122xe2 47

Trang 7

DANH MUC BANG

Một số kết quả nghiên cứu trên thế giới 2-2 2 +E£££EzEzEzEered 8Bang thống kê mô ta dựa trên thời lượng của video - :s- 32

Số lượng video sử dụng cho huấn luyện và kiểm tra -:cc+cscscsc 34

Bang so sánh kết quả 2 mô hình - 2 2 2 2+S£+E££E£EE2EE2EzErEerxee 50Bang kết quả nghiên cứu cắt bỏ các phan trong mô hình MGEN 51Bảng kết quả nghiên cứu cắt bỏ các phan trong mô hình RTEM 51

Trang 8

DANH MỤC TỪ VIẾT TẮT

Diện tích dưới đường cong ROC - Area Under the ROC

Curve

Mạng Nơ-ron tích chập - Convolutional Neural Network

Cơ chế khuếch đại tính năng - Feature Amplification

3 FAM Mechanism

+ | MUMIL Học nhiều trường hợp - Multiple Instance Learning

T

7 NN

Trang 9

TÓM TÁT KHÓA LUẬN

Trong dé tài này, nhóm phát triển mô hình học sâu có thé áp dụng cho việc pháthiện hành vi bất thường trong video giám sát dựa trên giám sát yếu Mục tiêu củanghiên cứu này nhằm áp dụng mô hình chạy trong thời gian thực từ các hệ thốngcamera giám sát như camera an ninh, camera giao thông, từ đó có thé lưu trữ cácthông tin và phát ra tín hiện về các hành vi bất thường

Bộ dữ liệu sử dụng trong nghiên cứu này là UCF-Crime, đây là bộ dữ liệu quy mô

lớn bao gồm 1900 video giám sát trong thế giới thực dài bình thường và 13 hiện

tượng bất thường Tuy nhiên, chúng tôi đã chọn lọc lại 5 hiện tượng bất thường dé

phù hợp với ngữ cảnh Việt Nam va bổ sung thêm các video có chứa các hiện tượngbat thường Các hiện tượng bất thường được sử dụng trong dé tài này bao gồm trộm

cap, cướp bóc, tai nạn, cháy nô, đánh nhau.

Vì số lượng video giám sát được sử dụng trong đề tài rất lớn, việc gán nhãn từng

khung hình trong mỗi video sẽ cần rất nhiều thời gian, công sức và gặp khá nhiềukhó khăn, nên chúng tôi thực hiện triển khai hướng tiếp cận dựa trên giám sát yêu

để phát hiện bất thường Đây cũng là một trong những hướng tiếp cận được đa sốcác nhà nghiên cứu trên thế giới sử dụng Với hướng tiếp cận này, chúng tôi đề xuấthai kiến trúc học sâu được sử dụng là Robust Temporal Feature Magnitude

Learning (RTFM) và mạng Magnitude-Contrastive Glance-and-Focus (MGFN).

Trang 10

Chương 1 MỞ ĐẦU

1.1 Đặt vấn đề

Trong thời gian vừa qua, tình hình an ninh xã hội chúng ta đã và đang phải đối mặt

với nhiều sự kiện bat thường gây nguy hiểm cho an ninh trật tự Cac vụ đánh nhau,

cháy né, trộm cướp ngày càng xảy ra nhiều và có xu hướng gia tăng Những hành vinày không chỉ làm ảnh hưởng xấu đến tính mạng và tài sản của con người, mà cònảnh hưởng đến sự phát triển kinh tế - xã hội của đất nước Theo Báo Công an nhândân điện tử, trong 6 tháng đầu năm 2023, Việt Nam đã xảy ra 4970 vụ tai nạn giaothông, gây ra 2009 người bị thương, 1462 người bị thương nhẹ và 2865 người chết

Về tình hình an toàn phòng cháy chữa cháy thì toàn quốc xảy ra 881 vụ hỏa hoạn,gây thiệt hại ước tính lên đến 87,15 tỷ đồng, khoảng 150 héc-ta rừng bị tàn phá, làm

tử vong 45 người và 43 người bị thương Vấn nạn trộm cắp diễn biến ngày càng

phúc tạp, đặc biệt các đối tượng phạm tội hoạt động ngày càng xảo quyét, tinh vi.

Dé giảm thiểu van dé này, cần nâng cao ý thức trách nhiệm và tinh thần đoàn kếtcủa cộng đồng, cùng nhau bảo vệ an ninh quốc gia và xây dựng một xã hội vănminh, an toàn Bên cạnh đó, cần có sự phối hợp chặt chẽ giữa các cơ quan chức

năng và người dân trong việc phát hiện, phòng ngừa va xử lý kip thời các sự kiện

bất thường

Camera an ninh ngày càng phổ biến trong nhiều lĩnh vực khác nhau, từ nhà ở, cơquan, trường học, đến cửa hàng, nhà hàng, khách sạn và nhiều nơi công cộng khác.Camera an ninh có nhiều ưu điểm như giúp giám sát, bảo vệ tài sản, phòng chốngtội phạm, ghi lại những sự kiện quan trọng Việc sử dụng con người dé theo dõi vàphát hiện kịp thời các hành vi bất thường thông qua camera an ninh giúp ngăn chặncũng như giúp có thé giảm thiểu hậu quả gây ra Tuy nhiên, nhân lực cần thiết chonhiệm vụ này với số lượng camera an ninh ngày càng lớn thì ngày càng gặp nhiềukhó khăn Với sự phát triển của mảng trí tuệ nhân tạo, ứng dụng các thuật toán học

máy phát triển mô hình hỗ trợ con người trong công việc ngày càng quan trọng và

Trang 11

phổ biến Việc dit liệu có được ngày càng lớn và các phan cứng ngày càng pháttriển mạnh, các mô hình học máy có thể giải quyết nhiều bài toán phức tạp, từ nhậndiện hình ảnh, âm thanh, xử lý ngôn ngữ tự nhiên, đến dự đoán, phân tích và tối ưuhóa một cách tốt nhất.

1.2 Lý do chọn đề tài

Đề tài phát hiện bất thường thông qua video đã được nghiên cứu chuyên sâu vì tiềmnăng của nó được sử dụng trong các hệ thống giám sat tự động Mục tiêu của việcphát hiện sự bất thường trong video là xác định khoảng thời gian khi một sự kiện

bất thường xảy ra, trong bối cảnh giám sát, các ví dụ về sự bất thường là tai nạn

giao thông, trộm cắp trong cửa hàng, bạo lực, Bằng cách sử dụng các phươngpháp học sâu, chúng ta có thể xây dựng các mô hình có khả năng phân biệt giữa cáchành vi bình thường và bất thường trong các video được ghi lại từ các camera giámsát, camera an ninh hay camera giao thông Với sự phát triển ngày càng lớn vềngành công nghiệp, cơ sở hạ tầng, dân sé, các van đề liên quan đến tai nạn, cháy

nỗ diễn ra ngày càng nhiều Việc phát hiện bất thường thông qua video có nhiềuứng dụng hữu ích trong đời sống, như phòng chống tội phạm, an ninh quốc gia, an

toàn giao thông và bảo vệ môi trường Ví dụ như tháng 9 vừa qua tại Hà Nội, theo

Báo Tuổi Trẻ, sự việc hỏa hoạn ở chung cư mini 9 tầng tại Hà Nội đã gây thiệt hạilên đến 56 người chết và rất nhiều tài sản bị thiêu rụi Nhận ra việc phát hiện các sựviệc, hiện tượng, hành vi bất thường sớm có thể giúp đỡ rất nhiều trong việc ngănchặn, giảm thiểu rất nhiều tốn thất có thé gây ra Vì vậy, nhóm muốn thực hiện,nghiên cứu một mô hình kiến trúc học sâu có khả năng nhận diện hành vi bấtthường thông qua video, từ đó có thé theo dõi, giám sát video toàn thời gian dé hỗtrợ cho người giám sát Đề phù hợp với bối cảnh Việt Nam, nhóm đã chọn ra 5 hành

vi bất thường phổ biến bao gồm tai nạn giao thông, trộm cắp, cướp bóc, cháy nỗ vàđánh nhau dé sử dụng cho đề tài này

Trang 12

Ngoài ra đề tài phát hiện hành vi bất thường thông qua video sử dụng các thuậttoán học sâu là một lĩnh vực nghiên cứu đầy hấp dẫn và thách thức trong lĩnh vựcthị giác máy tính Việc thực hiện đề tài có thể cung cấp cho chúng tôi những kiếnthức quan trọng cho việc nghiên cứu và phát triển trong tương lai.

1.3 Mục tiêu khóa luận

Trong nghiên cứu này, chúng tôi tập trung vào triển khai các phương pháp học sâu

để giải quyết bài toán phát hiện hành vi bất thường từ video cho trước, mô hình

được đảo tạo sẽ cô gắng xác định thời điểm hành vi bất thường diễn ra trong video

Vì vậy, chúng tôi đặt ra các mục tiêu sau:

e Tạo ra một bộ dữ liệu tốt xoay quanh dé tai này bằng việc tổng hợp các video

từ mạng xã hội và bộ dữ liệu liên quan đến đề tài này của những bài nghiêncứu trước Trong số những video chúng tôi sử dụng để đào tạo mô hình, phần

lớn sẽ được lấy từ bộ đữ liệu UCF-Crime

e Tiến hành cài đặt thử nghiệm các phương pháp học sâu trên bộ dữ liệu mà

chúng tôi đã chọn lọc cho bài toán phát hiện hành vi bất thường thông qua

video bằng giám sát yếu như mạng Magnitude-Contrastive

Glance-and-Focus, Temporal Feature Magnitude Learning Sau đó thực hiện

đánh giá và phân tích kết quả dé tim ra mô hình phù hợp

e Tổng hợp, cung cấp một số thông tin hữu ích về phương pháp, dữ liệu đối

với bài toán phát hiện hành vi bất thường

1.4 Đối tượng và phạm vi nghiên cứu

Đối tượng: Bộ đữ liệu và các phương pháp học sâu để giải quyết các bài toán pháthiện hành vi bất thường từ video được thu thập từ các camera an ninh

Phạm vi: Nghiên cứu tập trung chủ yêu vào việc thu thập xây dựng bộ dữ liệu và sử

dụng các thuật toán học sâu đối với bài toán phát hiện hành vi bất thường từ video

bằng giám sát yếu

Trang 13

1.5 Các nội dung chính

Khóa luận này sẽ gôm 6 chương với các nội dung chính lân lượt như sau:

Chương 1 M@ đầu: đặt van dé, trình bày lý do thực hiện đề tài phát hiện

hành vi bất thường từ video Sau đó là liệt kê các mục tiêu mà chúng tôi

hướng đến đối với khóa luận Trình bày tổng quan đối tượng và phạm vinghiên cứu Cuối cùng là giới thiệu sơ lược nội dung của các chương mà

chúng tôi sẽ trình bày trong luận văn.

Chương 2 Tống quan: Trình bày tổng quan tình hình nghiên cứu đối với đềtài phát hiện hành vi bất thường từ camera giám sát Những khó khăn, tháchthức cũng như xu hướng nghiên cứu của các nhà khoa học trên thé giới Cáccông trình nghiên cứu ngoài nước liên quan đến các phương pháp được sửdụng đối với đề tài này

Chương 3 Cơ sở lý thuyết: Trình bày các kiến thức cơ sở mà chúng tôi sửdụng dé thực hiện các phương pháp, thuật toán nhằm mục đích giải quyết bài

toán đặt ra.

Chương 4 Bộ dữ liệu: Trình bày mô tả tổng quan về bộ dữ liệu mà chúng

tôi xây dựng sé sử dụng cho khóa luận nay

Chương 5 Phương pháp tiếp cận và kết quả: Trình bày các phương pháp

mà chúng tôi đã chọn và áp dụng lên bộ dữ liệu đối với bài toán phát hiệnhành vi bất thường thông qua video.Trình bày kết quả mà chúng tôi thu được

của từng phương pháp sử dụng.

Chương 6 Kết luận và hướng phát triển: Tổng kết các thành quả đã đạt

được và đề xuất các phương pháp, định hướng sẽ thực hiện trong tương lai

đê cải thiện hiệu suât của mô hình.

Trang 14

Chương 2 TONG QUAN

2.1 Tinh hình nghiên cứu trên thé giới

Thời gian gần đây, với lượng dữ liệu khổng lồ và sự phát triển mạnh mẽ của linhkiện phần cứng máy tính, tạo điều kiện cho việc phát triển những mô hình trí tuệnhân tạo dé có thể phục vụ con người trong công việc Cùng với sự phát triển về các

kĩ thuật học máy và học sâu, các mô hình học máy ngày càng có thê giải quyếtnhiều bai toán phức tạp như nhận diện ảnh, âm thanh, xử lý ngôn ngữ tự nhiên Đốivới lĩnh vực thị giác máy tính còn có các bài toán như phát hiện đối tượng, phân

tích hành vi, nhận dạng hành động,

Phát hiện hành vi bất thường từ video là một trong những bài toán đầy thách thức và

hấp dẫn đối với các nhà khoa học trong lĩnh vực thị giác máy tính, đề tài này cũng

trở thành một trong những chủ đề nghiên cứu quan trọng có nhiều ứng dụng thựctiễn, như giám sát an ninh, phòng chống tội phạm Vì vậy, nhiều công trình nghiêncứu liên quan đến phát hiện hành vi bất thường từ video cũng được quan tâm và

công bố nhiều tại các tạp chí nghiên cứu từ nhỏ đến lớn Có thé kế đến một số bộ dữ

liệu với quy mô lớn như UCF-Crime, được công bồ lần đầu năm 2018 bởi tác giả

Waqas Sultani cùng các cộng sự trong bai bao “Real-world Anomaly Detection in

Surveillance Videos” [30] với 1900 video bao gồm video bất thường va bìnhthường, dài 128 giờ cho 13 loại hành vi bất thường phạm tội như đối phá, bắn súng,đánh nhau, cháy nổ, và một số bộ dữ liệu khác như XD-Violence [32],ShanghaiTech Campus [33] Đối với việc phát hiện hành vi bất thường từ video, các

nhà khoa học có xu hướng tập trung vào phương pháp một lớp (one-class) hoặc

không được giám sát (unsupervised) để tìm bất thường mà không cần gán nhãn cho

dữ liệu hoặc giám sát yếu (weakly supervised) chi cần nhãn ở cấp độ video

Trong nhánh học một lớp, tác giả Luo và cộng sự trong bài báo “GODS:

Generalized One-class Discriminative Subspaces for Anomaly Detection” [34] đã

thiết kế một mạng ConvLSTM để học các đoạn video bình thường ConvLSTM là

Trang 15

một kiến trúc mạng nơ-ron sử dụng cả tích chập và tính tuần hoàn để xử lý dữ liệu

như video Nó cho phép mô hình hoc được cả thông tin không gian va thời gian của

video, giúp cải thiện đáng ké hiệu suất của mô hình trong việc phát hiện hành vi bat

thường.

Trong nhánh học không giám sát, tác giả Ionescu và cộng sự trong bai bao

“Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event

Detection in Video” [31] đã sử dung mang mã hóa tự động (Auto-Encoder) dé tái

tạo các đặc trưng của các khung hình bình thường Tac gia Chang và cộng sự trong

bài báo “Clustering Driven Deep Autoencoder for Video Anomaly Detection” [6]

cũng sử dung dé mã hóa thông tin về hình ảnh và phân cụm dé giảm thiểu nhiễu cómặt trong dữ liệu Bài báo này đã đạt được kết quả tốt hơn so với các phương phápkhông giám sát khác trên các tập dữ liệu phát hiện bất thường là UCF-Crime và

ShanghaiTech.

Trong nhánh học giám sát yếu, khi Sultani và các cộng sự mới cho ra mắt bộ dữ liệuUCF-Crime vào năm 2018, là công trình sớm nhất của bộ dữ liệu UCF-Crime, tácgiả đã sử dụng các phương pháp học đa trường hợp đề xác định vị trí của các đoạn

video bất thường Sau đó năm 2019, công trình “Train a Plug-and-play Action

Classifier for Anomaly Detection” [7] của tác gia Zhong cùng các cộng sự đã sử

dung mạng tích chập đồ thị dé phát hiện bat thường Tuy nhiên, kết quả thu đượcvẫn chưa đạt yêu cầu khi khả năng khái quát hóa của mô hình vẫn còn kém Sau đó,hai công trình được công bố bởi Wan va cộng sự và Zaheer và cộng sự là “Few-shot

Scene-adaptive Anomaly Detection” [8] va “Clustering Assisted Weakly Supervised

Learning with Normalcy Suppression for Anomalous Event Detection” [9] đã thực

hiện các khung sử dụng các kỹ thuật phân cum, bỏ qua bình thường, từ đó cải thiện

hiệu quả huấn luyện và phát hiện bất thường, kết quả cho thấy phương pháp đề xuất

có khả năng tổng quát hóa tốt hơn Gần đây thì các công trình nghiên cứu đề xuấtcác kiến trúc mạng có sự kết hợp của yêu tô không gian và thời gian, ví dụ như Wu

và cộng sự đã công bố công trình nghiên cứu “Weakly-Supervised Spatio-Temporal

Trang 16

Anomaly Detection in Surveillance Video” [10], Jiao, Liu và Li với bai nghiên cứu

“Self-Training MultiSequence Learning with Transformer for Weakly Supervised Video Anomaly Detection” [11].

Bang 2.1: Một số kết quả nghiên cứu trên thé giới

2.2 Thách thức

Phát hiện hành vi bat thường từ video sử dụng học sâu là một lĩnh vực day tháchthức Để huấn luyện mô hình học sâu hiệu quả, ta cần có một sé lượng lớn dữ liệu

video và được gan nhãn chính xác Tuy nhiên, việc thu thập dt liệu video có chứa

hành vi bất thường lại gặp nhiều khó khăn và yêu cầu nhiều thời gian vì các videochứa hành vi bat thường khá ít và ít được công bố rộng rãi Vậy nên có khá ít bộ dữ

liệu đủ lớn được công bố liên quan đến việc phát hiện bất thường từ video Cách

tiếp cận mô hình với bộ dữ liệu bằng việc gán nhãn theo khung hình cũng gặp khókhăn, vì việc gán nhãn xác định hành vi bất thường bắt đầu trong khoảng thời điểm

nao sẽ tôn rat nhiêu thời gian va chi phí Vậy nên hau như các công trình liên quan

Trang 17

đến việc phát hiện hành vi bất thường từ video déu tiếp cận băng phương pháp giámsát yêu, chỉ yêu cầu nhãn ở cấp độ video, tức là xác định video chứa hành vi bất

thường.

Trang 18

Chương 3 CƠ SỞ LÝ THUYET

3.1 Phát hiện bất thường từ Video

Phát hiện bất thường từ video sử dụng học sâu là một bài toán quan trọng trong

nhiều ứng dụng thực tế, ví dụ như giám sát an ninh, phân tích hành vi con người,

con vật, hay phát hiện tai nạn, hành vi vi phạm an toàn giao thông, Tuy nhiên, bai

toán nảy cũng gặp nhiều thách thức, như sự đa dạng của các loại bất thường, sự

thiếu hụt của đữ liệu được gán nhãn, sự phức tạp của các mô hình học sâu Có hainhiệm vụ chính mô hình cần thực hiện: Xác định những thời điểm mà có hành vibat thường xảy ra và xác định hành vi bất thường đó là hành vi bất thường nao trong

số 5 hành vi bao gồm: cháy nổ, tai nạn giao thông, đánh nhau, cướp bóc, trộm cắp.Khóa luận này tập trung vào việc xác định những thời điểm mà có hành vi bất

thường xảy ra.

Một số phương pháp tiếp cận phô biến đối với bài toán phát hiện hành vi bất thường

từ video sử dụng học sâu bao gôm:

e One-class: phương pháp one-class phát hiện bất thường từ video sử dụng học

sâu là một kỹ thuật mới trong lĩnh vực xử lý ảnh và video Phương pháp này

chỉ sử dụng đữ liệu bình thường dé huấn luyện một mô hình học sâu, sau đó

sử dung mô hình đó dé phân biệt giữa dữ liệu bình thường và bat thường

Phương pháp này có ưu điểm là không cần nhãn cho dữ liệu bất thường,không bi ảnh hưởng bởi sự thiếu đồng nhất của dit liệu bat thường và có khanăng phát hiện các loại bất thường mới chưa từng xuất hiện trước đó.Phương pháp này có thé ứng dụng trong nhiều lĩnh vực như an ninh, y tế,

giám sát, và giải trí.

e Video không giám sat (Unsupervised): mục tiêu của phương pháp này là xác

định những hành vi, sự kiện hoặc đối tượng bất thường mà không cần nhãn

dữ liệu huấn luyện Mục tiêu của phương pháp unsupervised là khám phá cau

trúc ân hoặc môi quan hệ giữa các đặc trưng của dữ liệu Một sô ứng dụng

10

Trang 19

của phương pháp unsupervised là phân cụm, giảm chiều, tìm kiếm quy luậtkết hợp sinh đữ liệu mới và phát hiện bất thường Các phương pháp học sâu

thường sử dụng các mô hình như mạng nơ-ron tích chập (CNN), mạng bộ

nhớ ngắn hạn dài (LSTM) hoặc mạng đối nghịch tạo sinh (GAN) dé học cácđặc trưng bất thường từ video Các phương pháp này có thể được chia thành

hai loại chính: phương pháp dựa trên xây dựng mô hình và phương pháp dựa

trên đo lường khoảng cách Phương pháp dựa trên xây dựng mô hình là

phương pháp sử dụng một mô hình học sâu dé xấp xi hoặc tái tạo video đầu

vào, sau đó so sánh video đầu vào với video xấp xỉ hoặc tái tạo để tìm ra

những khác biệt bất thường Phương pháp dựa trên đo lường khoảng cách làphương pháp sử dụng một mô hình học sâu dé biến đổi video đầu vào thànhkhông gian đặc trưng, sau đó tính toán khoảng cách giữa các điểm đặc trưng

dé xác định những điểm bat thường

Video giám sát yếu (Weakly-supervised): mục tiêu của phương pháp này làxác định những hành vi bất thường trong video mà không cần nhãn chính xáccho từng khung hình mà chỉ yêu cầu nhãn ở cấp độ video Điều này giúpgiảm thiểu chi phí và thời gian gán nhãn cho dữ liệu lớn Phương pháp

weakly-supervised sử dụng những thông tin phụ trợ như nhãn toan cục, nhãn

mờ hoặc nhãn nhiễu dé huấn luyện mô hình học sâu Mô hình học sâu có thể

là mạng nơ-ron tích chập, mạng nơ-ron đồ thị hoặc mạng nơ-ron hồi quy dé

trích xuất đặc trưng và phân loại hành vi từ video Một số ví du về phươngpháp weakly-supervised là học từ đồng nghĩa, phân loại văn bản, nhận diệnđối tượng và phân đoạn ảnh

Nhãn cấp độ khung hình (frame-level annotation): quá trình phát hiện bất

thường của video thông qua phân tích cấp độ khung hình bao gồm việc đào

tạo một mô hình để nhận biết các mẫu trong khung hình video và phân biệt

giữa hành vi bình thường và bất thường Video đầu vào được chia thành từng

khung riêng lẻ, sau đó nâng cao chất lượng khung hình thông qua các kỹthuật tiền xử lý như giảm nhiễu, điều chỉnh độ tương phan và thay đôi kích

I1

Trang 20

thước Huấn luyện mô hình bằng cách sử dụng tập đữ liệu được gán nhãn ởcấp độ khung hình, mô hình học cách nhận biết các mẫu liên quan đến hành

vi bình thường và bat thường dựa trên các đặc trưng được trích xuất từ khung

hình.

3.2 Các thành phần tính toán chính

3.2.1 Mạng Nơ-ron tích chập (CNN)

CNN là viết tắt của Convolutional Neural Network, một loại mạng nơ-ron nhân tạo

được thiết kế dé xử lý dữ liệu có cấu trúc lưới, như hình anh, âm thanh hoặc vănban CNN có thé hoc được các đặc trưng phức tạp của dữ liệu bằng cách sử dụngcác phép tích chập, là một phép biến đổi toán học giúp trích xuất các thông tin cục

bộ từ dữ liệu Các kiến trúc dựa trên CNN hiện nay xuất hiện khắp nơi trong lĩnhvực thị giác máy tính và được dùng trong nhiều bài toán như nhân dạng ảnh, pháthiện vật thé (Object Detection), phân vùng hình ảnh (Image Segmentation), Bêncạnh hiệu nâng cao trên sỐ lượng mẫu cần thiết để đạt được đủ độ chính xác, CNNthường có hiệu quả tính toán tốt hơn và dễ thực thi song song trên nhiều GPU hơncác kiến trúc mạng kết nói đầy đủ (fully connected) Một số loại mô hình CNN khácnhau như LeNet, AlexNet, ResNet,VGG, CNN có thé được mô tả bang cach str

dung cac khai niém sau:

Pooling Pooling Pooling

Convolution Convolution Convolution hôm

Kernel RếLU RẻLU ReLU Flatten’,

Trang 21

e Các lớp tích chập: là các lớp chính của CNN, có chức năng phát hiện các đặc

trưng không gian một cách hiệu quả Trong lớp này có 4 thành phần chính là:

ma trận đầu vào, các bộ lọc (filters), vùng nhận thức và bản đồ đặc trưng

(feature map) Mạng nơ-ron tích chập khác biệt với mạng nơ-ron thông

thường bởi vì nó không liên kết với toàn bộ hình ảnh, mà chỉ tập trung kết

nối với các vùng nhận thức cụ thể có kích thước bằng kích thước của bộ lọc

Bộ lọc nay di chuyên theo chiều ngang và dọc của ảnh, thực hiện tích chập

và đưa ra các giá trị được thêm vào bản đồ đặc trưng Mục đích chính củaphép tích chập là trích xuất các đặc trưng của ảnh như cạnh, góc, hình dạng,

mau sac,

Hình 3.2: Phép tính tích chập của một bộ lọc kích thước 3x3 trên anh (Nguồn [5])

e Các bộ lọc (filters): là các ma trận trọng số có kích thước nhỏ hơn so với ma

trận đầu vao, được sử dụng dé quét qua anh va tinh tổng tích chập tại mỗi vị

trí Các bộ lọc thường có nhiều kênh (channels), tương ứng với số kênh của

ma trận đầu vào.

e Đường viền (Padding): là kỹ thuật thêm các giá trị 0 vào biên của ma trận

dau vào, nhăm giữ nguyên kích thước chiêu của ma trận dau ra sau khi tích

13

Trang 22

chập Đệm cũng giúp bảo toàn thông tin ở biên của ảnh và giảm thiéu hiện

tượng quá khớp (overfitting).

e Bước nhảy (Stride): là số bước nhảy của bộ lọc khi quét qua ma trận đầu vào.

Sải bước càng lớn, ma trận đầu ra càng nhỏ và ngược lại Sải bước giúp điềuchỉnh kích thước chiều của ma trận đầu ra một cách linh hoạt

e Lớp gộp (Pooling): là các lớp phụ của CNN, thực hiện phép gộp (pooling)

giữa các ô liền kề trong ma trận đầu vào để tạo ra ma trận đầu ra có kíchthước nhỏ hơn khi hình ảnh quá lớn mà không làm mất đi các đặc trưng quantrọng Phép gộp có thé là lấy giá trị lớn nhất ,lấy giá trị trung bình, lay giátrị tong Mục đích của phép gộp là dé giảm chiều dit liệu, tăng tinh bat biến(invariance) của các đặc trưng và giảm thiểu hiện tượng quá khớp

(overfitting).

e Lớp kết nối đầy du (fully connected): là lớp cuối cùng của CNN, thực hiện

phép nhân ma trận giữa vector đặc trưng thu được từ các lớp tích chập và

gộp với ma trận trọng số để tạo ra vector xác suất cho từng lớp phân loại.Lớp kết nối day đủ có thé có nhiều lớp ân (hidden layers) dé tăng độ phức

tạp của mô hình.

e Hàm kích hoạt: là hàm phi tuyến được áp dung lên vector xác suất dé đưa ra

kết quả cuối cùng cho bài toán phân loại Hàm kích hoạt thường được sử

dung là hàm softmax, ham sigmoid hoặc ham ReLU

Dưới đây là minh họa một kiến trac CNN AlexNet phát triển bởi Alex Krizhevsky,

Ilya Sutskever và Geoffrey Hinton vào năm 2012 AlexNet được dao tạo trên bộ dữ

liệu ImageNet, bao gồm 1,2 triệu hình ảnh với 1000 lớp và có thể đạt được độ chính

xác nhận dạng cao Kiến trúc AlexNet bao gồm 5 lớp tích chập và 3 lớp kết nối đầy

đủ, là kiến trúc đầu tiên cho thấy CNN có thê vượt trội hơn đáng kể so với các

phương pháp học máy truyền thống trong các tác vụ nhận dạng hình ảnh và là một

bước quan trọng trong việc phát triển các kiến trúc sâu hơn như VGGNet,

GoogleNet và ResNet.

14

Trang 23

CONV Overlapping Overlapping

11x11, Max POOL, CONV Max POOL CONV

stride=4, 96 3x3, 9 5x5,pad=2 3x3, 256 3x3,pad=1

96 kernels stride=2 256 kernels stride=2 384 kernels

(27+2"2-5)/1 (27-3)/2 +1 (13+2"1-3)/1 (55-3)/2 +1

=27 (227-11)/4 +1

âm thanh hay chuỗi hình ảnh trong một video Mạng No-ron tái phát có thé sử dung

thông tin từ các bước trước để ảnh hưởng đến việc xử ly các bước sau, tạo ra một bộ

nhớ ngắn hạn cho mạng RNN được áp dụng rộng rãi cho các bài toán liên quan đến

dữ liệu tuần tự, như dịch ngôn ngữ, xử lý ngôn ngữ tự nhiên (NLP), nhận dạng

giọng nói và chú thích hình anh Các ứng dụng phô biến của RNN bao gồm Siri, tim kiếm bằng giọng nói và Google Dịch,

15

Trang 24

thé thay đầu vào và đầu ra của mạng Nơ-ron này là độc lập với nhau Tính năng

chính và quan trọng nhất của RNN là trạng thái ân, ghi nhớ một số thông tin về mộtchuỗi Trạng thái này còn được gọi là Trạng thái bộ nhớ vì nó ghi nhớ đầu vào trước

đó vào mạng Nó sử dụng các tham số giống nhau cho mỗi đầu vao vì nó thực hiệncùng một tác vụ trên tất cả các đầu vào hoặc các lớp an dé tạo ra đầu ra Điều nàylàm giảm sự phức tạp của các tham số, không giống như các mạng Nơ-ron khác.Dựa trên số lượng đầu vào và đầu ra, RNN được chia thành 4 loại được mô tả như

dưới đây.

One to One: là một kiến trúc RNN cơ bản và đơn giản, trong đó mối quan hệ giữa

dữ liệu đầu vào và đầu ra là mối quan hệ một một Không có sự tái sử dụng của

trạng thái ân, môi đơn vi dau ra chỉ phụ thuộc vào don vi dau vao tương ứng của nó.

16

Trang 25

thường được sử dụng trong các tình huống khi cần sinh ra một chuỗi dữ liệu đầu ra

phức tạp từ một đầu vào duy nhất, một trong những ví dụ được sử dụng nhiều nhấtcủa mạng này là chú thích hình ảnh, trong đó đưa ra một hình ảnh, sử dụng dé dự

đoán một câu có nhiêu từ.

Trang 26

Many to One: là một dạng kiến trúc RNN trong đó mạng nhận nhiều đầu vào tại cácthời điểm khác nhau và tạo ra một đầu ra duy nhất tại thời điểm cuối cùng Mục tiêu

là sinh ra một đầu ra duy nhất tại thời điểm cuối cùng, phản ánh thông tin toàn bộ từchuỗi đầu vào Mạng RNN many-to-one thường được sử dụng trong các tình huéngkhi cần dự đoán hoặc phân loại dựa trên một chuỗi dữ liệu đầu vào, ví dụ như sử

dụng trong các vân dé như phân loại cảm xúc, phân loại video,

chuỗi đầu ra tương ứng Mỗi đầu vào tại một thời điểm được truyền qua mạng, ảnh

hưởng đến trạng thái an và đầu ra tại thời điểm đó và trạng thái ân được chuyểngiao giữa các thời điểm Một ví dụ điển hình là mô hình dịch máy (machinetranslation), mạng nhận một câu trong ngôn ngữ nguồn và tạo ra một câu trong

ngôn ngữ đích.

18

Trang 27

đã mang lại những đổi mới đáng kê cho các nhiệm vụ liên quan đến xử lý ngôn ngữ

tự nhiên và đã chứng minh khả năng trong việc biéu diễn tính năng mạnh mẽ Laycảm hứng từ những thành tựu của xử lý ngôn ngữ tự nhiên, kiến trúc bộ chuyền đôi

đã được khai thác trong các nhiệm vụ thị giác máy tính bao gồm xử lý ảnh, phânloại ảnh, phát hiện đối tượng, phân loại hành động, xử ly video,

Trong bối cảnh xử lý hình ảnh, mô hình ViT có thể tận dụng được tính chất tự tậptrung (self-attention) dé hiểu các mối quan hệ không gian giữa các phần khác nhaucủa hình ảnh So với hình ảnh, dữ liệu video có thêm một chiều thời gian, mỗi

khung hình của video được xem xét như là một nút ảnh và được đưa vào mô hình.

ViT có kha năng hoc được cả mối quan hệ không gian và thời gian giữa các khung

hình, giảm độ phức tạp của mô hình và tăng khả năng học từ dữ liệu lớn.Vậy nên

mô hình ViT là một mô hình linh hoạt có thể được sử dụng hiệu quả cả trong xử lýhình ảnh và video với khả năng hiểu cả không gian và thời gian thông qua kiến trúc

tự tập trung (self-attention).

19

Trang 28

Bộ chuyên đôi hình ảnh đã trở thành một lựa chọn đối thay cạnh tranh với các mạng

Nơ-ron tích chập, một giải pháp mới trong lĩnh vực thị giác máy tính Trong khi các

mạng Nơ-ron tích chập vẫn là ứng dụng tiên tiến cho nhận dạng hình ảnh trongnhiều tác vụ khác nhau, bộ chuyền đổi hình anh dang nỗi lên như một phương pháp

có khả năng cạnh tranh và được áp dụng rộng rãi Bộ chuyền đôi hình ảnh đạt đượckết quả đáng chú hơn CNN trong khi dùng ít tài nguyên tính toán hơn cho huấnluyện mô hình So với CNN, ViT có xu hướng nạp yếu hơn, dẫn đến sự phụ thuộcngày càng nhiều vào việc tinh chỉnh mô hình hoặc tăng dữ liệu khi huấn luyện trên

các tập dữ liệu nhỏ hơn Tuy nhiên, CNN dễ tối ưu hóa hơn

e Bước 3: Tạo các tính năng nhúng (feature embedding) có chiều thấp hon từ

các mang hình anh phăng này

e Bước 4: Tạo thông tin về vị trí của mang trong anh.

20

Trang 29

e Bước 5: Chuỗi tính năng nhúng (feature embedding) được làm đầu vào cho

bộ chuyển đổi mã hóa (transformer encoder), thực hiện dao tạo trước đối với

mô hình VIT.

e Bước 6: Tinh chỉnh mô hình trên bộ dữ liệu riêng của từng bai toán.

3.2.4 Học nhiều trường hợp - Multiple Instance Learning

Học nhiều trường hop (Multiple Instance Learning - MIL) là một hình thức học tậpđược giám sát yếu, trong đó các trường hợp đào tạo được sắp xếp theo bộ được gọi

là bag và nhãn được cung cấp cho toàn bộ bag, trái ngược với chính các phiên bản

đó Mô hình MIL thường xây dựng một mô hình phân loại dựa trên cả bag, không

chỉ dựa trên các thực thể cụ thể có trong bag Mỗi túi được biểu dién đưới dạng một

vector hoặc một tập hợp các vector, thường được rút trích từ các đặc trưng của các

thực thể trong túi MIL thường được sử dụng trong các lĩnh vực như nhận diện đối

tượng trong hình ảnh, phát hiện tác nhân gây bệnh trong y học và phân loại văn bản

do nó cho phép tận dụng dữ liệu được gắn nhãn yếu trong đó việc ghi nhãn dữ liệuthường tốn kém

Negative Positive

Bag Bag

21

Trang 30

Hình 3.10: Minh họa giả định MIL tiêu chuẩn (Nguồn [24])Trong giả định MIL tiêu chuẩn, một bag được coi là tích cực nếu ít nhất một thựcthể bên trong là tích cực; ngược lại, bag được xem là tiêu cực nếu tất cả các thực thébên trong đều là tiêu cực Các trường hợp tích cực được dán nhãn trong tài liệu lànhân chứng Tuy nhiên, giả định tiêu chuẩn này có thể được sửa đổi một chút đểgiải quyết các van dé trong đó các bag tích cực không thé được xác định bang mộttrường hợp duy nhất mà bằng sự tích lũy của nó Ví dụ, trong phân loại ảnh sa mạc,biển và bãi biển, ảnh bãi biển chứa cả phân đoạn cát và nước do đó cần có một sốtrường hợp tích cực dé phan biét bai biển với sa mạc hoặc bién.

Một trong những thách thức lớn của việc phát hiện bất thường được giám sát yếu làlàm thé nào dé xác định các đoạn bất thường từ toàn bộ video được gan nhãn là batthường Điều nay là do hai lý do, thứ nhất là phần lớn các đoạn trích từ một videobất thường bao gồm các sự kiện bình thường, có thể lan at quá trình dao tạo vàthách thức việc khớp một số đoạn đoạn bất thường, thứ hai là các đoạn thông tin batthường có thé không đủ khác biệt so với các đoạn thông thường khiến việc phânbiệt rõ ràng giữa các đoạn thông thường và bất thường trở nên khó khăn Phát hiệnbất thường được đào tạo bằng cách học nhiều trường hợp (MIL) giảm thiểu các vấn

dé trên bằng cách cân bang tập huấn luyện với cùng số lượng bất thường và bình

thường, trong đó các đoạn bình thường được chọn ngẫu nhiên từ các video bình

thường và các đoạn bất thường là những đoạn có điểm bất thường cao nhất từ cácvideo bất thường

3.2.5 Cơ chế tự tập trung (Self-Attention)

Cơ chế tự tập trung là một thành phan quan trọng trong mô hình bộ chuyền đổi dégiải quyết van đề về kha năng hiểu ngôn ngữ tự nhiên và xử lý dữ liệu chuỗi Cơchế này cho phép mô hình tập trung vào các phần quan trọng của dữ liệu đầu vàothông qua việc tạo ra trọng số tập trung cho từng phần tử trong chuỗi đầu vào Cơchế tự tập trung lần lượt được ứng dụng trong hai kiến trúc mạng Long Short Term

22

Trang 31

Memory (LSTM) và bộ chuyên đổi (Transformer) trong nỗ lực hạn chế nhữngnhược điểm của mô hình họ RNN.

Cơ chế tự tập trung trong mạng LSTM đại diện cho một sự cải tiễn đáng chú ý sovới mô hình LSTM truyền thống Thay vì sử dụng một vector bộ nhớ duy nhất, môhình này áp dụng một mạng Nơ-ron bộ nhớ, hay còn được biết đến như memorynetwork Kiến trúc của cơ chế tự tập trung bao gồm hai băng tải quan trọng: băng

tải trạng thái ân và băng tải bộ nhớ Mặc dù tổng thê kiến trúc vẫn giữ nguyên bản

từ mô hình LSTM truyền thống, nhưng cơ chế tự tập trung làm tăng cường thông tinliên kết giữa các trạng thái ân Điều này đạt được bằng cách đánh trọng số dựa trênmỗi quan hệ giữa các trạng thái ân, trạng thái té bào trước và dấu thời gian của đầuvào hiện tại Mỗi token được biéu diễn băng một vector ân và một bộ nhớ an tươngứng, thúc đây khả năng tự tập trung và giao tiếp hiệu quả giữa chúng

Hình 3.11: Kiến trúc cơ chế tự tập trung trong mạng LSTM (Nguồn [3])

Cơ chế tự tập trung trong mạng LSTM đã mở đường giải quyết van dé inductivebias trong các mô hình tuần tự truyền thống Tuy nhiên, tính tuần tự của LSTM gặp

23

Trang 32

khó khăn về tốc độ tính toán Đề vượt qua điều này, bộ chuyên đôi ra đời, chế độnày kế thừa khái niệm từ cơ chế tự tập trung trong LSTM Băng cách loại bỏ tínhtuần tự phụ thuộc vào cơ chế tự tập trung, bộ chuyền đổi giúp tăng tốc quá trình tínhtoán và vẫn có khả năng xác định mối quan hệ chặt chẽ giữa đầu vào và đầu ra màkhông gặp nhược điểm của sự tuần tự.

Multi-Head Attention

Hình 3.12: Kiến trúc bộ chuyên đổi (Nguồn [3])

Nếu xem xét mô hình bộ chuyên đổi dưới góc độ là một loại mô hìnhencoder-decoder, chúng ta có thể tưởng tượng rằng mô hình này bao gồm N khối

Mỗi khối đều gồm ba thành phần chính: phần mã hóa, phần giải mã, và cơ chế tập

trung của mã hóa và giải mã.

e Mã hóa (Encoder): Mỗi khối bao gồm ba thành phan chính là Multihead

Attention, Feed Forward, và Add & Norm Trong phần mã hóa, chúng ta sử

dụng lớp tự tập trung (Self-Attention) Tự tập trung ở đây được thực hiện với

trọng số được tinh bang công thức Scaled Dot-Product Attention, nơi mà

khái niệm của vector ân và vector bộ nhớ được hoàn toàn loại bỏ Thay vào

24

Trang 33

đó, chúng ta sử dụng ba vector là query, keys, và value Các vector này được

tạo ra từ đầu ra của lớp ở phía trước trong quá trình giải mã Điều này chophép tự tập trung động dựa trên các giá trị biểu diễn khác nhau của lớp phíatrước ở giai đoạn mã hóa, có thể được xem là sự cập nhật tự nhiên và hiệu

quả.

e Giải mã (Decoder): Mỗi khối bao gồm Masked Multi-Head Attention và Add

& Norm Trong phan giải mã, cũng tồn tại một cơ chế tự tập trung, tuy nhiên,

có một sự điều chỉnh nhỏ trong cách tính toán trọng số tập trung Điều nàynhằm che đi một phần vị trí của đầu ra, ngăn chúng được mã hóa từ cácthông tin ở tầng phía sau

e Bộ tập trung mã hóa và giải mã (Encoder-Decoder Attention): Mỗi khối bao

gồm Multihead Attention, Feed Forward, và Add & Norm Trong phần này,tập trung không phải là dang tự tập trung Queries ở đây nhận đầu ra từ lớpgiải mã phía trước, trong khi keys và values đều nhận cùng một giá trị từ đầu

ra của phần giải mã Tập trung ở đây tương tự như cách sử dụng tập trungtrong mô hình encoder-decoder truyền thông

3.2.6 Đường cong AUC-ROC

AUC-ROC là một phương pháp đánh giá hiệu suất của một mô hình phân loại dựatrên các ngưỡng phân loại khác nhau ROC là viết tắt của Receiver Operating

Characteristics, là một đường cong biểu diễn hiệu suất phân loại của một mô hình

tại các ngưỡng nguy cơ khác nhau Đơn giản, nó thé hiện tỷ lệ True Positive Rate(TPR) so với False Positive Rate (FPR) đối với các giá trị ngưỡng

True Positive Rate thể hiện tỷ lệ phân loại chính xác các mẫu dương tính trên tổng

số mẫu dương tính Nếu TPR càng cao, mô hình càng chính xác trong việc phânloại các mẫu dương tính False Positive Rate, ngược lại, biểu diễn tỷ lệ dự đoán saicác mẫu âm tính thành đương tính trên tong số mẫu âm tính Cả hai giá trị này được

tính như sau:

25

Tiêu đề	Phát hiện bất thường từ camera giám sát sử dụng các thuật toán học sâu
Tác giả	Nguyen Manh Duc, Le Huy Hong
Người hướng dẫn	TS. Do Trong Hop, TS. Tran Van Thanh
Trường học	Trường Đại học Cơng nghệ Thơng tin
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Khĩa luận Tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	66
Dung lượng	38,14 MB