đề tài phát hiện hành vi bất thường thông qua video sử dụng các thuậttoán học sâu là một lĩnh vực nghiên cứu đầy hấp dẫn và thách thức trong lĩnh vựcthị giác máy tính.. Mục tiêu khóa luậ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
NGUYEN MANH ĐỨC - 20521196
LÊ HUY HOÀNG - 20521339
KHÓA LUẬN TÓT NGHIỆP
DEEP LEARNING-BASED ANOMALY DETECTION IN
VIDEO SURVEILLANCE
CU NHÂN NGÀNH KHOA HỌC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHi MINH, 2024
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
33/QD-DHCNTT ngày 10 tháng 1 năm 2024 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 TS Nguyễn Tan Cầm - Chủ tịch
2 ThS Huỳnh Văn Tín - Thư ký.
3 ThS Phạm Thế Sơn - Ủy viên
Trang 3LỜI CẢM ƠN
Lời đầu tiên, nhóm xin gửi lời cảm ơn đến các thầy cô Khoa Khoa học và Kỹ thuậtThông tin nói riêng cũng như quý thầy cô Trường Đại học Công nghệ Thông tin nóichung đã tận tâm chỉ dạy, truyền đạt những kiến thức quý giá cũng như các kĩ năngcần thiết dé có thé đạt được những thành công nhất định trong tương lai
Đặc biệt, chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Đỗ Trọng Hợp và TS.Trần Văn Thành đã giúp nhóm có được những cái nhìn lẫn hướng đi đúng đắn, chỉdẫn và tạo điều kiện thuận lợi trong suốt quá trình thực hiện dé tài và hoàn chỉnhKhóa luận Tốt nghiệp ngành Khoa học dir liệu
Và lời cảm ơn cuôi cùng xin chân thành gửi đên gia đình và bạn bè vì đã luôn bên cạnh ủng hộ và động viên, tạo điêu kiện tinh than và vat chat cho chúng tôi trong suôt quá trình dài học tập và nghiên cứu.
Nhóm tác giả
Nguyễn Mạnh Đức - Lê Huy Hoàng
Trang 41.3 Mục tiêu khĩa luận - 2211112221 111253 111193111 19311119 111g vn vết 4
1.4 Đối tượng và phạm vi nghiên cứu 2-2 2 s+2E++E++EE+EEerxezxezrxsrxerxee 4
1.5 Cac noi dung Chink 4 5
Chương 2 TONG QUANN -2- 2-52 SE EE19E1211212111711121121121111111111 1.1 xe 6
2.1 Tình hình nghiên cứu trên thế giới - 2-2 +2 £+EE+EE+EEt£E2EE2EEerxerxerree 6
2.2 Thách thỨC - - 2c 3223 1112111121111111 111191111011 111 1811 1H 1E TH HH ng 8
Chương 3 CƠ SỞ LÝ THUYÊT - - 2-52 E9 EEEEEEE2EE2EEEEE2112112117171E2122E re 10
3.1 Phát hiện bất thường từ Video 2-©52+S2+EEeEEeEE211211271 271212112 xe 103.2 Các thành phan tính tốn chính - - + 2 252 E2 E£E£EE£EE£EE2EE2EzEerxered 12
3.2.1 Mạng Nơ-ron tích chập (CNN) c1 1211 1 re 12
3.2.2 Mạng Nơ-ron hồi tiếp (RNN) ¿5252k 2EE2EEEEEerErrerrrred 153.2.3 Bộ chuyền đối hình ảnh (Vision Transformer) - 2 2 5z: 193.2.4 Học nhiều trường hợp - Multiple Instance Learning 213.2.5 Cơ chế tự tập trung (Self-Attention) - 25+ +s+xerxezsrzrzrerxee 22
3.2.6 Đường cong ÁC-ROC - c St S2 SH HH HH HH nhớt 25
Chương 4 BO DU LIỆU ¿+52 S£ S252 E2E22E£EE2EEE12EEE52EE212E21E2121E21212121 212 cre 27
4.1 Giới thiệu về Bộ dữ liệu - -: -55cccccttttrrtrtirrrtrrirrrrrrrrrrrrirrrre 27
4.2 MG ta BO 0 0 31
4.3 Chia dtt LGU Ả 33
Chương 5 PHƯƠNG PHÁP TIẾP CAN VÀ KET QUẢ - 2: 2-55z5522 35
5.1 Khởi nguồn và lý do tiếp cận video được giám sát yếu - 355.2 Trích xuất đặc trưng thơng qua I3D - 2 2 2 2+E+E££EeEE+EEzEzEerxers 36
5.3 Mơ hình học cường độ tính năng thời gian (RTEM) ‹+s-52 38
5.3.1 Học tính năng thời gian đa quy mơ (Multi-scale Temporal Feature
5.3.2 Học tam quan trọng của tính năng (Feature Magnitude Learning) 42
5.3.3 Học phân loại phân đoạn (Snippet Classifier Learning) 42
5.3.4 Triển khai thực 0301900000277 “ 11iI 435.4 Mạng lay nét và lay nét tương phản độ lớn (MGEN) -: 5¿ 43
5.4.1 Cơ chế khuếch đại tính năng (Feature Amplification Mechanism) 45
Trang 55.4.2 Khối nhìn thoáng qua (Glance Bloek) -2- 2 2 s++sz+sz+zz+zxe+ 455.4.3 Khối lấy nét (Focus BloeK) - ¿- 2 + s+xeEk+EE£EE2E2EeEEerkerkersrreee 475.4.4 Ham mắt mát tương phản độ lớn (Magnitude Contrastive Loss) 485.4.4 Triển khai thực 30150000117 -Ã11ä 495.5 Kết quả thực nghiệm ¿2 s52 SE2EE2EEEEEEE 21121121171 717111211 21.1 xe 50Chương 6 KET LUẬN VÀ HƯỚNG PHAT TRIỀN -5¿©5255z22+z2ss2 52
6.1 Tổng kẾt - - s21 1 1 11121121121121121111111 111121121111 1111210111111 eerrau 52
6.2 Hướng nghiên cứu trong tương laI 5c 2c 3233 EEteressssreesrres 52
Trang 6DANH MỤC HÌNH
Hình 3.1: Kiến trúc mạng Nơ-ron tích chập (Nguồn [ I ]) 2-52 225552 12Hình 3.2: Phép tính tích chập của một bộ lọc kích thước 3x3 trên ảnh (Nguồn [5]) 13Hình 3.3: Kiến trúc mạng AlexNet (Ngu6n [2 I]) 2-©52522csccxezxzrzrssred 15Hình 3.4 Kiến trúc mạng Nơ-ron tái phát (Nguồn [22]) 5-55 2cz+xs+s+ 16Hình 3.5: Kiến trúc RNN One to One (Ngu6n [22]) - 2-52 55ccc++£zz£zeczez 17Hình 3.6: Kiến trúc RNN One to Many (Nguồn [22]) 2-52 52cccccczcssced 17Hình 3.7: Kiến trac RNN Many to One (Nguồn [22]) - 5-5522 z+szxecxez 18Hình 3.8: Kiến trac RNN Many to Many (Nguồn [22]) c.ccsccscsscessesesseeesesesseseeees 19Hình 3.9: Kiến trúc của mô hình ViT (Nguồn [2]) cc.ccsccescessessessesssessessesseeseeseeseees 20Hình 3.10: Minh họa giả định MIL tiêu chuẩn (Nguồn [24]) - 2-5252 22Hình 3.11: Kiến trúc cơ chế tự tập trung trong mạng LSTM (Nguồn [3]) 23Hình 3.12: Kiến trúc bộ chuyên đổi (Nguồn [3]) 2-52 5+2E+EzEzrxerxeez 24
Hình 3.13: Ví du về đường cong ROC (Nguồn [4]) - 2-5255 scc2£zEzxrxez 26
Hình 4.1: Khung hình cắt từ video mẫu ví dụ của video có cảnh Trộm cắp, Cháy nô,
900100i):1 0 29
Hình 4.2 Khung hình cắt từ video mẫu ví dụ của video có cảnh Cướp bóc, Tai nạn
giao thông, Bình thường - ¿- c6 + 1v HH nh TT TH HH HH th tiệt 30
Hình 4.3: Thời lượng và kích thước từng loại Video - ¿ +5 + ss+++sxsss 31
Hình 4.4: Mô tả phân bó theo thời lượng của từng loại video - z5 32Hình 5.1: Dua ra kết luận không hợp lý dựa vào nhãn cấp độ khung hình 36Hình 5.2: Kiến trúc Inflated Inception-V1 (Nguồn [38]) - 5-52 55252 37
Hình 5.3: Kết quả một số phương pháp về nhận dạng hành động trên Kinetic400
II 00:0 6220 ^^ 37
Hình 5.4: Kiến trúc Robust Temporal Feature Magnitude Learning - 39Hình 5.5 Kiến trúc mạng thời gian đa quy mô (Multi-scale Temporal Network) 40Hình 5.6 Kiến trúc mạng lấy nét và lấy nét tương phản độ lớn - 44Hình 5.7: Kiến trúc khối nhìn thoáng qua 2-2 £©s E+EE+E++E++E££EeEEeEEerszrezes 46Hình 5.8: Kiến trúc khối lẫy nét - 2: 222 22Et2EE2EE22EE22212731221221221222122xe2 47
Trang 7DANH MUC BANG
Một số kết quả nghiên cứu trên thế giới 2-2 2 +E£££EzEzEzEered 8Bang thống kê mô ta dựa trên thời lượng của video - :s- 32
Số lượng video sử dụng cho huấn luyện và kiểm tra -:cc+cscscsc 34
Bang so sánh kết quả 2 mô hình - 2 2 2 2+S£+E££E£EE2EE2EzErEerxee 50Bang kết quả nghiên cứu cắt bỏ các phan trong mô hình MGEN 51Bảng kết quả nghiên cứu cắt bỏ các phan trong mô hình RTEM 51
Trang 8DANH MỤC TỪ VIẾT TẮT
Diện tích dưới đường cong ROC - Area Under the ROC
Curve
Mạng Nơ-ron tích chập - Convolutional Neural Network
Cơ chế khuếch đại tính năng - Feature Amplification
3 FAM Mechanism
+ | MUMIL Học nhiều trường hợp - Multiple Instance Learning
T
7 NN
Trang 9TÓM TÁT KHÓA LUẬN
Trong dé tài này, nhóm phát triển mô hình học sâu có thé áp dụng cho việc pháthiện hành vi bất thường trong video giám sát dựa trên giám sát yếu Mục tiêu củanghiên cứu này nhằm áp dụng mô hình chạy trong thời gian thực từ các hệ thốngcamera giám sát như camera an ninh, camera giao thông, từ đó có thé lưu trữ cácthông tin và phát ra tín hiện về các hành vi bất thường
Bộ dữ liệu sử dụng trong nghiên cứu này là UCF-Crime, đây là bộ dữ liệu quy mô
lớn bao gồm 1900 video giám sát trong thế giới thực dài bình thường và 13 hiện
tượng bất thường Tuy nhiên, chúng tôi đã chọn lọc lại 5 hiện tượng bất thường dé
phù hợp với ngữ cảnh Việt Nam va bổ sung thêm các video có chứa các hiện tượngbat thường Các hiện tượng bất thường được sử dụng trong dé tài này bao gồm trộm
cap, cướp bóc, tai nạn, cháy nô, đánh nhau.
Vì số lượng video giám sát được sử dụng trong đề tài rất lớn, việc gán nhãn từng
khung hình trong mỗi video sẽ cần rất nhiều thời gian, công sức và gặp khá nhiềukhó khăn, nên chúng tôi thực hiện triển khai hướng tiếp cận dựa trên giám sát yêu
để phát hiện bất thường Đây cũng là một trong những hướng tiếp cận được đa sốcác nhà nghiên cứu trên thế giới sử dụng Với hướng tiếp cận này, chúng tôi đề xuấthai kiến trúc học sâu được sử dụng là Robust Temporal Feature Magnitude
Learning (RTFM) và mạng Magnitude-Contrastive Glance-and-Focus (MGFN).
Trang 10Chương 1 MỞ ĐẦU
1.1 Đặt vấn đề
Trong thời gian vừa qua, tình hình an ninh xã hội chúng ta đã và đang phải đối mặt
với nhiều sự kiện bat thường gây nguy hiểm cho an ninh trật tự Cac vụ đánh nhau,
cháy né, trộm cướp ngày càng xảy ra nhiều và có xu hướng gia tăng Những hành vinày không chỉ làm ảnh hưởng xấu đến tính mạng và tài sản của con người, mà cònảnh hưởng đến sự phát triển kinh tế - xã hội của đất nước Theo Báo Công an nhândân điện tử, trong 6 tháng đầu năm 2023, Việt Nam đã xảy ra 4970 vụ tai nạn giaothông, gây ra 2009 người bị thương, 1462 người bị thương nhẹ và 2865 người chết
Về tình hình an toàn phòng cháy chữa cháy thì toàn quốc xảy ra 881 vụ hỏa hoạn,gây thiệt hại ước tính lên đến 87,15 tỷ đồng, khoảng 150 héc-ta rừng bị tàn phá, làm
tử vong 45 người và 43 người bị thương Vấn nạn trộm cắp diễn biến ngày càng
phúc tạp, đặc biệt các đối tượng phạm tội hoạt động ngày càng xảo quyét, tinh vi.
Dé giảm thiểu van dé này, cần nâng cao ý thức trách nhiệm và tinh thần đoàn kếtcủa cộng đồng, cùng nhau bảo vệ an ninh quốc gia và xây dựng một xã hội vănminh, an toàn Bên cạnh đó, cần có sự phối hợp chặt chẽ giữa các cơ quan chức
năng và người dân trong việc phát hiện, phòng ngừa va xử lý kip thời các sự kiện
bất thường
Camera an ninh ngày càng phổ biến trong nhiều lĩnh vực khác nhau, từ nhà ở, cơquan, trường học, đến cửa hàng, nhà hàng, khách sạn và nhiều nơi công cộng khác.Camera an ninh có nhiều ưu điểm như giúp giám sát, bảo vệ tài sản, phòng chốngtội phạm, ghi lại những sự kiện quan trọng Việc sử dụng con người dé theo dõi vàphát hiện kịp thời các hành vi bất thường thông qua camera an ninh giúp ngăn chặncũng như giúp có thé giảm thiểu hậu quả gây ra Tuy nhiên, nhân lực cần thiết chonhiệm vụ này với số lượng camera an ninh ngày càng lớn thì ngày càng gặp nhiềukhó khăn Với sự phát triển của mảng trí tuệ nhân tạo, ứng dụng các thuật toán học
máy phát triển mô hình hỗ trợ con người trong công việc ngày càng quan trọng và
Trang 11phổ biến Việc dit liệu có được ngày càng lớn và các phan cứng ngày càng pháttriển mạnh, các mô hình học máy có thể giải quyết nhiều bài toán phức tạp, từ nhậndiện hình ảnh, âm thanh, xử lý ngôn ngữ tự nhiên, đến dự đoán, phân tích và tối ưuhóa một cách tốt nhất.
1.2 Lý do chọn đề tài
Đề tài phát hiện bất thường thông qua video đã được nghiên cứu chuyên sâu vì tiềmnăng của nó được sử dụng trong các hệ thống giám sat tự động Mục tiêu của việcphát hiện sự bất thường trong video là xác định khoảng thời gian khi một sự kiện
bất thường xảy ra, trong bối cảnh giám sát, các ví dụ về sự bất thường là tai nạn
giao thông, trộm cắp trong cửa hàng, bạo lực, Bằng cách sử dụng các phươngpháp học sâu, chúng ta có thể xây dựng các mô hình có khả năng phân biệt giữa cáchành vi bình thường và bất thường trong các video được ghi lại từ các camera giámsát, camera an ninh hay camera giao thông Với sự phát triển ngày càng lớn vềngành công nghiệp, cơ sở hạ tầng, dân sé, các van đề liên quan đến tai nạn, cháy
nỗ diễn ra ngày càng nhiều Việc phát hiện bất thường thông qua video có nhiềuứng dụng hữu ích trong đời sống, như phòng chống tội phạm, an ninh quốc gia, an
toàn giao thông và bảo vệ môi trường Ví dụ như tháng 9 vừa qua tại Hà Nội, theo
Báo Tuổi Trẻ, sự việc hỏa hoạn ở chung cư mini 9 tầng tại Hà Nội đã gây thiệt hạilên đến 56 người chết và rất nhiều tài sản bị thiêu rụi Nhận ra việc phát hiện các sựviệc, hiện tượng, hành vi bất thường sớm có thể giúp đỡ rất nhiều trong việc ngănchặn, giảm thiểu rất nhiều tốn thất có thé gây ra Vì vậy, nhóm muốn thực hiện,nghiên cứu một mô hình kiến trúc học sâu có khả năng nhận diện hành vi bấtthường thông qua video, từ đó có thé theo dõi, giám sát video toàn thời gian dé hỗtrợ cho người giám sát Đề phù hợp với bối cảnh Việt Nam, nhóm đã chọn ra 5 hành
vi bất thường phổ biến bao gồm tai nạn giao thông, trộm cắp, cướp bóc, cháy nỗ vàđánh nhau dé sử dụng cho đề tài này
Trang 12Ngoài ra đề tài phát hiện hành vi bất thường thông qua video sử dụng các thuậttoán học sâu là một lĩnh vực nghiên cứu đầy hấp dẫn và thách thức trong lĩnh vựcthị giác máy tính Việc thực hiện đề tài có thể cung cấp cho chúng tôi những kiếnthức quan trọng cho việc nghiên cứu và phát triển trong tương lai.
1.3 Mục tiêu khóa luận
Trong nghiên cứu này, chúng tôi tập trung vào triển khai các phương pháp học sâu
để giải quyết bài toán phát hiện hành vi bất thường từ video cho trước, mô hình
được đảo tạo sẽ cô gắng xác định thời điểm hành vi bất thường diễn ra trong video
Vì vậy, chúng tôi đặt ra các mục tiêu sau:
e Tạo ra một bộ dữ liệu tốt xoay quanh dé tai này bằng việc tổng hợp các video
từ mạng xã hội và bộ dữ liệu liên quan đến đề tài này của những bài nghiêncứu trước Trong số những video chúng tôi sử dụng để đào tạo mô hình, phần
lớn sẽ được lấy từ bộ đữ liệu UCF-Crime
e Tiến hành cài đặt thử nghiệm các phương pháp học sâu trên bộ dữ liệu mà
chúng tôi đã chọn lọc cho bài toán phát hiện hành vi bất thường thông qua
video bằng giám sát yếu như mạng Magnitude-Contrastive
Glance-and-Focus, Temporal Feature Magnitude Learning Sau đó thực hiện
đánh giá và phân tích kết quả dé tim ra mô hình phù hợp
e Tổng hợp, cung cấp một số thông tin hữu ích về phương pháp, dữ liệu đối
với bài toán phát hiện hành vi bất thường
1.4 Đối tượng và phạm vi nghiên cứu
Đối tượng: Bộ đữ liệu và các phương pháp học sâu để giải quyết các bài toán pháthiện hành vi bất thường từ video được thu thập từ các camera an ninh
Phạm vi: Nghiên cứu tập trung chủ yêu vào việc thu thập xây dựng bộ dữ liệu và sử
dụng các thuật toán học sâu đối với bài toán phát hiện hành vi bất thường từ video
bằng giám sát yếu
Trang 131.5 Các nội dung chính
Khóa luận này sẽ gôm 6 chương với các nội dung chính lân lượt như sau:
Chương 1 M@ đầu: đặt van dé, trình bày lý do thực hiện đề tài phát hiện
hành vi bất thường từ video Sau đó là liệt kê các mục tiêu mà chúng tôi
hướng đến đối với khóa luận Trình bày tổng quan đối tượng và phạm vinghiên cứu Cuối cùng là giới thiệu sơ lược nội dung của các chương mà
chúng tôi sẽ trình bày trong luận văn.
Chương 2 Tống quan: Trình bày tổng quan tình hình nghiên cứu đối với đềtài phát hiện hành vi bất thường từ camera giám sát Những khó khăn, tháchthức cũng như xu hướng nghiên cứu của các nhà khoa học trên thé giới Cáccông trình nghiên cứu ngoài nước liên quan đến các phương pháp được sửdụng đối với đề tài này
Chương 3 Cơ sở lý thuyết: Trình bày các kiến thức cơ sở mà chúng tôi sửdụng dé thực hiện các phương pháp, thuật toán nhằm mục đích giải quyết bài
toán đặt ra.
Chương 4 Bộ dữ liệu: Trình bày mô tả tổng quan về bộ dữ liệu mà chúng
tôi xây dựng sé sử dụng cho khóa luận nay
Chương 5 Phương pháp tiếp cận và kết quả: Trình bày các phương pháp
mà chúng tôi đã chọn và áp dụng lên bộ dữ liệu đối với bài toán phát hiệnhành vi bất thường thông qua video.Trình bày kết quả mà chúng tôi thu được
của từng phương pháp sử dụng.
Chương 6 Kết luận và hướng phát triển: Tổng kết các thành quả đã đạt
được và đề xuất các phương pháp, định hướng sẽ thực hiện trong tương lai
đê cải thiện hiệu suât của mô hình.
Trang 14Chương 2 TONG QUAN
2.1 Tinh hình nghiên cứu trên thé giới
Thời gian gần đây, với lượng dữ liệu khổng lồ và sự phát triển mạnh mẽ của linhkiện phần cứng máy tính, tạo điều kiện cho việc phát triển những mô hình trí tuệnhân tạo dé có thể phục vụ con người trong công việc Cùng với sự phát triển về các
kĩ thuật học máy và học sâu, các mô hình học máy ngày càng có thê giải quyếtnhiều bai toán phức tạp như nhận diện ảnh, âm thanh, xử lý ngôn ngữ tự nhiên Đốivới lĩnh vực thị giác máy tính còn có các bài toán như phát hiện đối tượng, phân
tích hành vi, nhận dạng hành động,
Phát hiện hành vi bất thường từ video là một trong những bài toán đầy thách thức và
hấp dẫn đối với các nhà khoa học trong lĩnh vực thị giác máy tính, đề tài này cũng
trở thành một trong những chủ đề nghiên cứu quan trọng có nhiều ứng dụng thựctiễn, như giám sát an ninh, phòng chống tội phạm Vì vậy, nhiều công trình nghiêncứu liên quan đến phát hiện hành vi bất thường từ video cũng được quan tâm và
công bố nhiều tại các tạp chí nghiên cứu từ nhỏ đến lớn Có thé kế đến một số bộ dữ
liệu với quy mô lớn như UCF-Crime, được công bồ lần đầu năm 2018 bởi tác giả
Waqas Sultani cùng các cộng sự trong bai bao “Real-world Anomaly Detection in
Surveillance Videos” [30] với 1900 video bao gồm video bất thường va bìnhthường, dài 128 giờ cho 13 loại hành vi bất thường phạm tội như đối phá, bắn súng,đánh nhau, cháy nổ, và một số bộ dữ liệu khác như XD-Violence [32],ShanghaiTech Campus [33] Đối với việc phát hiện hành vi bất thường từ video, các
nhà khoa học có xu hướng tập trung vào phương pháp một lớp (one-class) hoặc
không được giám sát (unsupervised) để tìm bất thường mà không cần gán nhãn cho
dữ liệu hoặc giám sát yếu (weakly supervised) chi cần nhãn ở cấp độ video
Trong nhánh học một lớp, tác giả Luo và cộng sự trong bài báo “GODS:
Generalized One-class Discriminative Subspaces for Anomaly Detection” [34] đã
thiết kế một mạng ConvLSTM để học các đoạn video bình thường ConvLSTM là
Trang 15một kiến trúc mạng nơ-ron sử dụng cả tích chập và tính tuần hoàn để xử lý dữ liệu
như video Nó cho phép mô hình hoc được cả thông tin không gian va thời gian của
video, giúp cải thiện đáng ké hiệu suất của mô hình trong việc phát hiện hành vi bat
thường.
Trong nhánh học không giám sát, tác giả Ionescu và cộng sự trong bai bao
“Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event
Detection in Video” [31] đã sử dung mang mã hóa tự động (Auto-Encoder) dé tái
tạo các đặc trưng của các khung hình bình thường Tac gia Chang và cộng sự trong
bài báo “Clustering Driven Deep Autoencoder for Video Anomaly Detection” [6]
cũng sử dung dé mã hóa thông tin về hình ảnh và phân cụm dé giảm thiểu nhiễu cómặt trong dữ liệu Bài báo này đã đạt được kết quả tốt hơn so với các phương phápkhông giám sát khác trên các tập dữ liệu phát hiện bất thường là UCF-Crime và
ShanghaiTech.
Trong nhánh học giám sát yếu, khi Sultani và các cộng sự mới cho ra mắt bộ dữ liệuUCF-Crime vào năm 2018, là công trình sớm nhất của bộ dữ liệu UCF-Crime, tácgiả đã sử dụng các phương pháp học đa trường hợp đề xác định vị trí của các đoạn
video bất thường Sau đó năm 2019, công trình “Train a Plug-and-play Action
Classifier for Anomaly Detection” [7] của tác gia Zhong cùng các cộng sự đã sử
dung mạng tích chập đồ thị dé phát hiện bat thường Tuy nhiên, kết quả thu đượcvẫn chưa đạt yêu cầu khi khả năng khái quát hóa của mô hình vẫn còn kém Sau đó,hai công trình được công bố bởi Wan va cộng sự và Zaheer và cộng sự là “Few-shot
Scene-adaptive Anomaly Detection” [8] va “Clustering Assisted Weakly Supervised
Learning with Normalcy Suppression for Anomalous Event Detection” [9] đã thực
hiện các khung sử dụng các kỹ thuật phân cum, bỏ qua bình thường, từ đó cải thiện
hiệu quả huấn luyện và phát hiện bất thường, kết quả cho thấy phương pháp đề xuất
có khả năng tổng quát hóa tốt hơn Gần đây thì các công trình nghiên cứu đề xuấtcác kiến trúc mạng có sự kết hợp của yêu tô không gian và thời gian, ví dụ như Wu
và cộng sự đã công bố công trình nghiên cứu “Weakly-Supervised Spatio-Temporal
Trang 16Anomaly Detection in Surveillance Video” [10], Jiao, Liu và Li với bai nghiên cứu
“Self-Training MultiSequence Learning with Transformer for Weakly Supervised Video Anomaly Detection” [11].
Bang 2.1: Một số kết quả nghiên cứu trên thé giới
2.2 Thách thức
Phát hiện hành vi bat thường từ video sử dụng học sâu là một lĩnh vực day tháchthức Để huấn luyện mô hình học sâu hiệu quả, ta cần có một sé lượng lớn dữ liệu
video và được gan nhãn chính xác Tuy nhiên, việc thu thập dt liệu video có chứa
hành vi bất thường lại gặp nhiều khó khăn và yêu cầu nhiều thời gian vì các videochứa hành vi bat thường khá ít và ít được công bố rộng rãi Vậy nên có khá ít bộ dữ
liệu đủ lớn được công bố liên quan đến việc phát hiện bất thường từ video Cách
tiếp cận mô hình với bộ dữ liệu bằng việc gán nhãn theo khung hình cũng gặp khókhăn, vì việc gán nhãn xác định hành vi bất thường bắt đầu trong khoảng thời điểm
nao sẽ tôn rat nhiêu thời gian va chi phí Vậy nên hau như các công trình liên quan
Trang 17đến việc phát hiện hành vi bất thường từ video déu tiếp cận băng phương pháp giámsát yêu, chỉ yêu cầu nhãn ở cấp độ video, tức là xác định video chứa hành vi bất
thường.
Trang 18Chương 3 CƠ SỞ LÝ THUYET
3.1 Phát hiện bất thường từ Video
Phát hiện bất thường từ video sử dụng học sâu là một bài toán quan trọng trong
nhiều ứng dụng thực tế, ví dụ như giám sát an ninh, phân tích hành vi con người,
con vật, hay phát hiện tai nạn, hành vi vi phạm an toàn giao thông, Tuy nhiên, bai
toán nảy cũng gặp nhiều thách thức, như sự đa dạng của các loại bất thường, sự
thiếu hụt của đữ liệu được gán nhãn, sự phức tạp của các mô hình học sâu Có hainhiệm vụ chính mô hình cần thực hiện: Xác định những thời điểm mà có hành vibat thường xảy ra và xác định hành vi bất thường đó là hành vi bất thường nao trong
số 5 hành vi bao gồm: cháy nổ, tai nạn giao thông, đánh nhau, cướp bóc, trộm cắp.Khóa luận này tập trung vào việc xác định những thời điểm mà có hành vi bất
thường xảy ra.
Một số phương pháp tiếp cận phô biến đối với bài toán phát hiện hành vi bất thường
từ video sử dụng học sâu bao gôm:
e One-class: phương pháp one-class phát hiện bất thường từ video sử dụng học
sâu là một kỹ thuật mới trong lĩnh vực xử lý ảnh và video Phương pháp này
chỉ sử dụng đữ liệu bình thường dé huấn luyện một mô hình học sâu, sau đó
sử dung mô hình đó dé phân biệt giữa dữ liệu bình thường và bat thường
Phương pháp này có ưu điểm là không cần nhãn cho dữ liệu bất thường,không bi ảnh hưởng bởi sự thiếu đồng nhất của dit liệu bat thường và có khanăng phát hiện các loại bất thường mới chưa từng xuất hiện trước đó.Phương pháp này có thé ứng dụng trong nhiều lĩnh vực như an ninh, y tế,
giám sát, và giải trí.
e Video không giám sat (Unsupervised): mục tiêu của phương pháp này là xác
định những hành vi, sự kiện hoặc đối tượng bất thường mà không cần nhãn
dữ liệu huấn luyện Mục tiêu của phương pháp unsupervised là khám phá cau
trúc ân hoặc môi quan hệ giữa các đặc trưng của dữ liệu Một sô ứng dụng
10
Trang 19của phương pháp unsupervised là phân cụm, giảm chiều, tìm kiếm quy luậtkết hợp sinh đữ liệu mới và phát hiện bất thường Các phương pháp học sâu
thường sử dụng các mô hình như mạng nơ-ron tích chập (CNN), mạng bộ
nhớ ngắn hạn dài (LSTM) hoặc mạng đối nghịch tạo sinh (GAN) dé học cácđặc trưng bất thường từ video Các phương pháp này có thể được chia thành
hai loại chính: phương pháp dựa trên xây dựng mô hình và phương pháp dựa
trên đo lường khoảng cách Phương pháp dựa trên xây dựng mô hình là
phương pháp sử dụng một mô hình học sâu dé xấp xi hoặc tái tạo video đầu
vào, sau đó so sánh video đầu vào với video xấp xỉ hoặc tái tạo để tìm ra
những khác biệt bất thường Phương pháp dựa trên đo lường khoảng cách làphương pháp sử dụng một mô hình học sâu dé biến đổi video đầu vào thànhkhông gian đặc trưng, sau đó tính toán khoảng cách giữa các điểm đặc trưng
dé xác định những điểm bat thường
Video giám sát yếu (Weakly-supervised): mục tiêu của phương pháp này làxác định những hành vi bất thường trong video mà không cần nhãn chính xáccho từng khung hình mà chỉ yêu cầu nhãn ở cấp độ video Điều này giúpgiảm thiểu chi phí và thời gian gán nhãn cho dữ liệu lớn Phương pháp
weakly-supervised sử dụng những thông tin phụ trợ như nhãn toan cục, nhãn
mờ hoặc nhãn nhiễu dé huấn luyện mô hình học sâu Mô hình học sâu có thể
là mạng nơ-ron tích chập, mạng nơ-ron đồ thị hoặc mạng nơ-ron hồi quy dé
trích xuất đặc trưng và phân loại hành vi từ video Một số ví du về phươngpháp weakly-supervised là học từ đồng nghĩa, phân loại văn bản, nhận diệnđối tượng và phân đoạn ảnh
Nhãn cấp độ khung hình (frame-level annotation): quá trình phát hiện bất
thường của video thông qua phân tích cấp độ khung hình bao gồm việc đào
tạo một mô hình để nhận biết các mẫu trong khung hình video và phân biệt
giữa hành vi bình thường và bất thường Video đầu vào được chia thành từng
khung riêng lẻ, sau đó nâng cao chất lượng khung hình thông qua các kỹthuật tiền xử lý như giảm nhiễu, điều chỉnh độ tương phan và thay đôi kích
I1
Trang 20thước Huấn luyện mô hình bằng cách sử dụng tập đữ liệu được gán nhãn ởcấp độ khung hình, mô hình học cách nhận biết các mẫu liên quan đến hành
vi bình thường và bat thường dựa trên các đặc trưng được trích xuất từ khung
hình.
3.2 Các thành phần tính toán chính
3.2.1 Mạng Nơ-ron tích chập (CNN)
CNN là viết tắt của Convolutional Neural Network, một loại mạng nơ-ron nhân tạo
được thiết kế dé xử lý dữ liệu có cấu trúc lưới, như hình anh, âm thanh hoặc vănban CNN có thé hoc được các đặc trưng phức tạp của dữ liệu bằng cách sử dụngcác phép tích chập, là một phép biến đổi toán học giúp trích xuất các thông tin cục
bộ từ dữ liệu Các kiến trúc dựa trên CNN hiện nay xuất hiện khắp nơi trong lĩnhvực thị giác máy tính và được dùng trong nhiều bài toán như nhân dạng ảnh, pháthiện vật thé (Object Detection), phân vùng hình ảnh (Image Segmentation), Bêncạnh hiệu nâng cao trên sỐ lượng mẫu cần thiết để đạt được đủ độ chính xác, CNNthường có hiệu quả tính toán tốt hơn và dễ thực thi song song trên nhiều GPU hơncác kiến trúc mạng kết nói đầy đủ (fully connected) Một số loại mô hình CNN khácnhau như LeNet, AlexNet, ResNet,VGG, CNN có thé được mô tả bang cach str
dung cac khai niém sau:
Pooling Pooling Pooling
Convolution Convolution Convolution hôm
Kernel RếLU RẻLU ReLU Flatten’,
Trang 21e Các lớp tích chập: là các lớp chính của CNN, có chức năng phát hiện các đặc
trưng không gian một cách hiệu quả Trong lớp này có 4 thành phần chính là:
ma trận đầu vào, các bộ lọc (filters), vùng nhận thức và bản đồ đặc trưng
(feature map) Mạng nơ-ron tích chập khác biệt với mạng nơ-ron thông
thường bởi vì nó không liên kết với toàn bộ hình ảnh, mà chỉ tập trung kết
nối với các vùng nhận thức cụ thể có kích thước bằng kích thước của bộ lọc
Bộ lọc nay di chuyên theo chiều ngang và dọc của ảnh, thực hiện tích chập
và đưa ra các giá trị được thêm vào bản đồ đặc trưng Mục đích chính củaphép tích chập là trích xuất các đặc trưng của ảnh như cạnh, góc, hình dạng,
mau sac,
Hình 3.2: Phép tính tích chập của một bộ lọc kích thước 3x3 trên anh (Nguồn [5])
e Các bộ lọc (filters): là các ma trận trọng số có kích thước nhỏ hơn so với ma
trận đầu vao, được sử dụng dé quét qua anh va tinh tổng tích chập tại mỗi vị
trí Các bộ lọc thường có nhiều kênh (channels), tương ứng với số kênh của
ma trận đầu vào.
e Đường viền (Padding): là kỹ thuật thêm các giá trị 0 vào biên của ma trận
dau vào, nhăm giữ nguyên kích thước chiêu của ma trận dau ra sau khi tích
13
Trang 22chập Đệm cũng giúp bảo toàn thông tin ở biên của ảnh và giảm thiéu hiện
tượng quá khớp (overfitting).
e Bước nhảy (Stride): là số bước nhảy của bộ lọc khi quét qua ma trận đầu vào.
Sải bước càng lớn, ma trận đầu ra càng nhỏ và ngược lại Sải bước giúp điềuchỉnh kích thước chiều của ma trận đầu ra một cách linh hoạt
e Lớp gộp (Pooling): là các lớp phụ của CNN, thực hiện phép gộp (pooling)
giữa các ô liền kề trong ma trận đầu vào để tạo ra ma trận đầu ra có kíchthước nhỏ hơn khi hình ảnh quá lớn mà không làm mất đi các đặc trưng quantrọng Phép gộp có thé là lấy giá trị lớn nhất ,lấy giá trị trung bình, lay giátrị tong Mục đích của phép gộp là dé giảm chiều dit liệu, tăng tinh bat biến(invariance) của các đặc trưng và giảm thiểu hiện tượng quá khớp
(overfitting).
e Lớp kết nối đầy du (fully connected): là lớp cuối cùng của CNN, thực hiện
phép nhân ma trận giữa vector đặc trưng thu được từ các lớp tích chập và
gộp với ma trận trọng số để tạo ra vector xác suất cho từng lớp phân loại.Lớp kết nối day đủ có thé có nhiều lớp ân (hidden layers) dé tăng độ phức
tạp của mô hình.
e Hàm kích hoạt: là hàm phi tuyến được áp dung lên vector xác suất dé đưa ra
kết quả cuối cùng cho bài toán phân loại Hàm kích hoạt thường được sử
dung là hàm softmax, ham sigmoid hoặc ham ReLU
Dưới đây là minh họa một kiến trac CNN AlexNet phát triển bởi Alex Krizhevsky,
Ilya Sutskever và Geoffrey Hinton vào năm 2012 AlexNet được dao tạo trên bộ dữ
liệu ImageNet, bao gồm 1,2 triệu hình ảnh với 1000 lớp và có thể đạt được độ chính
xác nhận dạng cao Kiến trúc AlexNet bao gồm 5 lớp tích chập và 3 lớp kết nối đầy
đủ, là kiến trúc đầu tiên cho thấy CNN có thê vượt trội hơn đáng kể so với các
phương pháp học máy truyền thống trong các tác vụ nhận dạng hình ảnh và là một
bước quan trọng trong việc phát triển các kiến trúc sâu hơn như VGGNet,
GoogleNet và ResNet.
14
Trang 23CONV Overlapping Overlapping
11x11, Max POOL, CONV Max POOL CONV
stride=4, 96 3x3, 9 5x5,pad=2 3x3, 256 3x3,pad=1
96 kernels stride=2 256 kernels stride=2 384 kernels
(27+2"2-5)/1 (27-3)/2 +1 (13+2"1-3)/1 (55-3)/2 +1
=27 (227-11)/4 +1
âm thanh hay chuỗi hình ảnh trong một video Mạng No-ron tái phát có thé sử dung
thông tin từ các bước trước để ảnh hưởng đến việc xử ly các bước sau, tạo ra một bộ
nhớ ngắn hạn cho mạng RNN được áp dụng rộng rãi cho các bài toán liên quan đến
dữ liệu tuần tự, như dịch ngôn ngữ, xử lý ngôn ngữ tự nhiên (NLP), nhận dạng
giọng nói và chú thích hình anh Các ứng dụng phô biến của RNN bao gồm Siri, tim kiếm bằng giọng nói và Google Dịch,
15
Trang 24thé thay đầu vào và đầu ra của mạng Nơ-ron này là độc lập với nhau Tính năng
chính và quan trọng nhất của RNN là trạng thái ân, ghi nhớ một số thông tin về mộtchuỗi Trạng thái này còn được gọi là Trạng thái bộ nhớ vì nó ghi nhớ đầu vào trước
đó vào mạng Nó sử dụng các tham số giống nhau cho mỗi đầu vao vì nó thực hiệncùng một tác vụ trên tất cả các đầu vào hoặc các lớp an dé tạo ra đầu ra Điều nàylàm giảm sự phức tạp của các tham số, không giống như các mạng Nơ-ron khác.Dựa trên số lượng đầu vào và đầu ra, RNN được chia thành 4 loại được mô tả như
dưới đây.
One to One: là một kiến trúc RNN cơ bản và đơn giản, trong đó mối quan hệ giữa
dữ liệu đầu vào và đầu ra là mối quan hệ một một Không có sự tái sử dụng của
trạng thái ân, môi đơn vi dau ra chỉ phụ thuộc vào don vi dau vao tương ứng của nó.
16
Trang 25thường được sử dụng trong các tình huống khi cần sinh ra một chuỗi dữ liệu đầu ra
phức tạp từ một đầu vào duy nhất, một trong những ví dụ được sử dụng nhiều nhấtcủa mạng này là chú thích hình ảnh, trong đó đưa ra một hình ảnh, sử dụng dé dự
đoán một câu có nhiêu từ.
Trang 26Many to One: là một dạng kiến trúc RNN trong đó mạng nhận nhiều đầu vào tại cácthời điểm khác nhau và tạo ra một đầu ra duy nhất tại thời điểm cuối cùng Mục tiêu
là sinh ra một đầu ra duy nhất tại thời điểm cuối cùng, phản ánh thông tin toàn bộ từchuỗi đầu vào Mạng RNN many-to-one thường được sử dụng trong các tình huéngkhi cần dự đoán hoặc phân loại dựa trên một chuỗi dữ liệu đầu vào, ví dụ như sử
dụng trong các vân dé như phân loại cảm xúc, phân loại video,
chuỗi đầu ra tương ứng Mỗi đầu vào tại một thời điểm được truyền qua mạng, ảnh
hưởng đến trạng thái an và đầu ra tại thời điểm đó và trạng thái ân được chuyểngiao giữa các thời điểm Một ví dụ điển hình là mô hình dịch máy (machinetranslation), mạng nhận một câu trong ngôn ngữ nguồn và tạo ra một câu trong
ngôn ngữ đích.
18
Trang 27đã mang lại những đổi mới đáng kê cho các nhiệm vụ liên quan đến xử lý ngôn ngữ
tự nhiên và đã chứng minh khả năng trong việc biéu diễn tính năng mạnh mẽ Laycảm hứng từ những thành tựu của xử lý ngôn ngữ tự nhiên, kiến trúc bộ chuyền đôi
đã được khai thác trong các nhiệm vụ thị giác máy tính bao gồm xử lý ảnh, phânloại ảnh, phát hiện đối tượng, phân loại hành động, xử ly video,
Trong bối cảnh xử lý hình ảnh, mô hình ViT có thể tận dụng được tính chất tự tậptrung (self-attention) dé hiểu các mối quan hệ không gian giữa các phần khác nhaucủa hình ảnh So với hình ảnh, dữ liệu video có thêm một chiều thời gian, mỗi
khung hình của video được xem xét như là một nút ảnh và được đưa vào mô hình.
ViT có kha năng hoc được cả mối quan hệ không gian và thời gian giữa các khung
hình, giảm độ phức tạp của mô hình và tăng khả năng học từ dữ liệu lớn.Vậy nên
mô hình ViT là một mô hình linh hoạt có thể được sử dụng hiệu quả cả trong xử lýhình ảnh và video với khả năng hiểu cả không gian và thời gian thông qua kiến trúc
tự tập trung (self-attention).
19
Trang 28Bộ chuyên đôi hình ảnh đã trở thành một lựa chọn đối thay cạnh tranh với các mạng
Nơ-ron tích chập, một giải pháp mới trong lĩnh vực thị giác máy tính Trong khi các
mạng Nơ-ron tích chập vẫn là ứng dụng tiên tiến cho nhận dạng hình ảnh trongnhiều tác vụ khác nhau, bộ chuyền đổi hình anh dang nỗi lên như một phương pháp
có khả năng cạnh tranh và được áp dụng rộng rãi Bộ chuyền đôi hình ảnh đạt đượckết quả đáng chú hơn CNN trong khi dùng ít tài nguyên tính toán hơn cho huấnluyện mô hình So với CNN, ViT có xu hướng nạp yếu hơn, dẫn đến sự phụ thuộcngày càng nhiều vào việc tinh chỉnh mô hình hoặc tăng dữ liệu khi huấn luyện trên
các tập dữ liệu nhỏ hơn Tuy nhiên, CNN dễ tối ưu hóa hơn
e Bước 3: Tạo các tính năng nhúng (feature embedding) có chiều thấp hon từ
các mang hình anh phăng này
e Bước 4: Tạo thông tin về vị trí của mang trong anh.
20
Trang 29e Bước 5: Chuỗi tính năng nhúng (feature embedding) được làm đầu vào cho
bộ chuyển đổi mã hóa (transformer encoder), thực hiện dao tạo trước đối với
mô hình VIT.
e Bước 6: Tinh chỉnh mô hình trên bộ dữ liệu riêng của từng bai toán.
3.2.4 Học nhiều trường hợp - Multiple Instance Learning
Học nhiều trường hop (Multiple Instance Learning - MIL) là một hình thức học tậpđược giám sát yếu, trong đó các trường hợp đào tạo được sắp xếp theo bộ được gọi
là bag và nhãn được cung cấp cho toàn bộ bag, trái ngược với chính các phiên bản
đó Mô hình MIL thường xây dựng một mô hình phân loại dựa trên cả bag, không
chỉ dựa trên các thực thể cụ thể có trong bag Mỗi túi được biểu dién đưới dạng một
vector hoặc một tập hợp các vector, thường được rút trích từ các đặc trưng của các
thực thể trong túi MIL thường được sử dụng trong các lĩnh vực như nhận diện đối
tượng trong hình ảnh, phát hiện tác nhân gây bệnh trong y học và phân loại văn bản
do nó cho phép tận dụng dữ liệu được gắn nhãn yếu trong đó việc ghi nhãn dữ liệuthường tốn kém
Negative Positive
Bag Bag
21
Trang 30Hình 3.10: Minh họa giả định MIL tiêu chuẩn (Nguồn [24])Trong giả định MIL tiêu chuẩn, một bag được coi là tích cực nếu ít nhất một thựcthể bên trong là tích cực; ngược lại, bag được xem là tiêu cực nếu tất cả các thực thébên trong đều là tiêu cực Các trường hợp tích cực được dán nhãn trong tài liệu lànhân chứng Tuy nhiên, giả định tiêu chuẩn này có thể được sửa đổi một chút đểgiải quyết các van dé trong đó các bag tích cực không thé được xác định bang mộttrường hợp duy nhất mà bằng sự tích lũy của nó Ví dụ, trong phân loại ảnh sa mạc,biển và bãi biển, ảnh bãi biển chứa cả phân đoạn cát và nước do đó cần có một sốtrường hợp tích cực dé phan biét bai biển với sa mạc hoặc bién.
Một trong những thách thức lớn của việc phát hiện bất thường được giám sát yếu làlàm thé nào dé xác định các đoạn bất thường từ toàn bộ video được gan nhãn là batthường Điều nay là do hai lý do, thứ nhất là phần lớn các đoạn trích từ một videobất thường bao gồm các sự kiện bình thường, có thể lan at quá trình dao tạo vàthách thức việc khớp một số đoạn đoạn bất thường, thứ hai là các đoạn thông tin batthường có thé không đủ khác biệt so với các đoạn thông thường khiến việc phânbiệt rõ ràng giữa các đoạn thông thường và bất thường trở nên khó khăn Phát hiệnbất thường được đào tạo bằng cách học nhiều trường hợp (MIL) giảm thiểu các vấn
dé trên bằng cách cân bang tập huấn luyện với cùng số lượng bất thường và bình
thường, trong đó các đoạn bình thường được chọn ngẫu nhiên từ các video bình
thường và các đoạn bất thường là những đoạn có điểm bất thường cao nhất từ cácvideo bất thường
3.2.5 Cơ chế tự tập trung (Self-Attention)
Cơ chế tự tập trung là một thành phan quan trọng trong mô hình bộ chuyền đổi dégiải quyết van đề về kha năng hiểu ngôn ngữ tự nhiên và xử lý dữ liệu chuỗi Cơchế này cho phép mô hình tập trung vào các phần quan trọng của dữ liệu đầu vàothông qua việc tạo ra trọng số tập trung cho từng phần tử trong chuỗi đầu vào Cơchế tự tập trung lần lượt được ứng dụng trong hai kiến trúc mạng Long Short Term
22
Trang 31Memory (LSTM) và bộ chuyên đổi (Transformer) trong nỗ lực hạn chế nhữngnhược điểm của mô hình họ RNN.
Cơ chế tự tập trung trong mạng LSTM đại diện cho một sự cải tiễn đáng chú ý sovới mô hình LSTM truyền thống Thay vì sử dụng một vector bộ nhớ duy nhất, môhình này áp dụng một mạng Nơ-ron bộ nhớ, hay còn được biết đến như memorynetwork Kiến trúc của cơ chế tự tập trung bao gồm hai băng tải quan trọng: băng
tải trạng thái ân và băng tải bộ nhớ Mặc dù tổng thê kiến trúc vẫn giữ nguyên bản
từ mô hình LSTM truyền thống, nhưng cơ chế tự tập trung làm tăng cường thông tinliên kết giữa các trạng thái ân Điều này đạt được bằng cách đánh trọng số dựa trênmỗi quan hệ giữa các trạng thái ân, trạng thái té bào trước và dấu thời gian của đầuvào hiện tại Mỗi token được biéu diễn băng một vector ân và một bộ nhớ an tươngứng, thúc đây khả năng tự tập trung và giao tiếp hiệu quả giữa chúng
Hình 3.11: Kiến trúc cơ chế tự tập trung trong mạng LSTM (Nguồn [3])
Cơ chế tự tập trung trong mạng LSTM đã mở đường giải quyết van dé inductivebias trong các mô hình tuần tự truyền thống Tuy nhiên, tính tuần tự của LSTM gặp
23
Trang 32khó khăn về tốc độ tính toán Đề vượt qua điều này, bộ chuyên đôi ra đời, chế độnày kế thừa khái niệm từ cơ chế tự tập trung trong LSTM Băng cách loại bỏ tínhtuần tự phụ thuộc vào cơ chế tự tập trung, bộ chuyền đổi giúp tăng tốc quá trình tínhtoán và vẫn có khả năng xác định mối quan hệ chặt chẽ giữa đầu vào và đầu ra màkhông gặp nhược điểm của sự tuần tự.
Multi-Head Attention
Hình 3.12: Kiến trúc bộ chuyên đổi (Nguồn [3])
Nếu xem xét mô hình bộ chuyên đổi dưới góc độ là một loại mô hìnhencoder-decoder, chúng ta có thể tưởng tượng rằng mô hình này bao gồm N khối
Mỗi khối đều gồm ba thành phần chính: phần mã hóa, phần giải mã, và cơ chế tập
trung của mã hóa và giải mã.
e Mã hóa (Encoder): Mỗi khối bao gồm ba thành phan chính là Multihead
Attention, Feed Forward, và Add & Norm Trong phần mã hóa, chúng ta sử
dụng lớp tự tập trung (Self-Attention) Tự tập trung ở đây được thực hiện với
trọng số được tinh bang công thức Scaled Dot-Product Attention, nơi mà
khái niệm của vector ân và vector bộ nhớ được hoàn toàn loại bỏ Thay vào
24
Trang 33đó, chúng ta sử dụng ba vector là query, keys, và value Các vector này được
tạo ra từ đầu ra của lớp ở phía trước trong quá trình giải mã Điều này chophép tự tập trung động dựa trên các giá trị biểu diễn khác nhau của lớp phíatrước ở giai đoạn mã hóa, có thể được xem là sự cập nhật tự nhiên và hiệu
quả.
e Giải mã (Decoder): Mỗi khối bao gồm Masked Multi-Head Attention và Add
& Norm Trong phan giải mã, cũng tồn tại một cơ chế tự tập trung, tuy nhiên,
có một sự điều chỉnh nhỏ trong cách tính toán trọng số tập trung Điều nàynhằm che đi một phần vị trí của đầu ra, ngăn chúng được mã hóa từ cácthông tin ở tầng phía sau
e Bộ tập trung mã hóa và giải mã (Encoder-Decoder Attention): Mỗi khối bao
gồm Multihead Attention, Feed Forward, và Add & Norm Trong phần này,tập trung không phải là dang tự tập trung Queries ở đây nhận đầu ra từ lớpgiải mã phía trước, trong khi keys và values đều nhận cùng một giá trị từ đầu
ra của phần giải mã Tập trung ở đây tương tự như cách sử dụng tập trungtrong mô hình encoder-decoder truyền thông
3.2.6 Đường cong AUC-ROC
AUC-ROC là một phương pháp đánh giá hiệu suất của một mô hình phân loại dựatrên các ngưỡng phân loại khác nhau ROC là viết tắt của Receiver Operating
Characteristics, là một đường cong biểu diễn hiệu suất phân loại của một mô hình
tại các ngưỡng nguy cơ khác nhau Đơn giản, nó thé hiện tỷ lệ True Positive Rate(TPR) so với False Positive Rate (FPR) đối với các giá trị ngưỡng
True Positive Rate thể hiện tỷ lệ phân loại chính xác các mẫu dương tính trên tổng
số mẫu dương tính Nếu TPR càng cao, mô hình càng chính xác trong việc phânloại các mẫu dương tính False Positive Rate, ngược lại, biểu diễn tỷ lệ dự đoán saicác mẫu âm tính thành đương tính trên tong số mẫu âm tính Cả hai giá trị này được
tính như sau:
25