CNN cv ConvLSTMCUDA DAE DL FCN FPS FFP GAN HOG LSTM MLEP MNAD PSNR ROC ROC - AUC SIFT SOTA Ý nghĩa Bài toán phát hiện bat thường — Anomaly Detection Bộ tự mã hóa — AutoEncoder Trí tuệ nh
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
VŨ NGỌC TÚ
ĐINH THANH TOÀN
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN BÁT THƯỜNG TRONG VIDEO GIÁM SÁT TẠI ĐƯỜNG
PHÓ VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU
DETECTING ANOMALOUS EVENT IN SURVEILLANCE VIDEOS
ON VIETNAMESE STREET USING DEEP LEARNING
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
VŨ NGỌC TÚ
ĐINH THANH TOÀN
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN BAT THƯỜNG TRONG VIDEO GIÁM SÁT TẠI DUONG
PHÓ VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU
DETECTING ANOMALOUS EVENT IN SURVEILLANCE VIDEOS
ON VIETNAMESE STREET USING DEEP LEARNING
GIANG VIÊN HƯỚNG DAN
TS NGUYEN TAN TRAN MINH KHANG
THS VO DUY NGUYEN
TP HO CHÍ MINH 2021
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
gầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Dé hoàn thành được khóa luận này, lời đầu tiên, chúng tôi xin chân thành cảm ơn sâu sắc đến thầy TS Nguyễn Tan Trần Minh Khang - giảng viên hướng dẫn của tôi trong khóa luận Thầy đã luôn quan tâm, lo lắng, nhắc nhở cũng như
hỗ trợ tôi trong suốt quá trình thực hiện khóa luận Thầy cũng là người đã truyền cảm hứng giúp tôi định hướng trong con đường học tập và nghiên cứu khoa học Đồng thời, tôi cũng xin gửi lời cảm ơn đến thầy ThS Võ Duy Nguyên
và thầy ThS Trần Minh Tùng đã luôn giúp đỡ, hướng dẫn tận tinh, sửa chữa và đóng góp nhiều ý kiến quý báu giúp tôi hoàn thành thật tốt báo cáo khóa luận.
Chúng tôi cũng xin chân thành cảm ơn tập thé Quý Thay/ Cô Trường Đại học Công nghệ Thông tin nói chung và đặc biệt Quý Thay/ Cô khoa Công nghệ Phần mềm, Phòng Thí nghiệm Truyền thông Da phương tiện MMLab nói riêng
đã truyền đạt kiến thức, hỗ trợ chúng tôi trong suốt quá trình học tập tại trường Bên cạnh đó, chúng tôi xin gửi lời cảm ơn chân thành đến các em, các bạn, các anh chị trong nhóm nghiên cứu đã luôn đồng hành, giúp đỡ và động viên chúng tôi trong suốt quá trình tôi thực hiện khóa luận này Cuối cùng, chúng tôi xin
gửi lời cảm ơn chân thành nhất đến bố mẹ và những người trong thân trong gia đình — những người đã luôn động viên, giúp đỡ, tạo điều kiện và là niềm cảm
hứng của chúng tôi trong từng chặng đường.
Trong quá trình thực hiện khóa luận, dù có hoàn chỉnh đến đâu thì giới
hạn kiến thức sẽ không tránh khỏi những sai sót, hạn chế trong đề tài Chúng tôi mong nhận được sự góp ý của Quý Thay/ Cô và các bạn dé được hoàn thiện
hơn.
Một lần nữa, chúng tôi xin chân thành cảm ơn!
Sinh viên thực hiện
Vii Ngọc Tú Dinh Thanh Toàn
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC ' Độc lập - Tự do - Hạnh phúc CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TEN DE TÀI: PHÁT HIỆN BAT THƯỜNG TRONG VIDEO GIAM SÁT TẠI DUONG PHO VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU
TÊN DE TÀI TIENG ANH: DETECTING ANOMALOUS EVENT IN
SURVEILLANCE VIDEOS ON VIETNAMESE STREET USING DEEP LEARNING
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Nguyễn Tấn Trần Minh Khang, Ths Võ Duy Nguyên
Thời gian thực hiện: Từ tháng 09/2021 đến tháng 12/2021.
Sinh viên thực hiện:
Vii Ngọc Tú - 18520184 Lớp: Khoa học máy tính 2018
Email: 18520184@gm.uit.edu.vn Điện thoại: 0962168877
Dinh Thanh Toàn — 18521504 Lớp: Khoa học may tính 2018
Email: 18521504@gm.uit.edu.vn Điện thoại: 0931631916
Lý do lựa chọn lĩnh vực nghiên cứu và mục tiêu:
1 Động lực nghiên cứu:
Ở Việt Nam, việc xây dựng thành phố thông minh (smart city) trong thời đại công nghệ 4.0 đang được tiến hành tại nhiều tinh/ thành phố với nhiều hệ
thống giám sát thông minh được nghiên cứu và áp dụng trong nhiều lĩnh vực:
giao thông — vận tải, môi trường, an ninh — quốc phong, Trên cơ sở khai thác
kho đữ liệu ảnh và video nhằm cung cấp thông tin, dịch vụ, tiện ích tốt hơn
phục vụ cuộc sống con người theo thời gian thực, phân tích, tạo ra và tích hợp
các tính năng thông minh vào môi trường sóng hằng ngày Trong đó, phân tích,
phát hiện các hoạt động bất thường của con người là một trong những bài toán
Trang 6rât thách thức do sự thay đôi lớn vê chuyên động và ngoại hình của con người,
góc chụp/ quay của camera/ máy ảnh và nhiều van dé khác liên quan đến thiết
lập môi trường thông minh.
Với số lượng người ngày càng gia tăng tại các thành phố lớn, các hoạt
động của con người diễn ra ở nhiều nơi gồm cả trong nhà và các nơi công cộng
đã đặt ra những bài toán rat nan giải, ví dụ: phát hiện và nhận dạng hoạt động/
sự kiện bình thường/ bất thường của nhóm người, sự tương tác giữa người và đối tượng liên quan, để đưa ra các cảnh báo phục vụ công tác quản lý, điều hành và giám sát của các cơ quan, tổ chức và doanh nghiệp Trong khi đó, nhân lực còn thiếu, đặt ra nhu cầu cần phải một công cụ tự động phát hiện những hoạt động bat thường của con người trong video giám sát như: âu đả, trộm cắp, cướp giật dé giảm chi phí nhân công và tiết kiệm thời gian xử lý.
2 Mục tiêu đề tài:
Xây dựng, thiết kế một mô hình phát hiện bất thường trong camera giám
sát Nền tảng của hệ thống này là một hệ thống mô hình học sâu dựa trên mạng
học sâu sử dụng trong video giám sát Đồng thời khảo sát các bộ dữ liệu phô
biến trong phát hiện bat thường bằng mô hình thực nghiệm, xây dựng một bộ dữ liệu về sự kiện bất thường tại Việt Nam.
3 Nội dung đề tài:
— Tìm hiêu tông quan về các kỹ thuật học sâu và trích xuất đặc trưng hành động
người trong video cho bai toán phát hiện bất thường.
— Thu thập video về sự kiện bat thường diễn ra ở Việt Nam.
— Đề xuất phương pháp tiếp cận, bổ sung các phương pháp tiền xử lý dé nâng
cao hiệu quả của mô hình.
— Thyc nghiệm và hiệu chỉnh mô hình đề xuất.
— Xây dựng một chương trình minh họa phát hiện bất thường trong đám đông
sử dụng phương pháp học sâu.
— Viết báo cáo tổng hợp.
Trang 74 Đối tượng nghiên cứu:
— Trong dé tài này, chúng tôi nghiên cứu bài toán phát hiện bat thường va các mô hình, bộ dé liệu để giải quyết bài toán.
— Đối tượng nghiên cứu: các kỹ thuật rút trích đặc trưng, các mô hình
phát hiện bat thường, bộ dữ liệu phát hiện bat thường.
5 Phạm vỉ nghiên cứu:
Vì phạm vi bất thường là rất rộng, vì thế nhóm nghiên cứu giới hạn phạm
vi bat thường của bài toán xuống thành 3 sự kiện bat thường thường thấy trong
đời sống bao gồm: đánh nhau, hành hung, cướp giật.
6 Phương pháp thực hiện:
— Tìm hiểu tổng quan về các kỹ thuật học sâu và bài toán phát hiện bất
thường và tìm thông tin dựa trên các nghiên cứu có sẵn.
— Thu thập video về sự kiện bất thường diễn ra ở Việt Nam.
— Nghiên cứu các mô hình trích xuất đặc trưng hành động của người
trong video.
— Xác định các vấn đề trong việc xác định bất thường của sự kiện trong
video, ví dụ như độ phân giải của video, sự tương tác giữa người và người, người và vật.
— Nghiên cứu các mô hình phát hiện bất thường dé giải quyết các van đề
trên.
— Dé xuất các thay đổi mô hình, bổ sung các phương pháp tiền xử lý để
nâng cao hiệu quả của mô hình.
— Xây dựng một chương trình minh họa phát hiện bất thường trong đám
đông sử dụng phương pháp học sâu.
— Tổng hợp kết quả và viết báo cáo khóa luận.
7 Kết quả dự kiến:
— Xây dựng bộ dữ liệu về sự kiện bất thường tại Việt Nam.
Trang 8— Dé xuất các cải tiến, bổ sung dé tăng hiệu quả của một mô hình phát
hiện bat thường hiện nay.
— Ứng dụng demo phát hiện sự kiện bất thường sử dụng phương pháp học
sâu.
— 01 bài báo tại Hội nghị quốc gia REV-ECIT năm 2021.
— 01 bảo báo tại Hội nghị NICS năm 2021.
— Báo cáo tổng hợp.
Kế hoạch thực hiện:
STT Công việc Phân công
1 Tìm hiểu tổng quan về các kỹ thuật học sâu và bài toán |_ Tú & Toàn
phát hiện bât thường và tìm thông tin dựa trên các nghiên
cứu có sẵn.
2 Tìm kiếm, thu thập video sự kiện bất thường tại Việt| Tú & Toàn
Nam.
3 Chọn lựa mô hình trích xuất, tiền xử lý video Tú & Toàn
4 Xây dựng mô hình trích xuất video Tú & Toàn
5 Xây dựng bộ dữ liệu phục vụ cho việc phát hiện bất | Ta & Toàn
thường.
6 Khảo sát các mô hình phát hiện bất thường, chọn một mô | Tú & Toàn
hình đề xây dựng.
7 Xây dựng mô hình phát hiện bất thường Tú & Toàn
§ Đánh giá và cải thiện mô hình Tú & Toàn
9 Phát triển ứng dung demo phát hiện sự kiện bất thường Tú & Toàn
10 Tổng hợp kết quả và viết khóa luận Tú & Toàn
ll Viết báo cáo tổng hợp Tú & Toàn
Trang 9Võ Duy Nguyên
Trang 10MỤC LỤC
Chương 1 TONG QUAN DE TÀI
1.1 Định nghĩa -.ecccccerrrrrrrrrrrtrrrrrtrrrrrtrrrrrtrrrrrtrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrir 1.2 Động lực nghiên cứu
1.3 Phát biểu bài toán e-ceeerererrrrrrrrrrrrrrrirrrrrrtrrrrrirrrre
2.44 Giới thê TR Aer ete teem vssssccccenesseotforoorsesesenzfeseeccerenseonsssoorsenessnsssnasorerensees 2.12 Phanloaift Pare EL,
2.2 Các bộ dữ liệu hiện có cho bai toán phat hiện bat thường
2.2.1 Bộ dữ liệu đơn cảnh -cccsscrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
2.2.2 Bộ dữ liệu đa cảnh -cccsireetririrrriirriierrree
2.3 Các hướng tiếp cận hiện tại cho bài toán phát hiện bất thường
2.3.1 Hướng tiếp cận dựa trên đặc trưng handcrafted
2.3.2 Mô-đun trích xuất đặc trưng truyền thống
2.3.3 Hướng tiếp cận dựa trên học sâu -.ceeerreerrrree
2.3.4 Hướng tiếp cận học không giám sát ce.ceeree
(i) Future Frame Prediction (FFP) ee.eeeeereeererrrrrririiiiririiiririririirrie (ii) Generator
(iii) Discrimimator sssssssssssssssesssssesesssesesssesssssesssssesssssssssssessessessessssseeseessseceeesceseeseeeeseeeseeses
10
11
12
13 14 14
15
16
22
26
Trang 11(i) Tổng quan kiến trúc.
(c) Margin Learning Embedded Prediction (MLEP) 3 1
2.3.5 Hướng tiếp cận giám sát yéu
Chương 3 XÂY DUNG BO DU LIEU CHO BAT THƯỜNG TAI DUONG PHO
Trang 124.4, Kết quả thực nghiệm và đánh giá -.-eeeseseeeseee B
5.1.1 Đề xuất hàm độ lỗi cho phương pháp Future Frame Prediction 53
5.1.2 Phương pháp phát hiện bất thường cơ sở của phương pháp
5.1.3 Dé xuất chỉnh sửa phương pháp phát hiện bất thường 56
5.2 Đánh giá kết quả dé xuất - <.seeereeeererrsrerreresrereeseoev DO
5.2.1 Kết quả đề xuất e-eerrriiiiiirroe DO
5.2.2 Trực quan kết quả e-eeeeeesrrietrrrirerrririrrieerrrie.D Ở
5.2.3 Đánh giá kết quả -ecceeseeeerrrrrrrirrrrrrrrrrerrrov DO)
Chương 6 CHƯƠNG TRINH MINH HỌA -¿222222cc22vvvzsrrrvvcee 61
6.1 Xây dựng ứng dung demo cho bài toán Phát hiện bat thường 6 1
Trang 137A Hướng phát triển eo OD
TÀI LIỆU THAM KHẢO.
PHU LUC A — BÀI BÁO ¿- 2+2 121112111211121111 T1 11 tán nên 72
Trang 14DANH MỤC HÌNH
Hình 1-1: Bài toán phát hiện bắt thường trong camera Với đầu vào là video giám
sát Còn dau ra là nhãn bắt thường tương ứng với từng khung hin
Hình 1-2: Một số ví dụ minh họa về tinh da dạng của ngữ cảnh trong camera giám
sát
Hình 2-1: Phân biệt bài toán phát hiện bat thường với bài toán phân loại Hình 2-2: Một vài mẫu bao gồm khung hình bình thường và bat thường trong bộ dữ liệu một khung cảnh Hình 2-3: Một vài mẫu biểu diễn của bộ dữ liệu đa cảnh
Hình 2-4: Mô tả đặc trưng handerafied HOG và SIFT .
Hình 2-5: Kiến trúc cơ bản của mạng Autoencoder Hình 2-6: Kiến trúc của mang CAE
Hình 2-7: Ý tưởng Local receptive fields trong mô hình CNN.[10J
Hình 2-8: Hình ảnh trực quan hóa các bước thực hiện của phép tính tích chập chuyến vi
Sát .
Hình 2-10: Mô hình hóa phương pháp tdi tạo frame .
Hình 2-11: Kiến trúc của phương pháp Conv LSTM-AE [31] Hình 2-12: Quá trình phát hiện bắt thường cua FFP [7] Hinh 2-13: Qua trinh hudn luyện của FFP [7]
Hình 2-14: Kiến trúc của mạng Unet được sử dụng trong phương pháp Future Frame Prediction
Hình 2-15: Kiến trúc của phương pháp MNAD [6]
Hình 2-16: Kiến trúc của phương pháp MLEP
Hình 2-17: Tổng quan quá trình xử ly của hướng tiếp cận giám sát yếu [12] 32
Hình 3-1: Một vài mẫu trong bộ dữ liệu VNAnomah Hình 3-2: Mô tả quy trình thu thập gan nhãn bộ dữ liệu VNAnomaly
Hình 4-1: Mô tả phân bố của frame trong tập dữ liệu
Trang 15Hình 4-2: Luéng xử lý quá trình cài đặt, chạy thực nghiệm với mô hình MNAD.\ 46 Hình 4-3: Ví dụ trực quan của đường ROC và điển ROC-AUC
Hình 4-4: Bảng confusion matrix kết hợp với phương pháp tính các độ do wu.
Hình 4-5: Biểu do kết quả với AUCH am
Hình 4-6: Biểu đô kết quả với AUC=0.7
Hình 4-7: Biểu đ kết qua với AUC=0.
Hình 4-8: Biểu đồ kết qua với AUC=0
Hình 4-9: Trực quan hóa kết quá của mô hình
Hình 5-1: Trực quan hóa dé xuất bồ sung vào hàm độ lỗi của Future Frame
Prediction
Hình 5-2: Trực quan hóa điêm bat thường trong video
Hình 5-3: Trực quan hóa thuật toán phát hiện bat thường điều chỉnh
Hình 5-4: Trực quan hóa điểm của thuật toán phát hiện bắt thường so với các
phương pháp cơ sở.
Hình 5-5: Trực quan hóa diém của thuật toán phat hiện bat thường
các phương pháp cơ sở
Hình 6-1: Giao điện khởi tạo của chương trình minh họa .
Hình 6-2: Kết quả trả về của chương trình
Trang 16DANH MỤC BẢNG
Bang 2-1: Tóm tắt thông tin của các bộ dữ liệu khảo sát
Bảng 3-1: Mô tả ý nghĩa giá trị các thuộc tinh trong file annotations định dạng
VNAnomaly ( txt)
Bang 3-2: Mô tả ý nghĩa giá trị các thuộc tinh trong khôi “categories” (json) 40
Bang 3-3: Mô tả ý nghĩa giá trị các thuộc tính trong khối “annotations” (json) 41 Bảng 4-1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp phát hiện đối tượng hiện có Kết quả tốt nhất được in đậm
Bang 5-1: Bang kết quả thực nghiệm với thông số mặc định trên hàm độ
Bảng 5-4: Bảng kết quả thực nghiệm trên từng video với thông só mặc định trên các
phương pháp phát hiện bắt thường hiện có (3⁄4)
Trang 17CNN cv ConvLSTM
CUDA DAE DL
FCN
FPS FFP
GAN
HOG
LSTM MLEP
MNAD
PSNR ROC ROC - AUC SIFT SOTA
Ý nghĩa Bài toán phát hiện bat thường — Anomaly Detection
Bộ tự mã hóa — AutoEncoder Trí tuệ nhân tạo — Artificial Intelligence
Mô hình mạng nơ ron nhân tạo —
Artificial Neural Network/Neural Network Convolutional AutoEncoder
Mô hình mang tích chập — Convolution Neural Network
Xử lý ảnh — Computer Vision
Mô hình mạng bộ nhớ dài ngắn hạn tích chập — Convolutional
Long Short Term Memory Compute Unified Device Architecture
Bộ tự mã hóa học sâu — Deep AutoEncoder Học sâu — Deep Learning
Tầng nói kín - Fully-connected layer
Độ đo về tốc độ xử lý 1 khung hình trên 1 giây —
Frame per second Future Frame Prediction
Mang đói nghịch tạo sinh = Generative Adversarial Networks
Histogram of oriented gradients Long-Short Term Memory
Mô hình phát hiện bat thường không giám sát Margin Learning
Embedded Prediction
Mô hình phát hiện bat thường không giám sat Learning
Memory-guided Normality for Anomaly Detection
Điểm ti số tin hiệu cực dai trên nhiễu - Peak signal-to-noise ratio
Đường cong đặc trưng hoạt động của bộ thu nhận — Receiver operating characteristic
Diện tích dưới của đường ROC — Area under the ROC curve Scale-invariant feature transform
Các phương pháp tân tiến nhất — State of the Art
Trang 18TOM TAT KHÓA LUẬN
Ở Việt Nam, việc xây dựng thành phố thông minh (smart city) trong thời đại công nghệ 4.0 đang được tiến hành tại nhiều tinh/ thành phố với nhiều hệ thống giám sát thông minh được nghiên cứu và áp dụng trong nhiều lĩnh vực: giao thông — vận tải, môi trường, an ninh — quốc phong, Với số lượng người ngày càng gia tăng tại các thành phố lớn, các hoạt động của con người diễn ra ở nhiều nơi gồm cả
trong nhà và các nơi công cộng đã đặt ra những bài toán rất nan giải, ví dụ: phát
hiện và nhận dạng hoạt động/ sự kiện bình thường/ bất thường của nhóm người, sự tương tác giữa người và đối tượng liên quan, để đưa ra các cảnh báo phục vụ công tác quản lý, điều hành và giám sát của các cơ quan, tô chức và doanh nghiệp Trong khi đó, nhân lực còn thiếu, đặt ra nhu cầu cần phải một công cụ tự động phát hiện những hoạt động bat thường của đám đông trong trong video giám sát như: âu
da, trộm cắp, cướp giật dé giảm chi phí nhân công và tiết kiệm thời gian xử lý.
Trong nghiên cứu này, chúng tôi giới thiệu bộ dữ liệu VNAnomaly — bộ dữ liệu
video gồm các video được thu thập từ camera giám sát trong nước Chúng tôi thu
thập thu thập 217 video giám sát từ các camera giám sát khác nhau ở Việt Nam.
Ngoài ra, chúng tôi tìm hiểu, nghiên cứu và tiến hành chạy thực nghiệm các phương pháp phát hiện bất thường dựa trên học sâu tiên tiến nhất gồm Future Frame Prediction, MNAD, MLEP trên bộ dữ liệu xây dựng được dé giải quyết bài toán và đánh giá toàn diện về bộ dữ liệu Qua kết quả thu được từ việc chạy thực nghiệm, chúng tôi đưa ra đánh giá đầy đủ, chỉ tiết về bộ dữ liệu cũng như các phương pháp
đã thực hiện Từ quá trình quan sát kết quả thực nghiệm, chúng tôi đề xuất thêm các
mô hình mở rộng với sự thay đổi hàm Loss để cải thiện độ chính xác cho mô hình mặc định Bên cạnh đó, chúng tôi cũng đề xuất một chỉnh sửa cho quá trình phát hiện bất thường của mô hình Đóng góp cho nghiên cứu của chúng tôi hiện đã được nhận đăng tại Hội nghị Quốc tế “The 8th NAFOSTED Conference on Information and Computer Science (NICS 2021).” và Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin’— REV-ECIT'2021.
Trang 19Chương 1 TONG QUAN DE TÀI
Mục tiêu: Chương này sẽ trình bày khái niệm, động lực nghiên cứu, phát biểu
về bài toán, các thách thức cua bài toán, mục tiêu, phạm vi và những đóng góp
chính của khóa luận.
1.1 Định nghĩa
Dựa trên [1], [2] sự kiện bất thường là những mẫu dữ liệu có đặc điểm
(pattern) không phù hợp với định nghĩa có sẵn của sự kiện bình thường Bên cạnh
đó, theo định nghĩa của [3], đây là những sự kiện hiếm khi xuất hiện trong thực tế
Những sự kiện này xuất hiện trong dữ liệu vì nhiều lí do, như là cho mục đích trục
lợi, phá hoại như lừa đảo thẻ tín dụng, lừa đảo tài chính, xâm nhập mạng nội bộ,
thiết bị cá nhân trái phép, Rõ ràng rằng những sự kiện bat thường được gây ra cho
mục đích xấu sẽ gây ra những hậu quả to lớn cho không chỉ cho cá nhân mà cho các
tổ chức Tuy nhiên, không chỉ những sự kiện bất thường trong lĩnh vực tài chính và
không gian mạng mà những sự kiện khác diễn ra trong cuộc sống hàng ngày như âu
đả, đánh nhau, cướp giật cũng gây ra những hậu quả khôn lường trong xã hội Từ đó
đặt ra cho người quản lý thách thức lớn trong việc phát hiện dé ngăn chặn, giảm
thiêu những sự kiện nảy diễn ra.
Tùy vào từng ngữ cảnh mà sự kiện bình thường có định nghĩa khác nhau Dẫn
đến các sự kiện bất thường cũng phụ thuộc vào ngữ cảnh và vô cùng đa dạng Đặc
biệt trong thời điểm đại dịch hiện nay, định nghĩa bất thường không chỉ giới hạn
trong những quy chuan xã hội thông thường mà còn liên quan đến các chính sáchdịch té của chính phủ
1.2 Động lực nghiên cứu
Hiện nay, với sự phát triển của công nghệ cùng với xu hướng thành phố thông
minh, camera giám sát đã nổi lên như một trong những công cụ hiệu quả trong
những tác vụ quản lý thành phố phức tạp như kiểm soát, điều khiển giao thông, pháthiện hay phát hiện các sự kiện bất thường Đặc biệt trong bối cảnh dịch bệnh Covid-
Trang 2019 hiện nay, nhu cầu giám sát, quản lý khu dân cư từ xa để vừa đảm bảo an toàn của
khu phố, vừa đảm bảo an toàn phòng dịch được đặt ra càng cao Các video thu thập
từ camera lắp đặt trong thành phố không chỉ giúp cơ quan giám sát, quản lí giao
thông, khu dân cu ma còn giúp phát hiện sớm những sự kiện vi phạm pháp luật, gây
mất trật tự đô thị từ đó để cơ quan chức năng có thể phản ứng kịp thời Vì vậy, sự
phô biến của các camera này là một trong những yếu tố thiết yếu trong việc quan lý,giám sát thành phố Tuy nhiên, những video này lại vô cùng thách thức cho máymóc có thé hiểu được ngữ cảnh và phân biệt được sự kiện có bất thường hay không.Cùng với đó số lượng camera giám sát tăng cao cũng rất tốn kém về nhân lực, thờigian và chi phí dé giám sát các camera này, do đó, nhu cầu về một công cụ tự động
phát hiện những hiện tượng bat thường trong trong video giám sát như au đả, trộm
cắp, cướp giật dé giảm chi phí nhân công cũng càng lớn
Xuất phát từ bài toán trên, đã có nhiều phương pháp đề xuất phát hiện bất
thường một cách tự động Có thê ké đến như các phương pháp phát hiện bat thườngdựa vào các kỹ thuật máy học và các đặc trưng truyền thống gồm các đặc trưng vềchuyền động và đặc trưng về hình dáng Tuy nhiên, các phương pháp này không thêtổng quát hóa được vì những thách thức về ngữ cảnh và sự nhập nhằng của địnhnghĩa bình thường và bat thường Bên cạnh đó, chất lượng video được thu thập từ
camera giám sát cũng đặt ra vô số thách thức so với video quay cảnh bình thường
như ánh sáng, góc quay, độ phân giải, độ che khuất của đối tượng khiến cho việc
phát hiện bat thường gặp nhiều khó khăn
Tuy nhiên, sự phát triển của các phương pháp học sâu trong lĩnh vực xử lývideo đã mở ra rất nhiều cơ hội để giúp giải quyết các van dé trong thị giác máy
tính nói chung và bài toán phát hiện bất thường nói riêng trở nên khả thi hơn Do
đó, trong xu hướng smart city ngày nay, việc phát hiện bất thường đang dần trởthành nhu cau lớn trong rất nhiều ngành công nghiệp, được nhiều nhà nghiên cứuquan tâm và đóng góp Đó cũng là động lực giúp nhóm nghiên cứu thực hiện đề tài
“Phát hiện bắt thường trong trong video giám sát sử dụng phương pháp học sâu ”
Trang 211.3 Phát biểu bài toán
Phát hiện bất thường trong video giám sát là một trong những bài toán nhậnđược rất nhiều sự quan tâm Hiện nay, nhằm thúc day các nhà nghiên cứu tìm raphương pháp tốt nhất dé giải quyết bài toán này, nhiều cuộc thi lớn trên thế giới đã
được tạo ra, đặc biệt là các cuộc thi liên quan đến phát hiện bất thường trong giao
thông AICity Challenge được tô chức hàng năm tổ chức trong hội nghị CVPR
(Computer vision and pattern recognition).
00100111
0: bình thường
1: bât thường
Hình 1-1: Bài toán phát hiện bat thường trong camera Với dau vào là video giám sát Con
dau ra là nhãn bắt thường tương ứng với từng khung hình.
Dữ liệu đầu vào của bài toán là chuỗi các frame liên tiếp (video), đầu ra của
bài toán là nhãn tương ứng với từng frame đề xác định frame đó có bình thường hay
không theo Hình 1-1 Về cơ bản, đây là bài toán phân lớp nhị phân xác định frame
cụ thể có bình thường hay không
Bài toán phát hiện bất thường trong camera giám sát là một trong những
nhiệm vụ quan trọng, giúp xác định các frame bất thường trong video Đây cũng là
bài toán high level cho các nhiệm vụ mở rộng khác về sau như xác định vùng bất
thường, xác định các loại sự kiện bất thường Chính vì thế, việc thực hiện nghiêncứu của chúng tôi là tiền đề cho những nghiên cứu trong tương lai
Trang 221.4 Các thách thức
Qua khảo sát về bài toán phát hiện bất thường trong video, chúng tôi nhậnthấy thách thức của bai toán trong cả do các yếu tố từ bên trong và các yếu tô từ bên
ngoài Các yếu tố từ bên ngoài xuất phat từ chất lượng của video như video bị mờ,
độ phân giải thấp, vùng xảy ra bất thường bị che khuất, vùng xảy ra bất thườngchiếm tỉ lệ diện tích quá nhỏ trong frame, Thêm vào đó là những yếu tổ tác độngnhư gió khiến cho camera giám sát bị rung lắc, đặt ra thách thức cho khả năng xử lý
của mô hình.
Bên cạnh các yếu tố bên ngoài, bài toán sẽ gặp những thách thức đến từ bên
trong như sự đa dạng về ngữ cảnh, góc quay, thời điểm diễn ra bối cảnh Trong
đó, một trong những thách thức lớn nhất của bài toán này là sự nhập nhằng của định
nghĩa bất thường [4], [3] Quá trình xác định bất thường không chỉ dựa vào chuyên
động và ngoại hình của đối tượng mà còn phụ thuộc vào ngữ cảnh trong video Mộtvài sự kiện được xem là bình thường ở một vài ngữ cảnh nhưng bắt thường ở những
ngữ cảnh khác Ví dụ, chạy xe máy trong một khu vực dành cho người đi bộ được
xem là bat thường, tuy nhiên trong ngữ cảnh một con đường bình thường trong đôthị, đây là một sự kiện bình thường Không những thế, việc thu thập bất thườngtrong thực tế là vô cùng khó khăn do bản chất bất thường là những sự kiện xảy ra
rất ít trong thực tế
Ngoài những thách thức về dữ liệu, bài toán còn gặp những khó khăn về mặt
kỹ thuật Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo sát, chúng tôiquyết định chọn các phương pháp phát hiện đối tượng SOTA gồm: MLEP [5],MNAD [6], Future Frame Prediction [7] dé tién hanh thuc nghiém va danh gia trén
bộ dữ liệu Tuy nhiên mỗi phương pháp sẽ có những kiến trúc riêng, đặc trưng
riêng, điểm mạnh yếu riêng, thêm vào đó, sự tỉnh chỉnh các thông số phù hợp cho
từng mô hình cũng sẽ ảnh hưởng không nhỏ tới kết quả Điều này đòi hỏi sự nghiên
cứu sâu nhằm tìm ra phương pháp mang lại kết quả cao nhất và giải quyết thách
thức bài toán.
Trang 23Góc phải - ban đêm có
màu
Đánh nhau
Góc trái - ban ngày Góc trái - ban dem không
Hình 1-2: Một số vi dụ minh họa về tinh da dạng của ngữ cảnh trong camera giám sát.
1.5 Mục tiêu và phạm vi nghiên cứu
(1) Tìm hiéu tông quan về bài toán Phát hiện bất thường trong camera giám
sát dựa trên những nghiên cứu có sẵn.
(2) Tìm hiểu tổng quan các kỹ thuật học sâu và trình bay các phương phápphát hiện bất thường dựa trên phương pháp học sâu tiên tiến nhất hiện nay
(3) Khảo sát các bộ dữ liệu phục vụ cho bài toán đã được công bố trên thế
giới, từ đó giúp xây dung bộ dir liệu video thu thập từ các camera giám sát tai
Việt Nam.
(4) Cài đặt thực nghiệm các phương pháp phát hiện bất thường gồm MLEP
[5], MNAD [6], Future Frame Prediction [7] trên bộ dữ liệu được xây dựng.
(5) Sau khi nghiệm thu kết quả từ quá trình thực nghiệm, nghiên cứu và đề
xuất các kỹ thuật giúp nâng cao độ chính xác của kết quả phát hiện đối tượng
Từ đó đánh giá kết quả cải tiến so với phiên bản mặc định
(6) Lựa chọn một mô hình cho kết quả tốt để xây dựng ứng dụng demo
(7) Tổng hợp kết quả, phân tích đánh giá kết quả từ mô hình và viết báo cáo
Trang 241.6 Đóng góp của khóa luận
Nội dung cuốn báo cáo bao gồm giới thiệu bài toán Phát hiện bất thường trongvideo giám sát, trình bày tình hình nghiên cứu đã có trên thế giới, phân tích xu
hướng phát triển của bài toán sử dụng các phương pháp phát hiện bất thường dựa
trên học sâu.
Trinh bày kết quả khảo sát các bộ dit liệu đã công bồ trên thế giới và các quytrình, quy chuẩn được sử dụng trong việc xây dựng bộ đữ liệu video giám sát đangữ cảnh đầu tiên tại Việt Nam — VNAnomaly
Trình bày các phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu
bao gồm các phương pháp họ MLEP [5], MNAD [6] và Future Frame Prediction
[7] Thực hiện huấn luyện các phương pháp trên bộ dữ liệu VNAnomaly dé cung
cấp đánh giá đầy đủ chỉ tiết về bộ dữ liệu cũng như kết quả mô hình SOTA Qua kết
quả thực nghiệm, chúng tôi đề xuất sử dụng kết hợp ham Loss dé cải thiện kết qua
và thay đôi cách phát hiện bất thường trong công đoạn kiểm tra Sau đó, chúng tôi
đánh giá sự ảnh hưởng của những đề xuất này trên bộ dữ liệu được xây dựng
Kết quả mô hình nghiên cứu được sử dụng và phát triên thành ứng dụng phát
hiện bất thường trên web
Đóng góp 2 bài báo nghiên cứu khoa học:
(1) Tu Vu Ngoc, Toan Dinh, Nguyen D Vo, Tung Minh Tran and Khang
Nguyen, “VNAnomaly: A novel Vietnam surveillance video dataset for anomaly
detection” The 8th NAFOSTED Conference on Information and Computer Science (NICS).
(2) Tu Vu Ngoc, Toan Dinh, Nguyen D Vo, Tung Minh Tran and Khang
Nguyen, “Một hàm lỗi cho bài toán phát hiện bat thường trên video giám sát”tại Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông
tin”, REV-ECTT 2021.
Trang 251.7 Cấu trúc báo cáo khóa luận
Báo cáo khóa luận gôm 6 chương với các nội dung như sau:
Chương 1: Tổng quan đề tài Giới thiệu về nội dung đề tài bao gồm động lực
nghiên cứu, phát biểu bài toán, mục tiêu, phạm vi của nghiên cứu, và những
đóng góp chính trong khóa luận.
Chương 2: Các nghiên cứu liên quan Trình bày phần khảo sát các hướngnghiên cứu trên thế giới, hướng tiếp cận cho bài toán Đồng thời trình bay
phương pháp phát hiện đối tượng dựa trên học sâu tiên tiến
Chương 3: Xây dựng bộ dữ liệu phát hiện bất thường với ngữ cảnh đườngphố ở Việt Nam Trình bày về quy trình thu thập, gán nhãn dữ liệu, xây dựngcác quy tắc gán nhãn và phân tích bộ dữ liệu xây dựng được
Chương 4: Đề xuất phương pháp cải tiến, thực nghiệm và đánh giá kết quả
Trình bày quá trình cài đặt thực nghiệm, các thông số chỉ tiết, phương pháp đánhgiá và phân tích kết qua Trình bay các đề xuất cải tiến sau khi quan sát kết quả,đánh giá các kết quả đề xuất và so sánh với kết quả của các mô hình mặc định
trước đó.
Chương 5: Kết luận và hướng phát triển Tổng kết các kết quả quan trọng đãdat được trong đề tài và hướng phát triển của đề tài trong tương lai
Trang 26Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
Mục tiêu: Trinh bày cách tiếp cận đối với bài toán Phát hiện bat thường trongvideo giám sát Theo sự hiểu biết của chúng tôi, chúng tôi nhận thấy bài toán “Pháthiện bat thường trong video giám sát” thuộc lớp các bài toán về Anomaly Detection
và có thể sử dụng các phương pháp Phát hiện bất thường trong video dựa trên họcsâu để thực hiện
2.1 Phat hiện bất thường
Bên cạnh đó, không có bất cứ giới hạn nào cho các loại sự kiện bất thường,
nên việc thu thập được tất cả các loại bất thường dé đưa về dạng bài toán phát hiện
bat thường truyền thống là bat khả thi Vì vậy, bài toán này yêu cầu phải có những
hướng tiếp cận và cách xử lý khác với các kỹ thuật phân loại thông thường
Dữ liệu trong bài toán phân lớp Dữ liệu trong bài toán phát hiện bat thường
Hình 2-1: Phân biệt bài toán phát hiện bat thường với bài toán phân loại.
Trang 272.1.2 Phân loại
Hiện nay, có 2 hướng chính trong việc tiếp cận giải quyết bài toán này [4],
hướng tiếp cận học không giám sát (Unsupervised learning) và hướng tiếp cận học
giám sát yếu (Weakly supervised learning):
— Nhóm phương pháp học không giám sát (Unsupervised learning):
Trái ngược với sự đồi dào của sự kiện bình thường, tần suất xuất hiện sự kiệnbất thường rất thấp Vì vậy, trong các phương pháp học không giám sát, mô
hình được huấn luyện với chỉ những video frame bình thường Trong khi đó,
những frame bất thường được thu thập chỉ được sử dụng cho mục đích kiểm
tra Những phương pháp này tập trung vào việc học đặc trưng của của frame
bình thường và sử dụng hàm độ lỗi tái tạo hoặc dự đoán để xác định liệu một
frame có bình thường hay không Sau đó, chúng sẽ cố gắng tái tạo và dựđoán frame đang xét và sử dụng sự khác biệt giữa frame đầu ra và frame thực
tế dé tính điểm bat thường Bởi vì sự dồi dào của dit liệu bình thường, đã có
nhiều phương pháp học không giám sát cho bài toán dự đoán bat thường dựatrên đặc trưng truyền thông (handcrafted feature) và học sâu (deep learning)
— Nhóm phương pháp học giám sát yếu (Weakly supervised
learning): Đối với các phương pháp học giám sát yêu, bộ dữ liệu bất thườngthường được thu thập từ các nền tảng mạng xã hội như Facebook, Youtube
Sự đa dang và khối lượng dữ liệu không lồ của các nền tang này cung cấpmột lượng lớn các video bất thường Trong cách tiếp cận này, sự kiện bất
thường thường được định nghĩa một cách cụ thé và thu thập đa dạng ngữ
cảnh khác nhau từ nhiều nguồn Ngoài ra, mô hình được huấn luyện với cả
frame bình thường và một số lượng nhỏ frame bat thường Những phươngpháp trong tiếp cận này thường có 3 module chính: i) Sắp xếp dữ liệu huấnluyện dé tiền xử lý nhãn mức video; ii) Trích xuất đặc trưng của video frame;
và iii) Mang fully connected dé phân lớp frame đó có bat thường hay không
10
Trang 282.2 Các bộ dữ liệu hiện có cho bài toán phát hiện bat thường
Bài toán phát hiện bất thường đã thu hút sự chú ý trong cộng đồng thị giác
máy tính và học máy trong những năm gần đây Đến nay, đã có rất nhiều nghiên
cứu đề xuất bộ dữ liệu mới để phục vụ cho bài toán phát hiện bắt thường Trong các
bộ dữ liệu này, chúng ta có thé chia chúng thành 2 loại chính: bộ dữ liệu đơn cảnh
và bộ dữ liệu đa cảnh Thông tin chi tiết của các bộ dữ liệu này được trình bày trong
Bảng 2-1: Tóm tắt thông tin của các bộ dữ liệu khảo sát.
Trang 29Tổng » Sự kiện
Huan Kiem Loại bat So Độ phan
Bộ dữ liệu khung h bất h h Năm Kích
uyện thử thườn cản iải F
hình vs thường 5 6 thước
VNAnomaly
588,941 578,609 75,214 110 4 36 340x672 2021 50.4GB (our)
2.2.1 Bộ dữ liệu đơn cảnh
Bộ đữ liệu đơn cảnh thường chỉ chứa số ít cảnh (thường chỉ bé hơn 3 cảnh)
Trong quá khứ, bởi vì việc thu thập camera giám sát khá khó khăn, việc lấy được
những video giám sát dài quay bởi một camera giám sát duy nhất trở nên khá dễhiểu Vì thế, đã có rất nhiều bộ dữ liệu đơn cảnh được giới thiệu trong suốt thời gianqua Tuy nhiên, những bộ dữ liệu này không đủ tổng quát dé thỏa mãn các ứngdụng giám sát trong thực tế Một vài hình anh của các bộ dữ liệu đơn cảnh phô biến
được trình bày trong hình.
UCSD Ped 1 UCSD Ped 2 Subway Entrance CUHK Avenue
dữ liệu là 3,855 frames với mỗi frame có độ phân giải 240 x 320 Các sự kiện bat
thuong trong video gom các sự kiện tất cả mọi người đột ngột bỏ chạy Nhãn ở mức
12
Trang 30frame được cung cấp đi kèm với dataset Tuy nhiên, không có quy định rõ ràng về
việc chia frame huân luyện và frame kiêm thử.
Bộ dữ liệu Subway [9] được quay ở cổng vào và công ra của trạm xe tàu
điện ngầm và bao gồm 2 video tương ứng với 2 cảnh Video chứa cổng vào của tàu
điện dài 1 tiếng 36 phút trong khi video cổng ra dài 43 phút với độ phân giải 384 x
512 Hoạt động bất thường chủ yếu bao gồm cảnh mọi người nhảy ra và cé gangVượt qua rảo chắn mà không trả tiền vé hoặc đi ngược lại hướng chỉ dẫn
UCSD Pedestrian [10] bao gồm 2 tập con: UCSD Pedestrians 1 (Ped 1) vàUCSD Ped 2 (Ped 2) UCSD Ped 1 chứa 34 video huấn luyện va 36 video đánh giá
với 40 sự kiện bat thường Hầu hết các hoạt động bất thường trong bộ dt liệu này
bao gồm đi xe đạp, xe máy hoặc xe hơi vào trong đường dành cho người đi bộ Ped
2 bao gồm 16 video huấn luyện và 12 video đánh giá với 12 sự kiện bất thường.Định nghĩa bất thường trong Ped 2 cũng tương tự với định nghĩa trong Ped 1 Sự
khác biệt chính giữa 2 tập con là là góc quay, kích thước bộ dữ liệu và độ phân giải
cua frame (158 x 238 trong bộ Ped | so với 240 x 360 trong bộ Ped 2) Cả 2 tập con
đều chỉ chứa duy nhất một cảnh tương ứng với mỗi tập
Bộ dữ liệu CUHK Avenue [11] bao gồm 16 video huấn luyện và 21 video
đánh giá (độ phân giải 480 x 856 điểm ảnh) với tong cộng 47 hành động bat thường
gồm ném một vật thể, chạy, nhảy Bộ dữ liệu này chỉ quay một cảnh duy nhất, tuynhiên kích thước của người trong các frame này có thé thay déi bởi vì khoảng cách
và góc của camera.
2.2.2 Bộ dữ liệu đa cảnh
Trong những năm gan đây, sự phổ biến của camera giám sát và sự nôi lên
của các nền tang chia sẻ video đã cho phép sự tăng lên của bộ dir liệu bất thường.Một vài bộ đữ liệu thường được sử dụng trong các nghiên cứu hiện nay bao gồm bộ
dữ liệu ShanghaiTech [7] và bộ dữ liệu UCF-Crime [12] Một vai mẫu được biểu
diễn trong hình 5.
13
Trang 31Bộ dữ liệu ShanghaiTech Campus [7] chứa 330 video huấn luyện và 107
video đánh giá (độ phân giải 480 x 856 điểm ảnh) quay tại khuôn viên trong một
trường dai học Vi đây là bộ dữ liệu chủ yếu dành cho các bat thường liên quan đến
người, nó chứa 130 sự kiện bất thường quay trong 13 cảnh khác nhau với điều kiện
ánh sáng phức tạp và góc quay của camera Tuy nhiên, một vài sự kiện bất thường
trong bộ dữ liệu như đi xe đạp, đi ván trượt không liên quan đến các mục tiêu an
ninh nói chung.
ShanghaiTech
-ww
Bât thường Bình thường
£
Hình 2-3: Một vài mẫu biểu diễn của bộ dữ liệu da cảnh.
Bộ dữ liệu UCF-Crime [12] là một bộ dữ liệu phức tạp quy mô lớn kéo dài
128 giờ và video có độ phân giải trung bình 240 x 320 Tất cả video này đều được
quay từ camera CCTV (Closed-circuit television) Tập huấn luyện của bộ dữ liệunày có 800 video bình thường và 810 video bất thường, trong khi tập kiểm tra có
150 video bình thường 140 video bất thường Mặc dù có số lượng cảnh vô cùng đa
dạng và hầu hết các sự kiện bat thường đều liên quan yếu tố an ninh nói chung, bộ
dữ liệu này lại hướng tới dành cho một hướng tiếp cận học giám sát yếu — khác vớitiếp cận học không giám sát của đề tài
2.3 Các hướng tiếp cận hiện tại cho bài toán phát hiện bat thường
2.3.1 Hướng tiếp cận dựa trên đặc trưng handcrafted
Các phương pháp tiếp cận dựa trên đặc trưng truyền thống chủ yếu sử dụng
các phép toán tử, thuật toán để rút trích được những đặc trưng handcrafted — các đặc
14
Trang 32trưng dựa trên quan sát của con người dé từ đó đưa vào một module phân biệt batthường Các phương pháp này bao gồm 2 bước chính: (1) trích xuất đặc trưng: (2)
sử dụng mô hình để học phân phối của sự kiện bình thường và mã hóa khuôn mẫubình thường, từ đó xác định các cụm mau hay điểm đữ liệu tách biệt với phân phối
bình thường là các hoạt động bat thường
2.3.2 Mô-đun trích xuất đặc trưng truyền thống
Mô-đun trích xuất đặc trưng truyền thống thường bao gồm các toán tử vàthuật toán cụ thé dé lọc các đặc trưng truyền thống Các đặc trưng này bao gồm các
đặc trưng cục bộ (local features), đặc trưng toàn cục (global features), đặc trưng
chuyển động (motion features), đặc trưng không gian-thời gian (spatialtemporalfeatures), đặc trưng ngoại hình (appearance features), tư thế người (human pose),
thông tin hình anh (visual information), thông tin ngữ cảnh (context information):
SIFT, SURF, MBH [13], HOG [14], Color Histogram, Dense trajectory [15],
Couboid, Onset, Actionlet, Poselet 2 đặc trưng handcrafted phô biến nhất là HOG
[14] và SIFT [16] được mô tả trong Hình 2-4 HOG tập trung vào các thông tin
ngoại hình tĩnh, trong khi HOF [13] bắt những đặc trưng chuyên động cục bộ MBH
tính toán optical flow theo chiều ngang, chiều đọc và loại bỏ các thông tin về hình
dang ra khỏi bối cảnh tĩnh Tuy nhiên, điểm yếu của hầu hết các phương pháp tríchxuất này không hiệu quả đối với những ngữ cảnh có nhiều loại đối tượng hoặc đám
đông với nhiều sự che khuất (occlusion) và bóng che (shadow) Bên cạnh đó, chúngkhông thê bắt được ngữ nghĩa trong cảnh và thường tách những đối tượng di chuyênrời rạc nhau, nên không thể bắt được những tương tác giữa các đối tượng với nhau
2.3.2.1 Mô-đun phân loại truyền thống
Trong bài toán phát hiện bất thường, các mô hình phân loại truyền thốngthường dựa vào khoảng cách hoặc tần suất các giá trị của các đặc trưng của điểm dữliệu dé từ đó học được phân phối bình thường Một vai mô hình truyền thống được
sử dụng phổ biến trong các nghiên cứu về bài phát hiện bat thường bao gồm:
Support Vector Machine (SVM) [17], [18], [19], mô hình mixture Gaussian hoặc
15
Trang 33Markov Random Field (MRF) [20] Hầu hết các phương pháp khảo sát sử dụng các
mô-đun này thường sử dụng các đặc trưng về chuyên động Tuy nhiên, chúng sẽ rất
dé bị ảnh hưởng bởi các chuyên động nhiễu (camera bị rung) Thêm vào đó, một vaiphương pháp còn phụ thuộc vào việc theo dõi (track) chuyên động của các đối
tượng khác nhau, nên độ chính xác sẽ bị giảm mạnh trong hoàn cảnh phức tạp Một
số cũng khá tốn thời gian với độ phức tạp tính toán cao và khó đáp ứng được nhucầu phát hiện thời gian thực trong thực tế
Hình 2-4: Mô tả đặc trưng handcrafted HOG va SIFT.
2.3.3 Hướng tiếp cận dựa trên học sâu
Trong những năm gan đây, các kĩ thuật deep learning đang phát triển vô cùngmạnh mẽ và đạt được những bước tiến lớn trong việc giải quyết bài toán phát hiệnbất thường Nhờ vào sự phát triển và phổ biến của camera giám sát, một lượng lớn
dữ liệu video cho phép tiếp cận bài toán theo nhiều hướng khác nhau Khác với cácphương pháp trích xuất đặc trưng của các phương pháp học giám sát thông thường,
do sự thiếu hụt về dữ liệu bất thường, các phương pháp dựa trên mạng học sâu trong
hướng học không giám sát có sử dụng các mạng tái tao, mang sinh dé trích xuất đặc
trưng Bên cạnh đó, các phương pháp giám sát yếu sử dụng kết hợp các phươngpháp không giám sát kết hợp với các mô hình trích xuất đặc trưng dành cho video
đã được train sẵn như C3D [21], I3D [22] Vì phạm vi của dé tài này tập trung vào
16
Trang 34hướng tiếp cận học không giám sát, vì thé chúng tôi sẽ tập trung vào các cách dé
học và trích xuất đặc trưng của các phương pháp theo hướng này
2.3.3.1 Autoencoder
Theo [23], autoencoder là một mang neural network được huấn luyện dé sao
chép đầu vào vào đầu ra Trong đó, sẽ có một lớp ân h là một code (đặc trưng) sử
dụng để biểu diễn cho đầu vào Mạng autoencoder có thé được xem 1a gồm 2 phần:
hàm encoder dùng để h = f(x) và hàm decoder dùng để tái tạo lại r = g(h) Trong
mô hình Autoencoder sử dụng học sâu đầu tiên (DAE), 2 thành phần này bao gồmcác lớp fully connected layers Kiến trúc cơ bản của autoencoder được mô tả trong
Hình 2-5: Kiến trúc cơ bản của mạng Autoencoder [23].
Nếu một hàm autoencoder thành công trong việc học cách sao chép đúng
chính xác g(f(x)) = x với tat cả các trường hợp, hàm nay sẽ không thật sự hiệu quả.Thay vào đó, autoencoder thường được thiết kế để không thể sao chép một cách
hoàn hảo Mà chúng thường bị giới hạn theo cách mà chỉ cho phép chúng sao chép
một cách tương đối và chỉ sao chép được đầu vào mà giống với những gì chúng
được học trong tập huấn luyện Thông thường, một trong những cách phô biến nhất
dé giới han là rút giảm sô chiêu của đặc trưng nhỏ hon sô chiêu của dau vào Bởi vi
17
Trang 35những mô hình này bị bắt phải học cách ưu tiên những thành phần trong đầu vào
nào nên được sao chép, chúng thường học được những đặc trưng có ích của bộ dữ liệu.
Ý tưởng của autoencoder đã trở thành một phần nền tảng của lịch sử mạng
neural trong nhiều thập kỉ qua [24], [25], [26] Ban đầu, autoencoder được sử dụng
dé giảm chiều dữ liệu (dimension reduction) hoặc học đặc trưng (feature learning).Nhung trong những năm gần đây, mối liên hệ giữa autoencoder và mô hình biến ân(latent variables) đã giúp autoencoder trở thành một phần quan trọng trong các
mạng sinh (generative modelling) Nhờ mối liên hệ này, nhiều phương pháp cho bài
toán phát hiện bất thường theo hướng không giám sát đã sử dụng autoencoder để
học và trích xuất đặc trưng của các sự kiện bình thường
Tuy nhiên, khi áp dụng vào đữ liệu nhiều chiều như ảnh, mô hình
Autoencoder truyền thống dựa trên các lớp Fully-connected sẽ gặp phải 3 van đềchính: 1) Mỗi node trong một lớp sẽ kết nói với tất cả các node của lớp trước đó vàlớp sau đó Khiến cho các đặc trưng học được từ mạng đều là các đặc trưng toàncục, trong khi đó, trong ảnh đa số thông tin được biểu hiện ở dạng đặc trưng cục bộnên khi sử dụng mô hình này sẽ làm mất đi một lượng lớn thông tin của ảnh 2) Déđưa vào mạng Fully-connected Autoencoder, dữ liệu có nhiều chiều như ảnh phải
được đưa về dang dt liệu 1 chiéu Viéc nay sé khiến cho các đặc trưng về cấu trúc
trong không gian 2 chiều bị mat đi 3) Dé xử ly được ảnh có kích thước vừa và lớn(256 x 256) mô hình sẽ phải giảm kích thước ảnh vì nếu không số lượng node vàtham số học được sẽ cực kì lớn Gây ra sự dư thừa về đặc trưng và có thể dẫn đến
hiện tượng overfitting.
2.3.3.2 Convolutional Autoencoder
Được dé xuất vào năm 2011 [27], Convolutional Autoencoder (CAE) thaythé các mang Fully connected layer bang cach sử dung hai phép toán Convolutional
(tich chap) va Deconvolutional (phan tich chap) cho mang encoder Tuy nhién,
module encoder của các thành phan này tận dung những lợi thé cua Convolutional
18
Trang 36layer trong việc giảm số lượng tham số và học các đặc trưng cục bộ, mô hình này đã
cho thấy sự hiệu quả so với kiến trúc Autoencoder truyền thống trong việc xử lý
ảnh Nghiên cứu này đã tiên phong trong việc áp dụng mạng tích chập (convolution)
va phản tích chập (deconvolution) vào trong mô hình của autoencoder.
a) Convolutional layers - Encoder
Mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) [2§] (hình
2-6) là một trong những phương pháp được áp dụng nhiều nhất trong lĩnh vực CV
để giải quyết các bài toán như nhận dạng ảnh, phân loại đối tượng, phát hiện đối
tượng, nhận diện khuôn mặt, v.v Ưu điểm lớn nhất của phép toán này so với các
mạng neural network thông thường nằm ở khả năng bắt được các đặc trưng cục bộ
và khả năng chia sẻ tham số giữa các vùng khác nhau trong ảnh giúp giảm số lượng
tham số Về chỉ tiết của thuật toán, CNN được xây dựng từ ba ý tưởng chính: vùngnhận thức cục bộ (local receptive fields), chia sẻ trọng số (shared weights) và tổng
Hình 2-6: Kiến trúc của mang CAE [28].
e© Local receptive fields: Ý tưởng của vùng nhận thức cục bộ là nó sẽ tiếp nhận
kiến thức tại từng vùng nhỏ trước thay vì tiếp nhận tiếp thức bộ từ nơ ron banđầu Gia sử chúng ta có đầu vào là một bức ảnh được mã hóa thành một mảnghai chiều có kích thước 28 x 28 Thay vì phải liên kết tất cả các thành phần trong
kích thước 28 x 28 với tat cả các thành phan thuộc lớp ân tiếp theo khiến cho chi
phí cho quá trình tính toán rất là lớn Thay vào đó, CNN sẽ tiến hành liên kết
19
Trang 37trong một vùng nhỏ (kích thước của vùng nhỏ được trích xuất theo kích thước
của bộ lọc) Mỗi nơ ron trong lớp ân đầu tiên sẽ liên kết với một vùng nhỏ các
no ron ở trong lớp đầu vào Việc này sẽ giúp tiết kiệm chi phi và giảm kích
thước cho lớp ẩn tiếp theo
e Share weights: sau khi tiếp cận bang cách sử dụng liên kết trên một vùng nhỏ,
các mạng tích chập sẽ điều chỉnh, chia sẻ các trọng số với nhau dé phù hợp vớitính bất biến của hình ảnh
e Pooling: Sau tang khi thuc hién tich chap, mang sé thuc hién tong hop lai cac
đặc trưng và giữ lai các thông tin quan trọng từ dữ liệu đầu vào ở tầng pooling
Từ ba ý tưởng chính trên, một mô hình CNN sẽ có kiến trúc gồm các tầng
như sau: tầng tích chập (Convolution) kết hợp với tang tổng hợp (Pooling) dùng dé
trích xuất đặc trưng và tang liên kết đầy đủ (Fully-connected) dùng dé phân lớp đối
tượng.
input neurons
200005 sooo————=
bai Soogd
ooooo hi
Hình 2-7: Ý tưởng Local receptive fields trong mô hình CNN.[10]
Tầng tích chập (Convolution): Mục đích của tầng này là trích xuất đặc trưng
tương ứng với đầu vào Từ ý tưởng Local receptive fields, mô hình sẽ tiến hành
chọn 1 bộ loc (filter) hay còn gọi là kernel dé tìm và trích xuất những thông tin quan
trọng từ dữ liệu đầu vào bằng cách sử dụng cơ chế trượt khi cho bộ lọc này trượttrên toàn bộ hình ảnh đầu vào, đồng thời giảm số chiều cho các lớp ấn tiếp theo
Các giá trị đầu ra cho vùng lọc sẽ được cho qua hàm kích hoạt (ActivationFunction) đề thực hiện tính toán Hàm kích hoạt thường là một hàm phi tuyến được
triển khai với nhiệm vụ xác định những thông tin có thé giúp ích cho quá trình lan
20
Trang 38truyền ngược, thông qua việc cho qua hàm kích hoạt mạng sẽ giới hạn lại được
lượng thông tin được phép lan truyền trong toàn bộ quá trình huấn luyện Một số
hàm kích hoạt nổi tiếng thường dùng có thé ké đến như ReLU, Tanh, Sigmoid
Hiện nay, hàm ReLU được sử dụng nhiều hơn các hàm còn lại
Tầng tổng hợp (pooling): Sau tang tích chập, tang tổng hợp thực hiện tríchchọn đặc trưng va giảm số chiều cho đữ liệu đầu vào Khi giảm số chiều, mô hình
giảm số lượng tham só, rút ngắn được thời gian huấn luyện va hạn chế overfitting
trong quá trình huấn luyện Cũng như tầng tích chập, tang tổng hợp sử dụng bộ lọctrượt qua dữ liệu đầu vào để trích xuất đặc trưng cần thiết, nhưng các bộ lọc ở đây
sẽ không chứa tham sé, vì vậy tang tong hợp là tang không có chưa tham số trong
quá trình tính toán Các phương pháp phổ biến được sử dụng ở tầng tổng hợp là
MaxPooling và AveragePooling Trong đó MaxPooling chỉ lấy giá trị lớn nhất trong
vùng của bộ lọc di qua còn AveragePooling sẽ tính toán gia tri trung bình của trong vùng bộ lọc đi qua.
b) Deconvolutional layers - Encoder
Tang phản tích chập (Deconvolutional layers): được dé xuất bởi Zeiler và các
cộng sự vao năm 2011 [29], lớp ngược tính chập hay còn gọi là lớp tích chập
chuyển vị (Transpose convolution) đã trở thành một trong những phép toán tăngkích thước (upscale) ảnh phổ biến nhất trong các mô hình máy học
Transposed Convolution
ot
1 Catcutate parameters 2 Insert x zeros between 3 Add p’ number of zeros
Input Kernel 2, and pt the rows and columns around the image
Hình 2-8: Hình ảnh trực quan hóa các bước thực hiện của phép tính tích chập chuyển vị.
Về cơ bản, phép tính này đơn giản là sự kết hợp của phương pháp xử lý
padding (đệm), và phép tích chập Tuy nhiên do trong phương pháp xử lý trong quá
trình padding khác với cách trước đó (thay vì chỉ bao quanh ảnh băng các hằng số
21
Trang 39thì thêm các giá trị này vào giữa các pixel) và đầu ra là một bức ảnh kích thước lớn
hơn bức ảnh đầu vào nên mới được gọi là phản tích chập (Deconvolution) Những
năm gần đây, có nhiều ý kiến cho rằng phương pháp này không nên được gọi là
phản tích chập (vì phản tích chập phải là một phương pháp có thể đảo ngược kết
quả của lớp tích chập) Mặc dù vậy do sự phô biến của các bài báo có từ thời xưa
nên tên gọi này hiện nay vẫn khá phổ biến
2.3.4 Hướng tiếp cận học không giám sát
Do các sự kiện bất thường xuất hiện tất ít trong thực tế, cùng với đó định
nghĩa bất thường vô cùng đa dạng và phụ thuộc vào ngữ cảnh, việc thu thập các sự
kiện này dé học có giám sát là vô cùng khó khăn Vì vậy, một trong những cách tiếpcận phổ biến nhất hiện nay trong bài toán phát hiện bat thường là hướng tiếp cậnhọc không giám sát Trong hướng tiếp cận này, mô hình tập trung vào việc học cácpattern bình thường về ngoại hình và chuyển động từ các video trong tập huấn
Video bình thường cho huấn luyện
2 Giai đoạn dự báo
Hình 2-9: Quá trình phát hiện đối tượng cơ bản của phương pháp học không giám sát.
Hiện nay, có 2 nhóm phương pháp học không giảm sát để giải quyết bài toán
phát hiện bất thường: Nhóm phương pháp tái tạo đặc trưng và nhóm phương pháp
dự đoán frame mới Trong những năm gần đây, nhóm phương pháp dự đoán framemới đã cho thấy sự hiệu quả so với phương pháp tái tạo đặc trưng trên video, vậy
22
Trang 40nên trong nghiên cứu nảy, chúng tôi sẽ tập trung và nhóm phương pháp tái tạo đặc
trưng.
2.3.4.1 Độ đo xác định bat thường
Đề xác định được khung ảnh frame ảnh có bất thường hay không, hầu hết các
phương pháp học không giám sát dựa trên sự so sánh giữa kết quả trả về của môhình và kết quả thực tế Trong phương pháp dự đoán frame mới, kết quả trả vềthường là anh Độ giống nhau của 2 kết quả này được thé hiện bằng độ đo PSNR(peak signal-to-noise ratio) từ đó tính được điểm bất thường (Abnormality score)
Điểm PSNR được tinh bằng công thức:
max(Í,)
P,(1,, fe) = 1010810 SEC, he)
tr*t
(1)
Với P, là điểm PSNR, I, là tập hợp giá trị điểm anh của khung anh thực tế, Ï,
là tập hợp giá trị điểm ảnh của khung ảnh dự đoán và MSE ký hiệu cho Mean
square error tính dựa trên khoảng cách Euclid của 2 ảnh.
N WN
E 1 †
MSE(1„Í.) ===) ) We — f,0,0l 2)
i=0 j=0
Với N kí hiệu cho số lượng dòng, M kí hiệu cho sỐ lượng cột trong frame va
ij kí hiệu cho dòng i, cột J vì vậy It(i,j) kí hiệu cho giá tri pixel ở vi trí dòng i, cột j.
Từ PSNR có thé tính được điểm bất thường (Abnormality score) là chuẩnhóa (min-max normalization) của điểm PSNR trên từng video Được tinh bằng công