Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện bất thường trong video giám sát sử dụng Deep Learning

CNN cv ConvLSTMCUDA DAE DL FCN FPS FFP GAN HOG LSTM MLEP MNAD PSNR ROC ROC - AUC SIFT SOTA Ý nghĩa Bài toán phát hiện bat thường — Anomaly Detection Bộ tự mã hóa — AutoEncoder Trí tuệ nh

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

VŨ NGỌC TÚ

ĐINH THANH TOÀN

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN BÁT THƯỜNG TRONG VIDEO GIÁM SÁT TẠI ĐƯỜNG

PHÓ VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

DETECTING ANOMALOUS EVENT IN SURVEILLANCE VIDEOS

ON VIETNAMESE STREET USING DEEP LEARNING

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

VŨ NGỌC TÚ

ĐINH THANH TOÀN

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN BAT THƯỜNG TRONG VIDEO GIÁM SÁT TẠI DUONG

PHÓ VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

DETECTING ANOMALOUS EVENT IN SURVEILLANCE VIDEOS

ON VIETNAMESE STREET USING DEEP LEARNING

GIANG VIÊN HƯỚNG DAN

TS NGUYEN TAN TRAN MINH KHANG

THS VO DUY NGUYEN

TP HO CHÍ MINH 2021

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

gầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Dé hoàn thành được khóa luận này, lời đầu tiên, chúng tôi xin chân thành cảm ơn sâu sắc đến thầy TS Nguyễn Tan Trần Minh Khang - giảng viên hướng dẫn của tôi trong khóa luận Thầy đã luôn quan tâm, lo lắng, nhắc nhở cũng như

hỗ trợ tôi trong suốt quá trình thực hiện khóa luận Thầy cũng là người đã truyền cảm hứng giúp tôi định hướng trong con đường học tập và nghiên cứu khoa học Đồng thời, tôi cũng xin gửi lời cảm ơn đến thầy ThS Võ Duy Nguyên

và thầy ThS Trần Minh Tùng đã luôn giúp đỡ, hướng dẫn tận tinh, sửa chữa và đóng góp nhiều ý kiến quý báu giúp tôi hoàn thành thật tốt báo cáo khóa luận.

Chúng tôi cũng xin chân thành cảm ơn tập thé Quý Thay/ Cô Trường Đại học Công nghệ Thông tin nói chung và đặc biệt Quý Thay/ Cô khoa Công nghệ Phần mềm, Phòng Thí nghiệm Truyền thông Da phương tiện MMLab nói riêng

đã truyền đạt kiến thức, hỗ trợ chúng tôi trong suốt quá trình học tập tại trường Bên cạnh đó, chúng tôi xin gửi lời cảm ơn chân thành đến các em, các bạn, các anh chị trong nhóm nghiên cứu đã luôn đồng hành, giúp đỡ và động viên chúng tôi trong suốt quá trình tôi thực hiện khóa luận này Cuối cùng, chúng tôi xin

gửi lời cảm ơn chân thành nhất đến bố mẹ và những người trong thân trong gia đình — những người đã luôn động viên, giúp đỡ, tạo điều kiện và là niềm cảm

hứng của chúng tôi trong từng chặng đường.

Trong quá trình thực hiện khóa luận, dù có hoàn chỉnh đến đâu thì giới

hạn kiến thức sẽ không tránh khỏi những sai sót, hạn chế trong đề tài Chúng tôi mong nhận được sự góp ý của Quý Thay/ Cô và các bạn dé được hoàn thiện

hơn.

Một lần nữa, chúng tôi xin chân thành cảm ơn!

Sinh viên thực hiện

Vii Ngọc Tú Dinh Thanh Toàn

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC ' Độc lập - Tự do - Hạnh phúc CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TEN DE TÀI: PHÁT HIỆN BAT THƯỜNG TRONG VIDEO GIAM SÁT TẠI DUONG PHO VIỆT NAM SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

TÊN DE TÀI TIENG ANH: DETECTING ANOMALOUS EVENT IN

SURVEILLANCE VIDEOS ON VIETNAMESE STREET USING DEEP LEARNING

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Nguyễn Tấn Trần Minh Khang, Ths Võ Duy Nguyên

Thời gian thực hiện: Từ tháng 09/2021 đến tháng 12/2021.

Sinh viên thực hiện:

Vii Ngọc Tú - 18520184 Lớp: Khoa học máy tính 2018

Email: 18520184@gm.uit.edu.vn Điện thoại: 0962168877

Dinh Thanh Toàn — 18521504 Lớp: Khoa học may tính 2018

Email: 18521504@gm.uit.edu.vn Điện thoại: 0931631916

Lý do lựa chọn lĩnh vực nghiên cứu và mục tiêu:

1 Động lực nghiên cứu:

Ở Việt Nam, việc xây dựng thành phố thông minh (smart city) trong thời đại công nghệ 4.0 đang được tiến hành tại nhiều tinh/ thành phố với nhiều hệ

thống giám sát thông minh được nghiên cứu và áp dụng trong nhiều lĩnh vực:

giao thông — vận tải, môi trường, an ninh — quốc phong, Trên cơ sở khai thác

kho đữ liệu ảnh và video nhằm cung cấp thông tin, dịch vụ, tiện ích tốt hơn

phục vụ cuộc sống con người theo thời gian thực, phân tích, tạo ra và tích hợp

các tính năng thông minh vào môi trường sóng hằng ngày Trong đó, phân tích,

phát hiện các hoạt động bất thường của con người là một trong những bài toán

Trang 6

rât thách thức do sự thay đôi lớn vê chuyên động và ngoại hình của con người,

góc chụp/ quay của camera/ máy ảnh và nhiều van dé khác liên quan đến thiết

lập môi trường thông minh.

Với số lượng người ngày càng gia tăng tại các thành phố lớn, các hoạt

động của con người diễn ra ở nhiều nơi gồm cả trong nhà và các nơi công cộng

đã đặt ra những bài toán rat nan giải, ví dụ: phát hiện và nhận dạng hoạt động/

sự kiện bình thường/ bất thường của nhóm người, sự tương tác giữa người và đối tượng liên quan, để đưa ra các cảnh báo phục vụ công tác quản lý, điều hành và giám sát của các cơ quan, tổ chức và doanh nghiệp Trong khi đó, nhân lực còn thiếu, đặt ra nhu cầu cần phải một công cụ tự động phát hiện những hoạt động bat thường của con người trong video giám sát như: âu đả, trộm cắp, cướp giật dé giảm chi phí nhân công và tiết kiệm thời gian xử lý.

2 Mục tiêu đề tài:

Xây dựng, thiết kế một mô hình phát hiện bất thường trong camera giám

sát Nền tảng của hệ thống này là một hệ thống mô hình học sâu dựa trên mạng

học sâu sử dụng trong video giám sát Đồng thời khảo sát các bộ dữ liệu phô

biến trong phát hiện bat thường bằng mô hình thực nghiệm, xây dựng một bộ dữ liệu về sự kiện bất thường tại Việt Nam.

3 Nội dung đề tài:

— Tìm hiêu tông quan về các kỹ thuật học sâu và trích xuất đặc trưng hành động

người trong video cho bai toán phát hiện bất thường.

— Thu thập video về sự kiện bat thường diễn ra ở Việt Nam.

— Đề xuất phương pháp tiếp cận, bổ sung các phương pháp tiền xử lý dé nâng

cao hiệu quả của mô hình.

— Thyc nghiệm và hiệu chỉnh mô hình đề xuất.

— Xây dựng một chương trình minh họa phát hiện bất thường trong đám đông

sử dụng phương pháp học sâu.

— Viết báo cáo tổng hợp.

Trang 7

4 Đối tượng nghiên cứu:

— Trong dé tài này, chúng tôi nghiên cứu bài toán phát hiện bat thường va các mô hình, bộ dé liệu để giải quyết bài toán.

— Đối tượng nghiên cứu: các kỹ thuật rút trích đặc trưng, các mô hình

phát hiện bat thường, bộ dữ liệu phát hiện bat thường.

5 Phạm vỉ nghiên cứu:

Vì phạm vi bất thường là rất rộng, vì thế nhóm nghiên cứu giới hạn phạm

vi bat thường của bài toán xuống thành 3 sự kiện bat thường thường thấy trong

đời sống bao gồm: đánh nhau, hành hung, cướp giật.

6 Phương pháp thực hiện:

— Tìm hiểu tổng quan về các kỹ thuật học sâu và bài toán phát hiện bất

thường và tìm thông tin dựa trên các nghiên cứu có sẵn.

— Thu thập video về sự kiện bất thường diễn ra ở Việt Nam.

— Nghiên cứu các mô hình trích xuất đặc trưng hành động của người

trong video.

— Xác định các vấn đề trong việc xác định bất thường của sự kiện trong

video, ví dụ như độ phân giải của video, sự tương tác giữa người và người, người và vật.

— Nghiên cứu các mô hình phát hiện bất thường dé giải quyết các van đề

trên.

— Dé xuất các thay đổi mô hình, bổ sung các phương pháp tiền xử lý để

nâng cao hiệu quả của mô hình.

— Xây dựng một chương trình minh họa phát hiện bất thường trong đám

đông sử dụng phương pháp học sâu.

— Tổng hợp kết quả và viết báo cáo khóa luận.

7 Kết quả dự kiến:

— Xây dựng bộ dữ liệu về sự kiện bất thường tại Việt Nam.

Trang 8

— Dé xuất các cải tiến, bổ sung dé tăng hiệu quả của một mô hình phát

hiện bat thường hiện nay.

— Ứng dụng demo phát hiện sự kiện bất thường sử dụng phương pháp học

sâu.

— 01 bài báo tại Hội nghị quốc gia REV-ECIT năm 2021.

— 01 bảo báo tại Hội nghị NICS năm 2021.

— Báo cáo tổng hợp.

Kế hoạch thực hiện:

STT Công việc Phân công

1 Tìm hiểu tổng quan về các kỹ thuật học sâu và bài toán |_ Tú & Toàn

phát hiện bât thường và tìm thông tin dựa trên các nghiên

cứu có sẵn.

2 Tìm kiếm, thu thập video sự kiện bất thường tại Việt| Tú & Toàn

Nam.

3 Chọn lựa mô hình trích xuất, tiền xử lý video Tú & Toàn

4 Xây dựng mô hình trích xuất video Tú & Toàn

5 Xây dựng bộ dữ liệu phục vụ cho việc phát hiện bất | Ta & Toàn

thường.

6 Khảo sát các mô hình phát hiện bất thường, chọn một mô | Tú & Toàn

hình đề xây dựng.

7 Xây dựng mô hình phát hiện bất thường Tú & Toàn

§ Đánh giá và cải thiện mô hình Tú & Toàn

9 Phát triển ứng dung demo phát hiện sự kiện bất thường Tú & Toàn

10 Tổng hợp kết quả và viết khóa luận Tú & Toàn

ll Viết báo cáo tổng hợp Tú & Toàn

Trang 9

Võ Duy Nguyên

Trang 10

MỤC LỤC

Chương 1 TONG QUAN DE TÀI

1.1 Định nghĩa -.ecccccerrrrrrrrrrrtrrrrrtrrrrrtrrrrrtrrrrrtrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrir 1.2 Động lực nghiên cứu

1.3 Phát biểu bài toán e-ceeerererrrrrrrrrrrrrrrirrrrrrtrrrrrirrrre

2.44 Giới thê TR Aer ete teem vssssccccenesseotforoorsesesenzfeseeccerenseonsssoorsenessnsssnasorerensees 2.12 Phanloaift Pare EL,

2.2 Các bộ dữ liệu hiện có cho bai toán phat hiện bat thường

2.2.1 Bộ dữ liệu đơn cảnh -cccsscrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr

2.2.2 Bộ dữ liệu đa cảnh -cccsireetririrrriirriierrree

2.3 Các hướng tiếp cận hiện tại cho bài toán phát hiện bất thường

2.3.1 Hướng tiếp cận dựa trên đặc trưng handcrafted

2.3.2 Mô-đun trích xuất đặc trưng truyền thống

2.3.3 Hướng tiếp cận dựa trên học sâu -.ceeerreerrrree

2.3.4 Hướng tiếp cận học không giám sát ce.ceeree

(i) Future Frame Prediction (FFP) ee.eeeeereeererrrrrririiiiririiiririririirrie (ii) Generator

(iii) Discrimimator sssssssssssssssesssssesesssesesssesssssesssssesssssssssssessessessessssseeseessseceeesceseeseeeeseeeseeses

10

11

12

13 14 14

15

16

22

26

Trang 11

(i) Tổng quan kiến trúc.

(c) Margin Learning Embedded Prediction (MLEP) 3 1

2.3.5 Hướng tiếp cận giám sát yéu

Chương 3 XÂY DUNG BO DU LIEU CHO BAT THƯỜNG TAI DUONG PHO

Trang 12

4.4, Kết quả thực nghiệm và đánh giá -.-eeeseseeeseee B

5.1.1 Đề xuất hàm độ lỗi cho phương pháp Future Frame Prediction 53

5.1.2 Phương pháp phát hiện bất thường cơ sở của phương pháp

5.1.3 Dé xuất chỉnh sửa phương pháp phát hiện bất thường 56

5.2 Đánh giá kết quả dé xuất - <.seeereeeererrsrerreresrereeseoev DO

5.2.1 Kết quả đề xuất e-eerrriiiiiirroe DO

5.2.2 Trực quan kết quả e-eeeeeesrrietrrrirerrririrrieerrrie.D Ở

5.2.3 Đánh giá kết quả -ecceeseeeerrrrrrrirrrrrrrrrrerrrov DO)

Chương 6 CHƯƠNG TRINH MINH HỌA -¿222222cc22vvvzsrrrvvcee 61

6.1 Xây dựng ứng dung demo cho bài toán Phát hiện bat thường 6 1

Trang 13

7A Hướng phát triển eo OD

TÀI LIỆU THAM KHẢO.

PHU LUC A — BÀI BÁO ¿- 2+2 121112111211121111 T1 11 tán nên 72

Trang 14

DANH MỤC HÌNH

Hình 1-1: Bài toán phát hiện bắt thường trong camera Với đầu vào là video giám

sát Còn dau ra là nhãn bắt thường tương ứng với từng khung hin

Hình 1-2: Một số ví dụ minh họa về tinh da dạng của ngữ cảnh trong camera giám

sát

Hình 2-1: Phân biệt bài toán phát hiện bat thường với bài toán phân loại Hình 2-2: Một vài mẫu bao gồm khung hình bình thường và bat thường trong bộ dữ liệu một khung cảnh Hình 2-3: Một vài mẫu biểu diễn của bộ dữ liệu đa cảnh

Hình 2-4: Mô tả đặc trưng handerafied HOG và SIFT .

Hình 2-5: Kiến trúc cơ bản của mạng Autoencoder Hình 2-6: Kiến trúc của mang CAE

Hình 2-7: Ý tưởng Local receptive fields trong mô hình CNN.[10J

Hình 2-8: Hình ảnh trực quan hóa các bước thực hiện của phép tính tích chập chuyến vi

Sát .

Hình 2-10: Mô hình hóa phương pháp tdi tạo frame .

Hình 2-11: Kiến trúc của phương pháp Conv LSTM-AE [31] Hình 2-12: Quá trình phát hiện bắt thường cua FFP [7] Hinh 2-13: Qua trinh hudn luyện của FFP [7]

Hình 2-14: Kiến trúc của mạng Unet được sử dụng trong phương pháp Future Frame Prediction

Hình 2-15: Kiến trúc của phương pháp MNAD [6]

Hình 2-16: Kiến trúc của phương pháp MLEP

Hình 2-17: Tổng quan quá trình xử ly của hướng tiếp cận giám sát yếu [12] 32

Hình 3-1: Một vài mẫu trong bộ dữ liệu VNAnomah Hình 3-2: Mô tả quy trình thu thập gan nhãn bộ dữ liệu VNAnomaly

Hình 4-1: Mô tả phân bố của frame trong tập dữ liệu

Trang 15

Hình 4-2: Luéng xử lý quá trình cài đặt, chạy thực nghiệm với mô hình MNAD.\ 46 Hình 4-3: Ví dụ trực quan của đường ROC và điển ROC-AUC

Hình 4-4: Bảng confusion matrix kết hợp với phương pháp tính các độ do wu.

Hình 4-5: Biểu do kết quả với AUCH am

Hình 4-6: Biểu đô kết quả với AUC=0.7

Hình 4-7: Biểu đ kết qua với AUC=0.

Hình 4-8: Biểu đồ kết qua với AUC=0

Hình 4-9: Trực quan hóa kết quá của mô hình

Hình 5-1: Trực quan hóa dé xuất bồ sung vào hàm độ lỗi của Future Frame

Prediction

Hình 5-2: Trực quan hóa điêm bat thường trong video

Hình 5-3: Trực quan hóa thuật toán phát hiện bat thường điều chỉnh

Hình 5-4: Trực quan hóa điểm của thuật toán phát hiện bắt thường so với các

phương pháp cơ sở.

Hình 5-5: Trực quan hóa diém của thuật toán phat hiện bat thường

các phương pháp cơ sở

Hình 6-1: Giao điện khởi tạo của chương trình minh họa .

Hình 6-2: Kết quả trả về của chương trình

Trang 16

DANH MỤC BẢNG

Bang 2-1: Tóm tắt thông tin của các bộ dữ liệu khảo sát

Bảng 3-1: Mô tả ý nghĩa giá trị các thuộc tinh trong file annotations định dạng

VNAnomaly ( txt)

Bang 3-2: Mô tả ý nghĩa giá trị các thuộc tinh trong khôi “categories” (json) 40

Bang 3-3: Mô tả ý nghĩa giá trị các thuộc tính trong khối “annotations” (json) 41 Bảng 4-1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp phát hiện đối tượng hiện có Kết quả tốt nhất được in đậm

Bang 5-1: Bang kết quả thực nghiệm với thông số mặc định trên hàm độ

Bảng 5-4: Bảng kết quả thực nghiệm trên từng video với thông só mặc định trên các

phương pháp phát hiện bắt thường hiện có (3⁄4)

Trang 17

CNN cv ConvLSTM

CUDA DAE DL

FCN

FPS FFP

GAN

HOG

LSTM MLEP

MNAD

PSNR ROC ROC - AUC SIFT SOTA

Ý nghĩa Bài toán phát hiện bat thường — Anomaly Detection

Bộ tự mã hóa — AutoEncoder Trí tuệ nhân tạo — Artificial Intelligence

Mô hình mạng nơ ron nhân tạo —

Artificial Neural Network/Neural Network Convolutional AutoEncoder

Mô hình mang tích chập — Convolution Neural Network

Xử lý ảnh — Computer Vision

Mô hình mạng bộ nhớ dài ngắn hạn tích chập — Convolutional

Long Short Term Memory Compute Unified Device Architecture

Bộ tự mã hóa học sâu — Deep AutoEncoder Học sâu — Deep Learning

Tầng nói kín - Fully-connected layer

Độ đo về tốc độ xử lý 1 khung hình trên 1 giây —

Frame per second Future Frame Prediction

Mang đói nghịch tạo sinh = Generative Adversarial Networks

Histogram of oriented gradients Long-Short Term Memory

Mô hình phát hiện bat thường không giám sát Margin Learning

Embedded Prediction

Mô hình phát hiện bat thường không giám sat Learning

Memory-guided Normality for Anomaly Detection

Điểm ti số tin hiệu cực dai trên nhiễu - Peak signal-to-noise ratio

Đường cong đặc trưng hoạt động của bộ thu nhận — Receiver operating characteristic

Diện tích dưới của đường ROC — Area under the ROC curve Scale-invariant feature transform

Các phương pháp tân tiến nhất — State of the Art

Trang 18

TOM TAT KHÓA LUẬN

Ở Việt Nam, việc xây dựng thành phố thông minh (smart city) trong thời đại công nghệ 4.0 đang được tiến hành tại nhiều tinh/ thành phố với nhiều hệ thống giám sát thông minh được nghiên cứu và áp dụng trong nhiều lĩnh vực: giao thông — vận tải, môi trường, an ninh — quốc phong, Với số lượng người ngày càng gia tăng tại các thành phố lớn, các hoạt động của con người diễn ra ở nhiều nơi gồm cả

trong nhà và các nơi công cộng đã đặt ra những bài toán rất nan giải, ví dụ: phát

hiện và nhận dạng hoạt động/ sự kiện bình thường/ bất thường của nhóm người, sự tương tác giữa người và đối tượng liên quan, để đưa ra các cảnh báo phục vụ công tác quản lý, điều hành và giám sát của các cơ quan, tô chức và doanh nghiệp Trong khi đó, nhân lực còn thiếu, đặt ra nhu cầu cần phải một công cụ tự động phát hiện những hoạt động bat thường của đám đông trong trong video giám sát như: âu

da, trộm cắp, cướp giật dé giảm chi phí nhân công và tiết kiệm thời gian xử lý.

Trong nghiên cứu này, chúng tôi giới thiệu bộ dữ liệu VNAnomaly — bộ dữ liệu

video gồm các video được thu thập từ camera giám sát trong nước Chúng tôi thu

thập thu thập 217 video giám sát từ các camera giám sát khác nhau ở Việt Nam.

Ngoài ra, chúng tôi tìm hiểu, nghiên cứu và tiến hành chạy thực nghiệm các phương pháp phát hiện bất thường dựa trên học sâu tiên tiến nhất gồm Future Frame Prediction, MNAD, MLEP trên bộ dữ liệu xây dựng được dé giải quyết bài toán và đánh giá toàn diện về bộ dữ liệu Qua kết quả thu được từ việc chạy thực nghiệm, chúng tôi đưa ra đánh giá đầy đủ, chỉ tiết về bộ dữ liệu cũng như các phương pháp

đã thực hiện Từ quá trình quan sát kết quả thực nghiệm, chúng tôi đề xuất thêm các

mô hình mở rộng với sự thay đổi hàm Loss để cải thiện độ chính xác cho mô hình mặc định Bên cạnh đó, chúng tôi cũng đề xuất một chỉnh sửa cho quá trình phát hiện bất thường của mô hình Đóng góp cho nghiên cứu của chúng tôi hiện đã được nhận đăng tại Hội nghị Quốc tế “The 8th NAFOSTED Conference on Information and Computer Science (NICS 2021).” và Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin’— REV-ECIT'2021.

Trang 19

Chương 1 TONG QUAN DE TÀI

Mục tiêu: Chương này sẽ trình bày khái niệm, động lực nghiên cứu, phát biểu

về bài toán, các thách thức cua bài toán, mục tiêu, phạm vi và những đóng góp

chính của khóa luận.

1.1 Định nghĩa

Dựa trên [1], [2] sự kiện bất thường là những mẫu dữ liệu có đặc điểm

(pattern) không phù hợp với định nghĩa có sẵn của sự kiện bình thường Bên cạnh

đó, theo định nghĩa của [3], đây là những sự kiện hiếm khi xuất hiện trong thực tế

Những sự kiện này xuất hiện trong dữ liệu vì nhiều lí do, như là cho mục đích trục

lợi, phá hoại như lừa đảo thẻ tín dụng, lừa đảo tài chính, xâm nhập mạng nội bộ,

thiết bị cá nhân trái phép, Rõ ràng rằng những sự kiện bat thường được gây ra cho

mục đích xấu sẽ gây ra những hậu quả to lớn cho không chỉ cho cá nhân mà cho các

tổ chức Tuy nhiên, không chỉ những sự kiện bất thường trong lĩnh vực tài chính và

không gian mạng mà những sự kiện khác diễn ra trong cuộc sống hàng ngày như âu

đả, đánh nhau, cướp giật cũng gây ra những hậu quả khôn lường trong xã hội Từ đó

đặt ra cho người quản lý thách thức lớn trong việc phát hiện dé ngăn chặn, giảm

thiêu những sự kiện nảy diễn ra.

Tùy vào từng ngữ cảnh mà sự kiện bình thường có định nghĩa khác nhau Dẫn

đến các sự kiện bất thường cũng phụ thuộc vào ngữ cảnh và vô cùng đa dạng Đặc

biệt trong thời điểm đại dịch hiện nay, định nghĩa bất thường không chỉ giới hạn

trong những quy chuan xã hội thông thường mà còn liên quan đến các chính sáchdịch té của chính phủ

1.2 Động lực nghiên cứu

Hiện nay, với sự phát triển của công nghệ cùng với xu hướng thành phố thông

minh, camera giám sát đã nổi lên như một trong những công cụ hiệu quả trong

những tác vụ quản lý thành phố phức tạp như kiểm soát, điều khiển giao thông, pháthiện hay phát hiện các sự kiện bất thường Đặc biệt trong bối cảnh dịch bệnh Covid-

Trang 20

19 hiện nay, nhu cầu giám sát, quản lý khu dân cư từ xa để vừa đảm bảo an toàn của

khu phố, vừa đảm bảo an toàn phòng dịch được đặt ra càng cao Các video thu thập

từ camera lắp đặt trong thành phố không chỉ giúp cơ quan giám sát, quản lí giao

thông, khu dân cu ma còn giúp phát hiện sớm những sự kiện vi phạm pháp luật, gây

mất trật tự đô thị từ đó để cơ quan chức năng có thể phản ứng kịp thời Vì vậy, sự

phô biến của các camera này là một trong những yếu tố thiết yếu trong việc quan lý,giám sát thành phố Tuy nhiên, những video này lại vô cùng thách thức cho máymóc có thé hiểu được ngữ cảnh và phân biệt được sự kiện có bất thường hay không.Cùng với đó số lượng camera giám sát tăng cao cũng rất tốn kém về nhân lực, thờigian và chi phí dé giám sát các camera này, do đó, nhu cầu về một công cụ tự động

phát hiện những hiện tượng bat thường trong trong video giám sát như au đả, trộm

cắp, cướp giật dé giảm chi phí nhân công cũng càng lớn

Xuất phát từ bài toán trên, đã có nhiều phương pháp đề xuất phát hiện bất

thường một cách tự động Có thê ké đến như các phương pháp phát hiện bat thườngdựa vào các kỹ thuật máy học và các đặc trưng truyền thống gồm các đặc trưng vềchuyền động và đặc trưng về hình dáng Tuy nhiên, các phương pháp này không thêtổng quát hóa được vì những thách thức về ngữ cảnh và sự nhập nhằng của địnhnghĩa bình thường và bat thường Bên cạnh đó, chất lượng video được thu thập từ

camera giám sát cũng đặt ra vô số thách thức so với video quay cảnh bình thường

như ánh sáng, góc quay, độ phân giải, độ che khuất của đối tượng khiến cho việc

phát hiện bat thường gặp nhiều khó khăn

Tuy nhiên, sự phát triển của các phương pháp học sâu trong lĩnh vực xử lývideo đã mở ra rất nhiều cơ hội để giúp giải quyết các van dé trong thị giác máy

tính nói chung và bài toán phát hiện bất thường nói riêng trở nên khả thi hơn Do

đó, trong xu hướng smart city ngày nay, việc phát hiện bất thường đang dần trởthành nhu cau lớn trong rất nhiều ngành công nghiệp, được nhiều nhà nghiên cứuquan tâm và đóng góp Đó cũng là động lực giúp nhóm nghiên cứu thực hiện đề tài

“Phát hiện bắt thường trong trong video giám sát sử dụng phương pháp học sâu ”

Trang 21

1.3 Phát biểu bài toán

Phát hiện bất thường trong video giám sát là một trong những bài toán nhậnđược rất nhiều sự quan tâm Hiện nay, nhằm thúc day các nhà nghiên cứu tìm raphương pháp tốt nhất dé giải quyết bài toán này, nhiều cuộc thi lớn trên thế giới đã

được tạo ra, đặc biệt là các cuộc thi liên quan đến phát hiện bất thường trong giao

thông AICity Challenge được tô chức hàng năm tổ chức trong hội nghị CVPR

(Computer vision and pattern recognition).

00100111

0: bình thường

1: bât thường

Hình 1-1: Bài toán phát hiện bat thường trong camera Với dau vào là video giám sát Con

dau ra là nhãn bắt thường tương ứng với từng khung hình.

Dữ liệu đầu vào của bài toán là chuỗi các frame liên tiếp (video), đầu ra của

bài toán là nhãn tương ứng với từng frame đề xác định frame đó có bình thường hay

không theo Hình 1-1 Về cơ bản, đây là bài toán phân lớp nhị phân xác định frame

cụ thể có bình thường hay không

Bài toán phát hiện bất thường trong camera giám sát là một trong những

nhiệm vụ quan trọng, giúp xác định các frame bất thường trong video Đây cũng là

bài toán high level cho các nhiệm vụ mở rộng khác về sau như xác định vùng bất

thường, xác định các loại sự kiện bất thường Chính vì thế, việc thực hiện nghiêncứu của chúng tôi là tiền đề cho những nghiên cứu trong tương lai

Trang 22

1.4 Các thách thức

Qua khảo sát về bài toán phát hiện bất thường trong video, chúng tôi nhậnthấy thách thức của bai toán trong cả do các yếu tố từ bên trong và các yếu tô từ bên

ngoài Các yếu tố từ bên ngoài xuất phat từ chất lượng của video như video bị mờ,

độ phân giải thấp, vùng xảy ra bất thường bị che khuất, vùng xảy ra bất thườngchiếm tỉ lệ diện tích quá nhỏ trong frame, Thêm vào đó là những yếu tổ tác độngnhư gió khiến cho camera giám sát bị rung lắc, đặt ra thách thức cho khả năng xử lý

của mô hình.

Bên cạnh các yếu tố bên ngoài, bài toán sẽ gặp những thách thức đến từ bên

trong như sự đa dạng về ngữ cảnh, góc quay, thời điểm diễn ra bối cảnh Trong

đó, một trong những thách thức lớn nhất của bài toán này là sự nhập nhằng của định

nghĩa bất thường [4], [3] Quá trình xác định bất thường không chỉ dựa vào chuyên

động và ngoại hình của đối tượng mà còn phụ thuộc vào ngữ cảnh trong video Mộtvài sự kiện được xem là bình thường ở một vài ngữ cảnh nhưng bắt thường ở những

ngữ cảnh khác Ví dụ, chạy xe máy trong một khu vực dành cho người đi bộ được

xem là bat thường, tuy nhiên trong ngữ cảnh một con đường bình thường trong đôthị, đây là một sự kiện bình thường Không những thế, việc thu thập bất thườngtrong thực tế là vô cùng khó khăn do bản chất bất thường là những sự kiện xảy ra

rất ít trong thực tế

Ngoài những thách thức về dữ liệu, bài toán còn gặp những khó khăn về mặt

kỹ thuật Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo sát, chúng tôiquyết định chọn các phương pháp phát hiện đối tượng SOTA gồm: MLEP [5],MNAD [6], Future Frame Prediction [7] dé tién hanh thuc nghiém va danh gia trén

bộ dữ liệu Tuy nhiên mỗi phương pháp sẽ có những kiến trúc riêng, đặc trưng

riêng, điểm mạnh yếu riêng, thêm vào đó, sự tỉnh chỉnh các thông số phù hợp cho

từng mô hình cũng sẽ ảnh hưởng không nhỏ tới kết quả Điều này đòi hỏi sự nghiên

cứu sâu nhằm tìm ra phương pháp mang lại kết quả cao nhất và giải quyết thách

thức bài toán.

Trang 23

Góc phải - ban đêm có

màu

Đánh nhau

Góc trái - ban ngày Góc trái - ban dem không

Hình 1-2: Một số vi dụ minh họa về tinh da dạng của ngữ cảnh trong camera giám sát.

1.5 Mục tiêu và phạm vi nghiên cứu

(1) Tìm hiéu tông quan về bài toán Phát hiện bất thường trong camera giám

sát dựa trên những nghiên cứu có sẵn.

(2) Tìm hiểu tổng quan các kỹ thuật học sâu và trình bay các phương phápphát hiện bất thường dựa trên phương pháp học sâu tiên tiến nhất hiện nay

(3) Khảo sát các bộ dữ liệu phục vụ cho bài toán đã được công bố trên thế

giới, từ đó giúp xây dung bộ dir liệu video thu thập từ các camera giám sát tai

Việt Nam.

(4) Cài đặt thực nghiệm các phương pháp phát hiện bất thường gồm MLEP

[5], MNAD [6], Future Frame Prediction [7] trên bộ dữ liệu được xây dựng.

(5) Sau khi nghiệm thu kết quả từ quá trình thực nghiệm, nghiên cứu và đề

xuất các kỹ thuật giúp nâng cao độ chính xác của kết quả phát hiện đối tượng

Từ đó đánh giá kết quả cải tiến so với phiên bản mặc định

(6) Lựa chọn một mô hình cho kết quả tốt để xây dựng ứng dụng demo

(7) Tổng hợp kết quả, phân tích đánh giá kết quả từ mô hình và viết báo cáo

Trang 24

1.6 Đóng góp của khóa luận

Nội dung cuốn báo cáo bao gồm giới thiệu bài toán Phát hiện bất thường trongvideo giám sát, trình bày tình hình nghiên cứu đã có trên thế giới, phân tích xu

hướng phát triển của bài toán sử dụng các phương pháp phát hiện bất thường dựa

trên học sâu.

Trinh bày kết quả khảo sát các bộ dit liệu đã công bồ trên thế giới và các quytrình, quy chuẩn được sử dụng trong việc xây dựng bộ đữ liệu video giám sát đangữ cảnh đầu tiên tại Việt Nam — VNAnomaly

Trình bày các phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu

bao gồm các phương pháp họ MLEP [5], MNAD [6] và Future Frame Prediction

[7] Thực hiện huấn luyện các phương pháp trên bộ dữ liệu VNAnomaly dé cung

cấp đánh giá đầy đủ chỉ tiết về bộ dữ liệu cũng như kết quả mô hình SOTA Qua kết

quả thực nghiệm, chúng tôi đề xuất sử dụng kết hợp ham Loss dé cải thiện kết qua

và thay đôi cách phát hiện bất thường trong công đoạn kiểm tra Sau đó, chúng tôi

đánh giá sự ảnh hưởng của những đề xuất này trên bộ dữ liệu được xây dựng

Kết quả mô hình nghiên cứu được sử dụng và phát triên thành ứng dụng phát

hiện bất thường trên web

Đóng góp 2 bài báo nghiên cứu khoa học:

(1) Tu Vu Ngoc, Toan Dinh, Nguyen D Vo, Tung Minh Tran and Khang

Nguyen, “VNAnomaly: A novel Vietnam surveillance video dataset for anomaly

detection” The 8th NAFOSTED Conference on Information and Computer Science (NICS).

(2) Tu Vu Ngoc, Toan Dinh, Nguyen D Vo, Tung Minh Tran and Khang

Nguyen, “Một hàm lỗi cho bài toán phát hiện bat thường trên video giám sát”tại Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông

tin”, REV-ECTT 2021.

Trang 25

1.7 Cấu trúc báo cáo khóa luận

Báo cáo khóa luận gôm 6 chương với các nội dung như sau:

Chương 1: Tổng quan đề tài Giới thiệu về nội dung đề tài bao gồm động lực

nghiên cứu, phát biểu bài toán, mục tiêu, phạm vi của nghiên cứu, và những

đóng góp chính trong khóa luận.

Chương 2: Các nghiên cứu liên quan Trình bày phần khảo sát các hướngnghiên cứu trên thế giới, hướng tiếp cận cho bài toán Đồng thời trình bay

phương pháp phát hiện đối tượng dựa trên học sâu tiên tiến

Chương 3: Xây dựng bộ dữ liệu phát hiện bất thường với ngữ cảnh đườngphố ở Việt Nam Trình bày về quy trình thu thập, gán nhãn dữ liệu, xây dựngcác quy tắc gán nhãn và phân tích bộ dữ liệu xây dựng được

Chương 4: Đề xuất phương pháp cải tiến, thực nghiệm và đánh giá kết quả

Trình bày quá trình cài đặt thực nghiệm, các thông số chỉ tiết, phương pháp đánhgiá và phân tích kết qua Trình bay các đề xuất cải tiến sau khi quan sát kết quả,đánh giá các kết quả đề xuất và so sánh với kết quả của các mô hình mặc định

trước đó.

Chương 5: Kết luận và hướng phát triển Tổng kết các kết quả quan trọng đãdat được trong đề tài và hướng phát triển của đề tài trong tương lai

Trang 26

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

Mục tiêu: Trinh bày cách tiếp cận đối với bài toán Phát hiện bat thường trongvideo giám sát Theo sự hiểu biết của chúng tôi, chúng tôi nhận thấy bài toán “Pháthiện bat thường trong video giám sát” thuộc lớp các bài toán về Anomaly Detection

và có thể sử dụng các phương pháp Phát hiện bất thường trong video dựa trên họcsâu để thực hiện

2.1 Phat hiện bất thường

Bên cạnh đó, không có bất cứ giới hạn nào cho các loại sự kiện bất thường,

nên việc thu thập được tất cả các loại bất thường dé đưa về dạng bài toán phát hiện

bat thường truyền thống là bat khả thi Vì vậy, bài toán này yêu cầu phải có những

hướng tiếp cận và cách xử lý khác với các kỹ thuật phân loại thông thường

Dữ liệu trong bài toán phân lớp Dữ liệu trong bài toán phát hiện bat thường

Hình 2-1: Phân biệt bài toán phát hiện bat thường với bài toán phân loại.

Trang 27

2.1.2 Phân loại

Hiện nay, có 2 hướng chính trong việc tiếp cận giải quyết bài toán này [4],

hướng tiếp cận học không giám sát (Unsupervised learning) và hướng tiếp cận học

giám sát yếu (Weakly supervised learning):

— Nhóm phương pháp học không giám sát (Unsupervised learning):

Trái ngược với sự đồi dào của sự kiện bình thường, tần suất xuất hiện sự kiệnbất thường rất thấp Vì vậy, trong các phương pháp học không giám sát, mô

hình được huấn luyện với chỉ những video frame bình thường Trong khi đó,

những frame bất thường được thu thập chỉ được sử dụng cho mục đích kiểm

tra Những phương pháp này tập trung vào việc học đặc trưng của của frame

bình thường và sử dụng hàm độ lỗi tái tạo hoặc dự đoán để xác định liệu một

frame có bình thường hay không Sau đó, chúng sẽ cố gắng tái tạo và dựđoán frame đang xét và sử dụng sự khác biệt giữa frame đầu ra và frame thực

tế dé tính điểm bat thường Bởi vì sự dồi dào của dit liệu bình thường, đã có

nhiều phương pháp học không giám sát cho bài toán dự đoán bat thường dựatrên đặc trưng truyền thông (handcrafted feature) và học sâu (deep learning)

— Nhóm phương pháp học giám sát yếu (Weakly supervised

learning): Đối với các phương pháp học giám sát yêu, bộ dữ liệu bất thườngthường được thu thập từ các nền tảng mạng xã hội như Facebook, Youtube

Sự đa dang và khối lượng dữ liệu không lồ của các nền tang này cung cấpmột lượng lớn các video bất thường Trong cách tiếp cận này, sự kiện bất

thường thường được định nghĩa một cách cụ thé và thu thập đa dạng ngữ

cảnh khác nhau từ nhiều nguồn Ngoài ra, mô hình được huấn luyện với cả

frame bình thường và một số lượng nhỏ frame bat thường Những phươngpháp trong tiếp cận này thường có 3 module chính: i) Sắp xếp dữ liệu huấnluyện dé tiền xử lý nhãn mức video; ii) Trích xuất đặc trưng của video frame;

và iii) Mang fully connected dé phân lớp frame đó có bat thường hay không

10

Trang 28

2.2 Các bộ dữ liệu hiện có cho bài toán phát hiện bat thường

Bài toán phát hiện bất thường đã thu hút sự chú ý trong cộng đồng thị giác

máy tính và học máy trong những năm gần đây Đến nay, đã có rất nhiều nghiên

cứu đề xuất bộ dữ liệu mới để phục vụ cho bài toán phát hiện bắt thường Trong các

bộ dữ liệu này, chúng ta có thé chia chúng thành 2 loại chính: bộ dữ liệu đơn cảnh

và bộ dữ liệu đa cảnh Thông tin chi tiết của các bộ dữ liệu này được trình bày trong

Bảng 2-1: Tóm tắt thông tin của các bộ dữ liệu khảo sát.

Trang 29

Tổng » Sự kiện

Huan Kiem Loại bat So Độ phan

Bộ dữ liệu khung h bất h h Năm Kích

uyện thử thườn cản iải F

hình vs thường 5 6 thước

VNAnomaly

588,941 578,609 75,214 110 4 36 340x672 2021 50.4GB (our)

2.2.1 Bộ dữ liệu đơn cảnh

Bộ đữ liệu đơn cảnh thường chỉ chứa số ít cảnh (thường chỉ bé hơn 3 cảnh)

Trong quá khứ, bởi vì việc thu thập camera giám sát khá khó khăn, việc lấy được

những video giám sát dài quay bởi một camera giám sát duy nhất trở nên khá dễhiểu Vì thế, đã có rất nhiều bộ dữ liệu đơn cảnh được giới thiệu trong suốt thời gianqua Tuy nhiên, những bộ dữ liệu này không đủ tổng quát dé thỏa mãn các ứngdụng giám sát trong thực tế Một vài hình anh của các bộ dữ liệu đơn cảnh phô biến

được trình bày trong hình.

UCSD Ped 1 UCSD Ped 2 Subway Entrance CUHK Avenue

dữ liệu là 3,855 frames với mỗi frame có độ phân giải 240 x 320 Các sự kiện bat

thuong trong video gom các sự kiện tất cả mọi người đột ngột bỏ chạy Nhãn ở mức

12

Trang 30

frame được cung cấp đi kèm với dataset Tuy nhiên, không có quy định rõ ràng về

việc chia frame huân luyện và frame kiêm thử.

Bộ dữ liệu Subway [9] được quay ở cổng vào và công ra của trạm xe tàu

điện ngầm và bao gồm 2 video tương ứng với 2 cảnh Video chứa cổng vào của tàu

điện dài 1 tiếng 36 phút trong khi video cổng ra dài 43 phút với độ phân giải 384 x

512 Hoạt động bất thường chủ yếu bao gồm cảnh mọi người nhảy ra và cé gangVượt qua rảo chắn mà không trả tiền vé hoặc đi ngược lại hướng chỉ dẫn

UCSD Pedestrian [10] bao gồm 2 tập con: UCSD Pedestrians 1 (Ped 1) vàUCSD Ped 2 (Ped 2) UCSD Ped 1 chứa 34 video huấn luyện va 36 video đánh giá

với 40 sự kiện bat thường Hầu hết các hoạt động bất thường trong bộ dt liệu này

bao gồm đi xe đạp, xe máy hoặc xe hơi vào trong đường dành cho người đi bộ Ped

2 bao gồm 16 video huấn luyện và 12 video đánh giá với 12 sự kiện bất thường.Định nghĩa bất thường trong Ped 2 cũng tương tự với định nghĩa trong Ped 1 Sự

khác biệt chính giữa 2 tập con là là góc quay, kích thước bộ dữ liệu và độ phân giải

cua frame (158 x 238 trong bộ Ped | so với 240 x 360 trong bộ Ped 2) Cả 2 tập con

đều chỉ chứa duy nhất một cảnh tương ứng với mỗi tập

Bộ dữ liệu CUHK Avenue [11] bao gồm 16 video huấn luyện và 21 video

đánh giá (độ phân giải 480 x 856 điểm ảnh) với tong cộng 47 hành động bat thường

gồm ném một vật thể, chạy, nhảy Bộ dữ liệu này chỉ quay một cảnh duy nhất, tuynhiên kích thước của người trong các frame này có thé thay déi bởi vì khoảng cách

và góc của camera.

2.2.2 Bộ dữ liệu đa cảnh

Trong những năm gan đây, sự phổ biến của camera giám sát và sự nôi lên

của các nền tang chia sẻ video đã cho phép sự tăng lên của bộ dir liệu bất thường.Một vài bộ đữ liệu thường được sử dụng trong các nghiên cứu hiện nay bao gồm bộ

dữ liệu ShanghaiTech [7] và bộ dữ liệu UCF-Crime [12] Một vai mẫu được biểu

diễn trong hình 5.

13

Trang 31

Bộ dữ liệu ShanghaiTech Campus [7] chứa 330 video huấn luyện và 107

video đánh giá (độ phân giải 480 x 856 điểm ảnh) quay tại khuôn viên trong một

trường dai học Vi đây là bộ dữ liệu chủ yếu dành cho các bat thường liên quan đến

người, nó chứa 130 sự kiện bất thường quay trong 13 cảnh khác nhau với điều kiện

ánh sáng phức tạp và góc quay của camera Tuy nhiên, một vài sự kiện bất thường

trong bộ dữ liệu như đi xe đạp, đi ván trượt không liên quan đến các mục tiêu an

ninh nói chung.

ShanghaiTech

-ww

Bât thường Bình thường

£

Hình 2-3: Một vài mẫu biểu diễn của bộ dữ liệu da cảnh.

Bộ dữ liệu UCF-Crime [12] là một bộ dữ liệu phức tạp quy mô lớn kéo dài

128 giờ và video có độ phân giải trung bình 240 x 320 Tất cả video này đều được

quay từ camera CCTV (Closed-circuit television) Tập huấn luyện của bộ dữ liệunày có 800 video bình thường và 810 video bất thường, trong khi tập kiểm tra có

150 video bình thường 140 video bất thường Mặc dù có số lượng cảnh vô cùng đa

dạng và hầu hết các sự kiện bat thường đều liên quan yếu tố an ninh nói chung, bộ

dữ liệu này lại hướng tới dành cho một hướng tiếp cận học giám sát yếu — khác vớitiếp cận học không giám sát của đề tài

2.3 Các hướng tiếp cận hiện tại cho bài toán phát hiện bat thường

2.3.1 Hướng tiếp cận dựa trên đặc trưng handcrafted

Các phương pháp tiếp cận dựa trên đặc trưng truyền thống chủ yếu sử dụng

các phép toán tử, thuật toán để rút trích được những đặc trưng handcrafted — các đặc

14

Trang 32

trưng dựa trên quan sát của con người dé từ đó đưa vào một module phân biệt batthường Các phương pháp này bao gồm 2 bước chính: (1) trích xuất đặc trưng: (2)

sử dụng mô hình để học phân phối của sự kiện bình thường và mã hóa khuôn mẫubình thường, từ đó xác định các cụm mau hay điểm đữ liệu tách biệt với phân phối

bình thường là các hoạt động bat thường

2.3.2 Mô-đun trích xuất đặc trưng truyền thống

Mô-đun trích xuất đặc trưng truyền thống thường bao gồm các toán tử vàthuật toán cụ thé dé lọc các đặc trưng truyền thống Các đặc trưng này bao gồm các

đặc trưng cục bộ (local features), đặc trưng toàn cục (global features), đặc trưng

chuyển động (motion features), đặc trưng không gian-thời gian (spatialtemporalfeatures), đặc trưng ngoại hình (appearance features), tư thế người (human pose),

thông tin hình anh (visual information), thông tin ngữ cảnh (context information):

SIFT, SURF, MBH [13], HOG [14], Color Histogram, Dense trajectory [15],

Couboid, Onset, Actionlet, Poselet 2 đặc trưng handcrafted phô biến nhất là HOG

[14] và SIFT [16] được mô tả trong Hình 2-4 HOG tập trung vào các thông tin

ngoại hình tĩnh, trong khi HOF [13] bắt những đặc trưng chuyên động cục bộ MBH

tính toán optical flow theo chiều ngang, chiều đọc và loại bỏ các thông tin về hình

dang ra khỏi bối cảnh tĩnh Tuy nhiên, điểm yếu của hầu hết các phương pháp tríchxuất này không hiệu quả đối với những ngữ cảnh có nhiều loại đối tượng hoặc đám

đông với nhiều sự che khuất (occlusion) và bóng che (shadow) Bên cạnh đó, chúngkhông thê bắt được ngữ nghĩa trong cảnh và thường tách những đối tượng di chuyênrời rạc nhau, nên không thể bắt được những tương tác giữa các đối tượng với nhau

2.3.2.1 Mô-đun phân loại truyền thống

Trong bài toán phát hiện bất thường, các mô hình phân loại truyền thốngthường dựa vào khoảng cách hoặc tần suất các giá trị của các đặc trưng của điểm dữliệu dé từ đó học được phân phối bình thường Một vai mô hình truyền thống được

sử dụng phổ biến trong các nghiên cứu về bài phát hiện bat thường bao gồm:

Support Vector Machine (SVM) [17], [18], [19], mô hình mixture Gaussian hoặc

15

Trang 33

Markov Random Field (MRF) [20] Hầu hết các phương pháp khảo sát sử dụng các

mô-đun này thường sử dụng các đặc trưng về chuyên động Tuy nhiên, chúng sẽ rất

dé bị ảnh hưởng bởi các chuyên động nhiễu (camera bị rung) Thêm vào đó, một vaiphương pháp còn phụ thuộc vào việc theo dõi (track) chuyên động của các đối

tượng khác nhau, nên độ chính xác sẽ bị giảm mạnh trong hoàn cảnh phức tạp Một

số cũng khá tốn thời gian với độ phức tạp tính toán cao và khó đáp ứng được nhucầu phát hiện thời gian thực trong thực tế

Hình 2-4: Mô tả đặc trưng handcrafted HOG va SIFT.

2.3.3 Hướng tiếp cận dựa trên học sâu

Trong những năm gan đây, các kĩ thuật deep learning đang phát triển vô cùngmạnh mẽ và đạt được những bước tiến lớn trong việc giải quyết bài toán phát hiệnbất thường Nhờ vào sự phát triển và phổ biến của camera giám sát, một lượng lớn

dữ liệu video cho phép tiếp cận bài toán theo nhiều hướng khác nhau Khác với cácphương pháp trích xuất đặc trưng của các phương pháp học giám sát thông thường,

do sự thiếu hụt về dữ liệu bất thường, các phương pháp dựa trên mạng học sâu trong

hướng học không giám sát có sử dụng các mạng tái tao, mang sinh dé trích xuất đặc

trưng Bên cạnh đó, các phương pháp giám sát yếu sử dụng kết hợp các phươngpháp không giám sát kết hợp với các mô hình trích xuất đặc trưng dành cho video

đã được train sẵn như C3D [21], I3D [22] Vì phạm vi của dé tài này tập trung vào

16

Trang 34

hướng tiếp cận học không giám sát, vì thé chúng tôi sẽ tập trung vào các cách dé

học và trích xuất đặc trưng của các phương pháp theo hướng này

2.3.3.1 Autoencoder

Theo [23], autoencoder là một mang neural network được huấn luyện dé sao

chép đầu vào vào đầu ra Trong đó, sẽ có một lớp ân h là một code (đặc trưng) sử

dụng để biểu diễn cho đầu vào Mạng autoencoder có thé được xem 1a gồm 2 phần:

hàm encoder dùng để h = f(x) và hàm decoder dùng để tái tạo lại r = g(h) Trong

mô hình Autoencoder sử dụng học sâu đầu tiên (DAE), 2 thành phần này bao gồmcác lớp fully connected layers Kiến trúc cơ bản của autoencoder được mô tả trong

Hình 2-5: Kiến trúc cơ bản của mạng Autoencoder [23].

Nếu một hàm autoencoder thành công trong việc học cách sao chép đúng

chính xác g(f(x)) = x với tat cả các trường hợp, hàm nay sẽ không thật sự hiệu quả.Thay vào đó, autoencoder thường được thiết kế để không thể sao chép một cách

hoàn hảo Mà chúng thường bị giới hạn theo cách mà chỉ cho phép chúng sao chép

một cách tương đối và chỉ sao chép được đầu vào mà giống với những gì chúng

được học trong tập huấn luyện Thông thường, một trong những cách phô biến nhất

dé giới han là rút giảm sô chiêu của đặc trưng nhỏ hon sô chiêu của dau vào Bởi vi

17

Trang 35

những mô hình này bị bắt phải học cách ưu tiên những thành phần trong đầu vào

nào nên được sao chép, chúng thường học được những đặc trưng có ích của bộ dữ liệu.

Ý tưởng của autoencoder đã trở thành một phần nền tảng của lịch sử mạng

neural trong nhiều thập kỉ qua [24], [25], [26] Ban đầu, autoencoder được sử dụng

dé giảm chiều dữ liệu (dimension reduction) hoặc học đặc trưng (feature learning).Nhung trong những năm gần đây, mối liên hệ giữa autoencoder và mô hình biến ân(latent variables) đã giúp autoencoder trở thành một phần quan trọng trong các

mạng sinh (generative modelling) Nhờ mối liên hệ này, nhiều phương pháp cho bài

toán phát hiện bất thường theo hướng không giám sát đã sử dụng autoencoder để

học và trích xuất đặc trưng của các sự kiện bình thường

Tuy nhiên, khi áp dụng vào đữ liệu nhiều chiều như ảnh, mô hình

Autoencoder truyền thống dựa trên các lớp Fully-connected sẽ gặp phải 3 van đềchính: 1) Mỗi node trong một lớp sẽ kết nói với tất cả các node của lớp trước đó vàlớp sau đó Khiến cho các đặc trưng học được từ mạng đều là các đặc trưng toàncục, trong khi đó, trong ảnh đa số thông tin được biểu hiện ở dạng đặc trưng cục bộnên khi sử dụng mô hình này sẽ làm mất đi một lượng lớn thông tin của ảnh 2) Déđưa vào mạng Fully-connected Autoencoder, dữ liệu có nhiều chiều như ảnh phải

được đưa về dang dt liệu 1 chiéu Viéc nay sé khiến cho các đặc trưng về cấu trúc

trong không gian 2 chiều bị mat đi 3) Dé xử ly được ảnh có kích thước vừa và lớn(256 x 256) mô hình sẽ phải giảm kích thước ảnh vì nếu không số lượng node vàtham số học được sẽ cực kì lớn Gây ra sự dư thừa về đặc trưng và có thể dẫn đến

hiện tượng overfitting.

2.3.3.2 Convolutional Autoencoder

Được dé xuất vào năm 2011 [27], Convolutional Autoencoder (CAE) thaythé các mang Fully connected layer bang cach sử dung hai phép toán Convolutional

(tich chap) va Deconvolutional (phan tich chap) cho mang encoder Tuy nhién,

module encoder của các thành phan này tận dung những lợi thé cua Convolutional

18

Trang 36

layer trong việc giảm số lượng tham số và học các đặc trưng cục bộ, mô hình này đã

cho thấy sự hiệu quả so với kiến trúc Autoencoder truyền thống trong việc xử lý

ảnh Nghiên cứu này đã tiên phong trong việc áp dụng mạng tích chập (convolution)

va phản tích chập (deconvolution) vào trong mô hình của autoencoder.

a) Convolutional layers - Encoder

Mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) [2§] (hình

2-6) là một trong những phương pháp được áp dụng nhiều nhất trong lĩnh vực CV

để giải quyết các bài toán như nhận dạng ảnh, phân loại đối tượng, phát hiện đối

tượng, nhận diện khuôn mặt, v.v Ưu điểm lớn nhất của phép toán này so với các

mạng neural network thông thường nằm ở khả năng bắt được các đặc trưng cục bộ

và khả năng chia sẻ tham số giữa các vùng khác nhau trong ảnh giúp giảm số lượng

tham số Về chỉ tiết của thuật toán, CNN được xây dựng từ ba ý tưởng chính: vùngnhận thức cục bộ (local receptive fields), chia sẻ trọng số (shared weights) và tổng

Hình 2-6: Kiến trúc của mang CAE [28].

kiến thức tại từng vùng nhỏ trước thay vì tiếp nhận tiếp thức bộ từ nơ ron banđầu Gia sử chúng ta có đầu vào là một bức ảnh được mã hóa thành một mảnghai chiều có kích thước 28 x 28 Thay vì phải liên kết tất cả các thành phần trong

kích thước 28 x 28 với tat cả các thành phan thuộc lớp ân tiếp theo khiến cho chi

phí cho quá trình tính toán rất là lớn Thay vào đó, CNN sẽ tiến hành liên kết

19

Trang 37

trong một vùng nhỏ (kích thước của vùng nhỏ được trích xuất theo kích thước

của bộ lọc) Mỗi nơ ron trong lớp ân đầu tiên sẽ liên kết với một vùng nhỏ các

no ron ở trong lớp đầu vào Việc này sẽ giúp tiết kiệm chi phi và giảm kích

thước cho lớp ẩn tiếp theo

e Share weights: sau khi tiếp cận bang cách sử dụng liên kết trên một vùng nhỏ,

các mạng tích chập sẽ điều chỉnh, chia sẻ các trọng số với nhau dé phù hợp vớitính bất biến của hình ảnh

e Pooling: Sau tang khi thuc hién tich chap, mang sé thuc hién tong hop lai cac

đặc trưng và giữ lai các thông tin quan trọng từ dữ liệu đầu vào ở tầng pooling

Từ ba ý tưởng chính trên, một mô hình CNN sẽ có kiến trúc gồm các tầng

như sau: tầng tích chập (Convolution) kết hợp với tang tổng hợp (Pooling) dùng dé

trích xuất đặc trưng và tang liên kết đầy đủ (Fully-connected) dùng dé phân lớp đối

tượng.

input neurons

200005 sooo————=

bai Soogd

ooooo hi

Hình 2-7: Ý tưởng Local receptive fields trong mô hình CNN.[10]

Tầng tích chập (Convolution): Mục đích của tầng này là trích xuất đặc trưng

tương ứng với đầu vào Từ ý tưởng Local receptive fields, mô hình sẽ tiến hành

chọn 1 bộ loc (filter) hay còn gọi là kernel dé tìm và trích xuất những thông tin quan

trọng từ dữ liệu đầu vào bằng cách sử dụng cơ chế trượt khi cho bộ lọc này trượttrên toàn bộ hình ảnh đầu vào, đồng thời giảm số chiều cho các lớp ấn tiếp theo

Các giá trị đầu ra cho vùng lọc sẽ được cho qua hàm kích hoạt (ActivationFunction) đề thực hiện tính toán Hàm kích hoạt thường là một hàm phi tuyến được

triển khai với nhiệm vụ xác định những thông tin có thé giúp ích cho quá trình lan

20

Trang 38

truyền ngược, thông qua việc cho qua hàm kích hoạt mạng sẽ giới hạn lại được

lượng thông tin được phép lan truyền trong toàn bộ quá trình huấn luyện Một số

hàm kích hoạt nổi tiếng thường dùng có thé ké đến như ReLU, Tanh, Sigmoid

Hiện nay, hàm ReLU được sử dụng nhiều hơn các hàm còn lại

Tầng tổng hợp (pooling): Sau tang tích chập, tang tổng hợp thực hiện tríchchọn đặc trưng va giảm số chiều cho đữ liệu đầu vào Khi giảm số chiều, mô hình

giảm số lượng tham só, rút ngắn được thời gian huấn luyện va hạn chế overfitting

trong quá trình huấn luyện Cũng như tầng tích chập, tang tổng hợp sử dụng bộ lọctrượt qua dữ liệu đầu vào để trích xuất đặc trưng cần thiết, nhưng các bộ lọc ở đây

sẽ không chứa tham sé, vì vậy tang tong hợp là tang không có chưa tham số trong

quá trình tính toán Các phương pháp phổ biến được sử dụng ở tầng tổng hợp là

MaxPooling và AveragePooling Trong đó MaxPooling chỉ lấy giá trị lớn nhất trong

vùng của bộ lọc di qua còn AveragePooling sẽ tính toán gia tri trung bình của trong vùng bộ lọc đi qua.

b) Deconvolutional layers - Encoder

Tang phản tích chập (Deconvolutional layers): được dé xuất bởi Zeiler và các

cộng sự vao năm 2011 [29], lớp ngược tính chập hay còn gọi là lớp tích chập

chuyển vị (Transpose convolution) đã trở thành một trong những phép toán tăngkích thước (upscale) ảnh phổ biến nhất trong các mô hình máy học

Transposed Convolution

ot

1 Catcutate parameters 2 Insert x zeros between 3 Add p’ number of zeros

Input Kernel 2, and pt the rows and columns around the image

Hình 2-8: Hình ảnh trực quan hóa các bước thực hiện của phép tính tích chập chuyển vị.

Về cơ bản, phép tính này đơn giản là sự kết hợp của phương pháp xử lý

padding (đệm), và phép tích chập Tuy nhiên do trong phương pháp xử lý trong quá

trình padding khác với cách trước đó (thay vì chỉ bao quanh ảnh băng các hằng số

21

Trang 39

thì thêm các giá trị này vào giữa các pixel) và đầu ra là một bức ảnh kích thước lớn

hơn bức ảnh đầu vào nên mới được gọi là phản tích chập (Deconvolution) Những

năm gần đây, có nhiều ý kiến cho rằng phương pháp này không nên được gọi là

phản tích chập (vì phản tích chập phải là một phương pháp có thể đảo ngược kết

quả của lớp tích chập) Mặc dù vậy do sự phô biến của các bài báo có từ thời xưa

nên tên gọi này hiện nay vẫn khá phổ biến

2.3.4 Hướng tiếp cận học không giám sát

Do các sự kiện bất thường xuất hiện tất ít trong thực tế, cùng với đó định

nghĩa bất thường vô cùng đa dạng và phụ thuộc vào ngữ cảnh, việc thu thập các sự

kiện này dé học có giám sát là vô cùng khó khăn Vì vậy, một trong những cách tiếpcận phổ biến nhất hiện nay trong bài toán phát hiện bat thường là hướng tiếp cậnhọc không giám sát Trong hướng tiếp cận này, mô hình tập trung vào việc học cácpattern bình thường về ngoại hình và chuyển động từ các video trong tập huấn

Video bình thường cho huấn luyện

2 Giai đoạn dự báo

Hình 2-9: Quá trình phát hiện đối tượng cơ bản của phương pháp học không giám sát.

Hiện nay, có 2 nhóm phương pháp học không giảm sát để giải quyết bài toán

phát hiện bất thường: Nhóm phương pháp tái tạo đặc trưng và nhóm phương pháp

dự đoán frame mới Trong những năm gần đây, nhóm phương pháp dự đoán framemới đã cho thấy sự hiệu quả so với phương pháp tái tạo đặc trưng trên video, vậy

22

Trang 40

nên trong nghiên cứu nảy, chúng tôi sẽ tập trung và nhóm phương pháp tái tạo đặc

trưng.

2.3.4.1 Độ đo xác định bat thường

Đề xác định được khung ảnh frame ảnh có bất thường hay không, hầu hết các

phương pháp học không giám sát dựa trên sự so sánh giữa kết quả trả về của môhình và kết quả thực tế Trong phương pháp dự đoán frame mới, kết quả trả vềthường là anh Độ giống nhau của 2 kết quả này được thé hiện bằng độ đo PSNR(peak signal-to-noise ratio) từ đó tính được điểm bất thường (Abnormality score)

Điểm PSNR được tinh bằng công thức:

max(Í,)

P,(1,, fe) = 1010810 SEC, he)

tr*t

(1)

Với P, là điểm PSNR, I, là tập hợp giá trị điểm anh của khung anh thực tế, Ï,

là tập hợp giá trị điểm ảnh của khung ảnh dự đoán và MSE ký hiệu cho Mean

square error tính dựa trên khoảng cách Euclid của 2 ảnh.

N WN

E 1 †

MSE(1„Í.) ===) ) We — f,0,0l 2)

i=0 j=0

Với N kí hiệu cho số lượng dòng, M kí hiệu cho sỐ lượng cột trong frame va

ij kí hiệu cho dòng i, cột J vì vậy It(i,j) kí hiệu cho giá tri pixel ở vi trí dòng i, cột j.

Từ PSNR có thé tính được điểm bất thường (Abnormality score) là chuẩnhóa (min-max normalization) của điểm PSNR trên từng video Được tinh bằng công

Tiêu đề	Phát hiện bất thường trong video giám sát tại đường phố Việt Nam sử dụng phương pháp học sâu
Tác giả	Vũ Ngọc Tú, Đinh Thanh Toàn
Người hướng dẫn	TS. Nguyễn Tấn Trần Minh Khang, THS. Võ Duy Nguyên
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	100
Dung lượng	60,27 MB