1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phát hiện tai nạn và các tình huống bất thường trong video giao thông

137 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 2

Cán bộ hướng dẫn khoa học: TS Lê Thành SáchCán bộ chấm nhận xét 1: TS Nguyễn Đức DũngCán bộ chấm nhận xét 2: PGS.TS Huỳnh Trung Hiếu

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM, ngày 08 tháng 02 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạcsĩ)

1 Chủ tịch: PGS.TS Trần Văn Hoài2 Thư ký: TS Nguyễn Tiến Thịnh3 Phản biện 1: TS Nguyễn Đức Dũng4 Phản biện 2: PGS.TS Huỳnh Trung Hiếu5 Uỷ viên: PGS.TS Huỳng Tường Nguyên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

I TÊN ĐỀ TÀI: Phát hiện tai nạn và các tình huống bất thường trong video giaothông - Detection of traffic accident and abnormal situation from surveillance cameras

II NHIỆM VỤ VÀ NỘI DUNG:

Khảo sát các công trình nghiên cứu liên quan về phát hiện bất thường cho video.Kế thừa và xây dựng mô hình phát hiện tai nạn và các tình huống bất thường trongvideo giao thông.

III NGÀY GIAO NHIỆM VỤ: 14/02/2022

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 08/02/2023V CÁN BỘ HƯỚNG DẪN: TS Lê Thành Sách

Tp HCM, ngày tháng năm 2023

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 4

Để hoàn thành được bài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặcbiệt tới thầy hướng dẫn khoa học của tôi, Tiến sĩ Lê Thành Sách Người đã địnhhướng, trực tiếp dẫn dắt và cố vấn tôi trong suốt thời gian thực hiện đề tài luậnvăn tốt nghiệp Những lời nhận xét, góp ý và hướng dẫn của Thầy đã giúp tôitiếp cận đúng hướng đi trong quá trình thực hiện luận văn, giúp tôi thấy đượcnhững ưu điểm và khuyết điểm của những phương pháp tiếp cận khác nhau vàtừng bước khắc phục để có kết quả ngày càng tốt hơn Hơn thế nữa tôi còn họcđược ở Thầy phương pháp luận và tư duy trong quá trình nghiên cứu khoa học.Đây chính là bàn đạp vững chắc giúp tôi hoàn thành luận văn một cách hoànchỉnh.

Sau cùng, tôi xin cảm ơn các Thầy, Cô và cán bộ trong khoa Khoa học và KỹThuật Máy Tính đã hỗ trợ và cung cấp những kiến thức khoa học Những kiếnthức này không chỉ dừng ở việc hoàn thành luận văn mà còn là một nền tảngkhoa học giúp tôi phát triển trong tương lai.

Trong luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót.Tôi hy vọng sẽ nhận được nhiều đóng góp quý báu từ các quý thầy cô, hội đồngvà các bạn đọc để đề tài được hoàn thiện hơn nữa và có ý nghĩa thiết thực ápdụng trong thực tiễn cuộc sống Chân thành cảm ơn.

TP Hồ Chí Minh, Ngày Tháng Năm 2023

Đoàn Thành Khang

Trang 5

Phát hiện tại nạn và bất thường trong video giao thông là một đề tài hẹp dựatrên nhánh của nhóm đề tài phát hiện bất thường trong video Mục đích của đềtài là phát hiện các tình huống bất thường và tai nạn trong video giao thông chocamera giám sát Thách thức của bài toán là việc phát hiện được bất thườnggặp khó khăn do khác với bài toán truyền thống, trong giao thông bao gồmcả yếu tốt về hình ảnh và chuyển động được ràng buộc với nhau theo quan hệkhông gian và thời gian Ngoài việc phát hiện các đối tượng và chuyển động bấtthường của các đối tượng, bài toàn giao thông còn bao gồm các ràng buộc vềluật di chuyển các phương tiện Chính vì lý do này dẫn đến các phương phápphát hiện bất thường chung cho video bị giảm hiệu quả trong phát hiện bấtthường trên video giao thông Trong bài luận văn kế thừa kết quả nghiên cứu từbài báo [1] cho phát hiện bất thường trong video sử dụng phương pháp dự đoánhình ảnh trong tương lai với luồng quang làm điều kiện Luận văn kế thừa vàphát triển mô hình dự đoán bất thường bằng việc sinh ảnh tiếp theo trong tươnglai với hai điều kiện là luồng quang và mặt nạ phân đoạn của đối tượng Kếtquả thí nghiệm trên các bộ dữ liệu Ped2, Avenue, Shanghaitech với chỉ số AUClần lượt là 99.82%, 91.26% và 79,68% Bên cạnh đó với các video tai nạn trênUCF-Crime luận văn đạt được AUC là 78.02% và kết quả thực nghiệm thànhcông trên video giao thông ở Việt Nam hứa hẹn có thể ứng dụng vào thực tếcho lượng lớn các camera giao thông đang được triển khai trên các đường phốnước ta.

Trang 6

Accident and anomaly detection in traffic video is a narrow topic based on abranch of the video anomaly detection group The purpose of the thesis is todetect anomaly situations and accidents in traffic video for surveillance cameras.The challenges are that detecting anomalies is problematic because, in traffic,both image and motion factors are tied together according to space and timerelationships In addition to detecting objects and anomaly movements of trafficobjects, the traffic problem also includes constraints on the laws of vehicle move-ment It is for this reason that the general anomaly detection methods for videoare less effective in detecting traffic video anomalies In the thesis, inheriting theresearch results from the research paper[1] for anomaly detection in video usingthe method of predicting future images with the optical flow as a condition.We inherit and develop an anomaly prediction model by future frame predictionwith two conditions: optical flow and segment mask of the object Experimentresults on the datasets Ped2, Avenue, and ShanghaiTech with AUC index of99.82%, 91.26%, and 79.68%, respectively Besides, with the accident videos onUCF-Crime, the thesis achieved 78.02% AUC, and the successful experimentalresults on traffic videos in Vietnam promise to be able to be applied in practiceto a large number of traffic cameras being deployed on the streets.

Trang 7

Tôi là Đoàn Thành Khang học viên cao học khoa Khoa Học và Kỹ thuật MáyTính, đại học Bách Khoa TP.HCM, MSHV là 1970217 Tôi xin cam đoan rằngluận văn thạc sĩ “Phát hiện tai nạn và các tình huống bất thường trong video giaothông” là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân dưới sự hướngdẫn trực tiếp của TS Lê Thành Sách Tôi xin cam đoan:

1 Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc caohọc.

2 Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều đượctrích dẫn, tham khảo.

3 Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phầnmềm mã nguồn mở.

4 Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng.

5 Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khichạy chương trình.

TP Hồ Chí Minh, Ngày Tháng Năm 2023Học viên

Đoàn Thành Khang

Trang 8

1Giới thiệu đề tài1

Trang 9

3.3Phát hiện tai nạn cho góc nhìn thứ ba Camera 37

3.4Phát hiện bất thường dựa vào Autoencoder và OCSVM 37

3.5Khai thác mạng sinh kết hợp giữa hình ảnh vào luồng quang học .44

3.6Khai thác mạng tái tạo kết hợp khối nhớ 50

3.7Phương pháp kết hợp giữa mạng nhớ tái tạo và dự đoán .54

3.8Tổng kết và khảo sát phương pháp kế thừa 57

3.8.1Thử nghiệm so sánh hoạt động của 2 loại mô-đun bộ nhớ 58

3.8.2Thử nghiệm việc dự đoán một chuỗi các luồng quang 61

3.8.3Thử nghiệm tác động của khối điều kiện với mạng tạo sinh hìnhảnh 65

3.8.4Thử nghiệm tắt các nối tắt của mạng sinh hình ảnh 67

4.2.4Chiến lược huấn luyện 79

4.2.5Các thử nghiệm triển khai 80

5Kết quả thực nghiệm815.1Dữ liệu và tiền xử lý dữ liệu 81

6.2Hướng nghiên cứu tiếp theo 112

Trang 10

2.1Minh hoạ các điểm bất thường màu cam nằm xa các cụm phân bố chính.82.2Ảnh minh hoạ về số bất thường trong video cho một số mẫu dữ liệu.

Trong đó hàng 1 và 3 biểu diễn khung hình bình thường và hàng 2 và 4

biều diễn khung hình bất thường .10

2.3Ví dụ mạng tự động mã hoá 15

2.4Mô hình đồ họa liên quan đến Bộ mã tự động biến thể Các đường liềnnét biểu thị phân bố được sinh pθ(.) và các đường đứt nét biểu thị sựphân bố gần đúng qϕ(z|x) với phân bố hậu nghiệm pθ(z|x) .17

2.5KL thuận và nghịch khác nhau về tính chất khi đo khoảng cách giữa cácphân bố .18

2.6Minh họa về cách thủ thuật tham số hoá lại giúp cho quá trình lấy mẫucó thể đào tạo được .19

2.7Minh họa về mô hình tự động mã hóa biến thiên với giả định Gaussianđa biến .20

2.8Minh họa đơn giản về mạng GAN 21

2.9Minh hoạ sự tốt lên của việc tạo sinh khuôn mặt qua các năm .23

2.10 Sinh ảnh mặt dự vào độ tuổi .23

2.11 Sinh ảnh đồ vật con vật .23

2.12 Cấu tạo của mạng nhớ .24

2.13 Minh hoạ cách hoạt động của mạng tích chập 2 chiều và 3 chiều .26

3.1Khung đại diện cho tập dữ liệu UCSD Peds1 và Peds2 Hàng đầu tiênhiển thị khung hình bình thường và hàng thứ hai hiển thị khung hìnhbất thường Hai cột đầu tiên là từ Peds1 và cột cuối cùng là từ chuỗiPeds2 .31

3.2Khung đại diện của tập dữ liệu AVENUE Hàng đầu tiên hiển thị khunghình bình thường và hàng thứ hai hiển thị khung hình bất thường .32

3.3Khung đại diện cho tập dữ liệu ShanghaiTech Hàng đầu tiên hiển thịkhung hình bình thường và hàng thứ hai hiển thị khung hình bất thường 343.4Kiến trúc mạng Traffic Accident Detection in First-Person Videos [2] 353.5Kiến trúc mạng Future vehicle localization [3] .36

3.6Kiến trúc mạng Autoencoder 38

Trang 11

3.7Bao gồm 2 luồng, luồng bên trái theo vết quỹ đạo của các xe, tính điểmva chạm khi có 2 khung bao của 2 xe giao nhau Luồng bên phải sử dụngbộ Autoencoder ảnh + luồng quang của ảnh, dùng ngõ ra để tính sai số

của bộ Decoder, dùng vector ẩn để tính One class SVM 38

3.8Xe đạp và xe ô tô giao nhau và quỹ đạo di chuyển theo hướng mũi tênxanh dương không tiếp tục thì đó tính là một va chạm .39

3.9Có 3 mô hình để chọn lựa 1 là chỉ dùng ảnh, 2 dùng ảnh và luồng quang,3 chỉ dùng luồng quang Có 2 lỗi: Reconstruction Error để tính lỗi chobộ Autoencoder, Lỗi Outlier dùng cho One Class SVM 3 cặp lỗi này sẽso sánh 3 cặp với nhau và chọn cặp có .40

3.10 Phát hiện tai nạn dựa vào Decision Tree .41

3.11 Mô hình Convolutional AutoEncoder .42

3.12 Mô hình Convolutional LSTM AutoEncoder .43

3.13 Tổng quan về cấu trúc mô hình cùng với độ phân giải không gian đặctrưng trong mỗi khối Số lượng kênh tương ứng với mỗi lớp trong mỗikhối cũng được trình bày (trong ngoặc đơn) Hai lớp đầu vào và đầura có cùng kích thước 128× 192 × 3 Có ba mạng chính: bộ mã hóachung (bên trái), bộ giải mã hình ảnh (trên cùng bên phải) và bộ giảimã chuyển động (dưới cùng bên phải) Mỗi phép ghép chồng đặc trưngma trận theo chiều kênh được thực hiện trước các lớp tích chập đảo.Đầu vào của mô hình là một khung video duy nhất Nó và đầu ra từ haibộ giải mã là một khung được tái tạo lại hình ảnh và một luồng quanghọc Ft dự đoán chuyển động giữa It và It+1 .45

3.14 Kiến trúc của bộ phân biệt Lớp đầu vào có hình dạng 128× 192 × 6được cung cấp bởi sự ghép nối của khung video và luồng quang của nó.Lớp đầu ra là số lượng hàm kích hoạt đáng kể 512 ma trận đặc trưngcó độ phân giải không gian 16× 24 47

3.15 Trong đó từ trái qua là ảnh thật, ảnh tái tạo, và ma trận sai số, tươngtự cho luồng quang học .49

3.16 Trong đó từ trái qua là ảnh thật, ảnh tái tạo, và ma trận sai số, tươngtự cho luồng quang học .49

3.17 Sơ đồ của MemAE được đề xuất Đơn vị định địa chỉ bộ nhớ lấy mã hóaz làm truy vấn để lấy các trọng số định địa chỉ Các khe bộ nhớ có thểđược sử dụng để mô hình hóa toàn bộ mã hóa hoặc các đặc trưng trênmột điểm ảnh của mã hóa .51

3.18 Bên phải là hình ảnh video chứa bất thường nằm trong các ô màu đỏ,bên giữa là ma trận sai số nếu dừng mạng tự mã hoá bình thường, bêntrái là ma trận sai số dùng mạng tự mã hoá kết hợp với mô-đun nhớ .52

Trang 12

3.19 Tổng quan về sơ đồ của để tạo lại khung video Mô hình chủ yếu baogồm ba phần: bộ mã hóa, mô-đun bộ nhớ và bộ giải mã Bộ mã hóatrích xuất một ma trận truy vấn qtcó kích thước H× W × C từ mộtkhung video đầu vào It tại thời điểm t Mô-đun bộ nhớ thực hiện việcđọc và cập nhật các mục pm có kích thước 1× 1 × C bằng cách sử dụngtruy vấn qtk có kích thước 1× 1 × C, trong đó số mục và truy vấn lầnlượt là M và K và K = H× W Ma trận truy vấn qtđược nối với cácmục tổng hợp Sau đó, bộ giải mã nhập chúng để tái tạo lại khung hìnhvideo ˆIt Đối với nhiệm vụ dự đoán, tác giả nhập bốn khung video liêntiếp để dự đoán khung thứ năm .533.20 Tổng quan về HF2-VAD được đề xuất tích hợp xây dựng lại luồng tái

dựng và dự đoán khung hình thành một khuôn khổ thống nhất Đầutiên, tái tạo lại các luồng quang y1:t bằng bộ tự động mã hóa với cácmô-đun bộ nhớ nhiều cấp và bỏ qua các nối tắt để có được ˆy1:t Sau đó,các luồng quang học được tái tạo cùng với các khung video x1:t được sửdụng bởi một hình CVAE để dự đoán khung hình tiếp theo trong tươnglai Nếu một sự kiện bất thường xảy ra, (1) các luồng quang học đượctái tạo ˆy1:t sẽ hiển thị lỗi tái tạo đáng kể đối với đầu vào của nó y1:t,(2) sử dụng ˆy1:tlàm điều kiện để hướng dẫn dự đoán khung hình trongtương lai, lỗi dự đoán (tức là, sự khác biệt giữa ˆxt+1 và xt+1) sẽ đượctăng lên hơn nữa 553.21 Các ví dụ trực quan về so sánh dự đoán khung với các phương pháp

khác nhau Từ trên xuống dưới, hiển thị dữ liệu bình thường và bấtthường Từ trái sang phải, hiển thị (a) ảnh gốc, (b) kết quả dự đoáncủa HF2-VAD, (c) bản đồ chênh lệch của HF2-VAD, (d) bản đồ sai sốcủa VEC , và (e) bản đồ khác biệt của MNAD-P Các con số trong mỗibản đồ lỗi biểu thị sai số tổng bình phương tương ứng giữa giá trị ảnhgốc và khung dự đoán Các màu sáng hơn trong bản đồ lỗi biểu thị saisố dự đoán lớn hơn .563.22 Hai kiến trúc mô-đun nhớ thông dụng cho phát hiện bất thường hiện tại 593.23 Phương pháp học bộ nhớ bằng việc phân cụm hoá miền ẩn [4] 593.24 Phương pháp học bộ nhớ bằng gradient descent [5] 603.25 Bên trái là luồng quang đầu vào bên phải là luồng quang được tái tạo.613.26 Kiến trúc tái tạo luồng quang trên bài báo gốc .623.27 Kiến trúc dự đoán luồng quang chỉnh sửa từ bài báo gốc .623.28 Biểu đồ biểu thị AUC trung bình trên 10 lần chạy theo số lượng luồng

quang dự đoán được cho vào cùng một lúc .633.29 Chuỗi các hình ảnh và luồng quang liên tiếp .643.30 Hai loại điều kiện y1:t và ˆy1:t làm điều kiện .663.31 Hai hình trên là kết quả dự đoán của mô hình lấy luồng quang gốc làm

điều kiện, hình dưới lấy luồng quang dự đoán làm điều kiện Các cộtlần lượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆxt+1 luồngquang gốc y1:t và luồng quang dự đoán ˆy1:t 67

Trang 13

3.32 Sơ đồ trên lấy luồng quang dự đoán ˆy1:t làm điều kiện, tắt hết các nốitắt chỉ giữ lại một và sử dụng một kiến trúc Unet đơn giản để điều chỉnh

lượng thông tin đi qua nối tắt này 68

3.33 Kết quả dự đoán của cấu hình unet độ sâu mạng cao nhất Các cột lầnlượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆxt+1 luồngquang gốc y1:tvà luồng quang dự đoán ˆy1:t 68

3.34 Kết quả dự đoán của cấu hình unet độ sâu giảm đi Các cột lần lượt từtrái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆxt+1 luồng quang gốcy1:t và luồng quang dự đoán ˆy1:t 69

3.35 Kết quả dự đoán của cấu hình unet nông nhất Các cột lần lượt từ tráisang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆxt+1 luồng quang gốc y1:tvà luồng quang dự đoán ˆy1:t 69

4.1Chuỗi khung hình và luồng quang của một đối tượng .72

4.2Đầu tiên, Luồng quang ˆy1:t được dự đoán bằng bộ tự động mã hóa vớicác mô-đun nhớ nhiều cấp Sau đó, các luồng quang đã được dự đoáncùng với các khung video x1:tđược cho vào một mô hình CVAE để dựđoán khung hình tiếp theo ˆxt+1 .73

4.3Đầu tiên, Luồng quang ˆy1:t được dự đoán bằng bộ tự động mã hóa vớicác mô-đun nhớ nhiều cấp Sau đó, các luồng quang đã được dự đoáncùng với luồng quang gốc y1:t và các khung video x1:t được cho vào mộtmô hình CVAE để dự đoán khung hình tiếp theo ˆxt+1 74

4.4Đầu tiên, mặt nạ ˆm1:t được dự đoán bằng bộ tự động mã hóa với cácmô-đun nhớ nhiều cấp Sau đó, các mặt nạ đã được dự đoán cùng vớicác khung video x1:t được cho vào một mô hình CVAE để dự đoán khunghình tiếp theo ˆxt+1 .75

4.5Đầu tiên, Luồng quang ˆy1:t, ˆm1:t+1 được dự đoán bằng 2 bộ tự động mãhóa với các mô-đun nhớ nhiều cấp riêng biệt Sau đó, các luồng quangcùng mặt nạ đã được dự đoán và các khung video x1:t được cho vào mộtmô hình CVAE+ để dự đoán khung hình tiếp theo ˆxt+1 75

4.6Mô hình ML-MemAE-SC 76

4.7Mô hình CVAE 77

4.8Mô hình CVAE+ nhiều điều kiện 78

5.1Một khung video bất thường trên Ped2 với bất thường là đối tượng đixe đạp và ô tô 82

5.2Một khung video bất thường trên ShanghaiTech với đối tượng bất thườnglà đối tượng đi xe đạp .83

5.3Một khung video bất thường trên Avenue với đối tượng bất thường làđối tượng tung vật lạ .83

5.4Một số khung video bình thường trên UCF-Crime .84

5.5Một đoạn video bất thường trên UCF-Crime 84

5.6Một đoạn video bất thường trên UCF-Crime 85

5.7Một đoạn video bất thường trên UCF-Crime 85

Trang 14

5.8Một khung video bình thường ở bộ Quang Trung - Đà Nẵng .865.9Một đoạn video bất thường ở bộ dữ liệu Quang Trung - Đà Nẵng .865.10 Biểu đồ minh hoạ việc trích xuất các khung bao của các đối tượng tiền

cảnh .875.11 Biểu đồ minh hoạ ROC và AUC 885.12 So sánh giữa phương pháp cũ và mới, trong đó trong ô màu xanh là

phương pháp mới, từ trái qua lần lượt là luồng quang gốc, luồng quangdự đoán hoặc tái tạo, ảnh thật, ảnh dự đoán 905.13 So sánh giữa phương pháp cữ và mới, trong đó trong ô màu xanh là

phương pháp mới, từ trái qua lần lượt là luồng quang gốc , luồng quangdự đoán hoặc tái tạo, ảnh thật, ảnh dự đoán 915.14 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên trái

cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng,các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thườngtừ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 làảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10 là chuỗiluồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆy1:t.925.15 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên

trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tươngứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bấtthường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dựđoán ˆy1:t 925.16 Ảnh minh hoạ các khung video có đám đông trên tập kiểm tra của hai

tập dữ liệu Avenue và Ped2 .935.17 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh

bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạttương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểmbất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t,cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10là chuỗi mặt nạ m1:t, chuỗi 11 đến 14 là chuỗi mặt nạ dự đoán ˆm1:t .955.18 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh

bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạttương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểmbất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t,cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10là chuỗi mặt nạ m1:t, chuỗi 11 đến 14 là chuỗi mặt nạ dự đoán ˆm1:t .965.19 Hai ảnh liền nhau kề tương ứng với khung ảnh thật và khung ảnh dự

đoán .965.20 Bên trên lần lượt là biểu đồ điểm bất thường theo thời gian của 2 phương

pháp đo độ bất thường bằng MSE và SSIM, bên dưới là hình ảnh dựđoán tại khung ảnh thứ 125 trên bộ dữ liệu ShanghaiTech .97

Trang 15

5.21 Bên trên lần lượt là biểu đồ điểm bất thường theo thời gian của 2 phươngpháp đo độ bất thường đo bằng MSE và SSIM, bên dưới là hình ảnh dựđoán tại khung ảnh thứ 94 trên bộ dữ liệu ShanghaiTech .975.22 So sánh độ đo bất thường bên trên là SSIM bên dưới là MSE trên kết

quả hình ảnh của bộ dữ liệu Avenue .985.23 Đám đông ở bộ dataset Avenue kèm hình ảnh mờ khi chuyển động, mặt

nạ bị đè lên nhau gây ra kết quả không rõ ràng tách bạch .985.24 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh

bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạttương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểmbất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t,cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quangdự đoán ˆy1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24là chuỗi mặt nạ dự đoán ˆm1:t+1 1015.25 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh

bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạttương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểmbất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t,cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quangdự đoán ˆy1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24là chuỗi mặt nạ dự đoán ˆm1:t+1 1015.26 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên

trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tươngứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bấtthường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dựđoán ˆy1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 làchuỗi mặt nạ dự đoán ˆm1:t+1 1025.27 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên

trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tươngứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bấtthường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dựđoán ˆy1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 làchuỗi mặt nạ dự đoán ˆm1:t+1 103

Trang 16

5.28 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên tráicùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng,các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thườngtừ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 làảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10 là chuỗiluồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆy1:t,từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 là chuỗi mặtnạ dự đoán ˆm1:t+1 1035.29 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên trái

cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng,các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thườngtừ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 làảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆxt+1, từ cột 7 đến 10 là chuỗiluồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆy1:t,từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 là chuỗi mặtnạ dự đoán ˆm1:t+1 1045.30 Kết quả phát hiện bất thường trên một số khung video của bộ dữ liệu

UCF-Crime với bên trên là kết quả của mô hình dự đoán chuyển độngkèm luồng quang gốc làm điều kiện, bên dưới là mô hình gốc 1065.31 Kết quả phát hiện bất thường trên một số khung video của bộ dữ liệu

UCF-Crime với bên trên là kết quả của mô hình dự đoán chuyển độngkèm luồng quang gốc làm điều kiện, bên dưới là mô hình gốc 1075.32 Bên trên là ảnh ở khung video thứ 369, dưới mô tả điểm bất thường của

toàn bộ video và nhãn 1085.33 Một khung video tai nạn của camera 130 Quang Trung với khung ảnh

bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạttương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh cóđiểm bất thường từ cao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầu vàox1:t+1, cột 6 là ảnh tái tạo ˆxt, từ cột 7 đến 10 là chuỗi luồng quang gốcy1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆy1:t 1095.34 Một khung video bình thường của camera 130 Quang Trung với khung

ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tớinhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnhcó điểm bất thường từ cao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầuvào x1:t+1, cột 6 là ảnh tái tạo ˆxt, từ cột 7 đến 10 là chuỗi luồng quanggốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆy1:t 1095.35 Các khung video bình thường có sai số cao với khung ảnh bên trái cùng

các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, cácô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từcao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầu vào x1:t+1, cột 6 là ảnhtái tạo ˆxt, từ cột 7 đến 10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14là chuỗi luồng quang dự đoán ˆy1:t 110

Trang 17

2.1Bảng chú thích các ký hiệu trong mạng mã hoá tự động 143.1Bảng so sánh việc tái tạo và dự đoán luồng quang 643.2Bảng so sánh kết quả tổng quát nếu chỉ sử dụng dự đoán chuỗi luồng

quang để phát hiện bất thường của phương pháp đề xuất, phương phápgốc và các công trình liên quan .655.1Bảng so sánh kết quả của phương pháp đề xuất dựa vào độ thay đổi các

cấu hình trên luồng quang với các công trình liên quan .935.2Bảng so sánh kết quả của phương pháp đề xuất dựa vào độ thay đổi các

cấu hình trên luồng quang và độ đo SSIM với các công trình liên quan.945.3Bảng so sánh kết quả của các cấu hình đề xuất khác nhau so với phương

pháp gốc .995.4Bảng so sánh kết quả của luận văn với các công trình liên quan với kết

quả cải tiến trên cả 3 bộ dữ liệu 1005.5Bảng so sánh kết quả của luận văn với phương pháp gốc khi chỉ dùng

dự đoán hình ảnh để phát hiện bất thường với bên trên là phương phápcủa mô hình gốc và bên dưới là mô hình đề xuất 1005.6Bảng so sánh kết quả trên video tai nạn của bộ UCF-Crime 1055.7Bảng so sánh kết quả trên bộ dữ liệu giao thông ở Đà Nẵng 108

Trang 18

Giới thiệu đề tài

1.1Đặt vấn đề

Tai nạn giao thông không chỉ là vấn đề của Việt Nam nói riêng mà còn là vấnđề toàn cầu nói chung Theo Tổ chức Y tế Thế giới (WHO) mỗi năm, 1,35 triệungười chết do tai nạn giao thông đường bộ, bên cạnh đó còn có thêm từ 20 đến50 triệu người bị thương từ những vụ tai nạn trên Hơn nữa, 90 % số ca tử vongdo tai nạn giao thông đường bộ là ở các nước có thu nhập thấp và trung bình.

Ở Việt Nam chúng ta, có gần 10000 người chết vì tai nạn giao thông mỗinăm Theo thông tin từ Bộ Công an, từ năm 2009 đến tháng 5-2019, toàn quốcxảy ra 326.299 vụ tai nạn giao thông đường bộ, làm chết 97.721 người, bị thương329.756 người Riêng năm 2018 xảy ra 18.499 vụ, làm chết 8.079 người, bị thương14.732 người.

Như vậy, trong 10 năm qua, bình quân mỗi năm có gần 10.000 người chết vìtai nạn giao thông, trong đó đa số người bị tai nạn đang trong độ tuổi lao động,gây nhiều hệ lụy cho xã hội Nguyên nhân trực tiếp, chủ yếu gây ra tai nạn giaothông cụ thể do người tham gia giao thông gây ra chiếm 80

Cùng với sự phát triển hiện đại hóa của thành phố Hồ Chí Minh đi lên thànhphố xanh và thông minh theo dự kiến của các ban ngành lãnh đạo thành phố,Hiện có hơn 760 camera giao thông quét khắp thành phố, với hơn 760 cameraquét qua nhiều ngõ ngách truyền về 57 màn hình tại Trung tâm Giám sát vàđiều khiển giao thông thông minh (đặt tại Trung tâm Quản lý đường hầm sông

Trang 19

Sài Gòn, TP.HCM), hoạt động 24/24 giờ, toàn bộ giao thông ở TP.HCM đượcgiám sát.

Cùng với điều kiện thuận lợi về số lượng camera quan sát khắp thành phốnhư trên thì việc tạo ra mô hình tự động để giám sát 24/7 và phát hiện các tainạn, bất thường trên các luồng giao thông cho toàn bộ hệ thống camera là điềuthật sự cần thiết Các ưu điểm của camera giám sát giao thông của thành phốso với các camera thông thường được đặt ở mặt đất có thể kể đến như sau: chếđộ xem ở trên cao mang lại góc nhìn rộng, xa vào bao quát hơn trong một phạmvi lớn với các phương tiện qua lại dày đặt Bên cạnh đó, các camera giao thôngcó thể được sử dụng ở nơi công cộng cho một lượng lớn phương tiện hàng ngày,do đó, chi phí cho mỗi phương tiện mỗi ngày thấp hơn, đem lại lợi ích tết kiệmvề kinh tế cho hoạt đông giám sát.

Với các điều kiện về camera dày đặc khắp thành phố được nêu ở trên kèmtheo sự phát triển của ngành học sâu và các thiết bị tính toán phần cứng ngàycàng hiện đại như GPU của NVIDIA, FPGA của Xilinx, Giải bài toàn pháthiện tai nạn và các bất thường trong giao thông là công việc khả thi và cầnthiết Xong, bên cạnh các lợi thế nêu trên, bài toàn phát hiện tai nạn và bấtthường trong giao thông vẫn cần nhiều thách thức như:

Về dữ liệu: dữ liệu cho tai nạn giao thông thường hiếm vì lý do không phảilúc nào các tai nạn giao thông cũng có thể được camera ghi nhận lại, hoặc nếucó ghi nhận lại thì cũng có thể không ghi nhận được toàn cảnh vụ tai nạn Mặtkhác về chất lượng dữ liệu, các camera ghi nhận được tai nạn giao thông thườnggồm hai loại chính là camera hành trình và camera giám sát, vì tính chất lưu trữliên tục nên chất lượng của các loại camera này thường thấp hơn bình thường,khó có thể bắt được các tai nạn một các chi tiết vì các tai nạn thường xảy ravới tốc độ rất nhanh Điều kiện pháp lý cũng một cản trở đối với việc chia sẻ dữliệu tai nạn giao thông rộng rãi Vì vậy có thể kết luận được rằng, dữ liệu chấtlượng phục vụ cho việc nhận dạng tai nạn giao thông thường rất ít, sự mất cânbằng trên cũng được nêu ra ở hầu hết các nghiên cứu về phát hiện tai nạn giaothông tiêu biểu như [6], Một số nghiên cứu khác cũng tìm các giải quyết vấn đềdữ liệu về tai nạn giao thông như: [7] Xong dữ liệu vẫn chưa đủ để xây dựngmột mô hình học giám sát hoàn chỉnh vì độ đa dạng của tai nạn Hiện tại việctiếp cận các bài toán toàn phát hiện bất thường này vẫn ưu tiên nghiên về là

Trang 20

học giám sát một phần, hoặc học không giám sát [2].

Về tính chất của của tai nạn: Tai nạn thường diễn ra rất nhanh bất ngờ vàđột ngột, chính vì vậy việc tối ưu quá quá trình nhận dạng cũng là một bài toánđược đặt ra Các công trình nghiên cứu như [2] sử dụng quá nhiều mô hình nhưcả Object Detection, Optical Flow, Mạng Nơ-ron hồi tiếp GRU và thêm các tínhtoán logic khác khá hợp lý để đưa ra kết quả với độ chính xác cao, nhưng lạiđòi hỏi chi phí lớn cho phần cứng để đáp ứng việc nhận dạng ở thời gian thựcđối với một vụ tai nạn có thời gian diễn ra rất nhanh.

Thêm vào đó về độ đa dạng vào sự bao quát: như đã trình bày ở trên, cácvụ tai nạn và bất thường đều hiếm gặp và có độ đa dạng rất cao, các nạn hầunhư rất ít điểm chung trừ việc hai phương tiện giao nhau với tốc độ cao, ngaycả việc giao nhau này cũng rất dễ nhận dạng nhằm trong điều kiện giao thôngdi chuyển dày đặt và đông đúc Vì thế việc chọn lựa, trích xuất đặc trưng cũnglà một việc khó khăn Các nghiên cứu đều tận dụng 2 đặc trưng chính là đặctrưng về hình ảnh như ảnh RGB hoặc ảnh xám, đặc trưng thứ hai và về chuyểnđộng như Optical Flow để hô hình hóa một vụ tai nạn [8] Nhưng, việc mô hìnhhóa này chưa đem lại được sự thống nhất chung cho cả 2 loại đặc trưng Trongmỗi nghiên cứu từng bộ dữ liệu, các nhóm tác giả đều thử nghiệm nhiều trườnghợp và chọn lọc so sánh giữa hai loại đặc trưng, hoặc kết hợp cả hai Chính vìthế việc tạo nên mô hình tổng quát để mô hình hóa chung cho giao thông làthật sự cần thiết.

Điều kiện quan sát: vì các camera được đặt ngoài trời và điều kiện quan sátgiao thông là ngoài trời nên chịu ảnh hưởng trực tiếp từ thời tiết và khí hậu,ngày – đêm, mưa lớn, sương mù, ngược sáng, ánh đèn ô tô chiếu thẳng vàocamera Các điều kiện ngoại cảnh này là một khó khăn không nhỏ cho việc nhậndạng và chọn lựa các mô hình phát hiện đối tượng Các nghiên cứu đa phần đềugiới hạn ở điều kiện thời tiết tốt để triển khai, một số cố gắng cải thiện chấtlượng hình ảnh bằng thuật toán Retinax [9] cũng đạt hiệu quả cả thiện chấtlượng hình ảnh nhưng không giải quyết được triệt để nếu điều kiện thời tiết quáxấu do kết quả của họ phụ thuộc trực tiếp vào mô hình Yolo.

Bên cạnh các thách thức khách quan trên, cũng còn tồn tại một số yếu tố chủquan khác trong nghiên cứu về tai nạn như các bộ dữ liệu không được chia sẽrộng rãi nên phần nào cũng làm việc so sánh, đánh giá các giải thuật gặp nhiều

Trang 21

trở ngại do không có bộ dữ liệu chung, thống nhất.

Như vậy tóm lại, Phát hiện tai nạn và các tình huống bất thường cho videogiao thông là bài toán vừa có ý nghĩa thực tiễn vừa có ý nghĩa khoa học Bàitoán có nhiều các khó khăn đã nêu ở trên nhưng bên cạnh đó có nhiều thuận lợivề việc số lượng các nghiên cứu về video nói chung và phát hiện bất thường chovideo nói riêng tăng trong những năm gần đây giúp luận văn có nhiều ý tưởngkế thừa từ các nghiên cứu phía đó để thiết kế một môt hình tốt.

1.2Mục tiêu nghiên cứu

Với những tiềm năng rất đang mong đợi của các mạng nơ-ron học sâu, trongnghiên cứu tôi tận dụng các thế mạng của những mạng nơ-ron cụ thể ở đây làmạng Conditional Variational Autoencoder ( mã hoá tự động biến thể có điềukiện ) sự xuất hiện của hình ảnh và chuyển động vào việc phát hiện bất thườngvà tai nạn.

Nghiên cứu sẽ sử dụng những tập dữ liệu về video giao thông từ camera giámsát đặt cố định như UCSD Ped2, Avenue, ShanghaiTech, UCF-Crime và một sốvideo tai nạn ở Việt Nam để huấn luyện và đánh giá hiệu quả của mô hình.

Ngoài ra, nghiên cứu cũng so sánh với các cách tiếp cận khác trong khoảngthời gian gần đây Từ những kết luận rút ra, cho ta thấy được cái nhìn tổngquan của các cách tiếp cận, và những yếu tố nào quan trọng khi áp dụng vàothực tiễn.

1.3Ý nghĩa đề tài

Cùng với việc tăng nhanh của số lượng camera hiện tại và các nghiên cứugần đây dần tập trung vào xử lý video Luận văn thực hiện đề tài hẹp hơn chovideo là video giao thông với các đặc thù riêng Qua đó, đề tài đạt được một sốý nghĩa sau đây cả về thực tiễn lẫn khoa học.

Ý nghĩa thực tiễn:

– Góp phần giảm chi phí thuê người giám sát các camera giao thông.

– Góp phần đáp ứng nguồn nhần lực giám sát camera giao thông khi số lượngđang tăng lên nhanh chóng như hiện nay ở nhiều thành phố lớn, cao tốc và

Trang 22

– Chỉ ra điểm mạnh và yếu của phương pháp hiện tại và đưa ra thêm nhiềugợi ý để cải tiến cho các nghiên cứu tiếp theo.

1.4Kết quả đạt được

Trong nghiên cứu này, chung tôi xây dựng thành công mô hình từ việc kếthừa mạng sinh từ nghiên cứu [1] để tối ưu hoá ràng buộc giữa việc tạo sinhhình ảnh và một số điều kiện liên quan mật thiết với nó trên không gian nhưluồng quang và mặt nạ tiền cảnh Đảm bảo cân bằng được tính quá khớp vừađủ để phát hiện bất thường trên tập dữ liệu kiểm tra và vẫn duy trì tính tổngquát hoá tốt để dự đoán được các hình ảnh bình thường của tập kiểm tra Kếtquả đạt được với độ cải thiện AUC trên Ped2, Avenue và Shanghaitech so vớimô hình gốc và kết quả lần lượt là 99.82%, 91.26% và 79,68% Bên cạnh đó bàiluận cũng thử ứng dụng vào phát hiện tai nạn trên UCF-Crime và một bộ dưliệu tự chuẩn bị trên đường phố Việt Nam cho thấy có thể có khả năng để giảiquyết vấn đề phát hiện tại nạn và bất thường tự động trong tương lai.

1.5Cấu trúc của luận văn

Cấu trúc của luận văn được tổ chức như sau:

Trang 23

– Chương 1 - Giới thiệu đề tài: nhằm giới thiệu tổng quan về bài toán pháthiện tai nạn và bất thường cho video giao thông các khó khăn và hướng giảiquyết.

– Chương 2 - Cơ sở lý thuyết: trình bày những lý thuyết liên quan được sửdụng trong bài nghiên cứu.

– Chương 3 - Tổng quan tình hình nghiên cứu: bao gồm các công trình nghiêncứu liên quan đến bài toán phát hiện bất thường trong video, các hướngtiếp cận, phân tích các ưu và nhược điểm để có thể khắc phục và tăng cườngtrong phương pháp đề xuất.

– Chương 4 - Phương pháp nghiên cứu: trình bày cụ thể mô hình đề xuất vàcách thức mô hình hoạt động.

– Chương 5 - Kết quả thực nghiệm: phân tích đặc điểm của các bộ dữ liệuđược sử dụng trong bài toán, các phương pháp đánh giá, kết quả đánh giácủa mô hình đề xuất và so sánh với công trình gần đây.

– Chương 6 - Kết luận: nêu ra các kết luận đúc kết được trong quá trìnhnghiên cứu và hướng phát triển tiếp theo trong tương lai.

Trang 24

Cơ sở lý thuyết

Sau đây là trình bài ngắn gọn các lý thuyết được sử dụng trong luận văn,trong mỗi phần bao gồm các phần trình bài về lý thuyết và phần tổng kết nhậnxét tính ứng dụng các lý thuyết đó cho đề tài ở cuối.

2.1Bất thường và phát hiện bất thường2.1.1Bất thường

Nhiều nỗ lực đã được thực hiện trong cộng đồng thống kê và khoa học máytính để xác định sự bất thường Những thứ phổ biến nhất bao gồm:

Một ngoại lệ là một quan sát sai lệch quá nhiều so với các quan sát khác đểlàm dấy lên nghi ngờ rằng nó được tạo ra bởi một cơ chế khác.

Dị thường là các trường hợp hoặc tập hợp các mẫu dữ liệu rất hiếm khi xảyra trong tập dữ liệu và có các tính năng khác biệt đáng kể so với hầu hết dữliệu.

Ngoại lệ là một quan sát (hoặc một tập hợp con các quan sát) dường nhưkhông phù hợp với phần còn lại của tập dữ liệu đó Điểm dị thường là một điểmhoặc tập hợp các điểm tương đối xa với các điểm khác trong không gian đa chiềucủa các miền phân bố.

Dị thường là các mẫu trong dữ liệu không tuân theo một khái niệm đượcxác định rõ ràng về hành vi bình thường Gọi T là các quan sát từ phân phốiGaussian đơn biến và O là một điểm từ T Khi đó, Z-score của O lớn hơn ngưỡng

Trang 25

Hình 2.1: Minh hoạ các điểm bất thường màu cam nằm xa các cụm phân bốchính.

được chọn trước nếu và chỉ O là một ngoại lệ.

Tính năng phát hiện bất thường có thể áp dụng trong một số lượng rất lớnvà nhiều lĩnh vực khác nhau và là một phân khu quan trọng của học máy khôngđược giám sát Vì vậy, nó có các ứng dụng trong phát hiện xâm nhập an ninhmạng, phát hiện gian lận, phát hiện lỗi, giám sát tình trạng hệ thống, phát hiệnsự kiện trong mạng cảm biến, phát hiện nhiễu loạn hệ sinh thái, phát hiện lỗitrong hình ảnh bằng thị giác máy, chẩn đoán y tế và thực thi pháp luật.

Nó thường được sử dụng trong tiền xử lý để loại bỏ dữ liệu bất thường khỏitập dữ liệu Điều này được thực hiện bởi vì cần: Thống kê dữ liệu như giá trịtrung bình và độ lệch chuẩn sẽ chính xác hơn sau khi loại bỏ các điểm bất thườngvà việc hiển thị dữ liệu cũng có thể được cải thiện Trong học tập có giám sát,việc xóa dữ liệu bất thường khỏi tập dữ liệu thường dẫn đến sự gia tăng đángkể về mặt thống kê về độ chính xác Sự bất thường cũng thường là những quansát quan trọng nhất trong dữ liệu được tìm thấy chẳng hạn như trong phát hiệnxâm nhập hoặc phát hiện bất thường trong hình ảnh y tế.

2.1.2Phát hiện bất thường

Phát hiện bất thường là bài toán phát hiện các mẫu và sự kiện hiếm khi xuấthiện hoặc thậm chí không tồn tại trong dữ liệu huấn luyện Một các nói khác,phát hiện bất thường là bài toán phát hiện các mẫu với đặc điểm là chưa từngđược thấy Tổng quát hoá, bài toán phát hiện bất thường có một số lượng lớncác mẫu bình thường và có thể mô hình hoá chúng bằng nhiều cách, các bất

Trang 26

thường cần được phát hiện có thể thuộc một hoặc nhiều phân bố nằm ngoài cácphân bố của các mẫu bình thường Đặc điểm mẫu bất thường là rất ít, hiểm gặpvà hầu như không thể ước lượng được phân phố cũng như không thể dự đoántrước được các đặc điểm xuất hiện Vì vậy, rất khó để xây dựng mô hình chocác mẫu bất thường, bài toán sẽ xoay quanh việc mô hình hoá thật tốt các mẫudữ liệu bình thường, từ đó dùng nhiều phương pháp khác nhau để đánh giá độbất thường của một mẫu kiểm tra.

Mô hình hoá bài toán như sau, chúng ta có U hình ảnh hoặc các khung ảnhtừ video được định nghĩ bỡi ký hiện XN, các mẫu này nằm trong phân bố củacác mẫu bình thường pN tương đương công thức (x ∈ XN) ∼ pN Phát hiện bấtthường là bài toán kiểm định xem mẫu dữ liệu y có thuộc phân bốpN hay không,nếu không thuộc phân bố pN thì mẫu dữ liệu y được coi như là bất thường.

AD(F (y))

NormalD (F (y), pN) ≤ τAnomalyOtherwise

với D là độ đo giữa các đặc trưng của mẫu cần kiểm tra và phân bố các mẫubình thườngpN, phép biển đổiF là phép trích xuất đặc trưng từ mẫu dữ liệu thôvề tập hợp các đặc trưng tinh hơn và khả phân Dựa vào các mẫu bình thườngsẵn có N, các mẫu bất thường A và các mẫu chưa được phân loại U trong tậphuấn luyện sẵn có mà chúng ta có nhiều phương pháp trích xuất đặc trưng Fvà độ đo D khác nhau.

Nhiều kỹ thuật phát hiện dị thường đã được đề xuất Một số kỹ thuật phổbiến là:

– Thống kê (điểm Z, kiểm định Tukey và kiểm định Grubbs)– Các kỹ thuật dựa trên mật độ (K - láng giềng gần nhất)– Không gian con, dựa trên tương quan

– Vectơ hỗ trợ một lớp

– Mạng thần kinh tái tạo, bộ mã tự động, bộ mã tự động biến thể, mạngnơ-ron bộ nhớ ngắn dài hạn Các mạng Bayes

– Mô hình Markov ẩn (HMM)

Trang 27

– Phân cụm: Phát hiện ngoại lệ dựa trên phân tích cụm– Phát hiện ngoại lệ dựa trên logic mờ

Hiệu suất của các phương pháp phụ thuộc vào tập dữ liệu và các tham số.

2.1.3Phát hiện bất thường cho video

Trong phần này chúng ta sẽ nói về các kỹ thuật phát hiện bất thường củavideo cơ bản:

Hình 2.2: Ảnh minh hoạ về số bất thường trong video cho một số mẫu dữ liệu.Trong đó hàng 1 và 3 biểu diễn khung hình bình thường và hàng 2 và 4 biềudiễn khung hình bất thường.

Mô hình dựa trên tái tạo

Các trường hợp bất thường thường khan hiếm so với các trường hợp bìnhthường Để giải quyết vấn đề này, các phương pháp phát hiện dị thường dựatrên cấu trúc lại thường tìm hiểu các đặc trưng về các hành vi bình thường theocách học không giám sát Ý tưởng cơ bản của mô hình tái tạo là cấu trúc lại dữliệu bình thường với giá trị độ lỗi tái tạo thấp làm cho phân phối của mẫu táitạo gần hơn với dữ liệu đào tạo Tương ứng, lỗi xây dựng lại dữ liệu bất thườngđược mong đợi là cao hơn Tự động mã hoá nhiều tầng được sử dụng phổ biếnnhất mô hình trong các mô hình mạng sinh, bao gồm một Bộ mã hóa để nén

Trang 28

vec-tơ đầu vào thành một vec-tơ ẩn và Bộ giải mã để dựng lại vec-tơ đầu vàotừ vec-tơ ẩn Mục tiêu của mạng là giảm thiểu lỗi tái tạo L giữa vec-tơ đầu vàovà vec-tơ được tái tạo.

Mô hình dự đoán

Video bao gồm một loạt các khung ảnh, có thể là được xem như một trật tựcủa các tín hiệu không gian và thời gian Nhiệm vụ của một mô hình dự đoánlà dự đoán khung t bằng cách dựa vào p khung trong quá khứ, có thể được biểuthị bằng:

x′t= h (xt−1, xt−2, , xt−p)(2.3)Hàm mất mát của một mô hình dự đoán được xây dựng dựa trên khung hìnhmục tiêu thực và khung hình dự đoán của nó:

Các mô hình sinh thường chứa một kiến trúc để tạo các khung dựa trên phân

Trang 29

phối Gaussian, chẳng hạn như mạng đối kháng tạo sinh (GAN) GAN bao gồmmột bộ sinh và một bộ phân biệt Vai trò của bộ sinh là cố gắng xấp xỉ hoá mộtphân phối dữ liệu mới theo phân phối thực tế của dữ liệu thực và bộ phân biệtlà phân biệt xem dữ liệu đang trích xuất từ dữ liệu thực hay dữ liệu được tạosinh Các hàm mất mát của GAN được biểu thị như sau:

L = 1m

[log D (xi) + log (1 − D (G (zi)))](2.5)Phần trước của hàm này nhằm mục đích tối đa hóa xác suất xác định dữ liệuthực, và sau đó là phân biệt dữ liệu được tạo Ở đây, bộ tạo sinh và bộ phânbiệt có thể là bất kỳ loại kiến trúc mạng nơ-ron nào, như CNN Khác nhau từcác mô hình khác, GAN có thể hoạt động như một mô hình tự động hoàn toànbằng cách huấn luyện đồng thời bộ tạo sinh và bộ phân biệt.

Hơn nữa, bộ tạo sinh có thể tạo ra các mẫu bất thường đồng thời Do đó,GAN là một trong những mô hình được sử dụng trong phát hiện bất thườngvideo Mặc dù có những ưu điểm, GAN vẫn mắc phải một số khiếm khuyếtkhông thể tránh khỏi, bao gồm đào tạo tốn kém, không ổn định, khó sinh ramẫu tốt và mô hình bị sụp đỗ.

Các mô hình phân loại một lớp

Trong phát hiện bất thường, phân loại nhiều lớp để phát hiện của video bấtthường là rất khó Khi phát hiện video bất thường, các nhà nghiên cứu thườngcoi bất cứ điều gì khác biệt đáng kể so với hành vi bình thường được gọi là bấtthường Do đó, nhiệm vụ phát hiện bất thường không có nhãn bất thường cóthể được xem như một vấn đề phân loại một lớp (OCC) Ý tưởng cốt lõi của loạimô hình này trong phát hiện video bất thường là tìm một siêu cầu bao quanhcác đặc trưng của dữ liệu thông thường Bất kỳ điểm dữ liệu nào không baogồm trong siêu cầu này sẽ được coi là bất thường Sự kết hợp giữa học sâu vàcác mô hình OCC có thể được đào tạo để học cách biểu diễn đối tượng mật độmẫu cục bộ với mục tiêu phân loại một lớp chung Tuy nhiên, loại mô hình yêucầu thời gian đào tạo kéo dài.

Mô hình kết hợp

Mỗi loại mô hình đều có chức năng mục tiêu riêng và lợi thế cụ thể trong việcgiải quyết các nhiệm vụ phát hiện bất thường Do đó, các nhà nghiên cứu có

Trang 30

thể xem xét việc tạo ra nhiều mô hình phục vụ các khối khác nhau trong mộtmô hình, có thể tận dụng lợi thế của các mô hình khác nhau và cải thiện độchính xác phát hiện, bên trong mô hình kết hợp, các đặc trưng đã học được từhọc sâu có thể được chuyển sang các thuật toán truyền thống như bộ phân loạiSVM Vec-tơ đặc trưng thấp chiều làm cho các mô hình kết hợp có thể mở rộnghơn và hiệu quả về mặt tính toán, phù hợp để giải quyết nhiệm vụ phát hiệnbất thường video.

– Lựa chọn công cụ dùng để ước lượng phân bố xác suất của các đặc trưngbên trên Công cụ trên có thể là các mạng phân loại một lớp, mạng sinh,mạng rút trích đặc trưng sau đó phân cụm, Từ đó ước lượng được phânbố của dữ liệu bình thường.

– Tìm độ đo phù hợp để ước lượng độ bất thường của một mẫu dữ liệu kiểmtra Các độ đo này tuỳ thuộc vào phương pháp bên trên cũng như đặc thùbài toán.

Ở các phần tiếp theo chúng ta tiếp tục tiềm hiểu một số mô hình chung đểkhai thác đặc trưng không thời gian cũng như phát hiện bất thường cho videotrong luận văn.

2.2Mạng Mã hoá tự động

Mạng mã hoá tự động là mô hình mạng nơ-ron học sâu, mạng gồm hai thànhphần chính là bộ mã hoá và bộ giải mã được nối lần lượt liên tiếp nhau Hàmmục tiêu được học nhờ vào giải thuật lan truyền ngược của mạng nơ-ron.

Trang 31

Ký hiệu Ý nghĩa

D Bộ dữ liệu, D =

x(1), x(2), , x(n) , bao gồm n mẫu dữ liệu; |D| = n.x(i) Mỗi điểm dữ liệu là một véc-tơ d chiều, x(i) =hx(i)1 , x(i)2 , , x(i)d i.x Là một mẫu dữ liệu trong tập, x ∈ D.

x′ Kết quả được tái tạo lại của mẫu x.˜

x Mẫu biến thể của dữ liệu x.z Chiều ẩn được nén ở lớp cổ chai.

a(l)j Hàm kích hoạt cho nơ-ron thứ j ở lớp mạng thứ l.gϕ(.) Hàm mã hoá với tham số ϕ.

fθ(.) Hàm giải mã với tham số θ.

qϕ(z | x) Hàm ước lượng xác suất hậu nghiệm .

pθ(x | z) Likelihood của hàm sinh mẫu dữ liệu khi biết giá trị miền ẩn z.Bảng 2.1: Bảng chú thích các ký hiệu trong mạng mã hoá tự động

Bộ mã tự động được phát minh để tái tạo lại dữ liệu với số chiều lớn bằngcách sử dụng mô hình mạng nơ-ron với lớp nút cổ chai hẹp ở giữa Một công cụdùng để giảm chiều dữ liệu: lớp nút cổ chai nắm bắt một mã hóa ẩn được nén.Biểu diễn chiều thấp như vậy có thể được sử dụng để trích xuất véc-tơ nhúngtrong nhiều ứng dụng khác nhau, giúp nén dữ liệu hoặc trích xuất các yếu tốtạo ra dữ liệu cơ bản.

Mạng tự mã hoá là một mạng nơ-ron được thiết kế để huấn luyện theo phươngpháp học không giám sát nhằm tạo dựng lại đầu vào ban đầu và tạo ra mộtbiểu diễn nén của mẫu dữ liệu ấy Ý tưởng này bắt nguồn từ những năm 1980,và sau đó được quảng bá bởi bài báo của Hinton & Salakhutdinov, 2006

Mạng mã hoá tự động bao gồm hai mạng: Mạng mã hóa: Nó chuyển đầu vàokích thước cao ban đầu thành mã miền ẩn có chiều thấp hơn Kích thước đầuvào lớn hơn kích thước đầu ra Mạng giải mã: Mạng bộ giải mã khôi phục dữliệu từ mã miền ẩn a với các lớp đầu ra lớn hơn và lớn hơn.

Mạng mã hóa về cơ bản thực hiện việc giảm kích thước, giống như cách chúngta sử dụng Phân tích thành phần chính (PCA) hoặc Phân tích nhân tố ma trận(MF) Ngoài ra, trình mã tự động được tối ưu hóa rõ ràng cho việc xây dựng lạidữ liệu từ mã Một biểu diễn trung gian tốt không chỉ có thể thu được các biếntiềm ẩn mà còn có lợi cho quá trình giải nén đầy đủ.

Mô hình bao gồm hàm mã hoágϕ(.)với tham sốϕ, hàm giải mã fθ(.)với tham

Trang 32

LAE(θ, ϕ) = 1n

Trang 33

lượng Cần phần sau sẽ trình bày tiếp các phương pháp mạng sinh khác cải tiếncác điểm yếu này.

2.3Mạng mã hoá tự động biến thể

Ý tưởng về Variational Autoencoder ( mã hoá tự động biến thể ), viết tắtcủa VAE, thực sự ít giống với tất cả các mô hình mã hoá tự động thông thường,nhưng bắt nguồn sâu xa từ các phương pháp của mô hình đồ họa và mô hìnhbayes biến thể.

Thay vì ánh xạ đầu vào từ một vec-tơ cố định, mô hình muốn ánh xạ nóthành một phân phối Hãy gắn nhãn phân phối này làpθ, được tham số hóa bởiθ Mối quan hệ giữa đầu vào dữ liệu x và vec-tơ mã hóa tiềm ẩn có thể được xácđịnh đầy đủ bằng: Xác suất tiền nghiệmpθ(z), Hợp lý hoápθ(x|z), Xác suất hậunghiệm pθ(z|x).

Giả sử rằng chúng ta biết tham số thựcθ∗ cho bản phân phối này Để tạo mộtmẫu trông giống như một điểm dữ liệu thực x(i), chúng ta làm theo các bướcsau:

1 Đầu tiên, hãy lấy mẫu một z(i) từ một bản phân phối trước pθ∗(z).

2 Sau đó, một giá trịx(i)được tạo từ một phân phối có điều kiệnpθ∗(x|z = z(i)).Tham số tối ưu θ∗ là cách tối đa hóa xác suất tạo ra các mẫu dữ liệu thực:θ∗ = arg maxθQn

Thông thường, chúng ta sử dụng xác suất log để chuyển đổi tích trên về phảithành tổng: θ∗ = arg maxθPn

i=1log pθ(x(i))

Bây giờ, hãy cập nhật phương trình để chứng minh tốt hơn quá trình tạo dữliệu để liên quan đến vectơ mã hóa: pθ(x(i)) =R pθ(x(i)|z)pθ(z)dz

Thật không may, nó không phải là dễ dàng để tính toán pθ(x(i)) theo cáchnày, vì rất tốn kém để kiểm tra tất cả các giá trị z có thể có và tính tổng chúng.Để thu hẹp không gian giá trị để tạo điều kiện tìm kiếm nhanh hơn, chúng tamuốn giới thiệu một hàm gần đúng mới để xuất ra mã có khả năng là mã đượccung cấp đầu vào x, qϕ(z|x) được tham số hóa bởi ϕ.

Bây giờ cấu trúc trông rất giống một bộ mã tự động: Xác suất có điều kiệnpθ(x|z)xác định một mô hình tổng quát, tương tự như bộ giải mã fθ(x|z) đã giớithiệu ở trên pθ(x|z) còn được gọi là bộ giải mã xác suất Hàm xấp xỉ qϕ(z|x) là

Trang 34

Hình 2.4: Mô hình đồ họa liên quan đến Bộ mã tự động biến thể Các đườngliền nét biểu thị phân bố được sinh pθ(.) và các đường đứt nét biểu thị sự phânbố gần đúng qϕ(z|x) với phân bố hậu nghiệm pθ(z|x).

bộ mã hóa xác suất, đóng vai trò tương tự như gϕ(z|x) bên trên.

Hàm mục tiêu ELBO: Xác suất ước lượng hậu nghiệm qϕ(z|x) nên rất gầnvới cái thật pθ(z|x) Chúng ta có thể sử dụng phân kỳ Kullback-Leibler để địnhlượng khoảng cách giữa hai phân bố này Phân kỳ KL DKL(X|Y )đo lượng thôngtin bị mất nếu phân phối Y được sử dụng để biểu diễn X.

Trong trường hợp của chúng ta, chúng ta muốn giảm thiểuDKL(qϕ(z|x)|pθ(z|x))đối với ϕ.

Nhưng tại sao lại sử dụng DKL(qϕ|pθ) (KL đảo ngược) thay vì DKL(pθ|qϕ) (KLthuận).

Phân kỳ KL thuận: DKL(P |Q) = Ez∼P (z)log P (z)Q(z); chúng ta phải đảm bảo rằngQ (z)> 0 khi P (z)> 0 Phân phối biến thể được tối ưu hóa phải bao gồm toànbộ p(z).

Phân kỳ KL đảo ngược: DKL(Q|P ) = Ez∼Q(z)logQ(z)P (z); giảm thiểu sự phân kỳKL đảo ngược ép xuống dưới P (z).

log pθ(x) − DKL(qϕ(z|x)∥pθ(z|x)) = Ez∼qϕ(z|x)log pθ(x|z) − DKL(qϕ(z|x)∥pθ(z)) (2.7)Vế trái của phương trình chính xác là những gì chúng ta muốn tối đa hóa khihọc các phân phối thực: chúng ta muốn tối đa hóa (log-) khả năng tạo ra dữ liệu

Trang 35

Hình 2.5: KL thuận và nghịch khác nhau về tính chất khi đo khoảng cách giữacác phân bố.

thực (nghĩa là log pθ(x)) và cũng giảm thiểu sự khác biệt giữa phân phối thực vàước lượng (thuật ngữ DKL hoạt động giống như một bộ điều chỉnh) Lưu ý rằngpθ(x) được cố định đối với qϕ.

Sự phủ định của điều trên xác định hàm mất mát của chúng ta:LVAE(θ, ϕ) = − log pθ(x) + DKL(qϕ(z|x)∥pθ(z|x))

= −Ez∼qϕ(z|x)log pθ(x|z) + DKL(qϕ(z|x)∥pθ(z))θ∗, ϕ∗ = arg min

Trong các phương pháp Bayes biến đổi, hàm mất mát này được gọi là giớihạn dưới biến đổi, hoặc giới hạn dưới bằng chứng Phần "giới hạn dưới"trongtên gọi xuất phát từ thực tế là sự phân kỳ KL luôn không âm và do đó −LVAElà giới hạn dưới của log pθ(x).

−LVAE = log pθ(x) − DKL(qϕ(z|x)∥pθ(z|x)) ≤ log pθ(x)(2.9)Do đó, bằng cách giảm thiểu tổn thất, chúng ta đang tối đa hóa giới hạn dướicủa xác suất tạo ra các mẫu dữ liệu thực.

Reparameterization Trick

Thuật ngữ kỳ vọng trong hàm tổn thất gọi tạo ra các mẫu từ z ∼ qϕ(z|x).Lấy mẫu là một quá trình ngẫu nhiên và do đó chúng không thể sao chép ngược

Trang 36

gradient Để làm cho nó có thể đào tạo được, thủ thuật Reparameterization đượcgiới thiệu: Thường có thể biểu diễn biến ngẫu nhiên z như một biến xác địnhz = Tϕ(x, ϵ) , với ϵ là một biến ngẫu nhiên độc lập phụ trợ, và hàm biến đổi Tϕđược tham số hóa bởi các chuyển đổi ϵ thành z.

Ví dụ, một lựa chọn phổ biến về hình thức qϕ(z|x) là một Gaussian đa biếnvới cấu trúc hiệp phương sai đường chéo:

z ∼ qϕ(z|x(i)) = N (z; µ(i), σ2(i)I)

z = µ + σ ⊙ ϵ, where ϵ ∼ N (0, I); Reparameterization trick.

với ⊙ là phép nhân từng phần tử của 2 véc-tơ với nhau.

Hình 2.6: Minh họa về cách thủ thuật tham số hoá lại giúp cho quá trình lấymẫu có thể đào tạo được.

Thủ thuật reparamerization cũng hoạt động cho các loại phân phối khác,không chỉ Gaussian Trong trường hợp Gaussian đa biến, chúng ta làm cho môhình có thể đào tạo được bằng cách học giá trị trung bình và phương sai củaphân phối, µ, σ đồng thời sử dụng thủ thuật đại số lại một cách rõ ràng, trongkhi ngẫu nhiên vẫn nằm trong biến ngẫu nhiên ϵ ∼ N (0, I).

Trang 37

2.3.1Nhận xét

Mạng tự mã hoá biến thể cho chúng ta một phường pháp để kiểm soát phânbố của miền ẩn z, cũng như biến các phân bố bất từ dữ liệu bất kỳ về một dạngphân bố nhất định ở miền z như N (0, I) Bên cạnh đó mô hình đưa ra đượcnhiều hướng ứng dụng để điều chỉnh và ràng buộc trên miền phân bố z này.Việc tạo ra các biến thể cũng giúp ích trong việc phát hiện các bất thường màchúng ta có thể khai thác về sau.

Hình 2.7: Minh họa về mô hình tự động mã hóa biến thiên với giả định Gaussianđa biến.

2.4Mạng Đối kháng tạo sinh

Trong năm 2014, có một bài báo mang tính đột phá đã giới thiệu Mạng đốisinh (Generative Adversarial Network - GAN) [Goodfellow et al., 2014], mộtphương pháp khôn khéo tận dụng sức mạnh của các mô hình phân biệt để cóđược các mô hình sinh tốt Về cốt lõi, GAN dựa trên ý tưởng là một bộ sinhdữ liệu là tốt nếu ta không thể chỉ ra đâu là dữ liệu giả và đâu là dữ liệu thật.Trong thống kê, điều này được gọi là bài kiểm tra từ hai tập mẫu - một bàikiểm tra để trả lời câu hỏi liệu tập dữ liệu X = {x1, , xn} và X′ = {x′1, , x′n}có được rút ra từ cùng một phân phối Sự khác biệt chính giữa hầu hết nhữngbài nghiên cứu thống kê và GAN là GAN sử dụng ý tưởng này theo kiểu có tính

Trang 38

cách xây dựng Nói cách khác, thay vì chỉ huấn luyện một mô hình để nói “này,hai tập dữ liệu này có vẻ như không đến từ cùng một phân phối”, thì chúng sửdụng phương pháp kiểm tra trên hai tập mẫu để cung cấp tín hiệu cho việc huấnluyện cho một mô hình sinh Điều này cho phép ta cải thiện bộ sinh dữ liệu tớikhi nó sinh ra thứ gì đó giống như dữ liệu thực Ở mức tối thiểu nhất, nó cầnlừa được bộ phân loại, kể cả nếu bộ phân loại của ta là một mạng nơ-ron sâutân tiến nhất.

Hình 2.8: Minh họa đơn giản về mạng GAN.

Kiến trúc của mạng đối sinh được miêu tả trong hình Như ta có thể thấy,có hai thành phần trong kiến trúc của GAN - đầu tiên, ta cần một thiết bị (giảsử, một mạng sâu nhưng nó có thể là bất kỳ thứ gì, chẳng hạn như công cụ kếtxuất đồ họa trò chơi) có khả năng tạo ra dữ liệu giống thật Nếu ta đang làmviệc với hình ảnh, mô hình cần tạo ra hình ảnh Nếu ta đang làm việc với giọngnói, mô hình cần tạo ra được chuỗi âm thanh, v.v Ta gọi mô hình này là mạngsinh (generator network) Thành phần thứ hai là mạng phân biệt (discriminatornetwork) Nó cố gắng phân biệt dữ liệu giả và thật Cả hai mạng này sẽ cạnhtranh với nhau Mạng sinh sẽ cố gắng đánh lừa mạng phân biệt Đồng thời,mạng phân biệt sẽ thích nghi với dữ liệu giả vừa mới tạo ra Thông tin thu đượcsẽ được dùng để cải thiện mạng sinh, và cứ tiếp tục như vậy.

Mạng phân biệt là một bộ phân loại nhị phân nhằm phân biệt xem đầu vàox là thật (từ dữ liệu thật) hoặc giả (từ mạng sinh) Thông thường, đầu ra củamạng phân biệt là một số vô hướng o ∈ R dự đoán cho đầu vào x , chằng hạnnhư sử dụng một tầng kết nối đầy đủ với kích thước ẩn 1 và sau đó sẽ được đưaqua hàm sigmoid để nhận được xác suất dự đoán D(x) = 1/(1 + e−o) Giả sửnhãn y cho dữ liệu thật là 1 và 0 cho dữ liệu giả Ta sẽ huấn luyện mạng phân

Trang 39

biệt để cực tiểu hóa mất mát entropy chéo, nghĩa là,

G{−(1 − y) log(1 − D(G(z)))} = max

G{− log(1 − D(G(z)))}.(2.12)Nếu như mạng sinh làm tốt, thì D(x′) ≈ 1 để mất mát gần 0, kết quả là cácgradient sẽ trở nên quá nhỏ để tạo ra được sự tiến bộ đáng kể cho mạng phânbiệt Vì vậy, ta sẽ cực tiểu hóa mất mát như sau:

G{−y log(D(G(z)))} = min

G{− log(D(G(z)))},(2.13)trong đó chỉ đưa x′ = G(z) vào mạng phân biệt nhưng cho trước nhãn y = 1 Nói tóm lại, D và G đang chơi trò “minimax” (cực tiểu hóa cực đại) với mộthàm mục tiêu toàn diện như sau:

minDmaxG{−Ex∼DatalogD(x) − Ez∼Noiselog(1 − D(G(z)))}.(2.14)Rất nhiều ứng dụng của GAN liên quan tới hình ảnh với các ví dụ bên dướinhư sau:

Tạo ra khuôn mặt người: GAN có khả năng tạo ra những khuôn mặt nhântạo mà rất khó phân biệt với người thật Chất lượng của những model GAN ápdụng trên khuôn mặt ngày càng tốt hơn qua từng năm.

Thay đổi độ tuổi của khuôn mặt: Chắc hẳn chúng ta đã không còn xa lạ vớiứng dụng thay đổi tuổi của khuôn mặt Dựa trên khuôn mặt chúng ta hiện tại,GAN sẽ sinh ra các biến thể theo từng độ tuổi.

Sinh ảnh các vật thể tất nhiên những gì mà GAN đã thực hiện trên con ngườithì nó có thể ứng dụng được trên những loài động vật khác Bên dưới là những

Trang 40

Hình 2.9: Minh hoạ sự tốt lên của việc tạo sinh khuôn mặt qua các năm.

Hình 2.10: Sinh ảnh mặt dự vào độ tuổi.

bức ảnh mà GAN đã sinh ra cho các vật thể là động vật, đồ vật.

Hình 2.11: Sinh ảnh đồ vật con vật.

2.4.1Nhận xét

Mạng GAN là một kiến trúc mô hình hoá tốt việc sinh mẫu và kiểm soátphân bố đầu ra của mẫu đó bằng mộng mang nơ-ron D Mạng D này mặc dùkhông tường mình nhưng tận dụng được thế mạnh của mạng nơ-ron là mô hìnhhoá tốt các dữ liệu nhiều chiều, từ đó định hướng cho mạng G sinh ra được cácmẫu tốt hơn Hàm mục tiêu cho mạng G cũng sẽ tập trung vào các đặc trưngchính của tập dữ liệu thay vì toàn bộ khung ảnh như phương pháp mã hoá tựđộng bên trên Việc tận dụng cả 2 phần trên của GAN giúp các nhà nghiên cứu

Ngày đăng: 31/07/2024, 09:15