Nếu một sự kiện bất thường xảy ra, 1 các luồng quang học được tái tạo ˆ y1:t sẽ hiển thị lỗi tái tạo đáng kể đối với đầu vào của nó y1:t, 2 sử dụng ˆ y 1:t làm điều kiện để hướng dẫn dự
Trang 2Cán bộ hướng dẫn khoa học: TS Lê Thành Sách
Cán bộ chấm nhận xét 1: TS Nguyễn Đức Dũng
Cán bộ chấm nhận xét 2: PGS.TS Huỳnh Trung Hiếu
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM, ngày 08 tháng 02 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạcsĩ)
1 Chủ tịch: PGS.TS Trần Văn Hoài
2 Thư ký: TS Nguyễn Tiến Thịnh
3 Phản biện 1: TS Nguyễn Đức Dũng
4 Phản biện 2: PGS.TS Huỳnh Trung Hiếu
5 Uỷ viên: PGS.TS Huỳng Tường Nguyên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
VÀ KỸ THUẬT MÁY TÍNH
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
I TÊN ĐỀ TÀI: Phát hiện tai nạn và các tình huống bất thường trong video giaothông - Detection of traffic accident and abnormal situation from surveillance cameras
II NHIỆM VỤ VÀ NỘI DUNG:
Khảo sát các công trình nghiên cứu liên quan về phát hiện bất thường cho video
Kế thừa và xây dựng mô hình phát hiện tai nạn và các tình huống bất thường trongvideo giao thông
III NGÀY GIAO NHIỆM VỤ: 14/02/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 08/02/2023
Trang 4Để hoàn thành được bài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặcbiệt tới thầy hướng dẫn khoa học của tôi, Tiến sĩ Lê Thành Sách Người đã địnhhướng, trực tiếp dẫn dắt và cố vấn tôi trong suốt thời gian thực hiện đề tài luậnvăn tốt nghiệp Những lời nhận xét, góp ý và hướng dẫn của Thầy đã giúp tôitiếp cận đúng hướng đi trong quá trình thực hiện luận văn, giúp tôi thấy đượcnhững ưu điểm và khuyết điểm của những phương pháp tiếp cận khác nhau vàtừng bước khắc phục để có kết quả ngày càng tốt hơn Hơn thế nữa tôi còn họcđược ở Thầy phương pháp luận và tư duy trong quá trình nghiên cứu khoa học.Đây chính là bàn đạp vững chắc giúp tôi hoàn thành luận văn một cách hoànchỉnh.
Sau cùng, tôi xin cảm ơn các Thầy, Cô và cán bộ trong khoa Khoa học và KỹThuật Máy Tính đã hỗ trợ và cung cấp những kiến thức khoa học Những kiếnthức này không chỉ dừng ở việc hoàn thành luận văn mà còn là một nền tảngkhoa học giúp tôi phát triển trong tương lai
Trong luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót.Tôi hy vọng sẽ nhận được nhiều đóng góp quý báu từ các quý thầy cô, hội đồng
và các bạn đọc để đề tài được hoàn thiện hơn nữa và có ý nghĩa thiết thực ápdụng trong thực tiễn cuộc sống Chân thành cảm ơn
TP Hồ Chí Minh, Ngày Tháng Năm 2023
Đoàn Thành Khang
Trang 5Phát hiện tại nạn và bất thường trong video giao thông là một đề tài hẹp dựatrên nhánh của nhóm đề tài phát hiện bất thường trong video Mục đích của đềtài là phát hiện các tình huống bất thường và tai nạn trong video giao thông chocamera giám sát Thách thức của bài toán là việc phát hiện được bất thườnggặp khó khăn do khác với bài toán truyền thống, trong giao thông bao gồm
cả yếu tốt về hình ảnh và chuyển động được ràng buộc với nhau theo quan hệkhông gian và thời gian Ngoài việc phát hiện các đối tượng và chuyển động bấtthường của các đối tượng, bài toàn giao thông còn bao gồm các ràng buộc vềluật di chuyển các phương tiện Chính vì lý do này dẫn đến các phương phápphát hiện bất thường chung cho video bị giảm hiệu quả trong phát hiện bấtthường trên video giao thông Trong bài luận văn kế thừa kết quả nghiên cứu từbài báo [1] cho phát hiện bất thường trong video sử dụng phương pháp dự đoánhình ảnh trong tương lai với luồng quang làm điều kiện Luận văn kế thừa vàphát triển mô hình dự đoán bất thường bằng việc sinh ảnh tiếp theo trong tươnglai với hai điều kiện là luồng quang và mặt nạ phân đoạn của đối tượng Kếtquả thí nghiệm trên các bộ dữ liệu Ped2, Avenue, Shanghaitech với chỉ số AUClần lượt là 99.82%, 91.26% và 79,68% Bên cạnh đó với các video tai nạn trênUCF-Crime luận văn đạt được AUC là 78.02% và kết quả thực nghiệm thànhcông trên video giao thông ở Việt Nam hứa hẹn có thể ứng dụng vào thực tếcho lượng lớn các camera giao thông đang được triển khai trên các đường phốnước ta
Trang 6Accident and anomaly detection in traffic video is a narrow topic based on abranch of the video anomaly detection group The purpose of the thesis is todetect anomaly situations and accidents in traffic video for surveillance cameras.The challenges are that detecting anomalies is problematic because, in traffic,both image and motion factors are tied together according to space and timerelationships In addition to detecting objects and anomaly movements of trafficobjects, the traffic problem also includes constraints on the laws of vehicle move-ment It is for this reason that the general anomaly detection methods for videoare less effective in detecting traffic video anomalies In the thesis, inheriting theresearch results from the research paper[1] for anomaly detection in video usingthe method of predicting future images with the optical flow as a condition.
We inherit and develop an anomaly prediction model by future frame predictionwith two conditions: optical flow and segment mask of the object Experimentresults on the datasets Ped2, Avenue, and ShanghaiTech with AUC index of99.82%, 91.26%, and 79.68%, respectively Besides, with the accident videos onUCF-Crime, the thesis achieved 78.02% AUC, and the successful experimentalresults on traffic videos in Vietnam promise to be able to be applied in practice
to a large number of traffic cameras being deployed on the streets
Trang 7Tôi là Đoàn Thành Khang học viên cao học khoa Khoa Học và Kỹ thuật MáyTính, đại học Bách Khoa TP.HCM, MSHV là 1970217 Tôi xin cam đoan rằngluận văn thạc sĩ “Phát hiện tai nạn và các tình huống bất thường trong video giao thông” là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân dưới sự hướngdẫn trực tiếp của TS Lê Thành Sách Tôi xin cam đoan:
1 Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc caohọc
2 Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều đượctrích dẫn, tham khảo
3 Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phầnmềm mã nguồn mở
4 Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng
5 Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khichạy chương trình
TP Hồ Chí Minh, Ngày Tháng Năm 2023
Học viên
Đoàn Thành Khang
Trang 81 Giới thiệu đề tài 1
1.1 Đặt vấn đề 1
1.2 Mục tiêu nghiên cứu 4
1.3 Ý nghĩa đề tài 4
1.4 Kết quả đạt được 5
1.5 Cấu trúc của luận văn 5
2 Cơ sở lý thuyết 7 2.1 Bất thường và phát hiện bất thường 7
2.1.1 Bất thường 7
2.1.2 Phát hiện bất thường 8
2.1.3 Phát hiện bất thường cho video 10
2.1.4 Nhận xét 13
2.2 Mạng Mã hoá tự động 13
2.2.1 Nhận xét 15
2.3 Mạng mã hoá tự động biến thể 16
2.3.1 Nhận xét 20
2.4 Mạng Đối kháng tạo sinh 20
2.4.1 Nhận xét 23
2.5 Mạng nhớ 24
2.5.1 Nhận xét 25
2.6 Kiến trúc mạng cho video 25
2.6.1 Nhận xét 28
3 Tổng quan tình hình nghiên cứu 30 3.1 Tổng quan các bộ dữ liệu 30
3.1.1 UCSD dataset 30
3.1.2 Avenue dataset 31
3.1.3 ShanghaiTechCampus dataset 32
3.1.4 Belleview-Train 33
3.1.5 UCF-Crime 33
3.2 Phát hiện tai nạn cho góc nhìn thứ nhất Camera 34
Trang 93.3 Phát hiện tai nạn cho góc nhìn thứ ba Camera 37
3.4 Phát hiện bất thường dựa vào Autoencoder và OCSVM 37
3.5 Khai thác mạng sinh kết hợp giữa hình ảnh vào luồng quang học 44
3.6 Khai thác mạng tái tạo kết hợp khối nhớ 50
3.7 Phương pháp kết hợp giữa mạng nhớ tái tạo và dự đoán 54
3.8 Tổng kết và khảo sát phương pháp kế thừa 57
3.8.1 Thử nghiệm so sánh hoạt động của 2 loại mô-đun bộ nhớ 58
3.8.2 Thử nghiệm việc dự đoán một chuỗi các luồng quang 61
3.8.3 Thử nghiệm tác động của khối điều kiện với mạng tạo sinh hình ảnh 65
3.8.4 Thử nghiệm tắt các nối tắt của mạng sinh hình ảnh 67
3.8.5 Tổng kết chương 69
4 Phương pháp nghiên cứu 71 4.1 Ý tưởng thiết kế thử nghiệm 71
4.2 Thiết kế thử nghiệm 72
4.2.1 Kiến trúc tổng quát 72
4.2.2 Mô hình chi tiết 75
4.2.3 Hàm mục tiêu 78
4.2.4 Chiến lược huấn luyện 79
4.2.5 Các thử nghiệm triển khai 80
5 Kết quả thực nghiệm 81 5.1 Dữ liệu và tiền xử lý dữ liệu 81
5.1.1 Dữ liệu 81
5.1.2 Phân tích dữ liệu 82
5.1.3 Tiền xử lý dữ liệu 86
5.2 Các tiêu chí đánh giá 87
5.3 Môi trường thực nghiệm 89
5.4 Kết quả 89
5.4.1 Thử nghiệm số 1 90
5.4.2 Thử nghiệm số 2 94
5.4.3 Thử nghiệm số 3 104
5.4.4 Thử nghiệm số 4 105
6 Kết Luận 112 6.1 Kết quả đạt được 112
6.2 Hướng nghiên cứu tiếp theo 112
Trang 102.1 Minh hoạ các điểm bất thường màu cam nằm xa các cụm phân bố chính 8 2.2 Ảnh minh hoạ về số bất thường trong video cho một số mẫu dữ liệu Trong đó hàng 1 và 3 biểu diễn khung hình bình thường và hàng 2 và 4
biều diễn khung hình bất thường 10
2.3 Ví dụ mạng tự động mã hoá 15
2.4 Mô hình đồ họa liên quan đến Bộ mã tự động biến thể Các đường liền nét biểu thị phân bố được sinh pθ(.) và các đường đứt nét biểu thị sự phân bố gần đúng qϕ(z|x) với phân bố hậu nghiệm pθ(z|x) 17
2.5 KL thuận và nghịch khác nhau về tính chất khi đo khoảng cách giữa các phân bố 18
2.6 Minh họa về cách thủ thuật tham số hoá lại giúp cho quá trình lấy mẫu có thể đào tạo được 19
2.7 Minh họa về mô hình tự động mã hóa biến thiên với giả định Gaussian đa biến 20
2.8 Minh họa đơn giản về mạng GAN 21
2.9 Minh hoạ sự tốt lên của việc tạo sinh khuôn mặt qua các năm 23
2.10 Sinh ảnh mặt dự vào độ tuổi 23
2.11 Sinh ảnh đồ vật con vật 23
2.12 Cấu tạo của mạng nhớ 24
2.13 Minh hoạ cách hoạt động của mạng tích chập 2 chiều và 3 chiều 26
3.1 Khung đại diện cho tập dữ liệu UCSD Peds1 và Peds2 Hàng đầu tiên hiển thị khung hình bình thường và hàng thứ hai hiển thị khung hình bất thường Hai cột đầu tiên là từ Peds1 và cột cuối cùng là từ chuỗi Peds2 31
3.2 Khung đại diện của tập dữ liệu AVENUE Hàng đầu tiên hiển thị khung hình bình thường và hàng thứ hai hiển thị khung hình bất thường 32
3.3 Khung đại diện cho tập dữ liệu ShanghaiTech Hàng đầu tiên hiển thị khung hình bình thường và hàng thứ hai hiển thị khung hình bất thường 34 3.4 Kiến trúc mạng Traffic Accident Detection in First-Person Videos [2] 35 3.5 Kiến trúc mạng Future vehicle localization [3] 36
3.6 Kiến trúc mạng Autoencoder 38
Trang 113.7 Bao gồm 2 luồng, luồng bên trái theo vết quỹ đạo của các xe, tính điểm
va chạm khi có 2 khung bao của 2 xe giao nhau Luồng bên phải sử dụng
bộ Autoencoder ảnh + luồng quang của ảnh, dùng ngõ ra để tính sai số
của bộ Decoder, dùng vector ẩn để tính One class SVM 38
3.8 Xe đạp và xe ô tô giao nhau và quỹ đạo di chuyển theo hướng mũi tên xanh dương không tiếp tục thì đó tính là một va chạm 39
3.9 Có 3 mô hình để chọn lựa 1 là chỉ dùng ảnh, 2 dùng ảnh và luồng quang, 3 chỉ dùng luồng quang Có 2 lỗi: Reconstruction Error để tính lỗi cho bộ Autoencoder, Lỗi Outlier dùng cho One Class SVM 3 cặp lỗi này sẽ so sánh 3 cặp với nhau và chọn cặp có 40
3.10 Phát hiện tai nạn dựa vào Decision Tree 41
3.11 Mô hình Convolutional AutoEncoder 42
3.12 Mô hình Convolutional LSTM AutoEncoder 43
3.13 Tổng quan về cấu trúc mô hình cùng với độ phân giải không gian đặc trưng trong mỗi khối Số lượng kênh tương ứng với mỗi lớp trong mỗi khối cũng được trình bày (trong ngoặc đơn) Hai lớp đầu vào và đầu ra có cùng kích thước 128 × 192 × 3 Có ba mạng chính: bộ mã hóa chung (bên trái), bộ giải mã hình ảnh (trên cùng bên phải) và bộ giải mã chuyển động (dưới cùng bên phải) Mỗi phép ghép chồng đặc trưng ma trận theo chiều kênh được thực hiện trước các lớp tích chập đảo Đầu vào của mô hình là một khung video duy nhất Nó và đầu ra từ hai bộ giải mã là một khung được tái tạo lại hình ảnh và một luồng quang học Ft dự đoán chuyển động giữa It và It+1 45
3.14 Kiến trúc của bộ phân biệt Lớp đầu vào có hình dạng 128 × 192 × 6 được cung cấp bởi sự ghép nối của khung video và luồng quang của nó Lớp đầu ra là số lượng hàm kích hoạt đáng kể 512 ma trận đặc trưng có độ phân giải không gian 16 × 24 47
3.15 Trong đó từ trái qua là ảnh thật, ảnh tái tạo, và ma trận sai số, tương tự cho luồng quang học 49
3.16 Trong đó từ trái qua là ảnh thật, ảnh tái tạo, và ma trận sai số, tương tự cho luồng quang học 49
3.17 Sơ đồ của MemAE được đề xuất Đơn vị định địa chỉ bộ nhớ lấy mã hóa z làm truy vấn để lấy các trọng số định địa chỉ Các khe bộ nhớ có thể được sử dụng để mô hình hóa toàn bộ mã hóa hoặc các đặc trưng trên một điểm ảnh của mã hóa 51
3.18 Bên phải là hình ảnh video chứa bất thường nằm trong các ô màu đỏ, bên giữa là ma trận sai số nếu dừng mạng tự mã hoá bình thường, bên trái là ma trận sai số dùng mạng tự mã hoá kết hợp với mô-đun nhớ 52
Trang 123.19 Tổng quan về sơ đồ của để tạo lại khung video Mô hình chủ yếu bao gồm ba phần: bộ mã hóa, mô-đun bộ nhớ và bộ giải mã Bộ mã hóa trích xuất một ma trận truy vấn q t có kích thước H × W × C từ một khung video đầu vào It tại thời điểm t Mô-đun bộ nhớ thực hiện việc đọc và cập nhật các mục pm có kích thước 1 × 1 × C bằng cách sử dụng truy vấn qtk có kích thước 1 × 1 × C, trong đó số mục và truy vấn lần lượt là M và K và K = H × W Ma trận truy vấn q t được nối với các mục tổng hợp Sau đó, bộ giải mã nhập chúng để tái tạo lại khung hình video ˆ It Đối với nhiệm vụ dự đoán, tác giả nhập bốn khung video liên tiếp để dự đoán khung thứ năm 53 3.20 Tổng quan về HF2-VAD được đề xuất tích hợp xây dựng lại luồng tái dựng và dự đoán khung hình thành một khuôn khổ thống nhất Đầu tiên, tái tạo lại các luồng quang y1:t bằng bộ tự động mã hóa với các mô-đun bộ nhớ nhiều cấp và bỏ qua các nối tắt để có được ˆ y1:t Sau đó, các luồng quang học được tái tạo cùng với các khung video x1:t được sử dụng bởi một hình CVAE để dự đoán khung hình tiếp theo trong tương lai Nếu một sự kiện bất thường xảy ra, (1) các luồng quang học được tái tạo ˆ y1:t sẽ hiển thị lỗi tái tạo đáng kể đối với đầu vào của nó y1:t, (2) sử dụng ˆ y 1:t làm điều kiện để hướng dẫn dự đoán khung hình trong tương lai, lỗi dự đoán (tức là, sự khác biệt giữa ˆ xt+1 và xt+1) sẽ được tăng lên hơn nữa 55 3.21 Các ví dụ trực quan về so sánh dự đoán khung với các phương pháp khác nhau Từ trên xuống dưới, hiển thị dữ liệu bình thường và bất thường Từ trái sang phải, hiển thị (a) ảnh gốc, (b) kết quả dự đoán của HF2-VAD, (c) bản đồ chênh lệch của HF2-VAD, (d) bản đồ sai số của VEC , và (e) bản đồ khác biệt của MNAD-P Các con số trong mỗi bản đồ lỗi biểu thị sai số tổng bình phương tương ứng giữa giá trị ảnh gốc và khung dự đoán Các màu sáng hơn trong bản đồ lỗi biểu thị sai
số dự đoán lớn hơn 56 3.22 Hai kiến trúc mô-đun nhớ thông dụng cho phát hiện bất thường hiện tại 59 3.23 Phương pháp học bộ nhớ bằng việc phân cụm hoá miền ẩn [4] 59 3.24 Phương pháp học bộ nhớ bằng gradient descent [5] 60 3.25 Bên trái là luồng quang đầu vào bên phải là luồng quang được tái tạo 61 3.26 Kiến trúc tái tạo luồng quang trên bài báo gốc 62 3.27 Kiến trúc dự đoán luồng quang chỉnh sửa từ bài báo gốc 62 3.28 Biểu đồ biểu thị AUC trung bình trên 10 lần chạy theo số lượng luồng quang dự đoán được cho vào cùng một lúc 63 3.29 Chuỗi các hình ảnh và luồng quang liên tiếp 64 3.30 Hai loại điều kiện y1:t và ˆ y1:t làm điều kiện 66 3.31 Hai hình trên là kết quả dự đoán của mô hình lấy luồng quang gốc làm điều kiện, hình dưới lấy luồng quang dự đoán làm điều kiện Các cột lần lượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆ xt+1 luồng quang gốc y1:t và luồng quang dự đoán ˆ y1:t 67
Trang 133.32 Sơ đồ trên lấy luồng quang dự đoán ˆ y1:t làm điều kiện, tắt hết các nối tắt chỉ giữ lại một và sử dụng một kiến trúc Unet đơn giản để điều chỉnh
lượng thông tin đi qua nối tắt này 68
3.33 Kết quả dự đoán của cấu hình unet độ sâu mạng cao nhất Các cột lần lượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆ xt+1 luồng quang gốc y 1:t và luồng quang dự đoán ˆ y 1:t 68
3.34 Kết quả dự đoán của cấu hình unet độ sâu giảm đi Các cột lần lượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆ xt+1 luồng quang gốc y1:t và luồng quang dự đoán ˆ y1:t 69
3.35 Kết quả dự đoán của cấu hình unet nông nhất Các cột lần lượt từ trái sang phải là các ảnh thật x1:t+1 ảnh dự đoán ˆ xt+1 luồng quang gốc y1:t và luồng quang dự đoán ˆ y1:t 69
4.1 Chuỗi khung hình và luồng quang của một đối tượng 72
4.2 Đầu tiên, Luồng quang ˆ y1:t được dự đoán bằng bộ tự động mã hóa với các mô-đun nhớ nhiều cấp Sau đó, các luồng quang đã được dự đoán cùng với các khung video x 1:t được cho vào một mô hình CVAE để dự đoán khung hình tiếp theo ˆ xt+1 73
4.3 Đầu tiên, Luồng quang ˆ y1:t được dự đoán bằng bộ tự động mã hóa với các mô-đun nhớ nhiều cấp Sau đó, các luồng quang đã được dự đoán cùng với luồng quang gốc y1:t và các khung video x1:t được cho vào một mô hình CVAE để dự đoán khung hình tiếp theo ˆ xt+1 74
4.4 Đầu tiên, mặt nạ ˆ m1:t được dự đoán bằng bộ tự động mã hóa với các mô-đun nhớ nhiều cấp Sau đó, các mặt nạ đã được dự đoán cùng với các khung video x1:t được cho vào một mô hình CVAE để dự đoán khung hình tiếp theo ˆ xt+1 75
4.5 Đầu tiên, Luồng quang ˆ y1:t, ˆ m1:t+1 được dự đoán bằng 2 bộ tự động mã hóa với các mô-đun nhớ nhiều cấp riêng biệt Sau đó, các luồng quang cùng mặt nạ đã được dự đoán và các khung video x1:t được cho vào một mô hình CVAE+ để dự đoán khung hình tiếp theo ˆ x t+1 75
4.6 Mô hình ML-MemAE-SC 76
4.7 Mô hình CVAE 77
4.8 Mô hình CVAE+ nhiều điều kiện 78
5.1 Một khung video bất thường trên Ped2 với bất thường là đối tượng đi xe đạp và ô tô 82
5.2 Một khung video bất thường trên ShanghaiTech với đối tượng bất thường là đối tượng đi xe đạp 83
5.3 Một khung video bất thường trên Avenue với đối tượng bất thường là đối tượng tung vật lạ 83
5.4 Một số khung video bình thường trên UCF-Crime 84
5.5 Một đoạn video bất thường trên UCF-Crime 84
5.6 Một đoạn video bất thường trên UCF-Crime 85
5.7 Một đoạn video bất thường trên UCF-Crime 85
Trang 145.8 Một khung video bình thường ở bộ Quang Trung - Đà Nẵng 86 5.9 Một đoạn video bất thường ở bộ dữ liệu Quang Trung - Đà Nẵng 86 5.10 Biểu đồ minh hoạ việc trích xuất các khung bao của các đối tượng tiền cảnh 87 5.11 Biểu đồ minh hoạ ROC và AUC 88 5.12 So sánh giữa phương pháp cũ và mới, trong đó trong ô màu xanh là phương pháp mới, từ trái qua lần lượt là luồng quang gốc, luồng quang
dự đoán hoặc tái tạo, ảnh thật, ảnh dự đoán 90 5.13 So sánh giữa phương pháp cữ và mới, trong đó trong ô màu xanh là phương pháp mới, từ trái qua lần lượt là luồng quang gốc , luồng quang
dự đoán hoặc tái tạo, ảnh thật, ảnh dự đoán 91 5.14 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường
từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra x t+1 , cột 6 là ảnh dự đoán ˆ x t+1 , từ cột 7 đến 10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t 92 5.15 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột
5 là ảnh thật ngõ ra x t+1 , cột 6 là ảnh dự đoán ˆ x t+1 , từ cột 7 đến 10
là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t 92 5.16 Ảnh minh hoạ các khung video có đám đông trên tập kiểm tra của hai tập dữ liệu Avenue và Ped2 93 5.17 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10
là chuỗi mặt nạ m 1:t , chuỗi 11 đến 14 là chuỗi mặt nạ dự đoán ˆ m 1:t 95 5.18 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10
là chuỗi mặt nạ m 1:t , chuỗi 11 đến 14 là chuỗi mặt nạ dự đoán ˆ m 1:t 96 5.19 Hai ảnh liền nhau kề tương ứng với khung ảnh thật và khung ảnh dự đoán 96 5.20 Bên trên lần lượt là biểu đồ điểm bất thường theo thời gian của 2 phương pháp đo độ bất thường bằng MSE và SSIM, bên dưới là hình ảnh dự đoán tại khung ảnh thứ 125 trên bộ dữ liệu ShanghaiTech 97
Trang 155.21 Bên trên lần lượt là biểu đồ điểm bất thường theo thời gian của 2 phương pháp đo độ bất thường đo bằng MSE và SSIM, bên dưới là hình ảnh dự đoán tại khung ảnh thứ 94 trên bộ dữ liệu ShanghaiTech 97 5.22 So sánh độ đo bất thường bên trên là SSIM bên dưới là MSE trên kết quả hình ảnh của bộ dữ liệu Avenue 98 5.23 Đám đông ở bộ dataset Avenue kèm hình ảnh mờ khi chuyển động, mặt
nạ bị đè lên nhau gây ra kết quả không rõ ràng tách bạch 98 5.24 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến
10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang
dự đoán ˆ y1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24
là chuỗi mặt nạ dự đoán ˆ m1:t+1 101 5.25 Hình minh hoạ đoạn video bất thường trên Shanghaitech với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x 1:t , cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến
10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang
dự đoán ˆ y 1:t , từ cột 15 đến 19 là chuỗi mặt nạ m 1:t+1 , chuỗi 19 đến 24
là chuỗi mặt nạ dự đoán ˆ m1:t+1 101 5.26 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột
5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10
là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t, từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 là chuỗi mặt nạ dự đoán ˆ m1:t+1 102 5.27 Hình minh hoạ đoạn video bất thường trên Avenue với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x 1:t , cột
5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10
là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y 1:t , từ cột 15 đến 19 là chuỗi mặt nạ m 1:t+1 , chuỗi 19 đến 24 là chuỗi mặt nạ dự đoán ˆ m1:t+1 103
Trang 165.28 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường
từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10 là chuỗi luồng quang gốc y 1:t , chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y 1:t ,
từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 là chuỗi mặt
nạ dự đoán ˆ m1:t+1 103 5.29 Hình minh hoạ đoạn video bất thường trên Ped2 với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường
từ cao xuống thấp, 4 cột đầu là chuỗi ảnh thật đầu vào x1:t, cột 5 là ảnh thật ngõ ra xt+1, cột 6 là ảnh dự đoán ˆ xt+1, từ cột 7 đến 10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t,
từ cột 15 đến 19 là chuỗi mặt nạ m1:t+1, chuỗi 19 đến 24 là chuỗi mặt
nạ dự đoán ˆ m 1:t+1 104 5.30 Kết quả phát hiện bất thường trên một số khung video của bộ dữ liệu UCF-Crime với bên trên là kết quả của mô hình dự đoán chuyển động kèm luồng quang gốc làm điều kiện, bên dưới là mô hình gốc 106 5.31 Kết quả phát hiện bất thường trên một số khung video của bộ dữ liệu UCF-Crime với bên trên là kết quả của mô hình dự đoán chuyển động kèm luồng quang gốc làm điều kiện, bên dưới là mô hình gốc 107 5.32 Bên trên là ảnh ở khung video thứ 369, dưới mô tả điểm bất thường của toàn bộ video và nhãn 108 5.33 Một khung video tai nạn của camera 130 Quang Trung với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầu vào
x1:t+1, cột 6 là ảnh tái tạo ˆ xt, từ cột 7 đến 10 là chuỗi luồng quang gốc
y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t 109 5.34 Một khung video bình thường của camera 130 Quang Trung với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các ô bên phải từ trên xuống biểu diễn các tiền cảnh
có điểm bất thường từ cao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầu vào x 1:t+1 , cột 6 là ảnh tái tạo ˆ x t , từ cột 7 đến 10 là chuỗi luồng quang gốc y1:t, chuỗi 11 đến 14 là chuỗi luồng quang dự đoán ˆ y1:t 109 5.35 Các khung video bình thường có sai số cao với khung ảnh bên trái cùng các khung bao có điểm bất thường cao từ đậm tới nhạt tương ứng, các
ô bên phải từ trên xuống biểu diễn các tiền cảnh có điểm bất thường từ cao xuống thấp, 5 cột đầu là chuỗi ảnh thật đầu vào x1:t+1, cột 6 là ảnh tái tạo ˆ xt, từ cột 7 đến 10 là chuỗi luồng quang gốc y 1:t , chuỗi 11 đến 14
là chuỗi luồng quang dự đoán ˆ y1:t 110
Trang 172.1 Bảng chú thích các ký hiệu trong mạng mã hoá tự động 14 3.1 Bảng so sánh việc tái tạo và dự đoán luồng quang 64 3.2 Bảng so sánh kết quả tổng quát nếu chỉ sử dụng dự đoán chuỗi luồng quang để phát hiện bất thường của phương pháp đề xuất, phương pháp gốc và các công trình liên quan 65 5.1 Bảng so sánh kết quả của phương pháp đề xuất dựa vào độ thay đổi các cấu hình trên luồng quang với các công trình liên quan 93 5.2 Bảng so sánh kết quả của phương pháp đề xuất dựa vào độ thay đổi các cấu hình trên luồng quang và độ đo SSIM với các công trình liên quan 94 5.3 Bảng so sánh kết quả của các cấu hình đề xuất khác nhau so với phương pháp gốc 99 5.4 Bảng so sánh kết quả của luận văn với các công trình liên quan với kết quả cải tiến trên cả 3 bộ dữ liệu 100 5.5 Bảng so sánh kết quả của luận văn với phương pháp gốc khi chỉ dùng
dự đoán hình ảnh để phát hiện bất thường với bên trên là phương pháp của mô hình gốc và bên dưới là mô hình đề xuất 100 5.6 Bảng so sánh kết quả trên video tai nạn của bộ UCF-Crime 105 5.7 Bảng so sánh kết quả trên bộ dữ liệu giao thông ở Đà Nẵng 108
Trang 18Giới thiệu đề tài
1.1 Đặt vấn đề
Tai nạn giao thông không chỉ là vấn đề của Việt Nam nói riêng mà còn là vấn
đề toàn cầu nói chung Theo Tổ chức Y tế Thế giới (WHO) mỗi năm, 1,35 triệungười chết do tai nạn giao thông đường bộ, bên cạnh đó còn có thêm từ 20 đến
50 triệu người bị thương từ những vụ tai nạn trên Hơn nữa, 90 % số ca tử vong
do tai nạn giao thông đường bộ là ở các nước có thu nhập thấp và trung bình
Ở Việt Nam chúng ta, có gần 10000 người chết vì tai nạn giao thông mỗinăm Theo thông tin từ Bộ Công an, từ năm 2009 đến tháng 5-2019, toàn quốcxảy ra 326.299 vụ tai nạn giao thông đường bộ, làm chết 97.721 người, bị thương329.756 người Riêng năm 2018 xảy ra 18.499 vụ, làm chết 8.079 người, bị thương14.732 người
Như vậy, trong 10 năm qua, bình quân mỗi năm có gần 10.000 người chết vìtai nạn giao thông, trong đó đa số người bị tai nạn đang trong độ tuổi lao động,gây nhiều hệ lụy cho xã hội Nguyên nhân trực tiếp, chủ yếu gây ra tai nạn giaothông cụ thể do người tham gia giao thông gây ra chiếm 80
Cùng với sự phát triển hiện đại hóa của thành phố Hồ Chí Minh đi lên thànhphố xanh và thông minh theo dự kiến của các ban ngành lãnh đạo thành phố,Hiện có hơn 760 camera giao thông quét khắp thành phố, với hơn 760 cameraquét qua nhiều ngõ ngách truyền về 57 màn hình tại Trung tâm Giám sát vàđiều khiển giao thông thông minh (đặt tại Trung tâm Quản lý đường hầm sông
Trang 19Sài Gòn, TP.HCM), hoạt động 24/24 giờ, toàn bộ giao thông ở TP.HCM đượcgiám sát.
Cùng với điều kiện thuận lợi về số lượng camera quan sát khắp thành phốnhư trên thì việc tạo ra mô hình tự động để giám sát 24/7 và phát hiện các tainạn, bất thường trên các luồng giao thông cho toàn bộ hệ thống camera là điềuthật sự cần thiết Các ưu điểm của camera giám sát giao thông của thành phố
so với các camera thông thường được đặt ở mặt đất có thể kể đến như sau: chế
độ xem ở trên cao mang lại góc nhìn rộng, xa vào bao quát hơn trong một phạm
vi lớn với các phương tiện qua lại dày đặt Bên cạnh đó, các camera giao thông
có thể được sử dụng ở nơi công cộng cho một lượng lớn phương tiện hàng ngày,
do đó, chi phí cho mỗi phương tiện mỗi ngày thấp hơn, đem lại lợi ích tết kiệm
về kinh tế cho hoạt đông giám sát
Với các điều kiện về camera dày đặc khắp thành phố được nêu ở trên kèmtheo sự phát triển của ngành học sâu và các thiết bị tính toán phần cứng ngàycàng hiện đại như GPU của NVIDIA, FPGA của Xilinx, Giải bài toàn pháthiện tai nạn và các bất thường trong giao thông là công việc khả thi và cầnthiết Xong, bên cạnh các lợi thế nêu trên, bài toàn phát hiện tai nạn và bấtthường trong giao thông vẫn cần nhiều thách thức như:
Về dữ liệu: dữ liệu cho tai nạn giao thông thường hiếm vì lý do không phảilúc nào các tai nạn giao thông cũng có thể được camera ghi nhận lại, hoặc nếu
có ghi nhận lại thì cũng có thể không ghi nhận được toàn cảnh vụ tai nạn Mặtkhác về chất lượng dữ liệu, các camera ghi nhận được tai nạn giao thông thườnggồm hai loại chính là camera hành trình và camera giám sát, vì tính chất lưu trữliên tục nên chất lượng của các loại camera này thường thấp hơn bình thường,khó có thể bắt được các tai nạn một các chi tiết vì các tai nạn thường xảy ravới tốc độ rất nhanh Điều kiện pháp lý cũng một cản trở đối với việc chia sẻ dữliệu tai nạn giao thông rộng rãi Vì vậy có thể kết luận được rằng, dữ liệu chấtlượng phục vụ cho việc nhận dạng tai nạn giao thông thường rất ít, sự mất cânbằng trên cũng được nêu ra ở hầu hết các nghiên cứu về phát hiện tai nạn giaothông tiêu biểu như [6], Một số nghiên cứu khác cũng tìm các giải quyết vấn đề
dữ liệu về tai nạn giao thông như: [7] Xong dữ liệu vẫn chưa đủ để xây dựngmột mô hình học giám sát hoàn chỉnh vì độ đa dạng của tai nạn Hiện tại việctiếp cận các bài toán toàn phát hiện bất thường này vẫn ưu tiên nghiên về là
Trang 20học giám sát một phần, hoặc học không giám sát [2].
Về tính chất của của tai nạn: Tai nạn thường diễn ra rất nhanh bất ngờ vàđột ngột, chính vì vậy việc tối ưu quá quá trình nhận dạng cũng là một bài toánđược đặt ra Các công trình nghiên cứu như [2] sử dụng quá nhiều mô hình như
cả Object Detection, Optical Flow, Mạng Nơ-ron hồi tiếp GRU và thêm các tínhtoán logic khác khá hợp lý để đưa ra kết quả với độ chính xác cao, nhưng lạiđòi hỏi chi phí lớn cho phần cứng để đáp ứng việc nhận dạng ở thời gian thựcđối với một vụ tai nạn có thời gian diễn ra rất nhanh
Thêm vào đó về độ đa dạng vào sự bao quát: như đã trình bày ở trên, các
vụ tai nạn và bất thường đều hiếm gặp và có độ đa dạng rất cao, các nạn hầunhư rất ít điểm chung trừ việc hai phương tiện giao nhau với tốc độ cao, ngay
cả việc giao nhau này cũng rất dễ nhận dạng nhằm trong điều kiện giao thông
di chuyển dày đặt và đông đúc Vì thế việc chọn lựa, trích xuất đặc trưng cũng
là một việc khó khăn Các nghiên cứu đều tận dụng 2 đặc trưng chính là đặctrưng về hình ảnh như ảnh RGB hoặc ảnh xám, đặc trưng thứ hai và về chuyểnđộng như Optical Flow để hô hình hóa một vụ tai nạn [8] Nhưng, việc mô hìnhhóa này chưa đem lại được sự thống nhất chung cho cả 2 loại đặc trưng Trongmỗi nghiên cứu từng bộ dữ liệu, các nhóm tác giả đều thử nghiệm nhiều trườnghợp và chọn lọc so sánh giữa hai loại đặc trưng, hoặc kết hợp cả hai Chính vìthế việc tạo nên mô hình tổng quát để mô hình hóa chung cho giao thông làthật sự cần thiết
Điều kiện quan sát: vì các camera được đặt ngoài trời và điều kiện quan sátgiao thông là ngoài trời nên chịu ảnh hưởng trực tiếp từ thời tiết và khí hậu,ngày – đêm, mưa lớn, sương mù, ngược sáng, ánh đèn ô tô chiếu thẳng vàocamera Các điều kiện ngoại cảnh này là một khó khăn không nhỏ cho việc nhậndạng và chọn lựa các mô hình phát hiện đối tượng Các nghiên cứu đa phần đềugiới hạn ở điều kiện thời tiết tốt để triển khai, một số cố gắng cải thiện chấtlượng hình ảnh bằng thuật toán Retinax [9] cũng đạt hiệu quả cả thiện chấtlượng hình ảnh nhưng không giải quyết được triệt để nếu điều kiện thời tiết quáxấu do kết quả của họ phụ thuộc trực tiếp vào mô hình Yolo
Bên cạnh các thách thức khách quan trên, cũng còn tồn tại một số yếu tố chủquan khác trong nghiên cứu về tai nạn như các bộ dữ liệu không được chia sẽrộng rãi nên phần nào cũng làm việc so sánh, đánh giá các giải thuật gặp nhiều
Trang 21trở ngại do không có bộ dữ liệu chung, thống nhất.
Như vậy tóm lại, Phát hiện tai nạn và các tình huống bất thường cho videogiao thông là bài toán vừa có ý nghĩa thực tiễn vừa có ý nghĩa khoa học Bàitoán có nhiều các khó khăn đã nêu ở trên nhưng bên cạnh đó có nhiều thuận lợi
về việc số lượng các nghiên cứu về video nói chung và phát hiện bất thường chovideo nói riêng tăng trong những năm gần đây giúp luận văn có nhiều ý tưởng
kế thừa từ các nghiên cứu phía đó để thiết kế một môt hình tốt
1.2 Mục tiêu nghiên cứu
Với những tiềm năng rất đang mong đợi của các mạng nơ-ron học sâu, trongnghiên cứu tôi tận dụng các thế mạng của những mạng nơ-ron cụ thể ở đây làmạng Conditional Variational Autoencoder ( mã hoá tự động biến thể có điềukiện ) sự xuất hiện của hình ảnh và chuyển động vào việc phát hiện bất thường
và tai nạn
Nghiên cứu sẽ sử dụng những tập dữ liệu về video giao thông từ camera giámsát đặt cố định như UCSD Ped2, Avenue, ShanghaiTech, UCF-Crime và một sốvideo tai nạn ở Việt Nam để huấn luyện và đánh giá hiệu quả của mô hình.Ngoài ra, nghiên cứu cũng so sánh với các cách tiếp cận khác trong khoảngthời gian gần đây Từ những kết luận rút ra, cho ta thấy được cái nhìn tổngquan của các cách tiếp cận, và những yếu tố nào quan trọng khi áp dụng vàothực tiễn
1.3 Ý nghĩa đề tài
Cùng với việc tăng nhanh của số lượng camera hiện tại và các nghiên cứugần đây dần tập trung vào xử lý video Luận văn thực hiện đề tài hẹp hơn chovideo là video giao thông với các đặc thù riêng Qua đó, đề tài đạt được một số
ý nghĩa sau đây cả về thực tiễn lẫn khoa học
Ý nghĩa thực tiễn:
– Góp phần giảm chi phí thuê người giám sát các camera giao thông
– Góp phần đáp ứng nguồn nhần lực giám sát camera giao thông khi số lượngđang tăng lên nhanh chóng như hiện nay ở nhiều thành phố lớn, cao tốc và
Trang 22– Chỉ ra điểm mạnh và yếu của phương pháp hiện tại và đưa ra thêm nhiềugợi ý để cải tiến cho các nghiên cứu tiếp theo.
1.4 Kết quả đạt được
Trong nghiên cứu này, chung tôi xây dựng thành công mô hình từ việc kếthừa mạng sinh từ nghiên cứu [1] để tối ưu hoá ràng buộc giữa việc tạo sinhhình ảnh và một số điều kiện liên quan mật thiết với nó trên không gian nhưluồng quang và mặt nạ tiền cảnh Đảm bảo cân bằng được tính quá khớp vừa
đủ để phát hiện bất thường trên tập dữ liệu kiểm tra và vẫn duy trì tính tổngquát hoá tốt để dự đoán được các hình ảnh bình thường của tập kiểm tra Kếtquả đạt được với độ cải thiện AUC trên Ped2, Avenue và Shanghaitech so với
mô hình gốc và kết quả lần lượt là 99.82%, 91.26% và 79,68% Bên cạnh đó bàiluận cũng thử ứng dụng vào phát hiện tai nạn trên UCF-Crime và một bộ dưliệu tự chuẩn bị trên đường phố Việt Nam cho thấy có thể có khả năng để giảiquyết vấn đề phát hiện tại nạn và bất thường tự động trong tương lai
1.5 Cấu trúc của luận văn
Cấu trúc của luận văn được tổ chức như sau:
Trang 23– Chương 1 - Giới thiệu đề tài: nhằm giới thiệu tổng quan về bài toán pháthiện tai nạn và bất thường cho video giao thông các khó khăn và hướng giảiquyết.
– Chương 2 - Cơ sở lý thuyết: trình bày những lý thuyết liên quan được sửdụng trong bài nghiên cứu
– Chương 3 - Tổng quan tình hình nghiên cứu: bao gồm các công trình nghiêncứu liên quan đến bài toán phát hiện bất thường trong video, các hướngtiếp cận, phân tích các ưu và nhược điểm để có thể khắc phục và tăng cườngtrong phương pháp đề xuất
– Chương 4 - Phương pháp nghiên cứu: trình bày cụ thể mô hình đề xuất vàcách thức mô hình hoạt động
– Chương 5 - Kết quả thực nghiệm: phân tích đặc điểm của các bộ dữ liệuđược sử dụng trong bài toán, các phương pháp đánh giá, kết quả đánh giácủa mô hình đề xuất và so sánh với công trình gần đây
– Chương 6 - Kết luận: nêu ra các kết luận đúc kết được trong quá trìnhnghiên cứu và hướng phát triển tiếp theo trong tương lai
Trang 24Cơ sở lý thuyết
Sau đây là trình bài ngắn gọn các lý thuyết được sử dụng trong luận văn,trong mỗi phần bao gồm các phần trình bài về lý thuyết và phần tổng kết nhậnxét tính ứng dụng các lý thuyết đó cho đề tài ở cuối
2.1 Bất thường và phát hiện bất thường
Dị thường là các trường hợp hoặc tập hợp các mẫu dữ liệu rất hiếm khi xảy
ra trong tập dữ liệu và có các tính năng khác biệt đáng kể so với hầu hết dữliệu
Ngoại lệ là một quan sát (hoặc một tập hợp con các quan sát) dường nhưkhông phù hợp với phần còn lại của tập dữ liệu đó Điểm dị thường là một điểmhoặc tập hợp các điểm tương đối xa với các điểm khác trong không gian đa chiềucủa các miền phân bố
Dị thường là các mẫu trong dữ liệu không tuân theo một khái niệm đượcxác định rõ ràng về hành vi bình thường Gọi T là các quan sát từ phân phốiGaussian đơn biến và O là một điểm từ T Khi đó, Z-score của O lớn hơn ngưỡng
Trang 25Hình 2.1: Minh hoạ các điểm bất thường màu cam nằm xa các cụm phân bốchính.
được chọn trước nếu và chỉ O là một ngoại lệ
Tính năng phát hiện bất thường có thể áp dụng trong một số lượng rất lớn
và nhiều lĩnh vực khác nhau và là một phân khu quan trọng của học máy khôngđược giám sát Vì vậy, nó có các ứng dụng trong phát hiện xâm nhập an ninhmạng, phát hiện gian lận, phát hiện lỗi, giám sát tình trạng hệ thống, phát hiện
sự kiện trong mạng cảm biến, phát hiện nhiễu loạn hệ sinh thái, phát hiện lỗitrong hình ảnh bằng thị giác máy, chẩn đoán y tế và thực thi pháp luật
Nó thường được sử dụng trong tiền xử lý để loại bỏ dữ liệu bất thường khỏitập dữ liệu Điều này được thực hiện bởi vì cần: Thống kê dữ liệu như giá trịtrung bình và độ lệch chuẩn sẽ chính xác hơn sau khi loại bỏ các điểm bất thường
và việc hiển thị dữ liệu cũng có thể được cải thiện Trong học tập có giám sát,việc xóa dữ liệu bất thường khỏi tập dữ liệu thường dẫn đến sự gia tăng đáng
kể về mặt thống kê về độ chính xác Sự bất thường cũng thường là những quansát quan trọng nhất trong dữ liệu được tìm thấy chẳng hạn như trong phát hiệnxâm nhập hoặc phát hiện bất thường trong hình ảnh y tế
2.1.2 Phát hiện bất thường
Phát hiện bất thường là bài toán phát hiện các mẫu và sự kiện hiếm khi xuấthiện hoặc thậm chí không tồn tại trong dữ liệu huấn luyện Một các nói khác,phát hiện bất thường là bài toán phát hiện các mẫu với đặc điểm là chưa từngđược thấy Tổng quát hoá, bài toán phát hiện bất thường có một số lượng lớncác mẫu bình thường và có thể mô hình hoá chúng bằng nhiều cách, các bất
Trang 26thường cần được phát hiện có thể thuộc một hoặc nhiều phân bố nằm ngoài cácphân bố của các mẫu bình thường Đặc điểm mẫu bất thường là rất ít, hiểm gặp
và hầu như không thể ước lượng được phân phố cũng như không thể dự đoántrước được các đặc điểm xuất hiện Vì vậy, rất khó để xây dựng mô hình chocác mẫu bất thường, bài toán sẽ xoay quanh việc mô hình hoá thật tốt các mẫu
dữ liệu bình thường, từ đó dùng nhiều phương pháp khác nhau để đánh giá độbất thường của một mẫu kiểm tra
Mô hình hoá bài toán như sau, chúng ta có U hình ảnh hoặc các khung ảnh
từ video được định nghĩ bỡi ký hiện X N, các mẫu này nằm trong phân bố củacác mẫu bình thường p N tương đương công thức (x ∈ X N ) ∼ p N Phát hiện bấtthường là bài toán kiểm định xem mẫu dữ liệu y có thuộc phân bốp N hay không,nếu không thuộc phân bố p N thì mẫu dữ liệu y được coi như là bất thường
và độ đo D khác nhau
Nhiều kỹ thuật phát hiện dị thường đã được đề xuất Một số kỹ thuật phổbiến là:
– Thống kê (điểm Z, kiểm định Tukey và kiểm định Grubbs)
– Các kỹ thuật dựa trên mật độ (K - láng giềng gần nhất)
– Không gian con, dựa trên tương quan
– Vectơ hỗ trợ một lớp
– Mạng thần kinh tái tạo, bộ mã tự động, bộ mã tự động biến thể, mạngnơ-ron bộ nhớ ngắn dài hạn Các mạng Bayes
– Mô hình Markov ẩn (HMM)
Trang 27– Phân cụm: Phát hiện ngoại lệ dựa trên phân tích cụm
– Phát hiện ngoại lệ dựa trên logic mờ
Hiệu suất của các phương pháp phụ thuộc vào tập dữ liệu và các tham số
2.1.3 Phát hiện bất thường cho video
Trong phần này chúng ta sẽ nói về các kỹ thuật phát hiện bất thường củavideo cơ bản:
Hình 2.2: Ảnh minh hoạ về số bất thường trong video cho một số mẫu dữ liệu.Trong đó hàng 1 và 3 biểu diễn khung hình bình thường và hàng 2 và 4 biềudiễn khung hình bất thường
Mô hình dựa trên tái tạo
Các trường hợp bất thường thường khan hiếm so với các trường hợp bìnhthường Để giải quyết vấn đề này, các phương pháp phát hiện dị thường dựatrên cấu trúc lại thường tìm hiểu các đặc trưng về các hành vi bình thường theocách học không giám sát Ý tưởng cơ bản của mô hình tái tạo là cấu trúc lại dữliệu bình thường với giá trị độ lỗi tái tạo thấp làm cho phân phối của mẫu táitạo gần hơn với dữ liệu đào tạo Tương ứng, lỗi xây dựng lại dữ liệu bất thườngđược mong đợi là cao hơn Tự động mã hoá nhiều tầng được sử dụng phổ biếnnhất mô hình trong các mô hình mạng sinh, bao gồm một Bộ mã hóa để nén
Trang 28vec-tơ đầu vào thành một vec-tơ ẩn và Bộ giải mã để dựng lại vec-tơ đầu vào
từ vec-tơ ẩn Mục tiêu của mạng là giảm thiểu lỗi tái tạo L giữa vec-tơ đầu vào
và vec-tơ được tái tạo
L =X
i∈N
trong đó N là dữ liệu huấn luyện bình thường và D(E()) là cấu trúc mạng
Ở đây, Bộ mã hóa có thể là bất kỳ loại nào mạng nơ-ron, chẳng hạn như Mạngnơ-ron tích chập (CNN), và Bộ nhớ Ngắn Dài hạn (LSTM) giả định về sự bấtthường với giá trị cao hơn của lỗi xây dựng lại sẽ không được thỏa mãn nếu một
bộ mã tự động không thể tổng quát hóa dữ liệu bất thường Cũng như vậy sựbất thường được phát hiện bằng cách sử dụng một mô hình tổng quát nhưng
mô hình không thể giải thích tại sao khung ảnh là dị thường
Các mô hình sinh thường chứa một kiến trúc để tạo các khung dựa trên phân
Trang 29phối Gaussian, chẳng hạn như mạng đối kháng tạo sinh (GAN) GAN bao gồmmột bộ sinh và một bộ phân biệt Vai trò của bộ sinh là cố gắng xấp xỉ hoá mộtphân phối dữ liệu mới theo phân phối thực tế của dữ liệu thực và bộ phân biệt
là phân biệt xem dữ liệu đang trích xuất từ dữ liệu thực hay dữ liệu được tạosinh Các hàm mất mát của GAN được biểu thị như sau:
L = 1m
Hơn nữa, bộ tạo sinh có thể tạo ra các mẫu bất thường đồng thời Do đó,GAN là một trong những mô hình được sử dụng trong phát hiện bất thườngvideo Mặc dù có những ưu điểm, GAN vẫn mắc phải một số khiếm khuyếtkhông thể tránh khỏi, bao gồm đào tạo tốn kém, không ổn định, khó sinh ramẫu tốt và mô hình bị sụp đỗ
Các mô hình phân loại một lớp
Trong phát hiện bất thường, phân loại nhiều lớp để phát hiện của video bấtthường là rất khó Khi phát hiện video bất thường, các nhà nghiên cứu thườngcoi bất cứ điều gì khác biệt đáng kể so với hành vi bình thường được gọi là bấtthường Do đó, nhiệm vụ phát hiện bất thường không có nhãn bất thường cóthể được xem như một vấn đề phân loại một lớp (OCC) Ý tưởng cốt lõi của loại
mô hình này trong phát hiện video bất thường là tìm một siêu cầu bao quanhcác đặc trưng của dữ liệu thông thường Bất kỳ điểm dữ liệu nào không baogồm trong siêu cầu này sẽ được coi là bất thường Sự kết hợp giữa học sâu vàcác mô hình OCC có thể được đào tạo để học cách biểu diễn đối tượng mật độmẫu cục bộ với mục tiêu phân loại một lớp chung Tuy nhiên, loại mô hình yêucầu thời gian đào tạo kéo dài
Mô hình kết hợp
Mỗi loại mô hình đều có chức năng mục tiêu riêng và lợi thế cụ thể trong việcgiải quyết các nhiệm vụ phát hiện bất thường Do đó, các nhà nghiên cứu có
Trang 30thể xem xét việc tạo ra nhiều mô hình phục vụ các khối khác nhau trong một
mô hình, có thể tận dụng lợi thế của các mô hình khác nhau và cải thiện độchính xác phát hiện, bên trong mô hình kết hợp, các đặc trưng đã học được từhọc sâu có thể được chuyển sang các thuật toán truyền thống như bộ phân loạiSVM Vec-tơ đặc trưng thấp chiều làm cho các mô hình kết hợp có thể mở rộnghơn và hiệu quả về mặt tính toán, phù hợp để giải quyết nhiệm vụ phát hiệnbất thường video
– Lựa chọn công cụ dùng để ước lượng phân bố xác suất của các đặc trưngbên trên Công cụ trên có thể là các mạng phân loại một lớp, mạng sinh,mạng rút trích đặc trưng sau đó phân cụm, Từ đó ước lượng được phân
bố của dữ liệu bình thường
– Tìm độ đo phù hợp để ước lượng độ bất thường của một mẫu dữ liệu kiểmtra Các độ đo này tuỳ thuộc vào phương pháp bên trên cũng như đặc thùbài toán
Ở các phần tiếp theo chúng ta tiếp tục tiềm hiểu một số mô hình chung đểkhai thác đặc trưng không thời gian cũng như phát hiện bất thường cho videotrong luận văn
2.2 Mạng Mã hoá tự động
Mạng mã hoá tự động là mô hình mạng nơ-ron học sâu, mạng gồm hai thànhphần chính là bộ mã hoá và bộ giải mã được nối lần lượt liên tiếp nhau Hàmmục tiêu được học nhờ vào giải thuật lan truyền ngược của mạng nơ-ron
Trang 31Ký hiệu Ý nghĩa
D Bộ dữ liệu, D =
x(1), x(2), , x(n) , bao gồm n mẫu dữ liệu; |D| = n.
x(i) Mỗi điểm dữ liệu là một véc-tơ d chiều, x(i) =hx(i)1 , x(i)2 , , x(i)d i.
x Là một mẫu dữ liệu trong tập, x ∈ D.
x′ Kết quả được tái tạo lại của mẫu x.
˜
x Mẫu biến thể của dữ liệu x.
z Chiều ẩn được nén ở lớp cổ chai
a(l)j Hàm kích hoạt cho nơ-ron thứ j ở lớp mạng thứ l
gϕ(.) Hàm mã hoá với tham số ϕ.
fθ(.) Hàm giải mã với tham số θ.
qϕ(z | x) Hàm ước lượng xác suất hậu nghiệm .
pθ(x | z) Likelihood của hàm sinh mẫu dữ liệu khi biết giá trị miền ẩn z.Bảng 2.1: Bảng chú thích các ký hiệu trong mạng mã hoá tự động
Bộ mã tự động được phát minh để tái tạo lại dữ liệu với số chiều lớn bằngcách sử dụng mô hình mạng nơ-ron với lớp nút cổ chai hẹp ở giữa Một công cụdùng để giảm chiều dữ liệu: lớp nút cổ chai nắm bắt một mã hóa ẩn được nén.Biểu diễn chiều thấp như vậy có thể được sử dụng để trích xuất véc-tơ nhúngtrong nhiều ứng dụng khác nhau, giúp nén dữ liệu hoặc trích xuất các yếu tốtạo ra dữ liệu cơ bản
Mạng tự mã hoá là một mạng nơ-ron được thiết kế để huấn luyện theo phươngpháp học không giám sát nhằm tạo dựng lại đầu vào ban đầu và tạo ra mộtbiểu diễn nén của mẫu dữ liệu ấy Ý tưởng này bắt nguồn từ những năm 1980,
và sau đó được quảng bá bởi bài báo của Hinton & Salakhutdinov, 2006
Mạng mã hoá tự động bao gồm hai mạng: Mạng mã hóa: Nó chuyển đầu vàokích thước cao ban đầu thành mã miền ẩn có chiều thấp hơn Kích thước đầuvào lớn hơn kích thước đầu ra Mạng giải mã: Mạng bộ giải mã khôi phục dữliệu từ mã miền ẩn a với các lớp đầu ra lớn hơn và lớn hơn
Mạng mã hóa về cơ bản thực hiện việc giảm kích thước, giống như cách chúng
ta sử dụng Phân tích thành phần chính (PCA) hoặc Phân tích nhân tố ma trận(MF) Ngoài ra, trình mã tự động được tối ưu hóa rõ ràng cho việc xây dựng lại
dữ liệu từ mã Một biểu diễn trung gian tốt không chỉ có thể thu được các biếntiềm ẩn mà còn có lợi cho quá trình giải nén đầy đủ
Mô hình bao gồm hàm mã hoágϕ(.)với tham sốϕ, hàm giải mã fθ(.)với tham
Trang 32Hình 2.3: Ví dụ mạng tự động mã hoá
số tham số θ, chiều được thu giảm cho mẫu dữ liệu x ở lớp cổ chai là z = gϕ(x)
và kết quả tái tạo lại x = fθ(gϕ(x))
Các tham số ϕ, θ được học cùng nhau để tạo ra một mẫu dữ liệu được tái tạogiống như dữ liệu đầu vào ban đầux ≈ fθ(gϕ(x)), hay nói cách khác, để học mộthàm nhận dạng Có nhiều độc lỗi khác nhau để định lượng sự khác biệt giữahai vec-tơ, chẳng hạn như entropy chéo khi hàm kích hoạt là sigmoid hoặc đơngiản như mất mát MSE:
ẩn cổ chai không thể kiểm soát, hàm mục tiêu so sánh trực tiếp từng điểm ảnh( có thể bao gồm cả nhiễu ) có thể ảnh hưởng đến chất lượng của phân phối ước
Trang 33lượng Cần phần sau sẽ trình bày tiếp các phương pháp mạng sinh khác cải tiếncác điểm yếu này.
2.3 Mạng mã hoá tự động biến thể
Ý tưởng về Variational Autoencoder ( mã hoá tự động biến thể ), viết tắtcủa VAE, thực sự ít giống với tất cả các mô hình mã hoá tự động thông thường,nhưng bắt nguồn sâu xa từ các phương pháp của mô hình đồ họa và mô hìnhbayes biến thể
Thay vì ánh xạ đầu vào từ một vec-tơ cố định, mô hình muốn ánh xạ nóthành một phân phối Hãy gắn nhãn phân phối này làpθ, được tham số hóa bởi
θ Mối quan hệ giữa đầu vào dữ liệu x và vec-tơ mã hóa tiềm ẩn có thể được xácđịnh đầy đủ bằng: Xác suất tiền nghiệmpθ(z), Hợp lý hoápθ(x|z), Xác suất hậunghiệm pθ(z|x)
Giả sử rằng chúng ta biết tham số thựcθ∗ cho bản phân phối này Để tạo mộtmẫu trông giống như một điểm dữ liệu thực x(i), chúng ta làm theo các bướcsau:
1 Đầu tiên, hãy lấy mẫu một z (i) từ một bản phân phối trước pθ∗ (z)
2 Sau đó, một giá trịx(i)được tạo từ một phân phối có điều kiệnp θ ∗ (x|z = z(i)).Tham số tối ưu θ∗ là cách tối đa hóa xác suất tạo ra các mẫu dữ liệu thực:
θ∗ = arg maxθQ n
i=1 pθ(x (i) )Thông thường, chúng ta sử dụng xác suất log để chuyển đổi tích trên về phảithành tổng: θ∗ = arg maxθP n
i=1 log pθ(x(i))Bây giờ, hãy cập nhật phương trình để chứng minh tốt hơn quá trình tạo dữliệu để liên quan đến vectơ mã hóa: pθ(x (i) ) = R p θ (x (i) |z)pθ(z)dz
Thật không may, nó không phải là dễ dàng để tính toán pθ(x(i)) theo cáchnày, vì rất tốn kém để kiểm tra tất cả các giá trị z có thể có và tính tổng chúng
Để thu hẹp không gian giá trị để tạo điều kiện tìm kiếm nhanh hơn, chúng tamuốn giới thiệu một hàm gần đúng mới để xuất ra mã có khả năng là mã đượccung cấp đầu vào x, qϕ(z|x) được tham số hóa bởi ϕ
Bây giờ cấu trúc trông rất giống một bộ mã tự động: Xác suất có điều kiện
p θ (x|z)xác định một mô hình tổng quát, tương tự như bộ giải mã f θ (x|z) đã giớithiệu ở trên pθ(x|z) còn được gọi là bộ giải mã xác suất Hàm xấp xỉ qϕ(z|x) là
Trang 34Hình 2.4: Mô hình đồ họa liên quan đến Bộ mã tự động biến thể Các đườngliền nét biểu thị phân bố được sinh pθ(.) và các đường đứt nét biểu thị sự phân
bố gần đúng qϕ(z|x) với phân bố hậu nghiệm pθ(z|x)
bộ mã hóa xác suất, đóng vai trò tương tự như g ϕ (z|x) bên trên
Hàm mục tiêu ELBO: Xác suất ước lượng hậu nghiệm qϕ(z|x) nên rất gầnvới cái thật pθ(z|x) Chúng ta có thể sử dụng phân kỳ Kullback-Leibler để địnhlượng khoảng cách giữa hai phân bố này Phân kỳ KL D KL (X|Y )đo lượng thôngtin bị mất nếu phân phối Y được sử dụng để biểu diễn X
Trong trường hợp của chúng ta, chúng ta muốn giảm thiểuDKL(qϕ(z|x)|pθ(z|x))đối với ϕ
Nhưng tại sao lại sử dụng DKL(qϕ|pθ) (KL đảo ngược) thay vì DKL(pθ|qϕ) (KLthuận)
Phân kỳ KL thuận: DKL(P |Q) = E z∼P (z) log P (z)Q(z); chúng ta phải đảm bảo rằng
Q (z)> 0 khi P (z)> 0 Phân phối biến thể được tối ưu hóa phải bao gồm toàn
bộ p(z)
Phân kỳ KL đảo ngược: DKL(Q|P ) = E z∼Q(z) logQ(z)P (z); giảm thiểu sự phân kỳ
KL đảo ngược ép xuống dưới P (z)
log p θ (x) − D KL (q ϕ (z|x)∥p θ (z|x)) = E z∼qϕ(z|x) log p θ (x|z) − D KL (q ϕ (z|x)∥p θ (z)) (2.7)
Vế trái của phương trình chính xác là những gì chúng ta muốn tối đa hóa khihọc các phân phối thực: chúng ta muốn tối đa hóa (log-) khả năng tạo ra dữ liệu
Trang 35Hình 2.5: KL thuận và nghịch khác nhau về tính chất khi đo khoảng cách giữacác phân bố.
thực (nghĩa là log pθ(x)) và cũng giảm thiểu sự khác biệt giữa phân phối thực vàước lượng (thuật ngữ DKL hoạt động giống như một bộ điều chỉnh) Lưu ý rằng
pθ(x) được cố định đối với qϕ
Sự phủ định của điều trên xác định hàm mất mát của chúng ta:
là giới hạn dưới của log p θ (x)
−LVAE = log pθ(x) − DKL(qϕ(z|x)∥pθ(z|x)) ≤ log pθ(x) (2.9)
Do đó, bằng cách giảm thiểu tổn thất, chúng ta đang tối đa hóa giới hạn dướicủa xác suất tạo ra các mẫu dữ liệu thực
Reparameterization Trick
Thuật ngữ kỳ vọng trong hàm tổn thất gọi tạo ra các mẫu từ z ∼ q ϕ (z|x).Lấy mẫu là một quá trình ngẫu nhiên và do đó chúng không thể sao chép ngược
Trang 36gradient Để làm cho nó có thể đào tạo được, thủ thuật Reparameterization đượcgiới thiệu: Thường có thể biểu diễn biến ngẫu nhiên z như một biến xác định
z = Tϕ(x, ϵ) , với ϵ là một biến ngẫu nhiên độc lập phụ trợ, và hàm biến đổi Tϕđược tham số hóa bởi các chuyển đổi ϵ thành z
Ví dụ, một lựa chọn phổ biến về hình thức qϕ(z|x) là một Gaussian đa biếnvới cấu trúc hiệp phương sai đường chéo:
z ∼ qϕ(z|x(i)) = N (z; µ(i), σ2(i)I)
z = µ + σ ⊙ ϵ, where ϵ ∼ N (0, I) ; Reparameterization trick.
(2.10)
với ⊙ là phép nhân từng phần tử của 2 véc-tơ với nhau
Hình 2.6: Minh họa về cách thủ thuật tham số hoá lại giúp cho quá trình lấymẫu có thể đào tạo được
Thủ thuật reparamerization cũng hoạt động cho các loại phân phối khác,không chỉ Gaussian Trong trường hợp Gaussian đa biến, chúng ta làm cho môhình có thể đào tạo được bằng cách học giá trị trung bình và phương sai củaphân phối, µ, σ đồng thời sử dụng thủ thuật đại số lại một cách rõ ràng, trongkhi ngẫu nhiên vẫn nằm trong biến ngẫu nhiên ϵ ∼ N (0, I)
Trang 372.3.1 Nhận xét
Mạng tự mã hoá biến thể cho chúng ta một phường pháp để kiểm soát phân
bố của miền ẩn z, cũng như biến các phân bố bất từ dữ liệu bất kỳ về một dạngphân bố nhất định ở miền z như N (0, I) Bên cạnh đó mô hình đưa ra đượcnhiều hướng ứng dụng để điều chỉnh và ràng buộc trên miền phân bố z này.Việc tạo ra các biến thể cũng giúp ích trong việc phát hiện các bất thường màchúng ta có thể khai thác về sau
Hình 2.7: Minh họa về mô hình tự động mã hóa biến thiên với giả định Gaussian
đa biến
2.4 Mạng Đối kháng tạo sinh
Trong năm 2014, có một bài báo mang tính đột phá đã giới thiệu Mạng đốisinh (Generative Adversarial Network - GAN) [Goodfellow et al., 2014], mộtphương pháp khôn khéo tận dụng sức mạnh của các mô hình phân biệt để cóđược các mô hình sinh tốt Về cốt lõi, GAN dựa trên ý tưởng là một bộ sinh
dữ liệu là tốt nếu ta không thể chỉ ra đâu là dữ liệu giả và đâu là dữ liệu thật.Trong thống kê, điều này được gọi là bài kiểm tra từ hai tập mẫu - một bàikiểm tra để trả lời câu hỏi liệu tập dữ liệu X = {x1, , xn} và X′ = {x′1, , x′n}
có được rút ra từ cùng một phân phối Sự khác biệt chính giữa hầu hết nhữngbài nghiên cứu thống kê và GAN là GAN sử dụng ý tưởng này theo kiểu có tính
Trang 38cách xây dựng Nói cách khác, thay vì chỉ huấn luyện một mô hình để nói “này,hai tập dữ liệu này có vẻ như không đến từ cùng một phân phối”, thì chúng sửdụng phương pháp kiểm tra trên hai tập mẫu để cung cấp tín hiệu cho việc huấnluyện cho một mô hình sinh Điều này cho phép ta cải thiện bộ sinh dữ liệu tớikhi nó sinh ra thứ gì đó giống như dữ liệu thực Ở mức tối thiểu nhất, nó cầnlừa được bộ phân loại, kể cả nếu bộ phân loại của ta là một mạng nơ-ron sâutân tiến nhất.
Hình 2.8: Minh họa đơn giản về mạng GAN
Kiến trúc của mạng đối sinh được miêu tả trong hình Như ta có thể thấy,
có hai thành phần trong kiến trúc của GAN - đầu tiên, ta cần một thiết bị (giả
sử, một mạng sâu nhưng nó có thể là bất kỳ thứ gì, chẳng hạn như công cụ kếtxuất đồ họa trò chơi) có khả năng tạo ra dữ liệu giống thật Nếu ta đang làmviệc với hình ảnh, mô hình cần tạo ra hình ảnh Nếu ta đang làm việc với giọngnói, mô hình cần tạo ra được chuỗi âm thanh, v.v Ta gọi mô hình này là mạngsinh (generator network) Thành phần thứ hai là mạng phân biệt (discriminatornetwork) Nó cố gắng phân biệt dữ liệu giả và thật Cả hai mạng này sẽ cạnhtranh với nhau Mạng sinh sẽ cố gắng đánh lừa mạng phân biệt Đồng thời,mạng phân biệt sẽ thích nghi với dữ liệu giả vừa mới tạo ra Thông tin thu được
sẽ được dùng để cải thiện mạng sinh, và cứ tiếp tục như vậy
Mạng phân biệt là một bộ phân loại nhị phân nhằm phân biệt xem đầu vào
x là thật (từ dữ liệu thật) hoặc giả (từ mạng sinh) Thông thường, đầu ra củamạng phân biệt là một số vô hướng o ∈ R dự đoán cho đầu vào x , chằng hạnnhư sử dụng một tầng kết nối đầy đủ với kích thước ẩn 1 và sau đó sẽ được đưaqua hàm sigmoid để nhận được xác suất dự đoán D(x) = 1/(1 + e−o) Giả sửnhãn y cho dữ liệu thật là 1 và 0 cho dữ liệu giả Ta sẽ huấn luyện mạng phân
Trang 39biệt để cực tiểu hóa mất mát entropy chéo, nghĩa là,
min
D {−y log D(x) − (1 − y) log(1 − D(x))}, (2.11)Đối với mạng sinh, trước tiên nó tạo ra một vài tham số ngẫu nhiên z ∈ R d
từ một nguồn, ví dụ, phân phối chuẩn z Ta thường gọi z như là một biến tiềm
ẩn Mục tiêu của mạng sinh là đánh lừa mạng phân biệt để phân loại x′ = G(z)
là dữ liệu thật, nghĩa là, ta muốn D(G(z)) ≈ 1 Nói cách khác, cho trước mộtmạng phân biệtD , ta sẽ cập nhật tham số của mạng sinh G nhằm cực đại hóamất mát entropy chéo khi y = 0 , tức là,
max
G {−(1 − y) log(1 − D(G(z)))} = max
G {− log(1 − D(G(z)))} (2.12)Nếu như mạng sinh làm tốt, thì D(x′) ≈ 1 để mất mát gần 0, kết quả là cácgradient sẽ trở nên quá nhỏ để tạo ra được sự tiến bộ đáng kể cho mạng phânbiệt Vì vậy, ta sẽ cực tiểu hóa mất mát như sau:
min
G {−y log(D(G(z)))} = min
G {− log(D(G(z)))}, (2.13)trong đó chỉ đưa x′ = G(z) vào mạng phân biệt nhưng cho trước nhãn y = 1 Nói tóm lại, D và G đang chơi trò “minimax” (cực tiểu hóa cực đại) với mộthàm mục tiêu toàn diện như sau:
minDmaxG{−Ex∼DatalogD(x) − Ez∼Noiselog(1 − D(G(z)))} (2.14)Rất nhiều ứng dụng của GAN liên quan tới hình ảnh với các ví dụ bên dướinhư sau:
Tạo ra khuôn mặt người: GAN có khả năng tạo ra những khuôn mặt nhântạo mà rất khó phân biệt với người thật Chất lượng của những model GAN ápdụng trên khuôn mặt ngày càng tốt hơn qua từng năm
Thay đổi độ tuổi của khuôn mặt: Chắc hẳn chúng ta đã không còn xa lạ vớiứng dụng thay đổi tuổi của khuôn mặt Dựa trên khuôn mặt chúng ta hiện tại,GAN sẽ sinh ra các biến thể theo từng độ tuổi
Sinh ảnh các vật thể tất nhiên những gì mà GAN đã thực hiện trên con ngườithì nó có thể ứng dụng được trên những loài động vật khác Bên dưới là những
Trang 40Hình 2.9: Minh hoạ sự tốt lên của việc tạo sinh khuôn mặt qua các năm.
Hình 2.10: Sinh ảnh mặt dự vào độ tuổi
bức ảnh mà GAN đã sinh ra cho các vật thể là động vật, đồ vật
Hình 2.11: Sinh ảnh đồ vật con vật
2.4.1 Nhận xét
Mạng GAN là một kiến trúc mô hình hoá tốt việc sinh mẫu và kiểm soátphân bố đầu ra của mẫu đó bằng mộng mang nơ-ron D Mạng D này mặc dùkhông tường mình nhưng tận dụng được thế mạnh của mạng nơ-ron là mô hìnhhoá tốt các dữ liệu nhiều chiều, từ đó định hướng cho mạng G sinh ra được cácmẫu tốt hơn Hàm mục tiêu cho mạng G cũng sẽ tập trung vào các đặc trưngchính của tập dữ liệu thay vì toàn bộ khung ảnh như phương pháp mã hoá tựđộng bên trên Việc tận dụng cả 2 phần trên của GAN giúp các nhà nghiên cứu