1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện bất thường từ video sử dụng kỹ thuật học sâu

61 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 3,14 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ──────── * ─────── LUẬN VĂN THẠC SĨ Phát bất thường từ video sử dụng kỹ thuật học sâu Hắc Tiến Thành tienthanh3496@gmail.com Ngành Khoa học máy tính Giảng viên hướng dẫn: TS Nguyễn Thị Oanh PGS.TS Trần Thị Thanh Hải Viện: Công nghệ thông tin Truyền thông HÀ NỘI 04-2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Hắc Tiến Thành Đề tài luận văn: Phát bất thường từ video sử dụng kỹ thuật học sâu Chuyên ngành: Khoa học máy tính Mã số SV: 20202415M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2022 với nội dung sau: Bổ sung so sánh với kết thực nghiệm [1], [2], [3] phần 4.3.2 trang 48 Sửa lại thông tin báo [4] công bố hội nghị CVPR Tài liệu tham khảo trang 57 Bổ sung khái niệm làm việc với video: đoạn, clip, phân đoạn, gói (bags), thể (instance) (phần 1.2.1 trang 15-16) Bổ sung minh họa chế ý cho clip video (phần 4.3.2 trang 5354) Bổ sung nội dung làm rõ giới hạn kỹ thuật sử dụng luận văn (phần 1.4.2 trang 21) Sửa lại câu văn để thể đầy đủ ý (phần 3.1.1 trang 31, Tóm tắt luận văn) Bổ sung tham chiếu cho Hình 10 trang 26 Hình 11 trang 27 Sửa nội dung trình bày lý thuyết mạng Long Short Term Memory (phần 2.3 trang 25) Bổ sung nội dung phần 3.1 theo hướng từ tổng quát đến việc việc áp dụng CSDL UCF-Crime trường hợp đánh giá phương pháp (phần 3.1 trang 30) 10 Bổ sung đánh số trang 11 Bổ sung giải thích chế ý (phần 3.2.1 trang 37) 12 Sửa lại số đoạn in nghiêng chữ thẳng (phần 3.2.2 trang 38) 13 Sửa lại bỏ nền, sửa kích thước phơng chữ hợp lý Hình 16 trang 31, Hình 20 trang 37, Hình 19 trang 36, Hình 21 trang 38 14 Bổ sung bảng tổng hợp tham số thực nghiệm (phần 4.3.1 trang 44) Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG LỜI CẢM ƠN Đầu tiên, em xin gửi lời cảm ơn chân thành đến TS Nguyễn Thị Oanh PGS.TS Trần Thị Thanh Hải hướng dẫn ân cần, tận tình, kiên nhẫn với em tạo động lực cho em khoảng thời gian thực luận văn thạc sĩ Em xin chân thành cảm ơn Viện Nghiên cứu Quốc tế MICA cho em môi trường thuận lợi để học tập nghiên cứu Em xin cảm ơn đến tất thầy Viện Cơng nghệ thơng tin nói riêng thầy cô Trường Đại học Bách khoa Hà Nội nói chung suốt thời gian học giảng đường truyền đạt cho em kiến thức cần thiết Cuối cùng, em xin gửi lời cảm ơn đến gia đình ln quan tâm, ủng hộ hết lòng vật chất tinh thần suốt thời gian qua tất bạn lớp đồng hành suốt thời gian học làm việc Do thời gian kiến thức có hạn nên khơng luận văn khơng tránh khỏi thiếu sót định, em mong nhận đóng góp quý báu thầy cô bạn Hà Nội, ngày tháng năm 2022 Học viên TÓM TẮT NỘI DUNG LUẬN VĂN Luận văn tập trung giải toán phát bất thường từ video giám sát an ninh liên quan đến nhiều người Đây tốn có tính ứng dụng thực tiễn cao hệ thống camera giám sát, ngày sử dụng đường phố, ngã tư, ngân hàng, trung tâm mua sắm, v.v nhằm tăng tính an tồn nơi cơng cộng Tuy nhiên, tốn có nhiều thách thức đa dạng bất thường cân liệu thường không gán nhãn phân đoạn xác mặt thời gian Luận văn giải toán phát bất thường dựa phân lớp nhị phân với kỹ thuật học sâu dựa huấn luyện liệu nhãn yếu Phương pháp đề xuất luận văn gồm bước sau Đầu tiên mạng nơ-ron tích chập chiều (C3D – 3D convolutional neural network) áp dụng để trích chọn đặc trưng khơng gian thời gian từ chuỗi video Sau đó, học đa thể (MIL) nghiên cứu ứng dụng để giải vấn đề gán nhãn yếu liệu Cuối cùng, chế ý (attention mechanism) kỹ thuật phân cụm (K-means) áp dụng để khai thác thông tin tương quan phân đoạn video K-means giúp tạo nhãn giả cho phân đoạn video, khắc phục cho vấn đề nhãn yếu – có nhãn mức độ video mà khơng có nhãn khung hình video Phương pháp đề xuất đánh giá thực nghiệm CSDL UCF-Crime gồm 1900 video với 13 kiện bất thường hoạt động bình thường ghi lại camera giám sát Kết thực nghiệm cho thấy chế ý cho phép cải thiện khả phát bất thường hệ thống tổng thể so với việc thực trích chọn đặc trưng học đa thể Hà Nội, ngày tháng năm 2022 HỌC VIÊN MỤC LỤC LỜI CẢM ƠN .4 TÓM TẮT NỘI DUNG LUẬN VĂN MỤC LỤC DANH MỤC HÌNH ẢNH .8 DANH MỤC BẢNG 10 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ 11 CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN CÁC SỰ KIỆN BẤT THƯỜNG TỪ VIDEO 12 1.1 Một số khái niệm 12 1.1.1 Khái niệm bất thường phân tích liệu 12 1.1.2 Các kiểu bất thường 13 1.2 Phát bất thường từ video 14 1.2.1 Định nghĩa toán 14 1.2.2 Khung làm việc tổng quát hệ thống phát bất thường 16 1.2.3 Một số vấn đề thường gặp phát bất thường 17 1.3 Một số kỹ thuật phát bất thường từ video dựa học sâu 19 1.4 Mục tiêu, phạm vi luận văn phương pháp nghiên cứu 21 1.4.1 Mục tiêu luận văn 21 1.4.2 Phạm vi nghiên cứu luận văn 21 1.4.3 Phương pháp nghiên cứu đề xuất đóng góp khoa học 21 1.5 Bố cục luận văn 22 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 23 2.1 Giới thiệu chung mạng nơ-ron tích chập 23 2.2 Mạng nơ-ron tích chập ba chiều 24 2.3 Mạng Long Short Term Memory 25 2.4 Cơ chế ý kiến trúc giải mã-mã hóa 26 2.5 Một số nghiên cứu toán phát bất thường dựa nhãn yếu 27 CHƯƠNG 3: MÔ HÌNH PHÁT HIỆN BẤT THƯỜNG 30 3.1 Mơ hình C3D kết hợp học đa thể 30 3.1.1 Mơ hình kiến trúc mạng C3D 31 3.1.2 Mô hình Deep MIL Ranking 32 3.1.3 Xử lý vấn đề lấy mẫu video 34 3.1.4 3.2 Nhận xét 35 Giải pháp cải tiến đề xuất 36 3.2.1 Sử dụng chế ý dựa clip (clip attention) 36 3.2.2 Sử dụng thuật toán phân cụm để tạo nhãn giả (pseudo label) 37 CHƯƠNG 4: THỰC NGHIỆM 40 4.1 Dữ liệu thực nghiệm 40 4.2 Độ đo hiệu 43 4.3 Triển khai thực nghiệm 43 4.3.1 Huấn luyện mơ hình 43 4.3.2 Kết thực nghiệm 47 CHƯƠNG 5: KẾT LUẬN 55 5.1 Kết đạt 55 5.2 Định hướng phát triển đề tài 55 Tài liệu tham khảo 57 DANH MỤC HÌNH ẢNH Hình 1: Một ví dụ đơn giản bất thường liệu chiều [5] 12 Hình 2: Sự khác biệt nhiễu bất thường [6] 13 Hình 3: Minh họa hệ thống phát bất thường 15 Hình 4: Minh họa gói (bag) thể (instance) [4] 15 Hình 5: Minh họa phân đoạn video [4] 16 Hình 6: Khung làm việc tổng quát hệ thống phát bất thường 17 Hình 7: So sánh thuật tốn học sâu thuật tốn truyền thống [7] 20 Hình : Kiến trúc chung mạng nơ-ron tích chập 23 Hình : Phép tốn tích chập chiều [12] 25 Hình 10: Kiến trúc mạng LSTM [16] 26 Hình 11: Kiến trúc mã hóa – giải mã với chế ý [17] 27 Hình 12: Sơ đồ luồng phát bất thường [4] 28 Hình 13: Tổng quan mơ hình [1] 28 Hình 14: Phương pháp đề xuất [2] 29 Hình 15: Phương pháp đề xuất [3] 29 Hình 16 : Khung hình tổng quát phát bất kiện bất thường [4] 31 Hình 17 : Kiến trúc mạng C3D [12] .31 Hình 18 : Số lượng tham số tầng model C3D 32 Hình 19: Mơ hình đề xuất sử dụng chế ý dựa clip 36 Hình 20: Cơ chế ý dựa clip 37 Hình 21: Mơ hình cải tiến sử dụng chế ý thuật toán K-means 38 Hình 22: Các kiện bất thường khác từ video huấn luyện video kiểm thử tập liệu UCF-Crime 40 Hình 23: Kích thước video tập liệu kiểm thử 42 Hình 24: Tỉ lệ bất thường video tập liệu kiểm thử 42 Hình 25: Giá trị hàm mát theo lơ mơ hình C3D-MIL 44 Hình 26: Giá trị hàm mát theo lơ mơ hình C3D-ATT-MIL 45 Hình 27: Giá trị hàm mát tổng hợp (MIL_Loss + MSE_Loss + Kmeans_Loss) theo lô mơ hình C3D-ATT-CLT-MIL 45 Hình 28: Giá trị hàm mát thành phần MIL_Loss theo lơ mơ hình C3D-ATTCLT-MIL 46 Hình 29: Giá trị hàm mát thành phần MSE_Loss theo lơ mơ hình C3D-ATTCLT-MIL 46 Hình 30: Giá trị hàm mát thành phần KMeans_Loss theo lô mô hình C3DATT-CLT-MIL 47 Hình 31: So sánh đường cong ROC mức khung hình 49 Hình 32: So sánh đường cong ROC mức clip 16-khung hình 50 Hình 33: So sánh độ xác AUC (%) mức khung hình theo lớp bất thường thực nghiệm 50 Hình 34: So sánh kết dự đoán bất thường thực nghiệm video Vandalism036 51 Hình 35: So sánh kết dự đốn bất thường thực nghiệm video Robbery048 51 Hình 36: So sánh kết dự đoán bất thường thực nghiệm video Assault006 52 Hình 37: So sánh kết dự đoán bất thường thực nghiệm video Abuse030 52 Hình 38: So sánh kết dự đốn bất thường thực nghiệm video Assault006 53 Hình 39: Minh họa phân đoạn gồm có clip trọng số cho clip 53 DANH MỤC BẢNG Bảng 1: Số lượng video lớp tập liệu huấn luyện 41 Bảng 2: Thống kê số khung hình bình thường bất thường tập liệu đánh giá 43 Bảng 3: Bảng tổng hợp tham số lựa chọn hàm mát trình bày chương 44 Bảng 4: Các kết thực nghiệm liệu UCF-Crime 48 Bảng 5: Minh họa cách tính trọng số cho clip chế ý 54 10 Hình 30: Giá trị hàm mát thành phần KMeans_Loss theo lơ mơ hình C3D-ATT-CLT-MIL Từ Hình 28 thấy mơ hình có giá trị MIL_Loss cao so với mơ hình trước thể mơ hình khơng huấn luyện hiệu mơ hình trước Kết luận: Nhìn từ Hình 25, 26, 28, so sánh giá trị hàm mát thành phần MIL mơ hình thấy mơ hình C3D-ATT-MIL có giá trị nhỏ (trong khoảng đến 5), mơ hình C3D-MIL có giá trị từ đến 8, mơ hình C3DATT-MIL có giá trị từ 15 đến 20 Do nhận xét:  Cơ chế ý dựa clip giúp mô hình C3D-MIL tăng hiệu huấn luyện  Việc sử dụng nhãn giả chưa làm tăng hiệu huấn luyện cho mơ hình C3D-ATT-MIL 4.3.2 Kết thực nghiệm Kết thực nghiệm Bảng cho thấy:  Cơ chế ý dựa clip giúp tăng AUC mức khung hình AUC mức clip mơ hình C3D-MIL 1.2% 1.4%  Sử dụng nhãn giả làm mơ hình C3D-ATT-MIL giảm 0.5% AUC mức khung hình giảm 0.8% AUC mức clip Kết thực nghiệm cho thấy chế ý dựa clip giúp tổng hợp đặc trưng phân đoạn video tốt so với sử dụng tầng “average pooling” thuận toán phân cụm tạo nhãn giả không phân cụm hiệu dẫn đến kết thực nghiệm bị thấp Mặc dù mơ hình đề xuất chưa đạt kết [1], [2], 47 [3] mơ hình đề xuất kết hợp với mơ hình khác để cải thiện kết thực nghiệm Bảng 4: Các kết thực nghiệm liệu UCF-Crime Mơ hình AUC mức khung AUC hình (%) C3D-MIL* (Sultani cộng mức clip(%) 75.41 N/A 75.46 75.3 [1]* 79 N/A [2]* 78.28 N/A [3]* 79.54 N/A C3D-ATT-MIL (Đề xuất 1) 76.65 76.69 C3D-ATT-CLT-MIL (Đề xuất 2) 74.95 74.48 [4] ) C3D-MIL (Sultani cộng [4]) (Học viên tự huấn luyện đánh giá lại) (*): kết đưa báo 48 Hình 31: So sánh đường cong ROC mức khung hình 49 Hình 32: So sánh đường cong ROC mức clip 16-khung hình Hình 33: So sánh độ xác AUC (%) mức khung hình theo lớp bất thường thực nghiệm Hình 33 cho thấy: Sử dụng clip atttention làm mơ hình C3D-MIL tăng AUC mức khung hình lớp “Robbery” (~12%) “Vandalism” (~8%), làm giảm AUC mức khung hình lớp Assault (~11%), lớp “Abuse” (~6%) Trong khi kết hợp clip attention pseudo label khiến cho kết AUC mức khung hình khơng chênh lệch đáng kể so với kết mơ hình C3D-MIL Hình 34 biểu diễn kết dự đoán bất thường video Vandalism036 mơ hình Từ kết thấy mơ hình C3D-ATT-MIL dự đốn tốt so với mơ hình cịn lại phát khung hình bất thường nằm khoảng khung hình 1000 đến khung hình 1060 50 Hình 34: So sánh kết dự đoán bất thường thực nghiệm video Vandalism036 Từ kết dự đoán bất thường biểu diễn Hình 35 cho thấy, mơ hình C3D-ATT-MIL dự đốn giá trị thể bất thường xác khoảng khung hình đến khung hình 400 Trong đó, với khung hình bất thường mơ hình C3D-ATT-MIL có kết tốt phát hầu hết khung hình bất thường Hình 35: So sánh kết dự đốn bất thường thực nghiệm video Robbery048 51 Hình 36 cho thấy ba mơ hình chưa hoạt động tốt việc dự đoán bất thường Trong Hình 37 cho kết ngược lại mơ hình khơng hoạt động hiệu dự đốn bất thường Tuy nhiên cho thấy mơ hình C3D-ATT-MIL dự đốn sát với nhãn hơn so với mơ hình cịn lại khung hình bình thường Hình 36: So sánh kết dự đoán bất thường thực nghiệm video Assault006 Hình 37: So sánh kết dự đoán bất thường thực nghiệm video Abuse030 Trong lớp Assault, có số khung hình có số lượng người đơng đảo, có hành động giống bất thường thực tế hành động bình thường, mơ hình C3D52 ATT-MIL ý nhiều vào khung dẫn đến kết dự đốn sai khung hình bình thường thành bất thường Hình 38 Hình 38: So sánh kết dự đốn bất thường thực nghiệm video Assault006 Từ kết dự đoán bất thường thực nghiệm lớp khác biểu diễn từ Hình 34 37 cho thấy mơ hình C3D-ATT-MIL dự đốn sát với nhãn mơ hình Mơ hình có độ nhạy với kiện bất thường dự đốn xác khung hình bình thường so với mơ hình cịn lại Tại khung hình bất thường, điểm dự đốn mơ hình thường có giá trị cao Trong đó, dự đốn khung hình bình thường, clip attention giúp mơ hình dự đốn sát với nhãn Hình 39: Minh họa phân đoạn gồm có clip trọng số cho clip 53 Bảng 5: Minh họa cách tính trọng số cho clip chế ý Clip score(h1, hS) 0.76 0.36 0.76 2.12 score(h2, hS) 0.4 0.92 0.76 1.92 score(h3, hS) 0.08 0.28 1.96 1.68 score(h4, hS) 0.04 0.16 0.68 3.12 Trọng số a1 0.152288 0.102082 0.152288 0.593343 Trọng số a2 0.115107 0.193613 0.164986 0.526294 Trọng số a3 0.072844 0.088972 0.477384 0.360799 Trọng số a4 0.038786 0.043731 0.073557 0.843925 0.094756 0.107099 0.217054 0.58109 Trọng số cuối Bảng minh họa cách tính trọng số cho clip phân đoạn Hình 39 Trong score(hi,hS) độ quan trọng clip thứ i với clip cịn lại, trọng số tính theo PT3 trọng số cuối tổng hợp từ trọng số 54 CHƯƠNG 5: KẾT LUẬN 5.1 Kết đạt Trong phạm vi luận văn, em đề xuất mơ hình Sultani [4] kết hợp với chế ý dựa clip cho kết cao đáng kết so với mơ hình Sultani [4], tăng 1.2% AUC mức khung hình 1.4% AUC mức clip Kết thực nghiệm cho thấy việc áp dụng clip attention để tổng hợp đặc trưng clip phân đoạn video tác động tốt tới mô hình Ngược lại, áp dụng clip attention thuật toán K-means để tạo nhãn giả cho phân đoạn video cho kết thấp hơn 0.5% AUC mức khung hình 0.8% AUC mức clip Khi so với sử dụng attention thấp 1.7% AUC mức khung hình 2.2% AUC mức clip cho thấy K-means hoạt động không tốt việc phân loại nhãn giả đẩy đặc trưng phân đoạn video xa cách Nhận thấy video phân làm 32 phân đoạn số chiều đặc trưng phân đoạn lại 512, số chiều đặc trưng lớn nhiều so với số lượng mẫu dẫn đến K-means phân cụm không tốt Tuy nhiên việc áp dụng thuật toán phân cụm để làm nhãn giả ứng dụng toán nhãn yếu hướng khả quan 5.2 Định hướng phát triển đề tài Với vấn đề nêu phần 5.1, K-means không hoạt động tốt phân cụm phân đoạn video thử thay đổi số phân đoạn video chọn số chiều đặc trưng đầu vào cho K-means nhỏ cách chọn tầng FC mô hình có số chiều đặc trưng nhỏ sử dụng thuật toán PCA, tSNE để giảm chiều liệu Ngồi cịn sử dụng thuật tốn phân cụm khác Gaussian Mixture Model trả theo xác suất Các thực nghiệm [1], [2] cho thấy cách tiếp cận kết hợp thêm nhánh trích chọn đặc trưng chuyển động quang học cho kết tốt Do thay đổi trích chọn đặc trưng hiệu kết hợp với luồng chuyển động quang học video Hướng tiếp cận mơ hình [4] kết hợp với nhánh trích chọn đặc 55 trưng chuyển động quang học, chế ý dựa clip thuật toán phân cụm để tạo nhãn giả cho kết thực nghiệm khả quan 56 Tài liệu tham khảo [1] Y Zhu and S Newsam, "Motion-Aware Feature for Improved Video," arXiv:1907.10211, 2019 [2] S Lin, H Yang, X Tang, T Shi and L Chen, "Social MIL: Interaction-Aware for Crowd Anomaly Detection," AVSS, 2019 [3] M Z Zaheer, A Mahmood, H Shin and S.-I Lee, "A Self-Reasoning Framework for Anomaly," arXiv:2008.11887, 2020 [4] W Sultani, C Chen and M Shah, "Real-world Anomaly Detection in Surveillance Videos," CVPR 2018, 2018 [5] C Varun, B Arindam and K Vipin, "Anomaly Detection: A Survey," ACM Computing Surveys, 2009 [6] C C Aggarwal, Outlier Analysis, Springer Publishing Company, 2016 [7] R Chalapathy and S Chawla, "Deep Learning for Anomaly Detection: A Survey," arXiv:1901.03407, 2019 [8] A Datta, M Shah and N Da Vitoria Lobo, "Person-on-person violence detection in video data," International Conference on Pattern Recognition, 2002 [9] J.F.P.Kooij, M.C.Liem, J.D.Krijnders, T.C.Andringa and D.M.Gavrila, "Multimodal human aggression detection," in Computer Vision and Image Understanding, 2016, pp 106-120 [10] X Cui, Q Liu, M Gao and D N Metaxas, "Abnormal detection using interaction energy potentials," CVPR 2011, 2011 [11] K Simonyan and A Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," arXiv:1406.2199, 2014 [12] D Tran, L Bourdev, R Fergus, L Torresani and M Paluri, "Learning Spatiotemporal Features With 3D Convolutional Networks," arXiv:1412.0767, 2015 [13] C Lu, J Shi and J Jia, "Abnormal Event Detection at 150 FPS in MATLAB," 2013 IEEE International Conference on Computer Vision, 2013 [14] B Zhao, L Fei-Fei and E P Xing, "Online detection of unusual events in videos via dynamic sparse coding," CVPR 2011, 2011 [15] A Krizhevsky, I Sutskever and G E Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," NIPS 2012, 2012 [16] [Online] Available: https://dominhhai.github.io/vi/2017/10/what-is-lstm/ [Accessed 23 03 2022] [17] S Chaudhari, G Polatkan, R Ramanath and V Mithal, "An Attentive Survey of Attention Models," ACM Transactions on Intelligent Systems and Technology (TIST), 2021 [18] F Landi, C G M Snoek and R Cucchiara, "ANOMALY LOCALITY IN VIDEO SURVEILLANCE," arXiv:1901.10364, 2019 [19] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser and I Polosukhin, "Attention Is All You Need," arXiv:1706.03762, 2017 [20] A Karpathy, G Toderici, S Shetty, T Leung, R Sukthankar and L Fei-Fei, "Large-scale Video Classification with Convolutional Neural Networks," IEEE Conference on Computer Vision and Pattern Recognition, 2014 57 [21] J Ramon and L D Raedt, "Multi Instance Neural Networks," ICML, 2000 [22] M.-T Luong, H Pham and C D Manning, "Effective Approaches to Attentionbased Neural Machine Translation," arXiv:1508.04025, 2015 [23] S P C Outlier Analysis, Deep Learning for Anomaly Detection: A Survey, 2019 [24] K Simonyan and A Zisserman, "Very Deep Convolutional Networks for LargeScale Image Recognition," arXiv:1409.1556, 2014 [25] J C Duch, E Hazan and Y Singer, "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization," in Journal of Machine Learning Research, 2011, pp 2121-2159 [26] Y Wang and M Hoai, "Pulling Actions out of Context: Explicit Separation for Effective Combination," IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018 [27] X Hu, S Hu, Y Huang, H Zhang and H Wu, "Video anomaly detection using deep incremental slow feature analysis network," IET Computer Vision, 2016 [28] T S Laurenz Wiskott, "Slow Feature Analysis: Unsupervised Learning of Invariances," in Neural Computation, 2002, pp 715-770 [29] N Srivastava, G Hinton, A Krizhevsky, I Sutskever and R Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, 2014 58 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Phát bất thường từ video sử dụng kỹ thuật học sâu Tác giả luận văn: Hắc Tiến Thành Khóa: 2020B Người hướng dẫn: TS Nguyễn Thị Oanh PGS.TS Trần Thị Thanh Hải Từ khóa (Keyword): bất thường từ video, nhãn yếu Nội dung tóm tắt: Lý chọn đề tài Luận văn tập trung giải toán phát bất thường từ video Đây tốn có tính ứng dụng thực tiễn cao hệ thống camera giám sát, ngày sử dụng đường phố, ngã tư, ngân hàng, trung tâm mua sắm, v.v nhằm tăng tính an tồn nơi cơng cộng Tuy nhiên tốn có nhiều thách thức đa dạng bất thường cân liệu thường khơng gán nhãn phân đoạn xác mặt thời gian Luận văn giải toán phát bất thường dựa phân lớp nhị phân với kỹ thuật học sâu Phương pháp đề xuất luận văn gồm bước sau Đầu tiên mạng nơ-ron tích chập chiều (C3D – 3D convolutional neural network) đuợc áp dụng để trích chọn đặc trưng khơng gian thời gian từ chuỗi video Sau đó, học đa thể (MIL) nghiên cứu ứng dụng để giải vấn đề gán nhãn yếu liệu Cuối cùng, chế ý (attention mechanism) kỹ thuật phân cụm (K-means) áp dụng để khai thác thông tin tương quan phân đoạn video K-means giúp tạo nhãn giả cho phân đoạn video, khắc phục cho vấn đề nhãn yếu (chỉ có nhãn cấp độ video) Phương pháp đề xuất đánh giá thực nghiệm CSDL UCF-Crime gồm 1900 video với 13 kiện bất thường hoạt động bình thường ghi lại camera giám sát Kết thực nghiệm cho thấy chế ý cho phép cải thiện khả phát bất thường hệ thống tổng thể so với việc thực trích chọn đặc trưng học đa thể Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 2.1 Mục đích nghiên cứu 59 Mục tiêu luận văn nghiên cứu phát triển phương pháp phát bất thường từ video thu từ camera giám sát Phương pháp có khả giải số vấn đề gán nhãn yếu liệu 2.2 Đối tượng nghiên cứu - Mạng C3D - Học đa thực thể - Cơ chế ý - Thuật toán phân cụm nhằm tạo nhãn giả cho toán nhãn yếu 2.3 Phạm vi nghiên cứu Các bất thường: số bất thường gặp phải an ninh nơi công cộng đánh nhau, trộm cắp, cố giao thông, Dữ liệu: video thu từ camera giám sát an ninh công cộng, cung cấp cộng đồng nghiên cứu Video gán nhãn yếu, phân định rõ tập huấn luyện tập đánh giá để xác định định lượng hiệu phương pháp đề xuất Tóm tắt đọng nội dung đóng góp tác giả Trong luận văn này, tác giả nghiên cứu phương pháp hiệu việc kết hợp C3D với MIL để giải toán phát bất thường từ camera giám sát, thực thử nghiệm, đánh giá phân tích Tác giả đề xuất 02 cải tiến mơ hình gốc Sultani công sự: - Cải tiến 1: Thay mơ đun lọc trung bình sau mơ đun trích chọn đặc trưng C3D mô đun dựa vào chế ý vào tổng thể hệ thống (mô hình C3D-ATT-MIL) - Cải tiến 2: Áp dụng thêm giải thuật phân cụm đặc trưng phân đoạn video tạo nhãn giả cho chúng để giảm nhiễu nhãn bất thường Phương pháp nghiên cứu - Nghiên cứu phương pháp hiệu việc kết hợp C3D với MIL - Sử dụng mơ hình Sultani làm mơ hình sở, đề xuất cải tiến sử dụng chế ý giải thuật phân cụm Kết luận 60 Kết thực nghiệm cho thấy việc áp dụng clip attention để tổng hợp đặc trưng clip phân đoạn video tác động tốt tới mơ hình, tăng 1.2% AUC mức khung hình từ 75.5% lên 76.7% 1.4% AUC mức clip từ 75.3% lên 76.7% so với mơ hình sở Sultani Mặc dù thuật toán phân cụm KMeans tạo nhãn giả chưa đủ tốt để cải thiện độ xác mơ hình cách tiếp cận sử dụng thuật tốn phân cụm để tạo nhãn giả cho toán phát bất thường với liệu nhãn yếu đầy hứa hẹn Các thử nghiệm thay đổi số phân đoạn video chọn số chiều đặc trưng đầu vào cho K-means nhỏ cách chọn tầng FC mơ hình có số chiều đặc trưng nhỏ sử dụng thuật toán PCA để giảm chiều liệu Ngồi cịn sử dụng thuật toán phân cụm khác Gaussian Mixture Model trả theo xác suất 61 ... hệ thống phát bất thường 1.2.3 Một số vấn đề thường gặp phát bất thường Giả định bất thường: Bất thường phát dựa giả định kiện sai khác so với mẫu bình thường học từ trước coi kiện bất thường Tuy... bình thường, nhiều người để biểu tình lại bất thường 1.2 Phát bất thường từ video 1.2.1 Định nghĩa toán Phát bất thường phát mẫu bất thường tập liệu Cụ thể xác định đặc điểm khác biệt bật bất thường. .. kiện bất thường, tức thời điểm bắt đầu kết thúc kiện Nếu loại bất thường số loại bất thường định nghĩa từ trước Việc phát bất thường coi hiểu video cấp độ thơ, lọc bất thường từ kiện bình thường

Ngày đăng: 20/07/2022, 07:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w