Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu

57 48 1
Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I H C QU C GIA TP HCM I H C BÁCH KHOA NGUY N THANH HOÀNG PHÁT HI N B S NG TRONG VIDEO GIÁM SÁT D NG K THU T H C SÂU Chuyên ngành: Khoa H c Máy Tính Mã s : 8.48.01.01 LU C HỒN THÀNH T I: I H C BÁCH KHOA -HCM Cán b ng d n khoa h c: TS Lê Thành Sách Cán b ch m nh n xét 1: PGS TS Hu nh Trung Hi u Cán b ch m nh n xét 2: TS Nguy Lu tháng 08 cb ov t (tr c n) ih cB Thành ph n H m: PGS TS Tho i Nam - Ch t ch TS Nguy n Lê Duy Lai PGS TS Hu nh Trung Hi u - Ph n bi n TS Nguy - Ph n bi n TS Lê Thành Sách - U viên Xác nh n c a Ch t ch H sau lu c s a ch a (n u có) CH T CH H NG ng Khoa qu n lý chuyên ngành NG KHOA KHOA H C VÀ K THU T MÁY TÍNH - - NHI M V LU MSHV: 1870172 I 8.48.01.01 II Tìm h III : 21/09/2020 IV : 13/06/2021 V : TS.LÊ THÀNH SÁCH Tp HCM, ngày tháng CÁN B NG D N NG KHOA KHOA H C VÀ K THU T MÁY TÍNH 21 L IC Tác gi xin g i l i c n quý Th ki n th c, kinh nghi u khoa h tài Tác gi h t il ic ng nghi tác gi có th hoàn n b n h c viên cao tr su t trình th c hi c bi t, tác gi xin g i l i c c ti rân tr ng sâu s ng d n, dìu d t tác gi tài n Th y TS Lê Thành ng nghiên c u khoa h c Cu i cùng, xin c t p trung th c hi ng viên, chia s tài V i th i gian nghiên c u h n ch c i ti n, hồn thi ng nghi tác gi có th tài ch c ch n nhi u v t mong s tác gi hoàn thi c n ph i n t Th y giáo, Cô giáo, b n bè tài, có th ng d ng t t vào th c t TP H Chí Tác gi Nguy n Thanh Hồng i TĨM T Hi n nay, v i s phát tri TÀI h t m nc tâm Bài t hi n b t hi n c qu n lý b i giám sát viên t i trung có th c h th ng t ng video mà không c n ho c s can thi p c Trong nh kh p ng, có th phát i i s phát tri n c a k thu t h c sâu, nhi xu phát hi n b ng video H u h ng d li u l hu n luy d ng vào th c ti n Tuy nhiên, y u t b ng c nh th i gian Trong ph thu t h c sâu" s c ng ng di n r t nhanh, u làm cho vi c thu th p d li u gán nhãn tr tài: "Phát hi n b xu ng video giám sát s d ng k c hu n luy n v i t p d li u khơng có s ki n b t ng mà d dà i vi c gán nhãn Mong mu n q trình hu n luy n, mơ hình có th h ng T h ki n b t c cách xây d ng l i khung hình v i sai khác nh nh t so v i nh g c hu n luy n t t, mơ hình s khung hình khơng có có s ki n b ng B t k hình có ho c khơng có s ki n b có s ki n b t nhi u u d c ki m th v i u vào c a mơ hình khung u c g ng t o khung hình khơng n khung hình khơng có s b hình d ng l i v i sai sót nh c l i, khung hình có s ki n b c mơ ng mơ hình d ng l i v i sai khác l n D a vào s sai khác xây d ng khung hình ób ng hay không ii ABSTRACT Currently, with the development of traffic infrastructure, surveillance cameras have appeared everywhere However, these cameras still need to be managed by supervisors at the centers The problem is how to build an automatic system that can detect anomalies in video with little or no human intervention In recent years, with the development of deep learning techniques, many methods have been proposed to detect anomalies in video Most of these methods require large amounts of labeled, data to train the model before putting it into practice However, anomalous elements happen very quickly, in many different contexts and times This makes data collection and labeling difficult Within the scope of the topic: "Detecting anomalies in surveillance video using deep learning techniques" will propose a model to be trained with a data set without anomalous events that is easy to find and does not require annotations It is desirable that during training, the model can learn features on the frame without anomalies From there, it is possible to learn how to reconstruct these frames with minimal difference from the original image After being well trained, the model will be tested with frames with no and anomalies Regardless of whether the input to the model is a frame with or without an anomaly, the model tries to produce a frame without anomalies This results in anomalies-free frames being reconstructed by the model with minimal error In contrast, frames with unusual events will reconstruct the model with a large difference Based on the difference when building this frame to evaluate whether it is abnormal or not iii L uc s ng d n c a Th báo cáo lu c u, nghiên c u, hi n th c d ng m t s tài li u tham kh ph n tài li u tham kh o Các s li u, k t qu lu c s d ng b t k báo cáo khác Tôi xin ch u trách nhi m v lu hoàn toàn trách nhi ch a N u có sai sót, tơi xin ch u ng TP H Tác gi Nguy n Thanh Hoàng iv M CL C L IC i TÓM T TÀI ii ABSTRACT iii L iv M C L C .v DANH M C HÌNH vii DANH M C B NG viii DANH M C VI T T T ix : Gi i thi u 1.1 tv 1.2 ng l c nghiên c u 1.3 c 1.4 Ph m vi m c tiêu nghiên c u .2 1.5 u 1.6 B c c c a báo cáo Lu lý thuy t 2.1 B l c Conv2D Conv3D 2.2 M ng Autoencoder 2.3 M ng LSTM ConvLSTM .6 2.4 M ng U-Net : Cơng trình nghiên c u liên quan 3.1 n th ng 3.2 t h c sâu xu t 12 4.1 Ki n trúc t ng quan 12 4.2 Ki n trúc chi ti t 15 4.2.1 Kh i sinh nh Generator 15 4.2.2 Kh i phân lo i nh Discriminator 16 4.2.3 Kh nh 17 4.3 Hàm m c tiêu 19 4.4 H s b ng .21 : Th nghi m k t qu 23 v 5.1 T p d li u 23 5.2 26 5.3 Cách ch ng b ng 27 5.4 t hu n luy n mơ hình 28 5.5 Phân tích k t qu th c nghi m 29 : K t lu n .39 6.1 m 39 6.2 m .39 6.3 tài .39 6.4 ng phát tri n .40 TÀI LI U THAM KH O .41 vi DANH M C HÌNH Hình 2-1: So sánh b l c Conv2D b l c Conv3D Hình 2-2: M ng Autoencoder Hình 2-3: M ng LSTM .6 Hình 2-4: M ng U-Net Hình 4-1: Ki n trúc t ng quan c xu t .12 Hình 4-2: Mơ ph ng cách ho ng c xu t .14 Hình 4-3: Cách ch n khung hình liên ti hu n luy n mơ hình 15 Hình 5-1: M t s khung hình t p d li u UCSD Ped1 23 Hình 5-2: M t s khung hình t p d li u UCSD Ped2 23 Hình 5-3: M t s khung hình t p d li u Avenue 24 Hình 5-4: S ng video t p d li u UCSD Ped1, UCSD Ped2 Avenue 25 Hình 5-5: S ng khung hình t p d li u UCSD Ped1, UCSD Ped2 Avenue .25 Hình 5-6: T l TP FP ng phân lo i khác 27 Hình 27 Hình 5-8: Quá trình hu n luy n t p d li u Ped1 29 Hình 5-9: Quá trình hu n luy n t p d li u Ped2 29 Hình 5-10: Quá trình hu n luy n t p d li u Avenue 30 Hình 5-11: c hu n luy n mơ hình t p Ped1 .31 Hình 5-12: Quá trình hu n luy n v i cách khác 31 Hình 5u su t c a mơ hình t p d li u Ped1 32 Hình 5n video ng n 33 Hình 5u su t c a mơ hình t p d li u Ped2 33 Hình 5n video ng n 34 Hình 5u su t c a mơ hình t p d li u Avenue .34 Hình 5n video ng n 35 Hình 5-19: Mơ ph ng phát hi n b ng Ped1 38 Hình 5-20: Mơ ph ng phát hi n b ng Ped2 38 Hình 5-21: Mơ ph ng phát hi n b ng Avenue .38 vii Hình 5-11: c hu n luy n mơ hình t p Ped1 c hu n luy n t p d li c tr n b i (Ped1 + Ped2), (Ped1 + Avenue), (Ped2 + Avenue) (Ped1 + Ped2 + Avenue): Quá trình hu n luy n c th hi n Hình 5-12 Hình 5-12: Quá trình hu n luy n v i cách khác 31 Nh n xét th y r t c hu n luy i cách hu n luy c l p t p Ped2 nhanh h i u có th c gi i thích s khung hình t p Ped2 q so v i t p Ped1, Avenue (tham kh o Hình 5-4, Hình 5-5) nên mơ hình nhanh chóng h c cách phân b d li u Ped2 hi u qu c a mơ hình cách hu n luy n khác nhau, cs d c hu n luy c nh: p d li u c hu n luy n t t c d li u ngo i tr d li ki m th c hu n luy n t t c t p d li u ki m th riêng t ng t p ki m th c a m i t p d li u hi u qu c a mơ hình cách hu n luy n khác th hi n Hình 5-14, Hình 5-15, Hình 5-16, Hình 5-17, Hình 5-18 Hình 5-13 u su t c a mơ hình t p d li u Ped1 32 Hình 5-13, Hình 5-14 n video ng n c l y ng u nhiên t p d li u Ped1 Hình 5-15 u su t c a mơ hình t p d li u Ped2 33 Hình 5-16 n video ng n c l y ng u nhiên t p d li u Ped2 Hình 5-17 u su t c a mơ hình t p d li u Avenue 34 Hình 5-18 n video ng n c l y ng u nhiên t p d li u Avenue B ng cách so sánh k t qu c a cách hu n luy n này, nh n th y r ng mơ hình khơng b ng nhi u b i t p d li u khác Mô hình có hi u qu t t nh t c hu n luy n ki m th t p d li ng h c ki m th y trình hu n luy n cho k t qu th Tuy nhiên, v n có kh n nh ng b u ch ng t r ng nh ng t p d li u này, ng qt hóa video mà khơng nhìn th y, m c dù có nh ng sai khác v ng c nh t p d li u c hu n luy n t p d li u (Ped1 + Ped2 + Avenue) không cho k t qu t c hu n luy n t ng t p d li u riêng bi t u rút k t lu n vi luy n b ng t p d li c quay ng video t p hu n ng c nh khác không giúp c i thi hi u su t c a mơ hình 35 c B ng 5-1 xu t v i nghiên c u g AUC, nh n th y r xu t có hi u qu ng 1- có ki n trúc g n gi ng v i AnoPred[1] nh hu n luy n cho b sinh xu t d d ng Conv2D cho nhánh m ch ng minh r ng vi c s d ng b phân lo i v t video, t u su t c a b sinh nh Ngoài ra, AnoPred[1] c xu t s d ng nh có kích c 128 x 128, nên ki n trúc c m tt xu t có tham s u r t có tính tốn th i gian th c B ng 5-1: K t qu hu n luy n mơ hình t p d li u Ped1, Ped2, Avenue AUC(%) Ped1 Ped2 Avenue ConvAE[27] 81.00% 90.00% 70.20% ConvLSTMAE[28] 75.50% 88.10% 77.00% AnoPred[1] 83.10% 95.40% 84.90% 84.06% 96.39% 86.01% 81.90% 90.04% 85.03% Mơ hình tham chi u xu t Hu n luy n + ki m th t p d li u Hu n luy n + ki m th t p d li u khác Ped1 + Ped2 36 Ped1 + Avenue 82.83% 88.23% 86.46% Ped2 + Avenue 74.80% 88.88% 86.25% Ped1 + Ped2 + Avenue 79.40% 91.69% 85.40% Th i gian sinh nh phát hi n b li ng t p ki m th c a m i t p d c th hi n b ng B ng 5-2 c th c hi n v i GPU NVIDIA Tesla T4 16GB, trung bình kho ng 100 fps Th i gian x có th c gi i thích ki m th , h s b u ng ch d a vào ch ng c a nh sinh so v i nh góc nên ch c n x lý c a b sinh nh, mà không c n s tính tốn c a b phân lo i nh K t qu th hi n r ng mơ hình r t kh n n, b ng th i gian th c B ng 5-2: T T pd phát hi n tai S ng khung x lý t p ki m th T ng th i gian S khung hình x lý m i li u hình x lý(s) giây(fps) Ped1 7200 72.48 99.34 Ped2 2010 21.28 94.44 Avenue 15324 144.37 106.44 37 Hình 5-19, Hình 5-20, Hình 5-21 mơ ph ng phát hi n b ng t p d li u Ped1, Ped2 Avenue Hình màu xanh th hi n nhãn th hiên có b (1 Có s ki n b t t ch n ng; Khơng có s ki n b u nhiên t i th xu t có th nhiên, vi ch nh có b ng cao s lo i b l i, vi c ch m có b c th t ng th p d ng hay không c ng x ng quan, mơ m có/khơng có s ki n b ng hay không s ph thu ki n b n nhi u kh ng v i nh ng sai sót nh nh sai Hình 5-19: Mơ ph ng phát hi n b ng Ped1 Hình 5-20: Mơ ph ng phát hi n b ng Ped2 Hình 5-21: Mơ ph ng phát hi n b 38 ng Avenue ng Tuy ng N u c : K t lu n 6.1 m xu t có th mơ hình hóa s ki ng có video q trình hu n luy n b ng mơ hình Autoencoder V i b sinh c hu n luy n b ng mơ hình GAN giúp cho mơ hình có th mơ hình hóa t ki n bình mc c video khơng có s ki n b c t t s ki b xu t, ta có d dàng thu th p hu n luy n cho mơ hình Khi mơ hình ng có video, g p video có s ki n ng, b sinh nh s c g ng t o sinh khung nh khơng có s ki n b Chính s khác bi t gi a nh sinh nh th c t s giúp phát hi n b ng ng khung nh th c t 6.2 m Vi c ch ch nh có b ng th p có th ng n c nhi m c a mơ hình N u ng h p b n ph ng th i ng ph i cân b ng gi a y u t 6.3 tài Vi c s d ng 3D Convolution làm b l phân bi t nh th t phân lo i c sinh T u su t c sinh c hu n luy n d a mơ hình GAN c hi u su t c a mơ hình thơng qua chi n thu t hu n luy n khác nhau: - Mơ hình ho ng t t nh c hu n luy n ki m th t p d li u có ng c nh 39 - c hu n luy n t p d li u có ng c nh, ki m th t p d có ng c nh khác mơ hình v n có th ho - Khơng th u qu c a mơ hình b hu n luy n b 6.4 c quay c ng video t p ng c nh khác ng phát tri n xu t hi n t i ch d a vào ch có b ng sinh c a b sinh m ph c t ng phát tri ng có ng c nh c i ti n mơ hình s d ng k t h p gi a ch nh sinh k t qu c a b phân lo i ng ng hay khơng Ngồi ra, y u t ng c n hi u su t c a mô hình Do dùng k t h ch th , lo i b iv n hình ng c tách ng nghiên c u c 40 c xem xét TÀI LI U THAM KH O [1] W Liu, W Luo, D Lian and S Gao Detection A New Frame Prediction for Anomaly Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 6536-6545, 2018 [2] S Lee, H G Kim and Y M Ro, for Abnormal Event SpatioTemporal Adversarial Networks 2018 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), 2018 [3] Y S Chong and Y H Tay, temporal Event Detection in Videos using Spatio- 2018 25th IEEE International Conference on Image Proc essing (ICIP), Jan 9, 2017 [4] P Isola, J Y Zhu, T Zhou and A A Image Translation with Conditional Adversarial Efros, -to- 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jul 2017 [5] Y Yao, M Xu, Y Wang, D J Crandall and E M Atkins Accident Detection in FirstPerson Traffic IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2019 [6] Y Yao, X Wang, M Xu, Z Pu, E Atkins and D Crandall What? A New dataset for Anomaly Detection in Driving Where, and arXiv preprint a rXiv:2004.03044, 2020 [7] M Xu, M Gao, Y Chen, L S Davis and D J Crandall Networks for Online Action Recurrent IEEE International Conference on Computer Vision (ICCV), 2019 [8] J Gao, Z Yang and R Nevatia Reinforced Encoder-Decoder Networks for Action Anticipation, in BMVC, 2017 [9] X Shi, Z Chen, H Wang and D Yeung A Machine Learning Approach for Precipitation LSTM Network: NIPS'15: Proceedi ngs of the 28th International Conference on Neural Information Processing Syste ms, Volume 1, pp 802 810, Dec 2015 [10] N Srivastava, E Mansimov and R Salakhutdinov 41 Learning of Video Representations using International conference on machine lea rning, pp 843 852, Feb 2015 [11] D.Tran, L Bourdev, R Fergus, L Torresani and M Paluri temporal Features with 3D Convolutional Spatio- in The IEEE International C onference on Computer Vision (ICCV), Dec 2015 [12] L Sun, K Jia, D Yeung and B E Shi Action Recognition Using Factorized SpatioTemporal Convolutional International Conference o n Computer Vision (ICCV), 2015 [13] Y Zhou, X Sun, Z Zha and W Zeng for Human Action Mixed 3D/2D Convolutional Tube IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018 [14] Y Zhu, Z Lan, S Newsam, A G Hauptmann Convolutional Networks for Action TwoStream Computer Vision ACCV 2018, pp.363-378, 2018 [15] Carreira and Zisserman the Kinetics Vadis, Action Recognition? A New model and in The IEEE Conference on Computer Vision and Pattern Re cognition (CVPR), 2017 [16] K Hara, H Kataoka and Y Satoh, Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018 [17] V Mahadevan, W Li, V Bhalodia and N Vasconcelos crowded detection in in Computer Vision and Pattern Recognition (CVPR), 2010 IEE E Conference on, pp 1975 1981, 2010 [18] W Sultani, C Chen and M Shah -world Anomaly Detection in Surveillance in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recogni tion, 2018 [19] A Karpathy, G Toderici, S Shetty, T Leung, R Sukthankar and Li Fei, scale Video Classification with Convolutional Neural The IEEE Confe rence on Computer Vision and Pattern Recognition (CVPR), pp 1725-1732, 2014 [20] M Mirza and S Osindero, Generative Adversarial 42 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nov 2014 [21] O Ronneberger, P Fischer and T Brox Biomedical Image Convolutional Networks for International Conference on Medical Image Co mputing and Computer-Assisted Intervention, Oct 2015 [22] M Schuster and K K Paliwal [23] I Goodfellow, [24] H Liu, J Tu and M Liu Recurrent Neural Adversarial 1997 NIPS, 2016 3D Convolutional Neural Network for SkeletonBased Action 2018 IEEE International Conference on Mult imedia and Expo (ICME), 2018 [25] $https://en.wikipedia.org/wiki/Canny_edge_detector$, Truy c p: 25/05/2021 [26] E Ilg, N Mayer, T Saikia and M Keuper and A Dosovitskiy and T Brox Net 2.0: Evolution of Optical Flow Estimation with Deep IEEE Confer ence on Computer Vision and Pattern Recognition (CVPR), Jul 2017 [27] M Hasan, J Choi, J Neumann, A K Roy-Chowdhury and L S Davis temporal regularity in video [28] W Luo, W Liu and S Gao anomaly In CVPR, 2016 history with convolutional lstm for in Multimedia and Expo (ICME), 2017 IEEE International Co nference on, pp 439 444, 2017 [29] W Hu, X Xiao, Z Fu, D Xie, T Tan and S Maybank statistical motion system for learning IEEE transactions on pattern analysis and machine int elligence, Oct 2006 [30] S Zhou, W Shen, D Zeng and Z Zhang, scenes by trajectory event detection in crowded 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 [31] V Kaltsa, A Briassouli, I Kompatsiaris, L.J Hadjileontiadis and M G Strintzis Intelligence for Detecting Interesting Events in Crowded IEEE Transactions on Image Processing, Jul 2015 [32] C Lu, J Shi and J Jia event detection at 150 fps in matlab, in ICCV IEEE, 2013 43 PH L C t ng - Python-3.8.3 tr lên - matplotlib: 3.3.2 tr lên - moviepy: 1.0.3 tr lên - numpy: 1.19.4 tr lên - opencv_python: 4.4.0.46 tr lên - scikit_image: 0.17.2 tr lên - scipy: 1.4.1 tr lên - torch: 1.7.1+cu110 tr lên - torchvision: 0.8.2+cu110 tr lên - tqdm: 4.51.0 tr lên Mã ngu n t p d li u: Tác gi s g i kèm CD ROM 44 PH N LÝ L CH TRÍCH NGANG H tên: Nguy n Thanh Hồng a ch liên l nh, M Th nh, Tp Long Xuyên, An Giang O - T ih cC Q TRÌNH CƠNG TÁC - T n m m t i Cty FPT Software - T n m m t i Cty Hitachi Vantara Viet Nam 45 ... v i s phát tri TÀI h t m nc tâm Bài t hi n b t hi n c qu n lý b i giám sát viên t i trung có th c h th ng t ng video mà không c n ho c s can thi p c Trong nh kh p ng, có th phát i i s phát tri... 3.2 t h c sâu Trong nh t h c sâu phát tri n m nh m , t hi u qu so v n th ng trích xu tốn phân lo i d Nhi c hi n gi i c rút trích xu t cho tốn phát hi n b d ng m ng riêng bi video ng video b ng... phát hi n b ng video thành toán phân lo i nh cá s ki n b ki c gán nhãn c gán nhãn 1.4 Ph m vi m c tiêu nghiên c u Ph m vi nghiên c u c tài t p trung nghiên c u vào phát hi n b ng video giám sát

Ngày đăng: 13/01/2022, 07:43

Tài liệu cùng người dùng

Tài liệu liên quan