Phát hiện đối tượng có hành vi bất thường trên camera anh ninh vào ban đêm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐINH NGUYỄN ĐĂNG KHOA PHÁT HIỆN ĐỐI TƯỢNG CÓ HÀNH VI BẤT THƯỜNG TRÊN CAMERA ANH NINH VÀO BAN ĐÊM NGÀNH: KỸ THUẬT ĐIỆN TỬ Tp Hồ Chí Minh, tháng 11/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐINH NGUYỄN ĐĂNG KHOA PHÁT HIỆN ĐỐI TƯỢNG CÓ HÀNH VI BẤT THƯỜNG TRÊN CAMERA AN NINH VÀO BAN ĐÊM NGÀNH: KỸ THUẬT ĐIỆN TỬ - 8520203 Hướng dẫn khoa học: PGS.TS LÊ MỸ HÀ Tp Hồ Chí Minh, tháng 11/2022 LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: Đinh Nguyễn Đăng Khoa Giới tính: Nam Ngày, tháng, năm sinh: 16/02/1996 Nơi sinh: TP.HCM Quê quán: TP.HCM Dân tộc: Kinh Địa liên hệ: 34A, TL16, phường Thạnh Lộc, Quận 12 Điện thoại quan: Fax: II QUÁ TRÌNH ĐÀO TẠO: Điện thoại nhà riêng: E-mail: dinhnguyendangkhoa1234@gmail.com Trung học chuyên nghiệp: Hệ đào tạo: Nơi học (trường, thành phố): Ngành học: Đại học: Hệ đào tạo Chính quy; Thời gian đào tạo từ 09/2014 đến 09/2019 Nơi học (trường, thành phố): Đại học Sư Phạm Kỹ Thuật, thành phố Hồ Chí Minh Ngành học: Cơng nghệ kỹ thuật điện tử - truyền thông Tên đồ án, luận án môn thi tốt nghiệp: Nghiên cứu ứng dụng mơ hình mạng neuron tích chập vào nhận dạng trái qua webcam Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 20/06/2019 Trường đại học Sư phạm Kỹ thuật Người hướng dẫn: Ths Trương Ngọc Hà Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ 10/2019 đến 11/ 2022 Nơi học (trường, thành phố): đại học Sư phạm Kỹ thuật, thành phố Hồ Chí Minh Ngành học: Kỹ thuật điện tử Tên luận văn: Phát đối tượng có hành vi bất thường camera an ninh vào ban đêm Ngày & nơi bảo vệ luận văn: 06/11/2022 Trường đại học Sư phạm Kỹ thuật Người hướng dẫn: PGS.TS Lê Mỹ Hà III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Công việc đảm nhiệm 2019 - 2020 HRI & ITNAVI Cộng tác viên i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tp Hồ Chí Minh, ngày 05 tháng 11 năm 2022 (Ký tên ghi rõ họ tên) ii International Conference on Mechatronics and Automation (ICMA), 2018, pp 1163-1168 [10] E Martínez-Martín and Á P del Pobil "Introduction," in Robust Motion Detection in Real-Life ScenariosLondon: Springer London, 2012, pp 1-3 [11] Y Sheikh, O Javed, and T Kanade Background Subtraction for Freely Moving Cameras 2009 IEEE 12th International Conference on Computer Vision, 2009, pp 1219-1225 [12] Hayman and Eklundh Statistical background subtraction for a mobile observer Proceedings Ninth IEEE International Conference on Computer Vision, 2003, pp 67-74 vol.1 [13] P KaewTraKulPong and R Bowden An Improved Adaptive Background Mixture Model for Realtime Tracking with Shadow Detection Proc 2nd European Workshop on Advanced Video Based Surveillance Systems, Sept 2001 Springer [14] Z Zivkovic Improved Adaptive Gaussian Mixture Model for Background Subtraction Pattern Recognition, 2004 ICPR 2004 Proceedings of the 17th International, Sept 2004 [15] Z Zivkovic and F v d Heijden Efficient adaptive density estimation per image pixel for the task of background subtraction Pattern Recognition Letters, 2006 Elsevier [16] C A.-O Wang, T A.-O Wang, E Wang, E Sun, and Z Luo Flying Small Target Detection for Anti-UAV Based on a Gaussian Mixture Model in a Compressive Sensing Domain LID - 10.3390/s19092168 [doi] LID - 2168 [17] P K Thotapalli, C R Vikram Kumar, and B Chandra Mohana Reddy A New Approach to Control the Position of Joint Arm Robot Using Image Background Subtraction Technique Singapore, 2020, pp 845-854: Springer Singapore [18] L Karbowiak and J A.-O X Bobulski Background segmentation in difficult weather conditions 84 [19] B Yogameena and M Archana Support Vector Machine-Based Human Behavior Classification in Crowd through Projection and Star Skeletonization Journal of Computer Science, pp 1008 -1013, Jan 2010 [20] M L Kolhe and Shailesh M L Kolhe, M C Trivedi, and V K Singh Advances in Data and Information Sciences ed (no 38) Singapore: Springer, 2018 [21] J Redmon, S Divvala, R Girshick, and A Farhadi You Only Look Once: Unified, Real-Time Object Detection IEEE Conference on Computer Vision and Pattern Recognition (CVPR), May 2016, pp 779-788 [22] R Schrijvers, S Puttemans, T Callemein, and T Goedemé Real-Time Embedded Person Detection and Tracking for Shopping Behaviour Analysis International Conference on Advanced Concepts for Intelligent Vision Systems, Feb 2020, pp 541-553 [23] M Buric, M Pobar, and M Ivašić-Kos Adapting YOLO Network for Ball and Player Detection ICPRAM, 2019 [24] S Saikia, E Fidalgo, E Alegre, and L Fernández-Robles Object Detection for Crime Scene Evidence Analysis Using Deep Learning Cham, 2017, pp 14-24: Springer International Publishing [25] R C Staudemeyer and E R Morris Understanding LSTM a tutorial into Long Short-Term Memory Recurrent Neural Networks arXiv, vol 1, Sep 2019 [26] D T Shipmon, J M Gurevitch, P M Piselli, and S Edwards Time Series Anomaly Detection; Detection of anomalous drops with limited features and sparse examples in noisy highly periodic data Machine Learning (cs.LG), vol 1, Aug 2017 [27] P Malhotra, L Vig, G Shroff, and P Agarwal Long Short Term Memory Networks for Anomaly Detection in Time Series 23rd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2015, Apr 2015, pp 22-24 85 [28] R R Drumond, B A D Marques, C N Vasconcelos, and E Clua PEEK An LSTM Recurrent Network for Motion Classification from Sparse Data International Conference on Computer Graphics Theory and Applications, Jan 2018 [29] N Katebi, G D Clifford, and R Sameni Deep Sequence Learning for Accurate Gestational Age Estimation from a $25 Doppler Device Machine Learning for Mobile Health Workshop (NeurIPS 2020), vol 1, Nov 2020 [30] A Bewley, Z Ge, L Ott, F Ramos, and B Upcroft Simple online and realtime tracking 2016 IEEE International Conference on Image Processing (ICIP), 2016, pp 3464-3468 [31] N Wojke and A Bewley Deep Cosine Metric Learning for Person Reidentification 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), 2018, pp 748-756 [32] N Wojke, A Bewley, and D Paulus Simple online and realtime tracking with a deep association metric 2017 IEEE International Conference on Image Processing (ICIP), 2017, pp 3645-3649 [33] M Ye, J Shen, G Lin, T Xiang, L Shao, and S C H Hoi Deep Learning for Person Re-Identification: A Survey and Outlook IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 44, pp 2872-2893, 2022 [34] R Pereira, G Carvalho, L Garrote, and U J Nunes Sort and Deep-SORT Based Multi-Object Tracking for Mobile Robotics: Evaluation with New Data Association Metrics vol 12, p 1319, 2022 [35] K Host, M Ivašić-Kos, and M Pobar Tracking Handball Players with the DeepSORT Algorithm ICPRAM, 2020 [36] A Nyström Evaluation of Multiple Object Tracking in Surveillance Video 2019 [37] S A.-O Ai and J Kwon Extreme Low-Light Image Enhancement for Surveillance Cameras Using Attention U-Net LID - 10.3390/s20020495 [doi] LID - 495 86 [38] A Sobral and A Vacavant A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos Computer Vision and Image Understanding, pp 4–21, 2013 Elsevier [39] A Abdolmaleki, J T Springenberg, Y Tassa, R Munos, N Heess, and M Riedmiller Maximum A Posteriori Policy Optimisation DeepMind, Jun 2018 [40] A S i Serrano, "YOLO Object Detector for Onboard Driving Images," in "EE/UAB End of Degree Project in Computer Science," UNIVERSITAT AUTONOMA DE BARCELONA, Jul 2017 [41] S N Bushra, G Shobana, K U Maheswari, and N Subramanian Smart Video Survillance Based Weapon Identification Using Yolov5 2022 International Conference on Electronic Systems and Intelligent Computing (ICESIC), 2022, pp 351-357 [42] D Thuan Do Thuan Evolution Of Yolo Algorithm And Yolov5: The StateOf-The-Art Object Detection Algorithm Evolution Of Yolo Algorithm And Yolov5: The State-Of-The-Art Object Detection Algorithm 2021 [43] S Elfwing, E Uchibe, and K J N n t o j o t I N N S Doya SigmoidWeighted Linear Units for Neural Network Function Approximation in Reinforcement Learning vol 107, pp 3-11, 2018 [44] A M Javid, S Das, M Skoglund, and S Chatterjee A ReLU Dense Layer to Improve the Performance of Neural Networks ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp 2810-2814 [45] D K Mak "Exponential Moving Average," in Trading Tactics in the Financial Market: Mathematical Methods to Improve Performance, D K Mak, Ed Cham: Springer International Publishing, 2021, pp 57-71 [46] D K Mak "Simple moving averages (SMA)," in Trading Tactics in the Financial Market: Mathematical Methods to Improve Performance, D K Mak, Ed Cham: Springer International Publishing, 2021, pp 29-55 87 [47] H W J N r l q Kuhn The Hungarian method for the assignment problem vol 2, pp 83-97, 1955 [48] Y Park, L M Dang, S Lee, D Han, and H Moon Multiple Object Tracking in Deep Learning Approaches: A Survey vol 10, p 2406, 2021 [49] O J D Barrowclough, S Briseid, G Muntingh, and T Viksand Real-Time Processing of High-Resolution Video and 3D Model-Based Tracking for Remote Towers SN Computer Science, vol 1, p 296, 2020/09/08, 2020 [50] G Welch and G Bishop An introduction to the Kalman filter 1995 [51] H Feng, C Liu, Y Shu, and O W W Yang Location Prediction of Vehicles in VANETs Using A Kalman Filter Wireless Personal Communications, vol 80, pp 543-559, 2015/01/01, 2015 [52] Z R Zaidi and B L Mark Real-time mobility tracking algorithms for cellular networks based on Kalman filtering IEEE Transactions on Mobile Computing, vol 4, pp 195 - 208, Feb 2005 IEEE [53] R De Maesschalck, D Jouan-Rimbaud, and D L Massart The Mahalanobis distance Chemometrics and Intelligent Laboratory Systems, vol 50, pp 1-18, 2000/01/04/, 2000 [54] M Z Islam, M M Islam, and A Asraf A Combined Deep CNN-LSTM Network for the Detection of Novel Coronavirus (COVID-19) Using X-ray Images Informatics in Medicine Unlocked, vol 1, Jun 2020 [55] C Zhao, J Han, and X Xu CNN and RNN Based Neural Networks for Action Recognition Journal of Physics: Conference Series, 2018 [56] T Avaneesh, P Milind, S Amritha, V Parth, and S Jain Automated Human Detection And Tracking For Surveillance Applications ICTACT Journal on Image, 2019 [57] M Alonso, A Brunete, M Hernando, and E J I A Gambao BackgroundSubtraction Algorithm Optimization for Home Camera-Based Night-Vision Fall Detectors vol 7, pp 152399-152411, 2019 88 [58] T Kawashima et al Action recognition from extremely low-resolution thermal image sequence 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2017, pp 1-6 [59] G Batchuluun, D T Nguyen, T D Pham, C Park, and K R Park Action Recognition From Thermal Videos IEEE Access, vol 7, pp 103893-103917, 2019 89 NHẬN DẠNG HÀNH VI CỦA NGƯỜI TRONG MÔI TRƯỜNG BAN ĐÊM ÁP DỤNG CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ MÔ HÌNH HỌC SÂU DETECT PERSONS WITH ABNORMAL BEHAVIORS USING IMAGE PROCESSING TECHNIQUES AND DEEP LEARNING MODELS Dinh Nguyen Dang Khoa1, Le My Ha Trường đại học Sư phạm Kỹ thuật TP.HCM TĨM TẮT Phát người có hành vi trộm cắp vào ban đêm chủ đề mang tính thời Hiện tại, có nhiều ứng dụng camera giúp phát người có hành vi bất thường, hầu hết ứng dụng khơng thật phân biệt người có hành vi bình thường hay bất thường theo nghĩa, dẫn đến việc đối tượng dù gian hay gây báo động Trong đề tài này, nhóm nghiên cứu đề xuất mơ hình áp hỗ trợ cho hệ thống camera nhận diện người có hành vi trộm cắp nơi công cộng đêm gồm phần: Tiền xử lý, phát theo vết đối tượng, phân loại đối tượng Mơ hình áp dụng thuật toán xử lý ảnh gồm Tăng cường ảnh trừ nền, mạng học sâu phổ biến CNN-LSTM, YOLOv5 Deep SORT Phương pháp nghiên cứu thử nghiệm với nhiều mô hình có trọng số khác để so sánh chọn mơ hình tốt Các hành động trộm cắp gồm Leo rào, cạy khóa xe cạy cửa Hệ thống sau xây dựng có khả phân biệt người có hành vi bất thường với người bình thường để tránh báo động nhầm với độ xác 90% Từ khóa: Camera; trộm cắp; ứng dụng; CNN-LSTM, SORT ABSTRACT Thieves detection is always one of the most controversal topics in the world Currently, there are many camera applications that help detect people with abnormal behavior outdoors, but , these applications only recognize objects with abnormal behavior when certain conditions are met, thus, leading to any object whether time or time will cause alarm In this topic, researchers proposes cameras night surviellain assistant system which are broken down into parts: Video processing, Detect and Tracking, and Classifying This system is expected to apply image processing teniques including cliff limiting adaptive histogram equalizaion and Background subtraction, along some popular Deep learning models which are CNN-LSTM YOLOv5 and Deep The used scientific methods is trias l and errors in which we build and test with many different models choose the best onefor our system Three considered crimes are: balcony climb over, motorcycle lock-picking and door lockpicking The aim of the topic is to build a system that is capable of distinguishing between people with abnormal behavior and normal people to avoid frequently false alarms, and get an accuracy of over 90% Keywords: Camera; theft; application; CNN-LSTM, SORT việc đó, ngồi việc th bảo vệ hay sắm hệ thống giám sát tinh vi, tân tiến để giám sát đối tượng vốn đắt đỏ khơng có tính kinh tế, hướng tiếp cận tạo ứng dụng hay hệ thống phụ để trực tiếp hỗ trợ camera an ninh tự động quan sát báo hiệu cho người giám sát biết phát người có hành vi bất thường Hướng tiếp cận giúp thay GIỚI THIỆU Thế giới ngày phát triển kéo theo tội phạm không ngừng gia tăng số lượng lẫn mức độ tinh vi Dù cho có trợ giúp hệ thống camera giám sát đại, người với tính hay sơ sót phân tán ý vào ban đêm dễ bỏ sót hành vi tội phạm camera, dẫn đến tài sản Để khắc phục 90 người người giám sát phát bọn tội phạm hiệu vào ban đêm, mà áp dụng camera kể camera rẻ tiền Như thế, gia chủ không cần phải cắt giảm thu nhập vào việc thuê thêm bảo vệ hay sắm hệ thống an ninh đồ sộ đắt đỏ, không cần phải thức đêm quan sát hệ thống an ninh mà tự đề phịng kẻ gian bảo quản tài sản Sau áp dụng thuật tốn xử lý ảnh calibration để tính tốn tạo đường giới hạn Các đối tượng qua đường giới hạn gây phát tín hiệu báo động Phương pháp có điểm mạnh giúp nhận biết tốt đối tượng người so với việc sử dụng thuật toán xử lý ảnh cổ điển vốn khó phân biệt đối tượng chuyển động người vật Tuy nhiên, mạng truyền thẳng có hạn chế mơ hình khơng thể phân biệt người có hành vi bình thường bất thường cách tường tận, hay người bình thường vơ tình có hành vi bất thường hay ngang qua đường giới hạn Trong thực tế, hành vi người đa dạng, phức tạp, để nhận xét người có hành vi bất thường, ta phải quan sát khoảng thời gian cụ thể chắn Trong hướng tiếp cận này, phương pháp phổ biến sử dụng hệ thống camera đơn giản dị xem có chuyển động diễn gần khu vực giám sát không thuật toán xử lý ảnh cổ điển ước lượng khoảng cách, xét luồng quang học, trừ khung đóng góp [1-4], hay sử dụng lọc Kalman [5] Việc áp dụng số trường hợp mà nơi cần giám sát hạn chế số lượng người vào có chuyển động Nhược điểm hệ thống nằm việc sử dụng thuật toán xử lý ảnh cổ điển Khả phân biệt người vật khác thuật tốn khơng cao nên đối tượng chuyển động gây cho hệ thống báo động nhầm, gây phiền phức tốn điện Tuy nhiên hệ thống sử dụng mơ hình khơng thật nhận biết người có hành vi bất thường hay khơng mà có tác dụng cảnh báo chung có người vào vùng giới hạn Do đó, chúng thường xuyên gây báo động Chưa kể đến việc gây sai sót áp dụng vào bối cảnh cần phân biệt hành động người bình thường vơ tình trùng với hành động người bất thường Trong thời đại 4.0 nay, phát triển vượt bậc Trí tuệ nhân tạo giúp thiết bị camera thơng minh nhận diện xác nhiều lần Việc áp dụng mạng nơ-ron tích chập (CNN) giúp hệ thống nhận diện đối tượng người giúp hạn chế đáng kể sai sót gây vật chuyển động khác người xuất trước camera tồn phương pháp cổ điển Một số đóng góp đáng kể [6, 7] áp dụng hệ thống camera Hikvision có mơ sau: Tăng cường ảnh Trừ Hình thái học R-CNN, Faster RCNN, Fastest R-CNN, YOLOv5 (a) Đánh dấu khung đường bao hiển thị giao diện Hình 1.Sơ đồ khối hệ thống phát xâm nhập thường sử dụng camera an ninh (b) Ở ứng dụng này, khối phát đối tượng thường áp dụng thuật toán CNN hay R-CNN để huấn luyện chúng nhận diện đối tượng người từ camera Hình 2.(a), (b)Phương pháp dị chuyển động kết hợp với CNN áp dụng để nhận diện đối tượng xâm nhập dựa vào vạch kẻ AX Hub hãng Hikvision [8] 91 Một kết trích xuất từ hệ thống thể hình cho thấy hệ thống nhận diện đối tượng chuyển động vượt qua đường giới hạn khung hình, kể có phải chủ cửa hàng hay người bình thường vơ tình vào vùng giới hạn Việc khiến hệ thống báo động liên tục gây phiền phức tốn thêm chi phí điện cách đáng kể Nhằm khắc phục nhược điểm mạng truyền thẳng, người nghiên cứu đề xuất sử dụng mạng nơ-ron hồi quy để học ghi nhớ đặc điểm đối tượng khoảng thời gian cụ thể, từ giúp hệ thống có khả quan sát trước kết luận hành vi người, làm giảm sai sót nhận diện báo động nhầm Để hạn chế việc này, người nghiên cứu đề xuất áp dụng mơ hình truy vết Deep SORT áp dụng mơ hình CNN – LSTM để giúp hệ thống phân biệt đối tượng có hành vi bình thường với bất thường nơi mà không cần thiết lập vạch giới hạn, cách nhầm lẫn Như tránh gây báo động nhầm, tiết kiệm điện Hệ thống đề xuất có sơ đồ khối hình Trong hệ thống này, người nghiên cứu áp dụng khối tiền xử lý để cải thiện độ sáng, trích xuất đối tượng chuyển động cách tự động để hệ thống hoạt động nhẹ hơn, xác so với việc lấy nhiều đối tượng không cần thiết mạng Đồng thời sử dụng mạng CNN – LSTM phần cuối hệ thống nhận dạng để giúp hệ thống nhận biết người có hành vi bình thường hay bất thường ĐỀ XUẤT MƠ HÌNH BA PHẦN GIÁM SÁT AN NINH BAN ĐÊM Khối Tiền xử lý Khối nhận diện theo vết đối tượng người Tăng cường ảnh Trừ Hình thái học Thực tiền xử lý khung hình vào ban đêm ghi từ camera Khối phân loại hành vi Khối hiển thị YOLOv5 + Deep Sort CNN - LSTM Đánh dấu khung đường bao hiển thị giao diện Nhận diện trích xuất chuỗi ảnh chứa đối tượng người Xác định phân loại hành vi người video Báo hiệu có phát người có hành vi bất thường Hình 3.Luồng xử lý liệu hệ thống 𝑊 ∗ 𝑋𝑡 = ∑𝑎𝑠=−𝑎 ∑𝑏𝑟=−𝑏(𝑤(𝑠, 𝑡)𝑥(𝑙 − 𝑠, 𝑘 − 𝑡)) (1) 2.1 Khối tiền xử lý Người nghiên cứu áp dụng thuật tốn tăng cường ảnh thích nghi có phân ngưỡng [9], thuật tốn trừ MOG thích ứng [10] thuật tốn hình thái học mở ảnh để thực tăng cường hình ảnh vào buổi tối, làm tách bạch phần hình ảnh đối tượng so với phần hình ảnh loại bỏ cảnh để hạn chế tối đa vật thể gây nhầm lẫn cho mơ hình học sâu, từ tăng độ xác việc dự đốn Một nhớ LSTM có cấu trúc sau: Input gate Forget gate Output gate C(t-b-1) C(t-b) f(t-b) σ h(t-b-1) c(t-b) i(t-b) σ σ h(t-b) Stack X(t-b) WEIGHTS 2.2 Khối phân loại hành vi Hình 4.Cấu trúc nhớ LSTM Gọi đoạn video𝑋 = {𝑋𝑡 , 𝑋𝑡−1 , … 𝑋1 , 𝑋0 } chứa ảnh 𝑋𝑡 , 𝑋𝑡−1 , … 𝑋1 , 𝑋0 khung hình ghi từ thời điểm t khứ 𝑡 = tại, ảnh có kích thước l×k hàng cột Phép tính tích chập kernel W lên toàn ảnh 𝑋𝑡 tính sau: Việc tính tích chập (1) áp dụng nhớ LSTM mạng CNN – LSTM có dạng [11]: 𝑖𝑡 = 𝜎(𝑊𝑥𝑖 ∗ 𝑋𝑡 + 𝑊ℎ𝑖 ∗ 𝐻𝑡−1 + 𝑊𝑐𝑖 ◦ 𝐶𝑡−1 + 𝑏𝑖 ) (2) 92 𝑓𝑡 = 𝜎(𝑊𝑥𝑓 ∗ 𝑋𝑡 + 𝑊ℎ𝑓 ∗ 𝐻𝑡−1 + 𝑊𝑐𝑓 ◦ 𝐶𝑡−1 + 𝑏𝑓 ) (3) 𝐶𝑡 = 𝑓𝑡 ◦ 𝐶𝑡−1 + 𝑖𝑡 ◦ tanh(𝑊𝑥𝑐 ∗ 𝑋𝑡 + 𝑊ℎ𝑐 ∗ 𝐻𝑡−1 +𝑏𝑐 ) (4) 𝑜𝑡 = 𝜎(𝑊𝑥𝑜 ∗ 𝑋𝑡 + 𝑊ℎ𝑜 ∗ 𝐻𝑡−1 + 𝑊𝑐𝑜 ◦ 𝐶𝑡 + 𝑏𝑜 ) (5) 𝐻𝑡 = 𝑜𝑡 ◦ tanh(𝐶𝑡 ) (6) 𝑝(ℎ𝑖 𝑡 (𝑐) ) ℎ 𝑒 𝑖𝑡 𝑐 ∑𝑐𝑗=1 𝑒 ℎ𝑖 𝑡 𝑐̂ = max (𝑝(ℎ𝑖 𝑡 𝑐=1,2,…,𝐶 (7) 𝑗 (𝑐) )) (8) Trong đó: 𝑝(ℎ𝑖 𝑡 𝑐 ) giá trị xác suất tính từ Softmax đối tượng thứ 𝑖 khung hình thứ t thuộc lớp thứ 𝑐 đó, 𝑐̂ lớp dự đốn có giá trị cao số lớp 𝑐 Giải thích theo chủ đề hàm Softmax trả giá trị xác suất lớp ứng với đặc trưng ngõ đối tượng ℎ𝑖 𝑡 xét cho tổng xác suất lớp bắng 1, giá trị lớp cao hành vi lớp hành vi đối tượng Trong đó: ◦là tốn tử nhân Hadama, 𝑓𝑡 forget gate, 𝑖𝑡 input gate, 𝑜𝑡 output gate, 𝐻𝑡 𝐶𝑡 ngõ vào cell state nhớ LSTM thứ t, 𝐻𝑡−1 𝐶𝑇−1 ngõ vào cell state nhớ LSTM trước Các ký hiệu 𝑊𝑥𝑖 , 𝑊ℎ𝑖 , 𝑊𝑐𝑖 ; 𝑊𝑥𝑓 , 𝑊ℎ𝑓 , 𝑊𝑐𝑓 ; 𝑊𝑥𝑜 , 𝑊ℎ𝑜 , 𝑊𝑐𝑜 𝑏𝑖 , 𝑏𝑓 , 𝑏𝑜 , thể kernel chập, chứa trọng số wieght cổng bias cổng Nếu xem trạng thái dạng biểu diễn ẩn đối tượng chuyển động, ConvLSTM với kernel chuyển tiếp lớn thích hợp để ghi lại chuyển động nhanh, kernel nhỏ thích hợp để ghi lại chuyển động chậm Như thế, việc áp dụng mạng CNN – LSTM, mơ hình giải hai tốn nhận diện đối tượng người, quan sát đối tượng thời gian cụ thể trước nhận định hành vi người Bộ phận CNN giúp hạn chế sai sót nhận diện nhầm đối tượng việc sử dụng thuật toán xử lý ảnh cổ điển chuyển động; phận LSTM hỗ trợ CNN phân loại hành vi bình thường hay bất thường đối tượng ghi vào khung hình Hình 5.Mạng CNN – LSTM Trong cấu trúc CNN–LSTM hình 5, mạng CNN thường đứng trước LSTM tạo thành hai phận thực hai chức rõ rệt[11]: Bộ phận trích xuất đặc trưng: Mạng CNN nhận liệu đầu vào ảnh chuỗi hình ảnh từ video trích xuất đặc trưng bật đối tượng ảnh thành ma trận 2D chứa đặc trưng Các ma trận đặc trưng tất ảnh từ video sau trích xuất đưa qua lớp LSTM Trong hệ thống đề xuất, hàm Softmax sử dụng ngõ mạng để phân loại hành vi đối tượng 2.3 Khối phát truy vết đối tượng người Khối phân loại giúp giải việc thực việc phân biệt có vơ tình có hành vi bất thường theo ý nghĩa Tuy nhiên, mơ hình họ CNN LSTM khơng có chức phân biệt đối tượng khung ảnh cũ hay nên mơ hình áp dụng bối cảnh có đối tượng Để giải vấn đề này, người nghiên cứu đề xuất áp dụng thuật toán có khả truy vết đối tượng tiếng Phương pháp truy vết trực tuyến thời gian thực - Simple Online and Realtime Tracking (SORT), thuật toán truy vết thời Gọi ℎ1 𝑡 , ℎ2 𝑡 , … , ℎ𝑖 𝑡 đối tượng người xuất khung hình thời điểm t tương ứng Lấy ký hiệu 𝑐 = {1,2, … , 𝑐} lớp ngõ đy, đề tài hành vi cần phân loại Qúa trình phân loại Softmax mạng sử dụng CNNLSTM sau: 93 gian thực với độ xác cao có khả truy vết đối tượng bị che khuất khỏi camera Dưới sơ đồ thuật toán SORT [12, 13]: CNN-LSTM Kích thước ảnh video 180 x 90 quay tốc độ chuẩn 24fps Hình 7.Dữ liệu video Đối với mơ hình YOLOv5 – SORT người nghiên cứu sử dụng pre-trained weights huấn luyện từ trước tập liệu COCO Kaggle chứa 1.2 triệu ảnh 1000 loại đối vật thể khác bao gồm người Hình 6.Sơ đồ thuật tốn SORT Hai kỹ thuật quan trọng sử dụng SORT thuật toán Kalman filter, thuật toán Hungarian Thuật toán SORT sử dụng Kalman filter để dự đốn liên tục vị trí đối tượng theo vết có ảnh dựa vào vị trí khứ họ khung ảnh trước Quá trính so sánh đo lường với thực tế liên tục giúp SORT nhận biết đối tượng bị khuất, đồng thời làm sở định đối tượng hay khác với đối tượng khung ảnh trước 3.2 Kết khối tiền xử lý: Hình trình bày kết khung hình video ngõ khối tiền xử lý (a) Để sử dụng SORT phải có mơ hình phát đối tượng để trích xuất đối tượng cho đầu vào SORT Trong báo [13], A Bewley N Wojkey kết hợp hai mơ hình YOLOv5 với SORT để tạo thành mạng Deep SORT YOLOv5 Mơ hình YOLOv5 có nhiệm vụ nhận diện đối tượng người có ảnh SORT theo vết đối tượng cách gán ID cho đối tượng trích xuất từ YOLOv5 suốt thời gian ghi hình (b) (c) Hình 8.Ảnh gốc (nhóm (a)), qua phát hồng ngoại máy quay (nhóm (b)) sau tăng cường CLAHE (nhóm (c)) THỰC NGHIỆM 3.1 Bộ liệu huấn luyện Để huấn luyện cho mạng CNN – LSTM, nhóm nghiên cứu xây dựng video gồm tổng cộng 3060 video quay người thực hành vi bất thường và: cạy khóa xe, viết tắt “Khóa”, leo rào viết tắt “Leo”; cạy cửa, viết tắt “Cửa”, xấp xỉ 1000 ảnh loại 1005 hành vi bình thường, tự ghi camera an ninh ezviz C6CN chuyển đổi thành ảnh xám để sử dụng cho mơ hình Hình 9.Ảnh ngõ khối tiền xử lý Việc tăng cường ảnh loại bỏ thực hiệu Có thể thấy gần tồn loại bỏ hình ảnh đối tượng giữ lại cải thiện sáng rõ ràng 94 3.3 Kết khối phân loại đối tượng Từ kết thấy hệ thống nhận diện tốt với độ xác khoảng 98% hành vi leo ban cơng có độ xác thấp Hình 10 bảng 11 kết huấn luyện mạng CNN-LSTM đánh giá tập liệu chuẩn bị phần trước Bảng 11.Kết huấn luyện phân loại CNN – LSTM Hành vi Precision Recall F1 Cạy khóa xe 1,00 0,99 0,99 (Khoa) Cạy cửa 1,00 0,99 0,99 (Cua) Leo ban công 0,97 0,96 0,97 (Leo) Bình thường 0,95 0,98 0,97 (Nguoitot) Độ xác 0.9803 Hình 10.Ma trận lỗi sau huấn luyện kiểm tra tập video kiểm tra Bảng 12.So sánh với mơ hình khác Cấu hình (bộ lọc: kernel) lớp: 32 cell, 32 cell Độ xác Thời gian xử lý Số lượng xấp xỉ (giây) tham số 0,2591 0,1 (CPU) 090 884 (2-a) lớp: 16 (3x3) 0,9507 0,5 (CPU) 33 188 100 (2-b) lớp: 32 (3x3) 0,9803 0,5 (CPU) 66 393 988 0,9605 0,5 (CPU) 66,616,580 0,9630 0,8 (CPU) 99 930 500 0,5307 0,1 (CPU) 79 104 Mơ hình LSTM CNNLSTM (1) (2-c) (2-d) CNN (4) lớp: 64 (3x3), 32 (3x3) lớp: 72 (3x3), 48 (3x3) lớp: 16 (3x3), 32 (3x3) hệ thống mà áp dụng mơ hình CNN – LSTM cho kết tốt 90% việc phân loại hành vi người mơ hình rút trích đặc trưng mặt khơng gian lẫn thời gian Dựa vào bảng 12, nhận thấy hệ thống mà khối phát sử dụng mạng truyền thẳng CNN tỷ lệ nhận diện đối tượng bất thường nơi công cộng thấp thường xun dự đốn sai Vì mạng kết luận hành vi người người xuất khung hình Hệ thống sử dụng LSTM - mạng hồi quy có khả quan sát đối tượng thời gian trước dự đốn lại khơng thể phân biệt đối tượng người ảnh nên cho độ xác Như thế, có 3.4 Kết thực nghiệm hệ thống Hình 13 14 trình bày số kết thí nghiệm bối cảnh có người thực hành vi hai người thực hai hành vi khác lúc 95 Từ hình 13 ta thấy hệ thống nhận diện tốt trường hợp có đối tượng bao gồm có hành vi bình thường hành vi bất bình thường Hình 14 cho thấy hệ thống phân biệt hành động đối tượng riêng lẻ có ảnh phát cảnh báo cho đối tượng cạy khóa xe Hình 15 trình bày kết nhận diện hệ thống khơng sử dụng khối phân loại chứa mơ hình CNN-LSTM hệ thống có sử dụng (a) (b) Hình 15.So sánh hoạt động việc khơng có (a) có (b) sử dụng khối phân loại áp dụng CNN-LSTM Hệ thống khơng có khối sử dụng mạng hồi tiếp nhận diện người bình thường thành có hành vi bất thường họ vơ tình có cử giống với hành vi bất thường KẾT LUẬN Hệ thống đề xuất giúp cho hệ thống camera có khả phân biệt tốt đối tượng bình thường bất thường Đồng thời phân loại hành vi bất thường mà đề tài loại hành vi: cạy khóa xe, cạy cửa, trèo ban cơng với độ xác 90% Hình 13.Trường hợp có đối tượng Ưu điểm hệ thống hệ thống theo dõi đối tượng khoảng thời gian cụ thể trước đưa phán đoán đối tượng hệ thống loại bỏ nên không phụ thuộc vào hay mốc giới hạn dựa vào hình dáng hành động đối tượng để nhận diện Hiện việc lặp lại hai lần việc lấy tích chập YOLOv5 CNN trước LSTM khiến cho hệ thống nặng, gây trì hỗn đáng kể Để khắc phục vấn đề tương lai, người nghiên cứu dự định tích hợp LSTM vào YOLOv5, để tạo thành mơ hình YOLOv5-DeepSORT-LSTM giúp nhận diện, theo vết hành vi đối tượng người khoảng thời gian cụ thể Hình 14.Trường hợp có nhiều đối tượng 96 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] M K Hossen and S H Tuli A surveillance system based on motion detection and motion estimation using optical flow 2016 5th International Conference on Informatics, Electronics and Vision (ICIEV), 2016, pp 646-651 J Su, Q Liu, and T Ikenaga Motion detection based motion estimation algorithm for video surveillance application 2009 International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS), 2009, pp 481-484 M Srenithi and P N Kumar Motion Detection Algorithm for Surveillance Videos Proceedings of the International Conference on ISMAC in Computational Vision and Bio-Engineering 2018 (ISMAC-CVB), Cham, 2019, pp 955-964: Springer International Publishing O E Harrouss, D Moujahid, and H Tairi Motion detection based on the combining of the background subtraction and spatial color information 2015 Intelligent Systems and Computer Vision (ISCV), 2015, pp 1-4 N Sridevi and M Meenakshi Efficient Motion Compensation and Detection Algorithm using Modified Kalman Filtering 2020 5th International Conference on Communication and Electronics Systems (ICCES), 2020, pp 264-268 R Schrijvers, S Puttemans, T Callemein, and T Goedemé Real-Time Embedded Person Detection and Tracking for Shopping Behaviour Analysis International Conference on Advanced Concepts for Intelligent Vision Systems, Feb 2020, pp 541553 S Saikia, E Fidalgo, E Alegre, and L Fernández-Robles Object Detection for Crime Scene Evidence Analysis Using Deep Learning Cham, 2017, pp 14-24: Springer International Publishing H Phượng (Tháng 11) Camera kết hợp báo động chống trộm có thật hay khơng P Musa, F A Rafi, and M Lamsani A Review: Contrast-Limited Adaptive Histogram Equalization (CLAHE) methods to help the application of face recognition 2018 Third International Conference on Informatics and Computing (ICIC), 2018, pp 1-6 C A.-O Wang, T A.-O Wang, E Wang, E Sun, and Z Luo Flying Small Target Detection for Anti-UAV Based on a Gaussian Mixture Model in a Compressive Sensing Domain LID - 10.3390/s19092168 [doi] LID - 2168 X Shi, Z Chen, H Wang, D.-Y Yeung, W.-K Wong, and W.-c Woo Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting NIPS, 2015 A Bewley, Z Ge, L Ott, F Ramos, and B Upcroft Simple online and realtime tracking 2016 IEEE International Conference on Image Processing (ICIP), 2016, pp 3464-3468 N Wojke, A Bewley, and D Paulus Simple online and realtime tracking with a deep association metric 2017 IEEE International Conference on Image Processing (ICIP), 2017, pp 3645-3649 Tác giả chịu trách nhiệm viết: Họ tên: Đinh Nguyễn Đăng Khoa Đơn vị: Điện thoại: 0383289326 Email: dinhnguyendangkhoa1234@gmail.com 97 S K L 0 ... TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐINH NGUYỄN ĐĂNG KHOA PHÁT HIỆN ĐỐI TƯỢNG CÓ HÀNH VI BẤT THƯỜNG TRÊN CAMERA AN NINH VÀO BAN ĐÊM NGÀNH: KỸ THUẬT ĐIỆN TỬ - 8520203... Nơi học (trường, thành phố): đại học Sư phạm Kỹ thuật, thành phố Hồ Chí Minh Ngành học: Kỹ thuật điện tử Tên luận văn: Phát đối tượng có hành vi bất thường camera an ninh vào ban đêm Ngày & nơi... hiệu làm vi? ??c ứng dụng khác Đối với ứng dụng nhắm đến đối tượng chuyển động vi? ??c hạn chế đối tượng tĩnh giúp ích nhiều cho vi? ??c phát phân loại đối tượng hệ thống cần tập trung vào đối tượng chuyển

Định dạng
Số trang	119
Dung lượng	5,19 MB