(Luận văn thạc sĩ) xây dựng mô hình học sâu đa tầng phát hiện hành vi bạo lực

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM ĐỨC CƯỜNG PHẠM ĐỨC CƯỜNG HỆ THỐNG THÔNG TIN XÂY DỰNG MƠ HÌNH HỌC SÂU ĐA TẦNG PHÁT HIỆN HÀNH VI BẠO LỰC ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) 2021 – 2023 HÀ NỘI – 2023 HÀ NỘI - NĂM 2023 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM ĐỨC CƯỜNG XÂY DỰNG MƠ HÌNH HỌC SÂU ĐA TẦNG PHÁT HIỆN HÀNH VI BẠO LỰC Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (HỆ THỐNG THÔNG TIN) (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: GS TS TỪ MINH PHƯƠNG HÀ NỘI - NĂM 2023 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu đề án tốt nghiệp trung thực chưa công bố cơng trình khác Hà Nội, tháng năm 2023 Tác giả đề án Phạm Đức Cường ii LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn đến thầy, cô Khoa Công nghệ thơng tin Học viện Cơng nghệ Bưu Chính Viễn thông, người năm vừa qua truyền đạt cho em nhiều kiến thức, kinh nghiệm quý báu, hành trang cho em hướng đến tương lai Em xin gửi lời cảm ơn chân thành đến GS TS Từ Minh Phương, người tận tình hướng dẫn bảo em tận tình trình thực đề án Những lời khuyên thầy suốt q trình giúp em có thêm nhiều kiến thức kinh nghiệm lĩnh vực nghiên cứu khoa học Em xin cảm ơn ba bạn Ngô Tiến Đức, Phạm Tiến Đức, Hà Như Thái – học viên lớp M21CQIS01-B giúp đỡ em nhiều việc thu thập, gán nhãn xử lý liệu để em hồn thành đề án Em xin gửi lời cảm ơn đến anh chị, bạn em lớp M21CQIS01-B, cảm ơn tất người tạo môi trường học tập chuyên nghiệp, sáng tạo để em phát triển ngày hơm Cuối cùng, em xin cảm ơn gia đình, đồng nghiệp bạn bè, người cạnh, quan tâm, chia sẻ, tạo điều kiện tốt cho em để hồn thành đề án Hà Nội, tháng năm 2023 Tác giả đề án Phạm Đức Cường iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH VẼ vii MỞ ĐẦU 1 Tính cấp thiết đề án Tổng quan vấn đề nghiên cứu Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu CHƯƠNG : TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN HÀNH VI BẠO LỰC 1.1 Bài toán phát hành vi bạo lực 1.1.1 Giới thiệu toán 1.1.2 Hướng tiếp cận 1.2 Các nghiên cứu liên quan .5 1.3 Kiến thức sở 13 1.3.1 Phát đối tượng .13 1.3.2 Theo dõi đối tượng 14 1.3.3 Phân loại hành vi bạo lực .15 1.4 Kết luận chương .22 iv CHƯƠNG : MƠ HÌNH HỌC SÂU ĐA TẦNG 23 2.1 Đặt vấn đề 23 2.2 Mơ hình học sâu đa tầng 23 2.2.1 Tầng phát đối tượng .25 2.2.2 Tầng theo dõi đối tượng 28 2.2.3 Tầng phân loại hành vi bạo lực 36 2.3 Kết luận chương .40 CHƯƠNG : THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 3.1 Mô tả liệu 41 3.2 Mô tả thực nghiệm 43 3.3 Phương pháp đánh giá 44 3.4 Kết thực nghiệm đánh giá 45 3.4.1 Quá trình huấn luyện 45 3.4.2 So sánh kết với biến thể 49 3.5 Kết luận chương .51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO .53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT STT Từ viết tắt Tiếng Anh Tiếng Việt/Giải thích AI Artificial Intelligence Trí tuệ nhân tạo Bi-LSTM Bidirectional Long Short-Term Mạng nhớ dài-ngắn hạn hai Memory chiều CNN Convolutional Neural Network Mạng nơ-ron tích chập FC Fully Connected Layer Lớp kết nối toàn FLOPS Floating Point Operations Per Second ID Identification Số định danh đối tượng IOU Intersection Over Union Phần giao phần hợp KNN K-nearest Neighbor Giải thuật k hàng xóm gần LSTM Long Short -Term Memory Mạng nhớ dài-ngắn hạn MOT Multiple Object Tracking Theo dõi đa đối tượng MOTA Multiple Object Tracking Độ xác theo dõi nhiều đối Accuracy tượng 10 11 NMS Non Maximum Suppression Chặn không cực đại 12 RNN Recurrent Neural Network Mạng nơ-ron hồi quy 13 RPN Region Proposal Network Mạng đề xuất khu vực SORT Simple Online Realtime Object Theo dõi đối tượng trực tuyến Tracking thời gian thực đơn giản 14 15 SOT Single Object Tracking Theo dõi đối tượng 16 SOTA State Of The Art Hiện đại 17 YOLO You Only Look Once vi DANH SÁCH BẢNG Bảng 2.1 Kết pretrain YOLOv7 MS COCO .27 Bảng 3.1 Thống kê tập liệu 43 Bảng 3.2 So sánh kết thực nghiệm .49 vii DANH SÁCH HÌNH VẼ Hình 1.1 Sơ đồ hoạt động “Fast Fight Detection” (Nguồn: [15]) Hình 1.2 Các vùng màu chuyển động hình ảnh bạo lực bình thường (Nguồn: [15]) Hình 1.3 Kiến trúc Single-Frame CNN (Nguồn: [7]) Hình 1.4 Hình ảnh từ tập liệu HockeyFight 10 Hình 1.5 Kiến trúc 3D CNN (Nguồn: [29]) 10 Hình 1.6 Sơ đồ tổng quan mơ hình CNN-LSTM (Nguồn: [30]) 12 Hình 1.7 Cảnh bạo lực tập liệu PTIT 12 Hình 1.8 Đầu toán phát đối tượng (Nguồn: Internet) .13 Hình 1.9 Đầu tốn theo dõi đa đối tượng (Nguồn: Internet) 15 Hình 1.10 Kiến trúc tổng quát CNN-LSTM .16 Hình 1.11 Sự biến đổi liệu CNN (Nguồn: cs231n) 17 Hình 1.12 Minh họa phép tính tích chập CNN (Nguồn: cs231n) 18 Hình 1.13 Dữ liệu áp dụng Max Pooling Average Pooling 20 Hình 1.14 Lớp kết nối toàn (Nguồn: Internet) .20 Hình 1.15 Chi tiết kiến trúc mô-đun đơn giản RNN (Nguồn: Internet) 21 Hình 1.16 Chi tiết kiến trúc mơ-đun mạng LSTM (Nguồn: Internet) 21 Hình 2.1 Sơ đồ tổng quan mơ hình học sâu đa tầng 24 Hình 2.2 Mốc thời gian phát triển YOLO 25 Hình 2.3 Kiến trúc YOLOv7 (Nguồn: Internet) 26 Hình 2.4 Kết thử nghiệm pretrain YOLOv7 tập liệu .28 Hình 2.5 Luồng xử lí SORT .30 Hình 2.6 Luồng xử lí ByteTrack 31 Hình 2.7 Ví dụ đầu vào cho ByteTrack (Nguồn: [33]) .31 Hình 2.8 Minh hoạ cách hoạt động ByteTrack 32 Hình 2.9 Minh hoạ kết tầng theo dõi đối tượng 35 Hình 2.10 Kiến trúc CNN-LSTM sử dụng 36 Hình 2.11 Kiến trúc ResNet-50 sử dụng 37 51 3.5 Kết luận chương Chương trình bày cách xây dựng liệu cho tốn, mơ tả q trình thực nghiệm, phương pháp đánh giá kết quả, với kết thực nghiệm sâu vào phân tích, đánh giá kết Kết cho thấy mơ hình học sâu đa tầng mang lại hiệu qua cao toán phát hành vi bạo lực Tuy nhiên mơ hình cịn số vấn đề gặp phải cần phải khắc phục trước đưa vào ứng dụng thực tế 52 KẾT LUẬN Tự động phát hành vi bạo lực thể chất quan trọng để kịp thời can thiệp, giảm thiểu thương tích cho người Đề án trình bày mơ hình học sâu đa tầng đem lại khả phát hành vi bạo lực thể chất hiệu cao Các kết thực nghiệm cho thấy mơ hình học sâu đa tầng có tốc độ đủ nhanh, độ xác cao hồn tồn phù hợp cho hệ thống thời gian thực Trong tương lai, đề án tiếp tục nghiên cứu cải thiện mô hình nhằm khắc phục trường hợp khu vực hành vi bạo lực nhỏ không đủ điều kiện ánh sáng Ngoài ra, đề án cố gắng xây dựng tập liệu lớn để mơ hình phát nhiều loại hành vi bạo lực Nhược điểm mơ hình phát hành vi bạo lực mà đối tượng sử dụng phận thể tác động gây thương tích lên đối tượng khác mà khơng sử dụng vũ khí hay cơng cụ hỗ trợ, nhiên thực tế hành vi bạo lực nhiều như: khủng bố, bạo hành, … Đề án tiếp tục cải tiến mơ hình cung cấp giải pháp cho vấn đề lại Song song với đó, đề án tiếp tục nghiên cứu cải thiện mơ hình để đạt độ xác cao tốc độ thực thi nhanh Và quan trọng nhất, đề án tìm kiếm đối tác thích hợp để hợp tác áp dụng đề án vào hệ thống camera hành, đem lại giá trị thực tiễn cho xã hội 53 DANH MỤC TÀI LIỆU THAM KHẢO [1] https://thanhnien.vn/trung-quoc-hay-my-giam-sat-dan-bang-camera-an-ninhnhieu-nhat-the-gioi-185907541.htm [2] https://viethansecurity.com/dien-bien-thi-truong-camera-wifi-giam-sat-nam2021.html [3] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos and Ben Upcroft (2016), “Simple Online and Realtime Tracking”, arXiv [4] Alex Krizhevsky, Ilya Sutskever and Geoffrey E Hinton (2012), “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS [5] Alex Sherstinsky (2018), “Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network”, arXiv [6] Alexey Bochkovskiy, Chien-Yao Wang and Hong-Yuan Mark Liao (2020), “YOLOv4: Optimal Speed and Accuracy of Object Detection”, arXiv [7] Aruna, V & Deepthi, Aruna & Leelavathi, R (2022), “Human Activity Recognition Using Single Frame CNN", 10.1007/978-981-19-4831-2_17 [8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser and Illia Polosukhin (2017), “Attention Is All You Need”, arXiv [9] Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao (2022), “YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors”, arXiv [10] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke and Andrew Rabinovich (2014), “Going Deeper with Convolutions”, arXiv [11] Chuyi Li, Lulu Li, Hongliang Jiang, Kaiheng Weng, Yifei Geng, Liang Li, Zaidan Ke, Qingyuan Li, Meng Cheng, et al (2022), “YOLOv6: A SingleStage Object Detection Framework for Industrial Applications”, arXiv 54 [12] E Y Fu, H Va Leong, G Ngai, and S Chan (2016), “Automatic fight detection in surveillance videos,” in Proc 14th Int Conf Adv Mobile Comput Multi Media, pp 225–234 [13] Gao Huang, Zhuang Liu, Laurens van der Maaten and Kilian Q Weinberger (2016), “Densely Connected Convolutional Networks”, arXiv [14] Glenn Jocher, Ayush Chaurasia, Alex Stoken, Jirka Borovec, NanoCode012, et al (2022) ultralytics/yolov5: v7.0 - YOLOv5 SOTA Realtime Instance Segmentation (v7.0) Zenodo https://doi.org/10.5281/zenodo.7347926 [15] I S Gracia, O D Suarez, G B Garcia, and T.-K Kim (2015), “Fast fight detection,” PLoS ONE, vol 10, no 4, Art no e0120448 [16] Joseph Redmon and Ali Farhadi (2018), “YOLOv3: An Incremental Improvement” arXiv [17] Joseph Redmon, Ali Farhadi (2016), “YOLO9000: Better, Faster, Stronger”, arXiv [18] Joseph Redmon, Santosh Divvala, Ross Girshick and Ali Farhadi (2016), “You Only Look Once: Unified, Real-Time Object Detection”, arXiv [19] Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian Sun (2015), “Deep Residual Learning for Image Recognition”, arXiv [20] Karen Simonyan and Andrew Zisserman (2015), “Very Deep Convolutional Networks for Large-Scale Image Recognition”, arXiv [21] M Schuster and K K Paliwal (1997), "Bidirectional recurrent neural networks," in IEEE Transactions on Signal Processing, vol 45, no 11, pp 2673-2681, doi: 10.1109/78.650093 [22] Matthew D Zeiler and Rob Fergus (2013), “Visualizing and Understanding Convolutional Networks”, arXiv [23] Mingxing Tan and Quoc V Le (2019), “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks”, arXiv [24] Nicolai Wojke, Alex Bewley and Dietrich Paulus (2017), “Simple Online and Realtime Tracking with a Deep Association Metric”, arXiv 55 [25] P C Ribeiro, R Audigier, and Q C Pham (2016), “RIMOC, a feature to discriminate unstructured motions: Application to violence detection for videosurveillance,” Comput Vis Image Understand., vol 144, pp 121–143 [26] R Nar, A Singal, and P Kumar (2016), “Abnormal activity detection for bank ATM surveillance,” in Proc Int Conf Adv Comput., Commun Inform (ICACCI), pp 2042–2046 [27] Ralf C Staudemeyer and Eric Rothstein Morris (2019), “Understanding LSTM - a tutorial into Long Short-Term Memory Recurrent Neural Networks”, arXiv [28] S Albawi, T A Mohammed and S Al-Zawi (2017), "Understanding of a convolutional neural network," in 2017 International Conference on Engineering and Technology (ICET), pp 1-6, doi: 10.1109/ICEngTechnol.2017.8308186 [29] S Ji, W Xu, M Yang and K Yu (2013), "3D Convolutional Neural Networks for Human Action Recognition," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 35, no 1, pp 221-231, doi: 10.1109/TPAMI.2012.59 [30] Seymanur Akti, Gozde Ayse Tataroglu and Hazim Kemal Ekenel (2019), “Vision-based Fight Detection from Surveillance Cameras”, IEEE [31] T Senst, V Eiselein, A Kuhn, and T Sikora (2017), ‘‘Crowd violence detection using global motion-compensated Lagrangian features and scalesensitive video-level representation,’’ IEEE Trans Inf Forensics Security, vol 12, no 12, pp 2945–2956 [32] Y Lecun, L Bottou, Y Bengio and P Haffner (1998), "Gradient-based learning applied to document recognition," in Proceedings of the IEEE, vol 86, no 11, pp 2278-2324, doi: 10.1109/5.726791 [33] Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Fucheng Weng, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang (2021), “ByteTrack: MultiObject Tracking by Associating Every Detection Box”, arXiv

Định dạng
Số trang	76
Dung lượng	6,36 MB