Giải pháp nhận diện người xâm nhập nhà trạm viễn thông

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG o0o GIẢI PHÁP NHẬN DIỆN NGƯỜI XÂM NHẬP NHÀ TRẠM VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN ĐỒNG NAI - NĂM 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG GIẢI PHÁP NHẬN DIỆN NGƯỜI XÂM NHẬP NHÀ TRẠM VIỄN THƠNG Chun ngành: Cơng nghệ thơng tin Mã số chuyên ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN ĐỒNG NAI - NĂM 2023 i LỜI CAM ĐOAN Tơi xin cam đoan nội dung trình bày luận văn cơng trình nghiên cứu tơi, hướng dẫn Thầy PGS.TS , trường Đại học Lạc Hồng Trong luận văn này, kiến thức từ cơng trình có liên quan kế thừa lại, có trích dẫn đầy đủ Mã nguồn cài đặt hệ thống, thực nghiệm, kết quả, số liệu hình ảnh sử dụng luận văn trung thực Người thực ii LỜI CẢM ƠN Trong trình thực Luận văn tốt nghiệp cao học, tơi xin chân thành gửi lời cảm ơn sâu sắc đến:  Thầy PGS.TS tận tình hướng dẫn, định hướng dành thời gian quý báu để góp ý cho tơi hồn thành luận văn  Ban giám hiệu, Khoa Sau Đại Học trường Đại học Lạc Hồng, thầy cô Khoa Công nghệ Thông tin giảng dạy, truyền đạt kiến thức kinh nghiệm quý báu, bảo tạo điều kiện cho tơi hồn thành luận văn Xin chân thành cảm ơn iii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ TÓM TẮT LUẬN VĂN (Dùng cho luận văn người hướng dẫn) Đề tài: Giải pháp nhận diện người xâm nhập nhà trạm viễn thông Ngành: Công nghệ thông tin Mã số: 8480201 NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Nghiên cứu, phân tích cơng trình nghiên cứu liên quan đến cơng việc nhận dạng đối tượng nói chung phương pháp phát hành động video - Thu thập liệu liên quan thực nghiệm phương pháp cũ - Phân tích kết đạt được, so sánh đưa ưu điểm khuyết điểm để cải tiến - Thực nghiệm đánh giá chương trình liệu chuẩn Sau áp dụng mơ hình cho việc nhận diện người xâm nhập nhà trạm viễn thông - Viết báo cáo luận văn Cách thức giải vấn đề Giải pháp đưa để giải vấn đề toán “Giải pháp nhận diện người xâm nhập nhà trạm viễn thông” thực theo bước sau: - Bước 1: Tổng hợp video lấy từ camera giám sát tách lấy ảnh từ keyframe - Bước 2: Gán nhãn cho đối tượng hành động keyframe - Bước 3: Phân chia liệu tạo thành ba phần train, valid test để phục vụ cho việc huấn luyện iv - Bước 4: Huấn luyện trình rút trích đặc trưng 2D để xác định đối tượng keyframe trình rút trích đặc trưng 3D để xác định hành động - Bước 5: Đưa cảnh báo có hành động đáng ngờ (cầm nắm đồ vật, đụng chạm vào máy móc…) - Bước 6: Áp dụng vào hệ thống nhận diện người xâm nhập nhà trạm viễn thông Kết hợp bước triển khai xây dựng thành phần mềm nhận dạng hành động video Luận văn sử dụng IDE Visual Studio Code để viết chương trình, ngơn ngữ thực Python Đồng Nai, Ngày … tháng … năm 2023 NGƯỜI HƯỚNG DẪN HỌC VIÊN v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT viii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ x Chương Tổng quan 1.1 Lý chọn đề tài 1.2 Ý nghĩa khoa học, ứng dụng đề tài 1.2.1 Tính khoa học đề tài 1.2.2 Tính ứng dụng 1.3 Mục tiêu luận văn 1.4 Phát biểu toán 1.5 Phạm vi toán 1.6 Mô tả chung hệ thống 1.7 Đóng góp luận văn 1.8 Bố cục luận văn Chương Cơ Sở Lý Thuyết Và Các Cơng Trình Nghiên Cứu Liên Quan 2.1 Giới thiệu 2.2 Một số sở lý thuyết toán phát đối tượng 2.2.1 Bài toán phát đối tượng 2.2.2 Phương pháp hiểu video vi 2.2.3 Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) 2.2.4 Mạng nơ-ron tích chập 3D (3D CNN) 11 2.2.5 Mạng thần kinh hồi quy (Recurrent Neural Network – RNN) 12 2.2.6 Mơ hình YOLO 14 2.3 Các cơng trình nghiên cứu liên quan 21 2.3.1 Các phương pháp 2D-CNN hai luồng 21 2.3.2 Các phương pháp dựa RNN 22 2.3.3 Phương pháp dựa 3D CNN 23 Chương Mơ hình đề xuất 25 3.1 Giới thiệu 25 3.2 Trình rút trích đặc trưng 2D 25 3.3 Trình rút trích đặc trưng 3D 25 3.4 Huấn luyện mô hình 27 Chương Thực Nghiệm Và Đánh Giá 29 4.1 Giới thiệu 29 4.2 Các liệu để thực nghiệm 29 4.2.1 UCF101 dataset 29 4.2.2 AVA dataset 30 4.3 Cài đặt chương trình ứng dụng demo 31 4.3.1 Môi trường ngôn ngữ cài đặt 31 4.3.2 Cấu hình mơ hình 31 4.3.3 Huấn luyện mơ hình 32 4.4 Kết đánh giá 33 vii 4.4.1 Độ đo đánh giá 33 4.4.2 So sánh phương pháp đề xuất với phương pháp khác 34 4.5 Áp dụng vào giám sát trạm viễn thông VNPT 36 4.5.1 Sơ đồ hệ thống thực nghiệm giám sát trạm viễn thông 36 4.5.2 Một số hình ảnh thực tế trạm viễn thông 36 4.5.3 Kết thực nghiệm 37 Chương Kết Luận 42 TÀI LIỆU THAM KHẢO 43 viii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu viết tắt Nội dung viết tắt 2D Dimensional 3D Dimensional AP Average Precision CNN Convolutional Neural Network LSTM Long-Short Term Memory MAP Mean Average Precision NMS Non-Max suppression RNN Recurrent Neural Network YOLO You Only Look Once 10 UCF University of Central Florida 11 AVA Atomic Visual Actions 31 Hình 4.2 Một số mẫu liệu AVA [25] 4.3 Cài đặt chương trình ứng dụng demo 4.3.1 Môi trường ngôn ngữ cài đặt Chương trình viết ngơn ngữ Python môi trường Windows Thư viện dùng Pytorch Cấu hình máy sử dụng thể cài đặt chương trình: CPU: i7-7820HK@2.90GHz; RAM: 16GB; GPU: GTX 1080 8GB, Hệ điều hành: Windows 10 Home 64bit Các thư viện cần để chạy ứng dụng demo: Python 3.8+, OpenCV, Pytorch, thop, scipy, matplotlib, numpy, imageio 4.3.2 Cấu hình mơ hình Mơ hình đề xuất cấu Hình 4.3 Trình rút trích đặc trưng 2D sử dụng mơ hình YOLOv2 trình rút trích đặc trưng 3D sử dụng mơ hình ResNext101 Hàm kích hoạt sử dụng ReLU 32 Hình 4.3 Một số thơng số xây dựng mơ hình 4.3.3 Huấn luyện mơ hình Để huấn luyện mơ hình, thơng số cần thiết lập huấn luyện liệu UCF101-24 (Hình 4.4a) liệu AVA (Hình 4.4b) a) UCF101-24 b) AVA Hình 4.4 Thơng số huấn luyện mơ hình 33 4.4 Kết đánh giá 4.4.1 Độ đo đánh giá Để đánh giá mơ hình tốt hay xấu, luận văn sử dụng độ đo sau đây: - Precision: Đánh giá độ tin cậy dự đốn mơ hình (bao nhiêu phần trăm dự đốn mơ hình xác) Precision = - TP 𝑇𝑃 + 𝐹𝑃 Recall: Đánh giá khả tìm kiếm tồn ground truth mơ hình (bao nhiêu phần trăm mẫu dương mà mơ hình nhận diện được) Recall = - TP 𝑇𝑃 + 𝐹𝑁 IoU (Intersection over Unit): Đo độ chồng lắp lẫn (overlap) hộp giới hạn ground truth với hộp giới hạn mà mô hình dự đốn Hình 4.5 Cách tính độ đo IoU Trong đó, tỉ lệ IoU giúp xác định dự đốn hay khơng Tỉ lệ chọn 0.5 theo nghiên cứu [5][22][25] https://www.baeldung.com/cs/object-detection-intersection-vs-union 34  True positive (TP): Số mẫu mà mơ hình dự đốn dương tính  True negative (TN): Số mẫu mà mơ hình dự đốn âm tính  False positive (FP): Số mẫu mà mơ hình dự đốn dương tính sai  False negative (FN): Số mẫu mà mơ hình dự đốn âm tính sai Ngồi ra, độ đo thường dùng để đánh giá phương pháp thuộc dạng mAP tính sau: Đầu tiên, độ xác trung bình (Average Precision – AP) sử dụng để đánh giá việc phân loại phát đề xuất [26] Độ đo AP tóm tắt hình dạng đường cong Precision/Recall định nghĩa độ xác trung bình tập hợp mười Mức recall cách [0, 0,1, , 1]: AP = 11 𝑝 ộ (𝑟) ∈{ , ,…, } với p chữ viết tắt Precision, r chữ viết tắt Recall Precision mức recall nội suy cách lấy max precision đo cho phương pháp mà có Mức recall tương ứng vượt r 𝑝 ộ (𝑟) = max p ( r ) r:r  r Như với lớp cần phân loại tốn ta có giá trị AP Cịn mAP (Mean Average Precision) trung bình cộng giá trị AP lớp khác 4.4.2 So sánh phương pháp đề xuất với phương pháp khác Để đánh giá hiệu mơ hình, học viên tiến hành so sánh kết với phương pháp sử dụng liệu UCF101-24 Kết thực nghiệm mơ hình liệu UCF101-24 mô tả Bảng 4.1 Bộ liệu đánh giá theo khung ảnh (sử dụng độ đo mAP 35 ký hiệu Frame-mAP) theo video (sử dụng độ đo mAP ký hiệu Video-mAP) Đối với đánh giá khung ảnh, mô hình đề xuất cho kết tốt so sánh với phương pháp khác Tuy nhiên, so sánh độ đo video mơ hình chưa thật tốt Bảng 4.1 Kết so sánh liệu UCF101-24 Phương pháp Frame-mAP Video-mAP AVA [25] 76.3 59.9 STEP [27] 75.0 - HIT [28] 84.8 74.3 Mơ hình đề xuất 87.2 48.8 Tiếp theo, học viên tiến hành so sánh liệu AVA Do hầu hết phương pháp đánh giá liệu AVA, độ đo sử dụng mAP đánh giá khung ảnh Vì thế, học viên tiến hành so sánh thang đo mAP theo khung ảnh Tuy phương pháp đề xuất không cho kết tốt cải thiện 4.6 điểm so với phương pháp gốc liệu AVA [25] Bên cạnh đó, phương pháp Slowfast cho kết cao 8.8 điểm mơ hình 2-stage, sử dụng hai giai đoạn slow fast mô hình đề xuất mơ hình single-stage Vì mơ hình đề xuất có điểm mạnh mơ hình thể huấn luyện từ đầu đến cuối Bảng 4.2 Kết so sánh liệu AVA Phương pháp Single-stage Frame-mAP AVA [25] ✗ 15.6 STEP [27] ✗ 18.6 Slowfast [29][28] ✗ 29.0 Mơ hình đề xuất ✔ 20.2 36 4.5 Áp dụng vào giám sát trạm viễn thông VNPT 4.5.1 Sơ đồ hệ thống thực nghiệm giám sát trạm viễn thơng Camera Internet Máy tính Loa Hình 4.6 Sơ đồ hệ thống thực nghiệm 4.5.2 Một số hình ảnh thực tế trạm viễn thơng Hình 4.7 Hệ thống cửa nhà trạm 37 Hình 4.8 Hệ thống bình tích điện dự phịng Hình 4.9 Máy lạnh, camera giám sát 4.5.3 Kết thực nghiệm Học viên tiến hành áp dụng mơ hình vào camera giám sát Kết thu được thể bên Khung xanh đối tượng phát được; 38 chữ đen xanh phân loại hành động đối tượng có dạng [độ tin cậy] tên hành động Hình 4.11 cho thấy, đối tượng đụng chạm cầm vào vật mơ hình nhận dạng mơ tả hành động đối tượng (Một đối tượng thực nhiều hành động) Hình 4.10 Nhận dạng hành động người 39 Hình 4.11 Hành động đụng chạm vào máy mơ hình ghi lại Hình 4.12 cho thấy rõ mơ hình nhận dạng hành động cầm vào vật nhà trạm Hành động cảnh báo gửi cho quản lý Hình 4.12 Hành động cầm đồ vật mơ hình ghi lại Tuy nhiên, mơ hình cịn nhận dạng hành động số khung ảnh chưa thật tốt 40 Hình 4.13 Một số khung ảnh chưa nhận dạng xác Hình 4.14 Nhận dạng hành động khung cảnh nghiêng Học viên tiến hành thử nghiệm video góc nhìn nghiêng Đối với góc nhìn này, việc nhận dạng đối tượng hành động khó khăn Hình 4.14 cho thấy mơ hình nhận dạng số khung ảnh Bên cạnh đó, cịn nhiều khung ảnh bị nhận dạng sai hành động 41 (Hình 4.15) Tuy nhiên nhìn chung hộp giới hạn nhận dạng người tốt, góc nhìn nghiêng Hình 4.15 Một số nhận dạng bị nhầm lẫn hành động 42 Chương Kết Luận Trong trình tìm hiểu nghiên cứu đề tài "Giải pháp nhận diện người xâm nhập nhà trạm viễn thơng", thấy sử dụng giải pháp công nghệ để giám sát theo dõi nhà trạm viễn thông cần thiết Điều giúp tăng hiệu việc quản lý, giám sát tránh mát tài sản Ngoài ra, nâng cao khả trì hoạt động ổn định nhà trạm viễn thơng Trong nghiên cứu này, học viên đề xuất mơ hình gồm hai thành phần: Trình rút trích đặc trưng 2D trình rút trích đặc trưng 3D Để xây dựng mơ hình này, học viên tìm hiểu, phân tích chọn lọc cơng trình nghiên cứu liên quan đến toán nhận dạng hành động video, sau so sánh cải tiến để tạo mơ hình tốt Sau xây dựng mơ hình, học viên tiến hành đánh giá liệu chuẩn Kết thực nghiệm cho thấy mơ hình đề xuất tốt so với phương pháp liên quan đánh giá hai liệu chuẩn UCF101 AVA Ngồi ra, mơ hình cịn sử dụng vào thực tế để theo dõi, phát nhận dạng hành động để giám sát đối tượng xâm nhập nhà trạm viễn thông VNPT Đồng Nai Bên cạnh thuận lợi, luận văn gặp hạn chế mặt thời gian kiến thức Cụ thể, việc xây dựng liệu hạn chế Vì sử dụng liệu chuẩn, chuyển sang liệu camera nhà trạm viễn thông, kết hạn chế Cuối cùng, hành động nghiên cứu luận văn phụ thuộc vào liệu chuẩn Trong tương lai, luận văn tiếp tục cải thiện hạn chế đề cập Cụ thể, luận văn tạo liệu chuyên biệt hành động liên quan đến việc cảnh báo xâm nhập Thứ hai, nghiên cứu nâng cao độ xác tốc độ hai trình rút trích đặc trưng cách sử dụng mơ hình khác TÀI LIỆU THAM KHẢO [1] Zou, Zhengxia, et al "Object detection in 20 years: A survey." arXiv preprint arXiv:1905.05055 (2019) [2] Ren, Shaoqing, et al "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems 28 (2015) [3] Liu, Wei, et al "Ssd: Single shot multibox detector." European conference on computer vision Springer, Cham, 2016 [4] Redmon, Joseph, and Ali Farhadi "YOLO9000: better, faster, stronger." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 [5] Köpüklü, Okan, Xiangyu Wei, and Gerhard Rigoll "You only watch once: A unified cnn architecture for real-time spatiotemporal action localization." arXiv preprint arXiv:1911.06644 (2019) [6] Ji, Shuiwang, et al "3D convolutional neural networks for human action recognition." IEEE transactions on pattern analysis and machine intelligence 35.1 (2012): 221-231 [7] Sun, Zehua, et al "Human action recognition from various data modalities: A review." IEEE transactions on pattern analysis and machine intelligence (2022) [8] Simonyan, Karen, and Andrew Zisserman "Two-stream convolutional networks for action recognition in videos." Advances in neural information processing systems 27 (2014) [9] Karpathy, Andrej, et al "Large-scale video classification with convolutional neural networks." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition 2014 [10] Donahue, Jeffrey, et al "Long-term recurrent convolutional networks for visual recognition and description." Proceedings of the IEEE conference on computer vision and pattern recognition 2015 [11] Perrett, Toby, and Dima Damen "DDLSTM: dual-domain LSTM for crossdataset action recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2019 [12] Zhao, Han, and Xinyu Jin "Human action recognition based on improved fusion attention cnn and rnn." 2020 5th International Conference on Computational Intelligence and Applications (ICCIA) IEEE, 2020 [13] Vaswani, Ashish, et al "Attention is all you need." Advances in neural information processing systems 30 (2017) [14] Sharma, Shikhar, Ryan Kiros, and Ruslan Salakhutdinov "Action recognition using visual attention." arXiv preprint arXiv:1511.04119 (2015) [15] Tran, Du, et al "Learning spatiotemporal features with 3d convolutional networks." Proceedings of the IEEE international conference on computer vision 2015 [16] Zhang, Hongguang, et al "Few-shot action recognition with permutationinvariant attention." European Conference on Computer Vision Springer, Cham, 2020 [17] Diba, Ali, et al "Temporal 3d convnets: New architecture and transfer learning for video classification." arXiv preprint arXiv:1711.08200 (2017) [18] Huang, Gao, et al "Densely connected convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 [19] Xie, Saining, et al "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 [20] Carreira, Joao, and Andrew Zisserman "Quo vadis, action recognition? a new model and the kinetics dataset." proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2017 [21] Hara, Kensho, Hirokatsu Kataoka, and Yutaka Satoh "Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet?." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition 2018 [22] Soomro, Khurram, Amir Roshan Zamir, and Mubarak Shah "UCF101: A dataset of 101 human actions classes from videos in the wild." arXiv preprint arXiv:1212.0402 (2012) [23] Gatys, Leon A., Alexander S Ecker, and Matthias Bethge "A neural algorithm of artistic style." arXiv preprint arXiv:1508.06576 (2015) [24] Lin, Tsung-Yi, et al "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision 2017 [25] Gu, Chunhui, et al "Ava: A video dataset of spatio-temporally localized atomic visual actions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2018 [26] Everingham, Mark, et al "The pascal visual object classes (voc) challenge." International journal of computer vision 88.2 (2010): 303-338 [27] Yang, Xitong, et al "Step: Spatio-temporal progressive learning for video action detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2019 [28] Faure, Gueter Josmy, Min-Hung Chen, and Shang-Hong Lai "Holistic Interaction Transformer Network for Action Detection." Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision 2022 [29] Feichtenhofer, Christoph, et al "Slowfast networks for video recognition." Proceedings of the IEEE/CVF international conference on computer vision 2019

Định dạng
Số trang	58
Dung lượng	5,96 MB