(Luận văn thạc sĩ) nghiên cứu nhận dạng hành vi bị phân tâm của tài xế sử dụng mạng học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THỊ TƯỜNG VY NGHIÊN CỨU NHẬN DẠNG HÀNH VI BỊ PHÂN TÂM CỦA TÀI XẾ SỬ DỤNG MẠNG HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ - 8520203 SKC008019 Tp Hồ Chí Minh, tháng 3/2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN THỊ TƯỜNG VY NGHIÊN CỨU NHẬN DẠNG HÀNH VI BỊ PHÂN TÂM CỦA TÀI XẾ SỬ DỤNG MẠNG HỌC SÂU NGÀNH: KỸ THUẬT ĐIỆN TỬ - 2080716 Hướng dẫn khoa học: TS NGUYỄN VĂN THÁI Tp Hồ Chí Minh, tháng 03/2023 Trang i Trang ii Trang iii Trang iv Trang v Trang vi Trang vii Trang viii Luận văn thạc sĩ GVHD: TS Nguyễn Văn Thái Chương KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU PHÁT TRIỂN 5.1 Kết luận Trong đề tài này, mơ hình học sâu ứng dụng để nhận dạng hành vi làm phân tâm hành động lái xe người tài xế Mơ hình SimSiam sử dụng ứng dụng kỹ thuật huấn luyện dạng tự huấn luyện Qua đó, q trình huấn luyện giảm thời gian đánh nhãn liệu Mơ hình SimSiam sử dụng cách trích xuất véc tơ đặc trưng hành vi dựa kỹ thuật tăng cường liệu Phương pháp giúp tăng độ xác mơ hình so với việc huấn luyện tinh chỉnh thơng thường (đạt 98.09%) Ngồi ra, để nâng cao khả ứng dụng vào thực tế, đề tài lựa chọn sử dụng mơ hình học sâu MobileNet-V2 phương pháp để làm giảm trọng số mơ hình Từ ứng dụng mơ hình vào thiết bị nhúng, đề tài NVidia Jetson Nano sử dụng Qua mơ hình có khả thực nhận dạng với điều kiện thời gian thực với thời gian trung bình 23.72ms máy tính, 42.5ms NVidia Jetson Nano Với kết hiển thị, với việc hoạt động bo mạch nhúng, ứng dụng kết hợp với thiết bị camera loa để lắp đặt sử dụng xe tải, xe công cộng, xe cá nhân Camera sử dụng để ghi nhận hình ảnh người lái xe Mơ hình học sâu bo mạch nhúng thực nhận dạng hành vi người lái xe Từ tín hiệu cảnh báo phát loa để cảnh báo người lái xe có hành vi gây phân tâm người lái xe 5.2 Hạn chế hướng nghiên cứu phát triển đề tài Tuy nhiên, thời gian thực đề tài có giới hạn, tảng kiến thức mơ hình học sâu bắt đầu nên đề tài tồn nhiều hạn chế Đầu tiên, số lượng hành vi nhận dạng có giới hạn 10 hành vi, có HVTH: Nguyễn Thị Tường Vy Trang 54 Luận văn thạc sĩ GVHD: TS Nguyễn Văn Thái hành vi khác cần ý để cảnh báo người lái xe như: nghe nhạc với tai phone lúc lái xe, người lái xe ăn thức ăn trình lái, người lái xe ngủ gục trình lái xe Để tăng hiệu ứng dụng hướng phát triển mơ hình, hành vi kể cần ý đưa vào mơ hình nhận dạng Điều thứ 2, liệu thực tế dùng để huấn luyện cho mô hình cịn hạn chế Các ảnh dùng để huấn luyện thu thập môi trường ban ngày đủ ánh sáng Với môi trường ban đêm, ảnh tối bị giới hạn đề tài Ngoài ra, thời gian xử lý mơ hình bo mạch nhúng ý cải thiện hướng phát triển HVTH: Nguyễn Thị Tường Vy Trang 55 Luận văn thạc sĩ GVHD: TS Nguyễn Văn Thái TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nghiên cứu tình trạng buồn ngủ người lái xe dựa nhận dạng cử khn mặt, LV ThS, Thái Thị Hịa Vân, ĐH Đà Nẵng, 2017 [2] Nghiên cứu xây dựng hệ thống nhúng phát cảnh báo lái xe ngủ gật dựa kỹ thuật xử lý ảnh, NCKH Cục Thông tin Khoa học Công nghệ Quốc gia Việt Nam, TS Nguyễn Minh Sơn, 2018 Tiếng Anh: [3] C Craye and F Karray, "Driver distraction detection and recognition using RGB-D sensor," arXiv preprint arXiv:.00250, 2015 [4] P Watta, S Lakshmanan, and Y Hou, "Nonparametric approaches for estimating driver pose," IEEE Transactions on Vehicular Technology, vol 56, no 4, pp 2028-2041, 2007 [5] A Doshi and M M Trivedi, "On the roles of eye gaze and head dynamics in predicting driver's intent to change lanes," IEEE Transactions on Intelligent Transportation Systems, vol 10, no 3, pp 453-462, 2009 [6] L M Bergasa, J Nuevo, M A Sotelo, R Barea, and M E Lopez, "Real-time system for monitoring driver vigilance," IEEE Transactions on Intelligent Transportation Systems, vol 7, no 1, pp 63-77, 2006 [7] S Y Cheng, S Park, and M M Trivedi, "Multi-spectral and multi-perspective video arrays for driver body tracking and activity analysis," Computer Vision Image Understanding, vol 106, no 2-3, pp 245-257, 2007 [8] X Chen and K He, "Exploring simple siamese representation learning," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp 15750-15758 HVTH: Nguyễn Thị Tường Vy Trang 56 Luận văn thạc sĩ [9] GVHD: TS Nguyễn Văn Thái B Baheti, S Gajre, and S Talbar, "Detection of distracted driver using convolutional neural network," in IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018, pp 1032-1038 [10] C Yan, F Coenen, and B Zhang, "Driving posture recognition by convolutional neural networks," IET Computer Vision, vol 10, no 2, pp 103114, 2016 [11] Y Abouelnaga, H M Eraqi, and M N Moustafa, "Real-time distracted driver posture classification," arXiv preprint arXiv:.09498, 2017 [12] A Krizhevsky, I Sutskever, and G E Hinton, "Imagenet classification with deep convolutional neural networks," Journal of Communications of the ACM, vol 60, no 6, pp 84-90, 2017 [13] C Szegedy, V Vanhoucke, S Ioffe, J Shlens, and Z Wojna, "Rethinking the inception architecture for computer vision," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp 2818-2826 [14] S Masood, A Rai, A Aggarwal, M N Doja, and M Ahmad, "Detecting distraction of drivers using convolutional neural network," Pattern Recognition Letters, vol 139, pp 79-85, 2020 [15] J Deng, W Dong, R Socher, L J Li, K Li, and F F Li, "Imagenet: A largescale hierarchical image database," in Proc Conf Comput Vis Pattern Recognit., 2009, pp 248-255: Ieee [16] K Simonyan and A Zisserman, "Very deep convolutional networks for largescale image recognition," arXiv preprint arXiv:, 2014 [17] D Tran, H Manh Do, W Sheng, H Bai, and G Chowdhary, "Real‐time detection of distracted driving based on deep learning," IET Intelligent Transport Systems, vol 12, no 10, pp 1210-1219, 2018 [18] B Qin, J Qian, Y Xin, B Liu, and Y Dong, "Distracted driver detection based on a CNN with decreasing filter size," IEEE Transactions on Intelligent Transportation Systems, 2021 HVTH: Nguyễn Thị Tường Vy Trang 57 Luận văn thạc sĩ GVHD: TS Nguyễn Văn Thái [19] J Wang, Z Wu, F Li, and J Zhang, "A data augmentation approach to distracted driving detection," Future internet, vol 13, no 1, p 1, 2020 [20] S Ren, K He, R Girshick, and J Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," Advances in neural information processing systems, vol 28, pp 91-99, 2015 [21] J Redmon and A Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv:.02767, 2018 [22] W Liu et al., "Ssd: Single shot multibox detector," in European conference on computer vision, 2016, pp 21-37: Springer [23] M Alotaibi and B Alotaibi, "Distracted driver classification using deep learning," Signal, Image Video Processing, vol 14, no 3, pp 617-624, 2020 [24] K He, X Zhang, S Ren, and J Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp 770-778 [25] F Sajid, A R Javed, A Basharat, N Kryvinska, A Afzal, and M Rizwan, "An efficient deep learning framework for distracted driver detection," IEEE Access, vol 9, pp 169270-169280, 2021 [26] M Tan and Q Le, "Efficientnet: Rethinking model scaling for convolutional neural networks," in International Conference on Machine Learning, 2019, pp 6105-6114: PMLR [27] K R Dhakate and R Dash, "Distracted driver detection using stacking ensemble," in 2020 IEEE International Students' Conference on Electrical, Electronics and Computer Science (SCEECS), 2020, pp 1-5: IEEE [28] A Fernández, R Usamentiaga, J L Carús, and R Casado, "Driver distraction using visual-based sensors and algorithms," Sensors, vol 16, no 11, p 1805, 2016 [29] E Murphy-Chutorian and M M Trivedi, "Head pose estimation and augmented reality tracking: An integrated system and evaluation for monitoring driver HVTH: Nguyễn Thị Tường Vy Trang 58 Luận văn thạc sĩ GVHD: TS Nguyễn Văn Thái awareness," IEEE Transactions on intelligent transportation systems, vol 11, no 2, pp 300-311, 2010 [30] Y Freund and R E Schapire, "Experiments with a new boosting algorithm," in International Conference on Machine Learning, 1996, vol 96, pp 148-156: Citeseer [31] M Lin, Q Chen, and S Yan, "Network in network," arXiv preprint arXiv:.00250, 2013 [32] N Ma, X Zhang, H.-T Zheng, and J Sun, "Shufflenet v2: Practical guidelines for efficient cnn architecture design," in Proceedings of the European conference on computer vision (ECCV), 2018, pp 116-131 [33] F N Iandola, S Han, M W Moskewicz, K Ashraf, W J Dally, and K Keutzer, "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size," arXiv preprint arXiv:.07360, 2016 [34] D H Anna Montoya, SF_data_science, Taylor Smith, Wendy Kan (2016) State Farm Distracted Driver Detection Available: https://kaggle.com/competitions/state-farm-distracted-driver-detection HVTH: Nguyễn Thị Tường Vy Trang 59 NGHIÊN CỨU NHẬN DẠNG HÀNH VI BỊ PHÂN TÂM CỦA TÀI XẾ SỬ DỤNG MẠNG HỌC SÂU DISTRACTED DRIVER CLASSIFICATION USING DEEP LEARNING MODEL Nguyen T Tuong Vy1, Nguyen Van Thai1 Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Các mơ hình học sâu thường phải tn theo quy trình đánh nhãn tốn Trong luận văn này, sử dụng cách trích xuất véc tơ đặc trưng hành vi bị phân tâm người tài xế trích xuất cách hiệu cách sử dụng mơ hình học tập tự giám sát, cụ thể mơ hình SimSiam Là phần trình huấn luyện, kỹ thuật tăng cường liệu ngẫu nhiên áp dụng để nâng cao hiệu học tập mơ hình Ưu điểm mơ hình học sâu dạng tự huấn luyện giảm thời gian đánh nhãn Hơn nữa, để mơ hình đề xuất trở nên thiết thực cho ứng dụng thực tế, phương pháp tích chập chiều sâu sử dụng để làm giảm số lượng tính tốn phép tính tích chập, đồng thời giảm số lượng thông số mơ hình Kết thí nghiệm cho thấy mơ hình đề xuất thực nhận dạng có độ xác cao liệu State Farm với độ xác 98.09% Hiệu suất vượt trội so với mơ hình MobileNet-V2, huấn luyện ban đầu tập liệu ImageNet, sau tinh chỉnh tập liệu State Farm Ngồi ra, mơ hình đề xuất hoạt động thiết bị nhúng, đề tài sử dụng bo mạch Nvidia Jetson Nano, với thời gian xử lý 42,5ms Với mục đích đánh giá thêm hiệu suất mơ hình đề xuất, liệu tự thu thập sử dụng Kết thí nghiệm mơ hình đề xuất tập liệu có độ xác cao với 99,57% Từ khóa: mơ hình học sâu; hành vi lái xe bị phân tâm; mơ hình học sâu tự học; hệ thống nhúng ABSTRACT Deep learning models have been widely used to improve the accuracy the distracted driver posture recognition Deep learning models, however, are frequently subject to expensive human annotation processes In this thesis, feature vectors of distracted driver postures were effectively extracted by using a self-supervised learning model, namely SimSiam As part of the training process, random data augmentation techniques were applied to enhance the learning efficiency of the model These feature vectors were then used to classify postures The advantage of self-supervised learning models is that they reduce the time required for human annotation Furthermore, in order to make the proposed model practical for practical applications, such as vehicles, a depthwise separate convolutional technique was utilized in order to significantly reduce the computational cost and parameters As a result, the proposal model performed a high accuracy recognition on State Farm dataset with an accuracy of 98.09% This performance is superior to that of MobileNet-V2, which was retrained using ImageNet Furthermore, the proposed model is capable of running in realtime on an embedded system, Nvidia Jetson Nano, with a processing time of 42.5 milliseconds For the purpose of further evaluating the performance of the proposed model, an owned dataset is utilized As a result of the proposed model, a high level of accuracy was achieved at 99.57 percent Keywords: deep learning; distracted driver posture; self-supervised learning; embedded systems GIỚI THIỆU Tại Việt Nam, năm 2021, theo báo cáo từ cục Thống kê, số lượng tai nạn giao thông nước xảy 11.454 vụ Những vụ tai nạn giao thơng làm 5.739 người chết, số người bị thương nặng nhẹ 3.889 người 4.109 Một nguyên nhân phổ biến dẫn đến tai nạn giao thông tình trạng người tài xế bị phân tâm hành vi khác lưu thông đường Có nhiều nghiên cứu ứng dụng sử dụng cảm biến để đo lường, ghi nhận, phân tích tâm lý tín hiệu sinh học người tài xế để nhận biết thời điểm bị phân tâm người tài xế [1] Sử dụng thiết bị công nghệ để hỗ trợ người tài xế tránh hành vi tập trung đề xuất Việc sử dụng camera để hỗ trợ giám sát hành vi gây phân tâm người tài xế thường dựa vào việc phân tích vị trí đầu [2], dị tìm phân tích ánh mắt nhìn người tài xế [3], trích xuất tín hiệu mệt mỏi từ khn mặt người tài xế [4], dựa vào đặc điểm tư người tài xế [5] (cánh tay, chân, vị trí bàn tay) Trong ứng dụng đó, ứng dụng máy học, đặc biệt mơ hình học sâu dần có nhiều trọng nghiên cứu dần đưa vào đời sống thực tiễn Các mơ hình học sâu VGG, Resnet sử dụng để huấn luyện nhận dạng hành vi gây tập trung nguy hiểm cho trình lái xe như: ngủ gật, nghe điện thoại, ăn uống trò chuyện Tuy nhiên, ứng dụng cịn tồn vấn đề ứng dụng vào trình thực tế: - Địi hỏi q trình tốn cho việc thu thập đánh nhãn số lượng lớn mẫu dùng cho việc huấn luyện mơ hình - Các mơ hình học sâu sau huấn luyện có khả hoạt động tốt với tập mẫu huấn luyện Nhưng ứng dụng với mẫu không nằm tập huấn luyện, có thay đổi phơng nền, ánh sáng, góc quan sát camera ảnh hưởng đến chất lượng nhận dạng - Ngoài ra, mơ hình học sâu thường địi hỏi phần cứng có cấu hình mạnh, có khả tính tốn với số lượng lớn Nhưng phần cứng có giá thành cao, hình dạng to lớn, khó áp dụng ứng dụng địi hỏi tính di động cao Để giải vấn đề đề cập trên, đề tài đề xuất sử dụng thuật tốn huấn luyện mơ hình học sâu tự học SIMSIAM [6] (Simple Siamese) cho trình huấn luyện mơ hình Trong q trình huấn luyện SIMSIAM, phần lớn mẫu khơng cần thực q trình đánh nhãn Qua tiết kiệm thời gian trình xử lý mẫu cho việc huấn luyện Các trình tăng cường liệu sử dụng để tăng độ hiệu q trình huấn luyện Ngồi ra, kỹ thuật dùng để xây dựng mơ hình học sâu với số lượng trọng số nhỏ gọn sử dụng để tăng tính linh hoạt hoạt động thiết bị di động sử dụng Đóng góp đề tài gồm phần sau đây: 1) Sử dụng mơ hình học sâu có khả tự học để huấn luyện trích xuất vector đặc trưng cho việc nhận dạng hành vi phân tâm người tài xế  Mơ hình có khả tự học, đáp ứng hiệu trước mẫu nhận dạng  Mơ hình có khả hoạt động môi trường thực tế 2) Nghiên cứu, ứng dụng phương pháp tích chập tách biệt chiều sâu (Depthwise Separate Convolution) để giảm tính tốn mơ hình  Từ áp dụng mơ hình nhận dạng bo mạch nhúng, Nvidia Jetson Nano, để có khả tích hoạt thiết bị di động CÁC NGHIÊN CỨU LIÊN QUAN Dựa thuật tốn Haar Cascade tác giả Thái Thị Hịa Vân [7] thực nhận dạng khuôn mặt phần mắt Dựa nhận dạng đó, tình trạng buồn ngủ người tài xế phân tích phát để đưa cảnh báo cho người tài xế Tác giả Nguyễn Minh Sơn [8] thiết kế hệ thống nhúng có khả thực phát phát cảnh báo hành vi vừa lái xe vừa ngủ gật kỹ thuật xử lý ảnh Baheti đồng tác giả [9] sử dụng mơ hình VGG cải tiến để nhận dạng 10 hành vi người tài xế Yan đồng tác giả [10] sử dụng mô hình học sâu tự thiết kế dùng kỹ thuật tích chập thông thường để nhận dạng mười hành vi người tài xế lái xe bình thường, gọi điện thoại, ăn uống, hút thuốc Abouelnaga đồng tác giả [11] sử dụng năm mạng AlexNet [12] năm mạng InceptionV3 [13] sử dụng để huấn luyện thông tin khác ảnh: huấn luyện tồn thơng tin ảnh, huấn luyện phần mặt người, huấn luyện phần tay, huấn luyện thông tin kết hợp mặt tay Các trọng số 10 mạng kết hợp lại đưa qua phân loại để nhận dạng hành vi lái xe Mơ hình đạt độ xác 95.98% Nhược điểm, sử dụng mơ hình để nhận dạng, nên thơng số mơ hình lớn, khó áp dụng vào hệ thống nhúng để ứng dụng thực tế Masood đồng tác giả [14] sử dụng mơ hình máy học huấn luyện với ImageNet [15] dataset Kỹ thuật tăng cường liệu (data augmentation) sử dụng để nâng cao độ xác giảm thời gian huấn luyện Trong nghiên cứu [16] tác giả huấn luyện mơ hình VGG-16, VGG-19, InceptionV3, mơ hình CNN tự thiết kế để nhận dạng hành vi người tài xế Tran [17] đồng tác giả xây dựng mơ hình mơ khơng gian lái xe với mơ hình học sâu nhận dạng hoạt động board mạch hệ thống nhúng Qin [18] đề xuất việc chuyển đổi ảnh RGB ngõ vào thành đặc trưng HOG (Histogram of Oriented Gradients) trước cấp vào mạng học sâu để nhận dạng để loại bỏ thông tin không hữu dụng nhận dạng Wang [19] đề xuất phương pháp tăng cường liệu hiệu cho liệu đầu vào trước đưa vào huấn luyện Để tăng cường liệu huấn luyện, mơ hình học sâu Faster CNN [20], Yolov3 [21], SSD [22] sử dụng để nhận dạng vùng mang nhiều thông tin ảnh đầu vào Alotaibi [23] tác giả kết hợp ưu điểm mơ hình học sâu ResNet [24], mạng nơ ron hồi qui theo thứ bậc, mạng Inception vào mạng đề xuất Kết nhận dạng cho thấy, mạng đề xuất đạt độ xác cao so với mạng ban đầu Sajid [25] đồng tác giả thực biến đổi mơ hình EfficientNet [26] khác để tìm thơng số mơ hình phù hợp cho việc nhận dạng Dhakate [27] đồng tác giả kết hợp mơ hình học sâu khác để thực trích xuất đặc trưng khác thể hành vi tập trung khác như: tập trung học, tập trung thị giác, thính giác, hay tập trung nhận thức Trong nghiên cứu [28] tác giả sử dụng thuật tốn dị tìm vị trí đầu, dị tìm khn mặt, nhận dạng khn mặt, định vị vị trí đặc điểm khn mặt để từ thực xử lý phân tích để dị biểu phân tâm người tài xế Trong nghiên cứu [29] tác giả dự đốn hành vi gây phân tâm cho người tài xế dựa việc dự đoán hướng xoay vị trí đầu Tác giả dùng thuật tốn Adaboost [30] để nhận dạng đầu người tài xế Sau theo dõi ghi nhận hướng di chuyển đầu Từ tác giả phân tích hành vi người tài xế NHẬN DẠNG HÀNH VI PHÂN TÂM CỦA NGƯỜI TÀI XẾ SỬ DỤNG MƠ HÌNH HỌC SÂU 3.1 Giới thiệu mơ hình học sâu tự học nhận dạng hành vi phân tâm Mơ hình học sâu tự học nhận dạng hành vi phân tâm tài xế có sơ đồ khối hình Mơ hình bao gồm khối chính: mã hóa (encoder), chiếu (projector) dự đoán (predictor) 3.1.1 Bộ mã hóa Bộ mã hóa cấu thành từ mơ hình học sâu dùng mạng nơ ron tích chập (convolutional neural networks, CNN) Bộ mã hóa có chức trích xuất đặc trưng ảnh ngõ vào Trong đề tài này, để mơ hình hoạt động tốt thiết bị di động, cấu trúc mạng nơ ron sử dụng kỹ thuật tách biệt tích chập theo chiều sâu So với phép tính tích chập thơng dụng, phép tích chập phần tách theo độ sâu giúp giảm số lượng phép toán giảm trọng số 3.1.2 Bộ chiếu Bộ chiếu cấu thành từ lớp mạng nơ ron kết nối đầy đủ (fully connected layers) Bộ chiếu có chức mã hóa đặc trưng trích xuất mã hóa thành véc tơ đặc Hình 1: Mơ hình học sâu nhận dạng hành vi phân tâm trưng Cấu trúc chiếu gồm lớp nơ ron kết nối đầy đủ 3.1.3 Bộ dự đoán cập nhật trực tiếp q trình huấn luyện mơ hình SimSiam Trong đó, thông số mạng tạo đối tượng chuẩn đặt tên ξ, Hình 2: Sơ đồ huấn luyện trình tự học Bộ dự đốn sử dụng lớp mạng nơ ron kết nối đầy đủ Khác biệt so với chiếu dự đốn có lớp cuối có số lượng nơ ron số lượng loại đối tượng cần nhận dạng Bộ dự đoán dựa vào véc tơ đặc trưng để nhận dạng đối tượng ảnh ngõ vào Ngõ gồm 10 nơ ron đại diện 10 hành vi 3.2 Huấn luyện mơ hình học sâu tự học nhận dạng hành vi phân tâm Quá trình huấn luyện tiến hành theo bước: huấn luyện mơ hình tạo véc tơ đặc trưng sử dụng mơ hình SimSiam huấn luyện tinh chỉnh nhận dạng hành vi 3.2.1 Huấn luyện mơ hình tạo véc tơ đặc trưng sử dụng mơ hình học sâu tự học SimSiam Trong bước trình huấn luyện, mơ hình huấn luyện SimSiam sử dụng để huấn luyện mã hóa chiếu mơ hình nhận dạng để có khả tạo véc tơ đặc trưng hành vi cần nhận dạng SimSiam mơ hình có nhánh mạng tích chập (xem hình 2) Các nhánh có cấu trúc giống phân biệt sau: mạng học online (the online networks) mạng tạo đối tượng chuẩn (the target networks) Mạng học online đóng vai trị học q trình huấn luyện Trong đó, mạng tạo đối tượng chuẩn cung cấp đối tượng chiếu cho trình huấn luyện mạng học online Mỗi mạng có cấu trúc bao gồm bộ: mã hóa chiếu Thơng số mạng học online đặt tên θ, thông số thông số không cập nhật trình huấn luyện, chia sẻ giá trị với thông số θ Mỗi mạng tạo véc tơ đặc trưng tương ứng với ảnh ngõ vào Ảnh đầu vào không đánh nhãn thực kỹ thuật tăng cường ảnh Từ đó, ảnh tăng cường x1 từ ảnh ngõ vào đưa vào mạng học online mạng tạo đối tượng chuẩn Tại mạng, mã hóa trích xuất đặc điểm ảnh tăng cường f( ) f( ) Sau đó, chiếu mạng chuyển đổi đặc điểm thành véc tơ đặc trưng Hàm cosine sử dụng để đo tương tự véc tơ đặc trưng tạo từ mạng mô hình SimSiam Hàm lỗi trình huấn luyện xác định: ( , ℒ= ( , − − ( )) + (1) ( )) Trong đó, D: hàm cosine xác định sau: ( , − ( )) =− ‖ ‖ (2) ∙ ‖ ‖ Trong đó, véc tơ đặc trưng mạng học online mạng tạo đối tượng chuẩn; ‖ ‖ ‖ ‖ chuẩn hóa L2 3.2.2 Huấn luyện tinh chỉnh nhận dạng hành vi Sau huấn luyện xong SimSiam, mã hóa chiếu với thông số huấn luyện sử dụng để kết nối với dự Bảng 1: So sánh kết nhận dạng mơ hình đề xuất mơ hình MobileNet-v2 Mơ hình Độ xác (%) Thời gian (ms) MobileNet-V2 92.82 23.07 Mơ hình đề xuất hoạt động máy tính 98.09 23.72 Mơ hình đề xuất hoạt động Jetson Nano 98.09 42.5 đoán Ngõ dự đoán 10 hành vi Trong q trình huấn luyện tinh chỉnh, thơng số mã hóa chiếu đóng băng (không cập nhật), huấn luyện thông số dự đoán Tập ảnh ngõ vào trình huấn luyện tinh chỉnh đánh nhãn với 10 hành vi cần nhận dạng Trong trình huấn luyện này, mã hóa chiếu trích xuất véc tơ đặc trưng hành vi, dự đoán dự đoán hành vi ảnh đầu vào Hàm lỗi cross-entropy sử dụng để tính tốn lỗi hành vi đầu vào hành vi dự đoán Sai số ngõ vào ngõ dự đoán sử dụng để cập nhật tối ưu hóa thơng số dự đốn =− ( ) ( ( )) (3) đó, hàm lỗi ( ) xác suất hành vi dự đoán, y(x) nhãn hành vi ngõ vào KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thu thập liệu 1) Tập liệu State Farm Tập liệu sử dụng để huấn luyện cho mô hình đề xuất State Farm dataset [31] Tập liệu chia thành 10 hành vi có khả gây phân tâm người lái xe Các ảnh tập ảnh ảnh màu RGB (red, green, blue) với kích thước 640x480x3 2) Tập liệu tự thu thập Để kiểm tra khả nhận dạng mơ hình điều kiện thực tế, 3000 ảnh tự thu thập dựa 10 hành vi tương tự tập liệu State Farm dataset Trong đó, 2200 ảnh sử dụng cho trình huấn luyện, khoảng 800 ảnh sử dụng cho trình kiểm tra khả nhận dạng mơ hình 4.2 Q trình huấn luyện mạng đề xuất 1) Quá trình huấn luyện mạng SimSiam Các ảnh mô tả 10 hành vi lái xe người tài xế lưu vào chung thư mục Các ảnh không đánh nhãn Tổng số lượng ảnh 50000 ảnh Không phân chia cụ thể số lượng cho hành vi lái xe Khi đưa vào mạng để huấn luyện, ảnh điều chỉnh kích thước 224x224x3 Dữ liệu huấn luyện với 25 epochs với kích thước batch Hệ số học ban đầu 0.001, sau epochs hệ số học giảm 10 lần Thuật tốn Stochastic gradient decent cho q trình tối ưu hóa 2) Quá trình huấn luyện tinh chỉnh Tổng số lượng ảnh dành cho huấn luyện 16000 ảnh Tổng số lượng ảnh dành cho đánh giá trình huấn luyện 5600 ảnh Dữ liệu huấn luyện với 50 epochs với thơng số tương tự q trình huấn luyện SimSiam 4.3 Kết thí nghiệm tập liệu State Farm Mơ hình sau huấn luyện tinh chỉnh kiểm tra 2680 ảnh Như kết thể bảng 1, mơ hình đạt hiệu cao với hành vi dễ nhận dạng có khác biệt lớn với hành vi khác Cụ thể thể hình 3: hành vi nói chuyện điện thoại (97%-98%), uống nước (97.4%), an toàn (98.4%), quay sau (97%) Các hành vi có tư tương đối giống có tỉ lệ nhận dạng thành cơng thấp như: make up (96.9%) nói chuyện với hành khách (95.3%) Kết thí nghiệm ban đầu cho thấy, mơ hình đề xuất đạt độ xác 98.09% thời gian thực 23.07ms Độ xác mơ hình tương đối chấp nhận cho việc ứng dụng thực tế Trong thời gian xử lý để nhận dạng thấp, mơ hình nhận dạng với thời gian thực Điều giúp cho mơ hình đưa vào ứng dụng thực tế Hình 3: Ma trận nhận dạng nhầm lẫn mơ hình học sâu đề xuất Mơ hình MobileNet-v2 sử dụng để so sánh với mơ hình đề xuất Để so sánh dạng tinh chỉnh hai mơ hình so sánh, mơ hình MobileNet-v2 tiền huấn luyện với tập liệu ImageNet Sau mơ hình MobileNet-v2 tinh chỉnh với liệu hành vi Việc tinh chỉnh huấn luyện thực cách đóng băng lớp đầu mơ hình MobileNet-v2, tức giữ lại thông số lớp đầu huấn luyện tập ảnh ImageNet Trong đó, lớp cuối mơ hình MobileNet-v2 huấn luyện lại tập ảnh hành vi Bảng dùng để so sánh mơ hình Mobilenet-v2 mơ hình đề xuất hoạt động máy tính bo mạch nhúng So sánh cho thấy mơ hình MobileNet-v2 huấn luyện tinh chỉnh có độ xác nhận dạng thấp so với tinh chỉnh tảng thông số huấn luyện tự học Điều cho thấy hiệu việc huấn luyện trích xuất đặc trưng cho hành vi dựa việc học ảnh tăng cường hành vi Trong đó, thời gian nhận dạng mơ hình MobileNet-v2 nhanh so với mơ hình đề xuất Lý so với mơ hình Mobilenet-v2, mơ hình đề xuất có thêm lớp cuối FC4 FC5 Khi số lượng thơng số tăng lên thời gian xử lý tăng lên Tuy nhiên thời gian xử lý mô hình đề xuất khơng q xa so với thời gian xử lý mơ hình MobileNet-v2, độ xác đạt cao Điều cho thấy rằng, mơ hình đề xuất cân độ xác thời gian xử lý Do có nhiều ưu điểm đưa mơ hình đề xuất vào bo mạch nhúng 4.4 Kết thí nghiệm tập liệu tự Hình 4: Ma trận nhận dạng nhầm lẫn mơ hình học sâu đề xuất tập liệu tự thu thập thu thập Để kiểm tra độ xác mơ hình đề xuất điều kiện thực tế, khoảng 3000 ảnh tự thu thập với 10 hành vi khác (được đề cập trên) Số lượng người thực dành cho thu thập người khác với nam lẫn nữ Do đảm bảo độ an toàn người tham gia thu thập ảnh, ảnh thu thập trạng thái xe đứng yên Kết chi tiết trình nhận dạng hiển thị hình Từ hình cho thấy rằng, kết đạt nhận dạng với độ xác cao với hầu hết hành vi, ngoại trừ hai hành vi quay sau nói chuyện với hành khách Kết phản ánh tương tự kết nhận dạng mơ hình tập liệu State Farm KẾT LUẬN Trong đề tài này, mơ hình học sâu ứng dụng để nhận dạng hành vi làm phân tâm hành động lái xe người tài xế Mơ hình SimSiam sử dụng ứng dụng kỹ thuật huấn luyện dạng tự huấn luyện Qua đó, q trình huấn luyện giảm thời gian đánh nhãn liệu Mơ hình SimSiam sử dụng cách trích xuất véc tơ đặc trưng hành vi dựa kỹ thuật tăng cường liệu Phương pháp giúp tăng độ xác mơ hình so với việc huấn luyện tinh chỉnh thơng thường (đạt 98.09%) Ngồi ra, để nâng cao khả ứng dụng vào thực tế, đề tài lựa chọn sử dụng kỹ thuật tích chập tách biệt theo chiều sâu mơ hình học sâu MobileNet-V2 phương pháp để làm giảm trọng số mơ hình Từ ứng dụng mơ hình vào thiết bị nhúng, đề tài NVidia Jetson Nano sử dụng Qua mơ hình có khả thực nhận dạng với điều kiện thời gian thực với thời gian trung bình 23.72ms máy tính, 42.5ms NVidia Jetson Nano LỜI CẢM ƠN Điện – Điện tử, phòng Đào tạo Sau Đại học trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh tạo điều kiện, giúp đỡ cho nhóm tác giả suốt q trình thực luận văn Nhóm tác giả trân trọng cảm ơn khoa TÀI LIỆU THAM KHẢO [1] C Craye and F Karray, "Driver distraction detection and recognition using RGB-D sensor," arXiv preprint arXiv:.00250, 2015 [2] P Watta, S Lakshmanan, and Y Hou, "Nonparametric approaches for estimating driver pose," IEEE Transactions on Vehicular Technology, vol 56, no 4, pp 2028-2041, 2007 [3] A Doshi and M M Trivedi, "On the roles of eye gaze and head dynamics in predicting driver's intent to change lanes," IEEE Transactions on Intelligent Transportation Systems, vol 10, no 3, pp 453-462, 2009 [4] L M Bergasa, J Nuevo, M A Sotelo, R Barea, and M E Lopez, "Real-time system for monitoring driver vigilance," IEEE Transactions on Intelligent Transportation Systems, vol 7, no 1, pp 63-77, 2006 [5] S Y Cheng, S Park, and M M Trivedi, "Multi-spectral and multi-perspective video arrays for driver body tracking and activity analysis," Computer Vision Image Understanding, vol 106, no 2-3, pp 245-257, 2007 [6] X Chen and K He, "Exploring simple siamese representation learning," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp 15750-15758 [7] Nghiên cứu tình trạng buồn ngủ người lái xe dựa nhận dạng cử khuôn mặt, LV ThS, Thái Thị Hòa Vân, ĐH Đà Nẵng, 2017 [8] Nghiên cứu xây dựng hệ thống nhúng phát cảnh báo lái xe ngủ gật dựa kỹ thuật xử lý ảnh, NCKH Cục Thông tin Khoa học Công nghệ Quốc gia Việt Nam, TS Nguyễn Minh Sơn, 2018 [9] B Baheti, S Gajre, and S Talbar, "Detection of distracted driver using convolutional neural network," in IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018, pp 1032-1038 [10] C Yan, F Coenen, and B Zhang, "Driving posture recognition by convolutional neural networks," IET Computer Vision, vol 10, no 2, pp 103-114, 2016 [11] Y Abouelnaga, H M Eraqi, and M N Moustafa, "Real-time distracted driver posture classification," arXiv preprint arXiv:.09498, 2017 [12] A Krizhevsky, I Sutskever, and G E Hinton, "Imagenet classification with deep convolutional neural networks," Journal of Communications of the ACM, vol 60, no 6, pp 84-90, 2017 [13] C Szegedy, V Vanhoucke, S Ioffe, J Shlens, and Z Wojna, "Rethinking the inception architecture for computer vision," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 2818-2826, 2016 [14] S Masood, A Rai, A Aggarwal, M N Doja, and M Ahmad, "Detecting distraction of drivers using convolutional neural network," Pattern Recognition Letters, vol 139, pp 79-85, 2020 [15] J Deng et al., "Imagenet: A large-scale hierarchical image database," in Proc Conf Comput Vis Pattern Recognit, pp 248-255., 2009 [16] K Simonyan and A Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:, 2014 [17] D Tran, H Manh Do, W Sheng, H Bai, and G Chowdhary, "Real‐time detection of distracted driving based on deep learning," IET Intelligent Transport Systems, vol 12, no 10, pp 1210-1219, 2018 [18] B Qin, J Qian, Y Xin, B Liu, and Y Dong, "Distracted driver detection based on a CNN with decreasing filter size," IEEE Transactions on Intelligent Transportation Systems, 2021 [19] J Wang, Z Wu, F Li, and J Zhang, "A data augmentation approach to distracted driving detection," Future internet, vol 13, no 1, p 1, 2020 [20] S Ren, K He, R Girshick, and J Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," Advances in neural information processing systems, vol 28, pp 91-99, 2015 [21] J Redmon and A Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv:.02767, 2018 [22] W Liu et al., "Ssd: Single shot multibox detector," in European conference on computer vision, pp 21-37: Springer, 2016 [23] M Alotaibi and B Alotaibi, "Distracted driver classification using deep learning," Signal, Image Video Processing, vol 14, no 3, pp 617-624, 2020 [24] K He, X Zhang, S Ren, and J Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770778, 2016 [25] F Sajid, A R Javed, A Basharat, N Kryvinska, A Afzal, and M Rizwan, "An efficient deep learning framework for distracted driver detection," IEEE Access, vol 9, pp 169270-169280, 2021 [26] M Tan and Q Le, "Efficientnet: Rethinking model scaling for convolutional neural networks," in International Conference on Machine Learning, pp 6105-6114, 2019 [27] K R Dhakate and R Dash, "Distracted driver detection using stacking ensemble," in 2020 IEEE International Students' Conference on Electrical, Electronics and Computer Science (SCEECS), pp 1-5, 2020 [28] A Fernández, R Usamentiaga, J L Carús, and R Casado, "Driver distraction using visualbased sensors and algorithms," Sensors, vol 16, no 11, p 1805, 2016 [29] E Murphy-Chutorian and M M Trivedi, "Head pose estimation and augmented reality tracking: An integrated system and evaluation for monitoring driver awareness," IEEE Transactions on intelligent transportation systems, vol 11, no 2, pp 300-311, 2010 [30] Y Freund and R E Schapire, "Experiments with a new boosting algorithm," in International Conference on Machine Learning, vol 96, pp 148-156: Citeseer, 1996 [31] D H Anna Montoya, SF_data_science, Taylor Smith, Wendy Kan (2016) State Farm Distracted Driver Detection Available: https://kaggle.com/competitions/state-farmdistracted-driver-detection Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Thị Tường Vy Đơn vị: Trường Đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Điện thoại: 0932069175 Email: vy.vsvc@hgmail.com S K L 0

Định dạng
Số trang	87
Dung lượng	9 MB