(Luận án tiến sĩ) nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập hồi chức năng
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 138 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
138
Dung lượng
6,49 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN SINH HUY NGHIÊN CỨU, PHÁT TRIỂN CÁC KỸ THUẬT PHÂN TÍCH HOẠT ĐỘNG CỦA BÀN TAY TỪ CHUỖI HÌNH ẢNH THU THẬP BẰNG CẢM BIẾN ĐEO, ỨNG DỤNG TRONG HỖ TRỢ ĐÁNH GIÁ BÀI TẬP PHỤC HỒI CHỨC NĂNG LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2023 n BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN SINH HUY NGHIÊN CỨU, PHÁT TRIỂN CÁC KỸ THUẬT PHÂN TÍCH HOẠT ĐỘNG CỦA BÀN TAY TỪ CHUỖI HÌNH ẢNH THU THẬP BẰNG CẢM BIẾN ĐEO, ỨNG DỤNG TRONG HỖ TRỢ ĐÁNH GIÁ BÀI TẬP PHỤC HỒI CHỨC NĂNG Ngành: Mã số: Cơ sở toán học cho tin học 9460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Vũ Hải TS Nguyễn Chí Thành Hà Nội – 2023 n i LỜI CAM ĐOAN Tôi xin cam đoan, cơng trình nghiên cứu riêng tơi Những nội dung, số liệu kết trình bày luận án hoàn toàn trung thực chưa cơng bố cơng trình khác Các liệu tham khảo trích dẫn đầy đủ Hà Nội, ngày tháng năm 2023 Tác giả luận án Nguyễn Sinh Huy n ii LỜI CẢM ƠN Luận án thực Viện Khoa học Công nghệ quân sự/Bộ Quốc phòng Đại học Bách khoa Hà Nội Lời đầu tiên, nghiên cứu sinh xin bày tỏ lòng cảm ơn sâu sắc tới PGS TS Vũ Hải TS Nguyễn Chí Thành, thầy tận tình hướng dẫn, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học kiểm tra, đánh giá kết nghiên cứu NCS NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng cán Phòng Đào tạo, Viện Công nghệ thông tin/Viện KH-CN quân tạo điều kiện, hỗ trợ, giúp đỡ NCS trình học tập, nghiên cứu NCS xin bày tỏ lời cảm ơn chân thành tới thầy cô Viện Công nghệ thơng tin, đồng nghiệp phịng Cơng nghệ tri thức thuộc Viện Công nghệ thông tin/Viện KH-CN Quân động viên, chia sẻ, giúp đỡ NCS suốt thời gian qua Bên cạnh đó, NCS xin gửi lời cảm ơn thầy cô, đồng nghiệp bạn sinh viên phịng Thị giác máy tính thuộc Viện nghiên cứu quốc tế thông tin đa phương tiện, truyền thông ứng dụng (Viện MICA)/Đại học Bách khoa Hà Nội nhiệt tình hướng dẫn đóng góp ý kiến q báu q trình học tập, nghiên cứu NCS NCS ghi nhớ công ơn bố mẹ gia đình, người bên cạnh, động viên chỗ dựa mặt giúp NCS vượt qua khó khăn để hoàn thành luận án Tác giả luận án Nguyễn Sinh Huy n iii MỤC LỤC Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VIII DANH MỤC CÁC HÌNH VẼ IX MỞ ĐẦU CHƯƠNG TỔNG QUAN BÀI TOÁN NHẬN BIẾT HOẠT ĐỘNG CỦA TAY TỪ CẢM BIẾN ẢNH ĐEO TRÊN NGƯỜI 1.1 Giới thiệu toán nhận biết hoạt động tay từ cảm biến ảnh đeo 1.1.1 Nhận biết hoạt động tay sử dụng cảm biến ảnh đeo 1.1.2 Vai trị phân tích hình ảnh tay đánh giá trình tập PHCN 11 1.1.3 Nhận xét 13 1.2 Kỹ thuật thị giác máy tính nhận biết hoạt động tay 13 1.2.1 Giới thiệu kỹ thuật thị giác máy tính nhận biết hoạt động tay 13 1.2.2 Ảnh hưởng kỹ thuật tới nhận biết hoạt động tay PHCN 18 1.2.3 Nhận xét 19 1.3 Tình hình nghiên cứu liên quan 19 1.3.1 Tình hình nghiên cứu chung egocentric 19 1.3.2 Các nghiên cứu liên quan đến egocentric PHCN 26 1.3.3 Những vấn đề tồn 28 1.3.4 Những vấn đề luận án tập trung giải 29 1.4 Kết luận Chương 31 CHƯƠNG XÂY DỰNG BỘ DỮ LIỆU BÀI TẬP PHCN VÀ CÁC ĐÁNH GIÁ LIÊN QUAN ĐẾN TAY 32 2.1 Xây dựng liệu RehabHand 32 2.2 Các đánh giá sở liên quan đến tay liệu RehabHand 35 2.2.1 Theo bám tay dựa kết phát 35 n iv 2.2.2 Phân đoạn tay 41 2.3 Kết luận Chương 52 CHƯƠNG ĐỀ XUẤT KỸ THUẬT CẢI TIẾN CHO NHIỆM VỤ XÁC ĐỊNH TAY 53 3.1 Kỹ thuật phân đoạn vùng bàn tay 53 3.1.1 Đặt vấn đề 53 3.1.2 Phương pháp đề xuất sử dụng đặc trưng tự thiết kế 54 3.1.3 Thử nghiệm đánh giá kết 58 3.1.4 Nhận xét 62 3.2 Kỹ thuật xác định theo bám tay 63 3.2.1 Đặt vấn đề 63 3.2.2 Phương pháp đề xuất 63 3.2.3 Thử nghiệm đánh giá kết 69 3.2.4 Nhận xét 74 3.3 Kỹ thuật ước lượng tư tay 74 3.3.1 Đặt vấn đề 74 3.3.2 Phương pháp đề xuất 75 3.3.3 Thử nghiệm đánh giá kết 79 3.3.4 Nhận xét 82 3.4 Kết luận Chương 83 CHƯƠNG ĐỀ XUẤT KỸ THUẬT NHẬN BIẾT HOẠT ĐỘNG TAY TRONG CÁC BÀI TẬP PHCN 84 4.1 Đặt vấn đề 84 4.2 Phương pháp đề xuất 85 4.2.1 Tổng quan phương pháp nhận biết hoạt động với mạng R(2+1)D 85 4.2.2 Mơ hình nhận biết hoạt động tay tương tác đồ vật tập PHCN 89 4.2.3 Xác định loại đối tượng tương tác tập 93 n v 4.2.4 Kết hợp nhận biết hoạt động loại đối tượng tương tác 96 4.3 Thử nghiệm đánh giá kết 97 4.3.1 Bộ liệu thử nghiệm 97 4.3.2 Môi trường cài đặt huấn luyện độ đo đánh giá mơ hình 98 4.3.3 Đánh giá độ xác mạng R(2+1) D 98 4.3.4 Đánh giá phương pháp xác định loại đối tượng tương tác 100 4.3.5 Đánh giá độ xác phương pháp nhận dạng đề xuất 101 4.3.6 Thử nghiệm video tổng hợp gồm nhiều tập 103 4.4 Kết luận Chương 104 KẾT LUẬN 105 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ 107 TÀI LIỆU THAM KHẢO 108 PHỤ LỤC 117 n vi DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT β Siêu tham số xác định tồn cằng tay khung hình α Ngưỡng mở rộng để loại bỏ vòng tròn long bàn tay j0 Điểm đánh giá khả lựa chọn đối tượng cao Score[j] Điểm đánh giá vị trí tay lớp đối tượng thứ j AAL Ambient Assisted Living - Hỗ trợ sống xung quanh ADL Activities of Daily Living (Các hoạt động ngày) AHT Attention-based Hand Tracker (Theo bám tay dựa ý) AR Augmented Reality (Thực tăng cường) BRIEF Binary Robust Independent Elementary Features CNN Convolution Neuron Network (Mạng nơ-ron tích chập) CRF Conditional Regression Forest (Rừng hồi quy có điều kiện) CSDL Cơ sở liệu CV Computer Vision (Thị giác máy tính) DFF Deep Feature Fow (Luồng đặc trưng sâu) DTM Distance Transformation Map (Bản đồ biến đổi khoảng cách) DTW Dynamic Time Warping (Xoắn thời gian động) FPV First Person Vision (Thị giác góc nhìn người thứ nhất) HCI Human Computer Inteface (Giao tiếp người – máy tính) HOF Histogram of Oriented Optical Flow HOG Histogram of Oriented Gradients HRI Human Robot Inteface (Giao tiếp người – rô bốt) IMU Inertial Measurement Unit (Bộ đo lường quán tính) KCF Kernelized Correlation Filter (Bộ lọc tương quan Kernezed) MDNN Multi-stream Deep Neural Network (Mạng nơ-ron sâu đa luồng) NCQT Nghiên cứu quốc tế PDF Probability Density Function (Hàm mật độ xác suất) PHCN Phục hồi chức n vii RNN Recurrent Neural Network (Mạng nơ-ron tái phát) ROI Region of Interest (Vùng quan tâm) SIFT Scale-Invariant Feature Transform SORT Simple Online Real-time Tracking (Theo bám trực tuyến đơn) SOTA State-of-the-art (Công nghệ nhất) SVM Support Vector Machine (Máy vec-tơ hỗ trợ) ToF Deep of Field (Máy ảnh có cảm biến đo độ sâu) TPV Thirst Person Vision (Thị giác góc nhìn người thứ ba) VR Virtual Reality (Thực ảo) n viii DANH MỤC CÁC BẢNG Trang Bảng 2.1 Thống kê liệu thử nghiệm theo bám tay 36 Bảng 2.2 Kết phát tay với liệu RehabHand 37 Bảng 2.3 Kết đánh giá theo bám tay 39 Bảng 2.4 Kết phát tay với backbone khác 47 Bảng 2.5 Kết phân đoạn tay với backbone khác 47 Bảng 2.6 Kết đánh giá mơ hình phân đoạn tay lớp 48 Bảng 2.7 Kết đánh giá mơ hình tất lớp 49 Bảng 2.8 So sánh kết phát tay 50 Bảng 2.9 So sánh kết phân đoạn tay 50 Bảng 2.10 So sánh kết phân đoạn tay với mạng nơ-ron khác 51 Bảng 3.1 Kết mơ hình SVM với tập liệu ảnh tay 59 Bảng 3.2 Kết phân tách vùng tay từ ảnh mặt nạ tay 59 Bảng 3.3 So sánh kết phân đoạn bàn tay 60 Bảng 3.4 So sánh kết thuật toán DeepSORT MẻgeTrack 62 Bảng 3.5 Kết phân đoạn tay egocentric 71 Bảng 3.6 Bảng kết phương pháp đề xuất 73 Bảng 3.7 Độ xác phân vùng tay với FPHA 80 Bảng 3.8 Bảng so sánh lỗi phương pháp đề xuất với HOPE-Net 80 Bảng 4.1 Danh sách tập đối tượng tập tương ứng 96 Bảng 4.2 Số lượng video tập RehabHand 97 Bảng 4.3 Độ xác mơ hình huấn luyện 99 Bảng 4.4 Độ xác nhận dạng tập thử nghiệm 100 Bảng 4.5 Độ xác phương pháp xác định loại đối tượng tương tác 101 Bảng 4.6 Độ xác nhận dạng tập thử nghiệm 102 n 111 34 Kapidis, Georgios, et al "Egocentric hand track and object-based human action recognition." 2019 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI) IEEE, 2019 35 Le, Hoa M., Thi-Oanh Nguyen, and Dung Ngo-Tien "Fully automated multi-label image annotation by convolutional neural network and adaptive thresholding." Proceedings of the Seventh Symposium on Information and Communication Technology 2016 36 Le, Van-Hung, et al "3d object finding using geometrical constraints on depth images." 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE) IEEE, 2015 37 Li, Cheng, and Kris M Kitani "Pixel-level hand detection in egocentric videos." Proceedings of the IEEE conference on computer vision and pattern recognition 2013 38 Li, Minglei, Lei Sun, and Qiang Huo "Flow-guided feature propagation with occlusion aware detail enhancement for hand segmentation in egocentric videos." Computer Vision and Image Understanding 187 (2019): 102785 39 Li, Yin, Zhefan Ye, and James M Rehg "Delving into egocentric actions." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2015 40 Li, Yinlin, et al "Grasp type understanding—classification, localization and clustering." 2016 12th World Congress on Intelligent Control and Automation (WCICA) IEEE, 2016 41 Li, Yinlin, et al "Un-supervised and semi-supervised hand segmentation in egocentric images with noisy label learning." Neurocomputing 334 (2019): 11-24 42 Liang, Hui, Junsong Yuan, and Daniel Thalman "Egocentric hand pose estimation and distance recovery in a single RGB image." 2015 IEEE International Conference on Multimedia and Expo (ICME) IEEE, 2015 43 Likitlersuang, Jirapat, and Jose Zariffa "Interaction detection in egocentric video: Toward a novel outcome measure for upper extremity function." IEEE journal of biomedical and health informatics 22.2 (2016): 561-569 n 112 44 Likitlersuang, Jirapat, et al "Egocentric video: a new tool for capturing hand use of individuals with spinal cord injury at home." Journal of neuroengineering and rehabilitation 16.1 (2019): 1-11 45 Lin, T Y., M Maire, and S Belongie "Microsoft coco: Common objects in context European conference on computer vision Springer, Cham." (2014) 46 Liu, Xiaorui, et al "Fingertip in the eye: An attention-based method for real-time hand tracking and fingertip detection in egocentric videos." Chinese Conference on Pattern Recognition Springer, Singapore, 2016 47 Ma, Minghuang, Haoqi Fan, and Kris M Kitani "Going deeper into first-person activity recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016 48 McCandless, Tomas, and Kristen Grauman "Object-Centric SpatioTemporal Pyramids for Egocentric Activity Recognition." BMVC Vol 2013 49 Michiel, Vlaminck, et al "Real-Time Table Plane Detection Using Accelerometer Information And Organized Point Cloud Data From Kinect Sensor." Journal of Computer Science and Cybernetics 32.3 (2016): 243-258 50 Mueller, Franziska, et al "Real-time hand tracking under occlusion from an egocentric rgb-d sensor." Proceedings of the IEEE International Conference on Computer Vision 2017 51 Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco FlorezRevuelta "Recognition of activities of daily living from egocentric videos using hands detected by a deep convolutional network." International Conference Image Analysis and Recognition Springer, Cham, 2018 52 Nguyen, Thi-Hoa-Cuc, Jean-Christophe Nebel, and Francisco FlorezRevuelta "Recognition of activities of daily living with egocentric vision: A review." Sensors 16.1 (2016): 72 53 Nguyen, Vinh-Tiep, et al "Searching a specific person in a specific location using deep features." Proceedings of the Seventh Symposium on Information and Communication Technology 2016 n 113 54 Oliva, Aude, and Antonio Torralba "Modeling the shape of the scene: A holistic representation of the spatial envelope." International journal of computer vision 42.3 (2001): 145-175 55 Pham, Chinh Huu, Quoc Khanh Le, and Thanh Ha Le "Human action recognition using dynamic time warping and voting algorithm." VNU Journal of Science: Computer Science and Communication Engineering 30.3 (2014) 56 Pirsiavash, Hamed, and Deva Ramanan "Detecting activities of daily living in first-person camera views." 2012 IEEE conference on computer vision and pattern recognition IEEE, 2012 57 Radosavovic, Ilija, et al "Designing network design spaces." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition 2020 58 Ren, Shaoqing, et al "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems 28 (2015) 59 Ren, Xiaofeng, and Chunhui Gu "Figure-ground segmentation improves handled object recognition in egocentric video." 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition IEEE, 2010 60 Ren, Xiaofeng, and Matthai Philipose "Egocentric recognition of handled objects: Benchmark and analysis." 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops IEEE, 2009 61 Rogez, Grégory, et al "3d hand pose detection in egocentric rgb-d images." European Conference on Computer Vision Springer, Cham, 2014 62 Rogez, Grégory, James S Supancic, and Deva Ramanan "First-person pose recognition using egocentric workspaces." Proceedings of the IEEE conference on computer vision and pattern recognition 2015 63 Rogez, Grégory, James S Supancic, and Deva Ramanan "Understanding everyday hands in action from RGB-D images." Proceedings of the IEEE international conference on computer vision 2015 n 114 64 Ronneberger, Olaf, Philipp Fischer, and Thomas Brox "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention Springer, Cham, 2015 65 Serra, Giuseppe, et al "Hand segmentation for gesture recognition in ego-vision." Proceedings of the 3rd ACM international workshop on Interactive multimedia on mobile & portable devices 2013 66 Singh, Suriya, Chetan Arora, and C V Jawahar "First person action recognition using deep learned descriptors." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016 67 Song, Hongyong, et al "Towards robust ego-centric hand gesture analysis for robot control." 2016 IEEE International Conference on Signal and Image Processing (ICSIP) IEEE, 2016 68 Spriggs, Ekaterina H., Fernando De La Torre, and Martial Hebert "Temporal segmentation and activity classification from first-person sensing." 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops IEEE, 2009 69 Sunyoto, Andi, et al "Wrist detection based on a minimum bounding box and geometric features." Journal of King Saud UniversityComputer and Information Sciences 32.2 (2020): 208-215 70 Tang, Yansong, et al "Multi-stream deep neural networks for rgb-d egocentric action recognition." IEEE Transactions on Circuits and Systems for Video Technology 29.10 (2018): 3001-3015 71 Tekin, Bugra, Federica Bogo, and Marc Pollefeys "H+ o: Unified egocentric recognition of 3d hand-object poses and interactions." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition 2019 72 Tran, Du, et al "A closer look at spatiotemporal convolutions for action recognition." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition 2018 73 Urabe, Shuichi, Katsufumi Inoue, and Michifumi Yoshioka "Cooking activities recognition in egocentric videos using combining 2DCNN and 3DCNN." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary Management 2018 n 115 74 Viet, Vo Hoai, et al "Multiple kernel learning and optical flow for action recognition in RGB-D video." 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE) IEEE, 2015 75 Visee, Ryan J., Jirapat Likitlersuang, and Jose Zariffa "An effective and efficient method for detecting hands in egocentric videos for rehabilitation applications." IEEE Transactions on Neural Systems and Rehabilitation Engineering 28.3 (2020): 748-755 76 Le, Viet-Duc, et al "A unified deep framework for hand pose estimation and dynamic hand action recognition from first-person rgb videos." 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR) IEEE, 2021 77 Wan, Shaohua, and J K Aggarwal "Mining discriminative states of hands and objects to recognize egocentric actions with a wearable rgbd camera." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops 2015 78 Wang, Jingdong, et al "Deep high-resolution representation learning for visual recognition." IEEE transactions on pattern analysis and machine intelligence 43.10 (2020): 3349-3364 79 Wang, Limin, et al "Temporal segment networks for action recognition in videos." IEEE transactions on pattern analysis and machine intelligence 41.11 (2018): 2740-2755 80 Wang, Wei, et al "Beyond One Glance: Gated Recurrent Architecture for Hand Segmentation." arXiv preprint arXiv:1811.10914 (2018) 81 Wang, Wei, et al "Recurrent U-Net for resource-constrained segmentation." Proceedings of the IEEE/CVF International Conference on Computer Vision 2019 82 Wojke, Nicolai, Alex Bewley, and Dietrich Paulus "Simple online and realtime tracking with a deep association metric." 2017 IEEE international conference on image processing (ICIP) IEEE, 2017 83 Wu, Wenbin, et al "Yolse: Egocentric fingertip detection from single rgb images." Proceedings of the IEEE International Conference on Computer Vision Workshops 2017 84 Xie, Saining, et al "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 n 116 85 Xu, Bingyuan, et al "Arm removal for static hand gesture recognition." Journal of Intelligent & Fuzzy Systems 35.6 (2018): 64896500 86 Yamazaki, Wataru, et al "Hand pose estimation and motion recognition using egocentric RGB-D video." 2017 IEEE International Conference on Robotics and Biomimetics (ROBIO) IEEE, 2017 87 Zariffa, José, and Milos R Popovic "Hand contour detection in wearable camera video using an adaptive histogram region of interest." Journal of neuroengineering and rehabilitation 10.1 (2013): 1-10 88 Zhang, Yifan, et al "EgoGesture: A new dataset and benchmark for egocentric hand gesture recognition." IEEE Transactions on Multimedia 20.5 (2018): 1038-1050 89 Zhao, Hengshuang, et al "Pyramid scene parsing network." Proceedings of the IEEE conference on computer vision and pattern recognition 2017 90 Zhao, Ying, Zhiwei Luo, and Changqin Quan "Coarse-to-fine online learning for hand segmentation in egocentric video." EURASIP Journal on Image and Video Processing 2018.1 (2018): 1-12 91 Zhao, Ying, Zhiwei Luo, and Changqin Quan "Unsupervised online learning for fine-grained hand segmentation in egocentric video." 2017 14th Conference on Computer and Robot Vision (CRV) IEEE, 2017 92 Zhou, Yang, et al "Cascaded interactional targeting network for egocentric video analysis." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2016 93 Zhu, Xiaolong, Xuhui Jia, and Kwan-Yee K Wong "Structured forests for pixel-level hand detection and hand part labelling." Computer Vision and Image Understanding 141 (2015): 95-107 94 Tran, Du, et al "Learning spatiotemporal features with 3d convolutional networks." Proceedings of the IEEE international conference on computer vision 2015 95 Howard, Andrew G., et al "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017) 96 Gkioxari, Georgia, Ross Girshick, and Jitendra Malik "Contextual action recognition with r* cnn." Proceedings of the IEEE international conference on computer vision 2015 n 117 PHỤ LỤC n P.1 XÂY DỰNG BỘ DỮ LIỆU REHABHAND Thiết lập thu thập liệu Bộ liệu thu nhận từ 10 bệnh nhân điều trị Khoa PHCN, Bệnh viện Đại học Y Hà Nội Những bệnh nhân tham gia cách tự nguyện không hưởng quyền lợi tài Người thu thập liệu cam kết khơng để lộ danh tính hình ảnh cá nhân họ Những người tham gia nghiên cứu đồng ý văn trước tham gia vào nghiên cứu đồng ý Ban Giám đốc Bệnh viện Đại học Y Hà Nội Những bệnh nhân có bệnh lý trước tai biến, thối hóa cột sống, tai nạn chấn thương cần phẫu thuật, họ tập tập theo phác đồ để PHCN tay Bệnh nhân thuận tay phải tay trái, họ ln có tay yếu cần tập để phục hồi Điều tốt để so sánh khả phục hồi tay bệnh nhân Nhóm thu thập liệu sử dụng hai máy ảnh GoPro Hero4, San Mateo, California, Hoa Kỳ gắn ngực đầu đồng hồ Gear S3 Frontier, Samsung đeo tay bệnh nhân Camera GoPro Hero4 có trọng lượng 149.6 gam kích thước (rộng x dài x sâu) 70.8 x 71.1 x 38.8mm Đồng hồ Gear S3 Frontier có trọng lượng 63 gam, kích thước (rộng x dài x sâu) 70.8 x 71.1 x 38.8mm Các thiết bị đảm bảo gọn, nhẹ không ảnh hưởng tới thao tác bệnh nhân Các video quay định dạng MPEG-4 với độ phân giải 1080p 30 khung hình/giây, ống kính mắt cá góc rộng cho phép nhóm nghiên cứu ghi lại tồn khơng gian làm việc hai tay đối tượng cầm trước thể Trong trình ghi, liệu hình ảnh gia tốc kế đồng hóa theo cách thủ cơng Hình PL.1 hình ảnh thực tế bệnh nhân đeo thiết bị tập Hình PL.1 Thiết lập thiết bị thu thập liệu n P.2 a) Đồng hồ thơng minh có cảm biến gia tốc quay hồi chuyển; b) máy ảnh đeo đầu ngực; c) hình ảnh thực tế bệnh nhân thực tập Bệnh nhân tham gia tập PHCN sau bác sĩ quy định, tập lặp lại với tần suất khác nhau: Bài tập 1- luyện tập với bóng: dùng tay nhặt bóng trịn cho vào lỗ Bài tập – luyện tập với chai nước: cầm chai nước đổ nước vào cốc đặt bàn Bài tập – luyện tập với khối gỗ lập phương: dùng tay nhặt khối gỗ cố gắng đặt chúng vào lỗ Bài tập – luyện tập với khối hình trụ trịn: dùng tay nhặt khối hình trụ cho vào lỗ Hình PL.2 hình ảnh ví dụ minh họa tập PHCN Trước ghi liệu, thời lượng pin, chế độ xem camera tín hiệu từ đồng hồ thơng minh kiểm tra để đảm bảo khả tiếp nhận liệu tốt Việc đánh dấu phần đầu phần cuối tập thực sử dụng bảng kẹp (clapperboard) để đánh dấu cách giữ bảng kẹp trước máy quay bắt đầu kết thúc tập Tín hiệu truyền qua Bluetooth đến máy tính phần mềm GoPro Capture ghi lại Mỗi người tham gia thực tập, tập lặp lại với tần suất khác tùy theo khả họ Hình PL.2 Minh họa tập PHCN n P.3 Tổng cộng, 10 tệp video định dạng MPEG- với tổng thời lượng 4h tổng dung lượng 53 Gb ghi lại Tín hiệu gia tốc kế quay hồi chuyển ghi lại dạng tệp văn bản, phân biệt tay phải tay trái Có ba kích thước x, y, z gia tốc quay hồi chuyển thời điểm khác tệp văn Xử lý gán nhãn liệu Mỗi tệp video thô thu chia thành tệp thành video nhỏ, tệp có tập Điều thực cách đánh dấu công cụ trực quan bảng kẹp phần đầu phần cuối tập Có 58 video tập lưu tệp định dạng ‘.avi’, bao gồm 20 video tập 1, 16 video tập 2, 12 video tập 10 video tập Trong lần tập tập, người bệnh thực lặp lặp lại động tác Vì vậy, từ video tập tiếp tục tách thành phân đoạn nhỏ; phân đoạn tương ứng với lần thực động tác Tổng cộng có 431 phân đoạn tách Việc phân tách liệu giúp nghiên cứu nhận tập đánh giá khả tập luyện bệnh nhân Hình PL.3 Đồng hình ảnh, gia tốc, quay hồi chuyển ELAN Để đồng hóa liệu hình ảnh liệu quay hồi chuyển gia tốc, cần phải đồng hóa thời gian bắt đầu kết thúc ghi loại liệu q trình thu thập liệu Cơng cụ ELAN sử dụng để đồng n P.4 hóa kiểu liệu giai đoạn xử lý Thời gian bắt đầu tệp quay hồi chuyển gia tốc kế tương ứng với số khung hình cách sử dụng cơng cụ Hình PL.3 trực quan hóa liệu hình ảnh đồng với gia tốc liệu quay hồi chuyển ELAN Hai tác vụ gán nhãn thực với video thu thập Một nhiệm vụ gán nhãn phân đoạn tay đối tượng mức pixel (Hand, object segmentation) Nhiệm vụ thứ hai gán nhãn theo bám tay (hand tracking) Đối với gán nhãn phân đoạn, công cụ phân tách thủ công sử dụng để gán nhãn ảnh Có tám đối tượng dán nhãn, là: Quả bóng (1), Cái cốc (2), Chai nước (3), Cái bát (4), Hình trụ (5), Khối (6), Tay trái (7), Tay phải (8) Các đối tượng gắn nhãn đa giác Kết gắn nhãn lưu trữ thư mục, chứa ảnh tệp ‘.json’ lưu trữ kết gắn nhãn Việc lấy mẫu khung hình liên tục video thơ thực với tần suất trung bình khung hình/giây Khoảng 4500 khung hình (1920x1440) lưu tệp định dạng png gắn nhãn đầy đủ tệp '.json', chứa thơng tin chính: tên tệp hình ảnh gán nhãn, kích thước hình ảnh, thông tin tọa độ vùng gắn nhãn, tọa độ cặp điểm (x, y) tương ứng với tất cặp điểm (x, y) tạo thành vùng đa giác xung quanh bàn tay đối tượng dán nhãn Hình PL.4 minh họa ảnh gán nhãn phân đoạn tay đối tượng Hình PL.4 Minh họa gán nhãn phân đoạn tay đồ vật Một công cụ gán nhãn liệu bán tự động phát triển cho nhiệm vụ gán nhãn theo bám tay Ý tưởng huấn luyện mơ hình tập liệu có sẵn, sau đưa đề xuất cho liệu chưa gắn n P.5 nhãn cuối điều chỉnh ground truth cần Quy trình cho phép trình gán nhãn đánh dấu hộp giới hạn quỹ đạo tay hỗ trợ nhiều chế độ nhập liệu, chọn mơ hình, xem ground truth, gỡ lỗi xuất đầu sang nhiều định dạng Thông qua công cụ này, giảm thiểu tính chủ quan thời gian gán nhãn, đồng thời thống phối hợp gán nhãn cá nhân khác Thống kê xây dựng ứng dụng quản lý liệu Trong liệu RehabHand cung cấp tất liệu thu thập, bao gồm video gốc định dạng MPEG-4 liệu gia tốc kế quay hồi chuyển dạng tệp văn Thông tin chia video gốc thành video phân đoạn tập video trình tự đồng hóa với gia tốc kế, liệu quay hồi chuyển tổ chức lưu trữ sở liệu quan hệ Đối với liệu video phân đoạn xác, ghi chứa thông tin bao gồm bệnh nhân, ID tập, FrameID bắt đầu FrameID kết thúc đoạn video tập mã thời gian bắt đầu dừng liệu gia tốc kế quay hồi chuyển, tương ứng Phương pháp lưu trữ áp dụng cho video theo trình tự sử dụng thời gian bắt đầu kết thúc trình tự thay ID phân đoạn tập Bộ liệu RehabHand có chứa liệu có mười bệnh nhân tham gia vào tập Mười tệp video thô định dạng MPEG- với tổng thời lượng 4h tổng dung lượng 53 Gb thu thập Các video thô chia nhỏ thành video tương ứng với tập Tổng cộng có 56 video tập, có 18 video tập với bóng, 16 video tập với chai nước, 14 video tập với khối gỗ 10 video tập với khối trụ Các video tập chia thành video phân đoạn tương ứng với tập thời điểm Có 431 video phân đoạn liệu Ngoài liệu gốc, liệu cung cấp liệu ghi nhãn cho tác vụ phân đoạn theo bám bàn tay Đối với tác vụ phân đoạn tay, luận án chọn 4500 khung hình ảnh để gán nhãn đa giác cho đối tượng Chiến lược để chọn ảnh gán nhãn khơng phải lấy mẫu hồn tồn ngẫu nhiên mà theo cách làm cho phần phân chia đủ đại diện cho thay đổi bệnh nhân tập khác Dữ liệu huấn luyện thử nghiệm chia theo tỷ lệ 4: 1, 921 ảnh n P.6 có nhãn liệu thử nghiệm lấy từ bệnh nhân khơng có liệu huấn luyện Đối với nhiệm vụ theo bám bàn tay, có 32 video với 10984 khung hình gắn nhãn với hộp giới hạn tay Bảng PL.1 thống kế số lượng RehabHand so sánh với liệu PHCN cơng bố Hình PL.5 hình PL.6 biểu đồ thống kê số lượng liệu thu thập gán nhãn Bảng PL.1 Thống kê đặc điểm liệu Bộ liệu Thiết bị ANS Looxc ablebod ie2 ied ANS SCI Rehab Hand GoPro Hero4 GoPro Hero4 Số lượng video - - 431 Số lượng ảnh Độ phân giải Độ dài video - 640x 480 44.16 minute s 1920 33,256 x108 1920 103,01 x144 n - hours Số đối tượng Bối cảnh Phịng thí nghiệm mơ Nhà nhà bếp, 17 phòng khách ngủ Phòng 10 tập PHCN Số hoạt động Nhãn 14 hoạt động hàng ngày Phân đoạn tay 38 hoạt động hàng ngày Phát tay tập PHCN 1098 nhãn theo bám tay 4500 phân đoạn tay đối tượng P.7 Hình PL.5 Biểu đồ thống kê liệu thu thập gán nhãn a) Số lượng frame tập số lượng frame gán nhãn phân đoạn; b) Số lượng phân đoạn video tập; c) Số tập gán nhãn theo bám tay Hình PL.6 Thời gian trung bình thực tập tay yếu tay khỏe Số liệu thống kê cho thấy, tiêu chí đặt ban đầu tiến hành thu thập liệu đạt Thứ nhất, liệu phải thu thập môi trường thực tế bệnh viện: Khoa PHCN Đại học Y Hà Nội Thứ hai, bệnh nhân đủ hai giới tính độ tuổi đa dạng, bệnh lý có tai biến, thối hóa cột sống, tai nạn chấn thương cần phẫu thuật Thứ ba, bốn tập PHCN tập tay (tập với khối lập phương, trụ tròn, chai nước, bóng) đám bảo tư cầm nắm từ đơn giản đến phức tạp Thứ tư, gán nhãn cho nhiệm vụ phát hiện, phân đoạn, nhãn hoạt động phân đoạn hoạt động, nhãn tay yếu tay bình thường Thứ năm, liệu thu thập gồm hình ảnh, gia tốc, quay hồi chuyển đồng qua phần mềm ELAN n P.8 Hình PL.7 Giao diện trang web quản lý liệu RehabHand NCS tiến hành xây dựng website để quản lý liệu RehabHand địa http://rehabhand.info Hình PL.7 thể giao diện trang web nhằm giới thiệu chung liệu kết thực mơ hình sở làm điểm chuẩn liệu Ngoài trang web cho phép nhà nghiên cứu tải liệu để sử dụng n