.57 Trang 7 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTAI Artificial Intelligent trí tuệ nhân tạo3D-HPE 3D Human Pose Estimation3DPCK 3D Percentage of correct keypointsA2J Anchor-to-JointCAD
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LƯƠNG THỊ THANH MINH NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2023 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LƯƠNG THỊ THANH MINH NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO Ngành: Khoa học máy tính Mã số: 8 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Văn Hùng Thái Nguyên - 2023 Luận văn Thạc sỹ i Khoa học máy tính LỜI CAM ĐOAN Tôi xin cam đoan luận văn Thạc Sỹ với tiêu đề "NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO" là kết quả nghiên cứu của tôi dưới sự hướng dẫn khoa học của TS Lê Văn Hùng Tất cả các số liệu, hình ảnh, bảng biểu, các bài báo được trình bày trong luận văn đều được trích dẫn nguồn trung thực và đầy đủ Thái Nguyên, tháng 08 năm 2023 Lương Thị Thanh Minh Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ ii Khoa học máy tính LỜI CẢM ƠN Lời cảm ơn đầu tiên, em xin bày tỏ lời cảm ơn xâu sắc tới Thầy TS Lê Văn Hùng đã tận tình hướng dẫn và giúp đỡ trong quá trình tìm hiểu, nghiên cứu và thực hiện luận văn Luận văn này không thể hoàn thành nếu thiếu đi những góp ý chân thành và sự hướng dẫn tỉ mỉ từ Thầy Hùng Dù thầy rất bận rộn với công việc giảng dạy, nghiên cứu khoa học nhưng Thầy luôn lắng nghe những vấn đề mà tôi gặp phải, luôn động viên kịp thời và đưa ra những định hướng để tôi hoàn thiện kết quả nghiên cứu Tôi muốn bày tỏ lòng biết ơn đến Thầy và chúc Thầy sẽ đạt được nhiều thành công hơn nữa trong công việc, cũng như trong cuộc sống Trong quá trình học Thạc sỹ tại trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, tôi cũng đã được hỗ trợ và tạo điều kiện từ các thầy, cô trong trường Quãng thời gian vừa qua là nhiều ngày vừa học, vừa làm, hàng ngày trong tuần tôi đều có mặt ở cơ quan, cuối tuần tôi phải có mặt ở trường Hoàn thành cả hai công việc một lúc là rất nhiều nỗ lực của bản thân, nhưng sẽ không thể thành công nếu thiếu đi sự ủng hộ của mọi người Tôi xin dành lời cảm ơn tới gia đình tôi, điểm tựa để tôi vượt qua những giai đoạn khó khăn trong công việc và cuộc sống Kết quả ngày hôm nay là lời tri ân chân thành nhất mà tôi có thể gửi tới gia đình mình Cuối cùng Học viên bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình, bạn bè đã luôn động viên, chia sẻ, ủng hộ và giúp đỡ tôi vượt qua khó khăn để đạt được những kết quả nghiên cứu trong Luận văn này Học viên Lương Thị Thanh Minh Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ iii Khoa học máy tính Mục lục MỞ ĐẦU 1 1 TỔNG QUAN 10 1.1 Tổng quan về học sâu 10 1.1.1 Định nghĩa 10 1.1.2 Công dụng của mô hình học sâu 10 1.1.3 Mạng nơ ron tích chập 11 1.2 Tổng quan về ước lượng tư thế người 3D 12 1.3 Cơ sở dữ liệu đánh giá ước lượng tư thế người 3D 16 1.4 Khảo sát ước lượng tư thế người 3D 17 1.5 Thảo luận 18 1.6 Kết luận chương 1 19 2 MÔ HÌNH ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D 20 2.1 Phương pháp tiếp cận 20 2.1.1 Mediapipe Pose 20 2.1.2 Mô hình Robot người 22 2.1.3 Hiệu ứng phản chiếu của máy ảnh 24 2.1.4 Phương pháp tối ưu hóa toàn cục nhanh 25 2.2 Ước lượng tư thế người trên cơ sở dữ liệu MADS 28 2.2.1 Cơ sở dữ liệu MADS 28 2.2.2 Thí nghiệm và độ đo đánh giá 30 2.2.3 Kết quả ước lượng tư thế người 3D 31 Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ iv Khoa học máy tính 2.3 Kết luận chương 2 38 3 PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO 39 3.1 Một số ứng dụng thể thao dựa trên tư thế người 39 3.2 Ứng dụng chấm điểm thể thao dựa trên khung xương người 3D 41 3.3 Phân tích thể thao dựa trên tư thế người 45 3.4 Kết luận chương 3 50 KẾT LUẬN VÀ NGHIÊN CỨU TIẾP THEO 51 A MỘT SỐ MÃ NGUỒN CHƯƠNG TRÌNH 57 A.1.Mã nguồn vẽ khung xương người 57 A.2.Mã nguồn của mediapipe cho việc ước lượng tư thế người 2D 57 A.3.Mã nguồn của mediapipe cho việc ước lượng tư thế người 3D 58 Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ v Khoa học máy tính DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT AI Artificial Intelligent (trí tuệ nhân tạo) 3D-HPE 3D Human Pose Estimation 3DPCK 3D Percentage of correct keypoints A2J Anchor-to-Joint CAD Computer-Aided Design (Thiết kế hỗ trợ bởi máy tính) BSS Bisectional Search CAD Computer-Aided Design (Thiết kế hỗ trợ bởi máy tính) CNN Convolutional Neural Network CV Computer Vision (thị giác máy tính) DH Denavit-Hartenberg DL Deep Learning FC Kiểu lớp (layer) Fully Connected FPHAB First-Person Hand Action Benchmark GA Genetic Algorithm GAN Generative Adversarial Network (Mạng đối thủ chung) GCN Graph Convolutional Network GT Game Theory (lý thuyết các trò chơi) HOI4D Human-Object Interaction 4D ICVL Institute of Computing and Informatics, Slovak University of Technology LFB Local Feature-based MADS Martial Arts, Dancing, and Sports dataset MPJPE Mean Per Joint Position Error MPP MediaPipe Pose MSRA Microsoft Research Asia (Trung tâm Nghiên cứu Microsoft ở châu Á) NYU New York University (Đại học New York) RGB-D Red Green Blue – Depth RNN Recurrent Neural Network SE Special Euclidean (Euclid đặc biệt) SMPL Skinned Multi-Person Linear ST-GCN Spatial Temporal Graph Convolutional Network TOF Time-of-Flight uDEAS Phương pháp tối ưu hóa toàn cầu kết hợp các phương pháp tìm kiếm cục bộ và toàn cục UDS Unidirectional Search UV Vị trí các khớp 2D trong không gian ảnh độ sâu, trục hoành (U) trục tung (V) VAE Variational Autoencoder (Bộ mã hóa tự động biến thể) VARs Video Assistant Referee system WCVS Wearable Computer Vision Systems Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ vi Khoa học máy tính Danh sách hình vẽ 1 Minh họa ứng dụng tư thế và vị trí người để thổi phạt của công nghệ VARs trong bóng đá 1 2 Minh họa mối quan hệ các ứng dụng của thị giác máy tính trong học thống kê và lý thuyết trò chơi 2 3 Minh họa không gian các khung xương 3D của cơ sở dữ liệu Human 3.6M [9] 3 4 Minh họa vận động viên trượt băng và kết quả ước lượng tư thế 2D, 3D của người [23] 4 5 Minh họa kết quả ước lượng tư thế người 2D, 3D trong video cử tạ 4 6 Minh họa một số hình ảnh của cơ cở dữ liệu MADS [24] 5 7 Minh họa một số kết quả ước lượng tư thế người 3D trong video võ thuật Bình Định, Việt Nam 6 1.1 Minh họa mô hình học sâu dựa trên ý tưởng giống cách tính toán của não người 11 1.2 Một trình tự CNN để phân loại các chữ số viết tay 12 1.3 Minh họa kết quả ước lượng tư thế/khung xương người trong không gian 2D và 3D Bên trái là kết quả lượng tư thế người trên ảnh/không gian 2D, bên phải là kết quả ước lượng tư thế người trong không gian 3D 13 1.4 Minh họa sử dụng bản đồ nhiệt để dự đoán các khớp khung xương người trên ảnh (a) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 1 (b) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 2 (c) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 5 14 1.5 Minh họa ba phương pháp ước lượng tư thế người 3D sử dụng CNN dựa trên hình ảnh/video Monocular RGB 15 Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ vii Khoa học máy tính 2.1 Minh họa kết quả ước lượng 33 khớp/điểm đại diện của mediapipe pose 21 2.2 Kiến trúc mạng ước lượng các điểm đại diện/khớp của tư thế người trên ảnh màu [4] 21 2.3 Minh họa kết quả ước tư thế người 2D sử dụng MPP từ dữ liệu video 22 2.4 Mô hình Robot người 3D 23 2.5 Các tư thế thể hiện sự khác nhau tùy theo góc nhìn của máy ảnh (a) từ trên xuống phía dưới, (b) xoay 90 độ theo chiều kim đồng hồ, (c) từ phía trước bên trái.24 2.6 Mối quan hệ giữa tọa độ cơ thể theo khung hình xhyhzh và tọa độ dựa trên khung hình của máy ảnh xcyczc 25 2.7 Mô hình ước lượng tư thế người 3D từ dữ liệu ảnh vào dựa trên Mediapipe 27 2.8 Minh họa kết quả chỉnh sửa dữ liệu chú thích người 3D theo dữ liệu đám mây điểm dựa trên mặt nạ con người từ hình ảnh Bộ xương người màu đỏ là kết quả của 3D-HPE trong dữ liệu đám mây điểm 28 2.9 Hình minh họa dữ liệu hình ảnh của một người không được đánh dấu và hình ảnh mặt nạ của người Dữ liệu độ sâu của người được phân định bằng đường viền màu vàng Giá trị độ sâu của pixel người lớn hơn 0 (là khoảng cách từ máy ảnh đến bề mặt cơ thể) và có màu xám, các pixel khác là nền và có màu đen Hình ảnh độ sâu là kết quả của việc ánh xạ từ mặt nạ người sang hình ảnh độ sâu thu được từ môi trường 29 2.10 Minh họa đánh dấu các điểm chính 2D trên ảnh màu 29 2.11 Minh họa khung xương người 3D của dữ liệu gốc (khung xương màu xanh) và khung xương người 3D ước lượng được (khung xương màu đỏ) 31 2.12 Minh họa tọa độ của các điểm trong khung xương 3D là kết quả ước lượng của mô hình MPP+3DHRM-uDEAS [11] 32 2.13 Minh họa kết quả ước lượng trên video nhảy Hiphop của cơ sở dữ liệu MADS 35 2.14 Minh họa kết quả ước lượng trên video khiêu vũ trên nền nhạc Jazz của cơ sở dữ liệu MADS 36 2.15 Minh họa kết quả ước lượng trên video biểu diễn võ thuật Kata (karate kata) của cơ sở dữ liệu MADS 36 Lương Thị Thanh Minh KHMT-K20A Luận văn Thạc sỹ viii Khoa học máy tính 2.16 Minh họa kết quả ước lượng trên video hoạt động thể thao (môn cầu lông - Badminton) của cơ sở dữ liệu MADS 37 2.17 Minh họa kết quả ước lượng trên video biểu diễn võ thuật Taichi của cơ sở dữ liệu MADS 37 3.1 Minh họa kết quả ước lượng tư thế/khung xương người trong không gian 2D và 3D Bên phải minh họa kết quả tính góc lệch của các khớp xương quan trọng trong luyện tập thể dục thể thao (xương sống) [15] 40 3.2 Minh họa ứng dụng sử dụng khung xương của người để đánh giá khả năng di chuyển 41 3.3 Minh họa hệ thống chấm điểm bài thi thể dục dụng cụ dựa trên khung xương ước lượng người 3D [18] 42 3.4 Minh họa một số tư thế của kỹ thuật đánh cầu lông [8] 44 3.5 Minh họa hệ tọa độ tính góc lệch 45 3.6 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng cách của các khớp trên khung xương người 3D ước lượng được của hoạt động nhảy Hiphop trong cơ sở dữ liệu MADS 47 3.7 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng cách của các khớp trên khung xương người 3D ước lượng được của hoạt động khiêu vũ trên nền nhạc Jazz trong cơ sở dữ liệu MADS 47 3.8 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng cách của các khớp trên khung xương người 3D ước lượng được của hoạt động biểu diễn võ thuật karate kata trong cơ sở dữ liệu MADS 48 3.9 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng cách của các khớp trên khung xương người 3D ước lượng được của hoạt động thực hiện đánh cầu lông trong cơ sở dữ liệu MADS 48 3.10 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng cách của các khớp trên khung xương người 3D ước lượng được của hoạt động biểu diễn võ thuật taichi trong cơ sở dữ liệu MADS 49 3.11 Minh họa nghiên cứu của VinIF về nghiên cứu dựa trên khung xương người 3D cho phân tích thể thao trong phòng tập Gym 49 Lương Thị Thanh Minh KHMT-K20A