1. Trang chủ
  2. » Tất cả

(Luận án tiến sĩ) về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu

150 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VỀ MƠ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội − 2020 luan an BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VỀ MƠ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU Ngành: Kỹ thuật điện tử Mã số : 9520203 LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Dũng TS Phạm Thành Công Hà Nội − 2020 luan an LỜI CAM ĐOAN Tôi xin cam đoan luận án: "Về mơ hình nhận dạng tư võ dựa ảnh chiều sâu" cơng trình nghiên cứu riêng Một phần số liệu, kết trình bày luận án trung thực, cơng bố tạp chí khoa học chun ngành, kỷ yếu hội nghị khoa học nước quốc tế Phần cịn lại luận án chưa cơng bố cơng trình nghiên cứu nước Hà Nội, tháng 01 năm 2020 NGHIÊN CỨU SINH Nguyễn Tường Thành TẬP THỂ HƯỚNG DẪN TS Lê Dũng TS Phạm Thành Công i luan an LỜI CẢM ƠN Luận án tiến sĩ thực Viện Điện tử Viễn thông, trường Đại học Bách khoa Hà Nội hướng dẫn khoa học TS Lê Dũng TS Phạm Thành Công Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy, định hướng khoa học suốt q trình nghiên cứu Nghiên cứu sinh xin trân trọng cảm ơn nhà khoa học, tác giả cơng trình cơng bố trích dẫn cung cấp nguồn tư liệu q báu q trình hồn thành luận án Nghiên cứu sinh xin trân trọng cảm ơn Viện Điện tử Viễn thơng; Phịng Đào tạo Trường Đại học Bách Khoa Hà Nội; Các thầy cô Viện Điện tử Viễn thông, anh chị bạn nhóm NCS, võ sư Hồ Minh Mộng Hùng, Phạm Đình Khiêm, Phạm Ngọc Dương, Bùi Thị Lành, Nguyễn Quốc Tiễn, Trung tâm Võ thuật cổ tryền Bình Định, TP Quy Nhơn, tỉnh Bình Định quan tâm, động viên giúp đỡ tạo điều kiện thuận lợi thời gian, địa điểm nghiên cứu, trang thiết bị, hỗ trợ mặt nhân lực để NCS thực việc thu thập liệu, thực nghiệm kết nghiên cứu Nghiên cứu sinh xin cảm ơn TS Lê Văn Hùng nghiên cứu Viện nghiên cứu quốc tế MICA, Đại học Bách khoa Hà Nội Đại học Tân Trào hỗ trợ kỹ thuật, đồng tác giả giúp NCS thực nghiên cứu luận án Cuối nghiên cứu sinh xin bày tỏ biết ơn tới Ban giám hiệu Trường Đại học Quy Nhơn; Ban chủ nhiệm Khoa Kỹ thuật Cơng nghệ, gia đình, bạn bè đồng nghiệp động viên khích lệ, tạo điều kiện thuận lợi để NCS yên tâm công tác học tập Hà Nội, tháng 01 năm 2020 NGHIÊN CỨU SINH Nguyễn Tường Thành ii luan an NỘI DUNG LỜI CAM ĐOAN i LỜI CẢM ƠN ii NỘI DUNG v KÝ HIỆU VÀ VIẾT TẮT vi DANH SÁCH BẢNG BIỂU viii DANH SÁCH HÌNH VẼ xiv MỞ ĐẦU Chương 1.1 1.2 1.3 1.4 1.5 1.6 1: TỔNG QUAN 12 Học máy, học sâu ứng dụng 1.1.1 Học máy 1.1.2 Học sâu Hệ thống khôi phục hoạt động người không gian 3-D chấm điểm võ thuật 1.2.1 Hệ thống khôi phục hoạt động người không gian 3-D 1.2.2 Hệ thống chấm điểm võ thuật Ước lượng khung xương thể người không gian 2-D 1.3.1 Ước lượng khung xương ảnh màu 1.3.2 Ước lượng khung xương ảnh độ sâu 1.3.3 Ước lượng tư dựa đối tượng ngữ cảnh hoạt động 1.3.4 Nhận xét Ước lượng khung xương tư người môi trường 3-D 1.4.1 Phục hồi tư 3-D người từ ảnh 1.4.2 Phục hồi tư 3-D người 1.4.2.1 Phục hồi khung xương, tư người không gian 3-D từ ảnh 1.4.2.2 Phục hồi khung xương, tư người không gian 3-D từ chuỗi ảnh 1.4.3 Nhận xét Các sở liệu cho việc đánh giá ước lượng khung xương không gian 3-D 1.5.1 Giới thiệu Kinect 1.5.2 Hiệu chỉnh liệu thu từ cảm biến Kinect Tổng kết chương iii luan an 12 12 14 16 16 16 16 17 18 21 22 23 23 24 25 25 25 31 31 31 37 Chương 2: ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D 2.1 2.2 2.3 Ước lượng khung xương không gian 2-D 2.1.1 Giới thiệu 2.1.2 Các nghiên cứu liên quan 2.1.3 Sử dụng học sâu cho việc ước lượng hành động võ cổ truyền không gian 2-D 2.1.3.1 Phương thức 2.1.3.2 Cơ sở liệu võ cổ truyền 2.1.3.3 Phương thức đánh giá 2.1.3.4 Xoay dịch liệu không gian 3-D 2.1.3.5 Kết ước lượng nhận xét 2.1.4 Kết luận Phục hồi khung xương, tư người không gian 3-D bị che khuất 2.2.1 Giới thiệu 2.2.2 Các nghiên cứu liên quan 2.2.3 Phục hồi khung xương, tư người không gian 3-D 2.2.3.1 Nghiên cứu so sánh khôi phục khung xương người không gian 3-D 2.2.3.2 Thí nghiệm kết ước lượng khung xương 3-D 2.2.3.3 Kết luận 2.2.4 Ước lượng khung xương, tư người bị che khuất Tổng kết chương Chương 3: 3.4 39 39 40 43 43 47 53 56 61 64 74 74 74 77 78 82 84 85 92 NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ TRUYỀN VIỆT NAM 3.1 3.2 3.3 38 93 Giới thiệu 93 Các nghiên cứu liên quan 96 Cơ sở lý thuyết để nhận diện động tác công chấm điểm động tác võ 97 3.3.1 Nhận diện động tác công 97 3.3.1.1 Xử lý liệu 97 3.3.1.2 Trích xuất đặc trưng thể người với camera Kinect 97 3.3.2 Mơ hình chấm điểm động tác võ cổ truyền 102 3.3.2.1 Mô tả động tác người 102 3.3.2.2 Công thức chấm điểm 105 Thực nghiệm 107 3.4.1 Nhận diện động tác công 107 iv luan an 3.5 3.6 3.4.1.1 Nhận diện động tác công phân loại 3.4.1.2 Nhận diện động tác công mạng nơ ron 3.4.2 Chấm điểm động tác võ cổ truyền Việt Nam Kết luận Tổng kết chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 107 108 110 115 115 115 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 117 TÀI LIỆU THAM KHẢO PHỤ LỤC 120 134 v luan an DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT Số Viết tắt Giải nghĩa Nghĩa tiếng Việt AD Average deviation Độ lệch trung bình AP Average Precision Độ xác trung bình APM Articulated Part-based Modeldeviation Mơ hình dựa phần khớp nối CPM Convolutional Pose Machines Máy học cử tích chập CPU Central Processing Unit Đơn vị xử lý trung tâm CNN Convolutional Nerural Network Mạng Nơ ron tích chập CNNs Convolutional Nerural Networks Mạng Nơ ron tích chập nhiều lớp DPM Deformable Part Model Mơ hình phần biến dạng DTW Dynamic Time Warping So khớp chuỗi thời gian động 10 DV Digital Video Video số 11 fps f rame per second Khung hình giây 12 GPU Graphics Processing Unit Đơn vị xử lý đồ họa 13 HMMs Hidden Markov Models Mơ hình Markov ẩn 14 HOG Histogram of Oriented Gradients Biểu đồ hướng dốc 15 HRNet High-Resolution Network Mạng độ phân giải cao 16 IR InfraRed camera Máy ảnh hồng ngoại 17 JI Jaccard Index Chỉ số Jaccard 18 LSTM Long Short-Term Memory Mạng nhớ ngắn định hướng dài hạn 19 MADS Martial Arts, Dancing and Sports Võ cổ truyền, khiêu vũ, thể thao 20 MOCAP MOtion CAPture 21 MPJPE MeanPerJointPositionError Độ đo sai số trung bình khớp nối 22 MS MicroSoft Microsoft 23 MSE Mean Squared Error Sai số bình phương 24 OCR Optical Character Recognition Nhận dạng ký tự quang học 25 OKS Object Key point Similarity Độ tương tự điểm đại diện 26 OpenCV Open Computer Vision 27 OpenNI Open Natural Interaction Thư viện hỗ trợ đa ngơn ngữ 28 PCA Principal Component Analysis Phân tích nguyên lý thành phần Thu nhận chuyển động Thư viện mã nguồn mở thị giác máy tính vi luan an 29 PCL Poind Cloud Library Thư viện đám mây điểm 30 RAM Random Access Memory Bộ nhớ truy nhập ngẫu nhiên 31 RDF Random Decision Forests Rừng định ngẫu nhiên 32 RGB Red Green Blue Đỏ Xanh Xanh lơ 33 SDK Software Development Kit Kit phát triển phần mềm 34 SVM Support Vector Machine Học máy hỗ trợ vector 35 TOF Time-Of-Flight sensor Cảm biến TOF 36 V1 Version Phiên 37 V2 Version Phiên 38 VE Vector Estimation Vector dự đoán 39 VG Vector Ground truth Vector đánh dấu thực 40 VNMA VietNam Martial Arts Võ cổ truyền Việt Nam vii luan an DANH SÁCH BẢNG BIỂU Bảng 1.1 Thống kê nghiên cứu ước lượng khung xương người không gian 3-D mà có đánh giá cở liệu Human3.6M [86] kết ước lượng 27 Bảng 1.2 Khảo sát ước lượng tư người không gian 3-D sử dụng ảnh 29 Bảng 1.3 Khảo sát ước lượng khung xương người không gian 3-D từ chuỗi ảnh 30 Bảng 2.1 Số khung hình tư võ sở liệu VNMA 50 Bảng 2.2 Số khung hình tư võ sở liệu SVNMA 51 Bảng 2.3 Kết trung bình ước lượng khớp nối (AP), góc lệch khớp liệu gốc khớp nối ước lượng (AD) khoảng cách trung bình điểm đại diện ước lượng điểm đại diện liệu gốc, tương ứng với 61 Bảng 2.4 Kết ước lượng khung xương ảnh chiếu sang không gian 3-D với 14 điểm xương liệu VNMA Kết đánh giá độ đo MPJPE theo đơn vị milimet (mm) 68 Bảng 2.5 Số khung hình đánh giá liệu VNMA 69 Bảng 2.6 Kết ước lượng khung xương ảnh sau chiếu sang không gian 3-D sở liệu MADS với 14 điểm xương 71 Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương ảnh sai chiếu sang khơng gian 3-D sở liệu MADS 72 Bảng 2.8 Kết ước lượng khung xương ảnh sau chiếu sang khơng gian 3-D sở liệu VNMA với 15 điểm xương 88 Bảng 2.9 Kết ước lượng khung xương ảnh sau chiếu sang không gian 3-D sở liệu MADS với 15 điểm xương 89 Bảng 3.1 Thể tám véc tơ chi 104 viii luan an The number of key points x 10 CMP training by COCO CMP training by Human 3.6m 0 200 400 600 800 1000 1200 MPJPE (mm) on MADS dataset Hình 2.26 Phân bố lỗi khoảng cách lỗi MPJPE cặp điểm đại diện liệu gốc liệu ước lượng sở liệu MADS Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương ảnh sai chiếu sang khơng gian 3-D sở liệu MADS #Video Kata_F2 Kata_F3 Kata_F4 Kata_N2 Kata_N3 Kata_P3 Taichi_S1 Taichi_S2 Taichi_S3 Taichi_S4 Taichi_S5 Taichi_S6 Tổng Số khung hình sử dụng để đánh giá Method Method 1186 1207 874 812 1106 1106 875 872 1299 1148 961 822 494 493 462 461 369 321 484 485 424 425 488 478 9022 8630 72 luan an Số khung hình liệu gốc 1300 1400 1400 1400 1400 1400 500 500 400 500 500 500 11200 Hình 2.27 Minh họa kết ước lượng khung xương không gian 2-D (trên ảnh màu) sử dụng CPM nghiên cứu Tome et al [85] 73 luan an 2.2 2.2.1 Phục hồi khung xương, tư người không gian 3-D bị che khuất Giới thiệu Ước lượng đầy đủ khung xương, tư người không gian 3-D từ ảnh màu vấn đề cịn chưa nhiều thách thức Vì ước lượng khơng gian 3-D việc trích chọn đặc trưng huấn luyện gặp nhiều khó khăn liệu 3-D phức tạp nhiều so với liệu không gian 2-D (không gian ảnh) Việc ước lượng khung xương, tư người không gian 3-D ứng dụng nhiều thực tế tương tác với robot, nghiên cứu tạo mơi trường tương tác trực quan Ngồi ước lượng khung xương, tư người môi trường 3-D áp dụng nhiều ứng dụng khác phân tích thể thao, phân tích đánh giá chơi trị chơi có đồ họa 3-D, hay việc chăm sóc bảo vệ sức khỏe Ví dụ: việc phát khung xương, tư người không gian 3-D giúp phát kiện ngã người già bệnh viện, hay kết ước lượng thấy đầy đủ hành động người giới thực, giải trường hợp phận người bị che khuất Trong nghiên cứu này, luận án hướng đến việc xây dựng, tái tạo lại môi trường 3-D trực quan video biểu diễn võ thuật cổ truyền Từ hướng đến xây dựng ứng dụng lưu trữ, dạy võ thuật video, đánh giá biểu diễn võ thuật truyền dạy học sinh phổ thơng Để giải vấn đề thường sử dụng thông tin đầu vào ảnh màu ảnh độ sâu kết đầu liệu khung xương, tư người không gian 3-D Trong nghiên cứu này, luận án thực nghiên cứu so sánh, từ liệu kết ước lượng 2-D tốt có kết ước lượng 3-D tốt Các kết ước lượng khung xương người không gian 3-D đánh giá sở liệu võ thuật cổ truyền Việt Nam sở liệu võ cổ truyền khác giới Tai-Chi, Karate Chúng đánh giá độ đo góc, khoảng cách, độ dài khớp xương ước lượng Đặc biệt nghiên cứu luận án đề xuất phương thức đồng hệ trục tọa độ không gian 3-D sở liệu, để phục vụ cho việc đánh giá Các kết thể phần nghiên cứu Cuối luận án thể kết ước lượng khung xương bị che khuất không gian 3-D, trường hợp không ước lượng đầy đủ khớp xương không gian 2-D, minh họa Hình 2.28 2.2.2 Các nghiên cứu liên quan Ước lượng khung xương, tư người không gian 3-D áp dụng nhiều lĩnh vực như: văn hóa, thể thao, sức khỏe, công nghệ robot Đặc biệt nghiên 74 luan an Hình 2.28 Minh họa việc ước lượng khung xương, tư người không gian 3-D với liệu bị che khuất Bên trái thể kết ước lượng khung xương, tư người 2-D với ước lượng [24] Bên phải kết ước lượng tư thế, khung xương người không gian 3-D sử dụng ước lượng [85] cứu phát hiện, nhận dạng, ước lượng đối tượng không gian 3-D hay tái tạo lại khung cảnh 3-D nhiều thách thức Để ước lượng khung xương không gian 3-D thường thực theo hai hướng tiếp cận là: ước lượng khung xương 3-D ảnh; ước lượng khung xương chuỗi ảnh [84] Trong việc ước lượng khung xương 3-D sử dụng hình ảnh thường thực việc ước lượng khung xương không gian 2-D sau ánh xạ sang khơng gian 3-D, sử dụng ảnh màu cho việc ước lượng Khi sử dụng ảnh độ sâu thực chiếu vào khơng gian 3-D dựa giá trị độ sâu ảnh thực ước lượng Thường trình ước lượng khung xương 3-D thực dựa tập mẫu khung xương tư không gian 3-D xây dựng sẵn dựa vào liệu đánh dấu điểm đại diện khớp xương khơng gian 3-D Q trình ước lượng q trình ánh xạ tìm mơ hình khung xương định nghĩa tốt Như nghiên cứu Tome cộng [85] đề xuất hướng tiếp cận cho việc ước lượng khung xương 3-D dựa kết ước lượng khung xương không gian 2-D (khơng gian ảnh), sau ánh xạ sang khơng gian 3-D Trong liệu khung xương chuẩn bị trước lấy từ liệu gốc sở liệu Human 3.6M Quá trình so sánh chọn mơ hình khung xương tốt sử dụng PCA (Principal Component Analysis) 2-D thể Hình 2.29 Trong hàm lỗi có giá trị từ 71.36 đến 185.72mm sở liệu Human 3.6M Mar cộng [118] đề xuất mạng nơ ron có tên "Deep Depth Pose (DDP)" Dữ liệu đầu vào mạng đồ độ sâu người, mạng thông qua mạng nơ ron tích chập dựa tập tư khung xương người không gian 3-D chuẩn bị sẵn để đưa kết vị trí khớp xương khơng gian 3-D minh họa Hình 2.30 75 luan an Hình 2.29 Minh họa chuẩn hóa mơ hình liệu huấn luyện mơ hình khung xương người 3-D việc so sánh khung xương ánh xạ từ 2-D sang 3-D với liệu huấn luyện [85] Mơ hình báo đánh giá hai sở liệu là: "ITOP" [119] "UBC3V" [120] Trong sai số độ xác sở liệu "ITOP" 10cm (tính theo khoảng cách Euclidean không gian 3-D) theo hướng nhìn sai số độ xác sở liệu "UBC3V" 98.8% có sai số 10cm Atrevi cộng [121] đề xuất mơ hình cho việc ước lượng khung xương, tư 3-D người dựa việc phân tích hình dạng bóng 2-D Phương thức bao gồm phần: thứ mô sở liệu hình bóng xương, thứ hai phát người trích xuất hình bóng 2-D, thứ ba phù hợp hình dạng người bóng, cuối nhân rộng phận toàn khung xương xác nhận Mơ hình phương thức thể hình báo [121] Trong bước đầu tiên, sở liệu hình bóng người khung xương khơng gian 3-D người tương ứng tạo phần mềm trích dẫn số 1,2 báo [121], cách thay đổi hoạt động khác nhau, quần áo hình ảnh đại diện (avatar) Bước thứ hai, bóng phát 2-D dựa vào việc học đặc 76 luan an Hình 2.30 Minh họa mơ hình hoạt động mạng [118] trưng HOG (Histogram of Oriented Gradients)[122] với kích thước tăng giảm khác Bước thứ ba thực việc miêu tả hình dáng bóng sử dụng miêu tả hình học Krawtchouk [123] Bước cuối so khớp khung xương với hình bóng cở sở liệu xây dựng Trong hướng tiếp cận ước lượng khung xương, tư 3-D người sử dụng chuỗi ảnh có nghiên cứu Rhodin cộng [124] Trong nghiên cứu tác giả đề xuất mơ hình ước lượng khung xương, tư 3-D người dựa hình ảnh chụp từ người góc nhìn khác Trong mơ hình mã hóa giải mã huấn luyện hình ảnh để dự đốn khung xương, tư người từ ảnh đầu vào Sau kết ước lượng ánh xạ sang không gian 3-D cách đơn giản tư người khơng gian 3-D xây dựng từ khung hình người từ hướng nhìn khác Mơ hình ước lượng bái báo thể Hình 2.31 2.2.3 Phục hồi khung xương, tư người không gian 3-D Để giải vấn đề ước lượng tư chuyển động người khơng gian 3-D, q trình thường sử dụng kỹ thuật thị giác máy tính Những nghiên cứu dựa hình ảnh chuỗi hình ảnh/ ảnh từ nhiều hướng nhìn khác Vấn đề ước tính hành động tư người áp dụng nhiều ứng dụng như: tương tác người với người (như ngôn ngữ thể nhận dạng cử chỉ), tương tác người với robot, giám sát video (sử dụng để truyền đạt hành động người) [84] Để giải ước lượng tư người không gian 3-D từ hình ảnh nhất, nghiên cứu thường thực từ ước lượng tư 2-D (trên ảnh) sau ánh xạ vào khơng gian 3-D Mơ hình thường áp dụng để ước tính tư người chiều hiển thị Hình [84] Trong phần này, luận án xem xét chi tiết nghiên cứu ước 77 luan an Hình 2.31 Minh họa ước lượng khung xương, tư 3-D người từ chuỗi hình ảnh [124] lượng tư người không gian 3-D theo hai hướng tiếp cận Đặc biệt vài năm gần đây, số lượng nghiên cứu ước lượng tư người không gian 3-D công bố nhiều hội nghị tạp chí uy tín khoa học máy tính thị giác máy tính Nó hiển thị Hình 2.32 2.2.3.1 Nghiên cứu so sánh khôi phục khung xương người không gian 3-D Vấn đề ước lượng khung xương, tư 3-D người vấn đề có nhiều thách thức hệ tọa độ liệu huấn luyện với liệu kiểm tra Hay số lượng độ phức tạp để tạo nên mơ hình ước lượng điểm xương không 3-D lớn Như trình bày vấn đề ước lượng khung xương, tư 3-D người thường giải theo hai hướng ánh xạ từ kết ước lượng không gian 2-D ước lượng dựa chuỗi hình ảnh Trong nghiên cứu luận án áp dụng hướng tiếp cận Tome cộng (CS) [85] đề xuất nghiên cứu so sánh để thấy hiệu của mạng nơ ron tích chập cho việc ước lượng khung xương, tư người khơng gian 3-D Mơ hình thể Hình 2.33 ❼ Phương thức thứ "3-D_COCO_Method": Ước lượng 2-D sử dụng CPM huấn luyện sở liệu COCO [23] + ước lượng 3-D nghiên cứu Tome CS [85] Thực chất hướng tiếp cận sử đầu phương thức (Method 1), Hình 2.9 nghiên cứu so sánh đánh giá ước lượng khung xương không gian 2-D đầu vào cho ước lượng, khôi phục khung xương không gian 3-D ❼ Phương thức thứ hai "3-D_HUMAN3.6_Method": Ước lượng 2-D sử dụng CPM 78 luan an Statistics of published studies on the 3-D human pose estimation following each year 30 25 20 15 10 2000 2001 2006 2014 2016 2017 2018 Jul-19 Hình 2.32 Thống kê số lượng nghiên cứu ước lượng khung xương người không gian 3-D theo năm huấn luyện Human 3.6m [86] + ước lượng 3-D nghiên cứu Tome CS [85] Phương thức sử dụng đầu phương thức (Method 2), Hình 2.9 nghiên cứu so sánh đánh giá ước lượng khung xương không gian 2-D đầu vào cho ước lượng, khôi phục khung xương không gian 3-D ❼ Phương thức thứ ba "3-D_VNECT_Method": Ước lượng khung xương 2-D 3-D sử dụng mạng VNect nghiên cứu Mehta CS [128] Quá trình ước lượng khung xương, tư 3-D người thực dựa việc ánh xạ kết ước lượng không gian 2-D vào không gian 3-D Thực chất trình việc so sánh kết ước lượng khơng gian 2-D để tìm mơ hình tốt tập liệu huấn luyện Quá trình q trình tìm mơ hình khung xương, tư thế, với góc quay tối ưu, mơ hình gần tìm dựa phân phối Gaussian (hàm lỗi nhỏ nhất) Việc tối ưu tối ưu tập biến, từ tập N khung xương 3-D, biểu diễn ma trận Pi (3 × L) khớp nối 3-D, i ∈ 1, 2, , N L số khớp người 3-D Hướng tiếp cận tìm ước lượng tồn cục mức trung bình tư 3-D, ma trận e sở trực giao J phương sai nhiễu σ, với lần xoay mẫu 79 luan an Kết ước lượng 3-D Ánh xạ sang 3-D nhờ kỹ thuật so sánh Ước lượng khung xương ảnh Ảnh đầu vào Human3.6m 3-D_COCO_Method Ước lượng khung xương 2-D ( trained CPMon COCO dataset) Ước lượng tư 3-D phương thức Tome et al CVPR 2017 3-D_HUMAN3.6_Method Khung xương, tư ước lượng Ước lượng khung xương 2-D ( trained CPMon Human 3.6H dataset) Ảnh RGB đầu vào Ước lượng tư 3-D phương thức Mehta et al SIGGRAPH 2017 3-D_VNECT_Method Ước lượng khung xương 2-D sử dụng mơ hình Mehta et al SIGGRAPH 2017 – trained on MPII, LSP dataset MPI-INF-3DHP Nghiên cứu so sánh 3-D Hình 2.33 Minh họa mơ hình nghiên cứu so sánh ước lượng khung xương, tư không gian 3-D Ri hệ số để tối thiểu hóa theo cơng thức sau: arg R,µ,a,e,σ N X (|| Pi − Ri (µ + e) ||22 + i=1 J X j=1 (ai,jσj ) + ln J X σj2 ) (2.19) j=1 P Trong đó, e = j ai,j ej tương tự tenxơ phép nhân vectơ ma trận, || ||22 tiêu Frobenius bình phương ma trận, trục y giả sử để lên ma trận xoay mà Ri xem phép xoay so với mặt phẳng đất Một số tham số mơ hình CNN hướng tiếp cận Tome CS [85] thể Hình 2.34 Trong mơ hình nghiên cứu so sánh phương thức thứ ba dựa nghiên cứu Mehta cộng [128], thể Hình 2.33 Trong mơ hình nghiên cứu thứ hai, luận án sử dụng mơ hình theo hướng sử dụng mạng nơ ron tích chập kết hợp với chuyện động khớp xương động học cho việc ước lượng khung xương, tư người ảnh sau ánh xạ sang khơng gian 3-D [128], gọi "VNect" Mơ hình mạng thể hình 2.35 Đầu vào mơ hình 80 luan an Hình 2.34 Minh họa tham số mơ hình CNN Tome CS [85] khung hình màu (ảnh RGB), sau người cắt khung bao phát từ khung hình trước Bản đồ điểm bật (heatmap) dự đoán việc sử dụng mạng quy hồi CNN sau lọc nhờ sử dụng mẫu khung xương sở liệu huấn luyện Cuối điểm đại diện ánh xạ sang khơng gian 3-D Mơ hình đánh giá có tốc xử lý thời gian thực, hoạt động mơi trường ngồi trời Rất thích hợp cho việc xây dựng ứng dụng tương tác người máy trời Đặc biệt việc huấn luyện đặc trưng cho việc học dự đoán đồ điểm bật dựa mạng ResNet (Deep Residual Networks) [129], mạng cung cấp ý tưởng đột phá cho việc xây dựng đồ đặc trưng huấn luyện Mạng ResNet báo xây dựng tảng thư viện Tensorflow [130] Mơ hình mạng sử dụng cở sở liệu MPII [104], LSP [131], [132] cho việc huấn luyện ước lượng điểm đại diện, khung xương ảnh Và sử dụng sở liệu Human 3.6M [86] MPI-INF-3DHP [133] cho việc chiếu khung xương không gian ảnh sang không gian 3-D Một số tham số mơ hình CNN [128] thể Hình 2.36 81 luan an Hình 2.35 Minh họa kiến trúc mạng VNect [128] Hình 2.36 Minh họa tham số mơ hình CNN VNect Dữ liệu đầu ước lượng khung xương không gian 2-D 3-D dựa mơ hình báo 21 điểm đại diện theo thứ tự Hình 2.37 Hình 2.38 minh họa kết ước lượng điểm đại diện ảnh khung xương không gian 3-D 2.2.3.2 Thí nghiệm kết ước lượng khung xương 3-D Trong nghiên cứu này, luận án thưc đánh giá 24/24 video sở liệu "VNMA" miêu tả phần 2.1.3.2 Và đánh giá giá sở liệu MADS [32] Qua tìm hiểu thực hai nghiên cứu ước lượng khung xương, tư khơng gian 3-D: Thứ mơ hình Tome CS [85] có đầu 17 điểm khung xương, minh họa xếp Hình 2.17 Hướng tiếp cận Mehta CS [128] có đầu 21 điểm đại diện khung xương thể Hình 2.37 Nên giao hai tập liệu đầu ra, luận án thực đánh giá kết ước lượng khung xương, tư không gian 3-D với 15 điểm đại điện, thể Hình 2.39 Và vấn đề đồng hệ trục tọa độ liệu ước lượng liệu gốc thực trình bày Phần 2.1.3.4 + Kết ước lượng khung xương không gian 3-D sở liệu VNMA 82 luan an (1) Đầu (17) Mũi (3) Vai trái (2) Cổ (6) Vai phải (7) khuyủ tay phải (4) khuyủ tay trái (5) cổ tay trái (16) Xương sống (8) cổ tay phải (18) Tay trái (19) Tay phải (9) Giữa hông (12) Hông phải (9) Hông trái (13) Đầu gối phải (10) Đầu gối trái (12) Cổ chân trái (14) Cổ chân phải (20) Chân trái (21) Chân phải Hình 2.37 Minh họa xếp thứ tự khớp không gian 3-D mạng VNect Kết ước lượng khung xương, tư người không gian 3-D sở liệu VNMA thể Bảng 2.8 Hình 2.40 thể phân bố khoảng cách lỗi ước lượng khung xương, tư người không gian 3-D sở liệu VNMA với 15 điểm đại diện cho việc đánh giá khung hình Như thể Bảng 2.8 Hình 2.40, thấy kết ước lượng phương thức thứ "3-D_COCO_Method" tốt (sai số khoảng cách 170.866 mm) Hình 2.41 thể số kết ước lượng khung xương không gian 3-D liệu VNMA với 17 điểm đại diện + Kết ước lượng khung xương không gian 3-D sở liệu MADS Kết ước lượng khung xương, tư người không gian 3-D sở liệu MADS thể Bảng 2.9 83 luan an Hình 2.38 Minh họa kết ước lượng khơng gian 2-D 3-D sử dụng mạng VNect [128] Bên trái kết ước lượng khung xương không gian 3-D; Giữa kết ước lượng khung xương ảnh; Bên phải kết ước lượng điểm đại diện khung xương không gian 2-D Hình 2.42 thể phân bố khoảng cách lỗi ước lượng khung xương, tư người không gian 3-D sở liệu MADS với 15 điểm đại diện cho việc đánh giá khung hình Bảng 2.9 Hình 2.42 cho thấy kết ước lượng dựa phương thức thứ "3-D_COCO_Method" tốt hẳn hai phương thức gốc "3-D_HUMAN3.6_Method" [85] "3-D_VNECT_Method" [128] ước lượng khung xương, tư người khơng gian 3-D Giá trị lỗi trung bình (MPJPE) phương thức luận án đề xuất "3D_COCO_Method" 87.94375 mm Phương thức "3-D_VNECT_Method" có kết thấp nhất, giá trị lỗi trung bình (MPJPE) 139.4058 mm Thơng qua trình kiểm tra đánh dấu bước thực phương thức "3-D_VNECT_Method", luận án nhận thấy kết ước lượng khung xương, tư ảnh (không gian 2-D) thấp, minh họa Hình 2.43 Ta thấy kết ước lượng có điểm xương nằm liệu người Như dựa kết Bảng 2.8, 2.9 Hình 2.40, 2.42, thấy phương thức "3-D_COCO_Method" có kết ước lượng tốt Như khẳng định rằng, có kết ước lượng 2-D tốt có kết ước lượng 3-D tốt (giá trị trung bình khoảng cách lỗi thấp.) 2.2.3.3 Kết luận Trong chương này, nghiên cứu hệ thống hóa, khảo sát thống kê hướng tiếp cận nghiên cứu giải toán ước lượng khung xương, tư không gian 3-D Đặc biệt đề xuất đươc nghiên cứu so sánh để chọn mơt hình tốt cho việc ước lượng khung xương, tư người không gian 3-D Các kết 84 luan an (1) Đầu (6) Vai trái (2) Cổ (3) Vai phải (4) khuyủ tay phải (7) khuyủ tay trái (5) cổ tay phải (8) cổ tay trái (13) Hông trái (9) Giữa hông (10) Hông phải (11) Đầu gối phải (14) Đầu gối trái (12) Cổ chân phải (15) Cổ chân trái Hình 2.39 Minh họa mơ hình khung xương, tư không gian 3-D cho việc đánh giá cho thấy có kết ước lượng 2-D tốt làm đầu vào cho việc ước lượng, khôi phục khung xương không gian 3-D tốt (Phương thức "3-D_COCO_Method" có kết ước lượng tốt 87.94375 mm), phương thức sử dụng kết phương thức miêu tả Chương làm đầu vào cho ước lượng 3-D Các kết đánh giá với nghiên cứu so sánh sở liệu võ thuật cổ truyền: Võ thuật cổ truyền Việt Nam (VNMA); Võ thuật cổ truyền Nhật Bản (Karate); Võ thuật cổ truyền Trung Quốc (Tai Chi) Đồng thời luận án thể ưu điểm ước lượng khung xương, tư người không gian 3-D so với ước lượng không gian 2-D (không gian ảnh) 2.2.4 Ước lượng khung xương, tư người bị che khuất Vấn đề ước lượng khung xương, tư người số phận người bị che khuất nghiên cứu nghiên cứu Sarandi CS [34] Các tác giả đánh giá sở liệu Human 3.6M với sai số MPJPE khoảng từ 56 đến 65mm Trong nghiên cứu này, luận án sử dụng hướng tiếp cận Tome CS [85] cho việc ước lượng khung xương, tư người không gian 3-D với đầu vào cho việc ước lượng khung xương 3-D kết ước lượng CPM huấn luyện sở liệu MSCOCO Key points Challeng [23] Thực chất hướng tiếp cận phương thức 85 luan an 18000 CMP training by COCO CMP training by Human 3.6m VNECT CNN training by MPII, LSP The number of key points 16000 14000 12000 10000 8000 6000 4000 2000 0 200 400 600 800 1000 1200 1400 1600 1800 MPJPE (mm) in VNMA dataset with 15 points Hình 2.40 Phân bố khoảng cách lỗi điểm đại diện liệu gốc liệu ước lượng không gian 3-D sở liệu VNMA Trong đó: "CMP training by COCO" "3-D_COCO_Method" , "CMP training by Human 3.6m" "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" "3D_VNECT_Method" thứ "3-D_COCO_Method" nghiên cứu so sánh trình bày Phần 2.2.3.1 Trong q trình ước lượng khung xương, tư không gian 3-D từ khung xương 2-D trình so khớp chọn mơ hình khung xương phù hợp thư viện khung xương 3-D chuẩn bị trước (bộ khung xương 3-D sở liệu Human 3.6M [86]) Nên có nhiều khớp bị che khuất hướng tiếp cận ước lượng đầy đủ khớp xương không gian 3-D Về đánh giá tỷ lệ che khuất nghiên cứu luận án chưa đánh giá cụ thể số khớp xương che khuất ước lượng Tuy nhiên, dựa quan sát luận án hầu hết trường hợp khớp xương bị che khuất sở liệu võ thuật cổ truyền Việt Nam (VNMA) ước lượng Hình 2.44 minh họa số trường hợp ước lượng đầy đủ khớp xương khung xương người không gian 3-D Trong đó, video "video_24" đường dẫn https://github.com/PandaThanh/ 3d_code thể thời gian thực với hình ảnh đầu vào ảnh màu đầu kết ước lượng đầy đủ khớp xương không gian 3-D, trường hợp nhìn thấy khớp xương số khớp xương bị che khuất 86 luan an ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VỀ MƠ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU Ngành: Kỹ thuật điện tử Mã số : 9520203 LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA... an LỜI CAM ĐOAN Tôi xin cam đoan luận án: "Về mơ hình nhận dạng tư võ dựa ảnh chiều sâu" cơng trình nghiên cứu riêng Một phần số liệu, kết trình bày luận án trung thực, cơng bố tạp chí khoa học... thơng qua cảm biến hình ảnh Ngữ cảnh, ràng buộc, thách thức Hình thể ngữ cảnh dạy võ cổ truyền võ đường Thông tin mà cảm biến hình ảnh thu ảnh từ phía mơi trường lớp võ thuật Đầu môi trường tái tạo

Ngày đăng: 31/01/2023, 20:47

Xem thêm:

w