về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu tt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN TƯỜNG THÀNH VỀ MƠ HÌNH NHẬN DẠNG TƯ THẾ VÕ DỰA TRÊN ẢNH CHIỀU SÂU Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội −2020 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: TS Lê Dũng TS Phạm Thành Công Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi giờ, ngày .tháng .năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết nghiên cứu Võ cổ truyền môn thể thao, nghệ thuật thể sắc dân tộc Võ thuật giúp rèn luyện sức khỏe, tự vệ cho người dân tộc, đất nước Ở Việt Nam từ năm 2016, võ cổ truyền đưa vào giảng dạy trường phổ thông để rèn luyện sức khỏe tự vệ cho em học sinh Nên việc xây dựng mơ hình chấm điểm võ truyền dạy lớp điều cần thiết Các mơ hình giúp học sinh phổ thông tự đánh giá tư võ võ mà không cần phải nhờ đến võ sư võ đường Tuy nhiên, võ hành động nhanh, khó, quay bốn hướng mà thiết bị ghi hình thường nằm vị trí nên có nhiều tư bị che khuất Nên để bảo tồn, truyền, dạy võ cách trực quan việc phát hiện, ước lượng võ cảnh bị che khuất việc làm cần thiết Đồng thời xây dựng môi trường 3-D để trực quan hóa việc đào tạo dạy võ cổ truyền vấn đề cần thiết để giảm thời gian, chi phí, cơng sức võ sư Đặc biệt tăng tính tự giác đánh giá luyện tập học sinh phổ thông Để thu thập video phục vụ cho việc bảo tồn trì võ người ta thường sử dụng cảm biến hình ảnh loại camera gắn điện thoại thông minh, hay loại camera chuyên dụng Đặc biệt, để xây dựng khung cảnh (môi trường) 3-D tư võ người ta thường sử dụng cảm biến có ảnh độ sâu Kinect phiên (Version - V1), Kinect phiên (Version - V2), Real scene D435, vv Trong đó, cảm biến Kinect V1 loại cảm biến rẻ tiền (giá thị trường khoảng triệu Việt Nam đồng - 40 USD) chất lượng ảnh màu, ảnh độ sâu cảm biến chấp nhận Với giá thành rẻ phù hợp với túi tiền người Việt Nam khả phổ dụng loại cảm biến cao so với cảm biến khác Cảm biến MS Kinect thu thập liệu khung xương tư người Tuy nhiên, liệu khung xương thu từ cảm biến MS Kinect v1 bị nhiều Do trước thực xây dựng mơ hình đánh giá chấm điểm động tác võ truyền dạy lớp cần thực nghiên cứu ước lượng, khôi phục khung xương người video võ thuật cổ truyền Dữ liệu thu từ cảm biến Kinect v1 bao gồm ảnh màu ảnh độ sâu, thực ước lượng điểm đại diện khớp xương ảnh màu có nhiều trường hợp khớp xương bị che khuất ước lượng Khi thực ước lượng ảnh độ sâu có số trường liệu ảnh độ sâu bị thiếu liệu nên có nhiều điểm đại diện khớp nối không ước lượng Tuy nhiên ảnh độ sâu chứa thông tin không gian thực (giá trị độ sâu) người nên ước lượng khớp xương trường hợp bị che khuất Nên luận án thực kết hợp kết ước lượng ảnh màu chiếu kết ước lượng vào khơng gian 3-D để có kết ước lượng điểm đại diện khớp xương cao Các phương thức ước lượng khung xương, tư người ảnh màu không gian 3-D gần thường sử dụng mạng Nơ ron tích chập cho việc huấn luyện mơ hình ước lượng Các kết đánh giá sở liệu tư võ cổ truyền Nhật (Karate) Trung Quốc (Tai Chi) Đặc biệt, luận án công bố sở liệu võ cổ truyền Việt Nam em học sinh phổ thông biểu diễn đánh giá kết ước lượng điểm đại diện khớp xương sở liệu không gian 2-D 3-D để xây dựng hệ thống bảo tồn, giảng dạy, đánh giá võ cổ truyền Việt Nam trực quan Ý tưởng luận án này, mơ hình xây dựng ứng dụng luận án bao gồm số bước: (1) Từ liệu đầu vào thu từ cảm biến MS Kinect (ảnh màu, ảnh độ sâu); (2) Sử dụng mạng nơ ron tích chập thiết kế để huấn luyện mơ hình ước lượng ảnh màu ảnh độ sâu; (3) Kết hợp kết ước lượng không gian 2-D 3-D, biểu diễn kết không gian 3-D, khớp xương người video ước lượng khôi phục đầy đủ (4) từ xây dựng mơ hình chấm điểm động tác võ cổ truyền áp dụng cho em học sinh phổ thơng tự đánh giá võ Trong bước (2) bước quan trọng mơ hình Mục tiêu, đối tượng phạm vi nghiên cứu Mục tiêu luận án là: - Đề xuất hướng tiếp cận để ước lượng phục hồi khung xương không gian 3-D để xây dựng hệ thống tái tạo môi trường 3-D video biểu diễn võ thuật ước lượng khung xương, tư người video Phương thức kết hợp ước lượng điểm đại diện khớp nối ảnh màu (không gian 2-D) ước lượng khơng gian 3-D để có kết ước lượng khớp xương tốt, đặc biệt khôi phục khớp xương trường hợp phận người bị che khuất - Từ khung xương người ước lượng khôi phục đầy đủ khớp, xây dựng mơ hình chấm điểm động tác võ video thu từ lớp võ biểu diễn võ thuật em học sinh phổ thông, giúp em tự đánh giá võ thuật truyền dạy Hơn nhận dạng động tác cơng để phục vụ cho việc phân tích điểm mạnh điểm yếu tư võ thuật cổ truyền Ngữ cảnh, ràng buộc, thách thức Nghiên cứu yêu cầu số ràng buộc sau: ❼ Cảm biến MS Kinect phiên 1: Một cảm biến MS Kinect phiên gắn giá cố định đặt phía lớp dạy võ thuật Một cảm biến MS Kinect phiên thu thập ảnh màu, ảnh độ sâu với tốc độ thông thường từ (từ 10 đến 30 khung hình/giây) với độ phân giải 640×480 điểm ảnh cho hai loại ảnh Người (võ sư, học viên) biểu diễn võ thuật nằm vùng giới hạn có kích thước 3×3m Do giới hạn thu liệu cảm biến MS Kinect phiên 0.8 - 4m góc nghiêng tối đa 30o quanh tâm trục cảm biến MS Kinect ❼ Người biểu diễn võ thuật võ sư học viên lớp học võ thuật Có độ tuổi thường từ 12 tuổi trở lên, giới tính nam nữ Người mặc trang phục không bóng, tức khơng bao quanh nilon Mỗi video thường có người ❼ Ảnh màu ảnh độ sâu thu từ cảm biến MS Kinect phiên kết hợp với chiếu sang không gian 3-D (thế giới thực) sử dụng tham số cảm biến Các đóng góp ý nghĩa khoa học luận án Trong suốt luận án, mục tiêu giải giải pháp thống Luận án đạt đóng góp sau: ❼ Đóng góp 1: Đề xuất mơ hình kết hợp ước lượng khung xương, tư 2-D tốt để có ước lượng tốt không gian 3-D Đặc biệt trường hợp liệu bị che khuất ước lượng 3-D ước lượng đầy đủ khớp xương Trong đó, ước lượng 2-D huấn luyện sở liệu tốt với mô hình mạng nơ ron tích chập dự đốn hiệu ❼ Đóng góp 2: Xây dựng mơ hình cho việc đánh giá chấm điểm động tác võ cổ truyền dựa số khớp xương thể người video biểu diễn võ cổ truyền học sinh phổ thông lớp võ Đồng thời nhận dạng động tác công liệu khung xương người Từ làm tiền đề cho việc xây dựng hệ thống hồn chỉnh cho việc tái tạo lại mơi trường 3-D khung xương, tư người video võ cổ truyền phục vụ cho việc lưu trữ, tự đánh giá dạy võ thuật trường phổ thông Mơ hình nghiên cứu cấu trúc nội dung luận án Từ đầu đến cuối, luận án không giải vấn đề theo cách đơn lẻ mà giải vấn đề thực tế đặt theo mô hình thống nhất, thể Hình Từ mơ hình áp dụng để xây dựng hệ thống thật thời gian tới việc hỗ trợ bảo tồn lưu trữ, đánh giá, dạy võ thuật cổ truyền trường phổ thông Dữ liệu vào (Ảnh màu, ảnh độ sâu) Ước lượng điểm đại diện khớp nối Biểu diễn liệu không gian 3-D Kết ước lượng điểm đại diện khớp nối Kết biểu diễn không gian 3-D Ứng dụng lưu trữ, dạy, đánh giá tư võ MS Kinect sensor version Ảnh màu Ảnh độ sâu Kết khung xương Hình Mơ hình giải vấn đề ước lượng khung xương, tư người không gian 3-D tái tạo lại môi trường thực tế Đặc biệt nghiên cứu luận án thể chia làm ba chương sau: ❼ Mở đầu: Chương thể vấn đề thúc đẩy thực nghiên cứu này, mục tiêu luận án ❼ Chương 1: Các nghiên cứu liên quan: Chương chủ yếu khảo sát hệ thống ứng dụng ước lượng khung xương, tư người môi trường 2-D 3-D, sở liệu phục vụ luận án dựa cảm biến kinect ảnh chiều sâu ❼ Chương 2: Chương miêu tả đánh giá việc ước lượng khung xương, tư người không gian 2-D (không gian ảnh).Các kết ước lượng khung xương, tư không gian 2-D đánh giá 2-D chiếu sang sang không gian 3-D để đánh giá Đánh giá ước lượng không gian 3-D với liệu công bố luận án video võ cổ truyền Việt Nam ❼ Chương 3: Chương giới thiệu ứng dụng đánh giá, chấm điểm động tác võ cổ truyền thực nhận dạng động tác công liệu khung xương người ❼ Kết luận: đưa kết luận hạn chế luận án Đồng thời định hướng nghiên cứu tương lai CHƯƠNG TỔNG QUAN Trong chương này, luận án trước tiên trình bày lại số lý thuyết học máy, học sâu, mạng nơ ron tích chập sử dụng nhiều luận án Tiếp theo luận án hệ thống hóa (survey) lại phương thức ước lượng khung xương (skeleton) thể người Các nghiên cứu thường xuất phát từ ảnh màu, ảnh độ sâu, chuỗi hình ảnh hay ảnh từ nhiều hướng nhìn khác để ước lượng khung xương thể người Đặc biệt phân tích nghiên cứu liên quan cho việc ước lượng khung xương thể người không gian 2-D trình bày Phần 1.3, nghiên cứu liên quan ước lượng khung xương không gian 3-D trình bày Phần 1.4 Cuối cùng, sở liệu kinh điển cho việc đánh giá ước lượng khung xương khơng gian 3-D trình bày phân tích Phần 1.5 1.1 Học máy, học sâu ứng dụng 1.1.1 Học máy 1.1.2 Học sâu 1.2 Hệ thống khôi phục hoạt động người không gian 3-D chấm điểm võ thuật 1.2.1 Hệ thống khôi phục hoạt động người không gian 3-D 1.2.2 Hệ thống chấm điểm võ thuật 1.3 Ước lượng khung xương thể người không gian 2-D 1.3.1 Ước lượng khung xương ảnh màu 1.3.2 Ước lượng khung xương ảnh độ sâu 1.3.3 Ước lượng tư dựa đối tượng ngữ cảnh hoạt động 1.3.4 Nhận xét 1.4 Ước lượng khung xương tư người môi trường 3-D 1.4.1 Phục hồi tư 3-D người từ ảnh 1.4.2 Phục hồi tư 3-D người từ chuỗi ảnh 1.4.3 Nhận xét 1.5 Các sở liệu cho việc đánh giá ước lượng khung xương khơng gian 3-D 1.5.1 Giới thiệu Kinect Trong q trình thu thập liệu người biểu diễn võ thuật (võ sư, học viên võ đường), sử dụng cảm biến Microsfoft (MS) Kinect phiên (version - v1) 1.5.2 Hiệu chỉnh liệu thu từ cảm biến Kinect Dữ liệu ảnh màu ảnh độ sâu thu từ cảm biến Kinect v1 bao gồm cặp ảnh tương ứng với Mặc dù hai loại ảnh kích thước, nhiên tâm chúng bị lệch hai loại liệu thu hai cảm biến hình ảnh khác (cảm biến ảnh màu cảm biến IR (InfraRed camera)) Để chuyển liệu ảnh sang liệu đám mây điểm không gian 3-D, tọa độ thực điểm ảnh (Xp , Yp , Zp ) giá trị màu điểm ảnh chiếu từ 2-D sang khơng gian 3-D tính tốn theo cơng thức sau: Xp = Yp = (xa −cx )∗depthvalue(xa ,ya ) fx (ya −cy )∗depthvalue(xa ,ya ) fy Zp = depthvalue(xa , ya ) C(r, g, b) = colorvalue(xa , ya ) (1.1) depthvalue(xa , ya ) giá trị độ sâu điểm ảnh (xa , ya ) ảnh độ sâu, colorvalue(r, g, b) giá trị màu điểm ảnh (xa , ya ) ảnh màu 1.6 Tổng kết chương CHƯƠNG ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D Việc ước lượng tư người nghiên cứu nhiều nhiều thách thức khơng gian 2-D Vì hành động võ thuật thường nhanh phức tạp Đặc biệt có nhiều trường hợp tư chi bị che khuất, tư hướng khác mà cảm biến thu thập liệu nhìn từ hướng liệu khung xương bị nhiều sử dụng cảm biến MS Kinect v1 để thu thập liệu Ước lượng dự đoán hành động thể người vấn đề nghiên cứu nhiều cộng đồng thị giác máy tính cơng nghệ robot Ước lượng tư thế, khung xương người khơng gian 2-D việc ước lượng vị trí khớp nối thể người ảnh video Mỗi khớp nối tạo thành từ điểm đại diện Trong tọa độ điểm đại diện có giá trị (x, y) ảnh Để ước lượng tư thế, khung xương người ảnh video thực theo hai hướng tiếp cận: hướng tiếp cận cổ điển hướng tiếp cận dựa học sâu (deep learning) Do đó, nội dung phần công việc này, luận án sử dụng học sâu để ước lượng dự đoán hành động người liệu video biểu diễn võ võ sư học viên Hướng tiếp cận dựa việc học dự đoán điểm đại diện mơ hình khung xương người liệu COCO Human 3.6M 2.1 Uớc lượng khung xương không gian 2-D 2.1.1 Giới thiệu 2.1.2 Các nghiên cứu liên quan 2.1.3 Sử dụng học sâu cho việc ước lượng hành động võ cổ truyền không gian 2-D 2.1.3.1 Phương thức Như Hình 2.1, CNN bao gồm hai nhánh thực hai công việc khác Từ liệu đầu vào, tập hợp đồ đặc trưng F tạo từ phân tích hình ảnh, sau đồ độ tin cậy phép biến đổi hình học phát giai đoạn Các điểm đại diện liệu huấn luyện hiển thị đồ độ tin cậy hiển thị Những điểm huấn luyện để ước lượng điểm đại diện hình ảnh màu Nhánh (nhánh cùng) sử dụng để ước lượng điểm đại diện, nhánh thứ hai (nhánh cùng) sử dụng để dự đoán khớp tương ứng với nhiều người Để trực quan hóa kết ước lượng khung xương bước trình ước tính tư người 3-D, luận án đề xuất nghiên cứu so sánh ước lượng tư thế, khung xương người không gian 2-D (Nghiên cứu so sánh 2-D), hiển thị Hình 2.2 Input image Confidence maps Affinity fields Hình 2.1 Kiến trúc mạng nơ ron tích chập cho việc ước lượng điểm đại diện St , phận phù hợp thể người khác [1] Trong Hình 2.2, luận án đánh giá theo hai phương thức: Phương thức (Phương thức - Method 1) sử dụng mạng CNN CPM huấn luyện trên sở liệu COCO [2]; Phương thức thứ hai (Phương thức - Method 2) sử dụng mạng CNN CPM huấn luyện trên sở liệu Human 3.6M Kết ước lượng khung xương, tư người không gian 2-D với tọa độ điểm đại diện ước lượng (xi , yi ) hình ảnh màu, sau chúng kết hợp với điểm ảnh có tọa độ (xi , yi ) hình độ sâu theo phương trình (1.1) để tạo điểm đại diện (Xp , Yp , Zp ) không gian 3-D 2.1.3.2 Cơ sở liệu võ cổ truyền Môi trường mà võ sư học biên biểu diễn võ thuật có kích thước 3×3m Thiết bị thu liệu có cảm biến MS Kinect gắn giá đặt cố định Bộ liệu thu bao gồm 24 cảnh gọi tên "VNMA - VietNam Martial Arts" với 24 video tương ứng Cơ sở liệu thứ hai mà luận án đánh giá việc ước lượng khung xương, tư người MADS- the Martial Arts, Dancing and Sports [4] Cơ sở liệu bao gồm video thu thập nhiều hướng nhìn (multi-view RGB videos) hướng nhìn (depth videos) Nó bao gồm kiểu hành động thách thức: Tai-chi, Karate, nhảy Hip-hop (Hip-hop dance), Khiêu vũ thể thao (Jazz dance and sports) 2.1.3.3 Phương thức đánh giá + Đánh giá không gian 2-D: Cũng giống [1], luận án đánh giá độ tương tự điểm đại diện (object key point similarity (OKS)) sử dụng độ xác trung bình (average precision (AP)) với ngưỡng OKS = 0.5 Luận án đánh giá độ đo (AD) thực tế có nhiều trường hợp khớp xương ước lượng có độ dài tương đồng với khớp xương gốc, bị lệch lên lệch xuống + Đánh giá không gian 3-D: Khung xương 2-D Ảnh đầu vào Huấn luyện CPM sở liệu COCO (Method 1) Chiếu kết 2-D sang không gian 3-D Mơ hình CNN cho ước lượng điểm đại diện 2-D Ảnh đầu vào (RGB) Ảnh độ sâu Kết ước lượng khung xương Huấn luyện CPM sở liệu Human 3.6M (Method 2) Kết khơng gian 3-D Nghiên cứu so sánh 2-D Hình 2.2 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư không gian 2-D Việc đánh giá kết ước lượng không gian 3-D quan trọng, mơi trường gần với môi trường thực Để đánh giá kết ước lượng khung xương không gian 3-D, luận án sử dụng độ sau: ❼ Cũng giống nghiên cứu Tome cộng [3], luận án sử dụng độ đo MPJPE (Mean Per Joint Position Error), độ đo có nghĩa trung bình lỗi vị trí khớp, tính cơng thức (2.1) M P JP Ek = NP i=1 (xgi − xei )2 + (ygi − yei )2 + (zgi − zei )2 NP (2.1) Với độ đo sử dụng để đánh giá kết ước lượng khung xương không gian 3-D với hai sở liệu: VNMA, MADS 2.1.3.4 Xoay dịch liệu không gian 3-D 2.1.4 Kết ước lượng thảo luận + Kết đánh giá ước lượng khung xương 2-D tập liệu SVNMA Tất kết ước lượng trung bình tập liệu SVNMA đánh giá thể Bảng 2.1 + Kết đánh giá ước lượng khung xương 3-D tập liệu VNMA Kết tập liệu VNMA theo độ đo MPJPE(Mean Per Joint Position Error)(mm -milimet) thể Bảng 2.2 Trong đó, Bảng 2.2 đánh giá kết ước lượng khung xương số khung hình thể Bảng 2.3 2-D pose 2-D pose 3-D pose 2-D pose 3-D pose 2-D pose 3-D pose 2-D pose 3-D pose 3-D pose Hình 2.4 Minh họa kết ước lượng khớp nối không gian 2-D 3-D Tư người không gian 3-D thể Matplotlib Python The number of key points 1400 CMP training by COCO CMP training by Human 3.6m 1200 1000 800 600 400 200 0 100 200 300 400 500 600 700 800 900 1000 MPJPE (mm) Hình 2.5 Phân bố khoảng cách lỗi điểm đại diện liệu gốc liệu ước lượng The number of key points x 10 CMP training by COCO CMP training by Human 3.6m 0 200 400 600 800 1000 1200 MPJPE (mm) on MADS dataset Hình 2.6 Phân bố lỗi khoảng cách lỗi MPJPE cặp điểm đại diện liệu gốc liệu ước lượng sở liệu MADS 10 Bảng 2.2 Kết ước lượng khung xương ảnh chiếu sang không gian 3-D với 14 điểm xương liệu VNMA Kết đánh giá độ đo MPJPE theo đơn vị milimet (mm) #Video 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Average MPJPE (mm) Method Method 83.4494 88.9625 102.095 107.6108 101.4525 112.7826 55.9622 65.564 60.4121 59.7409 63.1662 68.2497 63.2878 69.8307 64.4781 70.9096 66.6734 72.5311 67.7575 72.3694 69.1387 74.717 58.6456 63.5139 74.3258 71.0044 78.956 72.2256 78.956 72.2256 80.0844 74.8709 84.5111 77.9019 85.1324 80.2478 92.4574 84.4412 86.1522 82.6295 99.0398 88.3687 101.9936 96.3149 101.8342 102.5956 95.013 99.4776 79.7906 80.37858 11 Bảng 2.3 Số khung hình đánh giá liệu VNMA #Video 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Tổng Số khung hình đánh giá Method Method 36 36 59 66 58 56 40 36 70 65 98 93 50 45 38 39 66 56 67 65 80 82 51 48 75 80 67 69 65 51 99 98 111 99 88 92 65 59 77 76 84 72 67 55 98 84 1614 1528 Số khung hình liệu gốc 50 89 71 77 98 109 87 79 89 76 79 95 131 71 95 101 108 117 109 112 80 10 96 105 2134 Bảng 2.4 Kết ước lượng khung xương ảnh sau chiếu sang không gian 3-D sở liệu MADS với 14 điểm xương #Video Kata_F2 Kata_F3 Kata_F4 Kata_N2 Kata_N3 Kata_P3 Tai_chi_S1 Tai_chi_S2 Tai_chi_S3 Tai_chi_S4 Tai_chi_S5 Tai_chi_S6 Average MPJPE (mm) Method Method 167.0256 170.9718 92.8588 122.0557 169.6934 169.5459 90.6843 118.5762 131.483 166.6152 136.4613 151.514 121.4755 145.6657 107.303 141.7948 140.8937 177.942 137.6644 163.3607 147.1612 160.3719 124.4179 156.7291 130.5935083 153.7619 12 Bảng 2.5 Số khung hình cho việc đánh giá ước lượng khung xương ảnh sai chiếu sang khơng gian 3-D sở liệu MADS #Video Kata_F2 Kata_F3 Kata_F4 Kata_N2 Kata_N3 Kata_P3 Taichi_S1 Taichi_S2 Taichi_S3 Taichi_S4 Taichi_S5 Taichi_S6 Tổng Số khung hình sử dụng để đánh giá Method Method 1186 1207 874 812 1106 1106 875 872 1299 1148 961 822 494 493 462 461 369 321 484 485 424 425 488 478 9022 8630 13 Số khung hình liệu gốc 1300 1400 1400 1400 1400 1400 500 500 400 500 500 500 11200 2.2 Phục hồi khung xương, tư người không gian 3-D bị che khuất Luận án thực nghiên cứu ước lượng khôi phục khung xương không gian 3-D chương để khôi phục, ước lượng khung xương 3-D đầy đủ người video võ cổ truyền phục vụ để xây dựng mơ hình đánh giá, chấm điểm động tác võ thuật cổ truyền cho em học sinh phổ thông 2.2.1 Giới thiệu Luận án thể kết ước lượng khung xương bị che khuất không gian 3-D, trường hợp không ước lượng đầy đủ khớp xương không gian 2-D, minh họa Hình 2.7 Hình 2.7 Minh họa việc ước lượng khung xương, tư người không gian 3-D với liệu bị che khuất Bên trái thể kết ước lượng khung xương, tư người 2-D với ước lượng [1] Bên phải kết ước lượng tư thế, khung xương người không gian 3-D sử dụng ước lượng [3] 2.2.2 Các nghiên cứu liên quan 2.2.3 Phục hồi khung xương, tư người không gian 3-D 2.2.3.1 Nghiên cứu so sánh khôi phục khung xương người khơng gian 3-D Mơ hình thể Hình 2.8 2.2.3.2 Thí nghiệm kết ước lượng khung xương 3-D + Kết ước lượng khung xương không gian 3-D sở liệu VNMA Kết ước lượng khung xương, tư người không gian 3-D sở liệu VNMA thể Bảng 2.6 Hình 2.9 thể phân bố khoảng cách lỗi ước lượng khung xương, tư người không gian 3-D sở liệu VNMA với 15 điểm đại diện cho việc đánh giá khung hình + Kết ước lượng khung xương không gian 3-D sở liệu MADS Kết ước lượng khung xương, tư người không gian 3-D sở liệu MADS thể Bảng 2.7 Hình 2.10 thể phân bố khoảng cách lỗi ước lượng khung xương, tư người không gian 3-D sở liệu MADS với 15 điểm đại diện cho việc đánh giá khung hình 14 Ảnh đầu vào Ánh xạ sang 3-D nhờ kỹ thuật so sánh Ước lượng khung xương ảnh Kết ước lượng 3-D Human3.6m 3-D_COCO_Method Ước lượng khung xương 2-D ( trained CPMon COCO dataset) Ước lượng tư 3-D phương thức Tome et al CVPR 2017 3-D_HUMAN3.6_Method Ảnh RGB đầu vào Khung xương, tư ước lượng Ước lượng khung xương 2-D ( trained CPMon Human 3.6H dataset) 3-D_VNECT_Method Ước lượng khung xương 2-D sử dụng mơ hình Mehta et al SIGGRAPH 2017 – trained on MPII, LSP dataset Ước lượng tư 3-D phương thức Mehta et al SIGGRAPH 2017 MPI-INF-3DHP Nghiên cứu so sánh 3-D Hình 2.8 Minh họa mơ hình nghiên cứu so sánh ước lượng khung xương, tư không gian 3-D 2.2.3.3 Kết luận 2.2.4 Ước lượng khung xương, tư người bị che khuất 2.2.5 Kết luận 15 Bảng 2.6 Kết ước lượng khung xương ảnh sau chiếu sang không gian 3-D sở liệu VNMA với 15 điểm xương #Video 10 11 12 13 14 15 16 17 18 19 20 21 23 24 Average 3-D_COCO_ Method 114.0716 107.5917 88.5689 78.6414 99.0704 111.0964 114.7642 285.0776 90.6766 280.8594 91.2715 219.4037 89.3462 264.4068 85.9806 318.4422 99.5296 308.1409 110.9321 239.3639 81.9572 103.5087 267.6513 170.866 MPJPE (mm) 3-D_HUMAN3.6_ Method 114.0716 111.025 91.536 79.9366 101.6908 112.0768 118.3664 292.9947 92.9212 284.8666 91.2715 219.4037 89.3462 262.0707 87.3728 318.4422 101.7892 310.7236 110.9321 241.5342 81.9572 105.8891 292.217 173.7285 18000 CMP training by COCO CMP training by Human 3.6m VNECT CNN training by MPII, LSP 16000 The number of key points 3-D_VNECT_ Method 228.8319 332.8037 245.1891 239.818 282.843 292.2822 309.3528 318.6 253.3029 294.9349 249.4076 242.6467 267.3336 271.0392 254.4252 343.7987 271.0186 331.4765 320.2984 271.7371 206.8996 280.5987 282.1385 279.4472 14000 12000 10000 8000 6000 4000 2000 0 200 400 600 800 1000 1200 1400 1600 1800 MPJPE (mm) in VNMA dataset with 15 points Hình 2.9 Phân bố khoảng cách lỗi điểm đại diện liệu gốc liệu ước lượng không gian 3-D sở liệu VNMA Trong đó: "CMP training by COCO" "3-D_COCO_Method" , "CMP training by Human 3.6m" "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" "3-D_VNECT_Method" 16 Bảng 2.7 Kết ước lượng khung xương ảnh sau chiếu sang khơng gian 3-D sở liệu MADS với 15 điểm xương #Video 3-D_COCO_ Method 102.0685 78.0681 105.8182 79.0682 34.7923 101.3404 80.0703 79.3635 99.99 95.3349 99.2752 100.1354 87.94375 Kata_F2 Kata_F3 Kata_F4 Kata_N2 Kata_N3 Kata_P3 Tai_chi_S1 Tai_chi_S2 Tai_chi_S3 Tai_chi_S4 Tai_chi_S5 Tai_chi_S6 Average MPJPE (mm) 3-D_HUMAN3.6_ Method 147.1236 102.4019 133.6986 113.4793 135.7989 113.9912 106.2125 118.2341 127.516 124.6166 120.4779 123.6235 122.2645 3-D_VNECT_ Method 168.0953 122.2993 152.3534 165.0814 168.1528 129.7044 107.9224 114.8655 161.056 136.334 122.3163 124.6892 139.4058 The number of key points x 10 CMP training by COCO CMP training by Human 3.6m VNECT CNN training by MPII, LSP 0 [h] 200 400 600 800 1000 1200 MPJPE (mm) on MADS dataset Hình 2.10 Phân bố khoảng cách lỗi điểm đại diện liệu gốc liệu ước lượng không gian 3-D sở liệu MADS Trong đó: "CMP training by COCO" "3-D_COCO_Method" , "CMP training by Human 3.6m" "3-D_HUMAN3.6_Method", "VNECT CNN training by MPII, LSP" "3D_VNECT_Method" 17 2.3 Tổng kết chương CHƯƠNG NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ TRUYỀN VIỆT NAM Chương trình bày hai vấn đề: Thứ nhận dạng động tác công video biểu diễn võ thuật cổ truyền Việt Nam; Thứ hai ứng dụng xây dựng mơ hình chấm điểm động tác võ võ cổ truyền Việt Nam 3.1 Giới thiệu Trong phần này, luận án trình bày khả nhận dạng tư công võ 36 tư với liệu thu từ camera Kinect, với liệu cơng bố có sẵn mạng 3.2 3.3 Các nghiên cứu liên quan Cơ sở lý thuyết để nhận diện động tác công chấm điểm động tác võ 3.3.1 Nhận diện động tác công 3.3.1.1 Xử lý liệu Chuẩn bị tập mẫu giới thiệu chương 1, Dữ liệu thu sau lấy tọa độ 20 điểm thể xử lý chương sau động tác ghi vào file text, sau gán nhãn cho động tác: động tác công gán nhãn 1, thủ gán nhãn Tập liệu chia thành tập training bao gồm 289 động tác tập test bao gồm 66 động tác Mỗi tư thu khoảng cách 2.5 m ± 0.2 m 3.3 m ± 0.2 m, 3.3.1.2 Trích xuất đặc trưng thể người với camera Kinect Thuật toán học nút mô tả 3.3.2 Mơ hình chấm điểm động tác võ cổ truyền 3.3.2.1 Mô tả động tác người 3.3.2.2 Công thức chấm điểm Xem xét thực tế, nghiên cứu quan sát từ thí nghiệm, nghiên cứu sinh gán trọng số khác cho thành viên mảng khoảng cách sử dụng tổng trọng số để bù đắp cho sai lệch thị giác Nghiên cứu đề xuất công thức chấm điểm công thức (3.5) Trước tiên tham số khoảng cách D: D = [f1 (α1 + α2 ) + f2 (α3 + α4 ) + f3 (α5 + α6 ) + f4 (α7 + α8 )] (3.1) Trong đó, để tính góc cho việc chấm điểm chi ước lượng sử dụng công thức (3.2) cosα = xst xre + yst yre + zst zre x2st + z2 + yst st + z2 x2re + yre re (3.2) Để tính tốn giá trị trọng số, hệ thống tự động thu thập 10 cặp cử gần xếp loại từ sở liệu mà có số điểm khoảng ± 15% tham khảo trung 18 Giải thuật 1: Thuật toán học nút định Input: Tập M , độ cao d Output: Đặc trưng F giá trị trả v nút Các bước: if |M | ≤ OR d ≥ M AX_DEP T H : v = mean_labels(M ) return F = N one best_err = M AX_V ALU E f or each f in F EAT U RE_SET : err = split_error(M, f ) if err < best_err : best_err = err 10 F =f 11 M0 , M1 = split_data(M, F ) 12 learn_node(M 0, d + 1) 13 learn_node(M 1, d + 1) bình cộng αi Giá trị trọng số tính cơng thức (3.3) fi = Avgi i=1 Avgi (3.3) Sau nhận giá trị D, mục tiêu nghiên cứu đưa D vào chia phần trăm điểm Cho phép nhập vào giá trị chuẩn Dst số điểm tham chiếu Sst Hàm giới hạn độ lệch cho phép nhập vào giá trị ngưỡng M (độ) để hạn chế cử độ lệch chấp nhận công thức (3.4) f (αmax ) = − 0.4 α M max (3.4) Khi ta có cơng thức chấm điểm là: Score = f (αmax ).[(Dst − D) × 100 − Sst + Sst Dst (3.5) Trong f (αmax ) biểu thị hàm giới hạn độ lệch Dst tự thiết lập người sử dụng theo nhu cầu họ, Dst nhỏ tiêu chuẩn cao phân loại Sst cung cấp cho người dùng tùy chọn để kiểm soát điểm phạm vi mong muốn 3.4 Thực nghiệm 3.4.1 Nhận diện động tác công 3.4.1.1 Nhận diện động tác công phân loại Thử nghiệm với liệu K3HI công bố mạng: Bộ K3HI xây dựng với số hành vi cụ thể Từ tập khung xương, nghiên cứu tiến hành gán nhãn trạng thái cho khung xương để làm liệu thử nghiệm Cụ thể, 19 với hành vi kicking K3HI, sau gán nhãn ta thu liệu 3752 mẫu khung xương Thử nghiệm tiến hành theo cách kiểm chứng chéo 10-fold, tức chia liệu làm 10 phần, tiến hành 10 lần thử, lần lấy phần để học thử nghiệm phần lại, tổng kết lại kết xác 3423/3752 ∼ 91.231343% Với số lựa chọn khác chiều cao định xây dựng, biểu đồ cho thấy chiều cao tăng, tức nhiều đặc trưng kết hợp hơn, độ xác tăng theo bên trái Hình 3.1 Từ chứng minh tính hiệu đặc trưng không gian sử dụng cách kết hợp Hình 3.1 Thể chiều cao cây, số đặc trưng độ xác liệu Thử nghiệm với liệu 36 võ thu Kinect : Bộ sở liệu sau ước lượng chương với khung xương 20 điểm, 15083 mẫu khung xương gán với nhãn công phòng thủ ta tiến hành thử nghiệm tương tự với liệu K3HI Cách thức kiểm chứng chéo (cross validation) lượt (folds) Lựa chọn khác chiều cao Biểu đồ cho thấy chiều cao tăng, tức nhiều đặc trưng kết hợp hơn, độ xác tăng theo, từ chứng minh tính hiệu đặc trưng không gian sử dụng cách kết hợp bên phải Hình 3.1 3.4.1.2 Nhận diện động tác công mạng nơ ron Cũng sử dụng sở liệu camera Kinect chương trước, sau ước lượng không gian 3D để có tọa độ chuẩn lựa chọn 14 điểm key có khả mơ tả đặc trưng võ nhằm làm giảm kích thước đầu vào mạng nơ ron Tại frame video, chọn đường thẳng qua đầu bụng làm trục tham chiếu cho thay đổi vị trí điểm thể, từ ta tính đươc vị trí điểm thể frame khác Như frame quy đổi thành vector 14 chiều ;tương ứng với 14 vị trí điểm thể Mỗi video chuẩn hóa thành ma trận có kích thước 50x14 (Mỗi video có 50 frame) Ta tiến hành xây dựng mơ hình LSTM sử dụng thư viện: Tensorflow với số lượng hidenlayer : 32, window size (số lượng frame đưa vào lần để dự đoán đầu ra): 50.learning rate : 0,005.Thuật toán tối ưu: Adam.batch size: 100 Kết quả: test tập test võ 20 Hình 3.2 Kết nhận dạng tập Test võ công cơng hình 3.2 Kết cho thấy hiệu nhận dạng động tác công chạy mạng nơ ron LSTM có hiệu cao, số liệu tọa độ điểm ước lượng có hiệu cao độ xác phát động tác 3.4.2 Chấm điểm động tác võ cổ truyền Việt Nam Nghiên cứu thu thập 36 động tác đưa võ sư cho có mức hiệu suất Nghiên cứu thiết lập đầu vào người dùng Dst = 50, Sst = 80, M = 35 36 cử lớp (3.5) Sau máy tính thu liệu người biểu diễn liệu từ camera, so sánh ghi điểm lập tức, sau điểm dừng đọc tới hình ảnh tư liệu sau đưa hình ảnh hình đến cuối video phát Cuối chương trình, máy tính cho tổng số điểm người biểu diễn (Hình 3.3) Đóng góp cơng việc đưa đây: ❼ Thực nhận dạng chấm điểm động tác võ võ theo sở liệu mẫu 3-D cho trước ❼ Xây dựng sở liệu mẫu 3-D để chấm điểm võ cổ truyền dành cho chương trình thể dục đưa vào chương trình học trường phổ thơng từ năm 2016 ❼ Xây dựng chương trình phần mềm để người dùng chọn độ khó việc chấm thơng qua thơng số nhập vào 21 Hình 3.3 Giao diện chương trình chấm điểm 3.5 Kết luận Dựa vào kết đạt được, mơ hình nhận dạng tư người thực nhận dạng hành động công hai phương pháp phân loại mạng nơ ron LRTM có độ xác nhận dạng cao Việc áp dụng công thức chấm điểm động tác vào liệu khung xương thu từ camera Kinect để xây dựng phần mềm đánh giá động tác võ cổ truyền Việt Nam mở đầu cho việc áp dụng đánh giá tự chấm điểm người học; từ người học tự rèn luyện động tác võ ban đầu tự đánh giá thơng qua camera Kinect góp phần vào việc bảo tồn phát triển võ cổ truyền Việt Nam Từ có nhiều hướng mở cho việc đẩy mạnh tự rèn luyện đánh giá tự động qua mạng cần có camera Kinect Người dùng tương tác với hệ thống cách tự thiết lập thông số theo nhu cầu cụ thể giải tốc độ thu nhận động tác nhanh để đáp ứng nhu cầu võ thực tế đòi hỏi nhiều hướng để phát triển 3.6 Tổng kết chương 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Trong mơ hình nghiên cứu, luận án tiến hành đánh giá ước lượng khung xương, tư người không gian 3-D video võ cổ truyền Việt Nam Đã thực mô hình kết hợp để ước lượng từ tập sở liệu bao gồm 24 video tư võ khó phức tạp Đồng thời cung cấp liệu gốc không gian 3-D liệu đám mây điểm (point cloud) cho xây dựng tái tạo lại không gian 3-D lớp học võ Từ hướng đến xây dựng ứng dụng lưu trữ, bảo tồn dạy võ thuật thời đại công nghệ 4.0, cách trực quan thân thiện Toàn miêu tả đề xuất kết hợp ước lượng khung xương, tư không gian 2-D tốt, đầu vào cho ước lượng, khôi phục khung xương, tư khơng gian 3-D trình bày Chương Kết cho thấy kết hợp cho hiệu cao cho kết ước lượng khung xương, tư không gian 3-D Các kết đánh giá độ đo công bố sở liệu công bố Đặc biệt, ước lượng khung xương, tư không gian 3-D giải nhiều hạn chế ước lượng khung xương không gian 2-D tình trạng khớp xương bị che khuất Toàn kết nghiên cứu thể Chương Luận án xây dựng mơ hình chấm điểm nhận dạng động tác công tư võ video võ thuật cổ truyền em học sinh phổ thông biểu diễn Các kết nghiên cứu trình bày Chương Từ mơ hình hướng đến xây dựng ứng dụng phân tích đánh giá biểu diễn võ thuật, thể dục Hướng phát triển TÀI LIỆU THAM KHẢO [1] Cao Z., Simon T., Wei S.E., and Sheikh Y (2017) Realtime multi-person 2d pose estimation using part affinity field [2] COCO (2019) Observations on the calculations of COCO metrics https://github com/cocodataset/cocoapi/issues/56 [Accessed 24 April 2019] [3] Tome D., Russell C., and Agapito L (2017) Lifting from the deep: Convolutional 3D pose estimation from a single image In Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017 , volume 2017-Janua, pp 5689–5698 ISBN 9781538604571 doi:10.1109/CVPR.2017.603 [4] Zhang W., Liu Z., Zhou L., Leung H., and Chan A.B (2017) Martial Arts, Dancing and Sports dataset: a Challenging Stereo and Multi-View Dataset for 3D Human Pose Estimation Image and Vision Computing, Volume 61 doi:10.1016/j.imavis.2017.02.002 23 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ Conference: [C1 ] Tuong Thanh Nguyen, Dang-Tuyen Nguyen, Dung Le, Thanh-Cong Pham (2017) Implementation of Technical Data Analysis of Skeleton Extracted from Camera Kinect in Grading Movements of Vietnamese Martial Arts, IEEE 2017 International Conference on Advanced Technologies for Communications (ATC),pp241-244, doi 10.1109/ATC.2017.8167625 [C2 ] Van-Hung Le, Tuong-Thanh Nguyen, Thanh-Cong Pham (2019), OpenPose’s evaluation in The Video Traditional Martial Arts Presentation 19th International Symposium on Communications and Information Technologies (ISCIT), ISBN 978-17281-5008-6, pp 76-81 [C3 ] Nguyễn Tường Thành, Lê Thị Kim Nga , Phạm Thành Công, Lê Dũng (2019) Nhận dạng động tác công võ cổ truyền phương pháp phân loại, Kỷ yếu Hội thảo khoa học Quốc gia "Ứng dụng cơng nghệ Cơng trình xanh" - ATiGB2019, pp88-97 Journal: [J1 ] Nguyễn Tường Thành, Nguyễn Đăng Tuyên, Lê Dũng, Phạm Thành Công, (2016), Ứng dụng camera Kinect xây dựng mơ hình chấm điểm động tác võ cổ truyền Việt Nam, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng 2016, số 11 tr.221-224 [J2 ] Tuong-Thanh Nguyen, Van-Hung Le, Thanh-Cong Pham (2019), 3-D Human Pose Estimation by Convolutional Neural Network in The Video Traditional Martial Arts Presentation, Journal of Science and Technology, No.139/2019, ISSN 23541083;pp43-49 [J3 ] Tuong-Thanh Nguyen, Van-Hung Le, Thanh-Cong Pham (2019), An Evaluation of Pose Estimation in The Video Traditional Martial Arts Presentation, Research and development on information and communication technology, No2 12/2019; ISSN:18593534, (Đã chấp nhận đăng) [J4 ] Tuong-Thanh Nguyen, Van-Hung Le, Long Duong, Dung Le, Thanh-Cong Pham (2019), 3-D Human Pose Estimation in Vietnamese’s Video Traditional Martial Arts Presentation Journal of Advanced Engineering and Computation (JAEC), Vol 3, Iss 3, 2019, pp 471-491 ... việc xây dựng mơ hình chấm điểm võ truyền dạy lớp điều cần thiết Các mơ hình giúp học sinh phổ thông tự đánh giá tư võ võ mà không cần phải nhờ đến võ sư võ đường Tuy nhiên, võ hành động nhanh,... lưu trữ, dạy, đánh giá tư võ MS Kinect sensor version Ảnh màu Ảnh độ sâu Kết khung xương Hình Mơ hình giải vấn đề ước lượng khung xương, tư người không gian 3-D tái tạo lại môi trường thực tế Đặc... dừng đọc tới hình ảnh tư liệu sau đưa hình ảnh hình đến cuối video phát Cuối chương trình, máy tính cho tổng số điểm người biểu diễn (Hình 3.3) Đóng góp cơng việc đưa đây: ❼ Thực nhận dạng chấm

Định dạng
Số trang	26
Dung lượng	2,29 MB