1. Trang chủ
  2. » Giáo Dục - Đào Tạo

VỀ mô HÌNH NHẬN dạ NG tư THẾ võ dựa TRÊN ẢNH CHIỀU sâu

150 68 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 150
Dung lượng 11,19 MB

Nội dung

Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương,hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh.Hầu hết các nghiên cứu đề

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ

DỰA TRÊN ẢNH CHIỀU SÂU

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Hà Nội − 2020

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ

DỰA TRÊN ẢNH CHIỀU SÂU

Ngành: Kỹ thuật điện tử

Mã số : 9520203

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 TS Lê Dũng

2 TS Phạm Thành Công

Hà Nội − 2020

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận án: "Về mô hình nhận dạng tư thế võ dựa trên ảnh chiềusâu" là công trình nghiên cứu của riêng tôi

Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công

bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước vàquốc tế

Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứutrong và ngoài nước

Hà Nội, tháng 01 năm 2020NGHIÊN CỨU SINH

Nguyễn Tường Thành

TẬP THỂ HƯỚNG DẪN

TS Lê Dũng TS Phạm Thành Công

Trang 4

LỜI CẢM ƠN

Luận án tiến sĩ được thực hiện tại Viện Điện tử Viễn thông, trường Đại học Báchkhoa Hà Nội dưới sự hướng dẫn khoa học của TS Lê Dũng và TS Phạm Thành Công.Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy, cô về định hướng khoahọc trong suốt quá trình nghiên cứu Nghiên cứu sinh xin được trân trọng cảm ơn cácnhà khoa học, tác giả các công trình công bố đã được trích dẫn và cung cấp nguồn tưliệu quý báu trong quá trình hoàn thành luận án

Nghiên cứu sinh xin trân trọng cảm ơn Viện Điện tử Viễn thông; Phòng Đào tạoTrường Đại học Bách Khoa Hà Nội; Các thầy cô trong Viện Điện tử Viễn thông, cácanh chị và các bạn trong nhóm NCS, các võ sư Hồ Minh Mộng Hùng, Phạm ĐìnhKhiêm, Phạm Ngọc Dương, Bùi Thị Lành, Nguyễn Quốc Tiễn, Trung tâm Võ thuật

cổ tryền Bình Định, TP Quy Nhơn, tỉnh Bình Định đã quan tâm, động viên giúp đỡ

và tạo điều kiện thuận lợi về thời gian, địa điểm nghiên cứu, trang thiết bị, hỗ trợ vềmặt nhân lực để NCS thực hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiêncứu

Nghiên cứu sinh xin cảm ơn TS Lê Văn Hùng nghiên cứu tại Viện nghiên cứuquốc tế MICA, Đại học Bách khoa Hà Nội và Đại học Tân Trào đã hỗ trợ kỹ thuật,đồng tác giả giúp NCS thực hiện các nghiên cứu của luận án

Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Đạihọc Quy Nhơn; Ban chủ nhiệm Khoa Kỹ thuật và Công nghệ, gia đình, bạn bè và đồngnghiệp đã động viên khích lệ, tạo mọi điều kiện thuận lợi để NCS yên tâm công tác vàhọc tập

Hà Nội, tháng 01 năm 2020NGHIÊN CỨU SINH

Nguyễn Tường Thành

Trang 5

NỘI DUNG

1.1 Học máy, học sâu và ứng dụng 12

1.1.1 Học máy 12

1.1.2 Học sâu 14

1.2 Hệ thống khôi phục hoạt động của người trong không gian 3-D và chấm điểm võ thuật 16

1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-D 16 1.2.2 Hệ thống chấm điểm võ thuật 16

1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D 16

1.3.1 Ước lượng khung xương trên ảnh màu 17

1.3.2 Ước lượng khung xương trên ảnh độ sâu 18

1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động 21

1.3.4 Nhận xét 22

1.4 Ước lượng khung xương và tư thế người trong môi trường 3-D 23

1.4.1 Phục hồi tư thế 3-D của người từ một ảnh 23

1.4.2 Phục hồi tư thế 3-D của người 24

1.4.2.1 Phục hồi khung xương, tư thế người trong không gian 3-D từ một ảnh 25

1.4.2.2 Phục hồi khung xương, tư thế người trong không gian 3-D từ một chuỗi ảnh 25

1.4.3 Nhận xét 25

1.5 Các bộ cơ sở dữ liệu cho việc đánh giá ước lượng khung xương trong không gian 3-D 31

1.5.1 Giới thiệu Kinect 31

1.5.2 Hiệu chỉnh dữ liệu thu từ cảm biến Kinect 31

1.6 Tổng kết chương 37

Trang 6

Chương 2: ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ

2.1 Ước lượng khung xương trong không gian 2-D 39

2.1.1 Giới thiệu 39

2.1.2 Các nghiên cứu liên quan 40

2.1.3 Sử dụng học sâu cho việc ước lượng các hành động trong bài võ cổ truyền trong không gian 2-D 43

2.1.3.1 Phương thức 43

2.1.3.2 Cơ sở dữ liệu các bài võ cổ truyền 47

2.1.3.3 Phương thức đánh giá 53

2.1.3.4 Xoay và dịch dữ liệu trong không gian 3-D 56

2.1.3.5 Kết quả ước lượng và nhận xét 61

2.1.4 Kết luận 64

2.2 Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất 74 2.2.1 Giới thiệu 74

2.2.2 Các nghiên cứu liên quan 74

2.2.3 Phục hồi khung xương, tư thế người trong không gian 3-D 77

2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương người trong không gian 3-D 78

2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D 82

2.2.3.3 Kết luận 84

2.2.4 Ước lượng khung xương, tư thế người khi bị che khuất 85

2.3 Tổng kết chương 92

Chương 3: NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ TRUYỀN VIỆT NAM 93 3.1 Giới thiệu 93

3.2 Các nghiên cứu liên quan 96

3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ 97 3.3.1 Nhận diện động tác tấn công 97

3.3.1.1 Xử lý dữ liệu 97

3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect 97 3.3.2 Mô hình chấm điểm động tác võ cổ truyền 102

3.3.2.1 Mô tả động tác người 102

3.3.2.2 Công thức chấm điểm 105

3.4 Thực nghiệm 107

3.4.1 Nhận diện động tác tấn công 107

Trang 7

3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại 1073.4.1.2 Nhận diện động tác tấn công bằng mạng nơ ron 1083.4.2 Chấm điểm động tác võ cổ truyền Việt Nam 1103.5 Kết luận 1153.6 Tổng kết chương 115

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 117

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT

3 APM Articulated Part-based Modeldeviation Mô hình dựa trên phần khớp nối

4 CPM Convolutional Pose Machines Máy học cử chỉ tích chập

5 CPU Central Processing Unit Đơn vị xử lý trung tâm

6 CNN Convolutional Nerural Network Mạng Nơ ron tích chập

7 CNNs Convolutional Nerural Networks Mạng Nơ ron tích chập nhiều lớp

9 DTW Dynamic Time Warping So khớp chuỗi thời gian động

12 GPU Graphics Processing Unit Đơn vị xử lý đồ họa

14 HOG Histogram of Oriented Gradients Biểu đồ hướng dốc

15 HRNet High-Resolution Network Mạng độ phân giải cao

18 LSTM Long Short-Term Memory Mạng bộ nhớ ngắn định hướng

dài hạn

19 MADS Martial Arts, Dancing and Sports Võ cổ truyền, khiêu vũ, thể thao

21 MPJPE MeanPerJointPositionError Độ đo sai số trung bình của các

khớp nối

24 OCR Optical Character Recognition Nhận dạng ký tự quang học

25 OKS Object Key point Similarity Độ tương tự các điểm đại diện

26 OpenCV Open Computer Vision Thư viện mã nguồn mở thị giác

máy tính

27 OpenNI Open Natural Interaction Thư viện hỗ trợ đa ngôn ngữ

28 PCA Principal Component Analysis Phân tích nguyên lý thành phần

Trang 9

29 PCL Poind Cloud Library Thư viện đám mây điểm

30 RAM Random Access Memory Bộ nhớ truy nhập ngẫu nhiên

31 RDF Random Decision Forests Rừng quyết định ngẫu nhiên

33 SDK Software Development Kit Kit phát triển phần mềm

34 SVM Support Vector Machine Học máy hỗ trợ vector

Trang 10

DANH SÁCH BẢNG BIỂU

Bảng 1.1 Thống kê các nghiên cứu ước lượng khung xương của người trongkhông gian 3-D mà có đánh giá trên cơ cở dữ liệu Human3.6M [86] vàkết quả ước lượng 27Bảng 1.2 Khảo sát về ước lượng tư thế người trong không gian 3-D sử dụng

1 ảnh 29Bảng 1.3 Khảo sát về ước lượng khung xương người trong không gian 3-D

từ một chuỗi ảnh 30

Bảng 2.1 Số khung hình trong các tư thế võ của cơ sở dữ liệu VNMA 50Bảng 2.2 Số khung hình trong các tư thế võ của cơ sở dữ liệu SVNMA 51Bảng 2.3 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệchgiữa các khớp của dữ liệu gốc và các khớp nối ước lượng được (AD) vàkhoảng cách giữa các trung bình giữa các điểm đại diện ước lượng được

và các điểm đại diện của dữ liệu gốc, tương ứng với nhau 61Bảng 2.4 Kết quả ước lượng khung xương trên ảnh và chiếu sang không gian3-D với 14 điểm xương trên dữ liệu VNMA Kết quả được đánh giá trên

độ đo MPJPE theo đơn vị milimet (mm) 68Bảng 2.5 Số khung hình đánh giá trong dữ liệu VNMA 69Bảng 2.6 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu MADS với 14 điểm xương 71Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương trên ảnhsai đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS 72Bảng 2.8 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu VNMA với 15 điểm xương 88Bảng 2.9 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu MADS với 15 điểm xương 89

Bảng 3.1 Thể hiện tám véc tơ chi 104

Trang 11

DANH SÁCH HÌNH VẼ

Hình 1 Cảm biến MS Kinect phiên bản 1 2

Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1 [36] 2

Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam 4

Hình 4 Khung xương, tư thế của người được ước lượng (các điểm màu xanh là các điểm xương và các khớp nối màu vàng) và môi trường được xây dựng lại trong không gian 3-D (thế giới thực) 5

Hình 5 Minh họa thiết lập các thiết bị 7

Hình 6 Mô hình giải quyết vấn đề ước lượng khung xương, tư thế người trong không gian 3-D và tái tạo lại môi trường thực tế 9

Hình 1.1 Minh họa mô hình của học máy [58] 13

Hình 1.2 Mô hình phân loại học máy [59] 14

Hình 1.3 Mô hình của học sâu [59] 15

Hình 1.4 Minh họa phương thức ước lượng tư thế, khung xương trong không gian 3-D [155]: Đầu vào là một ảnh màu (RGB), đầu tiên là ước lượng khung xương trong không gian ảnh (2-D) sau đó ước lượng giá trị độ sâu của khung xương bằng việc tìm kiếm một mô hình khung xương, tư thế phù hợp Khung xương ước lượng được có màu đỏ, khung xương gốc có màu xám 28

Hình 1.5 Minh họa ảnh màu, ảnh độ sâu thu được từ cảm biến Kinect phiên bản 1 32

Hình 1.6 Minh họa cảm biến Kinect phiên bản 1 32

Hình 1.7 Minh họa ảnh các trạng thái hoạt động của người trong thực tế [86], [89] và hệ thống MOCAP [102] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D 34

Trang 12

Hình 1.8 Minh họa ảnh về các loại hoạt động trong cơ sở dữ liệu [32] và hệthống MOCAP [102] để xác định vị trí các chi, các bộ phận của ngườitrong không gian 3-D 36

Hình 2.1 Minh họa kết quả ước lượng khung xương, tư thế người trongkhông gian 2-D [106] 39Hình 2.2 Minh họa bản đồ các điểm nổi bật được tạo ra từ ảnh cơ thể người.Trong đó mỗi vùng điểm nổi bật là một ứng cử viên vị trí của các điểmđại diện [110] 42Hình 2.3 Minh họa đánh nhãn các điểm đại diện trên dữ liệu ảnh của người.Các điểm màu đỏ là các điểm đại diện trên cơ thể người Các đoạn màuxanh thể hiện sự kết nối giữa các bộ phận trên cơ thể người 44Hình 2.4 Kiến trúc mạng nơ ron tích chập cho việc ước lượng các điểm đạidiện St, và các bộ phận phù hợp trên cơ thể người khác nhau [24] 45Hình 2.5 Minh họa chi tiết mô hình dự đoán vùng các điểm nổi bật (heatmaps)[111] 45Hình 2.6 Minh họa chi tiết mô hình trích chọn đặc trưng cho việc huấn luyện

mô hình dự đoán các vùng nổi bật (heatmaps) ở từng giai đoạn [111] 46Hình 2.7 Minh họa kết quả ước lượng khung xương trên ảnh của mô hình

đã được huấn luyện trên bộ cơ sở dữ liệu 2016 MSCOCO KeypointsChallenge [23] 47Hình 2.8 Minh họa kiến trúc mạng HRnet [115] Trong đó chiều ngang vàchiều dọc lần lượt thể hiện độ sâu và biến đổi kích thước cửa sổ của bản

đồ đặc trưng 48Hình 2.9 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thếtrong không gian 2-D 49Hình 2.10 Minh họa việc đánh dấu dữ liệu gốc về khung xương, tư thế ngườitrong không gian 3-D Trong đó thứ tự đánh dấu của các điểm như sau:(1) Đầu, (2) Cổ, (3) Vai phải, (4) khuyủ tay phải, (5) cổ tay phải, (6)Vai trái, (7) khuyủ tay trái, (8) cổ tay trái, (9) Giữa hông, (10) Hôngphải, (11) Đầu gối phải, (12) Cổ chân phải, (13) Ngón chân cái phải,(14) Hông trái, (15) Đầu gối trái, (16) Cổ chân trái, (17) Ngón chân cáitrái 50Hình 2.11 Các điểm đại diện (Key points) trên cơ thể người và nhãn 51

Trang 13

Hình 2.12 Minh họa dữ liệu đám mây điểm của một cảnh Các điểm màuxanh nước biển là dữ liệu của người trong môi trường 3-D 52Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp đượctạo ra từ các điểm đại diện [28] 54Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được Trong đó, cácđiểm màu xanh là các điểm quan tâm và đánh giá trong bài báo này.Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm 55Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khungxương, tư thế người trong không gian ảnh 56Hình 2.16 Minh họa mô hình xoay và dịch dữ liệu trong không gian 3-D 57Hình 2.17 Minh họa kết quả ước lượng khung xương, tư thế người trongkhông gian 3-D 65Hình 2.18 Minh họa các kết quả ước lượng các điểm đại diện và các khớp nốitrên các video võ thuật cổ truyền Các khớp nối của cơ thể người là cómàu đỏ; Các khớp nối của tay phải có màu xanh lá cây; Các khớp nốicủa tay trái có màu giảm dần từ đỏ đến vàng; Các khớp nối của chânphải có màu xanh nước biển; Các khớp nối của chân trái có màu xanhlục 65Hình 2.19 Đồ thị thể hiện xác suất ước lượng các điểm đại diện trên 3 video

võ thuật cổ truyền có thứ tự là: 2th, 9th, 12th 66Hình 2.20 Minh họa kết quả ước lượng các khớp nối trong không gian 2-D

và 3-D Tư thế của người trong không gian 3-D được thể hiện bằngMatplotlib của Python 66Hình 2.21 Minh họa việc đánh giá ước lượng khung xương trong không gian2-D và chiếu sang không gian 3-D 67Hình 2.22 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc

và dữ liệu ước lượng được 67Hình 2.23 Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect v1trong bộ cơ sở dữ liệu VNMA Vùng màu đen bị xa so với giới hạn đocủa cảm biến MS Kinect v1 nên giá trị độ sâu bằng không, còn vùngngười, và vùng sàn nhà có màu nâu nên giá trị độ sâu lớn hơn không 70

Trang 14

Hình 2.24 Trái: Minh họa kết quả ước lượng khung xương trên ảnh màu (14điểm xương) bằng cách sử dụng CPM trong nghiên cứu của Tome et al.[85] Phải: Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinectv1 trong bộ cơ sở dữ liệu VNMA bị mất dữ liệu vùng tóc 70Hình 2.25 Minh họa ảnh thu thập được từ cảm biến MS Kinect v1 quá xa 71Hình 2.26 Phân bố lỗi khoảng cách lỗi MPJPE của các cặp điểm đại diệngiữa dữ liệu gốc và dữ liệu ước lượng được trên cơ sở dữ liệu MADS 72Hình 2.27 Minh họa kết quả ước lượng khung xương trên không gian 2-D(trên ảnh màu) sử dụng CPM trong nghiên cứu của Tome et al [85] 73Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong khônggian 3-D với dữ liệu bị che khuất Bên trái thể hiện kết quả ước lượngkhung xương, tư thế của người trên 2-D với bộ ước lượng [24] Bên phải

là kết quả ước lượng tư thế, khung xương của người trong không gian3-D sử dụng bộ ước lượng của [85] 75Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện môhình khung xương người trong 3-D và việc so sánh khung xương ánh xạđược từ 2-D sang 3-D với bộ dữ liệu huấn luyện [85] 76Hình 2.30 Minh họa mô hình hoạt động của mạng [118] 77Hình 2.31 Minh họa ước lượng khung xương, tư thế 3-D của người từ mộtchuỗi hình ảnh [124] 78Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của ngườitrong không gian 3-D theo từng năm 79Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tưthế trong không gian 3-D 80Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS [85] 81Hình 2.35 Minh họa kiến trúc mạng VNect [128] 82Hình 2.36 Minh họa các tham số của mô hình CNN VNect 82Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạngVNect 83

Trang 15

Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụngmạng VNect [128] Bên trái là kết quả ước lượng khung xương trongkhông gian 3-D; Giữa là kết quả ước lượng khung xương trên ảnh; Bênphải là kết quả ước lượng các điểm đại diện của khung xương trongkhông gian 2-D 84Hình 2.39 Minh họa mô hình khung xương, tư thế trong không gian 3-D choviệc đánh giá 85Hình 2.40 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và

dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu VNMA.Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMPtraining by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECTCNN training by MPII, LSP" là "3-D_VNECT_Method" 86Hình 2.41 Kết quả ước lượng khung xương, tư thế trong không gian 3-D Mỗikhối là một cặp tương ứng giữa khung xương của dữ liệu gốc (groundtruth - original) và khung xương ước lượng được (estimating) Mỗi cặpkhung xương trong một khối đã được đồng nhất về hệ trục tọa độ 87Hình 2.42 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và

dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu MADS.Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMPtraining by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECTCNN training by MPII, LSP" là "3-D_VNECT_Method" 89Hình 2.43 Minh họa kết quả ước lượng khung xương của phương thức "3-D_VNECT_Method" trên ảnh của cơ sở dữ liệu MADS với 21 điểmđại diện 90Hình 2.44 Minh họa kết quả ước lượng đầy đủ các khớp xương người trongkhông gian 3-D trên video 1th, 24th của cơ sở dữ liệu võ thuật cổ truyềnViệt Nam (VNMA) 91

Hình 3.1 Minh họa cây quyết định có đi chơi không 94Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phânloại Trong đó thuật toán này được áp dụng cho một rừng bao gồm nhiềucây quyết định 95Hình 3.3 Thu thập dữ liệu 98Hình 3.4 Thể hiện tọa độ trên khung xương 99

Trang 16

Hình 3.5 Minh họa đặc trưng góc khuỷu tay Đường màu đen thể hiện đặc

trưng về góc khuỷu tay 100

Hình 3.6 Vị trí các khớp xương mà camera Kinect cung cấp 103

Hình 3.7 Dữ liệu khung xương Kinect và véc tơ chân tay 104

Hình 3.8 Chương trình thu nhận dữ liệu chuẩn từ võ sư 105

Hình 3.9 Thể hiện chiều cao của cây và số đặc trưng 108

Hình 3.10 Sự lặp lại kiến trúc module trong mạng RNN chứa một tầng ẩn 109 Hình 3.11 Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3 sigmoid và 1 tanh) tương tác 110

Hình 3.12 Diễn giải các kí hiệu trong đồ thị mạng nơ ron 110

Hình 3.13 Kết quả nhận dạng trên tập Test thế võ công 111

Hình 3.14 Kết quả nhận dạng trên tập Test thế thủ 111

Hình 3.15 Lấy mẫu chuẩn 112

Hình 3.16 Các vị trí dừng để chấm điểm 113

Hình 3.17 Thống kê trung bình điểm chấm 36 động tác võ cổ truyền Việt Nam.113 Hình 3.18 Giao diện chương trình chấm điểm 114

Hình 3.19 Giao diện chương trình chấm điểm 114

Trang 17

MỞ ĐẦU

1 Tính cấp thiết của nghiên cứu

Võ cổ truyền là một môn thể thao, nghệ thuật thể hiện bản sắc dân tộc Võ thuậtgiúp rèn luyện sức khỏe, tự vệ cho con người của mỗi dân tộc, mỗi đất nước Võ cổtruyền đã có từ lâu đời với mỗi quốc gia, đồng thời gắn liền với lịch sử dựng nước vàgiữ nước [12]; Như võ cổ truyền Bình Định của Việt Nam [8]; Võ Judo, Karate, Kendo,Kyudo của người Nhật Bản [9]; Võ Kung Fu, TaiChi của người Trung Quốc [10] Đểbảo tồn và duy trì các bài võ cổ truyền đặc sắc và có giá trị văn hóa là một vấn đề quantrọng đối với các nhà quản lý, quốc gia [6], [8], [11] Trước kia việc lưu trữ là truyềnmiệng, qua các hình vẽ các thế võ liên tục và đời trước dạy cho đời sau, nên các thế

võ có thể bị biến tướng và không chuẩn xác Ngày nay, việc ghi lại thành các video đểlưu trữ là một hướng tiếp cận tốt Ở Việt Nam từ năm 2016, các bài võ cổ truyền đượcđưa vào giảng dạy trong các trường phô thông để rèn luyện sức khỏe và tự vệ cho các

em học sinh Nên việc xây dựng một mô hình chấm điểm các bài võ được truyền dạytrên lớp là điều cần thiết Các mô hình này giúp học sinh phổ thông tự đánh giá các

tư thế võ trong bài võ mà không cần phải nhờ đến các võ sư tại các võ đường

Tuy nhiên, các thế võ là các hành động nhanh, khó, quay bốn hướng mà các thiết

bị ghi hình thường chỉ nằm ở một vị trí nên có nhiều tư thế bị che khuất Nên thường

để lưu giữ các bài võ thì phải quay từ nhiều góc khác nhau hoặc quay bằng nhiềucamera đặt từ nhiều hướng Để bảo tồn, truyền, dạy các thế võ một cách trực quanthì việc phát hiện, ước lượng các thế võ ở các cảnh bị che khuất là việc làm cần thiết.Đồng thời xây dựng môi trường 3-D để trực quan hóa việc đào tạo và dạy võ cổ truyền

là một vấn đề cần thiết để giảm thời gian, chi phí, công sức của các võ sư Đặc biệt làtăng tính tự giác chủ động trong tập luyện và đánh giá luyện tập của các học sinh phổthông

Để thu thập được các video phục vụ cho việc bảo tồn và duy trì các thế võ người

ta thường sử dụng các cảm biến hình ảnh như các loại camera gắn trên các điện thoạithông minh, hay các loại camera chuyên dụng Đặc biệt, để xây dựng được khung cảnh(môi trường) 3-D về các tư thế võ người ta thường sử dụng các cảm biến có ảnh độ sâunhư Kinect phiên bản 1 (Version 1 - V1), Kinect phiên bản 2 (Version 2 - V2), Realscene D435, vv Trong đó, cảm biến Kinect V1 là một loại cảm biến rẻ tiền (giá ngoàithị trường chỉ khoảng 1 triệu Việt Nam đồng - 40 USD) như Hình 1 và chất lượng ảnhmàu, ảnh độ sâu của cảm biến này là chấp nhận được Với giá thành rẻ như vậy phùhợp với túi tiền của người Việt Nam và khả năng phổ dụng của loại cảm biến này làcao hơn so với các cảm biến khác Cảm biến MS Kinect cũng có thể thu thập được dữ

Trang 18

Hình 1 Cảm biến MS Kinect phiên bản 1.

Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1[36]

liệu khung xương các tư thế của con người như Hình 2

Tuy nhiên, dữ liệu khung xương thu được từ cảm biến MS Kinect v1 là bị mất rấtnhiều Như trong nghiên cứu của Wang và các cộng sự [37] đã cho thấy sự sai khác vàthiếu dữ liệu rất lớn giữa cảm biến MS Kinect v1 và MS Kinect v2 Do đó trước khithực hiện xây dựng các mô hình đánh giá và chấm điểm các động tác võ được truyềndạy trên lớp thì cần thực hiện các nghiên cứu về ước lượng, khôi phục khung xươngcủa người trong các video võ thuật cổ truyền

Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương,hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh.Hầu hết các nghiên cứu đều sử dụng việc học các đặc trưng trên ảnh màu, độ sâu

để học mô hình người, các hành động của người và sử dụng các bộ phân lớp cho việc

dự đoán Trước đây thì thường sử dụng các bộ phân lớp như SVM (Support VectorMachine) [39], Random decision forests (RDF) [40] cho việc học và dự đoán các khớp

Trang 19

trên cơ thể người Ngày nay với sự phát triển mạnh mẽ của học sâu (Deep Learning)thì có rất nhiều mạng được thiết kế cho việc ước lượng các khớp xương trên cơ thểngười [41], [48].

Dữ liệu thu được từ cảm biến Kinect v1 bao gồm ảnh màu và ảnh độ sâu, nếuthực hiện ước lượng các điểm đại diện và các khớp xương trên ảnh màu thì có rấtnhiều trường hợp các khớp xương bị che khuất không thể ước lượng được Khi thựchiện ước lượng trên ảnh độ sâu thì có một số trường hợp dữ liệu ảnh độ sâu bị thiếuhoặc mất dữ liệu nên cũng có nhiều điểm đại diện và khớp nối không ước lượng được.Tuy nhiên trên ảnh độ sâu chứa thông tin trong không gian thực (giá trị độ sâu) củangười nên có thể ước lượng được các khớp xương trong trường hợp bị che khuất Nênluận án thực hiện kết hợp kết quả ước lượng trên ảnh màu và chiếu kết quả ước lượngvào không gian 3-D để có được kết quả ước lượng các điểm đại diện và các khớp xươngcao hơn Đặc biệt, khi ước lượng khung xương, tư thế người trong không gian 3-D cóthể ước lượng được các khớp xương bị che khuất do dữ liệu thu được một phía nhìnthấy của người Từ khớp xương đầy đủ có thể thể hiện được đầy đủ các động tác võtrong các video võ cổ truyền Đây là một bước quan trọng trong việc tái tạo và ghilại các tư thế võ cổ truyền của các võ sư và thực hành các động tác được truyền dạycủa các em học sinh phổ thông Trong đó hệ thống chấm điểm các động tác võ cũng

là một ứng dụng quan trọng trong việc đánh giá việc biểu diễn các tư thế, động tác võđúng và chuẩn hay không Trong võ thuật thì việc thể hiện đúng và chuẩn làm cho võthuật phát huy được hết sức mạnh: tấn công mạnh, phòng thủ chắc chắn (như Hình 3thể hiện việc dạy võ cổ truyền tại võ đường Nguyễn Thanh Vũ, thành phố Quy Nhơn,tỉnh Bình Định, Việt Nam)

Các phương thức ước lượng khung xương, tư thế người trên ảnh màu và khônggian 3-D gần đây thường sử dụng các mạng Nơ ron tích chập mới hiện nay cho việchuấn luyện mô hình ước lượng Các kết quả được đánh giá trên cơ sở dữ liệu về các

tư thế võ cổ truyền của Nhật Bản (Karate) và Trung Quốc (Tai Chi) Đặc biệt, luận

án cũng công bố bộ cơ sở dữ liệu về các thế võ cổ truyền Việt Nam do các em họcsinh phổ thông biểu diễn và đánh giá các kết quả ước lượng các điểm đại diện và khớpxương trên cơ sở dữ liệu này trong không gian 2-D và 3-D để xây dựng hệ thống bảotồn, giảng dạy, đánh giá các bài võ cổ truyền Việt Nam trực quan

Tóm lại, luận án tập trung cải tiến kết quả ước lượng các điểm đại diện và cáckhớp xương trong các trường hợp bị che khuất khi chỉ sử dụng một cảm biến MS Kinectv1 để thu thập dữ liệu từ môi trường Kết quả này là sự kết hợp của mô hình ước lượngtốt trên không gian ảnh 2-D và ánh xạ trong môi trường 3-D để nâng cao kết quả ướclượng Đây chính là ý tưởng trong luận án này, trong mô hình xây dựng ứng dụng củaluận án bao gồm một số bước: (1) Từ dữ liệu đầu vào thu được từ cảm biến MS Kinect(ảnh màu, ảnh độ sâu); (2) Sử dụng các mạng nơ ron tích chập đã được thiết kế để

Trang 20

Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam.

huấn luyện mô hình ước lượng trên ảnh màu và ảnh độ sâu; (3) Kết hợp kết quả ướclượng trong không gian 2-D và 3-D, biểu diễn kết quả trong không gian 3-D, trong đócác khớp xương của người trong video được ước lượng và khôi phục đầu đủ; (4) từ đóxây dựng mô hình chấm điểm các động tác võ cổ truyền áp dụng cho các em học sinhphổ thông có thể tự đánh giá bài võ của mình Trong đó bước (2) là bước quan trọngnhất trong mô hình này

2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu

Mục tiêu của luận án:

- Đề xuất hướng tiếp cận để ước lượng và phục hồi khung xương trong không gian3-D và để xây dựng một hệ thống tái tạo môi trường 3-D của các video biểudiễn võ thuật và ước lượng khung xương, tư thế của người trong video Phươngthức này được kết hợp giữa ước lượng các điểm đại diện và các khớp nối trênảnh màu (không gian 2-D) và ước lượng trong không gian 3-D để có được kếtquả ước lượng các khớp xương tốt, đặc biệt là khôi phục được các khớp xươngtrong trường hợp các bộ phận của người bị che khuất Khi có ước lượng khungxương trong không gian 3-D tốt có nghĩa là giá trị khoảng cách lỗi giữa các điểmđại diện trên khung xương ước lượng được và khung xương gốc nhỏ Từ đó thểhiện chính xác tư thế của người trong các động tác võ Mô hình ước lượng cácđiểm đại diện trên không gian 2-D được chọn từ nghiên cứu so sánh cho bài toánước lượng các điểm đại diện trong không gian 2-D, sử dụng các mạng nơ rontích chập và huấn luyện trên các bộ cơ sở dữ liệu chuẩn (benchmark) Đồng thời

Trang 21

Hình 4 Khung xương, tư thế của người được ước lượng (các điểm màu xanh là cácđiểm xương và các khớp nối màu vàng) và môi trường được xây dựng lại trong khônggian 3-D (thế giới thực).

việc ước lượng khung xương, tư thế người trong không gian 2-D, 3-D được đánhgiá trên bộ cơ sở dữ liệu đã công bố về võ cổ truyền của nước ngoài và võ cổtruyền Việt Nam thu thập được Hình 4 thể hiện mô hình khung xương, tư thếcủa người trong video biểu diễn võ thuật được ước lượng và dựng lại môi trườngtrong không gian 3-D (trong thế giới thực)

- Từ khung xương của người được ước lượng và khôi phục đầy đủ các khớp, xâydựng một mô hình chấm điểm các động tác võ trên các video thu được từ lớp võhoặc các bài biểu diễn võ thuật của các em học sinh phổ thông, giúp các em tựđánh giá được các bài võ thuật đã được truyền dạy Hơn nữa là nhận dạng đượcđộng tác tấn công để phục vụ cho việc phân tích điểm mạnh điểm yếu của các

tư thế võ thuật cổ truyền

Trong luận án, các nghiên cứu thành phần không đi giải quyết vấn đề một cách đơn

lẻ, tự phát mà vấn đề xuất phát từ thực tế khi biểu diễn võ thuật thì các thế võ có thểđánh tứ diện hoặc xoay 360 độ, nên dữ liệu thu thập từ một cảm biến hình ảnh sẽ bịche khuất rất nhiều Đặc biệt, quá trình xây dựng hệ thống tái tạo môi trường 3-D vàđánh giá các bài biểu diễn võ thuật cần tái tạo được môi trường 3-D, ước lượng đượckhung xương của người trong điều kiện dữ liệu thu thập từ cảm biến MS Kinect cóchứa rất nhiều nhiễu

Trang 22

Một phần mở rộng của nghiên cứu này là có thể cho khán giả, các học viên củacác võ đường thấy được việc lưu giữ lại các thế võ cổ truyền là rất quan trọng, từ trướcđến nay được truyền từ đời này qua đời khác thông qua truyền miệng và dạy động táctrực tiếp thông qua các võ sư Từ nghiên cứu này có thể số hóa các tư thế võ cổ truyền

và truyền lại cho đời sau Cũng như các video võ thuật được biểu diễn và có thể đánhgiá chấm điểm bằng máy tính Trong nghiên cứu này thông tin về môi trường và củangười biểu diễn võ thuật trong môi trường được thu thập, trích xuất thông qua cảmbiến hình ảnh

3 Ngữ cảnh, các ràng buộc, và các thách thức

Hình 3 thể hiện ngữ cảnh khi dạy võ cổ truyền trong các võ đường Thông tin

mà cảm biến hình ảnh thu được là ảnh từ một phía của môi trường của lớp võ thuật.Đầu ra là môi trường được tái tạo trong không gian 3-D, trong đó thể hiện đầy đủ tưthế võ dựa trên khung xương của người trong không gian đó (các điểm xương, khớpnối trong không gian 3-D) Trong nghiên cứu này, luận án sử dụng một cảm biến MSKinect phiên bản 1 [25] Cảm biến MS Kinect được gắn trên một giá cố định đặt ở mộtphía của không gian lớp dạy võ và được kết nối với máy tính Laptop thông qua cổngUSB như minh họa trong Hình 5 Trong quá trình xây dựng hệ thống thật về tái tạokhung cảnh 3-D và ước lượng tư thế, khung xương của người trong khung cảnh trêncác video võ cổ truyền thì nghiên cứu này yêu cầu một số ràng buộc như sau:

ˆ Cảm biến MS Kinect phiên bản 1:

– Một cảm biến MS Kinect phiên bản 1 được gắn trên giá cố định và đượcđặt ở một phía của lớp dạy võ thuật

– Một cảm biến MS Kinect phiên bản 1 thu thập được ảnh màu, ảnh độ sâuvới tốc độ thông thường từ (từ 10 đến 30 khung hình/giây) [127] với độ phângiải 640×480 điểm ảnh cho cả hai loại ảnh Do cảm biến MS Kinect đượcgắn trên giá cố định và có hướng thẳng vào giữa vùng biểu diễn của lớp võthuật nên dữ liệu thu được thường có trục z (màu xanh dương) hướng thẳngvào người và cũng chính là khoảng cách từ cảm biến MS Kinect đến người,còn trục x (màu đỏ) hướng sang ngang và trục y (màu xanh là cây) hướnglên trên, được thể hiện ở hình trái trong Hình 4 Trong các tình huống thực

tế, không có yêu cầu cụ thể để thu thập dữ liệu hình ảnh

– Người (võ sư, học viên) biểu diễn võ thuật nằm trong vùng đã được giới hạn

có kích thước là 3×3m như minh họa trong hình 5 Do giới hạn thu được

dữ liệu của cảm biến MS Kinect phiên bản 1 là 0.8 - 4m và góc nghiêng tối

đa là 30o quanh tâm trục của cảm biến MS Kinect

Trang 23

USB connector

Hình 5 Minh họa thiết lập các thiết bị

ˆ Người biểu diễn võ thuật là các võ sư hoặc học viên của lớp học võ thuật Có độtuổi thường từ 12 tuổi trở lên, giới tính có thể là nam hoặc nữ Người mặc trangphục không bóng, tức không bao quanh bởi nilon (do cảm biến MS Kinect phiênbản 1 sử dụng ánh sáng hồng ngoại để thu thập dữ liệu nên bề mặt bị bóng thìthường sẽ hấp thu ánh sáng hồng ngoại nên sẽ bị mất dữ liệu độ sâu)

ˆ Ảnh màu và ảnh độ sâu thu được từ cảm biến MS Kinect phiên bản 1 được kếthợp với nhau và chiếu sang không gian 3-D (thế giới thực) sử dụng bộ tham sốtrong của cảm biến này Đồng thời khung xương, tư thế của người biểu diễn võthuật trong môi trường cũng được ước lượng đầy đủ các khớp xương trong môitrường 3-D Việc xây dựng một hệ thống hoàn chỉnh về tái tạo môi trường 3-D,ước lượng khung xương của người phục vụ trực tiếp cho việc đánh giá biểu diễn

võ thuật hoặc đánh giá các bài thi của các thí sinh tham gia các môn thể thao

võ thuật là nằm ngoài phạm vi nghiên cứu của luận án này

ˆ Hiện nay, trong nghiên cứu này mới tập trung vào các video thu được từ các bàibiểu diễn võ thuật của võ sư hoặc các học viên trong lớp võ nên trong mỗi videothường chỉ có một người

Các ngữ cảnh đặt ra, các ràng buộc trong nghiên cứu của luận án để hạn chếnhững vấn đề sau:

ˆ Khi người biểu diễn võ thuật nằm trong phạm vi thu của cảm biến MS Kinectphiên bản 1 thì tránh được tình trạng mất dữ liệu do khoảng cách giữa người vàcảm biến MS Kinect là quá gần hoặc quá xa Người mặc đồ võ thuật không bóng

để không làm mất dữ liệu do bóng hấp thụ tín hiệu hồng ngoại giúp cảm biến MSKinect thu thập dữ liệu Ở một hướng nhìn cố định nên dữ liệu 3-D của người

là bị thiếu các bộ phận, do bị che khuất khi quay đi các hướng khác Một tìnhhuống khác là dữ liệu được thu thập bao gồm nhiều nhiễu vì hình ảnh độ sâuđược thu thập bởi MS Kinect thường bị ảnh hưởng bởi các điều kiện chiếu sáng.Những vấn đề này đặt ra những thách thức cho việc ước lượng khung xương, tưthế người trong cả không gian 2-D và 3-D

Trang 24

ˆ Do sự phát triển mạnh mẽ về phần cứng máy tính (sự ra đời của các loại card

đồ họa cho việc tính toán song song) và sự ra đời của các mạng nơ ron tích chậpdựa trên nền tảng học sâu Nên áp dụng bài toán ước lượng khung xương, tư thếngười trong không gian 2-D, 3-D trên nền tảng của học sâu

ˆ Thời gian tính toán: Một đám mây điểm được tạo ra từ một cặp ảnh (ảnh màu,ảnh độ sâu) có kích thước là 640 × 480 điểm ảnh tồn tại khoảng vài trăm nghìnđiểm Đặc biệt là quá trình ước lượng khung xương, tư thế người phải qua bướcước lượng trên không gian 2-D sau đó ánh xạ sang không gian 3-D Do đó quátrình cần một lượng thời gian lớn để hoàn thành việc tái tạo lại môi trường 3-D

và ước lượng đầy đủ khớp xương của người trong một cảnh Trong quá trình huấnluyện mô hình học sâu để ước lượng khung xương trong không gian 2-D thì ảnhmàu được thay đổi kích thước về kích thước phù hợp với mạng CNN nên kíchthước của ảnh thu được từ cảm biến MS Kinect là 640 × 480 điểm ảnh, khôngảnh hưởng đến các mạng CNN

4 Ý nghĩa khoa học và các đóng góp của luận án

Trong suốt luận án, các mục tiêu chính được giải quyết bằng một giải pháp thốngnhất Luận án đạt được những đóng góp sau:

ˆ Đóng góp 1: Đề xuất được một mô hình kết hợp giữa ước lượng khung xương,

tư thế trong 2-D tốt để có được một ước lượng tốt hơn trong không gian 3-D.Đặc biệt là trong trường hợp dữ liệu bị che khuất thì bộ ước lượng 3-D vẫn ướclượng đầy đủ các khớp xương Trong đó, bộ ước lượng 2-D được huấn luyện trên

bộ cơ sở dữ liệu tốt hơn với mô hình mạng nơ ron tích chập dự đoán hiệu quảhơn Kết quả thể hiện trên một nghiên cứu so sánh việc ước lượng khung xương,

tư thế người trong không gian 2-D và không gian 3-D

ˆ Đóng góp 2: Xây dựng được mô hình cơ bản cho việc đánh giá và chấm điểmcác động tác võ cổ truyền dựa trên một số khớp xương cơ bản trên cơ thể ngườitrong các video biểu diễn võ thuật cổ truyển của học sinh phổ thông của các lớp

võ Đồng thời nhận dạng động tác tấn công trên dữ liệu khung xương của người

Từ đó làm tiền đề cho việc xây dựng hệ thống hoàn chỉnh cho việc tái tạo lạimôi trường 3-D và khung xương, tư thế người trong các video võ thuật cổ truyềnphục vụ cho việc lưu trữ, tự đánh giá và dạy võ thuật trong trường phổ thông

5 Mô hình nghiên cứu và cấu trúc nội dung của luận án

Từ đầu đến cuối, luận án không giải quyết vấn đề theo cách đơn lẻ mà giải quyếtcác vấn đề thực tế đặt ra theo một mô hình thống nhất, được thể hiện trong Hình 6

Trang 25

Ứng dụng lưu

tr ữ , d ạ y, đ ánh giá các t ư th ế

MS Kinect sensor version 1

Ả nh màu Ả nh độ sâu K ế t qu ả ướ c l ượ ng đ i ể m

đạ i di ệ n và kh ớ p n ố i

K ế t qu ả bi ể u di ễ n trong không gian 3-D

và ảnh độ sâu thu được từ cảm biến MS Kinect v1, đó là hai loại dữ liệu thông dụng.Đồng thời dữ liệu khung xương là thường xuyên bị mất Tiếp theo, khung xương đượcước lượng trên ảnh màu với các mạng CNN là rất thông dụng và có kết quả rất tốthiện nay Các kết quả ước lượng 2-D được chiếu sang không gian 3-D và sử dụng bộthư viện khung xương được xây dựng sẵn có rất nhiều lợi thế so với việc phải đi huấnluyện và ước lượng khung xương trong không gian 3-D Bộ thư viện khung xương 3-Dđược xây dựng từ các bộ cơ sở dữ liệu kinh điển với vài triệu tư thế có thể có của ngườitrong không gian

Trong luận án này đề xuất một mô hình giải quyết các vấn đề thực tế đặt ra yêucầu theo một trật tự thống nhất Từ đó có cái nhìn ban đầu và định hướng trong tươnglai gần cho việc xây dựng hệ thống bảo tồn, đánh giá các tư thế võ trong môi trườngthế giới thực Mô hình đề xuất bao gồm ba pha cơ bản được thể hiện như trong Hình6

Pha thứ nhất được gọi là pha chuẩn bị dữ liệu Nó bao gồm các công việc như thuthập dữ liệu, hiệu chỉnh dữ liệu, biểu diễn dữ liệu trong môi trường 3-D Pha thứ hai

là ước lượng dữ liệu khung xương trong không gian 2-D và 3-D từ dữ liệu ảnh màu,ảnh độ sâu sau khi được hiệu chỉnh Pha thứ ba là xây dựng mô hình phát triển ứngdụng như đánh giá, chấm điểm các động tác võ và nhận dạng động tác tấn công Theo

mô hình đã đề ra, luận án thực hiện giải quyết vấn đề như trên Các nghiên cứu và

Trang 26

ứng dụng được đánh giá trên bộ dữ liệu công bố của luận án và các bộ cơ sở dữ liệu

võ thuật khác được công bố trên thế giới

Đặc biệt các nghiên cứu trong luận án được thể hiện và chia làm ba chương nhưsau:

ˆ Mở đầu: Thể hiện vấn đề thúc đẩy thực hiện nghiên cứu này, các mục tiêu chínhcủa luận án Luận án cũng trình bày các điều kiện về ngữ cảnh, các ràng buộc

và các thách thức trong thực hiện nghiên cứu này

ˆ Chương 1: Tổng quan: Chương này chủ yếu giới thiệu tổng quan học máy, họcsâu và ứng dụng, khảo sát các hệ thống về ứng dụng của ước lượng khung xương,

tư thế của người trong môi trường 2-D và 3-D Đặc biệt, các kỹ thuật liên quanđến ước lượng khung xương, tư thế của người trong cả không gian 2-D và 3-Dđều được thảo luận Luận án cũng đã trình bày các thách thức cũng như vai tròcủa ước lượng khung xương người trong không gian 3-D Đồng thời miêu tả vàgiới thiệu về cảm biến MS Kinect và các bộ dữ liệu thu thập được từ cảm biếnnày, các bộ cơ sở dữ liệu lớn về ước lượng khung xương, tư thế của người trongkhông gian 3-D cũng được giới thiệu

ˆ Chương 2: Chương này miêu tả và đánh giá việc ước lượng khung xương, tưthế người trong không gian 2-D (không gian ảnh) và 3-D.Các kết quả ước lượngkhung xương, tư thế trong không gian 2-D được đánh giá trên 2-D và chiếu sangsang không gian 3-D để đánh giá Đặc biệt trình bày chi tiết phương pháp đồng

bộ hệ trục tọa độ của dữ liệu cho việc đánh giá khung xương, tư thế ước lượngđược trong không gian 3-D Đánh giá ước lượng trong không gian 3-D với bộ dữliệu công bố của luận án về các video võ thuật cổ truyền Việt Nam Đặc biệt làđánh giá khả năng ước lượng các khớp xương trong trường hợp dữ liệu bị chekhuất Đánh giá ước lượng khung xương, tư thế người trên các bộ dữ liệu võ cổtruyền khác đã được công bố trên thế giới Đóng góp của chương này được công

bố trong các bài báo sau:

J1 Tuong-Thanh Nguyen, Van-Hung Le, Thanh-Cong Pham (2019), 3-DHuman Pose Estimation by Convolutional Neural Network in The VideoTraditional Martial Arts Presentation, Journal of Science and Technology,ISSN: No.139/2019, ISSN 2354-1083;pp43-49

J2 Tuong-Thanh Nguyen, Van-Hung Le, Thanh-Cong Pham (2019), AnEvaluation of Pose Estimation in The Video Traditional Martial Arts Pre-sentation, Research and development on information and communicationtechnology,No2/2019, ISSN: 1859-3534, (Đã chấp nhận đăng)

C1 Van-Hung Le, Tuong-Thanh Nguyen, Thanh-Cong Pham (2019),

Trang 27

Open-Pose’s evaluation in The Video Traditional Martial Arts Presentation 19thInternational Symposium on Communications and Information Technologies(ISCIT), ISBN 978-1-7281-5008-6, pp76-81.

J3 Tuong-Thanh Nguyen, Van-Hung Le, Long Duong, Dung Le, Cong Pham (2019), 3-D Human Pose Estimation in Vietnamese’s VideoTraditional Martial Arts Presentation Journal of Advanced Engineering andComputation (JAEC),Vol 3, Iss 3, 2019, pp471-491

Thanh-ˆ Chương 3: Chương này giới thiệu về ứng dụng đánh giá, chấm điểm các động tác

võ cổ truyền và nhận dạng động tác tấn công trong dữ liệu khung xương người.Đóng góp của chương này được công bố trong các bài báo sau:

J4 Nguyễn Tường Thành, Nguyễn Đăng Tuyên, Lê Dũng, Phạm Thành Công,(2016), Ứng dụng camera Kinect trong xây dựng mô hình chấm điểm độngtác võ cổ truyền Việt Nam, Khoa học và Công nghệ Đại học Đà Nẵng 2016,

số 11 tr.221-224, 2016

C2 Tuong-Thanh Nguyen, Dang-Tuyen Nguyen, Dung Le, Thanh-Cong Pham(2017), Implementation of Technical Data Analysis of Skeleton Extractedfrom Camera Kinect in Grading Movements of Vietnamese Martial Arts,IEEE 2017 International Conference on Advanced Technologies for Com-munications (ATC),pp241-244, doi 10.1109/ATC.2017.8167625

C3 Nguyễn Tường Thành, Lê Thị Kim Nga , Phạm Thành Công, Lê Dũng(2019) Nhận dạng động tác tấn công trong võ cổ truyền bằng phương phápcây phân loại, Hội thảo khoa học Quốc gia "Ứng dụng công nghệ mới trongCông trình xanh" lần thứ 5, AtiGB2019, pp88-97

ˆ Kết luận: Đưa ra các kết luận về các nghiên cứu thành phần trong luận án vàcác hạn chế của luận án Đồng thời cũng định hướng các nghiên cứu tiếp theotrong tương lai gần và trong tương lai xa hơn

Trang 28

CHƯƠNG 1 TỔNG QUAN

Trong chương này, luận án trước tiên trình bày lại một số lý thuyết về học máy,học sâu, các mạng nơ ron tích chập được sử dụng nhiều trong luận án Tiếp theo luận

án hệ thống hóa (survey) lại các phương thức về ước lượng khung xương (skeleton)trên cơ thể người Các nghiên cứu thường xuất phát từ một ảnh màu, một ảnh độ sâu,một chuỗi hình ảnh hay các ảnh từ nhiều hướng nhìn khác nhau để ước lượng khungxương trên cơ thể người Đặc biệt các phân tích về các nghiên cứu liên quan cho việcước lượng khung xương trên cơ thể người trong không gian 2-D được trình bày trongPhần 1.3, các nghiên cứu liên quan về ước lượng khung xương trong không gian 3-Dđược trình bày trong Phần 1.4 Cuối cùng, các bộ cơ sở dữ liệu cho việc đánh giá ướclượng khung xương trong không gian 3-D được trình bày và phân tích trong Phần 1.5

Luận án thực hiện các nghiên cứu dựa trên mô hình của học máy và học sâu do

đó phần đầu luận án giới thiệu qua một số khái niệm, ứng dụng của học máy và họcsâu

1.1.1 Học máy

Trong luận án này điểm qua một số khái niệm cơ bản về học máy, học sâu và cácứng dụng của chúng Trong khoảng gần 30 năm qua, khái niệm, cụm từ "Học máy(máy học) machine learning" đã được nhắc đi nhắc lại rất nhiều trong ngành côngnghệ thông tin Chi tiết hơn là khoa học máy tính, trí tuệ nhân tạo Học máy là mộtlĩnh vực trong trí tuệ nhân tạo [56] Chi tiết hơn "học máy" đã bắt đầu xuất hiện năm

1950 khi nhà bác học Turing đã tạo ra "phép thử Turing" để xác định xem liệu mộtmáy tính có trí thông minh thực sự hay không Để vượt qua bài kiểm tra đó, một máytính phải có khả năng đánh lừa một con người tin rằng nó cũng là con người

Hay Arthur Samuel năm 1952, đã viết ra chương trình học máy (computer ing) đầu tiên Chương trình này là trò chơi cờ, và hãng máy tính IBM đã cải tiến tròchơi này để nó có thể tự học và tổ chức những nước đi trong chiến lược để giành chiếnthắng Năm 1957, Frank Rosenblatt đã thiết kế mạng nơron (neural network) đầu tiêncho máy tính, trong đó mô phỏng quá trình suy nghĩ của bộ não con người Toàn bộquá trình phát triển của học máy được thể hiện trong [57]

Trang 29

learn-Hình 1.1 Minh họa mô hình của học máy [58].

Trong đó định nghĩa "Học máy" được thể hiện như sau:

ˆ Theo Arthur Samuel (1959): "Máy học là ngành học cung cấp cho máy tính khảnăng học hỏi mà không cần được lập trình một cách rõ ràng"

ˆ Theo Giáo sư Tom Mitchell – Carnegie Mellon University: "Học máy là 1 chươngtrình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ

đo hiệu suất P Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lườngbởi độ đo P tăng từ kinh nghiệm E"

Hiện nay có rất nhiều thuật toán và các mô hình sử dụng học máy, cụ thể đượcthể hiện trong Hình 1.1

Học máy được chia làm hai loại là học có giám sát và học không có giám sát, nhưthể hiện ở Hình 1.2, chi tiết có thể tham khảo trong [59]

Đặc biệt học máy được áp dụng trong nhiều lĩnh vực [59]: xử lý ảnh (gắn thẻ hìnhảnh trên facebook, nhận dạng ký tự, ô tô tự lái, vv); phân tích văn bản (lọc spam,phân tích ngữ nghĩa, khai thác thông tin, vv); khai phá dữ liệu (Phát hiện bất thường,phát hiện các quy luật, gom nhóm, dự đoán, vv); trò chơi điện tử và Robot (chơi game,tương tác với robot, các hệ thống trợ giúp, vv) Ngày nay với sự phát triển của phầncứng máy tính và hệ điều hành, cũng như các yêu cầu từ thực tế ngày càng cao về độchính xác và tốc độ tính toán nên trong phần tiếp theo, luận án sẽ giới thiệu khái quát

về học sâu

Trang 30

Hình 1.2 Mô hình phân loại học máy [59].

Hiện nay có nhiều kiến trúc học sâu khác nhau như mạng nơ ron sâu, mạng nơron tích chập sâu, mạng niềm tin sâu và mạng nơ ron tái phát đã được áp dụng chocác lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tựnhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chúng đã được chứng minh làtạo ra các kết quả rất tốt đối với nhiều nhiệm vụ khác nhau

Trang 31

Hình 1.3 Mô hình của học sâu [59].

Trang 32

1.2 Hệ thống khôi phục hoạt động của người trong không gian

3-D và chấm điểm võ thuật

1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-DMingsong và các cộng sự [2] đã để xuất một mô hình theo vết và xây dựng lạikhung cảnh và người trong không gian 3-D thời gian thực Hệ thống xây dựng lại môitrường và người trong không gian 3-D dữ trên dữ liệu thu thập từ 8 cảm biến hình ảnh.Các dữ liệu thu thập được từ các cảm biến hình ảnh được hiệu chỉnh và phân đoạn

để tách riêng dữ liệu của người và các dữ liệu khác Để dự đoán và theo vết được cáchành động của người, nghiên cứu sử dụng mô hình biến dạng (deformation model) dựatrên các đặc trưng biến dạng trên ảnh độ sâu Khi có nhiều các đặc trưng có sự biếnđổi mạnh hơn vượt qua ngưỡng của mô hình biến dạng thì nghiên cứu đề xuất hàmnăng lượng bổ sung cho các ràng buộc của mô hình biến dạng Đặc biệt các kỹ thuật

về sử dụng hình bóng và khôi phục dữ liệu được sử dụng để khôi phục lại hình trạngcủa người dựa trên tập dữ liệu thu được từ các cảm biến hình ảnh Hệ thống này phải

sử dụng CPU để thu thập dữ liệu và khôi phục dữ liệu 3-D Hay Meier và các cộng sự[7] đã xây dựng một ứng dụng khôi phục, theo vết hành động của người trong khônggian 3-D Mô hình của người được thể hiện bằng dạng lưới

1.2.2 Hệ thống chấm điểm võ thuật

Hiện nay dựa trên các tìm hiểu của nghiên cứu sinh thì trên thế giới chưa có một

hệ thống chấm điểm nào được công bố để chấm điểm các môn võ thuật như: Karate,Judo, Taekwondo,vv Năm 2018, liên đoàn Karate thế giới mới chỉ đưa ra được một bộquy tắc về chấm điểm các động tác trong môn Karate [20] Bộ quy tắc này dựa trên

vị trí ra đòn vào đối phương như: Đầu, mặt, cổ, ngực, bụng, đằng trước đằng sau

2-D

Ước lượng khung xương (skeleton) và các tư thế (pose) của người là bài toán được

áp dụng trong nhiều lĩnh vực [49] như: An toàn xã hội, bảo tồn các giá trị bản sắc vănhóa (bảo tồn và duy trì các bài võ, các bài múa cổ truyền dân tộc); Sản xuất các loại

đồ chơi, các trò chơi; Tương tác với robot thông minh; Phân tích thể thao (phân tíchchiến thuật trong các môn thể thao như bóng đá, tenis, cầu lông, vv); Bảo vệ sức khỏe(phát hiện các sự kiện ngã trong bệnh viện hoặc cho người già); vv Để giải quyếtnhững bài toán này có thể dựa trên một tập hợp các phương thức như: phân tích ngườitrong ảnh, xác định vị trí người trong ảnh, xác định vị trí các điểm đại diện trên cơthể người(key points), xác định các khớp nối (joints) trên các điểm đại diện trên cơthể người (skeleton) Từ đó, vấn đề ước lượng khung xương và các tư thế của người đã

Trang 33

trở thành một vấn đề được quan tâm nghiên cứu nhiều trong thị giác máy tính.Bài toán ước lượng khung xương của người trên ảnh thường dựa trên ảnh màu,ảnh độ sâu, dựa trên đối tượng và ngữ cảnh hoạt động [49] Chi tiết của các hướngtiếp cận này được trình bày trong phần tiếp theo.

1.3.1 Ước lượng khung xương trên ảnh màu

Thông tin ảnh màu là thông tin thông dụng nhất thu được từ các camera/cảmbiến Sự thay đổi hình dạng, tư thế của cấu trúc cơ thể người trong ảnh tạo ra đặctrưng biến đổi rất mạnh (deformation) Điều đó làm cho việc ước lượng hình trạng,khung xương trên cơ thể người gặp rất nhiều khó khăn Sự biến đổi của cơ thể ngườiphức tạp được tạo thành bởi sự biến đổi của các bộ phận trên cơ thể người, đó có thểchỉ là các phép biến đổi thông thường như: Phép dịch, phép xoay, hay tăng giảm kíchthước

Felzenszwalb và các cộng sự [52] đã đề xuất hướng tiếp cận cho việc huấn luyện sựthay đổi kích thước (multiscale) và mô hình biến dạng thành phần (Deformable PartModel - DPM) cho việc phát hiện đối tượng trên ảnh Trong mô hình biến dạng mộtphần, cơ thể người được biểu diễn thành cấu trúc hình sao, bao gồm một bộ lọc gốc,một bộ các bộ phát hiện bộ phận và một mô hình biến dạng một phần Trong mô hìnhDPM, biến dạng được coi là vị trí tương đối của các bộ phận cơ thể Các đặc trưngđược trích xuất được huấn luyện trên bộ phân lớp SVM (Support Vector Machine) để

dự đoán vị trí của các bộ phận trên cơ thể người

Sun và các cộng sự [53] đã đề xuất mô hình dựa trên phần khớp nối (ArticulatedPart-based Model (APM)) để phát hiện các bộ phận của cơ thể người và ước lượng tưthế của người Mô hình APM thể hiện một đối tượng như là một bộ sưu tập của nhiềuphần ở mức độ chi tiết khác nhau, từ thô đến mịn, trong đó các bộ phận ở mọi mức

độ được kết nối với mức độ thô hơn thông qua mối quan hệ cha con Các mô hình vàquan hệ ở các mức độ được học để phát hiện ra đối tượng Pishchulin và các cộng sự[54] cũng như Andriluka [55], đều sử dụng phương thức chia cơ thể người thành các

bộ phận và huấn luyện mô hình trên các bộ phận cho việc dự đoán tư thể của người.Như Andriluka [55] thì sử dụng AdaBoost cho việc dự đoán tư thế của người

Berti và các cộng sự [50] đã đề xuất một hướng tiếp cận để cải thiện độ chính xáccủa ước lượng các hình trạng người sử dụng mô hình biến đổi phần (deformation partmodel) để vượt qua sự phức tạp tính toán Mô hình biến dạng bộ phận như trước đâychỉ được trích xuất qua kênh RGB, trong nghiên cứu này, sử dụng thêm kênh độ sâu(depth channel) để có được mô hình biến dạng bốn chiều (4-D) Do số chiều tăng lênnên để giảm độ phức tạp tính toán thì cần giảm số lượng các khớp trong không gianbiến dạng 4 chiều Cuối cùng, giải pháp hoàn chỉnh có được bằng cách giải quyết các

Trang 34

khớp bị bỏ qua bằng cách sử dụng các mô hình động học nghịch đảo Mục tiêu chínhcủa nghiên cứu này là phân tích ảnh hưởng đến độ chính xác của ước lượng các khớpxương khi sử dụng bộ lọc Kalman được thêm vào mô hình biến dạng một phần 4 chiều.1.3.2 Ước lượng khung xương trên ảnh độ sâu

Cùng với sự phát triển của phần cứng máy tính và công nghệ cảm biến Thông tinthu được từ các loại cảm biến ngoài ảnh màu còn có thể thu được thông tin về độ sâu.Thông tin 2-D là thông tin trên ảnh màu Khi thu được ảnh độ sâu nữa thì thông tinthu được từ môi trường là thông tin 3-D (thông tin về thế giới thực) Thông tin độ sâu

là rất hữu ích để giải quyết sự thay đổi ngoại hình, biến dạng và các vấn che khuất,cải thiện độ tin cậy và độ chính xác của ước lượng từ người trong các cảnh phức tạp.Plagemann và các cộng sự [62] đã đề xuất một thuật toán lọc hiệu quả cho việctheo dõi các tư thế của người với tốc độ xử lý thời gian thực (4 đến 10 khung hình/giây)

sử dụng một đoạn video dữ liệu độ sâu thu được từ một cảm biến độ sâu Trong mỗilần lặp bộ lọc, các tác giả áp dụng một hình thức tìm kiếm dựa trên mô hình cục bộkhai thác đặc tính của chuỗi khung hình liên tiếp Vì các chuyển động của người lànhanh và có thể bị che khuất nên có thể phá vỡ tìm kiếm cục bộ, bài báo sử dụng một

bộ phân loại được huấn luyện trên các bộ phận của cơ thể để phát hiện các bộ phận

cơ thể

Shotton và các cộng sự [63] đã đề xuất một phương thức mới để dự đoán nhanh

và chính xác các vị trí 3-D của khớp cơ thể từ một hình ảnh có độ sâu duy nhất, không

sử dụng thông tin tạm thời Bài báo thực hiện một cách tiếp cận nhận dạng đối tượng,thiết kế một biểu diễn các bộ phận cơ thể trung gian để ánh xạ việc ước tính trongcác trường hợp khó thành vấn đề phân loại trên điểm ảnh đơn giản hơn Tập dữ liệuhuấn luyện lớn và rất đa dạng cho phép bộ phân loại ước lượng các bộ phận cơ thể bấtbiến, hình dạng cơ thể, quần áo, v.v Cuối cùng, bài báo tạo ra các mô hình 3-D đểđánh giá các khớp cơ thể ước lượng được Hệ thống có thể chạy với tốc độ 200 khunghình/giây Đánh giá của bài báo cũng cho thấy độ chính xác cao trên cả hai bộ cơ sử

dữ liệu sinh và thực tế, và đánh giá sự ảnh hưởng của một số tham số huấn luyện môhình Bài báo đạt được độ chính xác cao khi so sánh với các công việc liên quan vàđược chứng minh cải thiện được độ chính xác của việc ước lượng khung xương trêntoàn bộ cơ thể người Đặc trưng sử dụng cho việc huấn luyện mô hình là đặc trưng bấtbiến với các phép biến đổi tư thế và hình dáng của cơ thể người

Plagemann và các cộng sự [64] đã thực hiện việc phát hiện và xác định các bộphận cơ thể trong ảnh độ sâu Bài báo thực hiện phát hiện các điểm quan tâm trên

dữ liệu lưới của người Các điểm quan tâm được xác định dựa trên việc xác định cựctrị trên bề mặt lưới, trùng khớp với các điểm nổi bật của cơ thể, các điểm có thể đượcphân loại tay, chân hoặc đầu sử dụng đặc trưng mô tả hình dạng cục bộ (local shape

Trang 35

descriptors) Cách tiếp cận của bài báo cũng cung cấp một cách tự nhiên để ước lượngmột vectơ định hướng 3-D cho một điểm quan tâm nhất định Điều này có thể được

sử dụng để chuẩn hóa các đặc trưng để đơn giản hóa việc phân loại cũng như trực tiếpước lượng định hướng của các bộ phận cơ thể trong không gian Các đặc trưng mô tảhình dạng cục bộ được huấn luyện trên các mảnh (patchs) để phân biệt các bộ phậntrên cơ thể

Jain và các cộng sự [65] đã trình bày một cách tiếp cận dựa trên mô hình để pháthiện và ước lượng tư thế của người bằng cách kết hợp dữ liệu ảnh màu và độ sâu từmột cảm biến Hệ thống được đề xuất sử dụng mô hình phát hiện dựa trên tầng (Haarcascade) và khớp mẫu để thực hiện theo dõi các bộ phận cơ thể như đầu và thân Một

mô hình hình que được sử dụng để thể hiện các bộ phận cơ thể được phát hiện Việckhớp sau đó được thực hiện độc lập cho từng bộ phận, sử dụng bản đồ biến đổi khoảngcách có trọng số Đầu ra là một mô hình phù hợp với tư thế của người trong khi đầuvào đã cho là hình ảnh Thuật toán hoạt động trong thời gian thực, hoàn toàn tự động

và có thể phát hiện nhiều người không giao nhau Tuy nhiên hệ thống này mới chỉ thựchiện ước lượng các chi của người Trong đó kết quả ước lượng các bộ phận như đầu có

độ chính xác là 98%, tay là 86.4%

Như trình bày [69] trong một đánh giá gần đây của tiếp cận dựa trên video RGB

và [70] cho tiếp cận dựa trên lược đồ ảnh chiều sâu Hiện phương pháp nhận dạnghành động của người dựa trên khung xương có thể được phân thành hai loại chính:tiếp cận dựa trên khớp nối và dựa trên phần cơ thể Tiếp cận dựa trên khớp nối xemkhung xương người như một tập hợp các điểm đại diện được nối với nhau thông quacác khớp, hướng tiếp cận dựa trên phần cơ thể xem khung xương người như sự kết nốicác phần cơ thể

Tiếp cận dựa trên khớp nối: Khung xương người được biểu diễn trong [71] sử dụngcác điểm đại diện được kết nối 3-D với nhau và các quỹ đạo được biểu diễn theo môhình phân cấp theo thời gian của hiệp phương sai

Fengjun và các cộng sự [72] đã biểu diễn khung xương người sử dụng mô hìnhMarkov ẩn (Hidden Markov Models - HMMs) Một tập 13 quỹ đạo chung trong mộtkhông gian 4-D XYZT đã được sử dụng trong [73] để biểu diễn cho một hành độngcủa con người và phép chiếu hình học (affin) của chúng được so sánh dùng một khônggian con các phép đo tương tự bất biến dựa trên các góc

Trong Wang và các cộng sự [74] đã biểu diễn khung xương người sử dụng vị trítương đối giữa cặp các khớp xương và các biến đổi theo thời gian của biểu diễn nàyđược mô hình dùng hệ thống thứ bậc các hệ số của phép biến đổi theo thời gian vàkhông gian (Fourier) Hơn nữa, cách tiếp cận dựa theo nhóm hành động đã được sửdụng với sự kết nối các điểm phân biệt được lựa chọn dùng cách tiếp cận học trên đặc

Trang 36

trưng nhiều nhân (multiple kernel).

Trong nghiên cứu [75] khung xương người được biểu diễn bằng các vị trí kết nốitương quan thông qua dịch chuyển tạm thời của khớp và bù của khớp liên quan đếnkhung hình khởi điểm ban đầu Phân loại hành động được thực hiện bằng cách dùngquy tắc Naive Bayes láng giềng gần nhất trong một không gian kích thước nhỏ hơn đượcxây dựng bằng các phân tích thành phần đặc trưng (Principal Component Analysis

- PCA) Một biểu diễn khung xương tương tự đã được sử dụng với phương pháp câyngẫu nhiên trong nghiên cứu [76] Một biểu diễn khung cảnh bất biến của khung xươngngười đã đạt được trong [26] bằng cách lượng tử hóa các điểm 3-D vào lược đồ dựa trênhướng của chúng đối với một hệ tọa độ cố định ở vị trí hông làm trung tâm Nhữngbiến đổi theo thời gian của biểu diễn khung cảnh bất biến này được mô phỏng dùngcác HMMs

Tiếp cận dựa trên các bộ phận: Cơ thể con người được chia thành năm phần khácnhau trong [77] và hoạt động của con người được thể hiện bằng cách sử dụng các thông

số chuyển động của các phần cơ thể riêng dịch chuyển ngang và dọc hoặc quay trongmặt phẳng, v.v PCA được sử dụng để biểu diễn cho một hành động của người nhưmột tổ hợp tuyến tính của tập các hành động cơ bản và phân loại chúng được thựchiện bằng cách so sánh các hệ số PCA

Chaudhry và các cộng sự [78] đã chia một khung xương người thành các phầnnhỏ hơn và mỗi một phần được biểu diễn dùng một số đặc trưng lấy cảm hứng từhình dạng sinh học Những biến đổi thời gian của các đặc trưng lấy cảm hứng từ hìnhdạng sinh học được mô phỏng bằng các hệ tuyến tính động Trong [79] một vài thôngtin điểm kết nối xương được lựa chọn tự động tại mỗi trường hợp theo thời gian dựatrên các phép đo trung bình hoặc biến đổi các góc chung, biến đổi vận tốc góc tối đacủa các khớp xương, v.v Sau đó hành động của con người được thể hiện theo trình tựthông tin của các khớp, chúng được so sánh bằng cách dùng khoảng cách Levenshtein(thể hiện khoảng cách khác biệt giữa hai chuỗi ký tự) Trình tự của khung xương đượctrình bày trong [80] sử dụng các cặp giống nhau về cấu trúc giữa phép chiếu góc kếtnối và sau đó phân loại sử dụng SVM tuyến tính

Ngoài các hướng tiếp cận dựa trên việc học là chính cho ước lượng khung xươngcủa người thì còn hướng tiếp cận dựa trên đại số Vemulapalli và các cộng sự [81] đềxuất một biểu diễn khung xương mới được mô hình một cách rõ ràng mối tương quanhình học 3-D giữa các phần cơ thể khác nhau sử dụng phép quay và tịnh tiến trongkhông gian 3D Vì các vận động cơ thể 3D một cách thô là các thành phần của mộtnhóm Euclide đặc biệt SE(3), các biểu diễn khung xương được đề xuất sẽ được mô tảdựa trên nhóm Lie SE(3) × × SE(3) là một đa tạp cong Với cách biểu diễn nàythì các vận động của cơ thể người có thể được mô hình hóa như đường cong trong một

Trang 37

nhóm Lie Do việc phân lớp các đường cong trong nhóm Lie không đơn giản nên cầnphải ánh xạ các đường cong mô tả hoạt động này từ nhóm Lie vào đại số Lie tức làtrên một không gian vector Sau đó chúng ta thực hiện phân lớp dựa trên tổ hợp kỹthuật so khớp chuỗi thời gian động (Dynamic Time Warping- DTW) (dùng để so khớp

độ tương tự giữa hai chuỗi trạng thái theo thời gian) biến động sai lệch thời gian, biểudiễn tháp (người ta hay dùng pyramid) thời gian Fourier và kỹ thuật huấn luyện SVMtuyến tính Kết quả thí nghiệm trên ba bộ dữ liệu hành động cho thấy rằng biểu diễn

đề xuất thực hiện tốt hơn so với nhiều biểu diễn khung xương hiện có Các phươngpháp đề xuất cũng nhanh hơn so với nhiều hướng tiếp cận nhận diện hành động conngười dựa trên khung xương mới nhất

1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động

Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người Do đóviệc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu choviệc ước lượng tư thế của người Cụ thể hơn là việc phát hiện và nhận dạng các bộphận trên cơ thể người Thường thì việc ước lượng các tư thế của người thường đi kèmvới bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hànhđộng của người

Desai và các cộng sự [66] đã trình bày một cách tiếp cận mới để mô hình hóa tưthế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phầncủa các tương tác và các mối quan hệ của họ Các mô hình khung xương của người,mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ướclượng chính xác khi bị che khuất và tương tác Để giải quyết bài toán ước lượng tưthế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấnluyện lớn Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linhhoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần

và tương tác đối tượng Mô hình huấn luyện cho việc phát hiện nhận dạng hành độngđược huấn luyện từ các mảnh nhỏ của các hành động Các phát hiện hành động vàphân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sởtrên bộ cơ sở dữ liệu có nhiều thách thức PASCAL Ví dụ như Hình 1 trong bài báonày là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người

Singh và các cộng sự [67] đã giải quyết vấn đề ước lượng tư thế của người trongmột hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tácvới các đối tượng cảnh Trong kịch bản như vậy, có thể ước lượng chính xác hơn bằngcách sử dụng kiến thức về đối tượng trong cảnh Bài báo đề xuất cây ngữ cảnh choviệc nối giữa mô hình tư thế và đối tượng của con người trong tương tác Để ước lượng

tư thế trong một hình ảnh, bài báo trình bày một mô hình Bayes để tối ưu ghép nốibằng cách tối đa hóa khả năng trên nhiều cây ngữ cảnh cho tất cả các tương tác Bài

Trang 38

báo đánh giá cách tiếp cận của luận án trên bộ dữ liệu gồm 65 hình ảnh và cho thấysuy luận chung của tư thế và bối cảnh cho độ chính xác cao hơn.

Yao và các cộng sự [68] đã đề xuất một mô hình kết nối tương tác giữa các đốitượng và tư thế của người Theo cách tiếp cận của bài báo, phát hiện đối tượng cungcấp một ưu tiên mạnh để ước lượng tư thế con người tốt hơn, trong khi tư thế conngười ước lượng được sử dụng để cải thiện độ chính xác của việc phát hiện các đốitượng Mô hình kết hợp này được đánh giá trên tập dữ liệu các hành động trong thểthao như đánh tenis, hay trong biểu diễn nhạc cụ

Ở Việt Nam hiện nay cũng có một số nghiên cứu về phát hiện nhận dạng hànhđộng liên quan đến tư thế và khung xương của người Như Ha và các cộng sự [82] đã

đề xuất giải pháp nhận dạng hành vi té ngã thông qua ảnh chiều sâu thu nhận được từthiết bị Kinect do Microsoft sản xuất Quá trình xử lý bao gồm các bước: (1) Thu nhậncác đặc trưng về khung xương và đường biên cơ thể thông qua việc sử dụng Kinect; (2)Tính toán các thông số đặc trưng gồm vị trí khớp và tốc độ khớp; (3) So sánh các giátrị thông số đặc trưng đó với các giá trị ngưỡng, nếu các đặc trưng đó vượt quá ngưỡng

và không tiếp tục có sự biến động lớn, hành vi té ngã được giả định rằng đã xảy ra.Kết quả thực nghiệm trong môi trường thực tế và bộ cơ sở dữ liệu MOCAP(MOtionCAPture) về khung xương cho thấy giải pháp đề xuất mang lại hiệu quả hứa hẹn Việcphát hiện hành động ngã là dựa trên vị trí của các khớp xương so với mặt sàn Mặtphẳng sàn là mặt phẳng đánh dấu cho việc phát hiện nhận dạng các hành động khác

Nó là một mặt phẳng cố định mà hệ thống bắt buộc phải phát hiện

Hay nghiên cứu của Phạm và các cộng sự [83] đã trình bày về khả năng nhận dạng

20 tư thế người với dữ liệu thu được từ camera Kinect, dữ liệu thu được từ nhiều ngườivới chiều cao khác nhau và góc thu dữ liệu khác nhau Lợi thế của việc sử dụng dữliệu khung xương thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánhsáng hay độ nhiễu của hình ảnh Nghiên cứu cũng sẽ đưa ra 4 phương pháp trích đặctrưng từ dữ liệu khung xương thu thập được từ camera Kinect Sau đó, bộ dữ liệu sẽđược đem đi huấn luyện bằng mô hình máy học véc-tơ hỗ sợ (SVM) Qua thực nghiệmcho thấy độ chính xác khi nhận dạng tư thế người đạt hơn 98%

1.3.4 Nhận xét

Như vậy, chúng ta có thể thấy hầu hết các hướng tiếp cận cho việc ước lượng tưthế của người trong không gian 2-D từ ảnh đều được thực hiện dựa trên việc học cácđặc trưng trên ảnh màu hoặc ảnh độ sâu Các đặc trưng có thể là đặc trưng trên toàn

bộ cơ thể, từ các bộ phận của cơ thể, hay sự biến dạng của các bộ phận trên cơ thể.Tuy nhiên, việc huấn luyện và ước lượng tư thế người trên ảnh thường không giải quyếtđược bài toán khi một số bộ phận của người bị che khuất

Trang 39

1.4 Ước lượng khung xương và tư thế người trong môi trường

3-D

Ước lượng tư thế người và chuyển động là công việc sử dụng phần lớn các kỹ thuật

về thị giác máy tính Bài toán này có thể thực hiện dựa trên 1 hình ảnh hoặc mộtchuỗi hình ảnh thu được từ môi trường Bài toán ước lượng tư thế người và hành độngđược áp dụng trong nhiều lĩnh vực như: Trong tương tác người máy (như nhận dạngngôn ngữ cử chỉ hay nhận dạng cử chỉ), tương tác người với robot, giám sát video (sửdụng để truyền đạt hành động của con người) [84] Việc ước lượng tư thế người cũngđược thực hiện theo hai hướng tiếp cận cơ bản: Ước lượng tư thế người từ một ảnh;Ước lượng tư thế người từ chuỗi ảnh Thường thì việc ước lượng tư thế người trongkhông gian 3-D được xuất phát từ ước lượng tư thế người trong không gian 2-D Môhình thường áp dụng cho việc ước lượng tư thế người trong không gian 3-D được thểhiện trong hình 3 của [84] Đặc biệt ước lượng 3-D khung xương và tư thế của người

là một kỹ thuật rất cần thiết trong việc xây dựng lại môi trường thực tế và ước lượngcác khớp xương trong trường hợp các bộ phận các chi của người bị che khuất

1.4.1 Phục hồi tư thế 3-D của người từ một ảnh

Vấn đề ước lượng 3-D khung xương và tư thế của người là vấn đề có rất nhiềuthách thức trong thị giác máy tính như: Các hoạt động phi tuyến của người, bị chekhuất bởi nền, lộn xộn các khớp trong không gian 2-D, sự nhập nhập nhằng giữa 2-D

và 3-D Hầu hết các nghiên cứu dựa theo hướng tiếp cận này đều sử dụng học sâu(deep learning) cho việc huấn luyện mô hình ước lượng

Tome và các cộng sự [85] đã đề xuất một mô hình mạng nơ ron tích chập cho việchuấn luyện mô hình ước lượng khung xương trong không gian 2-D Và mô hình chiếuviệc ước lượng trong không gian 2-D sang không gian 3-D bằng việc huấn luyện môhình ước lượng 3-D từ 3.6 triệu hành động của người trong không gian 3-D từ bộ cơ sở

dữ liệu Human 3.6M [86], [89] Trong đó dữ liệu đầu vào của hệ thống là ảnh màu, sau

đó hệ thống thực hiện ước lượng khung xương trên ảnh màu với đầu ra là 14 điểm đạidiện, sau đó 14 điểm ước lượng được sẽ được chiếu vào không gian 3-D và ước lượngđầu ra là 17 điểm đại diện trong không gian 3-D

Fang và các cộng sự đã [90] đề xuất một ngữ pháp tư thế để giải quyết vấn đề ướclượng 3-D tư thế con người Mô hình của trong bài báo này trực tiếp lấy tư thế 2-Dlàm đầu vào và tìm cách ánh xạ các điểm đại diện trong 2-D sang không gian 3-D Môhình đề xuất bao gồm một mạng để phát huy các đặc trưng liên kết theo tư thế và hệthống phân cấp về một bộ kiến thức cấu trúc cơ thể người (ví dụ: động học, đối xứng,điều phối động cơ) Mô hình đề xuất được thực hiện trên các ràng buộc cấp cao vớicác tư thế của người

Trang 40

Timm và các cộng sự [91] đã chọn ra được một mô hình để ước lượng 3-D tư thếngười trong trường hợp dữ liệu bị che khuất trên bộ cơ sở dữ liệu Human 3.6M [86],[89] Trong đó quá trình ước lượng khung xương và các khớp nối trên 2-D các tác giả

sử dụng mạng ResNet-50 [92] Sau đó toạ độ của mỗi điểm đại diện ước lượng đượcđược chiếu sang không gian 3-D Dữ liệu che khuất được tạo ra dựa trên các cấu trúchình tròn, hình chữ nhật với kích thước khác nhau trên ảnh màu Dữ liệu học là cáccảnh (S1, S5, S6, S7, S8) dữ liệu kiểm tra là các cảnh (S9, S11) của bộ dữ liệu Human3.6M [86], [89]

Ngoài ra cũng có rất nhiều nghiên cứu về ước lượng 3-D khung xương, tư thế người

từ một ảnh (khung hình) được thực hiện sớm hơn Các nghiên cứu này được liệt kê vàtóm tắt trong bảng 1 của bài báo [84]

1.4.2 Phục hồi tư thế 3-D của người

Mặc dù gần đây dựa trên những thành công của học sâu (deep learning), điểnhình là các mạng nơ ron tích chập đã được đề xuất cho bài toán ước lượng 3-D khungxương và tư thế người Quá trình này sử dụng các mạng nơ ron tích chập để huấn luyện

và ước lượng trong không gian 2-D sau đó ánh xạ vào không gian 3-D Tuy nhiên, ướclượng tư thế 3-D từ các khung hình riêng lẻ dẫn đến ước lượng không thống nhất theothời gian do lỗi độc lập trong mỗi khung hình gây ra Do đó, Hossain và các cộng sự[93] đã sử dụng thông tin tạm thời trên một chuỗi các vị trí khớp 2-D để ước lượngmột chuỗi các tư thế 3-D Bài báo đã thiết kế một mạng chuỗi theo trình tự bao gồmcác đơn vị LSTM (Long Short-Term Memory) được chuẩn hóa lớp với các kết nối đầuvào với đầu ra ở phía bộ giải mã và sử dụng ràng buộc độ mịn theo thời gian trongquá trình huấn luyện Với kiến trúc mạng như vậy làm cho bộ ước lượng chính xác hơnđến hơn 12% trên bộ cơ sở dữ liệu Human 3.6M [86], [89]

Cũng có nhiều nghiên cứu cũ hơn trong việc ước lượng 3-D khung xương, tư thếngười sử dụng một chuỗi ảnh từ một cảm biến Các nghiên cứu này được liệt kê và tómtắt trong bảng 3 của bài báo [84] và các nghiên cứu về ước lượng 3-D khung xương, tưthế người sử dụng 1 khung hình tương ứng ở nhiều hướng nhìn khác nhau được liệt kê

và tóm tắt trong bảng 2 của bài báo [84]

Hầu hết các nghiên cứu về ước lượng khung xương, tư thế trong không gian 3-Dđều sử dụng các mô hình mạng CNN để huấn luyện và ước lượng khung xương trên2-D (thường áp dụng cho đầu vào là ảnh màu)(các nghiên cứu của Pavllo CS [135],Wang CS [138], wang CS [144], vv) hoặc sử dụng dữ liệu gốc trên 2-D ( thường ápdụng cho ảnh đầu vào ảnh độ sâu) (các nghiên cứu của Karim CS [147], Hossain CS.[93], vv), sau đó chiếu sang không gian 3-D sử dụng bộ cơ sở dữ liệu gốc về khungxương trong không gian 3-D hoặc sử dụng bộ tham số trong của chính các camera đãthu thập dữ liệu để chiếu dữ liệu sang không gian 3-D Đặc biệt hầu hết các nghiên

Ngày đăng: 19/03/2020, 21:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w