1.4 Ước lượng khung xương và tư thế người trong môi trường 3-D
1.4.1 Phục hồi tư thế 3-D của người từ một ảnh
Vấn đề ước lượng 3-D khung xương và tư thế của người là vấn đề có rất nhiều thách thức trong thị giác máy tính như: Các hoạt động phi tuyến của người, bị che
khuất bởi nền, lộn xộn các khớp trong không gian 2-D, sự nhập nhập nhằng giữa 2-D
và 3-D. Hầu hết các nghiên cứu dựa theo hướng tiếp cận này đều sử dụng học sâu (deep learning) cho việc huấn luyện mô hình ước lượng.
Tome và các cộng sự [84] đã đề xuất một mô hình mạng nơ ron tích chập cho việc huấn luyện mô hình ước lượng khung xương trong không gian 2-D. Và mô hình chiếu việc ước lượng trong không gian 2-D sang không gian 3-D bằng việc huấn luyện mô
hình ước lượng 3-D từ 3.6 triệu hành động của người trong không gian 3-D từ bộ cơ sở
dữ liệu Human 3.6M [85], [88]. Trong đó dữ liệu đầu vào của hệ thống là ảnh màu, sau
đó hệ thống thực hiện ước lượng khung xương trên ảnh màu với đầu ra là 14 điểm đại
diện, sau đó 14 điểm ước lượng được sẽ được chiếu vào không gian 3-D và ước lượng
đầu ra là 17 điểm đại diện trong không gian 3-D.
Fang và các cộng sự đã [89] đề xuất một ngữ pháp tư thế để giải quyết vấn đề ước
lượng 3-D tư thế con người. Mô hình của trong bài báo này trực tiếp lấy tư thế 2-D
làm đầu vào và tìm cách ánh xạ các điểm đại diện trong 2-D sang không gian 3-D. Mô
hình đề xuất bao gồm một mạng để phát huy các đặc trưng liên kết theo tư thế và hệ
thống phân cấp về một bộ kiến thức cấu trúc cơ thể người (ví dụ: động học, đối xứng,
điều phối động cơ). Mô hình đề xuất được thực hiện trên các ràng buộc cấp cao với
Timm và các cộng sự [90] đã chọn ra được một mô hình để ước lượng 3-D tư thế
người trong trường hợp dữ liệu bị che khuất trên bộ cơ sở dữ liệu Human 3.6M [85],
[88]. Trong đó quá trình ước lượng khung xương và các khớp nối trên 2-D các tác giả sử dụng mạng ResNet-50 [91]. Sau đó toạ độ của mỗi điểm đại diện ước lượng được
được chiếu sang không gian 3-D. Dữ liệu che khuất được tạo ra dựa trên các cấu trúc hình tròn, hình chữ nhật với kích thước khác nhau trên ảnh màu. Dữ liệu học là các
cảnh (S1, S5, S6, S7, S8) dữ liệu kiểm tra là các cảnh (S9, S11) của bộ dữ liệu Human 3.6M [85], [88].
Ngoài ra cũng có rất nhiều nghiên cứu về ước lượng 3-D khung xương, tư thế người từ một ảnh (khung hình) được thực hiện sớm hơn. Các nghiên cứu này được liệt kê và
tóm tắt trong bảng 1 của bài báo [83].