Phục hồi tư thế 3-D của người từ một ảnh

1.4 Ước lượng khung xương và tư thế người trong môi trường 3-D

1.4.1 Phục hồi tư thế 3-D của người từ một ảnh

Vấn đề ước lượng 3-D khung xương và tư thế của người là vấn đề có rất nhiều thách thức trong thị giác máy tính như: Các hoạt động phi tuyến của người, bị che

khuất bởi nền, lộn xộn các khớp trong không gian 2-D, sự nhập nhập nhằng giữa 2-D

và 3-D. Hầu hết các nghiên cứu dựa theo hướng tiếp cận này đều sử dụng học sâu (deep learning) cho việc huấn luyện mô hình ước lượng.

Tome và các cộng sự [84] đã đề xuất một mô hình mạng nơ ron tích chập cho việc huấn luyện mô hình ước lượng khung xương trong không gian 2-D. Và mô hình chiếu việc ước lượng trong không gian 2-D sang không gian 3-D bằng việc huấn luyện mô

hình ước lượng 3-D từ 3.6 triệu hành động của người trong không gian 3-D từ bộ cơ sở

dữ liệu Human 3.6M [85], [88]. Trong đó dữ liệu đầu vào của hệ thống là ảnh màu, sau

đó hệ thống thực hiện ước lượng khung xương trên ảnh màu với đầu ra là 14 điểm đại

diện, sau đó 14 điểm ước lượng được sẽ được chiếu vào không gian 3-D và ước lượng

đầu ra là 17 điểm đại diện trong không gian 3-D.

Fang và các cộng sự đã [89] đề xuất một ngữ pháp tư thế để giải quyết vấn đề ước

lượng 3-D tư thế con người. Mô hình của trong bài báo này trực tiếp lấy tư thế 2-D

làm đầu vào và tìm cách ánh xạ các điểm đại diện trong 2-D sang không gian 3-D. Mô

hình đề xuất bao gồm một mạng để phát huy các đặc trưng liên kết theo tư thế và hệ

thống phân cấp về một bộ kiến thức cấu trúc cơ thể người (ví dụ: động học, đối xứng,

điều phối động cơ). Mô hình đề xuất được thực hiện trên các ràng buộc cấp cao với

Timm và các cộng sự [90] đã chọn ra được một mô hình để ước lượng 3-D tư thế

người trong trường hợp dữ liệu bị che khuất trên bộ cơ sở dữ liệu Human 3.6M [85],

[88]. Trong đó quá trình ước lượng khung xương và các khớp nối trên 2-D các tác giả sử dụng mạng ResNet-50 [91]. Sau đó toạ độ của mỗi điểm đại diện ước lượng được

được chiếu sang không gian 3-D. Dữ liệu che khuất được tạo ra dựa trên các cấu trúc hình tròn, hình chữ nhật với kích thước khác nhau trên ảnh màu. Dữ liệu học là các

cảnh (S1, S5, S6, S7, S8) dữ liệu kiểm tra là các cảnh (S9, S11) của bộ dữ liệu Human 3.6M [85], [88].

Ngoài ra cũng có rất nhiều nghiên cứu về ước lượng 3-D khung xương, tư thế người từ một ảnh (khung hình) được thực hiện sớm hơn. Các nghiên cứu này được liệt kê và

tóm tắt trong bảng 1 của bài báo [83].

Phục hồi tư thế 3-D của người từ một ảnh

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1