2.2 Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất
2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương ngườ
Vấn đề ước lượng khung xương, tư thế 3-D của người là một vấn đề có nhiều thách
thức như hệ tọa độ của dữ liệu huấn luyện với dữ liệu kiểm tra. Hay số lượng và độ
phức tạp để tạo nên một mô hình ước lượng các điểm xương trong không 3-D là rất
lớn. Như đã trình bày thì vấn đề ước lượng khung xương, tư thế 3-D của người thường
được giải quyết theo hai hướng là ánh xạ từ kết quả ước lượng trong không gian 2-D và
ước lượng dựa trên một chuỗi hình ảnh. Trong nghiên cứu này luận án áp dụng hướng
tiếp cận của Tome và các cộng sự (CS) [84] và đề xuất một nghiên cứu so sánh để thấy được hiệu năng của của các mạng nơ ron tích chập cho việc ước lượng khung xương, tư thế của người trong không gian 3-D. Mô hình được thể hiện trong Hình 2.33.
Phương thức thứ nhất "3-D_COCO_Method": Ước lượng 2-D sử dụng CPM được
huấn luyện trên cơ sở dữ liệu COCO [23] + ước lượng 3-D trên nghiên cứu của
Tome CS. [84]. Thực chất trong hướng tiếp cận này là sử đầu ra của phương
thức 1 (Method 1), Hình 2.9 trong nghiên cứu so sánh về đánh giá ước lượng
khung xương trong không gian 2-D là đầu vào cho ước lượng, khôi phục khung xương trong không gian 3-D.
Statistics of published studies on the 3-D human pose estimation following each year
Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của người trong không gian 3-D theo từng năm.
được huấn luyện trên Human 3.6m [85] + ước lượng 3-D trên nghiên cứu của
Tome CS. [84]. Phương thức này sử dụng đầu ra của phương thức 2 (Method
2), Hình 2.9 trong nghiên cứu so sánh về đánh giá ước lượng khung xương trong
không gian 2-D là đầu vào cho ước lượng, khôi phục khung xương trong không gian 3-D.
Phương thức thứ ba "3-D_VNECT_Method": Ước lượng khung xương 2-D và 3-D sử dụng mạng VNect trong nghiên cứu của Mehta CS. [127].
Quá trình ước lượng khung xương, tư thế 3-D của người được thực hiện dựa trên
việc ánh xạ kết quả ước lượng trong không gian 2-D vào không gian 3-D. Thực chất
quá trình này là việc so sánh kết quả ước lượng trong không gian 2-D để tìm mô hình
tốt nhất trong tập dữ liệu huấn luyện. Quá trình này là quá trình đi tìm mô hình
khung xương, tư thế, với một góc quay tối ưu, mô hình gần đúng tìm được dựa trên
một phân phối Gaussian (hàm lỗi nhỏ nhất). Việc tối ưu ở đây là tối ưu một tập các
biến, từ một tập N khung xương 3-D, mỗi biểu diễn là một ma trận P i (3 ×L các)
khớp nối 3-D, ở đây i∈1 2, , ..., N và L là số khớp của người trong 3-D.
Hướng tiếp cận này tìm một ước lượng toàn cục về mức trung bình tư thế 3-D,
Ướ ược l ng khung x ng ươ trong 2-D ( trained CPM-
on COCO dataset)
Ướ ược l ng khung x ng ươ trong 2-D s d ng mô ử ụ hình Mehta et al. SIGGRAPH 2017 – trained on MPII, LSP dataset Ướ ược l ng t th 3-D ư ế b ng ph ng th c c a ằ ươ ứ ủ Mehta et al. SIGGRAPH
2017 Ảnh RGB u đầ vào Khung x ng, t th ươ ư ế ướ ược l ng được Ảnh u vàođầ
Ướ ược l ng khung x ng trên nhươ ả
Ánh x sang 3-D nh ạ ờ
k thu t so sánhỹ ậ K t qu c l ng ế trong 3-Dả ướ ượ
Human3.6m MPI-INF-3DHP Ướ ược l ng t th 3-D ư ế b ng ph ng th c c a ằ ươ ứ ủ Tome et al. CVPR 2017 3-D_COCO_Method
Ướ ược l ng khung x ng ươ trong 2-D ( trained CPM- on Human 3.6H dataset) 3-D_HUMAN3.6_Method 3-D_VNECT_Method Nghiên c u so sánh 3-Dứ
Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tư thế trong không gian 3-D.
Ri và các hệ số cơ bản a i để tối thiểu hóa theo công thức sau:
arg min R,µ,a,e,σ N X i=1 (||Pi −Ri( +µ a ie) ||22 + J X j=1 (ai,jσj)2+ ln J X j=1 σ2j) (2.19) Trong đó, aie = P j ai,jej là tương tự tenxơ của phép nhân giữa vectơ và ma trận,
|| ||. 2
2là chỉ tiêu Frobenius bình phương của ma trận, trục y được giả sử để chỉ lên và ma trận xoay mà R i được xem là phép xoay so với mặt phẳng đất. Một số tham số cơ bản của mô hình CNN trong hướng tiếp cận của Tome CS. [84] được thể hiện trong Hình 2.34.
Trong mô hình nghiên cứu so sánh phương thức thứ ba dựa trên nghiên cứu của
Mehta và các cộng sự [127], được thể hiện trong Hình 2.33. Trong mô hình nghiên cứu
thứ hai, luận án sử dụng một mô hình theo hướng sử dụng mạng nơ ron tích chập kết hợp với chuyện động của khớp xương trong động học cho việc ước lượng khung xương,
tư thế người trên ảnh sau đó ánh xạ sang không gian 3-D [127], được gọi là "VNect". Mô hình mạng này được thể hiện trong hình 2.35. Đầu vào của mô hình này là từng
Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS. [84]. khung hình màu (ảnh RGB), sau đó người được cắt bằng một khung bao được phát
hiện từ khung hình trước. Bản đồ các điểm nổi bật (heatmap) được dự đoán bằng việc
sử dụng mạng quy hồi CNN và sau đó được lọc nhờ sử dụng các mẫu khung xương
trong cơ sở dữ liệu huấn luyện. Cuối cùng các điểm đại diện được ánh xạ sang không
gian 3-D. Mô hình này được đánh giá là có tốc xử lý thời gian thực, có thể hoạt động ở môi trường ngoài trời. Rất thích hợp cho việc xây dựng các ứng dụng tương tác
người máy và ở ngoài trời. Đặc biệt việc huấn luyện các đặc trưng cho việc học và
dự đoán bản đồ các điểm nổi bật là dựa trên mạng ResNet (Deep Residual Networks)
[128], mạng này cung cấp một ý tưởng đột phá cho việc xây dựng bản đồ đặc trưng và huấn luyện. Mạng ResNet trong bài báo này được xây dựng trên nền tảng bộ thư
viện Tensorflow [129]. Mô hình trong mạng này sử dụng cở sở dữ liệu MPII [103], LSP [130], [131] cho việc huấn luyện ước lượng các điểm đại diện, khung xương trên ảnh. Và
sử dụng cơ sở dữ liệu Human 3.6M [85] và MPI-INF-3DHP [132] cho việc chiếu khung xương trong không gian ảnh sang không gian 3-D.
Hình 2.35 Minh họa kiến trúc mạng VNect [127].
Hình 2.36 Minh họa các tham số của mô hình CNN VNect.
Dữ liệu đầu ra ước lượng khung xương trong không gian 2-D và 3-D dựa trên mô
hình trong bài báo này là 21 điểm đại diện theo thứ tự như Hình 2.37. Hình 2.38 minh
họa một kết quả ước lượng các điểm đại diện trên ảnh và khung xương trong không gian 3-D.
2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D
Trong luận án này thưc hiện đánh giá trên 24 video của bộ cơ sở dữ liệu "VNMA"
đã được miêu tả trong phần 2.1.3.2. Và cũng đánh giá trên cơ sở dữ liệu MADS [31].
Qua tìm hiểu và thực hiện trên hai nghiên cứu về ước lượng khung xương, tư thế trong
không gian 3-D: Thứ nhất mô hình của Tome CS. [84] thì có đầu ra là 17 điểm trên
khung xương, đã được minh họa và sắp xếp trên Hình 2.17. Hướng tiếp cận của Mehta
CS. [127] thì có đầu ra là 21 điểm đại diện trên khung xương được thể hiện như Hình 2.37. Nên giao của hai tập dữ liệu đầu ra, luận án thực hiện đánh giá kết quả ước
lượng khung xương, tư thế trong không gian 3-D với 15 điểm đại điện, được thể hiện như trong Hình 2.39.
Và một vấn đề đồng bộ hệ trục tọa độ giữa dữ liệu ước lượng được và dữ liệu gốc
được thực hiện như đã trình bày trong Phần 2.1.3.4.
(1) Đầu
(2) Cổ (6) Vai ph iả
(7) khuyủ tay ph iả (8) c tay ph iổ ả (3) Vai trái
(4) khuyủ tay trái (5) c tay tráiổ (9) Gi a hôngữ (13) Đầu g i ph iố ả (14) Cổ chân ph i (12) Cổ chân trái ả (10) Đầu g i tráiố (12) Hông ph iả (9) Hông trái (17) Mũi
(18) Tay trái (19) Tay ph iả
(16) X ng s ngươ ố
(20) Chân trái (21) Chân ph iả
Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạng VNect.
Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu VNMA được thể hiện như trong Bảng 2.8.
Hình 2.40 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế
người trong không gian 3-D trên cơ sở dữ liệu VNMA với 15 điểm đại diện cho việc
đánh giá ở mỗi khung hình.
Như thể hiện ở Bảng 2.8 và Hình 2.40, có thể thấy kết quả ước lượng của phương
thức thứ nhất "3-D_COCO_Method" là tốt nhất (sai số về khoảng cách là 170.866 mm).
Hình 2.41 thể hiện một số kết quả ước lượng khung xương trong không gian 3-D
trên dữ liệu VNMA với 17 điểm đại diện.
+ Kết quả ước lượng khung xương trong không gian 3-D trên cơ sở dữ liệu MADS
Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu MADS được thể hiện như trong Bảng 2.9.
Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụng mạng
VNect [127]. Bên trái là kết quả ước lượng khung xương trong không gian 3-D; Giữa là
kết quả ước lượng khung xương trên ảnh; Bên phải là kết quả ước lượng các điểm đại diện của khung xương trong không gian 2-D
Hình 2.42 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế
người trong không gian 3-D trên cơ sở dữ liệu MADS với 15 điểm đại diện cho việc
đánh giá ở mỗi khung hình.
Bảng 2.9 và Hình 2.42 cho thấy kết quả ước lượng dựa trên phương thức thứ nhất
"3-D_COCO_Method" là tốt hơn hẳn hai phương thức gốc là "3-D_HUMAN3.6_Method"
[84] và "3-D_VNECT_Method" [127] trong ước lượng khung xương, tư thế người trong
không gian 3-D. Giá trị lỗi trung bình (MPJPE) của phương thức luận án đề xuất "3-
D_COCO_Method" là 87.94375 mm. Phương thức "3-D_VNECT_Method" có kết
quả thấp nhất, giá trị lỗi trung bình (MPJPE) là 139.4058 mm. Thông qua quá trình
kiểm tra và đánh dấu từng bước thực hiện của phương thức "3-D_VNECT_Method",
luận án nhận thấy kết quả ước lượng khung xương, tư thế trên ảnh (không gian 2-D)
đã thấp, minh họa trong Hình 2.43. Ta thấy kết quả ước lượng có các điểm xương nằm ngoài dữ liệu của người.
Như vậy dựa trên kết quả ở các Bảng 2.8, 2.9 và các Hình 2.40, 2.42, có thể thấy
rằng phương thức "3-D_COCO_Method" có kết quả ước lượng tốt nhất. Như vậy có
thể khẳng định rằng, khi có kết quả ước lượng 2-D tốt thì sẽ có kết quả ước lượng 3-D
tốt (giá trị trung bình của khoảng cách lỗi là thấp.)