Nghiên cứu so sánh về khôi phục khung xương ngườ- 123docz.net

2.2 Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất

2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương ngườ

Vấn đề ước lượng khung xương, tư thế 3-D của người là một vấn đề có nhiều thách

thức như hệ tọa độ của dữ liệu huấn luyện với dữ liệu kiểm tra. Hay số lượng và độ

phức tạp để tạo nên một mô hình ước lượng các điểm xương trong không 3-D là rất

lớn. Như đã trình bày thì vấn đề ước lượng khung xương, tư thế 3-D của người thường

được giải quyết theo hai hướng là ánh xạ từ kết quả ước lượng trong không gian 2-D và

ước lượng dựa trên một chuỗi hình ảnh. Trong nghiên cứu này luận án áp dụng hướng

tiếp cận của Tome và các cộng sự (CS) [84] và đề xuất một nghiên cứu so sánh để thấy được hiệu năng của của các mạng nơ ron tích chập cho việc ước lượng khung xương, tư thế của người trong không gian 3-D. Mô hình được thể hiện trong Hình 2.33.

Phương thức thứ nhất "3-D_COCO_Method": Ước lượng 2-D sử dụng CPM được

huấn luyện trên cơ sở dữ liệu COCO [23] + ước lượng 3-D trên nghiên cứu của

Tome CS. [84]. Thực chất trong hướng tiếp cận này là sử đầu ra của phương

thức 1 (Method 1), Hình 2.9 trong nghiên cứu so sánh về đánh giá ước lượng

khung xương trong không gian 2-D là đầu vào cho ước lượng, khôi phục khung xương trong không gian 3-D.

Statistics of published studies on the 3-D human pose estimation following each year

Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của người trong không gian 3-D theo từng năm.

được huấn luyện trên Human 3.6m [85] + ước lượng 3-D trên nghiên cứu của

Tome CS. [84]. Phương thức này sử dụng đầu ra của phương thức 2 (Method

2), Hình 2.9 trong nghiên cứu so sánh về đánh giá ước lượng khung xương trong

không gian 2-D là đầu vào cho ước lượng, khôi phục khung xương trong không gian 3-D.

Phương thức thứ ba "3-D_VNECT_Method": Ước lượng khung xương 2-D và 3-D sử dụng mạng VNect trong nghiên cứu của Mehta CS. [127].

Quá trình ước lượng khung xương, tư thế 3-D của người được thực hiện dựa trên

việc ánh xạ kết quả ước lượng trong không gian 2-D vào không gian 3-D. Thực chất

quá trình này là việc so sánh kết quả ước lượng trong không gian 2-D để tìm mô hình

tốt nhất trong tập dữ liệu huấn luyện. Quá trình này là quá trình đi tìm mô hình

khung xương, tư thế, với một góc quay tối ưu, mô hình gần đúng tìm được dựa trên

một phân phối Gaussian (hàm lỗi nhỏ nhất). Việc tối ưu ở đây là tối ưu một tập các

biến, từ một tập N khung xương 3-D, mỗi biểu diễn là một ma trận P i (3 ×L các)

khớp nối 3-D, ở đây i∈1 2, , ..., N và L là số khớp của người trong 3-D.

Hướng tiếp cận này tìm một ước lượng toàn cục về mức trung bình tư thế 3-D,

Ướ ược l ng khung x ng ươ trong 2-D ( trained CPM-

on COCO dataset)

Ướ ược l ng khung x ng ươ trong 2-D s d ng mô ử ụ hình Mehta et al. SIGGRAPH 2017 – trained on MPII, LSP dataset Ướ ược l ng t th 3-D ư ế b ng ph ng th c c a ằ ươ ứ ủ Mehta et al. SIGGRAPH

2017 Ảnh RGB u đầ vào Khung x ng, t th ươ ư ế ướ ược l ng được Ảnh u vàođầ

Ướ ược l ng khung x ng trên nhươ ả

Ánh x sang 3-D nh ạ ờ

k thu t so sánhỹ ậ K t qu c l ng ế trong 3-Dả ướ ượ

Human3.6m MPI-INF-3DHP Ướ ược l ng t th 3-D ư ế b ng ph ng th c c a ằ ươ ứ ủ Tome et al. CVPR 2017 3-D_COCO_Method

Ướ ược l ng khung x ng ươ trong 2-D ( trained CPM- on Human 3.6H dataset) 3-D_HUMAN3.6_Method 3-D_VNECT_Method Nghiên c u so sánh 3-Dứ

Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tư thế trong không gian 3-D.

Ri và các hệ số cơ bản a i để tối thiểu hóa theo công thức sau:

arg min R,µ,a,e,σ N X i=1 (||Pi −Ri( +µ a ie) ||22 + J X j=1 (ai,jσj)2+ ln J X j=1 σ2j) (2.19) Trong đó, aie = P j ai,jej là tương tự tenxơ của phép nhân giữa vectơ và ma trận,

|| ||. 2

2là chỉ tiêu Frobenius bình phương của ma trận, trục y được giả sử để chỉ lên và ma trận xoay mà R i được xem là phép xoay so với mặt phẳng đất. Một số tham số cơ bản của mô hình CNN trong hướng tiếp cận của Tome CS. [84] được thể hiện trong Hình 2.34.

Trong mô hình nghiên cứu so sánh phương thức thứ ba dựa trên nghiên cứu của

Mehta và các cộng sự [127], được thể hiện trong Hình 2.33. Trong mô hình nghiên cứu

thứ hai, luận án sử dụng một mô hình theo hướng sử dụng mạng nơ ron tích chập kết hợp với chuyện động của khớp xương trong động học cho việc ước lượng khung xương,

tư thế người trên ảnh sau đó ánh xạ sang không gian 3-D [127], được gọi là "VNect". Mô hình mạng này được thể hiện trong hình 2.35. Đầu vào của mô hình này là từng

Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS. [84]. khung hình màu (ảnh RGB), sau đó người được cắt bằng một khung bao được phát

hiện từ khung hình trước. Bản đồ các điểm nổi bật (heatmap) được dự đoán bằng việc

sử dụng mạng quy hồi CNN và sau đó được lọc nhờ sử dụng các mẫu khung xương

trong cơ sở dữ liệu huấn luyện. Cuối cùng các điểm đại diện được ánh xạ sang không

gian 3-D. Mô hình này được đánh giá là có tốc xử lý thời gian thực, có thể hoạt động ở môi trường ngoài trời. Rất thích hợp cho việc xây dựng các ứng dụng tương tác

người máy và ở ngoài trời. Đặc biệt việc huấn luyện các đặc trưng cho việc học và

dự đoán bản đồ các điểm nổi bật là dựa trên mạng ResNet (Deep Residual Networks)

[128], mạng này cung cấp một ý tưởng đột phá cho việc xây dựng bản đồ đặc trưng và huấn luyện. Mạng ResNet trong bài báo này được xây dựng trên nền tảng bộ thư

viện Tensorflow [129]. Mô hình trong mạng này sử dụng cở sở dữ liệu MPII [103], LSP [130], [131] cho việc huấn luyện ước lượng các điểm đại diện, khung xương trên ảnh. Và

sử dụng cơ sở dữ liệu Human 3.6M [85] và MPI-INF-3DHP [132] cho việc chiếu khung xương trong không gian ảnh sang không gian 3-D.

Hình 2.35 Minh họa kiến trúc mạng VNect [127].

Hình 2.36 Minh họa các tham số của mô hình CNN VNect.

Dữ liệu đầu ra ước lượng khung xương trong không gian 2-D và 3-D dựa trên mô

hình trong bài báo này là 21 điểm đại diện theo thứ tự như Hình 2.37. Hình 2.38 minh

họa một kết quả ước lượng các điểm đại diện trên ảnh và khung xương trong không gian 3-D.

2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D

Trong luận án này thưc hiện đánh giá trên 24 video của bộ cơ sở dữ liệu "VNMA"

đã được miêu tả trong phần 2.1.3.2. Và cũng đánh giá trên cơ sở dữ liệu MADS [31].

Qua tìm hiểu và thực hiện trên hai nghiên cứu về ước lượng khung xương, tư thế trong

không gian 3-D: Thứ nhất mô hình của Tome CS. [84] thì có đầu ra là 17 điểm trên

khung xương, đã được minh họa và sắp xếp trên Hình 2.17. Hướng tiếp cận của Mehta

CS. [127] thì có đầu ra là 21 điểm đại diện trên khung xương được thể hiện như Hình 2.37. Nên giao của hai tập dữ liệu đầu ra, luận án thực hiện đánh giá kết quả ước

lượng khung xương, tư thế trong không gian 3-D với 15 điểm đại điện, được thể hiện như trong Hình 2.39.

Và một vấn đề đồng bộ hệ trục tọa độ giữa dữ liệu ước lượng được và dữ liệu gốc

được thực hiện như đã trình bày trong Phần 2.1.3.4.

(1) Đầu

(2) Cổ (6) Vai ph iả

(7) khuyủ tay ph iả (8) c tay ph iổ ả (3) Vai trái

(4) khuyủ tay trái (5) c tay tráiổ (9) Gi a hôngữ (13) Đầu g i ph iố ả (14) Cổ chân ph i (12) Cổ chân trái ả (10) Đầu g i tráiố (12) Hông ph iả (9) Hông trái (17) Mũi

(18) Tay trái (19) Tay ph iả

(16) X ng s ngươ ố

(20) Chân trái (21) Chân ph iả

Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạng VNect.

Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu VNMA được thể hiện như trong Bảng 2.8.

Hình 2.40 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế

người trong không gian 3-D trên cơ sở dữ liệu VNMA với 15 điểm đại diện cho việc

đánh giá ở mỗi khung hình.

Như thể hiện ở Bảng 2.8 và Hình 2.40, có thể thấy kết quả ước lượng của phương

thức thứ nhất "3-D_COCO_Method" là tốt nhất (sai số về khoảng cách là 170.866 mm).

Hình 2.41 thể hiện một số kết quả ước lượng khung xương trong không gian 3-D

trên dữ liệu VNMA với 17 điểm đại diện.

+ Kết quả ước lượng khung xương trong không gian 3-D trên cơ sở dữ liệu MADS

Kết quả ước lượng khung xương, tư thế người trong không gian 3-D trên cơ sở dữ liệu MADS được thể hiện như trong Bảng 2.9.

Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụng mạng

VNect [127]. Bên trái là kết quả ước lượng khung xương trong không gian 3-D; Giữa là

kết quả ước lượng khung xương trên ảnh; Bên phải là kết quả ước lượng các điểm đại diện của khung xương trong không gian 2-D

Hình 2.42 thể hiện phân bố khoảng cách lỗi khi ước lượng khung xương, tư thế

người trong không gian 3-D trên cơ sở dữ liệu MADS với 15 điểm đại diện cho việc

đánh giá ở mỗi khung hình.

Bảng 2.9 và Hình 2.42 cho thấy kết quả ước lượng dựa trên phương thức thứ nhất

"3-D_COCO_Method" là tốt hơn hẳn hai phương thức gốc là "3-D_HUMAN3.6_Method"

[84] và "3-D_VNECT_Method" [127] trong ước lượng khung xương, tư thế người trong

không gian 3-D. Giá trị lỗi trung bình (MPJPE) của phương thức luận án đề xuất "3-

D_COCO_Method" là 87.94375 mm. Phương thức "3-D_VNECT_Method" có kết

quả thấp nhất, giá trị lỗi trung bình (MPJPE) là 139.4058 mm. Thông qua quá trình

kiểm tra và đánh dấu từng bước thực hiện của phương thức "3-D_VNECT_Method",

luận án nhận thấy kết quả ước lượng khung xương, tư thế trên ảnh (không gian 2-D)

đã thấp, minh họa trong Hình 2.43. Ta thấy kết quả ước lượng có các điểm xương nằm ngoài dữ liệu của người.

Như vậy dựa trên kết quả ở các Bảng 2.8, 2.9 và các Hình 2.40, 2.42, có thể thấy

rằng phương thức "3-D_COCO_Method" có kết quả ước lượng tốt nhất. Như vậy có

thể khẳng định rằng, khi có kết quả ước lượng 2-D tốt thì sẽ có kết quả ước lượng 3-D

tốt (giá trị trung bình của khoảng cách lỗi là thấp.)

Nghiên cứu so sánh về khôi phục khung xương ngườ

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1