Phương thức đánh giá

2.1 Ước lượng khung xương trong không gian 2-D

2.1.3.3 Phương thức đánh giá

+ Đánh giá trong không gian 2-D:

Để thực hiện và đánh giá kết quả ước lượng bản đồ các điểm đại diện và các vector

tương ứng của các bộ phận trên cơ thể người trong không gian 2-D (trên ảnh). Nghiên

cứu thay đổi kích thước của ảnh đầu vào từ 640×480 điểm ảnh sang 654×368 điểm

ảnh, để phù hợp với bộ nhớ trên GPU, như theo yêu cầu của mạng nơ ron tích chập.

Quá trình đánh giá được thực hiện trên máy chủ có cấu hình đã trình bày ở trên. Quá

trình chạy bao gồm hai phần chính: Thứ nhất là thời gian chạy của mạng nơ ron tích

chập để ước lượng các bản đồ các điểm nổi bật và dự đoán vị trí các điểm, thứ hai là thời gian chạy dự đoán các khớp tương ứng trên nhiều người [24]. Hai phần này được

đánh giá về độ phức tạp lần lượt là O(1) vàO N( 2), trong đó N là số người trong ảnh.

Cũng giống như trong [24], nghiên cứu đánh giá độ tương tự của các điểm đại

diện (object key point similarity (OKS)) và sử dụng độ chính xác trung bình (average

precision (AP)) với ngưỡng OKS = 0.5. OKS được tính từ sự thay đổi kích thước

của cơ thể người so với khoảng cách giữa các điểm đại diện ước lượng được và các điểm

được đánh nhãn (ground truth). Việc tính toán tỷ lệ OKS được thực hiện trên từng

khớp được tạo ra từ các điểm đại diện ước lượng được và được tính toán theo công thức trong [23], minh họa trong hình 2.13. Công thức trong hình 2.13 được chi tiết hóa như trong công thức (2.2).

OKS = abs G(| ground −Rresult |) Gground

(2.2) trong đó G ground là độ dài của véc tơ khớp xương gốc, R result là độ dài véc tơ khớp

xương ước lượng được tương ứng theo chỉ số đã định nghĩa trước.

NếuOKS> 0.5, tức là sai khác lớn hơn 50% độ dài thì là một ước lượng sai ngược

lại là một ước lượng đúng. Đồng thời luận án cũng thực hiện đánh giá góc lệch giữa

khớp xương được gán nhãn (VG) và khớp xương ước lượng được (VE) từ các điểm đại

diện được ước lượng (AD(%)). Trong đó, góc giữa 2 vec tơ (A= argcos(VG, VE)). Nếu (A ≤ 10o) là một ước lượng đúng, ngược lại là một ước lượng sai. Tỷ lệ ( AD)

được tính bằng số ước lượng đúng chia cho tổng số khớp.

Ngoài ra nghiên cứu cũng tính khoảng cách trung bình của các điểm đại diện ước

Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp được tạo ra từ các điểm đại diện [28]

sẵn như trong công thức (2.3).

D p( g, pe) = q (xg −xe)2+ (yg −ye)2 (2.3)

trong đó D là khoảng cách giữa hai điểm (p g, pe), pe là điểm đại diện ước lượng

được mà có tọa độ là (x e, ye), pg là điểm đại diện được đánh dấu mà có tọa độ (x g, yg)

trong không gian ảnh. Trong nghiên cứu này, luận án đánh giá độ đo (AD) vì trong

thực tế có nhiều trường hợp khớp xương ước lượng có độ dài tương đồng với khớp

xương gốc, nhưng nó bị lệch lên hoặc lệch xuống. Ví dụ: khớp xương khuỷa tay của dữ

liệu gốc là thẳng sang ngang, nhưng khớp xương khuỷa tay ước lượng được là bị gấp

lên trên. Hay khi khớp xương khuỷa tay gốc và khớp xương khuỷa tay ước lượng được

là song song với nhau nên luận án cần đánh giá thêm độ đo (D) về khoảng cách giữa

các điểm đại diện ước lượng được và dữ liệu gốc.

Với dữ liệu đầu vào của hệ thống là ảnh màu, video. Dữ liệu đầu ra là kết quả ước lượng các điểm đại diện trên ảnh, đồng thời các khớp nối giữa các điểm đại diện

cũng được thể hiện. Dữ liệu về nhãn và vị trí của các điểm đại diện ước lượng cũng

được nghiên cứu lưu trữ ra file theo cấu trúc đã được định nghĩa trước như Hình 2.14.

Trong nghiên cứu này, nghiên cứu đánh giá việc ước lượng khung xương, tư thế người theo các phương thức như trong Hình 2.15.

Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được. Trong đó, các điểm

màu xanh là các điểm quan tâm và đánh giá trong bài báo này. Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm.

Như vậy các độ đánh giá trên là sử dụng để đánh giá kết quả ước lượng trong

không gian 2-D. Do đó, các độ đo này sử dụng để đánh giá kết quả ước lượng trên tập

cơ sở dữ liệu SVNMA. Các kết quả được thể hiện trong Phần 2.1.3.5. + Đánh giá trong không gian 3-D:

Việc đánh giá kết quả ước lượng trong không gian 3-D là rất quan trọng, vì trong môi trường này gần với môi trường thực. Để đánh giá kết quả ước lượng khung xương

trong không gian 3-D, nghiên cứu sử dụng một độ do như sau:

Cũng giống như trong nghiên cứu của Tome và các cộng sự [84], nghiên cứu sử

dụng độ đo MPJPE (Mean Per Joint Position Error), độ đo này có nghĩa là trung

bình lỗi về vị trí của các khớp, được tính như công thức (2.4).

MP JP E k = P

i=1 p (xgi −xei)2+ (ygi−yei)2+ (zgi −zei)2

NP (2.4)

trong đó, (xgi, ygi, zgi) là tọa độ của điểm xương của dữ liệu gốc (ground truth) trong không gian 3-D; (xe i, yei, zei) là tọa độ của điểm xương thứ i th của dữ liệu

ước lượng được (estimation) trong không gian 3-D; N P là số điểm xương thứ ith trên mỗi khung xương; k là chỉ số khớp xương người của khung hình thứ k th

Openpose_COCO được hu n luy n ấ ệ trên COCO dataset (Method 1) Openpose_Human 3.6M được hu n ấ luy n trên Human ệ

3.6M dataset (Method 2)

Bộ ước lượng khung xương, tư

thế người

K t qu c ế ả ướ lượng khung x ng, t th ươ ư ế

ng iườ Ảnh u vàođầ Stacked Hourglass Networks

for Human Pose Estimation (Alejandro et al. ECCV 2016)

K t qu trên 2-Dế ả

K t qu chi u ế ả ế sang 3-D

Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khung xương, tư thế người trong không gian ảnh.

Với độ đo này có thể sử dụng để đánh giá kết quả ước lượng khung xương trong không

gian 3-D với hai cơ sở dữ liệu: VNMA, MADS.

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1