2.1 Ước lượng khung xương trong không gian 2-D
2.1.3.3 Phương thức đánh giá
+ Đánh giá trong không gian 2-D:
Để thực hiện và đánh giá kết quả ước lượng bản đồ các điểm đại diện và các vector
tương ứng của các bộ phận trên cơ thể người trong không gian 2-D (trên ảnh). Nghiên
cứu thay đổi kích thước của ảnh đầu vào từ 640×480 điểm ảnh sang 654×368 điểm
ảnh, để phù hợp với bộ nhớ trên GPU, như theo yêu cầu của mạng nơ ron tích chập.
Quá trình đánh giá được thực hiện trên máy chủ có cấu hình đã trình bày ở trên. Quá
trình chạy bao gồm hai phần chính: Thứ nhất là thời gian chạy của mạng nơ ron tích
chập để ước lượng các bản đồ các điểm nổi bật và dự đoán vị trí các điểm, thứ hai là thời gian chạy dự đoán các khớp tương ứng trên nhiều người [24]. Hai phần này được
đánh giá về độ phức tạp lần lượt là O(1) vàO N( 2), trong đó N là số người trong ảnh.
Cũng giống như trong [24], nghiên cứu đánh giá độ tương tự của các điểm đại
diện (object key point similarity (OKS)) và sử dụng độ chính xác trung bình (average
precision (AP)) với ngưỡng OKS = 0.5. OKS được tính từ sự thay đổi kích thước
của cơ thể người so với khoảng cách giữa các điểm đại diện ước lượng được và các điểm
được đánh nhãn (ground truth). Việc tính toán tỷ lệ OKS được thực hiện trên từng
khớp được tạo ra từ các điểm đại diện ước lượng được và được tính toán theo công thức trong [23], minh họa trong hình 2.13. Công thức trong hình 2.13 được chi tiết hóa như trong công thức (2.2).
OKS = abs G(| ground −Rresult |) Gground
(2.2) trong đó G ground là độ dài của véc tơ khớp xương gốc, R result là độ dài véc tơ khớp
xương ước lượng được tương ứng theo chỉ số đã định nghĩa trước.
NếuOKS> 0.5, tức là sai khác lớn hơn 50% độ dài thì là một ước lượng sai ngược
lại là một ước lượng đúng. Đồng thời luận án cũng thực hiện đánh giá góc lệch giữa
khớp xương được gán nhãn (VG) và khớp xương ước lượng được (VE) từ các điểm đại
diện được ước lượng (AD(%)). Trong đó, góc giữa 2 vec tơ (A= argcos(VG, VE)). Nếu (A ≤ 10o) là một ước lượng đúng, ngược lại là một ước lượng sai. Tỷ lệ ( AD)
được tính bằng số ước lượng đúng chia cho tổng số khớp.
Ngoài ra nghiên cứu cũng tính khoảng cách trung bình của các điểm đại diện ước
Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp được tạo ra từ các điểm đại diện [28]
sẵn như trong công thức (2.3).
D p( g, pe) = q (xg −xe)2+ (yg −ye)2 (2.3)
trong đó D là khoảng cách giữa hai điểm (p g, pe), pe là điểm đại diện ước lượng
được mà có tọa độ là (x e, ye), pg là điểm đại diện được đánh dấu mà có tọa độ (x g, yg)
trong không gian ảnh. Trong nghiên cứu này, luận án đánh giá độ đo (AD) vì trong
thực tế có nhiều trường hợp khớp xương ước lượng có độ dài tương đồng với khớp
xương gốc, nhưng nó bị lệch lên hoặc lệch xuống. Ví dụ: khớp xương khuỷa tay của dữ
liệu gốc là thẳng sang ngang, nhưng khớp xương khuỷa tay ước lượng được là bị gấp
lên trên. Hay khi khớp xương khuỷa tay gốc và khớp xương khuỷa tay ước lượng được
là song song với nhau nên luận án cần đánh giá thêm độ đo (D) về khoảng cách giữa
các điểm đại diện ước lượng được và dữ liệu gốc.
Với dữ liệu đầu vào của hệ thống là ảnh màu, video. Dữ liệu đầu ra là kết quả ước lượng các điểm đại diện trên ảnh, đồng thời các khớp nối giữa các điểm đại diện
cũng được thể hiện. Dữ liệu về nhãn và vị trí của các điểm đại diện ước lượng cũng
được nghiên cứu lưu trữ ra file theo cấu trúc đã được định nghĩa trước như Hình 2.14.
Trong nghiên cứu này, nghiên cứu đánh giá việc ước lượng khung xương, tư thế người theo các phương thức như trong Hình 2.15.
Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được. Trong đó, các điểm
màu xanh là các điểm quan tâm và đánh giá trong bài báo này. Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm.
Như vậy các độ đánh giá trên là sử dụng để đánh giá kết quả ước lượng trong
không gian 2-D. Do đó, các độ đo này sử dụng để đánh giá kết quả ước lượng trên tập
cơ sở dữ liệu SVNMA. Các kết quả được thể hiện trong Phần 2.1.3.5. + Đánh giá trong không gian 3-D:
Việc đánh giá kết quả ước lượng trong không gian 3-D là rất quan trọng, vì trong môi trường này gần với môi trường thực. Để đánh giá kết quả ước lượng khung xương
trong không gian 3-D, nghiên cứu sử dụng một độ do như sau:
Cũng giống như trong nghiên cứu của Tome và các cộng sự [84], nghiên cứu sử
dụng độ đo MPJPE (Mean Per Joint Position Error), độ đo này có nghĩa là trung
bình lỗi về vị trí của các khớp, được tính như công thức (2.4).
MP JP E k = P
NP
i=1 p (xgi −xei)2+ (ygi−yei)2+ (zgi −zei)2
NP (2.4)
trong đó, (xgi, ygi, zgi) là tọa độ của điểm xương của dữ liệu gốc (ground truth) trong không gian 3-D; (xe i, yei, zei) là tọa độ của điểm xương thứ i th của dữ liệu
ước lượng được (estimation) trong không gian 3-D; N P là số điểm xương thứ ith trên mỗi khung xương; k là chỉ số khớp xương người của khung hình thứ k th
Openpose_COCO được hu n luy n ấ ệ trên COCO dataset (Method 1) Openpose_Human 3.6M được hu n ấ luy n trên Human ệ
3.6M dataset (Method 2)
Bộ ước lượng khung xương, tư
thế người
K t qu c ế ả ướ lượng khung x ng, t th ươ ư ế
ng iườ Ảnh u vàođầ Stacked Hourglass Networks
for Human Pose Estimation (Alejandro et al. ECCV 2016)
K t qu trên 2-Dế ả
K t qu chi u ế ả ế sang 3-D
Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khung xương, tư thế người trong không gian ảnh.
Với độ đo này có thể sử dụng để đánh giá kết quả ước lượng khung xương trong không
gian 3-D với hai cơ sở dữ liệu: VNMA, MADS.