Kết quả ước lượng và nhận xét

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 75 - 78)

2.1 Ước lượng khung xương trong không gian 2-D

2.1.3.5 Kết quả ước lượng và nhận xét

+ Kết quả đánh giá ước lượng khung xương 2-D trên tập dữ liệu SVNMA

Tất cả các kết quả ước lượng trung bình trên tập dữ liệu SVNMA được đánh giá và thể hiện trong Bảng 2.3. Theo Bảng 2.3, kết quả trung bình của độ đo (AP) là

95.6% (dòng đầu tiên). Kết quả này là cao bởi vì trên dữ liệu kiểm tra, mỗi ảnh chỉ có

một người trong ảnh. Trong dữ liệu kiểm tra của cơ sở dữ liệu COCO[23], [28] có nhiều

người trong một ảnh. Trong video #4, kết quả là 89.6% (dòng đầu tiên của Bảng2.3)

là thấp nhất trong các video. Vì trong video 4, các khung hình là chứa rất nhiều#

nhiễu; chúng là kết quả của quá trình hiệu chỉnh giữa ảnh màu và ảnh độ sâu khi đưa về cùng một tâm.

Bảng 2.3 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệch giữa các

khớp của dữ liệu gốc và các khớp nối ước lượng được (AD) và khoảng cách giữa các

trung bình giữa các điểm đại diện ước lượng được và các điểm đại diện của dữ liệu gốc, tương ứng với nhau.

Video 1 2 3 4 5 6 7 8 9 10 11 12 13 14 AP (%) 95.4 93.7 96.2 89.6 96.1 92.8 97.4 98.8 96.9 94.5 96.9 96.2 95.7 98.2 AD(%) 93.7 94.6 92.8 90.9 95.3 94.6 95.8 97.6 97.8 95.1 97.0 95.8 96.3 96.9 Dp (pixels)21.2 18.6 9.7 25.9 | 13.8 15.7 9.4 15.4 12.4 10.1 14.0 12.8 11.3 16.9

Các kết quả ước lượng tư thế người được thể hiện trong Bảng 2.3 và Hình 2.20,

trong đó kết quả ước lượng được là 25 điểm đại diện trên cơ thể người Tuy nhiên, trong

dữ liệu các điểm đại diện của dữ liệu gốc, luận án chỉ chuẩn bị 20 điểm (có 2 điểm

trên 2 bàn tay). Do đó, việc đánh giá kết quả cũng chỉ được thực hiện trên 18 điểm

(vì dữ liệu ước lượng được không có 2 điểm trên 2 bàn tay). Kết quả ước lượng này

là có độ chính xác cao, mặc dù mô hình đã được huấn luyện sẵn trên bộ cơ sở dữ liệu

MSCOCO Key points Challeng [23] và dữ liệu kiểm tra của luận án có nhiều nhiễu

(dữ liệu bị mờ). Các kết quả trên dòng thứ 2 của Bảng 2.3 thể hiện độ chính xác của kết quả ước lượng dựa trên góc lệch của các khớp nối tương ứng (AD). Độ chính xác

trung bình của các kết quả ước lượng (AD) là 95.3%. Kết quả trung bình của góc lệch

giữa điểm đại diện trên dữ liệu gốc và điểm đại diện trên dữ liệu ước lượng được (DP) được thể hiện trong Bảng 2.3 (dòng thứ 3). Độ lệch trung bình của các điểm đại diện là 14.73 điểm ảnh. Chi tiết của các các kết quả ước lượng được thể hiện trong phụ lục. Hình 2.20 thể hiện các kết quả ước lượng khung xương người trong không gian 2-D và

3-D, trong đó số lượng điểm đại diện được thể hiện trong không gian 3-D là 17 điểm.

trên 3 video, được minh họa trong Hình 2.19. Trong Hình 2.19, luận án thể hiện đồ thị

phân bố xác suất (IOU) để ước lượng các điểm đại diện của mô hình CNN được huấn

luyện trước trên tập dữ liệu MSCOCO Key points Challeng [23]. Khi dự đoán các vùng

nổi bật với mô hình CNN, thì chỉ số tin tưởng (confidence score) dự đoán được tính

toán bằng xác suất, trong đó mỗi vùng nổi bật là một ứng cử viên vị trí của các điểm

đại diện có tọa độ (x, y), được thể hiện trong Hình 2.5 và Hình 2.6. Luận án nhận thấy

xác xuất suất dự đoán tập trung từ 0.7 đến 0.9. Điều đó có nghĩa là mô hình đã được

huấn luyện trong [21] có xác suất dự đoán cao (khả năng dự đoán là mạnh). + Kết quả đánh giá ước lượng khung xương 3-D trên tập dữ liệu VNMA

Để đánh giá kết quả ước lượng khung xương trong không gian 3-D trên tập dữ liệu VNMA, luận án thực hiện chuyển các điểm đại diện ước lượng trên ảnh sang không gian 3-D. Việc này được thưc hiện bằng cách kết hợp điểm đại diện ước lượng

được có tọa độ (x, y) trên ảnh màu với điểm ảnh có tọa độ (x, y) trên ảnh độ sâu,

sử dụng giá trị độ sâu depthvalue x, y( ) và dựa trên công thức (1.3). Do đầu ra khi

sử dụng CPM theo phương thức của [84] là 14 điểm, được minh họa và liệt kê trong

Hình 2.21. Nên dữ liệu gốc trên tập dữ liệu này cũng được đồng bộ về 14 điểm theo

thứ tự như trong Hình 2.21. Để thực hiện luận án phát triển một công cụ nhỏ có tên là "Edit_result_17p_14p_our_groundtruth.m" trong đường dẫn https://github.

com/PandaThanh/3d_code

Do khi kiểm tra qua mạng CNN của [84] nên hệ trục tọa độ thay đổi, nên để thực

hiện việc đánh giá luận án thực hiện xoay và dịch hệ trục tọa độ của 14 điểm trên

khung xương ước lượng được về cùng hệ trục tọa độ với khung xương dữ liệu gốc. Quá trình này được thực hiện theo Phần 2.1.3.4.

Kết quả trên tập dữ liệu VNMA theo độ đo MPJPE(Mean Per Joint Position Error)(mm -milimet) được thể hiện trong Bảng 2.4.

Trong đó, Bảng 2.4 đánh giá kết quả ước lượng khung xương trên số khung hình được thể hiện trong Bảng 2.5.

Như Bảng 2.4, khoảng cách lỗi càng nhỏ là càng tốt. Trong khi số khung hình sử

dụng để đánh giá càng nhiều là càng tốt, thể hiện trong Bảng 2.5. Điều này xảy ra vì từ kết quả ước lượng khung xương trong không gian 2-D (trên ảnh), khi lấy điểm ảnh (pixel) của điểm xương ước lượng được trên không gian 2-D kết hợp với điểm ảnh trên

ảnh độ sâu tương ứng để tạo thành một điểm xương trong không gian 3-D. Tuy nhiên,

có rất nhiều trường hợp do dữ liệu độ sâu bị mất do bị hấp thụ hoặc bị thủng dữ liệu

nên không tạo được điểm xương trong không gian 3-D. Đặc biệt có nhiều trường hợp

kết quả ước lượng điểm xương nằm rời xa với cơ thể người, mà trên ảnh độ sâu thường

Hình 2.12, dữ liệu đám mây điểm được tạo ra từ sự kết hợp của ảnh màu và ảnh độ

sâu, chỉ có vùng người là có dữ liệu.

Bảng 2.4 cho thấy bộ ước lượng của CPM khi được huấn luyện trên cơ cở dữ liệu MSCOCO Key points Challeng [23] (lỗi khoảng cách giữa các điểm đại diện của dữ

liệu gốc và dữ liệu ước lượng trung bình là 79.7906 mm) là tốt hơn CMP khi được

huấn luyện trên cơ sở dữ liệu Human 3.6M [85] (lỗi trung bình là 80.37858 mm ). Các

giá trị lỗi MPJPE của từng cặp điểm đại diện được thể hiện trong Hình 2.22.

Hình 2.22 cũng một lần nữa khẳng định CPM được huấn luyện cơ sở dữ liệu

COCO là tốt hơn khi huấn luyện trên cơ sở dữ liệu Human 3.6M. Số các khoảng cách

lỗi của các cặp điểm đại diện tập trung ở mức 100cm là nhiều hơn và số các khoảng

cách lỗi tập trung từ trên 100 đến 700mm là ít hơn.

Như trong Hình 2.24, thể hiện kết quả ước lượng khung xương có điểm xương nằm

ngoài vùng người trên ảnh nên không có dữ liệu độ sâu và tạo được điểm xương trong không gian 3-D.

Trong video thứ 15, số khung hình sử dụng cho việc đánh giá ước lượng là rất ít

(5,6 khung hình), vì trong video người biểu diễn võ thuật ở rất xa so với cảm viến MS

Kinect v1 nên giá trị độ sâu gần như bằng không. Nên không thể tạo được các điểm xương trong không gian 3-D, như minh họa trong Hình 2.25.

+ Kết quả đánh giá ước lượng khung xương 3-D trên tập dữ liệu MADS

Đồng thời luận án cũng đánh giá kết quả ước lượng khung xương trong không

gian 2-D sau đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS. Cơ sở dữ liệu này đã công bố dữ liệu gốc trong không gian 3-D [31] với 19 điểm xương được sắp

xếp theo thứ từ như sau: cổ, xương chậu, hông trái, đầu gối trái, mắt cá chân trái,

hông phải, đầu gối phải, mắt cá chân phải, shouler trái, khuỷu tay trái, cổ tay trái,

tay trái, vai phải, khuỷu tay phải, cổ tay phải, tay phải, đầu. Luận án đã xây dưng

một công cụ nhỏ có tên "Edit_result_19p_14p_MADS_groundtruth.m" trong đường

dẫn https://github.com/PandaThanh/3d_code để trích 14 điểm dữ liệu gốc từ dữ

liệu gốc 3-D theo thứ tự đã được sắp xếp theo như đánh trên cơ sở dữ liệu VNMA.

Các kết quả được thể hiện trong Bảng 2.6 và số khung hình sử dụng để đánh giá được thể hiện trong Bảng 2.7.

Bảng 2.6 và Hình 2.26, CPM huấn luyện trên bộ cơ sở dữ liệu COCO (giá trị lỗi

trung bình là 130.5935083 mm) là tốt hơn CPM khi huấn luyện trên bộ cơ sở dữ liệu

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 75 - 78)

Tải bản đầy đủ (PDF)

(148 trang)