và bị che khuất
2.2.1 Giới thiệu
Ước lượng đầy đủ khung xương, tư thế người trong không gian 3-D từ một ảnh
màu là vấn đề vẫn còn rất nhiều thách thức. Vì ước lượng trong không gian 3-D việc
trích chọn các đặc trưng cũng như huấn luyện gặp rất nhiều khó khăn do dữ liệu 3-D
phức tạp hơn rất nhiều so với dữ liệu trong không gian 2-D (không gian ảnh). Việc ước
lượng khung xương, tư thế người trong không gian 3-D được ứng dụng rất nhiều trong
thực tế khi tương tác với robot, các nghiên cứu này sẽ tạo ra môi trường tương tác
trực quan hơn. Ngoài ra ước lượng khung xương, tư thế của người trong môi trường
3-D còn được áp dụng trong nhiều ứng dụng khác như phân tích thể thao, phân tích
đánh giá và chơi các trò chơi có đồ họa 3-D, hay trong việc chăm sóc và bảo vệ sức khỏe.
Ví dụ: việc phát hiện khung xương, tư thế người trong không gian 3-D giúp phát
hiện các sự kiện ngã của người già trong bệnh viện, hay kết quả ước lượng có thể thấy được đầy đủ hành động của con người trong thế giới thực, giải quyết các trường hợp
khi các bộ phận của người bị che khuất. Trong luận án này hướng đến việc xây dựng,
tái tạo lại môi trường 3-D trực quan trong các video biểu diễn võ thuật cổ truyền. Từ
đó có thể hướng đến xây dựng các ứng dụng lưu trữ, dạy võ thuật bằng video, đánh
giá các bài biểu diễn võ thuật được truyền dạy của học sinh phổ thông. Để giải quyết
vấn đề này thì thường sử dụng thông tin đầu vào là ảnh màu hoặc ảnh độ sâu và kết
quả đầu ra là dữ liệu về khung xương, tư thế người trong không gian 3-D.
Trong luận án này, nghiên cứu sinh thực hiện một nghiên cứu so sánh, từ dữ liệu
kết quả ước lượng 2-D tốt sẽ có được kết quả ước lượng 3-D tốt hơn. Các kết quả ước lượng khung xương của người trong không gian 3-D được đánh giá trên bộ cơ sở dữ
liệu võ thuật cổ truyền Việt Nam và bộ cơ sở dữ liệu võ cổ truyền khác trên thế giới
như Tai-Chi, Karate. Chúng được đánh giá trên các độ đo về góc, khoảng cách, độ dài của các khớp xương ước lượng được. Đặc biệt trong nghiên cứu này luận án đề xuất
một phương thức đồng bộ hệ trục tọa độ trong không gian 3-D giữa các bộ cơ sở dữ
liệu, để phục vụ cho việc đánh giá. Các kết quả được thể hiện trong các phần tiếp theo
của nghiên cứu này. Cuối cùng luận án thể hiện kết quả ước lượng khung xương khi bị che khuất trong không gian 3-D, trường hợp này không ước lượng được đầy đủ các khớp xương trong không gian 2-D, như minh họa trong Hình 2.28.
2.2.2 Các nghiên cứu liên quan
Ước lượng khung xương, tư thế người trong không gian 3-D được áp dụng trong nhiều lĩnh vực như: văn hóa, thể thao, sức khỏe, công nghệ robot. Đặc biệt các nghiên
Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong không gian 3-D
với dữ liệu bị che khuất. Bên trái thể hiện kết quả ước lượng khung xương, tư thế của
người trên 2-D với bộ ước lượng [24]. Bên phải là kết quả ước lượng tư thế, khung xương
của người trong không gian 3-D sử dụng bộ ước lượng của [84].
cứu về phát hiện, nhận dạng, ước lượng đối tượng trong không gian 3-D hay tái tạo lại khung cảnh 3-D vẫn còn rất nhiều các thách thức. Để ước lượng khung xương trong không gian 3-D thường được thực hiện theo hai hướng tiếp cận là: ước lượng khung xương 3-D trên một ảnh; ước lượng khung xương trên một chuỗi ảnh [83]. Trong đó
việc ước lượng khung xương 3-D sử dụng một hình ảnh thì thường thực hiện việc ước
lượng khung xương trong không gian 2-D sau đó ánh xạ sang không gian 3-D, nếu sử
dụng ảnh màu cho việc ước lượng. Khi sử dụng ảnh độ sâu thì thực hiện chiếu vào
không gian 3-D dựa trên giá trị độ sâu trong ảnh và thực hiện ước lượng. Thường thì quá trình ước lượng khung xương 3-D được thực hiện dựa trên một tập các mẫu khung
xương tư thế trong không gian 3-D đã được xây dựng sẵn dựa vào dữ liệu đánh dấu
các điểm đại diện và các khớp xương trong không gian 3-D. Quá trình ước lượng là
quá trình ánh xạ và tìm một mô hình khung xương đã định nghĩa tốt nhất.
Như trong nghiên cứu của Tome và các cộng sự [84] đã đề xuất một hướng tiếp cận cho việc ước lượng khung xương 3-D dựa trên kết ước lượng khung xương trong
không gian 2-D (không gian ảnh), sau đó ánh xạ sang không gian 3-D. Trong đó bộ dữ
liệu khung xương chuẩn bị trước lấy từ dữ liệu gốc của bộ cơ sở dữ liệu Human 3.6M.
Quá trình so sánh và chọn mô hình khung xương tốt nhất sử dụng PCA (Principal
Component Analysis) 2-D được thể hiện như trong Hình 2.29. Trong đó hàm lỗi có giá
trị từ 71.36 đến 185.72mm trên bộ cơ sở dữ liệu Human 3.6M.
Mar và các cộng sự [117] đã đề xuất một mạng nơ ron có tên là "Deep Depth Pose
(DDP)". Dữ liệu đầu vào của mạng này là bản đồ độ sâu của một người, mạng này
thông qua một mạng nơ ron tích chập và dựa trên một tập các tư thế khung xương
của người trong không gian 3-D đã chuẩn bị sẵn để đưa ra kết quả là vị trí của các khớp xương trong không gian 3-D như minh họa trong Hình 2.30.
Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện mô hình
khung xương người trong 3-D và việc so sánh khung xương ánh xạ được từ 2-D sang
3-D với bộ dữ liệu huấn luyện [84].
Mô hình trong bài báo này được đánh giá trên hai bộ cơ sở dữ liệu là: "ITOP"
[118] và "UBC3V" [119]. Trong đó sai số về độ chính xác trên cơ sở dữ liệu "ITOP" là 10cm (tính theo khoảng cách Euclidean trong không gian 3-D) theo các hướng nhìn
và sai số về độ chính xác trên cơ sở dữ liệu "UBC3V" là 98.8% có sai số là 10cm.
Atrevi và các cộng sự [120] đã đề xuất một mô hình mới cho việc ước lượng khung
xương, tư thế 3-D của người dựa trên việc phân tích hình dạng bóng 2-D. Phương thức
này bao gồm 4 phần: thứ nhất là mô phỏng cơ sở dữ liệu hình bóng và bộ xương, thứ
hai là phát hiện người và trích xuất hình bóng 2-D, thứ ba là phù hợp hình dạng người
và bóng, cuối cùng là nhân rộng ra các bộ phận của toàn bộ khung xương và xác nhận.
Mô hình của phương thức này được thể hiện trong hình 1 của bài báo [120]. Trong đó
bước đầu tiên, cơ sở dữ liệu về hình bóng người và khung xương trong không gian 3-D
của người tương ứng được ra tạo ra bởi các phần mềm được trích dẫn chỉ số 1,2 trong
bài báo [120], bằng cách thay đổi các hoạt động khác nhau, quần áo của các hình ảnh đại diện (avatar). Bước thứ hai, bóng được phát hiện trên 2-D dựa vào việc học đặc
Hình 2.30 Minh họa mô hình hoạt động của mạng [117].
trưng HOG (Histogram of Oriented Gradients)[121] với các kích thước tăng giảm khác
nhau. Bước thứ ba là thực hiện việc miêu tả hình dáng của bóng sử dụng các miêu tả
hình học của Krawtchouk [122]. Bước cuối cùng là so khớp khung xương với mỗi hình
bóng trong cơ sở dữ liệu đã được xây dựng.
Trong hướng tiếp cận về ước lượng khung xương, tư thế 3-D của người sử dụng
một chuỗi ảnh có nghiên cứu của Rhodin và các cộng sự [123]. Trong nghiên cứu này
các tác giả đã đề xuất một mô hình ước lượng khung xương, tư thế 3-D của người dựa
trên các hình ảnh chụp từ một người ở các góc nhìn khác nhau. Trong đó mô hình
là một bộ mã hóa và giải mã được huấn luyện trên các hình ảnh để dự đoán khung
xương, tư thế của người từ một ảnh đầu vào. Sau đó kết quả ước lượng được ánh xạ
sang không gian 3-D một cách đơn giản vì tư thế của người trong không gian 3-D đã
được xây dựng từ các khung hình của người đó từ các hướng nhìn khác nhau. Mô hình ước lượng của bái báo này được thể hiện trong Hình 2.31.