1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D
1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động
Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người. Do đó
việc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu cho
việc ước lượng tư thế của người. Cụ thể hơn là việc phát hiện và nhận dạng các bộ
phận trên cơ thể người. Thường thì việc ước lượng các tư thế của người thường đi kèm
với bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hành động của người.
Desai và các cộng sự [65] đã trình bày một cách tiếp cận mới để mô hình hóa tư thế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phần
của các tương tác và các mối quan hệ của họ. Các mô hình khung xương của người,
mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ước
lượng chính xác khi bị che khuất và tương tác. Để giải quyết bài toán ước lượng tư thế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấn
luyện lớn. Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linh
hoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần và tương tác đối tượng. Mô hình huấn luyện cho việc phát hiện nhận dạng hành động
được huấn luyện từ các mảnh nhỏ của các hành động. Các phát hiện hành động và
phân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sở
trên bộ cơ sở dữ liệu có nhiều thách thức PASCAL. Ví dụ như Hình 1 trong bài báo
này là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người.
Singh và các cộng sự [66] đã giải quyết vấn đề ước lượng tư thế của người trong
một hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tác
với các đối tượng cảnh. Trong kịch bản như vậy, có thể ước lượng chính xác hơn bằng
cách sử dụng kiến thức về đối tượng trong cảnh. Bài báo đề xuất cây ngữ cảnh cho
việc nối giữa mô hình tư thế và đối tượng của con người trong tương tác. Để ước lượng
tư thế trong một hình ảnh, bài báo trình bày một mô hình Bayes để tối ưu ghép nối
báo đánh giá cách tiếp cận của luận án trên bộ dữ liệu gồm 65 hình ảnh và cho thấy
suy luận chung của tư thế và bối cảnh cho độ chính xác cao hơn.
Yao và các cộng sự [67] đã đề xuất một mô hình kết nối tương tác giữa các đối
tượng và tư thế của người. Theo cách tiếp cận của bài báo, phát hiện đối tượng cung
cấp một ưu tiên mạnh để ước lượng tư thế con người tốt hơn, trong khi tư thế con
người ước lượng được sử dụng để cải thiện độ chính xác của việc phát hiện các đối tượng. Mô hình kết hợp này được đánh giá trên tập dữ liệu các hành động trong thể thao như đánh tenis, hay trong biểu diễn nhạc cụ.
Ở Việt Nam hiện nay cũng có một số nghiên cứu về phát hiện nhận dạng hành
động liên quan đến tư thế và khung xương của người. Như Ha và các cộng sự [81] đã
đề xuất giải pháp nhận dạng hành vi té ngã thông qua ảnh chiều sâu thu nhận được từ
thiết bị Kinect do Microsoft sản xuất. Quá trình xử lý bao gồm các bước: (1) Thu nhận
các đặc trưng về khung xương và đường biên cơ thể thông qua việc sử dụng Kinect; (2)
Tính toán các thông số đặc trưng gồm vị trí khớp và tốc độ khớp; (3) So sánh các giá
trị thông số đặc trưng đó với các giá trị ngưỡng, nếu các đặc trưng đó vượt quá ngưỡng
và không tiếp tục có sự biến động lớn, hành vi té ngã được giả định rằng đã xảy ra.
Kết quả thực nghiệm trong môi trường thực tế và bộ cơ sở dữ liệu MOCAP(MOtion
CAPture) về khung xương cho thấy giải pháp đề xuất mang lại hiệu quả hứa hẹn Việc
phát hiện hành động ngã là dựa trên vị trí của các khớp xương so với mặt sàn. Mặt
phẳng sàn là mặt phẳng đánh dấu cho việc phát hiện nhận dạng các hành động khác.
Nó là một mặt phẳng cố định mà hệ thống bắt buộc phải phát hiện.
Hay nghiên cứu của Phạm và các cộng sự [82] đã trình bày về khả năng nhận dạng
20 tư thế người với dữ liệu thu được từ camera Kinect, dữ liệu thu được từ nhiều người
với chiều cao khác nhau và góc thu dữ liệu khác nhau. Lợi thế của việc sử dụng dữ
liệu khung xương thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánh
sáng hay độ nhiễu của hình ảnh. Nghiên cứu cũng sẽ đưa ra 4 phương pháp trích đặc
trưng từ dữ liệu khung xương thu thập được từ camera Kinect. Sau đó, bộ dữ liệu sẽ
được đem đi huấn luyện bằng mô hình máy học véc-tơ hỗ sợ (SVM). Qua thực nghiệm
cho thấy độ chính xác khi nhận dạng tư thế người đạt hơn 98%.