Ước lượng tư thế dựa trên đối tượng và ngữ cảnh ho- 123docz.net

1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D

1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động

Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người. Do đó

việc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu cho

việc ước lượng tư thế của người. Cụ thể hơn là việc phát hiện và nhận dạng các bộ

phận trên cơ thể người. Thường thì việc ước lượng các tư thế của người thường đi kèm

với bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hành động của người.

Desai và các cộng sự [65] đã trình bày một cách tiếp cận mới để mô hình hóa tư thế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phần

của các tương tác và các mối quan hệ của họ. Các mô hình khung xương của người,

mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ước

lượng chính xác khi bị che khuất và tương tác. Để giải quyết bài toán ước lượng tư thế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấn

luyện lớn. Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linh

hoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần và tương tác đối tượng. Mô hình huấn luyện cho việc phát hiện nhận dạng hành động

được huấn luyện từ các mảnh nhỏ của các hành động. Các phát hiện hành động và

phân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sở

trên bộ cơ sở dữ liệu có nhiều thách thức PASCAL. Ví dụ như Hình 1 trong bài báo

này là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người.

Singh và các cộng sự [66] đã giải quyết vấn đề ước lượng tư thế của người trong

một hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tác

với các đối tượng cảnh. Trong kịch bản như vậy, có thể ước lượng chính xác hơn bằng

cách sử dụng kiến thức về đối tượng trong cảnh. Bài báo đề xuất cây ngữ cảnh cho

việc nối giữa mô hình tư thế và đối tượng của con người trong tương tác. Để ước lượng

tư thế trong một hình ảnh, bài báo trình bày một mô hình Bayes để tối ưu ghép nối

báo đánh giá cách tiếp cận của luận án trên bộ dữ liệu gồm 65 hình ảnh và cho thấy

suy luận chung của tư thế và bối cảnh cho độ chính xác cao hơn.

Yao và các cộng sự [67] đã đề xuất một mô hình kết nối tương tác giữa các đối

tượng và tư thế của người. Theo cách tiếp cận của bài báo, phát hiện đối tượng cung

cấp một ưu tiên mạnh để ước lượng tư thế con người tốt hơn, trong khi tư thế con

người ước lượng được sử dụng để cải thiện độ chính xác của việc phát hiện các đối tượng. Mô hình kết hợp này được đánh giá trên tập dữ liệu các hành động trong thể thao như đánh tenis, hay trong biểu diễn nhạc cụ.

Ở Việt Nam hiện nay cũng có một số nghiên cứu về phát hiện nhận dạng hành

động liên quan đến tư thế và khung xương của người. Như Ha và các cộng sự [81] đã

đề xuất giải pháp nhận dạng hành vi té ngã thông qua ảnh chiều sâu thu nhận được từ

thiết bị Kinect do Microsoft sản xuất. Quá trình xử lý bao gồm các bước: (1) Thu nhận

các đặc trưng về khung xương và đường biên cơ thể thông qua việc sử dụng Kinect; (2)

Tính toán các thông số đặc trưng gồm vị trí khớp và tốc độ khớp; (3) So sánh các giá

trị thông số đặc trưng đó với các giá trị ngưỡng, nếu các đặc trưng đó vượt quá ngưỡng

và không tiếp tục có sự biến động lớn, hành vi té ngã được giả định rằng đã xảy ra.

Kết quả thực nghiệm trong môi trường thực tế và bộ cơ sở dữ liệu MOCAP(MOtion

CAPture) về khung xương cho thấy giải pháp đề xuất mang lại hiệu quả hứa hẹn Việc

phát hiện hành động ngã là dựa trên vị trí của các khớp xương so với mặt sàn. Mặt

phẳng sàn là mặt phẳng đánh dấu cho việc phát hiện nhận dạng các hành động khác.

Nó là một mặt phẳng cố định mà hệ thống bắt buộc phải phát hiện.

Hay nghiên cứu của Phạm và các cộng sự [82] đã trình bày về khả năng nhận dạng

20 tư thế người với dữ liệu thu được từ camera Kinect, dữ liệu thu được từ nhiều người

với chiều cao khác nhau và góc thu dữ liệu khác nhau. Lợi thế của việc sử dụng dữ

liệu khung xương thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánh

sáng hay độ nhiễu của hình ảnh. Nghiên cứu cũng sẽ đưa ra 4 phương pháp trích đặc

trưng từ dữ liệu khung xương thu thập được từ camera Kinect. Sau đó, bộ dữ liệu sẽ

được đem đi huấn luyện bằng mô hình máy học véc-tơ hỗ sợ (SVM). Qua thực nghiệm

cho thấy độ chính xác khi nhận dạng tư thế người đạt hơn 98%.

Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1