Ước lượng khung xương trên ảnh màu

1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D

1.3.1 Ước lượng khung xương trên ảnh màu

Thông tin ảnh màu là thông tin thông dụng nhất thu được từ các camera/cảm

biến. Sự thay đổi hình dạng, tư thế của cấu trúc cơ thể người trong ảnh tạo ra đặc trưng biến đổi rất mạnh (deformation). Điều đó làm cho việc ước lượng hình trạng,

khung xương trên cơ thể người gặp rất nhiều khó khăn. Sự biến đổi của cơ thể người

phức tạp được tạo thành bởi sự biến đổi của các bộ phận trên cơ thể người, đó có thể

chỉ là các phép biến đổi thông thường như: Phép dịch, phép xoay, hay tăng giảm kích thước.

Felzenszwalb và các cộng sự [51] đã đề xuất hướng tiếp cận cho việc huấn luyện sự

thay đổi kích thước (multiscale) và mô hình biến dạng thành phần (Deformable Part

Model - DPM) cho việc phát hiện đối tượng trên ảnh. Trong mô hình biến dạng một

phần, cơ thể người được biểu diễn thành cấu trúc hình sao, bao gồm một bộ lọc gốc,

một bộ các bộ phát hiện bộ phận và một mô hình biến dạng một phần. Trong mô hình

DPM, biến dạng được coi là vị trí tương đối của các bộ phận cơ thể. Các đặc trưng

được trích xuất được huấn luyện trên bộ phân lớp SVM (Support Vector Machine) để

dự đoán vị trí của các bộ phận trên cơ thể người.

Sun và các cộng sự [52] đã đề xuất mô hình dựa trên phần khớp nối (Articulated

Part-based Model (APM)) để phát hiện các bộ phận của cơ thể người và ước lượng tư

thế của người. Mô hình APM thể hiện một đối tượng như là một bộ sưu tập của nhiều

phần ở mức độ chi tiết khác nhau, từ thô đến mịn, trong đó các bộ phận ở mọi mức

độ được kết nối với mức độ thô hơn thông qua mối quan hệ cha con. Các mô hình và

quan hệ ở các mức độ được học để phát hiện ra đối tượng. Pishchulin và các cộng sự

[53] cũng như Andriluka [54], đều sử dụng phương thức chia cơ thể người thành các

bộ phận và huấn luyện mô hình trên các bộ phận cho việc dự đoán tư thể của người.

Như Andriluka [54] thì sử dụng AdaBoost cho việc dự đoán tư thế của người.

Berti và các cộng sự [49] đã đề xuất một hướng tiếp cận để cải thiện độ chính xác

của ước lượng các hình trạng người sử dụng mô hình biến đổi phần (deformation part

model) để vượt qua sự phức tạp tính toán. Mô hình biến dạng bộ phận như trước đây

chỉ được trích xuất qua kênh RGB, trong nghiên cứu này, sử dụng thêm kênh độ sâu

(depth channel) để có được mô hình biến dạng bốn chiều (4-D). Do số chiều tăng lên

nên để giảm độ phức tạp tính toán thì cần giảm số lượng các khớp trong không gian

khớp bị bỏ qua bằng cách sử dụng các mô hình động học nghịch đảo. Mục tiêu chính

của nghiên cứu này là phân tích ảnh hưởng đến độ chính xác của ước lượng các khớp

xương khi sử dụng bộ lọc Kalman được thêm vào mô hình biến dạng một phần 4 chiều.

1.3.2 Ước lượng khung xương trên ảnh độ sâu

Cùng với sự phát triển của phần cứng máy tính và công nghệ cảm biến. Thông tin

thu được từ các loại cảm biến ngoài ảnh màu còn có thể thu được thông tin về độ sâu.

Thông tin 2-D là thông tin trên ảnh màu. Khi thu được ảnh độ sâu nữa thì thông tin

thu được từ môi trường là thông tin 3-D (thông tin về thế giới thực). Thông tin độ sâu

là rất hữu ích để giải quyết sự thay đổi ngoại hình, biến dạng và các vấn che khuất,

cải thiện độ tin cậy và độ chính xác của ước lượng từ người trong các cảnh phức tạp.

Plagemann và các cộng sự [61] đã đề xuất một thuật toán lọc hiệu quả cho việc

theo dõi các tư thế của người với tốc độ xử lý thời gian thực (4 đến 10 khung hình/giây)

sử dụng một đoạn video dữ liệu độ sâu thu được từ một cảm biến độ sâu. Trong mỗi

lần lặp bộ lọc, các tác giả áp dụng một hình thức tìm kiếm dựa trên mô hình cục bộ khai thác đặc tính của chuỗi khung hình liên tiếp. Vì các chuyển động của người là

nhanh và có thể bị che khuất nên có thể phá vỡ tìm kiếm cục bộ, bài báo sử dụng một

bộ phân loại được huấn luyện trên các bộ phận của cơ thể để phát hiện các bộ phận cơ thể.

Shotton và các cộng sự [62] đã đề xuất một phương thức mới để dự đoán nhanh

và chính xác các vị trí 3-D của khớp cơ thể từ một hình ảnh có độ sâu duy nhất, không

sử dụng thông tin tạm thời. Bài báo thực hiện một cách tiếp cận nhận dạng đối tượng,

thiết kế một biểu diễn các bộ phận cơ thể trung gian để ánh xạ việc ước tính trong

các trường hợp khó thành vấn đề phân loại trên điểm ảnh đơn giản hơn. Tập dữ liệu

huấn luyện lớn và rất đa dạng cho phép bộ phân loại ước lượng các bộ phận cơ thể bất

biến, hình dạng cơ thể, quần áo, v.v ... Cuối cùng, bài báo tạo ra các mô hình 3-D để

đánh giá các khớp cơ thể ước lượng được. Hệ thống có thể chạy với tốc độ 200 khung

hình/giây. Đánh giá của bài báo cũng cho thấy độ chính xác cao trên cả hai bộ cơ sử

dữ liệu sinh và thực tế, và đánh giá sự ảnh hưởng của một số tham số huấn luyện mô

hình. Bài báo đạt được độ chính xác cao khi so sánh với các công việc liên quan và được chứng minh cải thiện được độ chính xác của việc ước lượng khung xương trên

toàn bộ cơ thể người. Đặc trưng sử dụng cho việc huấn luyện mô hình là đặc trưng bất

biến với các phép biến đổi tư thế và hình dáng của cơ thể người.

Plagemann và các cộng sự [63] đã thực hiện việc phát hiện và xác định các bộ

phận cơ thể trong ảnh độ sâu. Bài báo thực hiện phát hiện các điểm quan tâm trên dữ liệu lưới của người. Các điểm quan tâm được xác định dựa trên việc xác định cực

trị trên bề mặt lưới, trùng khớp với các điểm nổi bật của cơ thể, các điểm có thể được

descriptors). Cách tiếp cận của bài báo cũng cung cấp một cách tự nhiên để ước lượng

một vectơ định hướng 3-D cho một điểm quan tâm nhất định. Điều này có thể được

sử dụng để chuẩn hóa các đặc trưng để đơn giản hóa việc phân loại cũng như trực tiếp

ước lượng định hướng của các bộ phận cơ thể trong không gian. Các đặc trưng mô tả

hình dạng cục bộ được huấn luyện trên các mảnh (patchs) để phân biệt các bộ phận

trên cơ thể.

Jain và các cộng sự [64] đã trình bày một cách tiếp cận dựa trên mô hình để phát

hiện và ước lượng tư thế của người bằng cách kết hợp dữ liệu ảnh màu và độ sâu từ

một cảm biến. Hệ thống được đề xuất sử dụng mô hình phát hiện dựa trên tầng (Haar

cascade) và khớp mẫu để thực hiện theo dõi các bộ phận cơ thể như đầu và thân. Một

mô hình hình que được sử dụng để thể hiện các bộ phận cơ thể được phát hiện. Việc

khớp sau đó được thực hiện độc lập cho từng bộ phận, sử dụng bản đồ biến đổi khoảng

cách có trọng số. Đầu ra là một mô hình phù hợp với tư thế của người trong khi đầu

vào đã cho là hình ảnh. Thuật toán hoạt động trong thời gian thực, hoàn toàn tự động

và có thể phát hiện nhiều người không giao nhau. Tuy nhiên hệ thống này mới chỉ thực

hiện ước lượng các chi của người. Trong đó kết quả ước lượng các bộ phận như đầu có

độ chính xác là 98%, tay là 86.4%.

Như trình bày [68] trong một đánh giá gần đây của tiếp cận dựa trên video RGB và [69] cho tiếp cận dựa trên lược đồ ảnh chiều sâu. Hiện phương pháp nhận dạng

hành động của người dựa trên khung xương có thể được phân thành hai loại chính:

tiếp cận dựa trên khớp nối và dựa trên phần cơ thể. Tiếp cận dựa trên khớp nối xem khung xương người như một tập hợp các điểm đại diện được nối với nhau thông qua

các khớp, hướng tiếp cận dựa trên phần cơ thể xem khung xương người như sự kết nối

các phần cơ thể.

Tiếp cận dựa trên khớp nối: Khung xương người được biểu diễn trong [70] sử dụng

các điểm đại diện được kết nối 3-D với nhau và các quỹ đạo được biểu diễn theo mô hình phân cấp theo thời gian của hiệp phương sai.

Fengjun và các cộng sự [71] đã biểu diễn khung xương người sử dụng mô hình

Markov ẩn (Hidden Markov Models - HMMs). Một tập 13 quỹ đạo chung trong một

không gian 4-D XYZT đã được sử dụng trong [72] để biểu diễn cho một hành động

của con người và phép chiếu hình học (affin) của chúng được so sánh dùng một không

gian con các phép đo tương tự bất biến dựa trên các góc.

Trong Wang và các cộng sự [73] đã biểu diễn khung xương người sử dụng vị trí

tương đối giữa cặp các khớp xương và các biến đổi theo thời gian của biểu diễn này

được mô hình dùng hệ thống thứ bậc các hệ số của phép biến đổi theo thời gian và

không gian (Fourier). Hơn nữa, cách tiếp cận dựa theo nhóm hành động đã được sử

trưng nhiều nhân (multiple kernel).

Trong nghiên cứu [74] khung xương người được biểu diễn bằng các vị trí kết nối

tương quan thông qua dịch chuyển tạm thời của khớp và bù của khớp liên quan đến khung hình khởi điểm ban đầu. Phân loại hành động được thực hiện bằng cách dùng quy tắc Naive Bayes láng giềng gần nhất trong một không gian kích thước nhỏ hơn được xây dựng bằng các phân tích thành phần đặc trưng (Principal Component Analysis

- PCA). Một biểu diễn khung xương tương tự đã được sử dụng với phương pháp cây ngẫu nhiên trong nghiên cứu [75]. Một biểu diễn khung cảnh bất biến của khung xương

người đã đạt được trong [25] bằng cách lượng tử hóa các điểm 3-D vào lược đồ dựa trên

hướng của chúng đối với một hệ tọa độ cố định ở vị trí hông làm trung tâm. Những biến đổi theo thời gian của biểu diễn khung cảnh bất biến này được mô phỏng dùng các HMMs.

Tiếp cận dựa trên các bộ phận: Cơ thể con người được chia thành năm phần khác

nhau trong [76] và hoạt động của con người được thể hiện bằng cách sử dụng các thông

số chuyển động của các phần cơ thể riêng dịch chuyển ngang và dọc hoặc quay trong

mặt phẳng, v.v. PCA được sử dụng để biểu diễn cho một hành động của người như

một tổ hợp tuyến tính của tập các hành động cơ bản và phân loại chúng được thực

hiện bằng cách so sánh các hệ số PCA.

Chaudhry và các cộng sự [77] đã chia một khung xương người thành các phần

nhỏ hơn và mỗi một phần được biểu diễn dùng một số đặc trưng lấy cảm hứng từ hình dạng sinh học. Những biến đổi thời gian của các đặc trưng lấy cảm hứng từ hình

dạng sinh học được mô phỏng bằng các hệ tuyến tính động. Trong [78] một vài thông

tin điểm kết nối xương được lựa chọn tự động tại mỗi trường hợp theo thời gian dựa

trên các phép đo trung bình hoặc biến đổi các góc chung, biến đổi vận tốc góc tối đa

của các khớp xương, v.v. Sau đó hành động của con người được thể hiện theo trình tự

thông tin của các khớp, chúng được so sánh bằng cách dùng khoảng cách Levenshtein

(thể hiện khoảng cách khác biệt giữa hai chuỗi ký tự). Trình tự của khung xương được

trình bày trong [79] sử dụng các cặp giống nhau về cấu trúc giữa phép chiếu góc kết

nối và sau đó phân loại sử dụng SVM tuyến tính.

Ngoài các hướng tiếp cận dựa trên việc học là chính cho ước lượng khung xương

của người thì còn hướng tiếp cận dựa trên đại số. Vemulapalli và các cộng sự [80] đề

xuất một biểu diễn khung xương mới được mô hình một cách rõ ràng mối tương quan

hình học 3-D giữa các phần cơ thể khác nhau sử dụng phép quay và tịnh tiến trong

không gian 3D. Vì các vận động cơ thể 3D một cách thô là các thành phần của một

nhóm Euclide đặc biệt SE(3), các biểu diễn khung xương được đề xuất sẽ được mô tả

dựa trên nhóm Lie SE(3) ×. . . × SE(3) là một đa tạp cong. Với cách biểu diễn này

nhóm Lie. Do việc phân lớp các đường cong trong nhóm Lie không đơn giản nên cần

phải ánh xạ các đường cong mô tả hoạt động này từ nhóm Lie vào đại số Lie tức là

trên một không gian vector. Sau đó chúng ta thực hiện phân lớp dựa trên tổ hợp kỹ

thuật so khớp chuỗi thời gian động (Dynamic Time Warping- DTW) (dùng để so khớp

độ tương tự giữa hai chuỗi trạng thái theo thời gian) biến động sai lệch thời gian, biểu

diễn tháp (người ta hay dùng pyramid) thời gian Fourier và kỹ thuật huấn luyện SVM

tuyến tính. Kết quả thí nghiệm trên ba bộ dữ liệu hành động cho thấy rằng biểu diễn

đề xuất thực hiện tốt hơn so với nhiều biểu diễn khung xương hiện có. Các phương

pháp đề xuất cũng nhanh hơn so với nhiều hướng tiếp cận nhận diện hành động con người dựa trên khung xương mới nhất.

1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động

Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người. Do đó

việc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu cho

việc ước lượng tư thế của người. Cụ thể hơn là việc phát hiện và nhận dạng các bộ

phận trên cơ thể người. Thường thì việc ước lượng các tư thế của người thường đi kèm

với bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hành động của người.

Desai và các cộng sự [65] đã trình bày một cách tiếp cận mới để mô hình hóa tư thế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phần

của các tương tác và các mối quan hệ của họ. Các mô hình khung xương của người,

mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ước

lượng chính xác khi bị che khuất và tương tác. Để giải quyết bài toán ước lượng tư thế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấn

luyện lớn. Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linh

hoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần và tương tác đối tượng. Mô hình huấn luyện cho việc phát hiện nhận dạng hành động

được huấn luyện từ các mảnh nhỏ của các hành động. Các phát hiện hành động và

phân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sở

trên bộ cơ sở dữ liệu có nhiều thách thức PASCAL. Ví dụ như Hình 1 trong bài báo

này là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người.

Singh và các cộng sự [66] đã giải quyết vấn đề ước lượng tư thế của người trong

một hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tác

.8 Minh họa cảm biến Kinect phiên bản 1

Các nghiên cứu liên quan