1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D
1.3.1 Ước lượng khung xương trên ảnh màu
Thông tin ảnh màu là thông tin thông dụng nhất thu được từ các camera/cảm
biến. Sự thay đổi hình dạng, tư thế của cấu trúc cơ thể người trong ảnh tạo ra đặc trưng biến đổi rất mạnh (deformation). Điều đó làm cho việc ước lượng hình trạng,
khung xương trên cơ thể người gặp rất nhiều khó khăn. Sự biến đổi của cơ thể người
phức tạp được tạo thành bởi sự biến đổi của các bộ phận trên cơ thể người, đó có thể
chỉ là các phép biến đổi thông thường như: Phép dịch, phép xoay, hay tăng giảm kích thước.
Felzenszwalb và các cộng sự [51] đã đề xuất hướng tiếp cận cho việc huấn luyện sự
thay đổi kích thước (multiscale) và mô hình biến dạng thành phần (Deformable Part
Model - DPM) cho việc phát hiện đối tượng trên ảnh. Trong mô hình biến dạng một
phần, cơ thể người được biểu diễn thành cấu trúc hình sao, bao gồm một bộ lọc gốc,
một bộ các bộ phát hiện bộ phận và một mô hình biến dạng một phần. Trong mô hình
DPM, biến dạng được coi là vị trí tương đối của các bộ phận cơ thể. Các đặc trưng
được trích xuất được huấn luyện trên bộ phân lớp SVM (Support Vector Machine) để
dự đoán vị trí của các bộ phận trên cơ thể người.
Sun và các cộng sự [52] đã đề xuất mô hình dựa trên phần khớp nối (Articulated
Part-based Model (APM)) để phát hiện các bộ phận của cơ thể người và ước lượng tư
thế của người. Mô hình APM thể hiện một đối tượng như là một bộ sưu tập của nhiều
phần ở mức độ chi tiết khác nhau, từ thô đến mịn, trong đó các bộ phận ở mọi mức
độ được kết nối với mức độ thô hơn thông qua mối quan hệ cha con. Các mô hình và
quan hệ ở các mức độ được học để phát hiện ra đối tượng. Pishchulin và các cộng sự
[53] cũng như Andriluka [54], đều sử dụng phương thức chia cơ thể người thành các
bộ phận và huấn luyện mô hình trên các bộ phận cho việc dự đoán tư thể của người.
Như Andriluka [54] thì sử dụng AdaBoost cho việc dự đoán tư thế của người.
Berti và các cộng sự [49] đã đề xuất một hướng tiếp cận để cải thiện độ chính xác
của ước lượng các hình trạng người sử dụng mô hình biến đổi phần (deformation part
model) để vượt qua sự phức tạp tính toán. Mô hình biến dạng bộ phận như trước đây
chỉ được trích xuất qua kênh RGB, trong nghiên cứu này, sử dụng thêm kênh độ sâu
(depth channel) để có được mô hình biến dạng bốn chiều (4-D). Do số chiều tăng lên
nên để giảm độ phức tạp tính toán thì cần giảm số lượng các khớp trong không gian
khớp bị bỏ qua bằng cách sử dụng các mô hình động học nghịch đảo. Mục tiêu chính
của nghiên cứu này là phân tích ảnh hưởng đến độ chính xác của ước lượng các khớp
xương khi sử dụng bộ lọc Kalman được thêm vào mô hình biến dạng một phần 4 chiều.
1.3.2 Ước lượng khung xương trên ảnh độ sâu
Cùng với sự phát triển của phần cứng máy tính và công nghệ cảm biến. Thông tin
thu được từ các loại cảm biến ngoài ảnh màu còn có thể thu được thông tin về độ sâu.
Thông tin 2-D là thông tin trên ảnh màu. Khi thu được ảnh độ sâu nữa thì thông tin
thu được từ môi trường là thông tin 3-D (thông tin về thế giới thực). Thông tin độ sâu
là rất hữu ích để giải quyết sự thay đổi ngoại hình, biến dạng và các vấn che khuất,
cải thiện độ tin cậy và độ chính xác của ước lượng từ người trong các cảnh phức tạp.
Plagemann và các cộng sự [61] đã đề xuất một thuật toán lọc hiệu quả cho việc
theo dõi các tư thế của người với tốc độ xử lý thời gian thực (4 đến 10 khung hình/giây)
sử dụng một đoạn video dữ liệu độ sâu thu được từ một cảm biến độ sâu. Trong mỗi
lần lặp bộ lọc, các tác giả áp dụng một hình thức tìm kiếm dựa trên mô hình cục bộ khai thác đặc tính của chuỗi khung hình liên tiếp. Vì các chuyển động của người là
nhanh và có thể bị che khuất nên có thể phá vỡ tìm kiếm cục bộ, bài báo sử dụng một
bộ phân loại được huấn luyện trên các bộ phận của cơ thể để phát hiện các bộ phận cơ thể.
Shotton và các cộng sự [62] đã đề xuất một phương thức mới để dự đoán nhanh
và chính xác các vị trí 3-D của khớp cơ thể từ một hình ảnh có độ sâu duy nhất, không
sử dụng thông tin tạm thời. Bài báo thực hiện một cách tiếp cận nhận dạng đối tượng,
thiết kế một biểu diễn các bộ phận cơ thể trung gian để ánh xạ việc ước tính trong
các trường hợp khó thành vấn đề phân loại trên điểm ảnh đơn giản hơn. Tập dữ liệu
huấn luyện lớn và rất đa dạng cho phép bộ phân loại ước lượng các bộ phận cơ thể bất
biến, hình dạng cơ thể, quần áo, v.v ... Cuối cùng, bài báo tạo ra các mô hình 3-D để
đánh giá các khớp cơ thể ước lượng được. Hệ thống có thể chạy với tốc độ 200 khung
hình/giây. Đánh giá của bài báo cũng cho thấy độ chính xác cao trên cả hai bộ cơ sử
dữ liệu sinh và thực tế, và đánh giá sự ảnh hưởng của một số tham số huấn luyện mô
hình. Bài báo đạt được độ chính xác cao khi so sánh với các công việc liên quan và được chứng minh cải thiện được độ chính xác của việc ước lượng khung xương trên
toàn bộ cơ thể người. Đặc trưng sử dụng cho việc huấn luyện mô hình là đặc trưng bất
biến với các phép biến đổi tư thế và hình dáng của cơ thể người.
Plagemann và các cộng sự [63] đã thực hiện việc phát hiện và xác định các bộ
phận cơ thể trong ảnh độ sâu. Bài báo thực hiện phát hiện các điểm quan tâm trên dữ liệu lưới của người. Các điểm quan tâm được xác định dựa trên việc xác định cực
trị trên bề mặt lưới, trùng khớp với các điểm nổi bật của cơ thể, các điểm có thể được
descriptors). Cách tiếp cận của bài báo cũng cung cấp một cách tự nhiên để ước lượng
một vectơ định hướng 3-D cho một điểm quan tâm nhất định. Điều này có thể được
sử dụng để chuẩn hóa các đặc trưng để đơn giản hóa việc phân loại cũng như trực tiếp
ước lượng định hướng của các bộ phận cơ thể trong không gian. Các đặc trưng mô tả
hình dạng cục bộ được huấn luyện trên các mảnh (patchs) để phân biệt các bộ phận
trên cơ thể.
Jain và các cộng sự [64] đã trình bày một cách tiếp cận dựa trên mô hình để phát
hiện và ước lượng tư thế của người bằng cách kết hợp dữ liệu ảnh màu và độ sâu từ
một cảm biến. Hệ thống được đề xuất sử dụng mô hình phát hiện dựa trên tầng (Haar
cascade) và khớp mẫu để thực hiện theo dõi các bộ phận cơ thể như đầu và thân. Một
mô hình hình que được sử dụng để thể hiện các bộ phận cơ thể được phát hiện. Việc
khớp sau đó được thực hiện độc lập cho từng bộ phận, sử dụng bản đồ biến đổi khoảng
cách có trọng số. Đầu ra là một mô hình phù hợp với tư thế của người trong khi đầu
vào đã cho là hình ảnh. Thuật toán hoạt động trong thời gian thực, hoàn toàn tự động
và có thể phát hiện nhiều người không giao nhau. Tuy nhiên hệ thống này mới chỉ thực
hiện ước lượng các chi của người. Trong đó kết quả ước lượng các bộ phận như đầu có
độ chính xác là 98%, tay là 86.4%.
Như trình bày [68] trong một đánh giá gần đây của tiếp cận dựa trên video RGB và [69] cho tiếp cận dựa trên lược đồ ảnh chiều sâu. Hiện phương pháp nhận dạng
hành động của người dựa trên khung xương có thể được phân thành hai loại chính:
tiếp cận dựa trên khớp nối và dựa trên phần cơ thể. Tiếp cận dựa trên khớp nối xem khung xương người như một tập hợp các điểm đại diện được nối với nhau thông qua
các khớp, hướng tiếp cận dựa trên phần cơ thể xem khung xương người như sự kết nối
các phần cơ thể.
Tiếp cận dựa trên khớp nối: Khung xương người được biểu diễn trong [70] sử dụng
các điểm đại diện được kết nối 3-D với nhau và các quỹ đạo được biểu diễn theo mô hình phân cấp theo thời gian của hiệp phương sai.
Fengjun và các cộng sự [71] đã biểu diễn khung xương người sử dụng mô hình
Markov ẩn (Hidden Markov Models - HMMs). Một tập 13 quỹ đạo chung trong một
không gian 4-D XYZT đã được sử dụng trong [72] để biểu diễn cho một hành động
của con người và phép chiếu hình học (affin) của chúng được so sánh dùng một không
gian con các phép đo tương tự bất biến dựa trên các góc.
Trong Wang và các cộng sự [73] đã biểu diễn khung xương người sử dụng vị trí
tương đối giữa cặp các khớp xương và các biến đổi theo thời gian của biểu diễn này
được mô hình dùng hệ thống thứ bậc các hệ số của phép biến đổi theo thời gian và
không gian (Fourier). Hơn nữa, cách tiếp cận dựa theo nhóm hành động đã được sử
trưng nhiều nhân (multiple kernel).
Trong nghiên cứu [74] khung xương người được biểu diễn bằng các vị trí kết nối
tương quan thông qua dịch chuyển tạm thời của khớp và bù của khớp liên quan đến khung hình khởi điểm ban đầu. Phân loại hành động được thực hiện bằng cách dùng quy tắc Naive Bayes láng giềng gần nhất trong một không gian kích thước nhỏ hơn được xây dựng bằng các phân tích thành phần đặc trưng (Principal Component Analysis
- PCA). Một biểu diễn khung xương tương tự đã được sử dụng với phương pháp cây ngẫu nhiên trong nghiên cứu [75]. Một biểu diễn khung cảnh bất biến của khung xương
người đã đạt được trong [25] bằng cách lượng tử hóa các điểm 3-D vào lược đồ dựa trên
hướng của chúng đối với một hệ tọa độ cố định ở vị trí hông làm trung tâm. Những biến đổi theo thời gian của biểu diễn khung cảnh bất biến này được mô phỏng dùng các HMMs.
Tiếp cận dựa trên các bộ phận: Cơ thể con người được chia thành năm phần khác
nhau trong [76] và hoạt động của con người được thể hiện bằng cách sử dụng các thông
số chuyển động của các phần cơ thể riêng dịch chuyển ngang và dọc hoặc quay trong
mặt phẳng, v.v. PCA được sử dụng để biểu diễn cho một hành động của người như
một tổ hợp tuyến tính của tập các hành động cơ bản và phân loại chúng được thực
hiện bằng cách so sánh các hệ số PCA.
Chaudhry và các cộng sự [77] đã chia một khung xương người thành các phần
nhỏ hơn và mỗi một phần được biểu diễn dùng một số đặc trưng lấy cảm hứng từ hình dạng sinh học. Những biến đổi thời gian của các đặc trưng lấy cảm hứng từ hình
dạng sinh học được mô phỏng bằng các hệ tuyến tính động. Trong [78] một vài thông
tin điểm kết nối xương được lựa chọn tự động tại mỗi trường hợp theo thời gian dựa
trên các phép đo trung bình hoặc biến đổi các góc chung, biến đổi vận tốc góc tối đa
của các khớp xương, v.v. Sau đó hành động của con người được thể hiện theo trình tự
thông tin của các khớp, chúng được so sánh bằng cách dùng khoảng cách Levenshtein
(thể hiện khoảng cách khác biệt giữa hai chuỗi ký tự). Trình tự của khung xương được
trình bày trong [79] sử dụng các cặp giống nhau về cấu trúc giữa phép chiếu góc kết
nối và sau đó phân loại sử dụng SVM tuyến tính.
Ngoài các hướng tiếp cận dựa trên việc học là chính cho ước lượng khung xương
của người thì còn hướng tiếp cận dựa trên đại số. Vemulapalli và các cộng sự [80] đề
xuất một biểu diễn khung xương mới được mô hình một cách rõ ràng mối tương quan
hình học 3-D giữa các phần cơ thể khác nhau sử dụng phép quay và tịnh tiến trong
không gian 3D. Vì các vận động cơ thể 3D một cách thô là các thành phần của một
nhóm Euclide đặc biệt SE(3), các biểu diễn khung xương được đề xuất sẽ được mô tả
dựa trên nhóm Lie SE(3) ×. . . × SE(3) là một đa tạp cong. Với cách biểu diễn này
nhóm Lie. Do việc phân lớp các đường cong trong nhóm Lie không đơn giản nên cần
phải ánh xạ các đường cong mô tả hoạt động này từ nhóm Lie vào đại số Lie tức là
trên một không gian vector. Sau đó chúng ta thực hiện phân lớp dựa trên tổ hợp kỹ
thuật so khớp chuỗi thời gian động (Dynamic Time Warping- DTW) (dùng để so khớp
độ tương tự giữa hai chuỗi trạng thái theo thời gian) biến động sai lệch thời gian, biểu
diễn tháp (người ta hay dùng pyramid) thời gian Fourier và kỹ thuật huấn luyện SVM
tuyến tính. Kết quả thí nghiệm trên ba bộ dữ liệu hành động cho thấy rằng biểu diễn
đề xuất thực hiện tốt hơn so với nhiều biểu diễn khung xương hiện có. Các phương
pháp đề xuất cũng nhanh hơn so với nhiều hướng tiếp cận nhận diện hành động con người dựa trên khung xương mới nhất.
1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động
Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người. Do đó
việc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu cho
việc ước lượng tư thế của người. Cụ thể hơn là việc phát hiện và nhận dạng các bộ
phận trên cơ thể người. Thường thì việc ước lượng các tư thế của người thường đi kèm
với bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hành động của người.
Desai và các cộng sự [65] đã trình bày một cách tiếp cận mới để mô hình hóa tư thế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phần
của các tương tác và các mối quan hệ của họ. Các mô hình khung xương của người,
mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ước
lượng chính xác khi bị che khuất và tương tác. Để giải quyết bài toán ước lượng tư thế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấn
luyện lớn. Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linh
hoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần và tương tác đối tượng. Mô hình huấn luyện cho việc phát hiện nhận dạng hành động
được huấn luyện từ các mảnh nhỏ của các hành động. Các phát hiện hành động và
phân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sở
trên bộ cơ sở dữ liệu có nhiều thách thức PASCAL. Ví dụ như Hình 1 trong bài báo
này là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người.
Singh và các cộng sự [66] đã giải quyết vấn đề ước lượng tư thế của người trong
một hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tác