Phục hồi khung xương, tư thế người trong không gia- 123docz.net

và bị che khuất

2.2.1 Giới thiệu

Ước lượng đầy đủ khung xương, tư thế người trong không gian 3-D từ một ảnh

màu là vấn đề vẫn còn rất nhiều thách thức. Vì ước lượng trong không gian 3-D việc

trích chọn các đặc trưng cũng như huấn luyện gặp rất nhiều khó khăn do dữ liệu 3-D

phức tạp hơn rất nhiều so với dữ liệu trong không gian 2-D (không gian ảnh). Việc ước

lượng khung xương, tư thế người trong không gian 3-D được ứng dụng rất nhiều trong

thực tế khi tương tác với robot, các nghiên cứu này sẽ tạo ra môi trường tương tác

trực quan hơn. Ngoài ra ước lượng khung xương, tư thế của người trong môi trường

3-D còn được áp dụng trong nhiều ứng dụng khác như phân tích thể thao, phân tích

đánh giá và chơi các trò chơi có đồ họa 3-D, hay trong việc chăm sóc và bảo vệ sức khỏe.

Ví dụ: việc phát hiện khung xương, tư thế người trong không gian 3-D giúp phát

hiện các sự kiện ngã của người già trong bệnh viện, hay kết quả ước lượng có thể thấy được đầy đủ hành động của con người trong thế giới thực, giải quyết các trường hợp

khi các bộ phận của người bị che khuất. Trong luận án này hướng đến việc xây dựng,

tái tạo lại môi trường 3-D trực quan trong các video biểu diễn võ thuật cổ truyền. Từ

đó có thể hướng đến xây dựng các ứng dụng lưu trữ, dạy võ thuật bằng video, đánh

giá các bài biểu diễn võ thuật được truyền dạy của học sinh phổ thông. Để giải quyết

vấn đề này thì thường sử dụng thông tin đầu vào là ảnh màu hoặc ảnh độ sâu và kết

quả đầu ra là dữ liệu về khung xương, tư thế người trong không gian 3-D.

Trong luận án này, nghiên cứu sinh thực hiện một nghiên cứu so sánh, từ dữ liệu

kết quả ước lượng 2-D tốt sẽ có được kết quả ước lượng 3-D tốt hơn. Các kết quả ước lượng khung xương của người trong không gian 3-D được đánh giá trên bộ cơ sở dữ

liệu võ thuật cổ truyền Việt Nam và bộ cơ sở dữ liệu võ cổ truyền khác trên thế giới

như Tai-Chi, Karate. Chúng được đánh giá trên các độ đo về góc, khoảng cách, độ dài của các khớp xương ước lượng được. Đặc biệt trong nghiên cứu này luận án đề xuất

một phương thức đồng bộ hệ trục tọa độ trong không gian 3-D giữa các bộ cơ sở dữ

liệu, để phục vụ cho việc đánh giá. Các kết quả được thể hiện trong các phần tiếp theo

của nghiên cứu này. Cuối cùng luận án thể hiện kết quả ước lượng khung xương khi bị che khuất trong không gian 3-D, trường hợp này không ước lượng được đầy đủ các khớp xương trong không gian 2-D, như minh họa trong Hình 2.28.

2.2.2 Các nghiên cứu liên quan

Ước lượng khung xương, tư thế người trong không gian 3-D được áp dụng trong nhiều lĩnh vực như: văn hóa, thể thao, sức khỏe, công nghệ robot. Đặc biệt các nghiên

Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong không gian 3-D

với dữ liệu bị che khuất. Bên trái thể hiện kết quả ước lượng khung xương, tư thế của

người trên 2-D với bộ ước lượng [24]. Bên phải là kết quả ước lượng tư thế, khung xương

của người trong không gian 3-D sử dụng bộ ước lượng của [84].

cứu về phát hiện, nhận dạng, ước lượng đối tượng trong không gian 3-D hay tái tạo lại khung cảnh 3-D vẫn còn rất nhiều các thách thức. Để ước lượng khung xương trong không gian 3-D thường được thực hiện theo hai hướng tiếp cận là: ước lượng khung xương 3-D trên một ảnh; ước lượng khung xương trên một chuỗi ảnh [83]. Trong đó

việc ước lượng khung xương 3-D sử dụng một hình ảnh thì thường thực hiện việc ước

lượng khung xương trong không gian 2-D sau đó ánh xạ sang không gian 3-D, nếu sử

dụng ảnh màu cho việc ước lượng. Khi sử dụng ảnh độ sâu thì thực hiện chiếu vào

không gian 3-D dựa trên giá trị độ sâu trong ảnh và thực hiện ước lượng. Thường thì quá trình ước lượng khung xương 3-D được thực hiện dựa trên một tập các mẫu khung

xương tư thế trong không gian 3-D đã được xây dựng sẵn dựa vào dữ liệu đánh dấu

các điểm đại diện và các khớp xương trong không gian 3-D. Quá trình ước lượng là

quá trình ánh xạ và tìm một mô hình khung xương đã định nghĩa tốt nhất.

Như trong nghiên cứu của Tome và các cộng sự [84] đã đề xuất một hướng tiếp cận cho việc ước lượng khung xương 3-D dựa trên kết ước lượng khung xương trong

không gian 2-D (không gian ảnh), sau đó ánh xạ sang không gian 3-D. Trong đó bộ dữ

liệu khung xương chuẩn bị trước lấy từ dữ liệu gốc của bộ cơ sở dữ liệu Human 3.6M.

Quá trình so sánh và chọn mô hình khung xương tốt nhất sử dụng PCA (Principal

Component Analysis) 2-D được thể hiện như trong Hình 2.29. Trong đó hàm lỗi có giá

trị từ 71.36 đến 185.72mm trên bộ cơ sở dữ liệu Human 3.6M.

Mar và các cộng sự [117] đã đề xuất một mạng nơ ron có tên là "Deep Depth Pose

(DDP)". Dữ liệu đầu vào của mạng này là bản đồ độ sâu của một người, mạng này

thông qua một mạng nơ ron tích chập và dựa trên một tập các tư thế khung xương

của người trong không gian 3-D đã chuẩn bị sẵn để đưa ra kết quả là vị trí của các khớp xương trong không gian 3-D như minh họa trong Hình 2.30.

Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện mô hình

khung xương người trong 3-D và việc so sánh khung xương ánh xạ được từ 2-D sang

3-D với bộ dữ liệu huấn luyện [84].

Mô hình trong bài báo này được đánh giá trên hai bộ cơ sở dữ liệu là: "ITOP"

[118] và "UBC3V" [119]. Trong đó sai số về độ chính xác trên cơ sở dữ liệu "ITOP" là 10cm (tính theo khoảng cách Euclidean trong không gian 3-D) theo các hướng nhìn

và sai số về độ chính xác trên cơ sở dữ liệu "UBC3V" là 98.8% có sai số là 10cm.

Atrevi và các cộng sự [120] đã đề xuất một mô hình mới cho việc ước lượng khung

xương, tư thế 3-D của người dựa trên việc phân tích hình dạng bóng 2-D. Phương thức

này bao gồm 4 phần: thứ nhất là mô phỏng cơ sở dữ liệu hình bóng và bộ xương, thứ

hai là phát hiện người và trích xuất hình bóng 2-D, thứ ba là phù hợp hình dạng người

và bóng, cuối cùng là nhân rộng ra các bộ phận của toàn bộ khung xương và xác nhận.

Mô hình của phương thức này được thể hiện trong hình 1 của bài báo [120]. Trong đó

bước đầu tiên, cơ sở dữ liệu về hình bóng người và khung xương trong không gian 3-D

của người tương ứng được ra tạo ra bởi các phần mềm được trích dẫn chỉ số 1,2 trong

bài báo [120], bằng cách thay đổi các hoạt động khác nhau, quần áo của các hình ảnh đại diện (avatar). Bước thứ hai, bóng được phát hiện trên 2-D dựa vào việc học đặc

Hình 2.30 Minh họa mô hình hoạt động của mạng [117].

trưng HOG (Histogram of Oriented Gradients)[121] với các kích thước tăng giảm khác

nhau. Bước thứ ba là thực hiện việc miêu tả hình dáng của bóng sử dụng các miêu tả

hình học của Krawtchouk [122]. Bước cuối cùng là so khớp khung xương với mỗi hình

bóng trong cơ sở dữ liệu đã được xây dựng.

Trong hướng tiếp cận về ước lượng khung xương, tư thế 3-D của người sử dụng

một chuỗi ảnh có nghiên cứu của Rhodin và các cộng sự [123]. Trong nghiên cứu này

các tác giả đã đề xuất một mô hình ước lượng khung xương, tư thế 3-D của người dựa

trên các hình ảnh chụp từ một người ở các góc nhìn khác nhau. Trong đó mô hình

là một bộ mã hóa và giải mã được huấn luyện trên các hình ảnh để dự đoán khung

xương, tư thế của người từ một ảnh đầu vào. Sau đó kết quả ước lượng được ánh xạ

sang không gian 3-D một cách đơn giản vì tư thế của người trong không gian 3-D đã

được xây dựng từ các khung hình của người đó từ các hướng nhìn khác nhau. Mô hình ước lượng của bái báo này được thể hiện trong Hình 2.31.

Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1