.8 Minh họa cảm biến Kinect phiên bản 1

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 47)

Hm =

594 214. 0 339 307. 0 591 040 242 739. .

0 0 1

(1.2)

Để chuyển dữ liệu ảnh sang dữ liệu đám mây điểm trong không gian 3-D, tọa độ

thực của mỗi điểm ảnh là (X p, Yp, Zp) và giá trị màu của mỗi điểm ảnh khi chiếu từ 2-D sang không gian 3-D được tính toán theo công thức sau:

Xp = (xa−cx)∗depthvalue x( a,ya) fx Yp = (ya−cy)∗depthvalue x( a,ya) fy Zp = depthvalue x( a, ya) C r, g, b( ) = colorvalue x( a, ya) (1.3)

ở đây depthvalue x( a, ya) là giá trị độ sâu của điểm ảnh x ( a, ya) trên ảnh độ sâu,

colorvalue r, g, b( ) là giá trị màu của điểm ảnh(x a, ya) trên ảnh màu.

Trong phần này, luận án cũng giới thiệu sơ lược về dữ liệu đám mây điểm được

tạo ra từ sự kết hợp của ảnh màu và ảnh độ sâu. Dựa trên việc hiệu chỉnh dữ liệu về

hai loại là dữ liệu đám mây điểm có cấu trúc và dữ liệu đám mây điểm không có cấu

trúc [34]. Dữ liệu đám mây điểm có cấu trúc là dữ liệu mà kích thước của đám mây

giống với kích thước của ảnh. Điều đó có nghĩa là ảnh có kích thước là m×n (m là

số hàng, nlà số cột), thì kích thước dữ liệu đám mây điểm có cấu trúc cũng là m×n.

Ngược lại dữ liệu đám mây điểm không có cấu trúc thì có số hàng là 1 và số cột là m×n.

Đặc biệt dữ liệu thu được từ cảm biến Kinect là có tỷ lệ nhiễu lớn và dữ liệu khung

xương thường bị mất. Như trong [36], Wang và các cộng sự đã trình bày một nghiên

cứu về đánh giá chất lượng dữ liệu thu thập được từ MS Kinect v1 và MS Kinect v2.

Trong đó báo cáo cho thấy, chất lượng dữ liệu thu được từ cảm biến MS Kinect v2 là

tốt hơn 30% - 40% so với cảm biến MS Kinect V1.

Như đã trình bày ở trên, đã có rất nhiều nghiên cứu trong những năm gần đây

tập trung vào vấn đề ước lượng tư thế, khung xương của người trong môi trường 3-D.

Trong các nghiên cứu này không thể thiếu được những nghiên cứu về công bố các bộ

cơ sở dữ liệu cho việc đánh giá các nghiên cứu về ước lượng khung xương, tư thế người

trong không gian 3-D. Sau đây nghiên cứu sinh sẽ giới thiệu một số bộ cơ sở dữ liệu

điển hình cho việc đánh giá ước lượng khung xương, tư thế người trong không gian 3-D:

Catalin và các cộng sự [85], [88] đã giới thiệu một bộ cơ sở dữ liệu cho việc đánh

giá các ước lượng khung xương, tư thế người trong không gian 2-D và 3-D. Bộ cơ sở

dữ liệu này có tên là Human3.6M. Bộ dữ liệu này được thu thập từ 3.6 triệu tư thế

3-D chính xác của người. Dữ liệu được thu thập từ 5 người nữ và 6 người nam theo 4

hướng nhìn khác nhau. Và các trạng thái hoạt động được thu thập là trạng thái hoạt

động bình thường của người như: Chụp ảnh, nói chuyện trên điện thoại , tạo dáng,

chào hỏi, ăn uống, v.v. Dữ liệu được thu thập và đồng bộ từ các cảm biến theo thời

gian, dữ liệu thu được bao gồm ảnh màu, ảnh độ sâu và vị trí tọa độ của từng chi

trong không gian 3-D. Tọa độ vị trí này được thể hiện bằng tọa độ của các cảm biến gắn trên người như minh họa trong Hình 1.9.

Đặc biệt các vị trí che khuất trên cơ thể người vẫn được ghi lại dựa trên tọa độ của

các cảm biến gắn trên người. Chi tiết về các thiết bị như sau: Dữ liệu được thu thập

dữ liệu từ 15 cảm biến (4 máy quay video kỹ thuật số, 1 cảm biến thời gian bay, 10

camera chuyển động), sử dụng đồng bộ hóa phần cứng và phần mềm. Khu vực phòng

thí nghiệm có kích thước là khoảng 6m ×5m, và trong đó khu vực có được một vùng

xấp xỉ 4m × 3m không gian chụp hiệu quả, nơi các đối tượng có thể nhìn thấy đầy đủ

trong tất cả các máy quay video. Máy quay video kỹ thuật số (Digital Video- DV) (4 chiếc) được đặt trong các góc của không gian chụp hiệu quả. Một cảm biến thời gian

Các c m bi n c a h th ng MOCAP ả ế ủ ệ ố được g n trên ng iắ ườ

Hình 1.9 Minh họa ảnh các trạng thái hoạt động của người trong thực tế [85], [88] và

hệ thống MOCAP [101] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D.

kỹ thuật số. Một bộ gồm 10 chuyển động chụp (MOCAP) [101] máy ảnh được lắp trên

tường để tối đa hóa hiệu quả khối lượng thử nghiệm, 4 trên mỗi cạnh trái và phải và

2 khoảng giữa chừng trên các cạnh ngang. Máy quét 3-D cơ thể bằng laser từ Human

Solutions (Vitus LC3). Các thử nghiệm trên bộ cơ sở dữ liệu này cho thấy rằng mô

hình quy mô lớn tốt nhất của các tác giả có thể tận dụng tập huấn luyện đầy đủ để

cải thiện hiệu suất 20% so với tập huấn về thang đo của bộ dữ liệu công khai lớn nhất

hiện có cho vấn đề này. Tuy nhiên, tiềm năng cải tiến bằng cách tận dụng công suất

cao hơn, các mô hình phức tạp hơn với bộ dữ liệu lớn, là rất lớn và sẽ kích thích nghiên cứu trong tương lai. Bộ dữ liệu cùng với mã nguồn cho các mô hình huấn luyện quy

mô lớn có liên quan, các đặc trưng, công cụ trực quan, cũng như máy chủ đánh giá, có

sẵn trực tuyến đã được công bố.

Sigal và các cộng sự [102] đã đề xuất bộ cơ sở dữ liệu có tên là "HUMANEVA". Bộ

cơ sở dữ liệu này có thể thu được các hình ảnh màu sắc, độ sâu và đặc biệt cung cấp dữ

liệu gốc 3-D (3-D pose Ground-truth). Bộ dữ liệu bao gồm 40.000 khung hình được thu

thập ở nhiều hướng nhìn khác nhau, tốc độ thu thập dữ liệu là 60 Hz với 37.000 thời

điểm khác nhau. Đây là bộ dữ liệu chuẩn cho việc đánh giá ước lượng khung xương, tư

thế người trong không gian 2-D và 3-D. Trong bộ cơ sở dữ liệu này bao gồm hai phiên

bản: HUMANEVA I, HUMANEVA II. HUMANEVA-I chứa dữ liệu từ 4 người thực

hiện tập hợp 6 hành động được xác định trước trong ba lần lặp lại (hai lần với quay

về các hành động được cung cấp trong Hình 1 của bài báo [102]. Hình ảnh ví dụ về

một người đi bộ được hiển thị trong Hình 2 của bài báo [102] trong đó dữ liệu từ 7 máy

quay video được đồng bộ hóa được minh họa bằng một lớp phủ của tư thế cơ thể thực.

HUManeVA-II chỉ chứa 2 người (cả hai cũng xuất hiện trong bộ dữ liệu HUManeVA-I)

thực hiện chuỗi hành động mở rộng. Trong chuỗi này một chủ đề bắt đầu bằng cách

đi dọc theo một đường elip, sau đó tiếp tục chạy bộ theo cùng một hướng và kết thúc

với chủ đề thay thế cân bằng trên mỗi hai chân. Không giống HUManeVA-I, bộ dữ liệu sau này chứa một tương đối nhỏ bộ dữ liệu kiểm tra các khung hình được đồng

bộ hóa (2500 khung hình). Dữ liệu xác nhận (validation) và huấn luyện HUManeVA I

được dự định chia sẻ trên hai bộ dữ liệu với kết quả kiểm tra chủ yếu được báo cáo trên HUManeVA-II.

Andriluka và các cộng sự [103] đã giới thiệu bộ cơ sở dữ liệu có tên là "MPII".

Bộ dữ liệu này là một tiêu chuẩn hiện đại để đánh giá ước lượng tư thế khớp nối của

người. Bộ dữ liệu bao gồm khoảng 25 000 hình ảnh chứa hơn 40 nghìn người có khớp

cơ thể được đánh dấu. Các hình ảnh được thu thập có hệ thống bằng cách sử dụng một nguyên tắc phân loại được thiết lập cho các hoạt động hàng ngày của con người. Nhìn

chung, bộ dữ liệu bao gồm 410 hoạt động của người và mỗi hình ảnh được cung cấp

một nhãn về một hoạt động. Mỗi hình ảnh được trích xuất từ một video được công bố

trên YouTube và được cung cấp trước và sau các khung hình không chú thích. Ngoài

ra, đối với bộ thử nghiệm, các tác giả đã thu được các dữ liệu gốc (annotation) phong

phú hơn bao gồm cả phần cơ thể và phần thân 3-D và đầu của người.

Zhang và các cộng sự [31] đã giới thiệu bộ cơ sở dữ liệu được gọi là "MADS-

the Martial Arts, Dancing and Sports". Đây là bộ dữ liệu mới về Võ thuật, Khiêu vũ

và Thể thao, bao gồm các hành động võ thuật đầy thách thức (Tai-chi và Karate),

các hành động nhảy múa (hip-hop và jazz) và các hoạt động thể thao (bóng rổ, bóng

chuyền, bóng đá, bóng bầu dục, quần vợt và cầu lông). Hai võ sư, hai vũ công và một

vận động viên đã thực hiện những hành động này trong khi được ghi lại bằng nhiều camera hoặc camera độ sâu stereo. Trong cài đặt có nhiều chế độ hiển thị là nhiều

hướng nhìn hoặc một hướng nhìn, bài báo cung cấp ba chế độ hiển thị màu cho các

thuật toán ước lượng tư thế con người dựa trên hình ảnh 2-D. Để ước lương tư thế,

khung xương của người dựa trên độ sâu, bài báo cung cấp hình ảnh độ sâu dựa trên dữ

liệu một hướng nhìn. Tất cả các video đều được hiệu chỉnh và được đồng bộ hóa với dữ

liệu gốc của các tư thế tương ứng. Dữ liệu được ghi lại trong môi trường studio với một

số lộn xộn nền. Dữ liệu video được ghi lại bằng máy ảnh Point Grey Bumblebee-II. Dữ

liệu nhiều hướng nhìn được thu thập với 3 camera được đặt xung quanh không gian

chụp, trong khi các hình ảnh độ sâu được thu thập từ một hướng nhìn. Dữ liệu nhiều

hướng nhìn được thu thập với tốc độ 15 khung hình/giây và các camera được tự động đồng bộ hóa khi được kết nối với cùng một máy tính. Dữ liệu độ sâu được thu thập

Các c m bi n c a h th ng MOCAP ả ế ủ ệ ố được g n trên ng iắ ườ

Hình 1.10 Minh họa ảnh về các loại hoạt động trong cơ sở dữ liệu [31] và hệ thống

MOCAP [101] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D.

với tốc độ 10 khung hình/giây hoặc 20 khung hình/giây. Độ phân giải của hình ảnh là

1024 ×768. Dữ liệu tư thế/ tọa độ các khớp gốc (ground truth) được thu thập bằng

hệ thống MOCAP hoạt động ở tốc độ 60 khung hình/giây. Tất cả các video và dữ liệu

thu thập chuyển động được hiệu chỉnh theo cùng tọa độ và được đồng bộ hóa. Bộ dữ

liệu MADS chứa 5 loại hành động (Tai-chi, Karate, nhảy Jazz, nhảy Hip-hop và Thể thao), tổng cộng khoảng 53.000 khung hình. Mỗi thể loại hành động bao gồm 6 chuỗi.

Một số hình ảnh về bộ dữ liệu MADS được minh họa trong Hình 1.10.

1.6 Tổng kết chương

Chương này đã khái quát lại một số khái niệm, cơ sở lý thuyết cho nghiên cứu uớc lượng khung xương của người trong không gian 3D. Thông thường việc ước lượng

khung xương của người trong không gian 3-D được thực hiện theo hai bước cơ bản.

Thứ nhất là ước lượng khung xương, tư thế trong không gian 2-D (trên ảnh màu, ảnh

độ sâu). Bước này được thực hiện dựa trên một ảnh, một chuỗi ảnh từ một khung nhìn

hoặc từ nhiều hướng nhìn khác nhau. Bước thứ hai là ánh xạ kết quả ước lượng trong

không gian 2-D vào không gian 3-D. Tuy nhiên mới chỉ có nghiên cứu [33] nghiên cứu

trên dữ liệu che khuất của người mà việc sinh ra nhiễu do con người thực hiện trên bộ

cơ sở dữ liệu Human 3.6M [85, 88]. Còn các dữ liệu che khuất trong hoạt động thực

tế của người là chưa có. Chương tiếp theo sẽ đi sâu vào nghiên cứu ước lượng khung

CHƯƠNG 2

ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ LIỆU VÕ CỔ TRUYỀN TRONG KHÔNG GIAN 3-D

Khung xương của người giúp định hướng và dự đoán được các hành động của cơ

thể người trong môi trường. Trong võ cổ truyền tư thế của người được tạo ra từ tư thế

của khung xương có vai trò lớn trong xác định các tư thế trong võ thuật. Như tư thế

công, thủ trong võ thuật truyền thống. Tư thế của người bao gồm vị trí thân người,

tư thế của các chi (chân, tay) trong các tư thế võ quyết định rất lớn đến sức mạnh

của võ thuật. Như công (tấn công mạnh), thủ vững (phòng thủ vững chắc). Việc ước

lượng tư thế người đã được nghiên cứu nhiều và vẫn còn rất nhiều thách thức cả trong

không gian 2-D và 3-D, vì các hành động trong võ thuật thường là nhanh và phức tạp.

Đặc biệt có nhiều trường hợp các tư thế của các chi còn bị che khuất, do các tư thế ở

các hướng khác nhau mà cảm biến thu thập dữ liệu chỉ nhìn từ một hướng và dữ liệu

khung xương bị mất rất nhiều khi sử dụng cảm biến MS Kinect v1 để thu thập dữ liệu.

Như mô hình cho việc xây dựng hệ thống đánh giá và chấm điểm trong biểu diễn võ

thuật (các môn thể thao như thể dục dụng cụ) hay đào tạo và dạy võ thuật cổ truyền

trong các võ đường thì các tư thế võ phải chuẩn xác. Do đó việc ước lượng được chính

xác khung xương của cơ thể người là vấn đề rất quan trọng và cần thiết để làm tiền

đề để khôi phục đầy đủ các khớp xương của người trong không gian 3-D.

Trong nghiên cứu khảo sát của Sarafianos CS. [83] thì có hai hướng tiếp cận để ước lượng, khôi phục khung xương trong không gian 3-D của người. Trong đó, hướng

tiếp cận xuất phát từ kết quả ước lượng khung xương 2-D sau đó chiếu sang không gian 3-D được quan tâm nghiên cứu nhiều hơn. Để thấy được hiệu quả khi kết quả ước

lượng 2-D là tốt (sai số về khoảng cách của các điểm đại diện ước lượng được (MPJPE) là nhỏ) thì kết quả ước lượng, khôi phục khung xương trong không gian 3-D như thế

nào? Nên luận án thực hiện các nghiên cứu về ước lượng khôi phục khung xương trong

không 3-D ở chương này để khôi phục, ước lượng khung xương 3-D đầy đủ của người

trong các video võ cổ truyền phục vụ để xây dựng mô hình đánh giá, chấm điểm các

động tác võ thuật cổ truyền cho các em học sinh phổ thông từ kết quả ước lượng trên không gian 2-D.

Trong phần chương này, trước tiên luận án trình bày việc ước lượng khung xương của người trong không gian 2-D như sau: Giới thiệu (Phần 2.1.1), các nghiên cứu liên

quan (Phần 2.1.2), hướng tiếp cận về ước lượng khung xương trong không gian 2-D

(Phần 2.1.4).

Tiếp theo luận án trình bày việc ước lượng khung xương của người trong không gian 3-D gồm: Giới thiệu (Phần 2.2.1), các nghiên cứu liên quan (Phần 2.2.2), hướng

tiếp cận về ước lượng khung xương trong không gian 3-D (2.2.3). Cuối cùng, luận án

trình bày về một số minh họa ước lượng khung xương người khi bị che khuất (Phần 2.2.4).

2.1 Ước lượng khung xương trong không gian 2-D

2.1.1 Giới thiệu

Ước lượng và dự đoán hành động của cơ thể người là một vấn đề được nghiên cứu

nhiều trong cộng đồng thị giác máy tính và công nghệ robot. Ước lượng tư thế, khung

xương của người trong không gian 2-D là việc ước lượng vị trí các khớp nối trên cơ thể

người trên ảnh hoặc video [104]. Mỗi khớp nối được tạo thành từ các điểm đại diện.

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 47)

Tải bản đầy đủ (PDF)

(148 trang)