Giới thiệu Kinect và thiết lập thu dữ liệu- 123docz.net

Trong quá trình thu thập dữ liệu của người biểu diễn võ thuật (võ sư, học viên của

các võ đường), luận án sử dụng cảm biến Microsoft (MS) Kinect phiên bản 1 (version

1 - v1) [125], được minh họa như trong Hình 1.8.

Đây là một loại cảm biến giá rẻ. Loại cảm biến này có thể thu thập được nhiều

loại dữ liệu từ môi trường như: ảnh màu, ảnh độ sâu, khung xương, vec tơ gia tốc

trọng trường, âm thanh, ...vv. Cảm biến Kinect cũng có thể mở rộng sử dụng trong

chơi các trò chơi, trong giáo dục, hay trong tái tạo môi trường 3-D (môi trường thực).

Tuy nhiên, cảm biến Kinect có giới hạn đo của nó từ 0.5 đến 4m, dữ liệu độ sâu có thể

bị mất nếu khoảng cách đo nằm ngoài giới hạn trên và bề mặt đối tượng sẽ bị mất dữ

liệu khi bề mặt là màu đen hoặc bị bóng (như mặt kính, hoặc làm bằng thủy tinh).

Hình 1.7 thể hiện dữ liệu ảnh màu và ảnh độ sâu thu thập được từ cảm biến

Kinect. Để thực hiện được việc thu dữ liệu, cảm biến Kinect phiên bản 1 sử dụng

Microsoft SDK 1.8 [60] cho việc kết nối với máy tính. Để hiệu chỉnh và lưu dữ liệu vào

máy tính, nghiên cứu sinh sử dụng bộ công cụ được phát triển trên Visual Studio với

ngôn ngữ lập trình C++ với sự hỗ trợ của bộ thư viên OpenCV 3.4.0 [18]. Thiết lập thu dữ liệu bằng camera Kinect:

USB connector Labtop

Hình 1.5 Minh họa thiết lập các thiết bị.

Một cảm biến MS Kinect được gắn trên giá cố định và được đặt ở một phía của

lớp dạy võ thuật thu thập được ảnh màu, ảnh độ sâu với tốc độ thông thường

cả hai loại ảnh. Do cảm biến MS Kinect được gắn có hướng thẳng vào giữa vùng

biểu diễn của lớp võ thuật nên dữ liệu thu được thường có trục z (màu xanh

dương) hướng thẳng vào người và cũng chính là khoảng cách từ cảm biến MS

Kinect đến người, còn trục x (màu đỏ) hướng sang ngang và trục y (màu xanh

là cây) hướng lên trên, được thể hiện ở hình trái trong Hình 1.6.

Người biểu diễn võ thuật là các võ sư hoặc học viên của lớp học võ thuật nằm

trong vùng đã được giới hạn có kích thước là 3 3m như minh họa trong hình 1.5.×

Do giới hạn thu được dữ liệu của cảm biến MS Kinect phiên bản 1 là 0.8 - 4m và

góc nghiêng tối đa là 30 o quanh tâm trục của cảm biến MS Kinect. Người biểu

diễn có độ tuổi thường từ 12 tuổi trở lên, giới tính có thể là nam hoặc nữ trong

phạm vi thu của cảm biến MS Kinect phiên bản 1 thì tránh được tình trạng mất

dữ liệu do khoảng cách giữa người và cảm biến MS Kinect là quá gần hoặc quá

xa. Người mặc đồ võ thuật không bóng tức không bao quanh bởi nilon do cảm

biến MS Kinect phiên bản 1 sử dụng ánh sáng hồng ngoại để thu thập dữ liệu

nên bề mặt bị bóng thì thường sẽ hấp thu ánh sáng hồng ngoại nên sẽ bị mất

dữ liệu độ sâu. Ở một hướng nhìn cố định nên dữ liệu 3-D của người là bị thiếu

các bộ phận, do bị che khuất khi quay đi các hướng khác. Một tình huống khác

là dữ liệu được thu thập bao gồm nhiều nhiễu vì hình ảnh độ sâu được thu thập

bởi MS Kinect thường bị ảnh hưởng bởi các điều kiện chiếu sáng.

Một đám mây điểm được tạo ra từ một cặp ảnh (ảnh màu, ảnh độ sâu) có kích

thước là640 480 × điểm ảnh tồn tại khoảng vài trăm nghìn điểm. Đặc biệt là quá

trình ước lượng khung xương, tư thế người phải qua bước ước lượng trên không

gian 2-D sau đó ánh xạ sang không gian 3-D. Do đó quá trình cần một lượng thời

gian lớn để hoàn thành việc tái tạo lại môi trường 3-D và ước lượng đầy đủ khớp xương của người trong một cảnh. Trong quá trình huấn luyện mô hình học sâu

để ước lượng khung xương trong không gian 2-D thì ảnh màu được thay đổi kích

thước về kích thước phù hợp với mạng CNN nên kích thước của ảnh thu được từ cảm biến MS Kinect không ảnh hưởng đến các mạng CNN. Hình 1.6 thể hiện

mô hình khung xương, tư thế của người trong video biểu diễn võ thuật được ước

lượng và dựng lại môi trường trong không gian 3-D (trong thế giới thực).

Giới thiệu Kinect và thiết lập thu dữ liệu

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1