Trong quá trình thu thập dữ liệu của người biểu diễn võ thuật (võ sư, học viên của
các võ đường), luận án sử dụng cảm biến Microsoft (MS) Kinect phiên bản 1 (version
1 - v1) [125], được minh họa như trong Hình 1.8.
Đây là một loại cảm biến giá rẻ. Loại cảm biến này có thể thu thập được nhiều
loại dữ liệu từ môi trường như: ảnh màu, ảnh độ sâu, khung xương, vec tơ gia tốc
trọng trường, âm thanh, ...vv. Cảm biến Kinect cũng có thể mở rộng sử dụng trong
chơi các trò chơi, trong giáo dục, hay trong tái tạo môi trường 3-D (môi trường thực).
Tuy nhiên, cảm biến Kinect có giới hạn đo của nó từ 0.5 đến 4m, dữ liệu độ sâu có thể
bị mất nếu khoảng cách đo nằm ngoài giới hạn trên và bề mặt đối tượng sẽ bị mất dữ
liệu khi bề mặt là màu đen hoặc bị bóng (như mặt kính, hoặc làm bằng thủy tinh).
Hình 1.7 thể hiện dữ liệu ảnh màu và ảnh độ sâu thu thập được từ cảm biến
Kinect. Để thực hiện được việc thu dữ liệu, cảm biến Kinect phiên bản 1 sử dụng
Microsoft SDK 1.8 [60] cho việc kết nối với máy tính. Để hiệu chỉnh và lưu dữ liệu vào
máy tính, nghiên cứu sinh sử dụng bộ công cụ được phát triển trên Visual Studio với
ngôn ngữ lập trình C++ với sự hỗ trợ của bộ thư viên OpenCV 3.4.0 [18]. Thiết lập thu dữ liệu bằng camera Kinect:
USB connector Labtop
Hình 1.5 Minh họa thiết lập các thiết bị.
Một cảm biến MS Kinect được gắn trên giá cố định và được đặt ở một phía của
lớp dạy võ thuật thu thập được ảnh màu, ảnh độ sâu với tốc độ thông thường
cả hai loại ảnh. Do cảm biến MS Kinect được gắn có hướng thẳng vào giữa vùng
biểu diễn của lớp võ thuật nên dữ liệu thu được thường có trục z (màu xanh
dương) hướng thẳng vào người và cũng chính là khoảng cách từ cảm biến MS
Kinect đến người, còn trục x (màu đỏ) hướng sang ngang và trục y (màu xanh
là cây) hướng lên trên, được thể hiện ở hình trái trong Hình 1.6.
Người biểu diễn võ thuật là các võ sư hoặc học viên của lớp học võ thuật nằm
trong vùng đã được giới hạn có kích thước là 3 3m như minh họa trong hình 1.5.×
Do giới hạn thu được dữ liệu của cảm biến MS Kinect phiên bản 1 là 0.8 - 4m và
góc nghiêng tối đa là 30 o quanh tâm trục của cảm biến MS Kinect. Người biểu
diễn có độ tuổi thường từ 12 tuổi trở lên, giới tính có thể là nam hoặc nữ trong
phạm vi thu của cảm biến MS Kinect phiên bản 1 thì tránh được tình trạng mất
dữ liệu do khoảng cách giữa người và cảm biến MS Kinect là quá gần hoặc quá
xa. Người mặc đồ võ thuật không bóng tức không bao quanh bởi nilon do cảm
biến MS Kinect phiên bản 1 sử dụng ánh sáng hồng ngoại để thu thập dữ liệu
nên bề mặt bị bóng thì thường sẽ hấp thu ánh sáng hồng ngoại nên sẽ bị mất
dữ liệu độ sâu. Ở một hướng nhìn cố định nên dữ liệu 3-D của người là bị thiếu
các bộ phận, do bị che khuất khi quay đi các hướng khác. Một tình huống khác
là dữ liệu được thu thập bao gồm nhiều nhiễu vì hình ảnh độ sâu được thu thập
bởi MS Kinect thường bị ảnh hưởng bởi các điều kiện chiếu sáng.
Một đám mây điểm được tạo ra từ một cặp ảnh (ảnh màu, ảnh độ sâu) có kích
thước là640 480 × điểm ảnh tồn tại khoảng vài trăm nghìn điểm. Đặc biệt là quá
trình ước lượng khung xương, tư thế người phải qua bước ước lượng trên không
gian 2-D sau đó ánh xạ sang không gian 3-D. Do đó quá trình cần một lượng thời
gian lớn để hoàn thành việc tái tạo lại môi trường 3-D và ước lượng đầy đủ khớp xương của người trong một cảnh. Trong quá trình huấn luyện mô hình học sâu
để ước lượng khung xương trong không gian 2-D thì ảnh màu được thay đổi kích
thước về kích thước phù hợp với mạng CNN nên kích thước của ảnh thu được từ cảm biến MS Kinect không ảnh hưởng đến các mạng CNN. Hình 1.6 thể hiện
mô hình khung xương, tư thế của người trong video biểu diễn võ thuật được ước
lượng và dựng lại môi trường trong không gian 3-D (trong thế giới thực).