Tính tốn thơng tin độ sâu

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng thuật toán nhận dạng chuyển động của người trong môi trường 3d để huấn luyện cho robot chơi cầu lông (Trang 29 - 34)

2.1 Tìm hiểu về camera 3D Kinect của Microsoft

2.1.3 Tính tốn thơng tin độ sâu

+ Nguyên lý các cảm biến độ sâu: Cặp cảm biến IR camera và IR projector sẽ phối hợp với nhau để tạo ra giá trị độ sâu bằng công nghệ Light Coding của PrimeSense.

Hình 2.4: Minh họa cơng nghệ Light Coding của PrimeSense

Kĩ thuật Light Coding dùng nguồn sáng hồng ngoại chiếu liên tục kết hợp với một camera hồng ngoại để tính khoảng cách. Việc tính tốn này được thực hiện bằng chip PS1080 Soc của PrimeSen.

Projector sẽ chiếu một chùm sáng hồng ngoại, tạo nên những đốm sáng ở khơng gian phía trước Kinect, tập hợp đốm sáng được phát ra này là cố định. Những đốm sáng này được tạo ra nhờ một nguồn sáng truyền qua lưới nhiễu xạ (diffraction gratings). Tập hợp các đốm sáng này được IR camera chụp lại, thơng qua giải thuật đặc biệt được tích hợp trong PS1080 SoC cho ra bản đồ độ sâu. Bản chất của giải thuật này là các phép tốn hình học dựa trên quan hệ giữa hai cảm biến IR camera và Projector.

Hình 2.5: Nguyên lý tạo ảnh độ sâu của cảm biến Kinect

Giả sử rằng bộ phát hồng ngoại phát đi một tia sáng dọc theo đường màu xanh, tia sáng này sẽ được chụp lại dưới dạng một đốm sáng bởi bộ nhận hồng ngoại khi chạm vào bề mặt vật thể trong không gian. Ta bắt đầu xét ba mặt phẳng ở ba khoảng cách khác nhau: Mặt phẳng gần Kinect, mặt phẳng ở xa Kinect và mặt phẳng tham chiếu ở giữa hai mặt phẳng trên. Trong đó, với mặt phẳng tham chiếu ta có đầy đủ thơng tin về khoảng cách của nó. Ngồi ra cịn có một mặt phẳng nữa được sử dụng là mặt phẳng ảnh của camera hồng ngoại (IR camera), là mặt phẳng hình chiếu của các điểm trong không gian thu về bởi camera hồng ngoại. Ta xét trong ba trường hợp khi tia sáng màu xanh chạm vào ba điểm trên ba mặt phẳng lần lượt là A,B,C. Ba điểm này được chiếu lên mặt phẳng ảnh tương ứng là A‟, B‟, C‟. Quan sát vị trí của A‟, B‟, C‟ ta rút ra một kết luận: Điểm A càng gần Kinect thì A‟ càng xa B‟ về phía bên phải và ngược lại điểm C càng xa Kinect thì C‟ càng xa bên B‟ về phía bên trái. Do đó, khi chúng ta biết được hướng, điểm xuất phát của tia sáng ta dễ dàng tính tốn được độ sâu của điểm ảnh. Tương tự cách này cho các điểm ảnh cịn lại ta tính được độ sâu của tồn bộ ảnh hay khoảng cách đến vật thể.

độ sâu là giá trị nội suy nên người ta không thể mong đợi Kinect cho mọi điểm ảnh giá trị chính xác được. Phạm vi hoạt động tốt của Kinect là 1,2m- 3,5m.

Hình 2.6: Ngun tắc tính tốn độ sâu ảnh của cảm biến Kinect

Thực hiện các phép tốn hình học dựa trên quan hệ giữa hai cảm biến IR camera và Projector các nhà phát triển đã tính được thơng tin chiều sâu của ảnh.

Ban đầu Projector sẽ phát ra một mảng gồm rất nhiều các đốm hồng ngoại để chiếu vào đối tượng, các đốm sáng này đều có địa chỉ để phân biệt chúng với nhau nhầm tách chúng ra thành các tia sáng đơn lẻ. Ta xét trường hợp một đốm hồng ngoại chiếu vào đối tượng, đốm hồng ngoại sẽ đi qua mặt phẳng tham chiếu (ta đã biết khoảng cách từ mặt phẳng này tới máy phát) ta sẽ được điểm x, sau khi qua x tia hồng ngoại sẽ chiếu vào đối tượng rồi phản xạ ngược trở lại IR Sensor, trước khi đến được IR Sensor tia hồng ngoại đó sẽ đi qua một mặt phẳng tham chiếu nữa (mặt phẳng tham chiếu thứ 2 này ta cũng đã biết khoảng cách của nó so với máy thu) nó sẽ cắt mặt phẳng tham chiếu thứ 2 tại x’. Lúc này ta sẽ có được các thơng số của f, f’, x, x’, và khoảng cách giữa máy thu và máy phát, sau đó bằng các phép tính tốn hình học phẳng cơ bản ta sẽ tính ra được khoảng cách thực sự của điểm ảnh so với tâm Camera.

Hình 2.8: Quá trình thu ảnh chiều sâu

Sau khi thu về được hai điểm x và x’ thuật toán bên trong chip PS1080 sẽ tính tốn sự chênh lệch giữa x và x’ từ đó suy ra chiều sâu của đối tượng X. Cơng thức tính tốn chiều sâu dựa vào:

Hình 2.9: Cơng thức tính tốn chiều sâu

Trong đó: B là khoảng cách giữa Projector và IR Camera đã được biết trước, f là khoảng cách từ Camera đến mặt phẳng tham chiếu cũng đã được biết trước, z là khoảng cách từ đối tượng đến Camera.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng thuật toán nhận dạng chuyển động của người trong môi trường 3d để huấn luyện cho robot chơi cầu lông (Trang 29 - 34)

Tải bản đầy đủ (PDF)

(80 trang)