Thiết bị cảm biến Kinect là một thanh ngang kết nối với trục nhỏ bằng một trục cơ đứng. Thiết bị bao gồm hai camera một cảm biến IR, microphone nhận diện giọng nói và một số bộ phận phụ được vận hành bởi một phần mềm độc quyền của Microsoft và công nghệ 3D camera của hãng PrimeSence giúp thiết bị có thể bắt chuyển động 3D tồn cơ thể, nhận diện khn mặt, nhận diện giọng nói.
Các thành phần bên trong Kinect gồm có: RGB camera, Depth camera (3D Depth Sensors), động cơ điều khiển góc (Motorized Tilt), dãy microphone (Multi-array Mic), chip PS 1080 của Prime Sensor.
- RBG camera: Là một camera thu về ảnh màu có tốc độ 30 fps/s.
- Depth camera: Phát ra tia hồng ngoại là một luồng ánh sáng có cấu trúc giúp đo đạc độ sâu dựa theo cấu trúc được phản xạ lại.
- Motorized Tilt: Giúp điều khiển nâng lên hạ xuống góc Kinect để có một góc nhìn tốt nhất.
- Muti-array Mic: Dùng để hỗ trợ nhận diện giọng nói gồm nhiều thứ tiếng được hỗ trợ, giúp điều khiển thiết bị.
- Prime Sensor: Dùng để xử lý trực tiếp độ sâu và kết quả thu về nhanh, chính xác và ổn định.
Với các thành phần cấu tạo như vậy thì Kinect được áp dụng những công nghệ rất hiện đại trên thế giới, có thể kể đến là cơng nghệ PrimSensor và Light Coding của hãng PrimeSense, Công nghệ System on Chip (SoC).
Với Công nghệ PrimeSensor: là công nghệ của công ty PrimeSense. Đây là giải pháp công nghệ dành cho các cảm biến kỹ thuật số cho phép thiết bị khả năng quan sát khơng gian 3 chiều (3D), nhưng dữ liệu hình ảnh lại được xử lý ở cảm biến CMOS. Cơng nghệ này có khả năng ghi nhận độ sâu, ảnh màu và cả âm thanh xung quanh thành một dịng hình ảnh đồng bộ giống như thơng tin con người thu được từ các giác quan. Những dữ liệu sau đó được đồng bộ hóa và biên dịch thành những thơng tin: xác định cơ thể của một người, nhận dạng các hành vi của người đó, phân loại các đối tượng, vị trí các bức tường và sàn nhà.
Công nghệ System on Chip là một hệ thống điện tử được xây dựng trên một đế silicon với ý tưởng sẽ tích hợp tất cả các thành phần của một hệ thống máy tính lên trên một vi mạch đơn. Một hệ thống điển hình bao gồm một loạt các mạch tích hợp cho phép thực hiện các nhiệm vụ khác nhau. Hệ thống có thế tích hợp: bộ vi xử lý (microprocessor), bộ nhớ (RAM,ROM), khối truyền thông nối tiếp UART, các cổng song song. Công nghệ System on a chip (SoC) của PrimeSense sử dụng cảm biến hình ảnh CMOS và PrimeSense Soc’s Carmine (PS1080) thực hiện các thuật tốn phức tạp tính tốn song song để giải mã ánh sáng nhận được trong không gian tạo ra một bản đồ độ sâu đồng bộ với hình ảnh màu sắc. Dữ liệu đồng bộ về video màu, độ sâu và dòng âm thanh được truyền qua một cổng kết nối USB 2.0. Hệ thống (SoC) yêu cầu một cấu hình CPU tối thiểu để cho các thuật toán.
Cịn với cơng nghệ LightCoding vẫn là sản phẩm của hãng PrimSense, là giải pháp cơng nghệ cho cảm biến độ sâu có khả năng thu về độ sâu ba chiều (3D) với độ chính xác cao. Về nguyên tắc, LightCoding hoạt động bằng cách mã hóa vùng khơng gian quan sát thông qua cảm biến tieu chuẩn off-the-shelfCMOS-camera phát ra những tia hồng ngoại “vơ hình” với mắt người.