Với cách biểu diễn như vậy, động học của mỗi ngón tay được xác định bởi một vector gồm 4 tham số góc: Trong đó , là hai góc quay của khớp gốc,
là góc quay của khớp giữa và là góc quay của khớp đỉnh.
Tương tự, vị trí và hướng của bàn tay được xác định qua cổ tay bởi vectơ gồm 6 tham số:
= ( , , , , , )
Trong đó , , là tọa độ của cổ tay trong không gian và , , là hướng của bàn tay quay quanh các trục tương ứng. Như vậy, tư thế của bàn tay hoàn toàn xác định khi biết 26 tham số góc:
ℎ = ( , ), = 1,2, … ,5
Trong phương pháp truy bắt đối tượng dựa trên chuyển động, phương pháp này tìm kiếm những chuyển động nguyên thuỷ từ những ảnh tích luỹ dựa trên dữ liệu 3D. Nó phát hiện ra chuyển động bằng cách sử dụng giá trị chiều sâu được so sánh với dữ liệu ảnh chiều sâu trước và ảnh chiều sâu sau. Giá trị khác biệt giữa những khung ảnh được tích luỹ dùng trong việc truy bắt chuyển động.
Như thế, thông tin chủ yếu được sử dụng để nhận dạng bàn tay là thơng tin về chiều sâu. Hình ảnh thu được từ camera màu bình thường bị ảnh hưởng nhiều bởi điều kiện chiếu sáng. Trong khi đó, ảnh thu được từ cảm biến chiều sâu không bị ảnh hưởng bởi điều kiện chiếu sang. Để nhận dạng được vị trí, cử chỉ của cánh tay và bàn tay, tất cả các dữ liệu mà cảm biến thu nhận được trong không gian ba chiều được sử dụng để tính tồn phát hiện ra vị trí cũng như cử chỉ của cánh tay và bàn tay. Ngồi hai thơng tin theo phương x và y, cịn có thơng tin theo phương z, từ đó có thể nhận biết cách chính xác vị trí của tay và bàn tay trong khơng gian. Những đặc điểm của camera cảm biến chiều sâu sẽ đưởc trình bày rõ ràng hơn khi so sánh với dữ liệu thu nhận được nhờ vào camera thông thường. Bảng 3.1 dưới đây so sánh ưu điểm và nhược điểm của hai loại thơng tin thu nhận được từ camera ảnh bình thường và cảm biến chiều sâu.
(3.9)
Thông tin màu sắc Thông tin chiều sâu Ưu điểm Dễ phát hiện những đặc tính
Phương pháp khơng xâm lấn
Ổn định trước sự thay đổi của ánh sáng
Nhận được giá trị thật về chiều sâu
Non-intrusive method Nhược điểm ảnh hưởng nhiều dưới các điều
kiện ánh sáng
Khó tìm ra những đặc tính riêng Nhiễu nhiều đặc biệt ở biên đối tượng
Bảng 3.1 : So sánh ưu nhược điểm của hai loại thông tin thu được từ camera ảnh bình thường và thơng tin thu được từ cảm biến chiều sâu.
3.3 Giải thuật nhận dạng
Hình 3.5 trình bày giải thuật để nhận dạng và truy bắt bàn tay. Trước tiên, thông tin về chiều sâu của đối tượng được thu nhận nhờ vào dữ liệu thu được từ camera chiều sâu, và tạo ảnh chuyển động từ những ảnh tích luỹ sự khác biệt giữa các ảnh chiều sâu. Sau đó làm giảm nhiễu bằng bộ loc spatial và morphological operation. Phương pháp phân nhóm chuyển động được sử dụng để tìm kiếm các cụm chuyển động. Sau đó, bàn tay sẽ được nhận dạng từ những cụm chuyển động với chuyển động sóng (wave motion). Cuối dùng, sau khi đã nhận dạng được bàn tay, bộ lọc Kalman sẽ được áp dụng để truy bắt bàn tay.
Ảnh được thu nhận từ cảm biến chiều sâu thường bị nhiễu do sự phản xạ. Đôi lúc, những nhiễu này lại được nhận dạng như những thơng tin về chuyển động. Vì vậy, việc khử nhiễu thật sự cần thiết trước khi tiến hành nhận dạng. Phần tiền xử lý bao gồm thuật tốn để phân nhóm cho việc nhận dạng bàn tay ở vị trí ban đầu.
a. Khử nhiễu
Việc khử nhiễu đươc thực hiện nhờ vào việc sử dụng bộ lọc spatial và morphological processing. Khi phương pháp khử nhiễu được áp dụng thì các chuyển
(3.11)
(3.12) động thật sự trở nên rõ ràng hơn. Bộ lọc trung vị với kích thước mở 5x5 được dùng cho bộ lọc không gian. Bộ lọc trung vị thay đổi giá trị của các điểm ảnh với giá trị trung bình của các phần nhỏ của ảnh. Bộ lọc trung vị cung cấp các việc khử nhiễu cách hiểu quả mà không làm mờ ảnh. Những mẫu nhiễu của ảnh chuyển động thường là dạng chấm đen trắng, nên bộ lọc trung vị rất hiệu quả khi áp dụng để khử nhiễu. Ngoài việc dung bộ lọc spatial, việc khử nhiễu được tăng cường nhờ vào sử dụng bộ morphology processing. Các hiệu ứng cơ bản của các hoạt động mở là giảm bóng bên ngoài của đối tượng bằng các làm giảm bớt và mở rộng biên ngoài. Cách tổng quát, phương pháp này là làm mịn bên ngồi, tách các vùng có kích thước nhỏ hẹp và loại bỏ các phần có chu vi nhỏ. Vì thế, các hoạt động mở rộng này khử đi các nhiễu được tao ra cách ngẫu nhiên và làm mịn ảnh gốc. Việc giãn nở ngược lại với hoạt động bào mịn. Nó gắn các lớp lên đối tượng và trả lại kích thước nguyên thuỷ của đối tượng. Những hoạt động này có hiệu quả rất cao trong việc khử nhiễu trong ảnh chiều sâu.
b. Phân nhóm chuyển động
Để phân nhóm chuyển động, trước tiên, chúng ta lựa chọn kết nối với các thành phần của ảnh chuyển động, sau đó các phần kết nối được tập hợp lại. Những nhóm này có thể là là ảnh của bàn tay. Các nhóm được chọn có thể là chuyển động thật sự hay cũng có thể là nhiễu. Những nhóm là nhiễu thưởng nhỏ hoặc phân đoạn. Vì thế, nếu kích thước nhỏ hơn ngưỡng xác lập, chúng ta có thể khẳng định đó là nhiễu và loại bỏ đi.
Để xác định ngưỡng kích thước, luân văn sử dụng phương pháp đa thức hồi quy. Đầu tiên, chúng ta có được kích thước của một bàn tay từ khoảng cách 60cm đến 750cm là khoảng 10cm. Với dữ liệu thu được kích thước bàn tay, chúng ta sử dụng phương pháp đa thức hồi quy để gắn một đường cong phù hợp với dữ liệu. Chúng ta dùng mơ hình đa thức bậc 5 để diễn tả.
( , ) = ( )
Trong đó:
(3.13)
(3.14)
(3.15) Và:
( ) = [1 ]
Bởi vì mơ hình đa thức bậc 3 đủ để mơ hình hố dữ liệu. Với m điểm dữ liệu, chúng ta sử dụng phương pháp bình phương nhỏ nhất để giảm thiểu sai số bằng cách dùng phương trình:
( , ) = [ − ( , )] = [ = ] [ − ]
Trong đó: = [ , … , ] là dữ liệu đã biết nhờ kích thước bàn tay.
Ma trận p là ma trận Jacobi : = 1 ⋮ ⋮ ⋮ 1 ⋮ ⋮ ⋮
Sau đó, chúng ta có thể tìm đường cong phù hợp với dữ liệu kích thước bàn tay với phương trình: = .