Nhận dạng 26 bậc tự do của bàn tay sử dụng phương pháp mô hình với ảnh màu – độ sâu

7 30 0
Nhận dạng 26 bậc tự do của bàn tay sử dụng phương pháp mô hình với ảnh màu – độ sâu

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong báo cáo này, trình bày hướng tiếp cận mô hình để nhận dạng đầy đủ 26 bậc tự do của bàn tay. Thông tin vào bao gồm ảnh quan sát màu – độ sâu (RGB-D) thu được từ cảm biến ảnh Kinect và ảnh mô hình 3 chiều của bàn tay xây dựng từ cấu trúc giải phẫu học và ma trận đồ họa.

Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) Nhận dạng 26 bậc tự bàn tay sử dụng phương pháp mô hình với ảnh màu – độ sâu Qch Cơng Hồng, Phạm Minh Triển, Đặng Anh Việt, Phạm Đình Tuân, Trần Thuận Hồng, Phùng Mạnh Dương Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Hà Nội, Việt Nam Email: duongpm@vnu.edu.vn thể kèm thông tin độ sâu Trong đó, ảnh mơ hình xây dựng dựa cấu trúc giải phẫu học ma trận đồ họa Tùy mục đích ứng dụng giải thuật, ảnh mơ hình khác nhóm nghiên cứu Tóm tắt— Trong báo cáo này, chúng tơi trình bày hướng tiếp cận mơ hình để nhận dạng đầy đủ 26 bậc tự bàn tay Thông tin vào bao gồm ảnh quan sát màu – độ sâu (RGB-D) thu từ cảm biến ảnh Kinect ảnh mô hình chiều bàn tay xây dựng từ cấu trúc giải phẫu học ma trận đồ họa Một hàm mục tiêu sau thiết lập cho hàm đạt giá trị cực tiểu ảnh mơ hình ảnh quan sát trùng Để giải toán tối ưu 26 chiều này, giải thuật tối ưu bầy đàn (PSO) sử dụng với số cải tiến Đồng thời, tác vụ địi hỏi tính tốn lớn đưa vào khối xử lý đồ họa GPU để thực tính tốn song song Kết mô thực nghiệm cho thấy hệ thống nhận dạng 26 bậc tự bàn tay với tốc độ xử lý 0,8 giây/hình Giải thuật nhạy với nhiễu môi trường Phần cứng yêu cầu đơn giản với camera Trong [3], mơ hình bàn tay xây gồm 12 bậc tự với 10 bậc dành cho ngón tay bậc dành cho chuyển động tịnh tiến không gian Để nhận dạng tư tay, có hai phép đo sử dụng Phép đo thứ đo mức độ chồng chập diện tích ảnh quan sát ảnh mơ hình chiếu mặt phẳng quan sát Phép đo thứ hai đánh giá sai khác khoảng cách đường biên hai ảnh Kĩ thuật tối ưu xuống dốc đơn hình (downhill simplex) sau sử dụng để tìm tư cho sai khác nhỏ Các ràng buộc sinh học sử dụng nhằm thu hẹp khơng gian tìm kiếm loại bỏ trường hợp không thực Kết thực nghiệm cho thấy giải thuật nhận dạng chuyển động đơn giản bàn tay điều kiện đồng màu Từ khóa—nhận dạng bàn tay, giải thuật bầy đàn, cảm biến ảnh Kinect I GIỚI THIỆU Trong nghiên cứu khác [4], Stenger đề xuất mơ hình bàn tay với 27 bậc tự biểu diễn 39 mặt bậc hai cụt Việc sử dụng mặt bậc hai giúp đơn giản q trình khởi tạo mơ hình chiều đồng thời dễ dàng thực phép chiếu Bộ lọc Kalman sau sử dụng để ước lượng tối thiểu sai số hình học đường biên ảnh quan sát ảnh mơ hình Kết cho thấy giải thuật nhận dạng bậc tự với tốc độ hình/giây Để nâng cao độ xác, Stenger sau đề xuất sử dụng tập hợp mẫu gồm 16.055 tư bàn tay kết hợp với lọc Bayes phân cấp [5] Các hàm so sánh tương quan cải tiến để làm việc điều kiện nhiễu môi trường lớn Giải thuật thành công với tỉ lệ nhận dạng 90% độ xác 9.3 điểm ảnh cho ảnh 320x240 Tuy nhiên, trình cài đặt thuật toán tương đối phức tạp với nhiều bước chỉnh thủ cơng đồng thời u cầu phải có tập liệu quan sát lớn Khi máy tính ngày thu nhỏ kích thước kính hay đồng hồ đeo tay việc sử dụng bàn phím, chuột hay hình cảm ứng trở nên khơng thích hợp Thay vào đó, cách thức tương tác người – máy cần thúc đẩy nghiên cứu Bàn tay, phận hoạt động xác hiệu người sử dụng công cụ, đánh giá nhiều tiềm Và thực tế toán nhận dạng tư tay nhận nhiều quan tâm nghiên cứu có ứng dụng cụ thể tương tác robot, nhận diện ngôn ngữ cử chỉ, hay điều khiển thiết bị [1]… Tuy nhiên, ứng dụng tương tác đại thực tế ảo (VR) thực tế tăng cường (AR) thường đòi hỏi độ xác cao số bậc tự lớn khiến phương pháp truyền thống tỏ hiệu Thay vào đó, phương pháp mơ hình xem hướng tiếp cận khả thi [1] – [4] Phương pháp mơ hình nhận dạng dựa so sánh ảnh quan sát với ảnh mơ hình chiều Ảnh quan sát hình ảnh thu từ hệ nhiều camera có ISBN: 978-604-67-0349-5 384 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) Gần đây, Oikonomidis đề xuất mơ hình bàn tay gồm 26 bậc tự xây dựng từ hình đồ họa hình cầu, hình trụ hình elipsoid [2] Ảnh quan sát sử dụng bao gồm ảnh màu ảnh độ sâu thu thập cảm biến ảnh Kinect Giải thuật tối ưu bầy đàn sau áp dụng để tìm nghiệm cho tốn cực tiểu sai khác ảnh quan sát ảnh mô hình Kết cho thấy giải thuật nhận diện đầy đủ 26 bậc tự bàn tay với tốc độ 15 hình/giây Tuy vậy, trình khởi tạo ban đầu phải thực thủ công gian bậc tự cho chuyển động xoay quanh trục Năm ngón tay ngón có bậc tự với bậc cho khớp gốc ngón tay (gập/ngửa khép/mở) bậc cho khớp lại Với cách biểu diễn vậy, động học ngón tay xác định vector gồm tham số góc: x z qi  ( MP , MP ,  PIP ,  DIP ) Trong báo cáo này, tiếp cận theo hướng mô hình để giải tốn nhận dạng tư bàn tay, hay cụ thể trạng thái khớp nối bàn tay Vấn đề nhận dạng xây dựng toán tối ưu với mục tiêu tối thiểu sai khác ảnh mô hình tư tay giả định với ảnh quan sát thu từ cảm biến ảnh Kinect Giải thuật bầy đàn cải tiến sau sử dụng để giải toán tối ưu Đồng thời, tác vụ địi hỏi tính tốn lớn đưa vào khối xử lý đồ họa GPU máy tính để tính tốn song song Kết thực nghiệm cho thấy hệ thống nhận dạng 26 bậc tự bàn tay thời gian 0.8s Kết nhận dạng nhạy với nhiễu môi trường yêu cầu phần cứng đơn giản II (1)   hai góc quay khớp gốc,  PIP góc quay khớp  DIP góc quay khớp đỉnh x MP z MP Tương tự, vị trí hướng bàn tay xác định qua cổ tay vectơ gồm tham số: qc  ( xc , yc , zc ,  cx ,  cy ,  cz ) (2) ( xc , yc , zc ) tọa độ cổ tay không gian ( cx ,  cy ,  cz ) hướng bàn tay quay quanh trục tương ứng Như vậy, tư bàn tay hoàn tồn xác định biết 26 tham số góc: h  (qi , qc ), i  1, 2, ,5 (3) Do đặc điểm giải phẫu học, chuyển động khớp ngón tay bị ràng buộc giằng dẫn tới góc quay cổ tay đốt ngón tay bị giới hạn Đặc điểm quan trọng giúp giới hạn đáng kể khơng gian tìm kiếm giải thuật bầy đàn sau Bảng trình bày giới hạn tham số góc ngón tay Bảng trình bày giới hạn tham số cổ tay Lưu ý giới hạn vị trí ( xc , yc , zc ) xác định thị trường camera MƠ HÌNH BÀN TAY Để triển khai giải thuật nhận dạng, mơ hình bàn tay bao gồm ảnh mơ hình ảnh quan sát cần định nghĩa BẢNG 1: GIỚI HẠN CÁC THAM SỐ GÓC CỦA NGÓN TAY x  MP z  MP  PIP  DIP Ngón 00 – 900 -150 – 600 00 – 500 Ngón trỏ Ngón Ngón đeo nhẫn Ngón út 00 – 900 00 – 900 00 – 900 -150 – 150 -100 – 100 -300 – 00 00 – 1000 00 – 1000 00 – 1000 -150 – 700 0 – 600 00 – 600 00 – 600 00 – 900 -450 – 00 00 – 1000 00 – 600 BẢNG 2: GIỚI HẠN CÁC THAM SỐ GÓC VÀ VỊ TRÍ CỦA CỐ TAY xc -0,9 m – 0,9 m Hình Mơ hình động học bàn tay A Ảnh mơ hình bàn tay Bàn tay người bao gồm 27 xương, có xương cổ tay 19 xương cho lòng bàn tay ngón tay Các xương kết nối với khớp nối có nhiều bậc tự Hình biểu diễn khớp nối số bậc tự tương ứng tạo thành tổng cộng 26 bậc tự [1] Trong đó, cổ tay có bậc tự với bậc tự cho chuyển động tịnh tiến không ISBN: 978-604-67-0349-5 yc -0,68 m – 0,68 m zc 0,5 m – 1,5 m  cx  cy 0 -30 – 1200 -70 – 750  cz -350 – 200 Từ cấu trúc giải phẫu học động học, biểu diễn ảnh mơ hình bàn tay gồm phần: lịng bàn tay năm ngón tay Lịng bàn tay biểu diễn hình trụ elip bao hai đầu khối ellipsoid (hình 2) Mỗi ngón tay biểu diễn hình nón cụt tương ứng với đốt ngón tay hình cầu tương ứng với khớp ngón tay đầu ngón tay Riêng ngón có cấu tạo khác nên đốt ngón tay lớn biểu diễn khối ellipsoid thay hình nón cụt Kích 385 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) thước tỉ lệ phần bàn tay xác định dựa đo đạc bàn tay thực Trên máy tính, ảnh mơ hình biểu diễn đồ họa dựa thư viện OpenGL [12] mơ hình giả định bàn tay tương ứng với góc nhìn quan sát; tìm tư tối ưu giải thuật bầy đàn Hình Ảnh mơ hình bàn tay tạo khối hình học Hình Sơ đồ giải thuật nhận dạng Ảnh mơ hình cho phép biểu diễn hình ảnh chiều bàn tay không gian Bằng phép chiếu hình học lên mặt phẳng quan sát, ta thu ảnh màu ảnh độ sâu Các ảnh dùng để so sánh với ảnh quan sát thu từ cảm biến ảnh Kinect Phần xây dựng ảnh mơ hình ảnh quan sát trình bày mục II Việc tìm tư tối ưu thực qua hai giai đoạn Giai đoạn thứ xây dựng hàm mục tiêu để đánh giá sai khác ảnh quan sát ảnh mơ hình Qua đó, chuyển tốn nhận dạng thành tốn tối ưu Giai đoạn thứ hai giải toán tối ưu sử dụng giải thuật bầy đàn Chi tiết bước sau B Ảnh quan sát bàn tay Ảnh quan sát ảnh thu từ nhiều camera ghi lại hình ảnh bàn tay Trong hệ thống chúng tôi, ảnh quan sát bao gồm ảnh màu RGB ảnh độ sâu ghi cảm biến ảnh Kinect [16] có độ phân giải 640x480 tốc độ 15 hình/giây (hình 3) Bằng thuật tốn nhận diện màu da phân hoạch độ sâu, vùng bàn tay ảnh màu ảnh độ sâu trích chọn Kết giai đoạn tiền xử lý cho ta ảnh quan sát O  (Os , Od ) với Os ảnh màu Od ảnh độ sâu A Xây dựng hàm mục tiêu Giả sử có ảnh quan sát O, mục tiêu cần tìm 26 tham số động học bàn tay (qikq , qckq ) cho ảnh mơ hình hkq tạo tham số giống với ảnh quan sát O Tiêu chí để so sánh sai khác ảnh mơ hình ảnh quan sát xây dựng theo [2] sau Xét ảnh mơ hình h bất kì, phép chiếu hình học lên mặt phẳng quan sát với thông tin tiêu cự góc nhìn camera C, ta thu ảnh độ sâu rd  h, C  Ảnh độ sâu sau so sánh với ảnh độ sâu quan sát Od để tìm ảnh tương quan nhị phân rm  h, C  Quy tắc tính ảnh tương quan sau: Giá trị điểm ảnh rm (h, C ) “1” vị trí sai khác rd (h, C ) Od nhỏ khoảng dm Od khơng xác định; trường hợp cịn lại, giá trị rm (h, C ) “0” Ảnh tương quan sau tiếp tục so sánh với ảnh màu Os để loại bớt vùng độ sâu khơng thích hợp Kết dẫn đến hàm đánh giá sai khác tồn mơ sau: Hình Ảnh quan sát bao gồm: (a) ảnh màu; (b) ảnh độ sâu III GIẢI THUẬT NHẬN DẠNG Hình trình bày sơ đồ giải thuật nhận dạng đề xuất báo Giải thuật bao gồm giai đoạn chính: trích chọn ảnh quan quan sát bàn tay; xây dựng ảnh ISBN: 978-604-67-0349-5 386 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) D  O, h, C   min  o  (o d  rd , d M  s  rm ) phần tử Khi đó, vị trí vận tốc phần tử cập nhật sau: (4)   2(os  rm )   1    (os  rm )  (os  rm )     kí hiệu phép HOẶC lơgic;  kí hiệu phép VÀ lơgic; dM số dương giới hạn khác biệt độ sâu; λ số chuẩn hóa sai khác diện tích; tổng Σ tính tồn điểm ảnh Xét mặt ý nghĩa, tỉ số: min  o (o d  rd , d M  thể  rm ) sai khác độ sâu ảnh quan sát ảnh mô 2(os  rm ) thể sai hình; cịn tỉ số (os  rm )  (os  rm ) khác diện tích hai ảnh Nói cách khác, tư bàn tay h xem nghiệm cần tìm ảnh mơ hình tạo có sai khác độ sâu diện tích với ảnh quan sát nhỏ s Để loại trừ tư bàn tay vơ lý ví dụ ngón trỏ ngón xuyên qua nhau, lượng k kc(h) thêm vào để tăng giá trị sai khác trường hợp Kết hàm mục tiêu sau biểu diễn sau: E  h, O   D  O, h, C   k kc  h  (5) tham số cho D  O, h, C  E  h, O  chọn sau: d m  cm, d M  cm ,   20, k  10 kc(h)   pQ  min( ( p, h), 0) với Q cặp ngón tay khơng tính ngón  biểu diễn sai khác góc ngón tay cặp xk 1  xk  vk 1 (7) với w hệ số giảm vận tốc, c1 số đặc trưng cho yếu tố cá thể, c2 số đặc trưng cho yếu tố bầy đàn, r1 r2 hai biến ngẫu nhiên phân phối khoảng [0,1] Phương trình (6) (7) hàm ý phần tử di chuyển ngẫu nhiên có khuynh hướng tiến vị trí tốt đàn vị trí tốt mà qua Tương quan yếu tố bầy đàn yếu tố cá thể thể qua hệ số c1 c2 Áp dụng vào toán nhận dạng, vị trí phần tử định nghĩa vectơ 26 chiều ứng với 26 tham số động học bàn tay tư h bàn tay Vận tốc định nghĩa vectơ 26 chiều thể thay đổi tư bàn tay qua bước Khi khởi tạo, vị trí phần tử gieo ngẫu nhiên tạo thành tư h1, h2, …hn Vận tốc ban đầu đặt Từ phương trình (5), giá trị hàm mục tiêu E  hi , O  tính cho tư Từ đó, vị trí tốt phần tử Pk vị trí tốt đàn Gk xác định Vận tốc phần tử hệ sau xác định phương trình (6) vị trí xác định phương trình (7) Trải qua bước tiến hóa, vị trí ( hay tư bàn tay) phần tử tiến dần tới tư thực quan sát camera Thuật toán dừng sai số hàm mục tiêu nhỏ giá trị đặt số bước tiến hóa đạt tới giá trị tối đa cho phép Trong hệ thống chúng tôi, số phần tử đàn đặt 64 Khơng gian tìm kiếm giới hạn khoảng giá trị phần tử theo bảng bảng Điều kiện dừng giá trị hàm mục tiêu nhỏ 1.0 số bước tiến hóa đạt 30 Các hệ số phương trình (6) đặt sau: c1  2.8, c2  1.3, w  /     4 với   c1  c2 Với hàm mục tiêu (5), toán nhận dạng trở thành tốn tối ưu cần tìm 26 tham số tư h để E  h, O  cực tiểu Để giải tốn này, chúng tơi sử dụng phương pháp tối ưu bầy đàn B Nhận dạng sử dụng phương pháp tối ưu bầy đàn Về lý thuyết, khó để tìm lời giải tường minh cho phương trình (5) Thay vào đó, phương pháp giải thống kê thường sử dụng giải thuật Powell [6], giải thuật Nelder – Mead [7], hay giải thuật di truyền [8] Trong báo này, sử dụng phương pháp tối ưu bầy đàn nhờ tốc độ hội tụ nhanh đơn giản cài đặt [9] Trong di chuyển theo giải thuật PSO, số chiều lớn nên vị trí đốt ngón tay thường bị kẹt đỉnh tối ưu cục thay tiến tới đỉnh tối ưu tồn cục Để giải vấn đề này, phần tử tạo đột biến (mutation) Cứ sau bước tiến hóa, nửa số phần tử đàn gieo lại ngẫu nhiên 20 chiều tương ứng với tham số góc đốt ngón tay IV Giải thuật bầy đàn giải toán tối ưu cách tạo tập hợp gồm n phần tử, phần tử di chuyển tiến hóa qua bước để cuối hội tụ điểm tối ưu Ban đầu, phần tử gán vị trí vận tốc ngẫu nhiên Sau đó, bước, phần tử cập nhật vị trí tốt nó, Pk, vị trí tốt đàn, Gk Gọi xk vk vị trí vận tốc ISBN: 978-604-67-0349-5 vk 1  w  vk  c1r1  Pk  xk   c2 r2  Gk  xk   (6) TĂNG TỐC THUẬT TOÁN SỬ DỤNG KHỐI XỬ LÝ ĐỒ HỌA GPU Do khơng gian tìm kiếm 26 chiều, giải thuật bầy đàn phải sử dụng tới 64 phần tử tiến hóa qua 30 hệ dẫn đến yêu cầu lớn số lượng phép tính mà xử lý CPU không đảm bảo yếu tố thời gian thực Để giải vấn đề này, tận dụng khả xử lý song song khối xử lý đồ họa GPU 387 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) Khối xử lý đồ họa GPU, nằm cạc đồ họa máy tính, chíp bổ trợ thiết kế để hỗ trợ CPU tác vụ đồ họa Do đặc điểm xử lý đồ họa, khối GPU thiết kế gồm nhiều nhân xử lý (256 hệ chúng tơi) để tính tốn song song Vì vậy, lõi vi xử lý GPU có lực xử lý so với CPU, thực song song tất lõi GPU lại cho kết vượt trội phần tử đàn, ta tạo 64 ảnh độ sâu r1, r2, …, r64 để dùng cho bước tính hàm mục tiêu Tồn tiến trình tiến trình bước thực đồng thời cho 64 phần tử 64 vùng nhớ riêng GPU Vì vậy, giải thuật bầy đàn song song hóa phần tử  Bước 2: Bây giờ, với phần tử, ta cần tính giá trị sai khác D  O, h, C  theo phương trình (4) để từ tính giá trị hàm mục tiêu E  h, O  theo phương trình (5) Phương trình (4) yêu cầu cần phải thực phép tính od  rd , Os  rm, Os  rm với điểm ảnh Với độ phân giải 640x480 Kinect, số điểm ảnh vùng bàn tay lớn khơng phù hợp cho tính Song song hóa phép tính cần thực Ý tưởng áp dụng phép toán trực tiếp hai vùng nhớ thay cho nhớ Cụ thể, ảnh quan sát màu Os ảnh độ sâu Od chuyển từ CPU vào nhớ GPU Các vùng nhớ sau chép 64 vùng tương ứng với số phần tử đàn Các phép tính thực cho đồng thời tất điểm ảnh vùng nhớ lưu Os, Od ri Để lập trình song song GPU, hai tảng phổ biến CUDA hãng Nvidia [10] OpenCL tổ chức Kronos [11] Nền tảng CUDA có ưu điểm dễ cài đặt hỗ trợ cạc đồ họa Nvidia OpenCL, mặt khác, đời sau chuẩn mở hỗ trợ tất loại cạc đồ họa nên sử dụng nghiên cứu Hình trình bày q trình tính tốn song song cài đặt cho giải thuật bầy đàn Theo đó, tính tốn song song thực phần tử phần tử đàn, cụ thể gồm bước sau: Các tư h1,h2 … hn hướng nhìn C Các đa giác mơ hình bàn tay chuẩn Bộ nhớ GPU r1 r2 Mơ hình quan sát (O) Bộ nhớ GPU GPU  Bước 3: Kết phép tính bước lưu vùng nhớ có kích thước với vùng nhớ ri Để tính D  O, h, C , ta cịn cần phải tính tổng phần tử vùng nhớ (phương trình (4) ) Để tận dụng triệt để khả song song GPU, tiếp tục sử dụng giải thuật tính tổng theo kĩ thuật kim tự tháp [13] để song song hóa trình tính tổng Kết là, với cấu hình GPU gồm 256 nhân, ghi kích thước 128 bit, kiểu số thực 32 bit, có 1024 phép tính tổng thực đồng thời Giá trị cuối D  O, h, C  sau chuyển sang nhớ CPU để tiếp tục bước giải thuật bầy đàn Vẽ ảnh mơ hình OpenGL r3 r4 r5 rn mn Tính thành phần tổng D OpenCL m1 m2 m3 m4 m5 Như vậy, cách sử dụng khối xử lý đồ họa GPU, giải thuật bầy đàn PSO song song hóa hồn tồn Qua thử nghiệm chúng tôi, phương pháp giảm thời gian xử lý khung hình 450 lần từ phút xuống cịn 0.8 giây nhờ đảm bảo yếu tố thời gian thực Tính tổng D1,D2 … Dn OpenCL V MÔ PHỎNG VÀ THỰC NGHIỆM Để đánh giá hiệu phương pháp đề xuất, tiến hành mô với liệu tổng hợp thực nghiệm với liệu thật Hệ thống chúng tơi cài đặt máy tính xách tay có cấu hình CPU Intel i7 740qm, Gb RAM, cạc đồ họa GPU AMD HD5870m có lực xử lý 1,12 TFlops Gb nhớ Chương trình phần mềm viết tảng Visual C++ 2010 [14] kết hợp với thư viện xử lý ảnh OpenCV 2.4.9 [15], thư viện đồ họa OpenGL 4.3 [12] thư viện tính tốn song song GPU OpenCL 1.2 [11] Giải thuật bầy đàn thực với 64 phần tử tiến Tính E cho PSO Hình 5: Sơ đồ khối quy trình tính tốn GPU  Bước 1: Mỗi phần tử đàn cấp vùng nhớ riêng GPU Vị trí phần tử tư h bàn tay Bằng thư viện đồ họa OpenGL [12] mơ hình bàn tay định nghĩa phần II.A, ảnh mơ hình chiều bàn tay tạo với tư h Bằng phép chiếu hình học với thơng tin hướng nhìn C thơng số camera biết, ta tính ảnh độ sâu r từ ảnh mơ hình Với 64 ISBN: 978-604-67-0349-5 388 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) xác phần tử đàn bị tắc điểm tối ưu cục Hình trình bày thay đổi giá trị hàm mục tiêu qua bước tiến hóa Có thể nhận thấy giá trị hàm mục tiêu giảm số bước tiến hóa tăng hay nói cách khác vị trí phần tử đàn tiến dần tới tư cần tìm Trung bình, việc nhận dạng tư thực 0.8 giây, 0,45 giây tiêu tốn cho việc xây dựng ảnh mơ hình, ảnh quan sát, ảnh màu 0,35 giây cho việc tính tốn hàm mục tiêu E hóa qua 30 hệ nửa số phần tử đột biến hệ B Thực nghiệm Trong thực nghiệm, ảnh quan sát liệu thu từ cảm biến ảnh Kinect phiên 1.5 điều kiện nhà ánh sáng ổn định Vị trí bàn tay đặt cách cảm biến khoảng từ 0.5 m đến 1.5 m Hình 6: Kết nhận dạng 26 bậc tự bàn tay với tư bên trái ảnh quan sát bên phải ảnh nhận dạng 14 a b c d Gia tri ham muc tieu 12 10 10 15 20 Buoc tien hoa 25 30 Hình 7: Biến thiên giá trị hàm mục tiêu theo bước tiến hóa với tư ứng với chữ “a”, “b”, “c”, “d” (a) Hình 8: Kết thực nghiệm nhận dạng tư tay: (a) Ảnh quan sát màu; (b) Ảnh quan sát độ sâu; (c) Ảnh kết nhận dạng A Mô Mô thực với mục đích đánh giá hồn thiện giải thuật trước áp dụng với liệu thực Chi tiết sau 10 Gia tri ham muc tieu 1) Cài đặt mô phỏng: Để thực mô phỏng, tư tay tùy chọn đưa vào hệ thống để tạo ảnh mơ hình href Giả thiết có hướng nhìn C, thơng tin camera mặt phẳng quan sát, ảnh màu ảnh độ sâu tạo từ ảnh mơ hình phép chiếu hình học Các ảnh giả thiết ảnh quan sát màu Os ảnh độ sâu Od thu từ camera Với ảnh giả thiết này, giải thuật nhận dạng thực với liệu thực Tu the Tu the 2) Kết mơ phỏng: Hình trình kết nhận dạng 26 bậc tự tư tay tương ứng với chữ đầu bảng chữ ngơn ngữ kí hiệu ảnh bên trái biểu diễn tư tay quan sát href ảnh bên phải biểu diễn tư tay nhận dạng hkq Có thể nhận thấy giải thuật xác định xác 26 bậc tự bàn tay với số tư Trong số tư khác, bậc tự gắn với đốt ngón tay cho kết chưa ISBN: 978-604-67-0349-5 (c) (b) 10 15 20 Buoc tien hoa 25 30 Hình 9: Biến thiên giá trị hàm mục tiêu theo bước tiến hóa với tư hình Hình trình bày kết nhận dạng Trong hai tư thế, bậc tự cổ tay bậc tự ngón nhận dạng xác Với bậc tự ngón tay cịn lại, tư duỗi ngón nhận dạng 389 Hội thảo quốc gia 2014 Điện tử, Truyền thơng Cơng nghệ thơng tin (ECIT2014) xác Các tư gập ngón phần ngón tay bị che khuất nên thường dẫn tới kết khơng xác Đồ thị giá trị hàm mục tiêu (hình 9) cho thấy, việc thay đổi tư đốt ngón tay không dẫn tới thay đổi lớn giá trị hàm mục tiêu khơng giúp phần tử thoát khỏi đỉnh tối ưu cục Để khắc phục vấn đề này, cần thiết phải cải tiến hàm mục tiêu để nâng cao khả phân biệt Việc thực nghiên cứu VI [2] [3] [4] [5] KẾT LUẬN Đóng góp báo cáo xây dựng thành công giải thuật nhận dạng 26 bậc tự bàn tay từ khâu thu thập liệu, xây dựng mơ hình, xây dựng hàm mục tiêu tới triển khai giải thuật tối ưu bầy đàn Đặc biệt, việc tính tốn song song giải thuật bầy đàn khối xử lý đồ họa GPU giúp cải thiện đáng kể hiệu xử lý hệ thống mà không yêu cầu phần cứng bổ sung Nhiều phép mô thực nghiệm tiến hành để khẳng định tính đắn phương pháp Trong thời gian tiếp theo, hệ thống tiếp tục cải tiến theo hai hướng bao gồm: trích chọn thêm đặc trưng bàn tay để cải thiện khả đánh giá hàm mục tiêu; tăng cường phần cứng tối ưu giải thuật song song để xử lý 30 hình/giây Trên sở đó, chúng tơi kì vọng xây dựng ứng dụng tương tác người – máy tiên tiến thực ảo thực tăng cường [6] [7] [8] [9] [10] [11] [12] [13] LỜI CẢM ƠN [14] Báo cáo hỗ trợ đề tài CN.14.07 trường Đại học Công nghệ, Đại học Quốc gia Hà Nội [15] TÀI LIỆU THAM KHẢO [1] [16] A Erol, G Bebis, M Nicolescu, R.D Boyle, X Twombly, “Vision-based Hand Pose Estimation: A review”, J Computer Vision and Image Understanding, vol.108(1-2), pp.52–73, 2007 ISBN: 978-604-67-0349-5 390 I Oikonomidis, N Kyriazis, A Argyros, “Efficient model-based 3D tracking of hand articulations using Kinect”, Proceedings of the British Machine Vision Conference, pp 101.1-101.11, 2011 H Ouhaddi, P Horain, “3D Hand gesture tracking by model registration”, International Workshop on Synthetic—Natural Hybrid Coding and Three Dimensional Imaging, 1999 B Stenger, P.R.S Mendonca, R Cipolla, Model-based 3D tracking of an articulated hand, IEEE Computer Society Conference on Computer Vision and Pattern Recognition 02 (2001) 310 B Stenger, Model-based hand tracking using a hierarchical bayesian filter, Ph.D thesis, Department of Engineering, University of Cambridge, 2004 W H Press, B P Flannery, S A Teukolsky, W T Vetterling, Numerical Recipes in C, Cambridge University Press, 1992 J A Nelder and R Mead, “A Simplex Method for Function Minimization”, Computer Journal, vol 7, 1965, pp 308-313 David Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley Professional, 1989 J Kennedy, R.C Eberhart, Swarm Intelligence, Morgan Kaufmann, 2001 Nicholas Wilt, The CUDA Handbook: A Comprehensive Guide to GPU Programming, Addison-Wesley Professional, edition, 2013 Matthew Scarpino, OpenCL in Action: How to Accelerate Graphics and Computations, Manning Publications, edition, 2011 Dave Shreiner, Graham Sellers, John M Kessenich, Bill M Licea-Kane, OpenGL Programming Guide: The Official Guide to Learning OpenGL, Addison-Wesley Professional, edition, 2013 L Williams, Pyramidal parametrics, In ACM SIGGRAPH Computer Graphics, vol 17, pp 1–11, 1983 Ivor Horton, Ivor Horton's Beginning Visual C++ 2010, Wrox; edition, 2010 Samarth Brahmbhatt, Practical OpenCV (Technology in Action), Apress, edition, 2013 Jana Abhijit, Kinect for Windows SDK Programming Guide (Community Experience Distilled), Packt Publishing, 2012 ... Oikonomidis đề xuất mơ hình bàn tay gồm 26 bậc tự xây dựng từ hình đồ họa hình cầu, hình trụ hình elipsoid [2] Ảnh quan sát sử dụng bao gồm ảnh màu ảnh độ sâu thu thập cảm biến ảnh Kinect Giải thuật... TRÍ CỦA CỐ TAY xc -0,9 m – 0,9 m Hình Mơ hình động học bàn tay A Ảnh mơ hình bàn tay Bàn tay người bao gồm 27 xương, có xương cổ tay 19 xương cho lòng bàn tay ngón tay Các xương kết nối với khớp... màu RGB ảnh độ sâu ghi cảm biến ảnh Kinect [16] có độ phân giải 640x480 tốc độ 15 hình/ giây (hình 3) Bằng thuật tốn nhận diện màu da phân hoạch độ sâu, vùng bàn tay ảnh màu ảnh độ sâu trích chọn

Ngày đăng: 31/10/2020, 10:16

Tài liệu cùng người dùng

Tài liệu liên quan