Hiện nay, nhiều công ty đã cho ra đời nhiều thiết bị có thể nhận dạng được các cử chỉ người nhưng làm thé nào dé máy tính có thé hiểu được ý nghĩa của các cử chỉ đó để có thể thực thi và
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
PHAN THỊ HOÀI
NHAN DANG CỬ CHÍ TRONG PHÁT TRIEN UNG DUNG
TUONG TAC THUC TAI AO
CHUYEN NGANH: HE THONG THONG TIN
MA SO : 60.48.01.04
HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
Người hướng dẫn khoa học: PGS.TS HOÀNG MINH
Phan bign 1: 1 ener reer r ere e ent b ete ne raed
Phản biện 0) Op an
Luận văn sẽ được bao vệ trước Hội đông châm luận văn thạc si tai Học viện Công
nghệ Bưu chính Viễn Thông
Có thê tìm hiệu luận văn tại:
- Thu viện của Học viện Công nghệ Bưu chính Viễn Thông
Trang 3MỞ DAU
“Thực tại ảo là một môi trường ba chiều được phát sinh, tong hợp và điều khiển thông
qua máy vi tính nhằm mục đích mô phỏng lại thế giới thực hoặc một thế giới theo tưởng
tượng của con người Nó cho phép người dùng thông qua các thiết bị ngoại vi tương tác với
các sự vật, hiện tượng của thế giới ao giống như tương tác với các sự vật, hiện tượng của thếgiới thực”[1] Sự phat triển của thực tại ảo kéo theo sự đầu tư, phát triển của các thuật toán
nhận dạng cử chỉ để tạo ra sự tương tác với các mô hình 3D theo thời gian thực (real - time)
Việc xây dựng các thuật toán nhận dạng cử chỉ người giúp cho việc tương tác giữa người va
máy tính trở nên đơn giản, gần gũi và tiện dụng hơn rất nhiều, đặc biệt là việc điều khiến
các mô hình 3D Hiện nay, nhiều công ty đã cho ra đời nhiều thiết bị có thể nhận dạng được
các cử chỉ người nhưng làm thé nào dé máy tính có thé hiểu được ý nghĩa của các cử chỉ đó
để có thể thực thi và đáp trả lại yêu cầu của người sử dụng thì cần phải dựa vào các thuật
toán nhận dạng.
Việc nghiên cứu các thuật toán nhận dạng cử chỉ người và ứng dụng các thuật toán này
dé điều khiển các mô hình 3D là một xu hướng mới của thé giới Chính vì vậy luận văn lựachọn nghiên cứu đề tài: “Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo”
Luận văn tập trung nghiên cứu thuật toán nhận dạng cử chỉ bàn tay người, từ đó thiết
kế và xây dựng chương trình dựa trên thuật toán nhận dạng cử chỉ dé thử nghiệm và đánhgiá độ chính xác của thuật toán.
Về phương pháp nghiên cứu, luận văn kết hợp nghiên cứu lý thuyết, tổng hợp, phântích các vấn đề về thực tại ảo, xử lý ảnh, thuật toán nhận dạng cử chỉ cùng thiết kế và xâydựng chương trình thử nghiệm thuật toán nhận dạng đề thử nghiệm, đánh giá độ chính xác
thuật toan.
và nội dung, luận văn được trình bày thành 3 chương như sau:
CHƯƠNG 1: TONG QUAN VE NHẬN DẠNG CỬ CHỈ TRONG THUC TẠI AO
Trong chương này, học viên trình bày tổng quan về hệ thống thực tại ảo, cơ sở lythuyết về xử lý ảnh, giới thiệu một số thiết bị nhận dạng cử chỉ hiện nay; khảo sát, giới thiệumột sé thuật toán được sử dung trong nhận dạng cử chỉ ban tay, ưu điểm, nhược điểm của
các thuật toán Các nội dung trong chương 1 là cơ sở, tiền đề để thực hiện chương tiếp theo
CHƯƠNG 2: NHẬN DẠNG CỬ CHỈ TAY NGƯỜI
Trang 4Chương hai trình bày về các các giai đoạn xử lý và phân tích dé do tìm vị trí, hình
dáng của bàn tay; nội dung về thuật toán phân loại, nhận dạng cử chỉ bàn tay So sánh, đánhgiá các thuật toán nhận dạng, nêu lý do chọn nghiên cứu và áp dụng thử nghiệm thuật toánnhận dang cho chương tiếp theo
CHƯƠNG 3: THU NGHIỆM
Mô tả cơ sở dit liệu, mô tả chương trình thử nghiệm, kết quả thực nghiệm và đánh giá
độ chính xác của thuật toán khi nhận dạng các cử chỉ bản tay từ cơ sở dữ liệu.
Kết quả đạt được: luận văn nghiên cứu phương pháp xử lý hình ảnh dé trích chọn đốitượng từ các ảnh thu nhận được và thuật toán nhận dạng cử chỉ tay người, đánh giá độ chính xác của thuật toán nghiên cứu dựa trên chương trình thử nghiệm.
Trang 5CHƯƠNG 1 - TONG QUAN VE NHAN DANG CỬ CHỈ TRONG
THUC TAI AO
1.1 Tổng quan về thực tại ảo
1.1.1 Thực tại ao là gì?
Thực tại ảo (Virtual Reality - VR), hiện thực ảo, thực tế ảo cùng đều 1a những thuật
ngữ được dùng để nói đến một hệ thống dựa trên nền tảng đồ họa máy tính có khả năng môphỏng thế giới thực, cùng với sự hỗ trợ của các thiết bị đa phương tiện hệ thong nay còn cóthé phan ứng, thay đổi “ngay lập tức” theo ý muốn của người sử dung bằng các cử chỉ, hành
động, lời nói của con người giống y như đang tương tác với sự vật thật Đây cũng là đặc tínhcủa thực tại ảo - tương tác thời gian thực (real - time), điểm dé phân biệt thực tại ảo với các
mô hình mô phỏng 3D.
Có rất nhiều định nghĩa về thực tại ảo dù theo định nghĩa nao thì một hệ thống thựctại ảo cũng phải bảo được đồng thời 3 đặc tính chính của nó: tính Tương tác (Interactive),Nhập vai (Immersion), và Tưởng tượng (Imagination).
Interactive
fr
Immersion
(Nhap vai)
Hinh 1.1 Mô hình đặc tinh một hệ thông thực tại a0
1.1.2 Các thành phan của hệ thống thực tại ảo
Các thành phần của hệ thống thực tại ảo được chia thành 2 thành phần chính Trong
đó, thành phần phần cứng gồm có: Máy tính (Computer) và các thiết bị vào ra Còn phầnmêm cũng được chia làm 2 phân: phân mêm ứng dụng và cơ sở dữ liệu.
Trang 6Hinh 1.2 Cac thanh phan phan cimg
1.13 Phân loại các hệ thong thực tại ảo
Hệ thống VR được phân ra 3 loại chính là: (a) Hệ thống VR không nhập vai (non Immersive), (b) Hệ thống VR bán nhập vai (Semi - Immersive) và (c) Hệ thống VR nhập
-vai (Immersive)[5] Có thể có nhiều cách phân loại khác như dựa vào mức độ phức tạp hay
là phương thức hoạt động của hệ thống Mức độ phức tạp của hệ thống phụ thuộc vào mức
độ khó trong việc phát triển ứng dụng Đối với phân loại theo mức độ phức tạp nó bao gồm
hệ thống thực tại ảo mức sơ khai, mức cơ bản, mức tiên tiến, mức nhập vai và mức làm việcnhư một hệ điều hành cho môi trường thực tại ảo còn phân loại theo phương thức thì gồm có
hệ thống hoạt động dựa trên mô phỏng, dựa trên hệ thống máy chiếu, dựa trên hình ảnh thay
thé (avatar - image) hoặc dựa trên máy tinh dé ban
có một số ứng dụng mới nỗi lên trong thời gian gần đây của VR như: ứng dụng trong sảnxuất, ứng dụng trong ngành robot, ứng dụng trong hiền thị thông tin (thăm dò dầu mỏ, hiểnthị thông tin khối, ) VR có tiềm năng ứng dụng vô cùng lớn, hầu hết các lĩnh vực “có
that” trong cuộc sống đều có thé ứng dụng “thực tại ảo” dé nghiên cứu và phát triển hoàn
thiện hơn.
Trang 71.1.5 Các thiết bị nhận dang cử chỉ hiện nay
Hiện nay có rất nhiều thiết bị thu nhận cử chỉ người, tất cả các thiết bị này đều sửdụng những loại cảm biến khác nhau để thực hiện thu tín hiệu, chuyền nó thành tín hiệuđiện dé có thé trở thành dữ liệu cho máy tính xử lý, ví dụ như nhóm cảm biến gia tốc, cảmbiến từ, cảm biến xoay Nhìn chung lại có thé chia ra làm hai nhóm thiết bị dé thu nhận cửchỉ người:
Thứ nhất, các thiết bị cảm biến dựa trên thị giác máy tính, có sử dụng một hoặc nhiều
camera.
Hình 1.3 Gang tay dữ liệu Hinh 1.4 IGS — 190
Thứ hai, các thiết bi cảm biến không dựa vào thi giác máy tinh, đó là các nhóm thiết
bị theo dõi, găng tay thu nhận dir liệu,
Hinh 1.5 Kinect Hinh 1.6 Leapmotion
Trang 8Biểu diễn Nhận dạng
và mô tả và nội suy
Co sở tri thức
Hình 1.7 Các bước cơ bản trong xử lý ảnh
1.3 Tổng quan một số phương pháp nhận dạng cử chỉ bàn tay
Cử động tay người được chia làm hai loại bao gồm tnh và động Mỗi một loại có cáccông cụ và phương pháp nhận dạng khác nhau.
1.3.1 Nhận dạng cử chỉ tinh
a Học máy hỗ trợ vector (SVM)
Là kỹ thuật học máy được phát triển và nghiên cứu gần đây (từ năm 1995) SVMđược xây dựng cho bài toán phân loại nhị phân, tức là mỗi ví dụ có thể nhận một trong hainhãn Các vi dụ phải được biểu diễn bằng thuộc tính liên tục, do vậy mỗi vi dụ tương ứng
với một vector trong không gian.
Ưu điểm: SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao
so với các phương pháp khác trong hầu hết các ứng dụng bởi SVM thực chất là bài toán quy
hoạch toàn phương trên một tập lỗi, do đó SVM luôn có nghiệm toan cục và duy nhất
Nhược điểm: hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào
số lượng thuộc tính, mặt khác giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó cácbài toán huấn luyện với số lượng mẫu lớn sẽ gặp trở ngại trong vấn đề lưu trữ
b Phương pháp k láng giéng gần nhất (K-nearest neighbors)
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựatrên bộ nhớ, đơn giản vì nó được xây dựng băng cách lưu trữ tất cả các đối tượng trong tậphuấn luyện
Ưu điểm: k láng giéng gần nhất là phương pháp dé cài đặt, dễ hiểu
Nhược điểm: tốn nhiều thời gian và bộ nhớ
1.3.2 Nhận dạng cử chỉ động
Phương pháp dé nhận dang cử chỉ động hiện nay thường sử dụng là mô hình markov
ân (Hidden Markov Models - HMM)[22]
Trang 9Mô hình Markov là mô hình thống kê trong đó hệ thong được mô hình hóa được cho
là một quá trình Markov với các tham sỐ không biết trước và nhiệm vụ là xác định các tham
số ân từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hìnhđược rút ra sau đó có thé sử dụng dé thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụngnhận dạng mẫu.Trong một mô hình Markov điền hình, trạng thái được quan sát trực tiếp bởingười quan sát, và vì vậy các xác suất chuyền tiếp trạng thái là các tham số duy nhất Các
bài toán thực tế được biểu diễn đưới mối quan hệ nhân quả, nhưng chỉ quan sát được phần
kết quả còn phần nguyên nhân thì an
Ưu điểm: Sử dụng các mô hình Markov dé khử nhiễu và trích chọn đặc trưng cho kếtquả và thời gian thực hiện tốt Phương pháp này phù hợp với khả năng mô hình hóa dữ liệu
Nhược điểm: phương pháp này chỉ cố gang mô tả tốt nhất cau trúc dir liệu nhưng khó
dé phân lớp dữ liệu
Trang 10CHƯƠNG 2 - NHẬN DANG CU CHỈ TAY NGƯỜI
Trong chương này, luận văn sẽ tập trung vào nghiên cứu phương pháp và kỹ thuậtnhận dạng tư thế bàn tay người (cử chỉ tĩnh) Đối với vấn đề nhận dạng cử chỉ tay người cóhai cách tiép cận:
Thứ nhất là cách tiếp cận từ trên xuống, một mô hình bàn tay người được tạo ra dựa
trên các thông tin có được từ một vài đặc trưng trong các trục tọa độ của ảnh đầu vào Sau
đó mô hình này sẽ được sử dụng dé so sánh với hình ảnh khác dé hệ thống nhận dạng đưa ra
quyết dịnh liệu rằng chúng có tương ứng với nhau hay không Thứ hai là cách tiếp cận từdưới lên, một ảnh đầu vào sẽ được trích chọn đặc trưng và các đặc trưng này được so sánh
với cơ sở dữ liệu đã được huân luyện từ trước.
Đối với cách tiếp cận thứ hai yêu cầu hệ thống nhận dạng phải thực hiện quá trìnhtiền xử lý tốt để có thé có được kết qua phân đoạn đáng tin cậy, còn với cách tiếp cận thứnhất, dé có thé có được một hệ thống nhận dạng tốt buộc phải thực hiện các phép toán phức
tạp Hiện nay, cách tiếp cận thứ hai được sử dụng phổ biến, bởi vậy luận văn lựa chọn
hướng tiếp cận này dé nghiên cứu.
Toàn bộ quá trình làm việc của một hệ thống nhận dạng cử chỉ có thể chia ra làm bốngiai đoạn thu nhận hình ảnh bàn tay, tiền xử lý và phân đoạn ảnh, trích chọn đặc trưng và
cuối cùng là nhận dạng như trong Hình 2.1[11] Mỗi một giai đoạn thực hiện một nhiệm vụ,
kết quả của giai đoạn này là đầu vào của giai đoạn kế tiếp Ảnh bàn tay được chụp/thu lạibằng các thiết bi phù hợp; sau đó tiễn hành phân đoạn dé tách biệt bàn tay ra khỏi nền củaảnh cũng như các phần khác của cơ thé người rồi mới khử nhiễu, dò biên, chuẩn hóa ảnh
cuối cùng đề thu được một mô hình đơn giản nhất như mong muốn, làm dữ liệu đầu vào cho
quá trình trích chọn đặc trưng, làm giảm lượng thông tin nhưng vẫn giữ được các đặc tính
của đối tượng Cuối cùng chúng ta dựa trên các đặc trưng này để tiến hành đối sánh, nhậndạng cử chỉ.
Trang 11a Phân đoạn ảnh dựa trên màu da
Mau da người có giá trị nam trong một khoảng nhất định do đó nó được sử dụngtrong việc dò tim bàn tay người trong ảnh Việc phát hiện màu da gồm hai van đề chính là
việc xác định mô hình màu sử dụng và phương pháp phân loại màu da dựa trên mô hình
mau đã chọn Về hệ mau, có nhiều hệ đã được đề xuất sử dụng như RGB, HSV, YCpCh,
YUV Các hệ màu có khả năng phân biệt tốt giữa sắc độ và mức sáng như HSV, YCgCRthường được sử dụng Trong đó, thường chi sử dụng các kênh màu thể hiện sắc độ dé tăngtính ổn định khi điều kiện chiếu sáng thay đổi Đối với phương pháp phân loại màu da, cónhiều phương pháp đã được đề xuất và thử nghiệm Hai nhánh kỹ thuật chính là phươngpháp mô hình theo tham số và phương pháp phi tham số
Các không gian màu được sử dụng cho mô hình da
e M6 hình màu RGB: là không gian màu có nguồn gốc từ các ứng dụng mànhình CRT, nó là sự kết hợp của 3 tia màu đỏ, xanh da trời và xanh lá cây Là một trongnhững không gian mà được sử dụng rộng rãi nhất trong lĩnh vực xử lý và lưu trữ đữ liệu ảnh
SỐ Tuy nhiên, RGB không phải là sự lựa chọn tốt đối với sự phân tích màu và các thuậttoán nhận dang dựa trên màu da.
e Mô hình màu HSV (Hue, Saturation, Value)
Không gian mau nay còn có tên khác là HSI (intensity), HSL (lightness) nó dựa trên
các đặc tính màu trực quan như màu sắc (tint), bóng (shade) và tông màu (tone); nói cách
khác là sự kết hợp của họ mau, độ thuần khiết, và độ sáng Hệ màu này tương đồng VỚI cảmnhận màu sắc của con người.
Trang 12Đặc điểm của mô hình này đó là phân biệt được giữa độ chói và sắc độ tuy nhiên giá
trị của H không liên tục và kết quả từ việc tính toán giá trị V không phù hợp với đặc điểmcủa thị giác máy tính.
e Mô hình màu YC,C,
Là một tín hiệu RGB phi tuyến tính được mã hóa, thông thường được sử dụng trongviệc nén ảnh và là chuẩn của các kênh truyền hình Châu Âu Không gian mau này được théhiện bởi thành phan độ chói Y được tính toán từ RGB phi tuyến;
Việc chuyên đổi giữa hai hệ màu YC,C, và RGB khá đơn giản đồng thời hệ màu nàyphân biệt rõ ràng giữa sắc độ mà độ chói nên đây là hệ màu tốt khi áp dụng vào mô hình
mau da.
Phuong pháp xây dựng mô hình da
e Phương pháp mô hình phi tham số:
Ý tưởng chính của phương pháp mô hình phi tham số đó là ước tính sự phân bố màu
da thông qua tập dữ liệu huấn luyện mà không có mô hình cụ thé nào trước Kết quả củaphương pháp này tham chiếu đến một sơ đồ xác suất da (Skin Probability Model - SPM) -
an định mot giá trị xác suất tới mỗi một điểm trong không gian bat kỳ
Ưu điểm của phương pháp phi tham số là huấn luyện nhanh va dé sử dụng, khôngphụ thuộc vào hình dáng của phân bố màu da Nhược điểm của nó là yêu cầu không gianlưu trữ lớn và không có khả năng nội suy hiệu chỉnh các tham số của mô hình hoặc tổng
quát hóa dữ liệu huấn luyện
e Phương pháp mô hình phân phối màu da tham số
Phương pháp mô hình màu da phi tham số yêu cầu không gian lưu trữ lớn và việctính toán phụ thuộc vào mô tả của tập ảnh huấn luyện Phương pháp dựa trên tham số tạo ra
mô hình màu đa chính xác hơn với khả năng tông quát hóa và nội suy hiệu chỉnh các tham
số của mô hình dữ liệu huấn luyện Tuy nhiên các phương pháp phụ thuộc tham số chỉ có
hiệu quả đối với không gian màu có sắc độ mà lờ đi độ chói
b Phương pháp phân đoạn ảnh dựa trên ngưỡng
Đây là phương pháp chia ảnh ra làm 2 vùng, nền và đối tượng dựa trên giá trị đặc
biệt gọi là ngưỡng[2] Ngưỡng này là ngưỡng cấp xám sẽ được đưa ra dưa trên các thambiến khác nhau, phụ thuộc vào từng ứng dụng Việc phân đoạn có tốt hay không phụ thuộcnhiều vào việc lựa chọn ngưỡng đủ dé trích lọc ban tay ra khỏi nền Có rất nhiều kỹ thuật
Trang 13phân ngưỡng khác nhau, trong trường hợp lý tưởng thì lược đồ xám của ảnh sẽ có hình dáng
như đồ thị hình sin, thì điểm lấy ngưỡng chính là điểm thấp nhất nằm giữa hai đỉnh của đồthị - gọi là khe (như hình).
Il h 4h ú
Hình 2.1 Cách lay ngưỡng dựa trên lược đồ xám
Tuy nhiên, trong thực tế các ảnh thu được thường rất khó dé có thé tim ra được điểmthấp nhất nằm giữa hai đỉnh đồ thị trong trường hợp khoảng giữa hai đỉnh quá rộng, có lẫncác nhiễu; hoặc khi hai đỉnh có chiều cao quá chênh lệch nhau dẫn đến việc không xác địnhđược điểm thấp nhất giữa hai đỉnh
e Thuật toán phân ngưỡng Otsu[17]: Day là phương pháp phân ngưỡng tốt nhất trongviệc phân ngưỡng cho ảnh hiện nay mà không phụ thuộc tham số và không giám sát trong
việc lựa chọn ngưỡng tự động.
2.1.2 Khử nhiễu
Khử nhiễu là phương pháp cải thiện ảnh, làm cho ảnh có chất lượng tốt hơn, giúp choviệc phân tích ảnh tốt hon Dé làm trơn nhiễu hay tách nhiễu người ta sử dụng các bộ lọctuyến tính (lọc trung bình, thông thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồnghình).
a Lọc tuyến tính
b Lọc phi tuyến
c Khử nhiễu bằng phương pháp hình thái học
Các phép toán hình thái học là phép toán dựa trên lý thuyết tập hợp, được ứng dụngvào trong xử lý ảnh nhằm làm giảm nhiễu Các phép toán xử lý hình thái học được thực hiện
trên ảnh nhị phân và ảnh xám và được định nghĩa từ hai phép toán cơ bản là phép co ảnh
(Erosion) và giãn ảnh (Dilation) Phép lọc nhiễu dựa trên phép co ảnh hướng tới việc giảm
kích thước của các đặc trưng của ảnh sáng màu bằng mỗi tương quan với vùng tối màu liền
kê, còn phép giãn ảnh ràng buộc các đặc trưng của vùng ảnh tôi màu với vùng sáng xung