Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo

Hiện nay, nhiều công ty đã cho ra đời nhiều thiết bị có thể nhận dạng được các cử chỉ người nhưng làm thé nào dé máy tính có thé hiểu được ý nghĩa của các cử chỉ đó để có thể thực thi và

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

PHAN THỊ HOÀI

NHAN DANG CỬ CHÍ TRONG PHÁT TRIEN UNG DUNG

TUONG TAC THUC TAI AO

CHUYEN NGANH: HE THONG THONG TIN

MA SO : 60.48.01.04

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Người hướng dẫn khoa học: PGS.TS HOÀNG MINH

Phan bign 1: 1 ener reer r ere e ent b ete ne raed

Phản biện 0) Op an

Luận văn sẽ được bao vệ trước Hội đông châm luận văn thạc si tai Học viện Công

nghệ Bưu chính Viễn Thông

Có thê tìm hiệu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính Viễn Thông

Trang 3

MỞ DAU

“Thực tại ảo là một môi trường ba chiều được phát sinh, tong hợp và điều khiển thông

qua máy vi tính nhằm mục đích mô phỏng lại thế giới thực hoặc một thế giới theo tưởng

tượng của con người Nó cho phép người dùng thông qua các thiết bị ngoại vi tương tác với

các sự vật, hiện tượng của thế giới ao giống như tương tác với các sự vật, hiện tượng của thếgiới thực”[1] Sự phat triển của thực tại ảo kéo theo sự đầu tư, phát triển của các thuật toán

nhận dạng cử chỉ để tạo ra sự tương tác với các mô hình 3D theo thời gian thực (real - time)

Việc xây dựng các thuật toán nhận dạng cử chỉ người giúp cho việc tương tác giữa người va

máy tính trở nên đơn giản, gần gũi và tiện dụng hơn rất nhiều, đặc biệt là việc điều khiến

các mô hình 3D Hiện nay, nhiều công ty đã cho ra đời nhiều thiết bị có thể nhận dạng được

các cử chỉ người nhưng làm thé nào dé máy tính có thé hiểu được ý nghĩa của các cử chỉ đó

để có thể thực thi và đáp trả lại yêu cầu của người sử dụng thì cần phải dựa vào các thuật

toán nhận dạng.

Việc nghiên cứu các thuật toán nhận dạng cử chỉ người và ứng dụng các thuật toán này

dé điều khiển các mô hình 3D là một xu hướng mới của thé giới Chính vì vậy luận văn lựachọn nghiên cứu đề tài: “Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo”

Luận văn tập trung nghiên cứu thuật toán nhận dạng cử chỉ bàn tay người, từ đó thiết

kế và xây dựng chương trình dựa trên thuật toán nhận dạng cử chỉ dé thử nghiệm và đánhgiá độ chính xác của thuật toán.

Về phương pháp nghiên cứu, luận văn kết hợp nghiên cứu lý thuyết, tổng hợp, phântích các vấn đề về thực tại ảo, xử lý ảnh, thuật toán nhận dạng cử chỉ cùng thiết kế và xâydựng chương trình thử nghiệm thuật toán nhận dạng đề thử nghiệm, đánh giá độ chính xác

thuật toan.

và nội dung, luận văn được trình bày thành 3 chương như sau:

CHƯƠNG 1: TONG QUAN VE NHẬN DẠNG CỬ CHỈ TRONG THUC TẠI AO

Trong chương này, học viên trình bày tổng quan về hệ thống thực tại ảo, cơ sở lythuyết về xử lý ảnh, giới thiệu một số thiết bị nhận dạng cử chỉ hiện nay; khảo sát, giới thiệumột sé thuật toán được sử dung trong nhận dạng cử chỉ ban tay, ưu điểm, nhược điểm của

các thuật toán Các nội dung trong chương 1 là cơ sở, tiền đề để thực hiện chương tiếp theo

CHƯƠNG 2: NHẬN DẠNG CỬ CHỈ TAY NGƯỜI

Trang 4

Chương hai trình bày về các các giai đoạn xử lý và phân tích dé do tìm vị trí, hình

dáng của bàn tay; nội dung về thuật toán phân loại, nhận dạng cử chỉ bàn tay So sánh, đánhgiá các thuật toán nhận dạng, nêu lý do chọn nghiên cứu và áp dụng thử nghiệm thuật toánnhận dang cho chương tiếp theo

CHƯƠNG 3: THU NGHIỆM

Mô tả cơ sở dit liệu, mô tả chương trình thử nghiệm, kết quả thực nghiệm và đánh giá

độ chính xác của thuật toán khi nhận dạng các cử chỉ bản tay từ cơ sở dữ liệu.

Kết quả đạt được: luận văn nghiên cứu phương pháp xử lý hình ảnh dé trích chọn đốitượng từ các ảnh thu nhận được và thuật toán nhận dạng cử chỉ tay người, đánh giá độ chính xác của thuật toán nghiên cứu dựa trên chương trình thử nghiệm.

Trang 5

CHƯƠNG 1 - TONG QUAN VE NHAN DANG CỬ CHỈ TRONG

THUC TAI AO

1.1 Tổng quan về thực tại ảo

1.1.1 Thực tại ao là gì?

Thực tại ảo (Virtual Reality - VR), hiện thực ảo, thực tế ảo cùng đều 1a những thuật

ngữ được dùng để nói đến một hệ thống dựa trên nền tảng đồ họa máy tính có khả năng môphỏng thế giới thực, cùng với sự hỗ trợ của các thiết bị đa phương tiện hệ thong nay còn cóthé phan ứng, thay đổi “ngay lập tức” theo ý muốn của người sử dung bằng các cử chỉ, hành

động, lời nói của con người giống y như đang tương tác với sự vật thật Đây cũng là đặc tínhcủa thực tại ảo - tương tác thời gian thực (real - time), điểm dé phân biệt thực tại ảo với các

mô hình mô phỏng 3D.

Có rất nhiều định nghĩa về thực tại ảo dù theo định nghĩa nao thì một hệ thống thựctại ảo cũng phải bảo được đồng thời 3 đặc tính chính của nó: tính Tương tác (Interactive),Nhập vai (Immersion), và Tưởng tượng (Imagination).

Interactive

fr

Immersion

(Nhap vai)

Hinh 1.1 Mô hình đặc tinh một hệ thông thực tại a0

1.1.2 Các thành phan của hệ thống thực tại ảo

Các thành phần của hệ thống thực tại ảo được chia thành 2 thành phần chính Trong

đó, thành phần phần cứng gồm có: Máy tính (Computer) và các thiết bị vào ra Còn phầnmêm cũng được chia làm 2 phân: phân mêm ứng dụng và cơ sở dữ liệu.

Trang 6

Hinh 1.2 Cac thanh phan phan cimg

1.13 Phân loại các hệ thong thực tại ảo

Hệ thống VR được phân ra 3 loại chính là: (a) Hệ thống VR không nhập vai (non Immersive), (b) Hệ thống VR bán nhập vai (Semi - Immersive) và (c) Hệ thống VR nhập

-vai (Immersive)[5] Có thể có nhiều cách phân loại khác như dựa vào mức độ phức tạp hay

là phương thức hoạt động của hệ thống Mức độ phức tạp của hệ thống phụ thuộc vào mức

độ khó trong việc phát triển ứng dụng Đối với phân loại theo mức độ phức tạp nó bao gồm

hệ thống thực tại ảo mức sơ khai, mức cơ bản, mức tiên tiến, mức nhập vai và mức làm việcnhư một hệ điều hành cho môi trường thực tại ảo còn phân loại theo phương thức thì gồm có

hệ thống hoạt động dựa trên mô phỏng, dựa trên hệ thống máy chiếu, dựa trên hình ảnh thay

thé (avatar - image) hoặc dựa trên máy tinh dé ban

có một số ứng dụng mới nỗi lên trong thời gian gần đây của VR như: ứng dụng trong sảnxuất, ứng dụng trong ngành robot, ứng dụng trong hiền thị thông tin (thăm dò dầu mỏ, hiểnthị thông tin khối, ) VR có tiềm năng ứng dụng vô cùng lớn, hầu hết các lĩnh vực “có

that” trong cuộc sống đều có thé ứng dụng “thực tại ảo” dé nghiên cứu và phát triển hoàn

thiện hơn.

Trang 7

1.1.5 Các thiết bị nhận dang cử chỉ hiện nay

Hiện nay có rất nhiều thiết bị thu nhận cử chỉ người, tất cả các thiết bị này đều sửdụng những loại cảm biến khác nhau để thực hiện thu tín hiệu, chuyền nó thành tín hiệuđiện dé có thé trở thành dữ liệu cho máy tính xử lý, ví dụ như nhóm cảm biến gia tốc, cảmbiến từ, cảm biến xoay Nhìn chung lại có thé chia ra làm hai nhóm thiết bị dé thu nhận cửchỉ người:

Thứ nhất, các thiết bị cảm biến dựa trên thị giác máy tính, có sử dụng một hoặc nhiều

camera.

Hình 1.3 Gang tay dữ liệu Hinh 1.4 IGS — 190

Thứ hai, các thiết bi cảm biến không dựa vào thi giác máy tinh, đó là các nhóm thiết

bị theo dõi, găng tay thu nhận dir liệu,

Hinh 1.5 Kinect Hinh 1.6 Leapmotion

Trang 8

Biểu diễn Nhận dạng

và mô tả và nội suy

Co sở tri thức

Hình 1.7 Các bước cơ bản trong xử lý ảnh

1.3 Tổng quan một số phương pháp nhận dạng cử chỉ bàn tay

Cử động tay người được chia làm hai loại bao gồm tnh và động Mỗi một loại có cáccông cụ và phương pháp nhận dạng khác nhau.

1.3.1 Nhận dạng cử chỉ tinh

a Học máy hỗ trợ vector (SVM)

Là kỹ thuật học máy được phát triển và nghiên cứu gần đây (từ năm 1995) SVMđược xây dựng cho bài toán phân loại nhị phân, tức là mỗi ví dụ có thể nhận một trong hainhãn Các vi dụ phải được biểu diễn bằng thuộc tính liên tục, do vậy mỗi vi dụ tương ứng

với một vector trong không gian.

Ưu điểm: SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao

so với các phương pháp khác trong hầu hết các ứng dụng bởi SVM thực chất là bài toán quy

hoạch toàn phương trên một tập lỗi, do đó SVM luôn có nghiệm toan cục và duy nhất

Nhược điểm: hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào

số lượng thuộc tính, mặt khác giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó cácbài toán huấn luyện với số lượng mẫu lớn sẽ gặp trở ngại trong vấn đề lưu trữ

b Phương pháp k láng giéng gần nhất (K-nearest neighbors)

Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựatrên bộ nhớ, đơn giản vì nó được xây dựng băng cách lưu trữ tất cả các đối tượng trong tậphuấn luyện

Ưu điểm: k láng giéng gần nhất là phương pháp dé cài đặt, dễ hiểu

Nhược điểm: tốn nhiều thời gian và bộ nhớ

1.3.2 Nhận dạng cử chỉ động

Phương pháp dé nhận dang cử chỉ động hiện nay thường sử dụng là mô hình markov

ân (Hidden Markov Models - HMM)[22]

Trang 9

Mô hình Markov là mô hình thống kê trong đó hệ thong được mô hình hóa được cho

là một quá trình Markov với các tham sỐ không biết trước và nhiệm vụ là xác định các tham

số ân từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hìnhđược rút ra sau đó có thé sử dụng dé thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụngnhận dạng mẫu.Trong một mô hình Markov điền hình, trạng thái được quan sát trực tiếp bởingười quan sát, và vì vậy các xác suất chuyền tiếp trạng thái là các tham số duy nhất Các

bài toán thực tế được biểu diễn đưới mối quan hệ nhân quả, nhưng chỉ quan sát được phần

kết quả còn phần nguyên nhân thì an

Ưu điểm: Sử dụng các mô hình Markov dé khử nhiễu và trích chọn đặc trưng cho kếtquả và thời gian thực hiện tốt Phương pháp này phù hợp với khả năng mô hình hóa dữ liệu

Nhược điểm: phương pháp này chỉ cố gang mô tả tốt nhất cau trúc dir liệu nhưng khó

dé phân lớp dữ liệu

Trang 10

CHƯƠNG 2 - NHẬN DANG CU CHỈ TAY NGƯỜI

Trong chương này, luận văn sẽ tập trung vào nghiên cứu phương pháp và kỹ thuậtnhận dạng tư thế bàn tay người (cử chỉ tĩnh) Đối với vấn đề nhận dạng cử chỉ tay người cóhai cách tiép cận:

Thứ nhất là cách tiếp cận từ trên xuống, một mô hình bàn tay người được tạo ra dựa

trên các thông tin có được từ một vài đặc trưng trong các trục tọa độ của ảnh đầu vào Sau

đó mô hình này sẽ được sử dụng dé so sánh với hình ảnh khác dé hệ thống nhận dạng đưa ra

quyết dịnh liệu rằng chúng có tương ứng với nhau hay không Thứ hai là cách tiếp cận từdưới lên, một ảnh đầu vào sẽ được trích chọn đặc trưng và các đặc trưng này được so sánh

với cơ sở dữ liệu đã được huân luyện từ trước.

Đối với cách tiếp cận thứ hai yêu cầu hệ thống nhận dạng phải thực hiện quá trìnhtiền xử lý tốt để có thé có được kết qua phân đoạn đáng tin cậy, còn với cách tiếp cận thứnhất, dé có thé có được một hệ thống nhận dạng tốt buộc phải thực hiện các phép toán phức

tạp Hiện nay, cách tiếp cận thứ hai được sử dụng phổ biến, bởi vậy luận văn lựa chọn

hướng tiếp cận này dé nghiên cứu.

Toàn bộ quá trình làm việc của một hệ thống nhận dạng cử chỉ có thể chia ra làm bốngiai đoạn thu nhận hình ảnh bàn tay, tiền xử lý và phân đoạn ảnh, trích chọn đặc trưng và

cuối cùng là nhận dạng như trong Hình 2.1[11] Mỗi một giai đoạn thực hiện một nhiệm vụ,

kết quả của giai đoạn này là đầu vào của giai đoạn kế tiếp Ảnh bàn tay được chụp/thu lạibằng các thiết bi phù hợp; sau đó tiễn hành phân đoạn dé tách biệt bàn tay ra khỏi nền củaảnh cũng như các phần khác của cơ thé người rồi mới khử nhiễu, dò biên, chuẩn hóa ảnh

cuối cùng đề thu được một mô hình đơn giản nhất như mong muốn, làm dữ liệu đầu vào cho

quá trình trích chọn đặc trưng, làm giảm lượng thông tin nhưng vẫn giữ được các đặc tính

của đối tượng Cuối cùng chúng ta dựa trên các đặc trưng này để tiến hành đối sánh, nhậndạng cử chỉ.

Trang 11

a Phân đoạn ảnh dựa trên màu da

Mau da người có giá trị nam trong một khoảng nhất định do đó nó được sử dụngtrong việc dò tim bàn tay người trong ảnh Việc phát hiện màu da gồm hai van đề chính là

việc xác định mô hình màu sử dụng và phương pháp phân loại màu da dựa trên mô hình

mau đã chọn Về hệ mau, có nhiều hệ đã được đề xuất sử dụng như RGB, HSV, YCpCh,

YUV Các hệ màu có khả năng phân biệt tốt giữa sắc độ và mức sáng như HSV, YCgCRthường được sử dụng Trong đó, thường chi sử dụng các kênh màu thể hiện sắc độ dé tăngtính ổn định khi điều kiện chiếu sáng thay đổi Đối với phương pháp phân loại màu da, cónhiều phương pháp đã được đề xuất và thử nghiệm Hai nhánh kỹ thuật chính là phươngpháp mô hình theo tham số và phương pháp phi tham số

Các không gian màu được sử dụng cho mô hình da

e M6 hình màu RGB: là không gian màu có nguồn gốc từ các ứng dụng mànhình CRT, nó là sự kết hợp của 3 tia màu đỏ, xanh da trời và xanh lá cây Là một trongnhững không gian mà được sử dụng rộng rãi nhất trong lĩnh vực xử lý và lưu trữ đữ liệu ảnh

SỐ Tuy nhiên, RGB không phải là sự lựa chọn tốt đối với sự phân tích màu và các thuậttoán nhận dang dựa trên màu da.

e Mô hình màu HSV (Hue, Saturation, Value)

Không gian mau nay còn có tên khác là HSI (intensity), HSL (lightness) nó dựa trên

các đặc tính màu trực quan như màu sắc (tint), bóng (shade) và tông màu (tone); nói cách

khác là sự kết hợp của họ mau, độ thuần khiết, và độ sáng Hệ màu này tương đồng VỚI cảmnhận màu sắc của con người.

Trang 12

Đặc điểm của mô hình này đó là phân biệt được giữa độ chói và sắc độ tuy nhiên giá

trị của H không liên tục và kết quả từ việc tính toán giá trị V không phù hợp với đặc điểmcủa thị giác máy tính.

e Mô hình màu YC,C,

Là một tín hiệu RGB phi tuyến tính được mã hóa, thông thường được sử dụng trongviệc nén ảnh và là chuẩn của các kênh truyền hình Châu Âu Không gian mau này được théhiện bởi thành phan độ chói Y được tính toán từ RGB phi tuyến;

Việc chuyên đổi giữa hai hệ màu YC,C, và RGB khá đơn giản đồng thời hệ màu nàyphân biệt rõ ràng giữa sắc độ mà độ chói nên đây là hệ màu tốt khi áp dụng vào mô hình

mau da.

Phuong pháp xây dựng mô hình da

e Phương pháp mô hình phi tham số:

Ý tưởng chính của phương pháp mô hình phi tham số đó là ước tính sự phân bố màu

da thông qua tập dữ liệu huấn luyện mà không có mô hình cụ thé nào trước Kết quả củaphương pháp này tham chiếu đến một sơ đồ xác suất da (Skin Probability Model - SPM) -

an định mot giá trị xác suất tới mỗi một điểm trong không gian bat kỳ

Ưu điểm của phương pháp phi tham số là huấn luyện nhanh va dé sử dụng, khôngphụ thuộc vào hình dáng của phân bố màu da Nhược điểm của nó là yêu cầu không gianlưu trữ lớn và không có khả năng nội suy hiệu chỉnh các tham số của mô hình hoặc tổng

quát hóa dữ liệu huấn luyện

e Phương pháp mô hình phân phối màu da tham số

Phương pháp mô hình màu da phi tham số yêu cầu không gian lưu trữ lớn và việctính toán phụ thuộc vào mô tả của tập ảnh huấn luyện Phương pháp dựa trên tham số tạo ra

mô hình màu đa chính xác hơn với khả năng tông quát hóa và nội suy hiệu chỉnh các tham

số của mô hình dữ liệu huấn luyện Tuy nhiên các phương pháp phụ thuộc tham số chỉ có

hiệu quả đối với không gian màu có sắc độ mà lờ đi độ chói

b Phương pháp phân đoạn ảnh dựa trên ngưỡng

Đây là phương pháp chia ảnh ra làm 2 vùng, nền và đối tượng dựa trên giá trị đặc

biệt gọi là ngưỡng[2] Ngưỡng này là ngưỡng cấp xám sẽ được đưa ra dưa trên các thambiến khác nhau, phụ thuộc vào từng ứng dụng Việc phân đoạn có tốt hay không phụ thuộcnhiều vào việc lựa chọn ngưỡng đủ dé trích lọc ban tay ra khỏi nền Có rất nhiều kỹ thuật

Trang 13

phân ngưỡng khác nhau, trong trường hợp lý tưởng thì lược đồ xám của ảnh sẽ có hình dáng

như đồ thị hình sin, thì điểm lấy ngưỡng chính là điểm thấp nhất nằm giữa hai đỉnh của đồthị - gọi là khe (như hình).

Il h 4h ú

Hình 2.1 Cách lay ngưỡng dựa trên lược đồ xám

Tuy nhiên, trong thực tế các ảnh thu được thường rất khó dé có thé tim ra được điểmthấp nhất nằm giữa hai đỉnh đồ thị trong trường hợp khoảng giữa hai đỉnh quá rộng, có lẫncác nhiễu; hoặc khi hai đỉnh có chiều cao quá chênh lệch nhau dẫn đến việc không xác địnhđược điểm thấp nhất giữa hai đỉnh

e Thuật toán phân ngưỡng Otsu[17]: Day là phương pháp phân ngưỡng tốt nhất trongviệc phân ngưỡng cho ảnh hiện nay mà không phụ thuộc tham số và không giám sát trong

việc lựa chọn ngưỡng tự động.

2.1.2 Khử nhiễu

Khử nhiễu là phương pháp cải thiện ảnh, làm cho ảnh có chất lượng tốt hơn, giúp choviệc phân tích ảnh tốt hon Dé làm trơn nhiễu hay tách nhiễu người ta sử dụng các bộ lọctuyến tính (lọc trung bình, thông thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồnghình).

a Lọc tuyến tính

b Lọc phi tuyến

c Khử nhiễu bằng phương pháp hình thái học

Các phép toán hình thái học là phép toán dựa trên lý thuyết tập hợp, được ứng dụngvào trong xử lý ảnh nhằm làm giảm nhiễu Các phép toán xử lý hình thái học được thực hiện

trên ảnh nhị phân và ảnh xám và được định nghĩa từ hai phép toán cơ bản là phép co ảnh

(Erosion) và giãn ảnh (Dilation) Phép lọc nhiễu dựa trên phép co ảnh hướng tới việc giảm

kích thước của các đặc trưng của ảnh sáng màu bằng mỗi tương quan với vùng tối màu liền

kê, còn phép giãn ảnh ràng buộc các đặc trưng của vùng ảnh tôi màu với vùng sáng xung

Tiêu đề	Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo
Tác giả	Phan Thị Hoài
Người hướng dẫn	PGS.TS. Hoàng Minh
Trường học	Học viện Công nghệ Bưu chính Viễn Thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	24
Dung lượng	5,7 MB