1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo

24 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

PHAN THỊ HOÀI

NHAN DANG CỬ CHÍ TRONG PHÁT TRIEN UNG DUNG TUONG TAC THUC TAI AO

CHUYEN NGANH: HE THONG THONG TIN

MA SO : 60.48.01.04

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Người hướng dẫn khoa học: PGS.TS HOÀNG MINH

Phan bign 1: 1 ener reer r ere e ent b ete ne raed

Phản biện 0) Op an

Luận văn sẽ được bao vệ trước Hội đông châm luận văn thạc si tai Học viện Công

nghệ Bưu chính Viễn Thông

Có thê tìm hiệu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính Viễn Thông

Trang 3

MỞ DAU

“Thực tại ảo là một môi trường ba chiều được phát sinh, tong hợp và điều khiển thông

qua máy vi tính nhằm mục đích mô phỏng lại thế giới thực hoặc một thế giới theo tưởng

tượng của con người Nó cho phép người dùng thông qua các thiết bị ngoại vi tương tác với

các sự vật, hiện tượng của thế giới ao giống như tương tác với các sự vật, hiện tượng của thế giới thực”[1] Sự phat triển của thực tại ảo kéo theo sự đầu tư, phát triển của các thuật toán

nhận dạng cử chỉ để tạo ra sự tương tác với các mô hình 3D theo thời gian thực (real - time).

Việc xây dựng các thuật toán nhận dạng cử chỉ người giúp cho việc tương tác giữa người va

máy tính trở nên đơn giản, gần gũi và tiện dụng hơn rất nhiều, đặc biệt là việc điều khiến

các mô hình 3D Hiện nay, nhiều công ty đã cho ra đời nhiều thiết bị có thể nhận dạng được

các cử chỉ người nhưng làm thé nào dé máy tính có thé hiểu được ý nghĩa của các cử chỉ đó để có thể thực thi và đáp trả lại yêu cầu của người sử dụng thì cần phải dựa vào các thuật

toán nhận dạng.

Việc nghiên cứu các thuật toán nhận dạng cử chỉ người và ứng dụng các thuật toán này

dé điều khiển các mô hình 3D là một xu hướng mới của thé giới Chính vì vậy luận văn lựa chọn nghiên cứu đề tài: “Nhận dạng cử chỉ trong phát triển ứng dụng tương tác thực tại ảo”.

Luận văn tập trung nghiên cứu thuật toán nhận dạng cử chỉ bàn tay người, từ đó thiết kế và xây dựng chương trình dựa trên thuật toán nhận dạng cử chỉ dé thử nghiệm và đánh giá độ chính xác của thuật toán.

Về phương pháp nghiên cứu, luận văn kết hợp nghiên cứu lý thuyết, tổng hợp, phân tích các vấn đề về thực tại ảo, xử lý ảnh, thuật toán nhận dạng cử chỉ cùng thiết kế và xây dựng chương trình thử nghiệm thuật toán nhận dạng đề thử nghiệm, đánh giá độ chính xác

thuật toan.

và nội dung, luận văn được trình bày thành 3 chương như sau:

CHƯƠNG 1: TONG QUAN VE NHẬN DẠNG CỬ CHỈ TRONG THUC TẠI AO

Trong chương này, học viên trình bày tổng quan về hệ thống thực tại ảo, cơ sở ly thuyết về xử lý ảnh, giới thiệu một số thiết bị nhận dạng cử chỉ hiện nay; khảo sát, giới thiệu một sé thuật toán được sử dung trong nhận dạng cử chỉ ban tay, ưu điểm, nhược điểm của

các thuật toán Các nội dung trong chương 1 là cơ sở, tiền đề để thực hiện chương tiếp theo CHƯƠNG 2: NHẬN DẠNG CỬ CHỈ TAY NGƯỜI

Trang 4

Chương hai trình bày về các các giai đoạn xử lý và phân tích dé do tìm vị trí, hình

dáng của bàn tay; nội dung về thuật toán phân loại, nhận dạng cử chỉ bàn tay So sánh, đánh giá các thuật toán nhận dạng, nêu lý do chọn nghiên cứu và áp dụng thử nghiệm thuật toán nhận dang cho chương tiếp theo.

CHƯƠNG 3: THU NGHIỆM

Mô tả cơ sở dit liệu, mô tả chương trình thử nghiệm, kết quả thực nghiệm và đánh giá

độ chính xác của thuật toán khi nhận dạng các cử chỉ bản tay từ cơ sở dữ liệu.

Kết quả đạt được: luận văn nghiên cứu phương pháp xử lý hình ảnh dé trích chọn đối tượng từ các ảnh thu nhận được và thuật toán nhận dạng cử chỉ tay người, đánh giá độ chínhxác của thuật toán nghiên cứu dựa trên chương trình thử nghiệm.

Trang 5

CHƯƠNG 1 - TONG QUAN VE NHAN DANG CỬ CHỈ TRONG

THUC TAI AO

1.1 Tổng quan về thực tại ảo

1.1.1 Thực tại ao là gì?

Thực tại ảo (Virtual Reality - VR), hiện thực ảo, thực tế ảo cùng đều 1a những thuật

ngữ được dùng để nói đến một hệ thống dựa trên nền tảng đồ họa máy tính có khả năng mô phỏng thế giới thực, cùng với sự hỗ trợ của các thiết bị đa phương tiện hệ thong nay còn có thé phan ứng, thay đổi “ngay lập tức” theo ý muốn của người sử dung bằng các cử chỉ, hành

động, lời nói của con người giống y như đang tương tác với sự vật thật Đây cũng là đặc tính của thực tại ảo - tương tác thời gian thực (real - time), điểm dé phân biệt thực tại ảo với các

mô hình mô phỏng 3D.

Có rất nhiều định nghĩa về thực tại ảo dù theo định nghĩa nao thì một hệ thống thực tại ảo cũng phải bảo được đồng thời 3 đặc tính chính của nó: tính Tương tác (Interactive), Nhập vai (Immersion), và Tưởng tượng (Imagination).

(Nhap vai)

Hinh 1.1 Mô hình đặc tinh một hệ thông thực tại a0

1.1.2 Các thành phan của hệ thống thực tại ảo

Các thành phần của hệ thống thực tại ảo được chia thành 2 thành phần chính Trong đó, thành phần phần cứng gồm có: Máy tính (Computer) và các thiết bị vào ra Còn phần mêm cũng được chia làm 2 phân: phân mêm ứng dụng và cơ sở dữ liệu.

Trang 6

Hinh 1.2 Cac thanh phan phan cimg

1.13 Phân loại các hệ thong thực tại ảo

Hệ thống VR được phân ra 3 loại chính là: (a) Hệ thống VR không nhập vai (non -Immersive), (b) Hệ thống VR bán nhập vai (Semi - Immersive) và (c) Hệ thống VR nhập

vai (Immersive)[5] Có thể có nhiều cách phân loại khác như dựa vào mức độ phức tạp hay

là phương thức hoạt động của hệ thống Mức độ phức tạp của hệ thống phụ thuộc vào mức độ khó trong việc phát triển ứng dụng Đối với phân loại theo mức độ phức tạp nó bao gồm hệ thống thực tại ảo mức sơ khai, mức cơ bản, mức tiên tiến, mức nhập vai và mức làm việc như một hệ điều hành cho môi trường thực tại ảo còn phân loại theo phương thức thì gồm có

hệ thống hoạt động dựa trên mô phỏng, dựa trên hệ thống máy chiếu, dựa trên hình ảnh thay

thé (avatar - image) hoặc dựa trên máy tinh dé ban.

1.1.4 Ung dụng

Tai các nước phat trién, VR duoc ứng dụng trong mọi lĩnh vực: khoa hoc kỹ thuật, kiến trúc, quân sự, giải trí, và đáp ứng mọi nhu cầu: Nghiên cứu - Giáo dục - Thương mại Y học là lĩnh vực ứng dụng truyền thống của VR Ngoài ra, VR cũng đã được ứng dụng trong giáo dục, nghệ thuật, giải trí Đặc biệt trong lĩnh vực quân sự, VR đã được ứng dụng rất nhiều ở các nước phát triển hiện nay Bên cạnh các ứng dụng truyền thống ở trên, cũng có một số ứng dụng mới nỗi lên trong thời gian gần đây của VR như: ứng dụng trong sản xuất, ứng dụng trong ngành robot, ứng dụng trong hiền thị thông tin (thăm dò dầu mỏ, hiển thị thông tin khối, ) VR có tiềm năng ứng dụng vô cùng lớn, hầu hết các lĩnh vực “có

that” trong cuộc sống đều có thé ứng dụng “thực tại ảo” dé nghiên cứu và phát triển hoàn

thiện hơn.

Trang 7

1.1.5 Các thiết bị nhận dang cử chỉ hiện nay

Hiện nay có rất nhiều thiết bị thu nhận cử chỉ người, tất cả các thiết bị này đều sử dụng những loại cảm biến khác nhau để thực hiện thu tín hiệu, chuyền nó thành tín hiệu điện dé có thé trở thành dữ liệu cho máy tính xử lý, ví dụ như nhóm cảm biến gia tốc, cảm biến từ, cảm biến xoay Nhìn chung lại có thé chia ra làm hai nhóm thiết bị dé thu nhận cử chỉ người:

Thứ nhất, các thiết bị cảm biến dựa trên thị giác máy tính, có sử dụng một hoặc nhiều

Hình 1.3 Gang tay dữ liệu Hinh 1.4 IGS — 190

Thứ hai, các thiết bi cảm biến không dựa vào thi giác máy tinh, đó là các nhóm thiết bị theo dõi, găng tay thu nhận dir liệu,

Hinh 1.5 Kinect Hinh 1.6 Leapmotion

1.2 Hệ thống nhận dạng ảnh

Nhận dạng là giai đoạn cuối cùng trong một hệ thống xử lý ảnh Đề có được dữ liệu đưa vào bộ nhận dạng, ảnh đầu vào phải qua các bước cần thiết trong xử lý ảnh, bao gồm có

các giai đoạn như sơ đô mô tả dưới đây:

Trang 8

Biểu diễn Nhận dạng

và mô tả và nội suy

Co sở tri thức

Hình 1.7 Các bước cơ bản trong xử lý ảnh

1.3 Tổng quan một số phương pháp nhận dạng cử chỉ bàn tay

Cử động tay người được chia làm hai loại bao gồm tnh và động Mỗi một loại có các công cụ và phương pháp nhận dạng khác nhau.

1.3.1 Nhận dạng cử chỉ tinh

a Học máy hỗ trợ vector (SVM)

Là kỹ thuật học máy được phát triển và nghiên cứu gần đây (từ năm 1995) SVM được xây dựng cho bài toán phân loại nhị phân, tức là mỗi ví dụ có thể nhận một trong hai nhãn Các vi dụ phải được biểu diễn bằng thuộc tính liên tục, do vậy mỗi vi dụ tương ứng

với một vector trong không gian.

Ưu điểm: SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao so với các phương pháp khác trong hầu hết các ứng dụng bởi SVM thực chất là bài toán quy

hoạch toàn phương trên một tập lỗi, do đó SVM luôn có nghiệm toan cục và duy nhất

Nhược điểm: hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào số lượng thuộc tính, mặt khác giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó các bài toán huấn luyện với số lượng mẫu lớn sẽ gặp trở ngại trong vấn đề lưu trữ.

b Phương pháp k láng giéng gần nhất (K-nearest neighbors)

Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nó được xây dựng băng cách lưu trữ tất cả các đối tượng trong tập huấn luyện.

Ưu điểm: k láng giéng gần nhất là phương pháp dé cài đặt, dễ hiểu Nhược điểm: tốn nhiều thời gian và bộ nhớ.

1.3.2 Nhận dạng cử chỉ động

Phương pháp dé nhận dang cử chỉ động hiện nay thường sử dụng là mô hình markov ân (Hidden Markov Models - HMM)[22].

Trang 9

Mô hình Markov là mô hình thống kê trong đó hệ thong được mô hình hóa được cho là một quá trình Markov với các tham sỐ không biết trước và nhiệm vụ là xác định các tham số ân từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thé sử dụng dé thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu.Trong một mô hình Markov điền hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyền tiếp trạng thái là các tham số duy nhất Các

bài toán thực tế được biểu diễn đưới mối quan hệ nhân quả, nhưng chỉ quan sát được phần

kết quả còn phần nguyên nhân thì an.

Ưu điểm: Sử dụng các mô hình Markov dé khử nhiễu và trích chọn đặc trưng cho kết quả và thời gian thực hiện tốt Phương pháp này phù hợp với khả năng mô hình hóa dữ liệu.

Nhược điểm: phương pháp này chỉ cố gang mô tả tốt nhất cau trúc dir liệu nhưng khó dé phân lớp dữ liệu.

Trang 10

CHƯƠNG 2 - NHẬN DANG CU CHỈ TAY NGƯỜI

Trong chương này, luận văn sẽ tập trung vào nghiên cứu phương pháp và kỹ thuật nhận dạng tư thế bàn tay người (cử chỉ tĩnh) Đối với vấn đề nhận dạng cử chỉ tay người có hai cách tiép cận:

Thứ nhất là cách tiếp cận từ trên xuống, một mô hình bàn tay người được tạo ra dựa

trên các thông tin có được từ một vài đặc trưng trong các trục tọa độ của ảnh đầu vào Sau

đó mô hình này sẽ được sử dụng dé so sánh với hình ảnh khác dé hệ thống nhận dạng đưa ra

quyết dịnh liệu rằng chúng có tương ứng với nhau hay không Thứ hai là cách tiếp cận từ dưới lên, một ảnh đầu vào sẽ được trích chọn đặc trưng và các đặc trưng này được so sánh

với cơ sở dữ liệu đã được huân luyện từ trước.

Đối với cách tiếp cận thứ hai yêu cầu hệ thống nhận dạng phải thực hiện quá trình tiền xử lý tốt để có thé có được kết qua phân đoạn đáng tin cậy, còn với cách tiếp cận thứ nhất, dé có thé có được một hệ thống nhận dạng tốt buộc phải thực hiện các phép toán phức

tạp Hiện nay, cách tiếp cận thứ hai được sử dụng phổ biến, bởi vậy luận văn lựa chọn

hướng tiếp cận này dé nghiên cứu.

Toàn bộ quá trình làm việc của một hệ thống nhận dạng cử chỉ có thể chia ra làm bốn giai đoạn thu nhận hình ảnh bàn tay, tiền xử lý và phân đoạn ảnh, trích chọn đặc trưng và

cuối cùng là nhận dạng như trong Hình 2.1[11] Mỗi một giai đoạn thực hiện một nhiệm vụ,

kết quả của giai đoạn này là đầu vào của giai đoạn kế tiếp Ảnh bàn tay được chụp/thu lại bằng các thiết bi phù hợp; sau đó tiễn hành phân đoạn dé tách biệt bàn tay ra khỏi nền của

ảnh cũng như các phần khác của cơ thé người rồi mới khử nhiễu, dò biên, chuẩn hóa ảnh

cuối cùng đề thu được một mô hình đơn giản nhất như mong muốn, làm dữ liệu đầu vào cho

quá trình trích chọn đặc trưng, làm giảm lượng thông tin nhưng vẫn giữ được các đặc tính

của đối tượng Cuối cùng chúng ta dựa trên các đặc trưng này để tiến hành đối sánh, nhận dạng cử chỉ.

Trang 11

a Phân đoạn ảnh dựa trên màu da

Mau da người có giá trị nam trong một khoảng nhất định do đó nó được sử dụng trong việc dò tim bàn tay người trong ảnh Việc phát hiện màu da gồm hai van đề chính là

việc xác định mô hình màu sử dụng và phương pháp phân loại màu da dựa trên mô hình

mau đã chọn Về hệ mau, có nhiều hệ đã được đề xuất sử dụng như RGB, HSV, YCpCh,

YUV Các hệ màu có khả năng phân biệt tốt giữa sắc độ và mức sáng như HSV, YCgCR thường được sử dụng Trong đó, thường chi sử dụng các kênh màu thể hiện sắc độ dé tăng tính ổn định khi điều kiện chiếu sáng thay đổi Đối với phương pháp phân loại màu da, có nhiều phương pháp đã được đề xuất và thử nghiệm Hai nhánh kỹ thuật chính là phương pháp mô hình theo tham số và phương pháp phi tham số.

Các không gian màu được sử dụng cho mô hình da

e M6 hình màu RGB: là không gian màu có nguồn gốc từ các ứng dụng màn hình CRT, nó là sự kết hợp của 3 tia màu đỏ, xanh da trời và xanh lá cây Là một trong những không gian mà được sử dụng rộng rãi nhất trong lĩnh vực xử lý và lưu trữ đữ liệu ảnh

SỐ Tuy nhiên, RGB không phải là sự lựa chọn tốt đối với sự phân tích màu và các thuật toán nhận dang dựa trên màu da.

e Mô hình màu HSV (Hue, Saturation, Value)

Không gian mau nay còn có tên khác là HSI (intensity), HSL (lightness) nó dựa trên

các đặc tính màu trực quan như màu sắc (tint), bóng (shade) và tông màu (tone); nói cách

khác là sự kết hợp của họ mau, độ thuần khiết, và độ sáng Hệ màu này tương đồng VỚI cảm nhận màu sắc của con người.

Trang 12

Đặc điểm của mô hình này đó là phân biệt được giữa độ chói và sắc độ tuy nhiên giá

trị của H không liên tục và kết quả từ việc tính toán giá trị V không phù hợp với đặc điểm của thị giác máy tính.

e Mô hình màu YC,C,

Là một tín hiệu RGB phi tuyến tính được mã hóa, thông thường được sử dụng trong việc nén ảnh và là chuẩn của các kênh truyền hình Châu Âu Không gian mau này được thé hiện bởi thành phan độ chói Y được tính toán từ RGB phi tuyến;

Việc chuyên đổi giữa hai hệ màu YC,C, và RGB khá đơn giản đồng thời hệ màu này phân biệt rõ ràng giữa sắc độ mà độ chói nên đây là hệ màu tốt khi áp dụng vào mô hình

mau da.

Phuong pháp xây dựng mô hình da

e Phương pháp mô hình phi tham số:

Ý tưởng chính của phương pháp mô hình phi tham số đó là ước tính sự phân bố màu da thông qua tập dữ liệu huấn luyện mà không có mô hình cụ thé nào trước Kết quả của phương pháp này tham chiếu đến một sơ đồ xác suất da (Skin Probability Model SPM)

-an định mot giá trị xác suất tới mỗi một điểm trong không gi-an bat kỳ.

Ưu điểm của phương pháp phi tham số là huấn luyện nhanh va dé sử dụng, không phụ thuộc vào hình dáng của phân bố màu da Nhược điểm của nó là yêu cầu không gian lưu trữ lớn và không có khả năng nội suy hiệu chỉnh các tham số của mô hình hoặc tổng

quát hóa dữ liệu huấn luyện.

e Phương pháp mô hình phân phối màu da tham số

Phương pháp mô hình màu da phi tham số yêu cầu không gian lưu trữ lớn và việc tính toán phụ thuộc vào mô tả của tập ảnh huấn luyện Phương pháp dựa trên tham số tạo ra mô hình màu đa chính xác hơn với khả năng tông quát hóa và nội suy hiệu chỉnh các tham

số của mô hình dữ liệu huấn luyện Tuy nhiên các phương pháp phụ thuộc tham số chỉ có

hiệu quả đối với không gian màu có sắc độ mà lờ đi độ chói.

b Phương pháp phân đoạn ảnh dựa trên ngưỡng

Đây là phương pháp chia ảnh ra làm 2 vùng, nền và đối tượng dựa trên giá trị đặc

biệt gọi là ngưỡng[2] Ngưỡng này là ngưỡng cấp xám sẽ được đưa ra dưa trên các tham biến khác nhau, phụ thuộc vào từng ứng dụng Việc phân đoạn có tốt hay không phụ thuộc nhiều vào việc lựa chọn ngưỡng đủ dé trích lọc ban tay ra khỏi nền Có rất nhiều kỹ thuật

Ngày đăng: 07/04/2024, 12:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w