xây dựng hệ thống tương tác giữa người và máy thông qua nhận dạng cử chỉ bàn tay

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH o0o ĐỒ ÁN TỐT NGHIỆP HỆ ĐẠI HỌC Ngành: Công Nghệ Thông Tin Hệ: Chính Quy Niên khóa: 2005-2010 Đề Tài: XÂY DỰNG HỆ THỐNG TƯƠNG TÁC GIỮA NGƯỜI VÀ MÁY THÔNG QUA NHẬN DẠNG CỬ CHỈ CỦA BÀN TAY Mã Số Đề Tài: 09405170061 Sinh viên thực hiện: Lê Xuân Tiến Mã sinh viên: 405170071 Giáo viên hướng dẫn: ThS. Đào Văn Tuyết Năm 2009 LỜI CẢM ƠN Với thời gian làm đề tài tại Phòng Công Nghệ Tri Thức và Công Nghệ Tính Toán (DFCK) – Viện Cơ Học và Tin Học Ứng Dụng (IAMI), em đã được làm việc trong một môi trường khoa học, nghiêm túc và thân mật. Đầu tiên, em xin chân thành cảm ơn đến Ban lãnh đạo Viện Cơ Học và Tin Học Ứng Dụng, đặc biệt là thầy giáo - Thạc sĩ Đào Văn Tuyết – Trưởng phòng Công Nghệ Tính Toán và Công Nghệ Tri Thức đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực tập và tốt nghiệp tại đây. Em cũng xin gửi lời cảm ơn Khoa Công Nghệ Thông Tin, Học Viện Công Nghệ Bưu Chính Viễn Thông TP.HCM và thầy-Tiến sĩ Trần Công Hùng đã tạo điều kiện cho chúng em hoàn tất đồ án tốt nghiệp trong đợt này. Em xin chân thành cảm ơn các thầy cô của Học Viện Công Nghệ Bưu Chính Viễn Thông TP.HCM đã cung cấp những kiến thức vững chắc giúp chúng em tự tin hơn khi gặp phải những vấn đề mới lạ và khó khăn. Cuối cùng, cho em gửi lời cảm ơn đến gia đình và tất cả những người đã luôn khuyến khích giúp đỡ em trong quá trình thực hiện đề tài thực tập tốt nghiệp này. Sinh viên Lê Xuân Tiến i MỤC LỤC MỤC LỤC i DANH MỤC CÁC HÌNH VẼ ii DANH MỤC CÁC BẢNG v THUẬT NGỮ VIẾT TẮT vi MỞ ĐẦU vii CHƯƠNG 1. TỔNG QUAN 1 1.1 Nhận dạng dáng điệu trong tương tác giữa người-máy 1 1.2 Ứng dụng và những khó khăn 2 1.3 Tổng quan về phương pháp tiếp cận 2 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 7 2.1 Nhận dạng hình dáng tĩnh của bàn tay (hand-posture) 7 2.1.1 Mô hình màu 7 2.1.2 Trừ nền bằng mô hình CodeBook 12 2.1.3 Tìm đường viền (contour) và biến đổi hình thái học 20 2.1.4 Phát hiện vùng da 27 2.1.5 Mô tả hình dạng (Shape Descriptor) 27 2.1.6 Tìm láng giềng gần nhất theo phép tính xấp xỉ (ANN) 35 2.1.7 Dynamic Time Warping 39 2.1.8 Phương pháp nhận dạng Support Vector Machine (SVM) 43 2.2 Nhận dạng dáng điệu của tay (hand-gesture) 58 2.2.1 Tìm kiếm theo tỉ lệ vàng (Golden Section Search) 58 2.2.2 Nhận dạng gesture với DTW và GSS 61 CHƯƠNG 3. THỰC NGHIỆM 64 3.1 Giới thiệu 64 3.2 Công cụ và thiết bị 67 3.2.1 Phần cứng 67 3.2.2 Phần mềm, thư viện và môi trường phát triển 67 3.3 Thiết kế và phát triển 68 3.4 Mục đích và phương pháp 70 3.5 Kết quả thu được 70 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 75 ii DANH MỤC CÁC HÌNH VẼ Hình 1.3-1: Nhận dạng dáng điệu dựa trên Data-glove (trái) và thị giác máy (phải). 2 Hình 1.3-2: Ví dụ hand posture (trái) và hand gesture (phải). 3 Hình 1.3-3: Mô hình tổng quan 3 Hình 1.3-4: Quan sát cảnh nền và phát hiện đối tượng cận cảnh bằng phương pháp trừ nền 4 Hình 1.3-5: Phát hiện vùng da để xác định vị trí bàn tay, sau đó chuẩn hóa vùng bàn tay này. 4 Hình 1.3-6: Các bước xử lý của hệ thống 5 Hình 2.1-1: Mô hình màu RGB 7 Hình 2.1-2: Mô hình màu YUV 9 Hình 2.1-3: Mô hình màu HSV 10 Hình 2.1-4: Ảnh màu thành ảnh xám. 11 Hình 2.1-5: Giá trị vùng lấy mẫu theo thời gian 14 Hình 2.1-6: Vị trí 4 điểm lấy mẫu (a) và sự phân phối giá trị điểm ảnh trong không gian RGB của 4 điểm ảnh (b). 15 Hình 2.1-7: Mô hình màu đề xuất – tách biệt độ biến dạng màu và độ sáng. 16 Hình 2.1-8: Mô hình hóa phát hiện theo lớp. Hình bên trái là ảnh gốc, ở giữa: đối tượng nền tạm thời; bên phải: đối tượng foreground. 18 Hình 2.1-9: Phát hiện sự thay đổi điều kiện ánh sáng toàn cục 19 Hình 2.1-10: Tìm contour bằng cách lần ngược chiều kim đồng hồ. 20 Hình 2.1-11 : Các chuỗi tín hiệu rời rạc từ biểu diễn theo tham số của contour ở trên… 21 Hình 2.1-12: Sự khác nhau giữa internal contour và external contour. 22 Hình 2.1-13: Thuật toán dò viền 22 Hình 2.1-14: Mặt nạ chain-code dùng trong thuật toán tìm viền 23 Hình 2.1-15: Biểu diễn contour bằng 8-connected chain-code 23 iii Hình 2.1-16: Thuật toán tìm viền sử dụng 3 pixel P, C, N tương ứng với pixel trước thuộc contour, pixel hiện tại, và pixel kế tiếp tại mỗi bước. 24 Hình 2.1-17: Trường hợp đặc biệt khi pixel “tiếp theo” chính là pixel “trước” của contour 25 Hình 2.1-18: Các thành tố cấu trúc với nhiều hình dạng và kích thước khác nhau. 26 Hình 2.1-19: Ảnh gốc (a) và Thành tố cấu trúc (SE) (b) 26 Hình 2.1-20: Áp dụng toán tử erosion thông qua SE tại các vị trí khác nhau của ảnh 26 Hình 2.1-21: Kết quả áp dụng toán tử dilation 28 Hình 2.1-22: Hệ thống phân loại của các phương pháp tiếp cận trong rút trích đặc trưng hình dạng. 30 Hình 2.1-23: (a) Shape không có biên bao. (b) (c) 2 shape cùng biên nhưng nội dung bên trong khác nhau. 31 Hình 2.1-24: (a) mẫu (b) mẫu (a) quay đi 90 độ; (c), (d) là phổ Fourier của (a) và (b). 32 Hình 2.1-25: (a), (c), (d) là các ảnh shape gốc trong không gian tọa độ cực. (b) ảnh tọa độ cực của (a) được vẽ trong tọa độ Cartesian. 33 Hình 2.1-26: (a), (b) là ảnh tọa độ cực của hai mẫu trong hình minh họa 6.2 (a), (b); (c), (d) là phổ Fourier của (a) và (b). 36 Hình 2.1-27: Láng giềng xấp xỉ (1 + ϵ) của q 36 Hình 2.1-28: cây k-d và cây bbd. 37 Hình 2.1-29: Cây k-d mẫu 38 Hình 2.1-30: Tìm kiếm xấp xỉ trên cây k-d, với các vùng màu xám không cần xét đến. 39 Hình 2.1-31: Sự khác biệt trong cách khớp các mẫu khi so sánh 2 chuỗi thời gian. 39 Hình 2.1-32: Cách khớp các mẫu của 2 chuỗi thời gian theo DTW. 40 Hình 2.1-33: Ma trận chi phí D với khoảng cách warp path cực tiểu từ D(1,1) đến D(|X|,|Y|). 41 Hình 2.1-34: Thứ tự mà bảng ma trận chi phí được điền vào 42 Hình 2.1-35: Hai constraint Sakoe-Chuba Band (trái) và Itakura Parallelogram (phải) 43 iv Hình 2.1-36: Phân chia tuyến tính một tập mẫu thành 2 lớp 44 Hình 2.1-37: Minh họa tính chất của ||w|| 47 Hình 2.1-38: Không thể phân hoạch tập mẫu trên bằng một siêu phẳng 50 Hình 2-39: Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong không gian lớn hơn 51 Hình 2.1-40 Mặt phẳng [-1,1]x[1,-1] trong R2 thành mặt cong trong R3 53 Hình 2.1-41: Đường cong phân chia tập mẫu và các lỗi. 54 Hình 2.1-42: RBF Gaussian kernel có thể chuyển một mặt bất kỳ thành một siêu phẳng. 55 Hàm 2.1-43: Hàm nhận dạng của SVM 2-vs-rest có giá trị bé nhất, nên mẫu cần nhận dạng là lớp thứ 2. 55 Hình 2.1-44: SVM loại trừ 56 Hình 2.1-45: Sơ đồ loại trừ trong các tình huống 57 Hình 2.1-46: SVM với nhân linear, polynomial và RBF 59 Hình 2.1-47: Quá trình Golden Section Search 61 Hình 2.1-48: Quay góc khởi đầu về góc 0 o 64 Hình 3.1-1: Mô hình liên kết của hệ thống 64 Hình 3.1-2: Cách thực hiện gesture số 0. 64 Hình 3.1-3: Giao diện chương trình Client. 65 Hình 3.1-4: Quá trình nhận dạng posture của server. 66 Hình 3.1-5: Quá trình trừ nền 66 Hình 3.1-6: Thực hiện morphological filtering, và chuẩn hóa mặt nạ tay thu được bằng các phép biến đổi hình học như quay, tịnh tiến, tỉ lệ. 67 Hình 3.3-1: UML Sequence Diagram của chương trình 69 Hình 3.5-1: Ra hiệu “Up”, để chuyển lựa chọn lên mục “Pictures + Videos” 70 Hình 3.5-2: Ra hiệu “Left” để chuyển qua mục Picture Library bên trái Play favorites 73 Hình 3.5-3: Ra hiệu “Pop-up Menu” để mở context menu của mục hiện tại. 73 v DANH MỤC CÁC BẢNG Bảng 1.3-1: Các lớp mẫu posture của bàn tay 22 Bảng 1.3-2: Các lớp mẫu gesture của bàn tay 22 Bảng 2.1-1: Hàm invert(d) 22 Bảng 2.3.1: Các lớp posture và gesture của hệ thống. 62 Bảng 2.2-2: Thư viện và công cụ dùng để phát triển 66 Bảng 3.5-1: Thông tin cấu hình để giả lập sự kiện bàn phím 66 vi THUẬT NGỮ VIẾT TẮT HCI Human-Computer Interaction DTW Dynamic Time Warping ANN Approximate Nearest Neighbor GSS Golden Section Search GFD Generic Fourier Descriptor PFT Polar Fourier Transform SVM Support Vector Machine VC Vapnik-Chervonenkis SRM Structural Risk Minimization KKT Karush-Kunt-Tucker ERM Empirical Risk Minimization vii MỞ ĐẦU Hình ảnh tương lai trong phim Minority Report của Steven Spielberg cho chúng ta thấy, Tom Cruise mở lên một màn hình kỹ thuật số với kích thước bằng bức tường chỉ đơn giản bằng cách giơ tay lên, đôi bàn tay mang găng màu đen và được kết nối mạng không dây. Tựa như một người chỉ huy dàn nhạc, anh ta cử động tay trong không trung để ra hiệu ngắt, chơi tiếp tục, phóng đại và kéo bằng cách lướt tay và xoay cổ tay. Minority Report xảy ra vào năm 2054. Công nghệ cảm ứng không tiếp xúc mà Minority Report cho thấy có thể diễn ra sớm hơn nhiều thập niên bởi lẽ ngành thị giác máy (computer vision) đã đạt được những tiến bộ đáng kể trong những năm gần đây. Từ xa xưa, ngôn ngữ cơ thể (hay dáng điệu, cử chỉ) luôn kèm theo một ý nghĩa nhất định, và đóng một vai trò quan trọng trong quá trình trao đổi thông tin. Cử chỉ tay mang một tình thái bổ sung riêng biệt vào lời nói để bày tỏ những quan điểm. Thông tin kết hợp với cử chỉ tay trong đối thoại ở góc độ nào đó chính là sự kết hợp tổng thể không gian và thời gian. Vì vậy, việc tương tác tự nhiên giữa con người và các thiết bị máy móc có thể đạt được bằng cách sử dụng cử điệu tay trong việc giao tiếp. Cảm ứng không tiếp xúc sẽ chính là một cuộc cách mạng kế tiếp, sau sự thành công của hệ thống tương tác bằng cảm ứng đơn điểm hay đa điểm (multi-touch) hiện nay. Hãy thử tưởng tượng chúng ta điều khiển các thiết bị điện tử trong gia đình mà không cần dùng đến remote hay điều khiển một thiết bị nào đó mà do điều kiện khách quan khó có thể nhấn các phím điều khiển (điều khiển robot thông minh, vừa lái xe vừa chỉnh hệ thống phần mềm-giải trí trong xe,…). Đó quả thực là một viễn cảnh hết sức hấp dẫn và mang lại nhiều trải nghiệm thú vị. Cũng chính vì bị hấp dẫn bởi viễn cảnh đó, đề tài này chính là một sự tìm hiểu các công trình nghiên cứu hiện nay liên quan đến vấn đề trên. Sử dụng những kết quả tìm hiểu được để xây dựng thử nghiệm một hệ thống tương tác giữa người và ứng dụng giải trí đa phương tiện Windows Media Center trên máy thông qua các hình ảnh cử chỉ của một bàn tay thu được từ webcam. Do đây còn là một vấn đề rất mới với chúng em nên trong quá trình thực hiện đề tài không tránh khỏi những điểm chưa hoàn chỉnh, kính mong quý thầy cô và các bạn đóng góp ý kiến để đề tài được hoàn thiện hơn. Em xin chân thành cảm ơn. Báo cáo Đồ án tốt nghiệp Chương 1. Tổng quan 1 Lê Xuân Tiến – Đ05THA1 “If I have seen further than others, it is by standing upon the shoulders of giants.” – Isaac Newton CHƯƠNG 1. TỔNG QUAN 1.1 Nhận dạng dáng điệu trong tương tác giữa người-máy Từ xa xưa, ngôn ngữ cơ thể (hay dáng điệu) luôn kèm theo một ý nghĩa nhất định và đóng một vai trò quan trọng trong quá trình trao đổi thông tin. Ngôn ngữ cơ thể, đặc biệt là ngôn ngữ bàn tay ngày càng được xem là một trong những phương pháp tương tác giữa người với máy (human-computer interaction) rất tự nhiên và trực quan. Phương pháp tương tác với máy dựa trên dáng điệu được ứng dụng lầu đầu tiên vào năm 1963 bởi Ivan Sutherland. Đây là tiền thân của những phương pháp dáng điệu dựa trên nét (stroke-based), sử dụng một bút phát sáng để điều khiển các đối tượng trên màn hình. Phương pháp này đã khơi nguồn cho những phương pháp nhập liệu ký tự trên các thiết bị di động, PDA và các thiết bị tương tác thông qua bút (pen-based) ngày nay. Kể từ đó, tương tác bằng cử chỉ ngày càng nhận được nhiều sự quan tâm của các nhà nghiên cứu. Wexelblat (1995), Quek (1994), Sturman cùng cộng sự của ông sử dụng một găng tay có các bộ cảm biến về vị trí và chuyển động để phát triển các chương trình tương tác thực tại ảo (virtual reality), cho phép điều khiển các đối tượng số bằng các chuyển động tự nhiên của đôi tay. Giữa những năm 1980, thị giác máy (computer vision) ngày càng được chú ý trong ngành khoa học máy tính, tuy nhiên mãi đến năm 1995, Freeman và Weissman (1995) mới lần đầu tiên công bố hệ thống điều khiển âm lượng và kênh trong tivi dựa trên thị giác máy (vision-based). Ở nước ta, lĩnh vực nghiên cứu về tương tác người - máy đã bắt đầu nhận được những sự quan tâm nhất định trong thời gian gần đây như việc thành lập phòng thí nghiệm “Tương tác người-máy” của Đại học Công Nghệ Hà Nội vào tháng 6/2008. Mặc dù công trình nghiên cứu ở trên đã vạch ra một hướng mới về cách con người tương tác với máy mà không phải dùng thiết bị điều khiển. Chúng ta sử dụng chính ngôn ngữ cơ thể rất trực quan và gần gũi để tương tác với môi trường xung quanh. Tuy vậy, ngày nay tương tác không chạm dựa trên thị giác máy vẫn còn nhiều khó khăn trong việc áp dụng vào môi trường thực tế. Vì thế, nó vẫn đang là một chủ đề đầy thú vị, thử thách nhiều nhà nghiên cứu. [...]... tay (Data-Glove based) và “dựa trên thị giác máy (Vision-Based) Trong mỗi phương pháp tiếp cận lại có hai vấn đề con đó là: Nhận dạng dáng điệu bàn tay tĩnh - tức hình dạng của tay (posture) và nhận dạng chuyển động của bàn tay (dynamic hand gestures) Hình 1.3-1: Nhận dạng dáng điệu dựa trên Data-glove (trái) và thị giác máy (phải) 2 Lê Xuân Tiến – Đ05THA1 Báo cáo Đồ án tốt nghiệp Chương 1 Tổng quan... trình tự xử lý của hệ thống: Mục 2.2 trình bày về các phương pháp dùng để phát hiện và nhận dạng hình dáng tĩnh của bàn tay như: trừ nền, phát hiện vùng da, tách viền, fourier descriptor, tìm k láng giềng gần nhất, DTW, SVM Mục 2.3 trình bày các phương pháp nhận dạng dáng điệu cử động của bàn tay như GSS và DTW Chương 3 là phần thực nghiệm, tập trung vào việc thiết kế và phát triển hệ thống này, giới... của bàn tay 9 10 11 Kết thúc các bước trên, chương trình đã có thể nhận dạng được hình dáng tĩnh của bàn tay (posture) Trong quá trình nhận dạng posture, ta lưu lại tọa độ của bàn tay, tập hợp các tọa độ này theo thời gian chính là một chuyển động của bàn tay (gesture) Tập tọa độ theo thời gian trên sẽ được chuyển vào thủ tục nhận dạng hình dáng chuyển động Ở đây, ta dùng phương pháp One Dollar và khoảng... có một tương lai rất hứa hẹn nhưng việc xây dựng các hệ thống tương tác ngườimáy dựa trên dáng điệu cơ thể vẫn còn rất nhiều khó khăn thực tế, đặc biệt là các hệ thống dựa trên thị giác máy (computer-vision based) Bởi môi trường của người điều khiển là động và phức tạp, bị chi phối bởi nhiều yếu tố như điều kiện ánh sáng, phông nền… Vì vậy việc tách đối tượng quan tâm ra khỏi cảnh nền hay còn gọi là... tốt nghiệp Chương 1 Tổng quan Công việc tiếp theo đó là phát hiện bàn tay trong vùng đối tượng cận cảnh, vì bàn tay sẽ gắn liền với phần cánh tay nên việc tách bàn tay ra khỏi vùng cánh tay là một điều không dễ mà hiện nay vẫn chưa có một thuật toán nào giải quyết được hiệu quả Do đó, ta giới hạn độ phức tạp của đề tài thông qua việc giả sử người đó mặc áo dài tay, lúc này chỉ cần dùng thủ tục phát... Chương 1 Tổng quan Ứng dụng và những khó khăn Nhận dạng ngôn ngữ cơ thể có thể được ứng dụng trong nhiều lĩnh vực như: thực tại ảo, điều khiển robot, tay cơ khí tự động, ngôn ngữ tay của người khiếm thị, điều khiển các thiết bị điện tử trong gia đình, các hệ thống giải trí và âm nhạc, Nó mang đến cho chúng ta những phương pháp mới trong việc tương tác với thế giới xung quanh Tuy có một tương lai rất... tổng quan Ảnh đầu vào thu được từ webcam sẽ được xử lý bằng các thuật toán xử lý ảnh, sau đó tiến hành rút trích đặc trưng (feature extraction) để nhận dạng posture và gesture dựa vào các dữ liệu là các mẫu đã được huấn luyện Như vậy giả sử rằng ảnh đầu vào chỉ có duy nhất một bàn tay ở một thời điểm, đầu tiên ta sẽ phải phát hiện xem bàn tay nằm ở vị trí nào trong bức ảnh Vì ảnh bàn tay sẽ chồng lấp... (trái) và hand gesture (phải) Tiếp cận dùng “data-glove” mặc nhiên phải có găng tay cảm biến mắc tiền và cũng làm mất đi phần nào ý nghĩa của việc điều khiển thông qua dáng điệu của tay, đó là dùng ngôn ngữ bàn tay để tương tác mà không cần phải sử dụng một thiết bị trợ giúp nào gắn kèm Vì vậy đề tài này tiếp cận theo hướng dựa trên thị giác máy với mô hình tổng quan như sau: Hình 1.3-3: Mô hình tổng quan... của tác giả Mathias Kölsch [7] có gần 262000 mẫu, mang lại hiệu suất và độ chính xác tốt hơn 2.1.5 Mô tả hình dạng (Shape Descriptor) Mô tả hình dạng là một tập các số được sinh ra nhằm miêu tả các đặc trưng hình dạng (shape feature) Rút trích đặc trưng hình dạng (shape feature extraction) và biểu diễn chúng đóng một vai trò quan trọng trong việc truy xuất hình dạng, nhận dạng và phân loại, xấp xỉ và. .. cách chính xác hơn hoặc nhận diện vùng da (skin detection), nhận dạng hình dáng của bàn tay, … vẫn còn là một thách thức đối với nhiều nhà nghiên cứu 1.3 Tổng quan về phương pháp tiếp cận Vấn đề chính trong việc tương tác thông qua dáng điệu đó là làm sao cho máy có thể “hiểu” được các ngôn ngữ cơ thể này Những cách tiếp cận cho bài toán trên thường được chia làm hai loại: “dựa vào dữ liệu thu được từ . Chính Quy Niên khóa: 2005-2010 Đề Tài: XÂY DỰNG HỆ THỐNG TƯƠNG TÁC GIỮA NGƯỜI VÀ MÁY THÔNG QUA NHẬN DẠNG CỬ CHỈ CỦA BÀN TAY Mã Số Đề Tài: 09405170061 Sinh viên thực hiện: Lê Xuân. liên quan đến vấn đề trên. Sử dụng những kết quả tìm hiểu được để xây dựng thử nghiệm một hệ thống tương tác giữa người và ứng dụng giải trí đa phương tiện Windows Media Center trên máy thông qua. giới xung quanh. Tuy có một tương lai rất hứa hẹn nhưng việc xây dựng các hệ thống tương tác người- máy dựa trên dáng điệu cơ thể vẫn còn rất nhiều khó khăn thực tế, đặc biệt là các hệ thống dựa

Định dạng
Số trang	84
Dung lượng	2,24 MB