Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
5,71 MB
Nội dung
1 LỜI CẢM ƠN Em xin chân thành cảm ơn Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện cho em thực luận văn Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Phạm Đức Long, trưởng khoa Tự động hóa – Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên trực tiếp hướng dẫn em suốt trình thực luận văn Em xin gửi lời cảm ơn tới thầy, cô, có ý kiến đóng góp bổ ích tạo điều kiện tốt cho em suốt thời gian thực tập thực luận văn Xin cảm ơn bạn học đồng khóa thường xuyên động viên, giúp đỡ trình học tập Cuối cùng, em xin gửi lời cảm ơn đến gia đình bạn bè tình cảm, ủng hộ động viên dành cho em suốt trình học tập thực luận văn Thái Nguyên, tháng 09 năm 2015 Học viên Lê Mạnh Linh LỜI CAM ĐOAN Em xin cam đoan nội dung đồ án tốt nghiệp với tên đề tài “Nhận dạng cử bàn tay ứng dụng điều khiển thiết bị điện gia dụng” không chép nội dung từ luận văn khác, hay sản phẩm tương tự mà em làm Sản phẩm luận văn thân em nghiên cứu xây dựng nên Nếu có sai em xin chịu hình thức kỷ luật Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên Thái Nguyên, tháng 09 năm 2015 Học viên Lê Mạnh Linh MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ 1.1 Khái niệm nhận dạng cử 1.2 Phân loại cử chỉ: 1.3 Mô hình toán nhận dạng cử chỉ: 1.4 Một số đặc trưng sử dụng biểu diễn cử bàn tay: 11 1.4.1 Đặc trưng thành phần PCA: 11 1.4.2 Đặc trưng HOG 13 1.4.3 Đặc trưng SIFT 13 1.4.4 Đặc trưng Haar like 17 CHƯƠNG II: CÁC KỸ THUẬT NHẬN DẠNG CỬ CHỈ BÀN TAY TRONG VIDEO 21 2.1 Kỹ thuật sử dụng mạng nơron 21 2.2 Kỹ thuật SVM (Suport Vector Machine) 23 2.3 Kỹ thuật sử dụng Boosting mô hình Cascade 29 2.3.1 Tiếp cận Boosting 29 2.3.2 AdaBoost 30 2.3.3 Thuật toán AdaBoost mô hình Cascade sử dụng Boosting cho nhận dạng cử chỉ: 33 2.3.4 Mô hình Cascade 37 CHƯƠNG III: NHẬN DẠNG CỬ CHỈ BÀN TAY ỨNG DỤNG TRONG ĐIỀU KHIỂN THIẾT BỊ ĐIỆN GIA DỤNG 46 3.1 Bài toán nhận dạng cử bàn tay ứng dụng điều khiển thiết bị điện gia dụng: 46 Một số tập cử tay tồn 52 Tập cử đề xuất: 55 Xây dựng sở liệu thử nghiệm 57 Xây dựng tập ảnh positive 58 Xây dựng tập liệu ảnh negative 61 Xây dựng tập liệu ảnh thử nghiệm 61 Xây dựng chương trình ứng dụng 62 3.2 Cài đặt hệ thống điều khiển thiết bị điện gia dụng cử bàn tay thông qua camera kỹ thuật số 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 65 TÀI LIỆU THAM KHẢO 67 DANH MỤC CÁC HÌNH VẼ Hình 1 - Sơ đồ tổng quát toán nhận dạng cử Hình - 10 vector đặc trưng có ý nghĩa vector không mang thông tin 12 Hình - Ảnh sau tính gradient chia thành cell 13 Hình - Đặc trưng SIFT biểu diễn điểm đặc biệt ảnh 14 Hình - Xác định điểm cực trị không gian tỉ lệ 15 Hình 6a,b,c - Các đặc trưng đường 18 Hình Đặc trưng Haar cho bàn tay 19 Hình - Cách tính tổng điểm ảnh hình chữ nhật 19 Hình - Mô hình mạng nơron theo Rowley 22 Hình 2 - Ánh xạ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia liệu siêu phẳng 24 Hình - Siêu phẳng tách với khoảng cách lề cực đại 25 Hình - Support Vectors 28 Hình - Minh họa Support Vectors 28 Hình - Minh họa Boosting 30 Hình - Minh họa thuật toán AdaBoost 31 Hình - Bộ phân loại mạnh H(x) xây dựng AdaBoost 32 Hình - Bộ phân lớp CBC 33 Hình 10 - Cách chọn phân loại yếu AdaBoost 35 Hình 11 - Các ngưỡng θ 36 Hình 12 - Mô hình Cascade 37 Hình 13 - Các vùng không liên quan bị loại từ tầng 44 Hình 14 - Khắc phục trường hợp nhiều vùng ảnh kế cận cách lấy vùng ảnh trung bình 44 Hình 15 - Vùng ảnh lồng 45 Hình - Sơ đồ khối hệ thống 46 Hình - Khối nhận dạng cử 47 Hình 3 - Sơ đồ nguyên lý hoạt động khối điều khiển thiết bị 48 Hình - Sơ đồ thiết kế phần nhận tín hiệu điều khiển từ cổng COM máy tính phát sóng RF 49 Hình - Sơ đồ thiết kế thu tín hiệu điều khiển thiết bị 50 Hình - Quy trình thiết kế cử 51 Hình - Ảnh chụp webcam cho cử 58 Hình - Ảnh chụp cử “Sang trái” 59 Hình - Tiêu điểm cử “Sang trái” 59 Hình 10 - Vùng ảnh hình chữ nhật chứa cử “sang trái” 60 Hình 11 - Các mẫu cử “sang trái” sau cắt 60 DANH MỤC CÁC BẢNG BIỂU Bảng - Một số tập sở liệu cử tồn : 52 Bảng - Ưu nhược điểm số tập cử tồn : 53 Bảng 3 - Tập cử đề xuất: 56 Bảng - Tập sở liệu ảnh positive: 61 Bảng - Tâp sở liệu ảnh thử nghiệm: 62 CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ Nhận dạng ngành thuộc lĩnh vực học máy có lịch sử lâu, thập kỷ 60 kỷ XX, hầu hết vấn đề nhận dạng dừng lại việc nghiên cứu lí thuyết thống kê Về sau với phát triển mạnh mẽ máy tính phần thực nghiệm trở nên đơn giản Trong bối cảnh xã hội phát triển từ thời kỳ công nghiệp sang hậu công nghiệp, vấn đề tự động hóa việc thông tin nhận xử lý cách tự động cần thiết Khuynh hướng làm cho vấn đề nhận dạng mẫu trở nên quan trọng ứng dụng kỹ thuật nghiên cứu ngày Nhận dạng mẫu tích hợp hầu hết vào hệ thống máy móc thông minh, có khả tự đưa định để giải vấn đề Nhận dạng nhằm mục đích phân loại liệu dựa thông tin thống kê trích rút từ mẫu có sẵn Các mẫu cần phân loại thường biểu diễn thành nhóm liệu đo đạc hay quan sát được, nhóm điểm không gian đa chiều phù hợp Không gian đa chiều không gian đặc tính để dựa vào ta phân loại Một hệ thống nhận dạng hoàn thiện gồm thiết bị cảm nhận (sensor) để thu thập quan sát cần cho việc phân loại hay miêu tả; chế trích rút đặc trưng (feature extraction) để tính toán thông tin dạng số hay dạng tượng trưng (symbolic) từ liệu quan sát được; phân loại nhằm thực công việc phân loại dựa vào đặc tính trích rút Việc phân loại thường dựa vào có sẵn tập mẫu mà phân loại sẵn Tập mẫu gọi tập huấn luyện chiến lược học nhằm phân loại mẫu vào lớp có sẵn gọi học có giám sát Việc học giám sát, theo nghĩa hệ thống không cung cấp mẫu đánh nhãn (phân loại) trước, mà phải tự đưa lớp để phân loại dựa vào tính ổn định thống kê mẫu Việc phân loại thường dùng hai hướng tiếp cận sau thống kê (hay gọi lí thuyết định) cú pháp Nhận dạng mẫu dùng thống kê dựa vào đặc tính thống kê mẫu, chẳng hạn mẫu tạo hệ thống xác suất Nhận dạng dùng cấu trúc dựa vào tương quan cấu trúc mẫu Các ứng dụng phổ biến nhận dạng tiếng nói tự động, phân loại văn thành nhiều loại khác (ví dụ : thư điện tử thư rác thư rác), nhận dạng tự động mã bưu điện viết tay bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người v.v Trong khuôn khổ luận văn này, lý thuyết nhận dạng áp dụng vào việc nhận dạng cử video ứng dụng điều khiển thiết bị điện gia dụng 1.1 Khái niệm nhận dạng cử Cử tất cử động thể nhằm - Thể hiện, truyền đạt thông tin - Tương tác với môi trường Cử phương thức giao tiếp hữu hiệu người - người Ngay giao tiếp qua giọng nói, người ta sử dụng cử để tăng khả truyền thụ Trong tương tác người - máy, cách thức hiệu mà máy thực yêu cầu người đưa đáp ứng với môi trường xung quanh nhận cử người 1.2 Phân loại cử chỉ: Cử chia thành hai loai : cử tĩnh cử động Một cử tĩnh mô tả hình trạng thể phận thể Một cử động chuỗi hình trạng liên quỹ đạo định Dựa vào phận thể, người ta phân lớp cử sau : Cử tay cánh tay : Trợ giúp nói tay, ứng dụng giải trí (trò chơi tương tác), điều khiển máy móc thông qua cử Cử đầu gương mặt : Hướng nghiêng đầu, hướng nhìn mắt, hướng lông mày, độ mở miệng sử dụng toán nhận dạng cảm xúc người (ứng dụng hệ thống giao tiếp thông minh) Cử thể : Theo dõi toàn chuyển động người, phân tích chuyển động người nhảy để sinh nhạc chiếu sáng tương ứng, nhận dạng phân tích dáng huấn luyện điền kinh, v.v Như vậy, cử người phong phú đa dạng Có nhiều cách thức để thể cử chỉ, cử truyền đạt nhiều thông tin khác nhau, đưa đáp ứng khác với môi trường 1.3 Mô hình toán nhận dạng cử chỉ: Hình 1 - Sơ đồ tổng quát toán nhận dạng cử Bài toán nhận dạng cử chia làm giai đoạn sau: 10 Giai đoạn xây dựng mô hình huấn luyện Giai đoạn thực việc xây dựng nhận dạng cho cử Dữ liệu lấy từ liệu huấn luyện, qua trình tiền xử lý sau trích chọn đặc trưng Các đặc trưng trích chọn làm đầu vào cho thuật toán phân lớp Kết trả giai đoạn tập tin mô hình huấn luyện để phục vụ cho trình nhận dạng Thu nhận tín hiệu, tiền xử lý Nếu hệ nhận dạng đối tượng vật lý, đầu vào hệ thống thường loại thiết bị chuyển đổi máy ghi hình hay ghi âm… Thiết bị thu nhận tín hiệu đối tượng để nhận dạng Các tín hiệu thông thường số hóa, sau tiến hành tiền xử lý : lọc nhiễu, tách ngưỡng… Trích chọn đặc trưng Các đặc điểm đối tượng trích chọn tuỳ theo mục đích nhận dạng trình xử lý ảnh Có thể nêu số đặc điểm ảnh sau đây: Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn v.v Đặc điểm biến đổi: Các đặc điểm loại trích chọn việc thực lọc vùng (zonal filtering) Các vùng gọi “mặt nạ đặc 10 điểm” (feature mask) thường khe hẹp với hình dạng khác (chữ nhật, tam giác, cung tròn v.v ) Đặc điểm biên đường biên: Đặc trưng cho đường biên đối tượng hữu ích việc trích trọn thuộc tính bất biến dùng nhận dạng đối tượng Các đặc điểm trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v Việc trích chọn hiệu đặc điểm giúp cho việc nhận dạng đối tượng ảnh xác, với tốc độ tính toán cao dung lượng nhớ lưu trữ giảm xuống [1] 54 đơn giản (nền đen trắng) dùng làm tập học Các ảnh chụp phức tạp dùng làm tập thử Sự thu nhận ảnh tay phông phức tạp cho phép thử nghiệm tính hiệu thuật toán nhận dạng điều kiện thu nhận khác kích thước, hướng quay, v.v so với ảnh mẫu Vì không thử nghiệm hiệu bất biến thuật toán góc quay (rotation), thay đổi thang đo (scale change) điều kiện ánh sáng khác (illumination change) tác giả Jochen Triesch and Christoph von der Malsburg [Triesch96] (5) - Một tập đầy đủ cử - Ảnh đen trắng, không cho Mục đích CSDL tương ứng với bảng phép sử dụng giải thuật dùng để nhận dạng Thomas dựa tính chất màu sắc cử ứng dụng Moeslund chữ giao tiếp tay [Birk97] - Có thể tải để thử nghiệm (6) Holte - Kịch thu nhận - Các tập cử thu nhận PETs2003 mô tả chi tiết, tương đối đơn giản rõ ràng - Trong mặt phẳng - Ảnh mầu, có giá trị - Góc quay, ánh sáng, thay giải thuật sử đổi kích thước dụng màu - Tập cử tương đối đa dạng (7) Letessier - Ảnh mầu, có thông - Chỉ sử dụng để thử nghiệm PETs2004 tin grountruth loại cử "Pointing" - Sử dụng toán nhận dạng cử "Pointing" (8) - Ảnh đen trắng Nguyễn et - Phông phức tạp al - Dữ liệu không mở (9) Axenbeck et al - Dữ liệu không mở, không Tương tác người Robot [Axenbeck08] tải để thử nghiệm - Cử động - Không có mô tả CSDL Sử dụng để nhận dạng cử ngôn ngư (ASL) [Nguyen05] 55 Qua bảng tổng kết, ta có số nhận xét sau : Một CSDL xây dựng thường để thử nghiệm loại thuật toán ứng dụng cụ thể Mỗi CSDL không thỏa mãn tất tính chất sau : - Ảnh ảnh màu để sử dụng thuật toán dựa việc phát màu da, giảm thời gian tính toán tất vùng ảnh - Nền ảnh bàn tay thường đơn giản (nền đen trắng phân bố màu đồng đều) - Thông thường điều kiện thu nhận ảnh có thay đổi ánh sáng, nhiên góc quay khoảng cách chụp không thay đổi (camera tĩnh) Vì việc học hình trạng với tập mẫu học không bao quát hết khả xảy thực tế, nhận dạng tốt điều kiện chụp ảnh thay đổi - Tập cử tương đối đơn giản : đại đa số cử sử dụng giao tiếp tay thao tác đối tượng Vì khó áp dụng cách trực tiếp vào toán điều khiển robot điểu khiển máy tính Ứng dụng toán cụ thể, tập cử phải định nghĩa riêng biệt Để học thử nghiệm thuật toán nhận dạng, sử dụng số CSDL tồn Tuy nhiên để gắn với ứng dụng cụ thể đề tài thiết phải định nghĩa tập cử riêng biệt xây dựng CSDL cử Tập cử đề xuất: Để xây dựng tập cử tay sử dụng nhiều ứng dụng tương tác khác nhau, cần phải xác định xem cử thường sử dụng nhiều tương tác người - máy Tập cử sau tác giả Đồng Văn Thái đề xuất đề tài nghiên cứu nhận dạng cử bàn tay Do thời gian không nhiều để xây dựng đủ tập cử đề xuất nên khuôn khổ đề tài tác giả xây dựng tập liệu cử Cụ thể cử “Bắt đầu”, “Dừng lại”, “Sang trái”, “Sang phải” cử “Lên trên” 56 Bảng 3 - Tập cử đề xuất: [2] Tên cử Ảnh minh họa Mô tả “Bắt đầu” Cử “bắt đầu” thực người sử dụng muốn bắt đầu cho công việc đấy: bật điện, bật điều hòa… “Kết thúc” Cử “kết thúc” thực người sử dụng muốn thiết bị dừng thực thi: tắt điện, tắt điều hòa… “Đồng ý” Cử “đồng ý” thực đồng ý việc xác nhận kết nốt thiết bị “yes” hay “ok” “Dừng lại” Cử “Dừng lại” thực muốn tạm dừng thiết bi, tạm dừng quay đổi hướng quạt… “Sang trái” Cử “sang trái” sử dụng với chức tương ứng đổi hướng quạt sang trái “Sang phải” Cử “sang phải” sử dụng với chức tương ứng đổi hướng quạt sang phải “Lên trên” Cử “lên trên” sử dụng với chức tương ứng mở cửa lên trên… 57 “Xuống dưới” Cử “xuống dưới” sử dụng với chức tương ứng đóng cửa xuống… Xây dựng sở liệu thử nghiệm Cơ sở liệu huấn luyện gồm hai phần chính: liệu huấn luyện liệu thử nghiệm Dữ liệu huấn luyện : Là liệu dùng cho việc học hệ nhận dạng Trong trình huấn luyện, nhận dạng học từ liệu thông qua đặc trưng để nhận đối tượng cần nhận dạng Dữ liệu huấn luyện gồm tập : o Các ảnh chứa đối tượng cần nhận dạng (positive samples) o Các ảnh không chứa đối tượng cần nhận dạng (negative samples) Trong trình học, nhận dạng cố gắng tìm đặc trưng mẫu positive mà mẫu negative không có, từ rút đặc trưng đối tượng cần nhận dạng Khi đưa mẫu vào nhận dạng, nhận dạng áp đặc trưng lên mẫu, thỏa mãn mẫu đối tượng cần nhận dạng, ngược lại Trong hệ thống nhận dạng, số lượng ảnh positive lớn chuẩn hóa tốt mô hình nhận dạng thu cho kết nhận dạng xác Tức chất lượng số lượng tập liệu huấn luyện có ảnh hưởng trực tiếp đến kết nhận dạng Qua thực nghiệm cho thấy, sở liệu huấn luyện lớn mẫu đối tượng đa dạng góc quay, điều kiện chiếu sáng đối tượng thu thập từ nhiều chủ thể khác huấn luyện ta thu mô hình nhận dạng mang tính tổng quát cao Khi tiến hành nhận dạng, mô hình nhận dạng đủ tính tổng quát hệ thống nhận dạng cho kết tốt với tập đối tượng đa dạng 58 Dữ liệu thử nghiệm : Là liệu dùng cho việc kiểm tra tỉ lệ nhận dạng hệ nhận dạng Tập liệu phải không trùng với tập liệu huấn luyện Tỉ lệ nhận dạng mẫu tập thử nghiệm nói lên tính hiệu hệ nhận dạng, liệu không tham gia trình huấn luyện hệ nhận dạng, hệ nhận dạng nhận dạng chứng tỏ đặc trưng mà trích rút thật đặc trưng đối tượng Xây dựng tập ảnh positive Hệ thống cần xây dựng để nhận dạng cử nên sở liệu huấn luyện phải gồm tập ảnh positive tương ứng với cử định nghĩa Với cử chỉ, chụp 1000 ảnh người khác webcam với độ phân giải 640x480 pixel nhiều điều kiện ánh sáng phông khác nhau: ánh sáng đèn neon, ánh sáng tự nhiên vào thời điểm khác v.v… sau loại trừ mẫu không đạt chất lượng để lại 1000 mẫu Hình - Ảnh chụp webcam cho cử Sau ảnh chụp cắt tiện ích ImageCliper xây dựng C++ cho mẫu bàn tay nằm hình chữ nhật dựa tiêu điểm cử để đảm bảo tiêu điểm giúp phân biệt cử với cử lại Các mẫu bàn tay loại cử chuẩn hóa kích thước Ví dụ với cử “Sang trái” ta làm sau : 59 Hình - Ảnh chụp cử “Sang trái” Chú ý rằng, chỗ ngón gập vào bàn tay tiêu điểm Chúng ta phân biệt cử ”sang trái” so với cử lại nhờ vào vị trí Do tiến hành chọn vị trí làm vị trí chuẩn để cắt ảnh Hình - Tiêu điểm cử “Sang trái” Khi xác định tiêu điểm, cắt vùng ảnh bàn tay cho bàn tay nằm hình chữ nhật, làm tương tự với ảnh mẫu khác cho vị trí tiêu 60 điểm hình cử phải có vị trí tương đối giống hình chữ nhật cần cắt Hình 10 - Vùng ảnh hình chữ nhật chứa cử “sang trái” Hình 11 - Các mẫu cử “sang trái” sau cắt Tiếp đến, tất mẫu cắt tính tỉ lệ chiều rộng chiều cao trung bình tất mẫu, sau chuẩn hóa tất mẫu theo tỉ lệ trung bình Cuối cùng, chuyển tất mẫu kích thước để tiến hành huấn luyện Bảng sau mô tả chi tiết tập cử xây dựng 61 Bảng - Tập sở liệu ảnh positive: Tên cử Số lượng Điều kiện chiếu sáng Phông Kích thước Đồng ý 1000 đa dạng phức tạp 24x32 Kết thúc 1000 đa dạng phức tạp 18x36 Bắt đầu 1000 đa dạng phức tạp 24x24 Dừng lại 1000 đa dạng phức tạp 24x32 Sang phải 1000 đa dạng phức tạp 32x24 Sang trái 1000 đa dạng phức tạp 32x24 Lên 1000 đa dạng phức tạp 26x32 Xuống 1000 đa dạng phức tạp 24x32 Xây dựng tập liệu ảnh negative Với cử ta phải xây dựng liệu negative khác nhau, liệu gồm 1.500 ảnh đa mức xám kích thước 640x480 định dạng JPG Trong 1.000 ảnh lấy từ tập liệu ảnh negative tải từ địa sau: http://tutorial-haartraining.googlecode.com/svn/trunk/data/negatives/ Đây tập sở liệu negative với 3024 ảnh đa mức xám định dạng JPG với kích thước 640x480 nhà nghiên cứu sử dụng để huấn luyện cho hệ thống nhận dạng mặt người Còn lại 500 ảnh ảnh chụp cử lại người khác Các ảnh ảnh đa mức xám định dạng JPG kích thước 640x480 Qua thực nghiệm cho thấy tập negative chứa thêm ảnh cử lại làm giảm tỉ lệ nhận dạng nhầm sang cử khác Xây dựng tập liệu ảnh thử nghiệm Cơ sở liệu thử nghiệm cho cử tướng ứng có tập ảnh, tập dùng thử nghiệm cho cử Các tập ảnh thực theo quy trình nhau: chụp webcam độ phân giải 640x480 từ người, người 100 ảnh cho cử 62 điều kiện chiếu sáng khác phông phức tạp, tập liệu thử nghiệm mô tả bảng sau : Bảng - Tâp sở liệu ảnh thử nghiệm: Tên cử Số lượng Điều kiện chiếu sáng Phông Kích thước Bắt đầu 500 đa dạng phức tạp 640x480 Kết thúc 500 đa dạng phức tạp 640x480 Đồng ý 500 đa dạng phức tạp 640x480 Dừng lại 500 đa dạng phức tạp 640x480 Sang phải 500 đa dạng phức tạp 640x480 Sang trái 500 đa dạng phức tạp 640x480 Lên 500 đa dạng phức tạp 640x480 Xuống 500 đa dạng phức tạp 640x480 Xây dựng chương trình ứng dụng Thư viện OpenCV có xây dựng module huấn luyện sử dụng mô hình Casecade Module tác giả sử dụng để huấn luyện tập cử Trước tiến hành huấn luyện, cần phải chuẩn bị tập ảnh đối tượng (ảnh positive) tập ảnh đối tượng (ảnh negative) để làm đầu vào cho chương trình huấn luyện Ảnh gốc ban đầu chụp cần qua trình chỉnh sửa, cắt xén cho phù hợp với đối tượng cần huấn luyện nhằm mục đích giúp cho việc huấn luyện thuận lợi, dễ dàng, nhanh xác Có số tham số quan trọng cần truyền vào cho chương trình huấn luyện trước tiến hành : int npos : Số ảnh Positive int nneg : Số ảnh Negative int nstages : Số tầng huấn luyện int mem : Dung lượng nhớ sử dụng (MB) int nsplits : Số đặc trưng đường chéo 63 float minhitrate : Tỉ lệ nhận dạng thấp chấp nhận float maxfalsealarm : Tỉ lệ nhận dạng sai cao chấp nhận int mode : Chế độ huấn luyện (Số đặc trưng Haar sử dụng tùy vào giá trị mode, mode = tất đặc trưng Haar sử dụng) int width : Chiều rộng mẫu Positive int height : Chiều cao mẫu Positive Thủ tục cvCreateTreeCascadeClassifier gọi để bắt đầu trình huấn luyện, thủ tục thủ tục xây dựng phân loại Cascade Việc tìm hiểu hoạt động training diễn module HaarTraining OpenCV tương đối phức tạp code viết tổng quát Do thời gian có hạn nên tác giả tìm hiểu số phần module Một phần quan trọng thiếu module tính toán đặc trưng Haar Các đặc trưng Haar ảnh đối tượng tính toán vòng lặp For lồng (4 vòng lặp “quét” hết toàn ảnh) Các đặc trưng Haar tính toán hàm cvHaarFeature trả cấu trúc đặc trưng Haar, lưu lại thủ tục CV_WRITE_SEQ_ELEM Giá trị đặc trưng Haar tính đề xuất Viola Jones Đầu trình Training liệu huấn luyện (data training) Kết qủa cuối lưu file xml 3.2 Cài đặt hệ thống điều khiển thiết bị điện gia dụng cử bàn tay thông qua camera kỹ thuật số Hệ thống xây dựng với mục đích điều khiển thiết bị điện gia dụng thông qua nhận dạng cử bàn tay camera kỹ thuật số Do để cài đặt hệ thống ta cần phải chuẩn bị: 64 - Camera kỹ thuật số - Máy vi tính cài hệ điều hành Windows XP trở lên - Hệ thống phần cứng ghép nối ngoại vi Các bước thực hiện: - Đặt camera vị trí thích hợp thuận tiện cho việc điều khiển thiết bị - Kết nối camera với máy tính Ngày camera đại kết nối qua sóng wifi thuận tiện cho việc triển khai cài đặt - Ghép nối thiết bị điện với máy tính thông qua hệ thống phần cứng ghép nối thiết bị ngoại vi cổng giao tiếp qua USB, LPT, COM, bluetooth hay wifi v.v… - Cài đặt chương trình điều khiển máy tính - Thiết lập giao tiếp phần cứng tương ứng với lệnh điều khiển Phần tùy vào thực tế sử dụng mà có thiết lập khác tương ứng với tín hiệu điều khiển gửi đến thiết bị ngoại vi 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Những kết đạt : Trong trình thực đồ án, tác giả đạt kết sau : - Tìm hiểu vấn đề lý thuyết nhận dạng, từ xác định đuợc hai vấn đề quan trọng cần nghiên cứu để áp dụng vào toán nhận dạng cử biểu diễn cử bàn tay thuật toán học phân lớp - Hiểu sử dụng tập sở liệu nhận dạng có sẵn để viết ứng dụng sử dụng chúng điều khiển số chương trình máy tính, thiết bị điện gia dụng - Tự xây dựng sở liệu sử dụng huấn luyện Haar Training thư viện OpenCV - Tìm hiểu số bước trình training thư viện OpenCV - Xây dựng hệ thống thử nghiệm liên kết phần mềm máy tính thiết bị ngoại vi phục vụ cho điều khiển thiết bị dân dụng Huớng phát triển : Trong phần thực nghiệm tính thích nghi cho thấy hệ thống hoạt động chưa tốt điều kiện thiếu ánh sáng; bên cạnh đó, hệ thống hoạt động tốt với cử tư diện, nhạy cảm với góc quay bàn tay Trong nghiên cứu tiếp theo, tác giả tiếp tục nghiên cứu phương pháp chuẩn hóa ánh sáng trước đưa vào nhận dạng để hệ thống thích nghi tốt với điều kiện ánh sáng thay đổi Ngoài ra, để rút ngắn thời gian nhận dạng, tác giả nghiên cứu phương pháp phát điểm ảnh màu da để khoanh vùng ảnh chứa cử bàn tay Khi 66 hệ thống nhận dạng vùng ảnh có phân bố màu da lớn, điều làm giảm đáng kể thời gian nhận dạng loại bỏ trường hợp nhận dạng nhầm vùng thành cử Một hạn chế hệ thống dừng lại toán nhận dạng cử tĩnh mà chưa xét đến cử động bàn tay Do toán nhận dạng cử động vấn đề cần quan tâm Trên kết đạt hướng nghiên cứu luận văn Tuy luận văn đạt kết định không tránh khỏi thiếu sót Tác giả mong nhận ý kiến đóng góp từ thầy cô bạn để tác giả tiếp tục hoàn thiện nghiên cứu 67 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] [2] Đỗ Năng Toàn, Phạm Việt Bình, Giáo trình xử lý ảnh, Khoa công nghệ thông tin Đại học Thái Nguyên, 2007 Đồng Văn Thái, Nhận dạng cử bàn tay ứng dụng điều khiển chương trình máy tính SoICT 2010 Tiếng Anh: Freeman, W.T and M Roth, Orientation Histograms for Hand Gesture Recognition IEEE Intl Wkshp on Automatic Face and Gesture Recognition, Zurich, June, 1995, 1994 [4] Viola, P and M.J Jones, Robust Real-Time Face Detection International Journal of Computer Vision, 2004: p 137–154 [5] Rowley, H.A., S Baluja, and T Kanade, Neural Network-Based Face Detection IEEE Patt Anal Mach Intell., 1998: p 22–38 [6] Vapnik, V., Support-Vector Networks Machine Learning, 1995: p 273297 [7] Osuna, E.E and F Girosi, Reducing the run-time complexity in support vector machines ICPR, 1998 [8] Sung, K.-K and T Poggio, Example-Based Learning for View-Based Human Face Detection TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 1998 20: p 39-51 [9] Llorca, D.F., et al A multi-class svm classifier for automatic hand washing quality assessment in of the British Machine Vision Conference 2007 [10] Freund, Y and R.E Schapire, A Short Introduction to Boosting Journal of Japanese Society for Artificial Intelligence, 1999 14: p 771-780 [11] Ong, E.-J and R Bowden A Boosted Classifier Tree for Hand Shape Detection in IEEE Intl Conference on Automatic Face and Gesture Recognition 2004 [12] Nolker, C and H Ritter, Illumination Independent Recognition on Deictic Arm Postures, in 24th Annual Conf of the IEEE Industrial Electronics Society 1998: Germany p 2006- 2011 [3] 68 [13] Kolsch, M and M Turk Robust Hand Detection in Conference on Automatic Face and Gesture Recognition 2004: IEEE Intl [14] Kolsch, M and M Turk Analysis of Rotational Robustness of Hand Detection with a Viola-Jones Detector in Conference on Pattern Recognition 2004: IEEE Intl [15] Lienhart, R and J Maydt, An Extended Set of Haarlike Features for Rapid Object Detection 2002 1: p 900-903 [...]... công trong các bài toán nhận dạng mẫu như: nhận dạng ký tự, nhận dạng vân tay, nhận dạng khuôn mặt người v.v Nhận dạng cử chỉ tay có thể xem là bài toán nhận dạng hai loại mẫu mẫu có cử chỉ tay và mẫu không phải đối tượng Một thuận lợi khi dùng mạng nơron để nhận dạng cử chỉ tay là tính khả thi của hệ thống khi có sự phức tạp trong lớp của các mẫu cử chỉ tay Tuy nhiên, một điều trở ngại là các kiến... nhận dạng Bộ nhận dạng sẽ phân loại các đặc trưng vào các lớp đã được định nghĩa trong mô hình huấn luyện trước đó Việc nhận dạng ở khâu này được áp dụng thêm một số kỹ thuật nhằm tăng độ chính xác cho hệ thống Sau đó cử chỉ được phân loại nhờ vào việc kết hợp các bộ nhận dạng cử chỉ Mỗi bộ nhận dạng cử chỉ có chức năng nhận dạng một cử chỉ ứng với các đặc trưng đã được huấn luyện Bộ phân loại sẽ nhận. .. khi áp dụng thì phải xác định rõ ràng số lượng tầng, số lượng node, tỷ lệ học v.v cho từng trường hợp cụ thể 22 Bài toán nhận dạng một cử chỉ của bàn tay cũng tương tự như bài toán nhận dạng khuôn mặt, bài toán nhằm giải quyết mục tiêu là phân loại ra lớp là cử chỉ và không phải là cử chỉ Vì vậy có thể tham khảo một số mô hình nhận dạng khuôn mặt sử dụng mạng nơron cho mô hình nhận dạng cử chỉ Theo... càng tốt Điều này dẫn đến việc phải tìm ra các đặc trưng khác nhau và chúng không phụ thuộc vào hoàn cảnh thu nhận tín hiệu về đối tượng Đầu ra của công đoạn này được gọi là vector đặc trưng của đối tượng, thông thường đây là một vector số thực Giai đoạn nhận dạng cử chỉ và phân loại cử chỉ Giai đoạn này thực hiện việc phân tích từ dữ liệu đầu vào để kiểm tra trong dữ liệu đầu vào có chứa cử chỉ đang... hiện cực trị trong không gian tỉ lệ : Trong giai đoạn lọc này chú ý xác định những vị trí và những tỉ lệ tương ứng mà có thể xác định được từ những góc nhìn khác nhau từ cùng một đối tượng Điều này có thể sử dụng một hàm không gian tỉ lệ Hơn nữa điều này có thể được thể hiện dưới giả thiết hợp lý là nó phải dựa trên hàm Gause 15 Hình 1 5 - Xác định điểm cực trị trong không gian tỉ lệ Không gian tỷ lệ... các đặc trưng đã được huấn luyện Bộ phân loại sẽ nhận vào một ảnh và cho biết trong ảnh đó có chứa những cử chỉ nào (cho biết vị trí của vùng ảnh tương ứng với các cử chỉ) 1.4 Một số đặc trưng sử dụng biểu diễn cử chỉ bàn tay: 1.4.1 Đặc trưng các thành phần chính PCA: Phương pháp đơn giản nhất để phát hiện đối tượng là sử dụng cường độ xám hoặc màu của điểm ảnh để biểu diễn đối tượng Phương pháp này... ( , ) , Tổng các giá trị pixel trong vùng “D” được tính như sau : = ; = − − = + ; = + = + ; = + −( + )−( + )= + + + − − Khi đó, tổng các điểm ảnh trong môt hình chữ nhật bất kì có thể tính nhanh dựa trên integral image tại 4 đỉnh của nó : ( )= + − − 21 CHƯƠNG II CÁC KỸ THUẬT NHẬN DẠNG CỬ CHỈ BÀN TAY TRONG VIDEO 2.1 Kỹ thuật sử dụng mạng nơron Mạng nơron nhân tạo được thiết kế để mô hình một số tính... tiến của tiếp cận boosting, Adaboost sử dụng thêm khái niệm trọng số (weight) để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, cứ mỗi bộ phân loại yếu được xây dựng, thuật toán sẽ tiến hành câp nhật lại trọng số để chuẩn bị cho việc xây dựng bộ phân loại yếu kế tiếp : Tăng trọng số của các mẫu bị nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi bộ phân loại yếu vừa xây... phân lớp CBC 2.3.3 Thuật toán AdaBoost trong mô hình Cascade sử dụng Boosting cho bộ nhận dạng cử chỉ: Với 14 loại đặc trưng sử dụng và với kích thước mẫu positive là 24x24, tập đặc trưng sẽ có khoảng 140.000 đặc trưng Tuy nhiên, không phải đặc trưng nào cũng thực hiện tốt việc phân loại mà chỉ có một số lượng nhỏ trong số 140.000 đặc 34 trưng này là thực sự hữu dụng Nhiệm vụ của bộ phân loại là phải... cho một cử chỉ và 140.000 đặc trưng thì hệ thống sẽ phải chọn được 1 bộ phân loại yếu trong số 140.000× 2.000 = 280.000.000 bộ phân loại yếu trong mỗi vòng lặp boosting AdaBoost được thiết kế để có thể chọn nhanh các đặc trưng, cũng là chọn nhanh các bộ phân loại yếu Thuật toán sử dụng ở đây là Gentle AdaBoost [15], một biến thể của AdaBoost Gentle AdaBoost để xây dựng bộ nhận dạng cho 1 cử chỉ như ... hình Cascade sử dụng Boosting cho nhận dạng cử chỉ: 33 2.3.4 Mô hình Cascade 37 CHƯƠNG III: NHẬN DẠNG CỬ CHỈ BÀN TAY ỨNG DỤNG TRONG ĐIỀU KHIỂN THIẾT BỊ ĐIỆN GIA DỤNG ... việc nhận dạng cử video ứng dụng điều khiển thiết bị điện gia dụng 1.1 Khái niệm nhận dạng cử Cử tất cử động thể nhằm - Thể hiện, truyền đạt thông tin - Tương tác với môi trường Cử phương thức giao... Mạng nơron áp dụng thành công toán nhận dạng mẫu như: nhận dạng ký tự, nhận dạng vân tay, nhận dạng khuôn mặt người v.v Nhận dạng cử tay xem toán nhận dạng hai loại mẫu mẫu có cử tay mẫu đối tượng