Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
2,32 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐOÀN THỊ HƯƠNG GIANG NHẬNDẠNGCỬCHỈĐỘNGCỦABÀNTAYNGƯỜISỬDỤNGKẾTHỢPTHƠNGTINHÌNHẢNHVÀĐỘSÂUỨNGDỤNGTRONGTƯƠNGTÁC NGƯỜI-THIẾT BỊ Chuyên ngành: Kỹ thuật Điều khiển Tự động hóa Mã số: 62520216 TĨM TẮT LUẬN ÁN TIẾN SĨ ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hà Nội 12−2017 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: TS Vũ Hải TS Trần Thị Thanh Hải Phản biện 1: PGS.TS Ngô Quốc Tạo Phản biện 2: PGS.TS Nguyễn Quang Hoan Phản biện 3: PGS.TS Trần Đức Tân Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi giờ, ngày .tháng .năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Ngày nay, công nghệ đại ngày phát triển trợ giúp cho người nhiều lĩnh vực khác Trong đó, tự động hóa tòa nhà hay khơng gian sống thông minh xu hướng nghiên cứu xuất phát từ nhu cầu thực tế sống Các hệ thống tự động hóa có mặt nhiều lĩnh vực khác sống hàng ngày, từ ứngdụng trợ giúp đơn giản chuông cửa, điều khiển cửa vào nhà, đến việc tự động hóa thiếtbị điện tử gia dụng phức tạp hệ thống đèn chiếu sáng, điều hòa, hệ thống loa đài, ti vi, Mặc dù ứngdụng tự động hóa tòa nhà đề xuất nhiều Các sản phẩm có chủ yếu tập trung vào công nghệ tiết kiệm lượng, điều khiển thiếtbị điện tử gia đình sửdụngthiếtbị phụ trợ yêu cầu giao diện để tươngtácngườidùngthiếtbị Nhu cầu tự động hóa tòa nhà với tươngtácngườithiếtbị điện tử gia dụng cách tự nhiên cần thiết song tốn gặp phải nhiều thách thức như: Khơng đòi hỏi thiếtbị phụ trợ hay tiếp xúc trực tiếp trình điều khiển; khơng đòi hỏi giao diện tươngtác người-thiết bị Mục tiêu hướng đến đề tài nghiên cứu phát triển hệ thống điều khiển thiếtbị cách tự nhiên hiệu Tuy nhiên, tươngtácngườidùng - thiết bị; hiệu thể thơng qua tính bền vững hệ thống thay đổi yếu tố bên khả đáp ứng thời gian thực Để giải vấn đề này, hai xu hướng nghiên cứu đề xuất là: Phát triển công nghệ phụ trợ phát triển thuật toán Với xu hướng phát triển công nghệ phụ trợ bao gồm giải pháp sửdụng găng tay chuyên dụng, miếng dán đánh dấu vùng bàn tay, gắn trực tiếp cảm biến tay cánh tay khiến cho ngườidùng phụ thuộc thiết bị, chi phí mua thiếtbị đắt đỏ, điều khiển không tự nhiên Cách tiếp cận thứ hai phát triển thuật toán, nhậndạngcửtay triển khai nhiều lĩnh vực khác như: thị giác máy tính rơ bốt, điều khiển tự động hóa, Tuy vậy, u cầu tính bền vững xử lý thời gian thực thách thức nghiên cứu hệ thốngnhậndạngcửtay Luận án dung hòa hai hướng tiếp cận Trong đó, tập cửtay có tính ngữ nghĩa, gợi nhớ đề xuất nhằm thay thiếtbị phụ trợ, cung cấp đặc trưng hữu ích cho hệ thống, nên ngườidùng điều khiển cách tự nhiên Bên cạnh đó, giải thuật biểu diễn nhậndạng hoạt độngcử nghiên cứu cà thiết kế với mục tiêu hiệu Các kết đánh giá thử nghiệm rằng, phương pháp tươngtác tự nhiên không yêu cầu liên kết trực tiếp với thiếtbị khơng u cầu phải có giao diện ngườidùng Hệ thống đề xuất tối đa khả sửdụngthông qua công cụnhậndạngcửtay cung cấp hệ thống điều khiển nhiều thiếtbị điện gia dụng với đáp ứng thời gian thực Mục tiêu luận án ❼ Thiết kế tập sở liệu (CSDL) cửbàntaytươngứng với số lệnh điều khiển cho thiếtbị điện tử gia dụng Ngoài ra, CSDL có đặc trưng hỗ trợ hệ thốngnhậndạng đạt hiệu nhậndạng cao ❼ Nghiên cứu triển khai giải thuật phân đoạn cửbàntay đáp ứng thời gian thực, bền vững với thay đổi yếu tố bên (ánh sáng, ): Nghiên cứu đề xuất phương pháp phát trích chọn vùng bàntay từ ảnh màu ảnhđộ sâu, phân đoạn cửtay từ chuỗi liên tiếp ❼ Nghiên cứu đề xuất phương pháp biểu diễn chuỗi cửđộngbàntayđồng pha cửđộng Giải pháp hướng tới biểu diễn cửtay theo không gian thời gian, đáp ứng với nhiều người, nhiều vị trí, nhiều hướng khác người đến cảm biến Kinect ❼ Triển khai hệ thống điều khiển thiếtbị điện tử gia dụngsửdụngcửbàntay Các đóng góp luận án ❼ Đóng góp thứ 1: Thiết kế tập CSDL cửtaytươngứng với lệnh điều khiển thiếtbị điện tử gia dụng Thu thập CSDL, đánh giá tính khả thi tập lệnh, thử nghiệm giải thuật đề xuất chia sẻ cho cộng đồng nghiên cứu ❼ Đóng góp thứ 2: Đề xuất giải pháp phân đoạn chuỗi cửtay đáp ứng thời gian thực gồm: Giải pháp hiệu để phát trích chọn vùng bàntay từ ảnh màu ảnhđộ sâu; Giải pháp phân đoạn cử từ chuỗi bàntay liên tiếp ❼ Đóng góp thứ 3: Đề xuất phương pháp biểu diễn cử dựa đặc trưng không gian dựa biểu diễn đa tạp (ISOMAP), kếthợp với đặc trưng thời gian (KLT), có tính đến đồng pha cử không gian biểu diễn đề xuất ❼ Đóng góp thứ 4: Triển khai giải pháp toàn diện để điều khiển số thiếtbị điện tử gia dụngdùngcửđộngbàntay Hệ thống hoàn chỉnh cài đặt ngữ cảnh nhà phòng thơng minh Viện MICA Cấu trúc luận án ❼ Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu luận án; ngữ cảnh, ràng buộc thách thức giải tốn; Các đóng góp luận án ❼ Chương 1: Tổng quan điều khiển sửdụngcửbàntay nghiên cứu liên quan đến vấn đề đặt luận án ❼ Chương 2: Thiết kế xây dựngcửbàntay có tính chất chu kỳ ❼ Chương 3: Đề xuất phương pháp phát hiện, phân đoạn cửbàntay đáp ứng yêu cầu thời gian thực độ xác Phân đoạn chuỗi cửtayđộng từ chuỗi liên tiếp hình trạng bàntay ❼ Chương 4: Đề xuất giải pháp biểu diễn cửđộngbàntaykếthợp đặc trưng không gian thời gian, giải pháp đồng pha không gian ❼ Chương 5: Triển khai, đánh giá hệ thống điều khiển sửdụngcửtay Thực đánh giá thử nghiệm hệ thống hoàn thiện ❼ Kết luận định hướng nghiên cứu luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN Chương trình bày nghiên cứu liên quan đến hệ thống điều khiển thiếtbị điện tử gia dụngdùngcửđộngbàntay phương pháp nhậndạngcửđộngbàntay với pha gồm: Phát trích chọn vùng bàntay ảnh, phân đoạn nhậndạngcửđộngbàntay từ chuỗi ảnh liên tiếp 1.1 Hệ thống điều khiển thiếtbịsửdụngcửđộngbàntay Đã có nhiều hệ thống điều khiển thiếtbị điện gia dụngsửdụngcửtay đề xuất ti vi thông minh hãng Sansung, Omron, Các hệ thống chia thành hai nhóm chính: Độc lập phụ thuộc giao diện ngườidùng Với hệ thống yêu cầu giao diện ngườidùng để thực lệnh điều khiển không phù hợp với hầu hết thiếtbị điện tử gia dụng khơng có đèn, quạt, 1.2 Phương pháp phát trích chọn bàntayảnh Phát vùng bàntay xác định có mặt vị trí vùng bàntayảnh Đây pha cần thiết áp dụng nhằm loại bỏ yếu tố phông không tham gia vào việc mơ hình hóa cửbàntay Đã có nhiều nghiên cứu phát trích chọn vùng bàntay dựa đặc trưng màu sắc, hình dáng, chuyển độngđộsâuTrong khi, bàntayngười có nhiều bậc tự do, hình trạng bàntay thay đổi phụ thuộc vào nhiều yếu tố góc nhìn máy ảnh, khác độ to nhỏ, độ phân giải, cường độ chiếu sáng, Bởi vậy, độ xác thời gian đáp ứng bước phát trích chọn vùng bàntay yêu cầu cần phải giải hệ thống thực tế 1.3 Phương pháp phân đoạn cửđộngbàntay Đối với hệ thốngnhậndạngcửđộngbàn tay, việc xác định điểm bắt đầu kết thúc chuỗi cửtươngứng với ứng viên cử đó, việc làm cần thiết trước đưa vào biểu diễn nhậndạngcử Các phương pháp phân đoạn thường chia thành hai loại: Sửdụng mơ hìnhsửdụngtín hiệu đặc trưng Hướng tiếp cận sửdụng mơ hình thường gặp phải số giới hạn chế sau: Các hệ thống yêu cầu ngưỡng tham số mơ hình q trình huấn luyện khó thay đổi hệ thống thêm bớt cử Hơn nữa, cần thiết phải định nghĩa cử có nghĩa tập cửthơng thường, có nhiều cửthơng thường Ngồi ra, sửdụng mơ hình thường có thời gian trễ lớn điều thực thách thức triển khai hệ thống thực Hướng tiếp cận dựa dạngtín hiệu đặc trưng cửtay thường là: Sự chuyển động, vận tốc, gia tốc bàn tay, Hướng tiếp cận thường đạt tốc độ đáp ứng nhanh với giải thuật đơn giản Tuy nhiên, cửtay phải thiết kế cho đảm bảo đặc trưng khác biệt và/hoặc sửdụng thêm thiếtbị phụ trợ để đo xác thay đổi cửtay 1.4 Phương pháp nhậndạngcửđộngbàntay Các phương pháp nhậndạngcửđộng gặp số giới hạn như: Các mơ hình cần phải cài đặt, thiết lập lại tham số cần thêm bớt cử Giải pháp đạt độ xác u cầu độ phức tạp tính tốn thời gian đáp ứng cao Các mơ hìnhnhậndạng HMM hay CRF, CNN thường yêu cầu số lượng liệu huấn luyện lớn Đặc biệt, phương pháp sửdụng mạng nơ ron yêu cầu cấu hình máy tính cao máy tính phải có GPU 1.5 Thảo luận kết luận Dựa việc phân tích ưu nhược điểm kỹ thuật có, luận án hướng tới giải nội dung sau: Định nghĩa cửđộngbàn tay: Để điều khiển thiếtbị cần có CSDL có tính đồng bộ, phù hợp với phần lớn thiếtbị điện tử gia dụng, không phụ thuộc giao diện ngườidùng Tập lệnh có tính đặc thù phù hợp với thiết bị, cung cấp đặc trưng hiệu cho hệ thống, đáp ứng tính tự nhiên thuận tiện ngườidùngtươngtác Phát tay, phân khúc chuỗi cửđộngbàn tay: Nghiên cứu, phát triển phương pháp phát trích chọn bàntay dựa ảnh màu ảnhđộsâu đạt hiệu hệ thống cao đáp ứng thời gian thực Sau đó, chuỗi cửtay phân khúc sửdụngkếthợp đặc trưng tín hiệu chiều chuỗi cửđộngNhậndạngcửđộngbàn tay: Phát triển phương pháp biểu diễn cửđộngbàntaykếthợp đặc trưng không gian thời gian Giải toán đồng pha không gian phân lớp cửđộng CHƯƠNG THIẾT VẾ VÀ XÂY DỰNG CƠ SỞ DỮ LIỆU CĨ TÍNH CHU KỲ Một số CSDL cửđộngbàntay có tồn hạn chế định trình bày mục 2.1 Chương trình bày nguyên lý thiết kế xây dựng CSDL cửtay có tính chất chu kỳ Các cửtay cho phép ngườidùngtươngtác tự nhiên, thuận tiện với thiếtbị đảm bảo hiệu hoạt động hệ thống điều khiển Phần 2.2.1 trình bày thiết kế chi tiết CSDL cửđộngbàntay có tính chu kỳ 2.1 Các CSDL cửđộngbàntay có Các CSDL cửđộngbàntay đề xuất tồn số giới hạn định như: Phục vụ cho ứngdụng chuyên biệt, pha trộn lẫn cử tĩnh động, số lượng cử hạn chế lệnh bật/tắt thiết bị, CSDL không công bố cho cộng đồng nghiên cứu 2.2 2.2.1 Thiết kế CSDL cửđộng có tính chu kỳ Các lệnh điều khiển thiếtbị điện tử gia dụng Bảng 2.1 Các lệnh thiếtbị điện tử gia dụng Lệnh Thiếtbị Tivi Máy quay Đèn Điều hòa Quạt Lệnh 1/Bật-Tắt Lệnh 2/Tăng Lệnh 3/Giảm Lệnh 4/Tiếp theo Lệnh 5/Quay lại Bật/Tắt Bật/Tắt Bật/Tắt Bật/Tắt Bật/Tắt (+) Kênh Quay lên (+) Tinh (+) Nhiệt độ (+) Tốc độ (-) Kênh Quay xuống (-) Tinh (-) Nhiệt độ (-) Tốc độ (+) Tiếng Quay trái (+) Thô Quạt bật/tắt Quay (-) Tiếng Quay phải (-) Thô Chế độ Đèn ngủ Mỗi hộ gia đình thường có nhiều thiếtbị điện tử gia dụng khác như: Đèn, quạt, tivi, điều hòa, cửa, loa đài, tivi, Để có hệ thống điều khiển sửdụngcửtay cách đồng bộ, cần thiết phải có CSDL cửtay có khả dùng chung cho thiếtbị Để định nghĩa CSDL cửtay phục vụ cho điều khiển, phải xác định lệnh gốc thiếtbị cần điều khiển, ý nghĩa lệnh cách thực gợi nhớ đưa từ nhà sản xuất Sau đó, Các cửtay thường định nghĩa cho có tươngứng với ý nghĩa lệnh, đồng thời có tính gợi nhớ để dễ sửdụng thường xuyên, lâu dài Cuối cùng, gán cửtay với lệnh gốc Trong nghiên cứu này, năm lệnh định nghĩa mô tả Bảng 2.1 2.2.2 Định nghĩa CSDL Năm lệnh thường sửdụng gồm: bật/tắt, tăng(kênh), giảm(kênh), tăng(tiếng), giảm(tiếng) Mỗi lệnh thực có ba pha pha chuẩn bị, pha thực thi pha kết thúc Trong pha thực thi, bàntay thay đổi hình trạng mà dịch chuyển theo ba trạng thái gồm: khởi động, trung gian/chuyển độngkết thúc Sự thay đổi hình trạng bàntay có tính chu kỳ từ lúc đóngtaysau mở tayđóngtay lại mơ tả Hình 2.1 Middle Start Stop Move Stop Start Turn on_off Middle Start Start Stop Increase Move Stop Start Start Middle Middle Stop Middle Decrease Stop Next Back Hình 2.1 Sự thay đổi hình trạng tay quỹ đạo cửtay định nghĩa 2.2.3 Đặc điểm CSDL x x (t ) = x (t + T ) x(t) x(t+T) time t Stop Move t+T T b Ideal periodic signal in time domain Middle Start s= 2Πt T c Ideal periodic signal in phase domain a Closed-form gestures Hình 2.2 Phân tích đặc điểm tín hiệu có tính chu kỳ Mỗi cử định nghĩa khác biệt thay đổi hình trạng bàntay hướng dịch chuyển tayTrong đó, hình trạng tay bao gồm chuỗi liên tiếp cửtay có tính chu kỳ chuyển độngbàntay biểu diễn ý nghĩa lệnh Bộ CSDL có số đặc điểm sau: - Mỗi cử có trạng thái bắt đầu kết thúc giống Tính chất sửdụng để phân đoạn chuỗi cửđộngbàntay - Mỗi cửtay xem tín hiệu có tính chu kỳ đóng biểu diễn Hình 2.2 - Thời gian thực thi cử lớp lớp cử khác không giống tốc độ thực người, và/hoặc hướng chuyển độngbàntay lệnh không giống - Các cử lớp khơng đồng pha với Trong lớp, trạng thái loại cử khơng đồng 2.3 Thu thập CSDL Từ năm cử định nghĩa, bốn CSDL thu thập môi trường, ngữ cảnh khác phông gồm MICA1, MICA2, MICA3, MICA4 Đặc điểm CSDL thể chi tiết Bảng 2.2 sau đây: Bảng 2.2 Đặc điểm CSDL CSDL Đặc điểm Số lượng người Môi trường Điều kiện Nhiễu Số vị trí Khoảng cách (m) 2.4 MICA1 MICA2 MICA3 MICA4 16 Phòng thí nghiệm (PTN) Đơn giản 35 Hội chợ Phức tạp 33 Hội chợ Phức tạp PTN Đơn giản Ít Nhiều 2.5 Nhiều 1.5; 2.5 Ít 13 1.5->3 Thảo luận kết luận Sau khảo sát tập CSDL công bố xuất phát từ yêu cầu toán điều khiển thiếtbị điện gia dụng, CSDL định nghĩa CSDL bao gồm năm lệnh, tươngứng với lệnh để điều khiển hầu hết thiếtbị điện gia dụng Tập CSDL đề xuất bao gồm chuỗi cửtay có tính chất chu kỳ đóng, dễ nhớ, dễ thực Bốn CSDL thu thập môi trường khác nhau, với điều kiện phông khác nhau, đa dạngđộ tuổi giới tính người tham gia thu thập Các CSDL chia sẻ cho cộng đồng nghiên cứu CHƯƠNG TRÍCH CHỌN BÀNTAYVÀ PHÂN ĐOẠN CỬCHỈĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜIDÙNG 3.1 Mở đầu Tươngtácngười máy thông qua cửbàntay xem cách thức tươngtác tự nhiên thân thiện Tuy nhiên, cách thức điều khiển phải đối mặt với nhiều thách thức phức tạp biến đổi cấu trúc bàn tay, điều kiện chiếu sáng khác nhau, điều kiện phông phức tạp Vì vậy, thuật tốn đề xuất u cầu xử lý phức tạp và/hoặc tính tốn thời gian cao Trong việc phát trích chọn vùng bàntay bước tiền xử lý toán nhậndạngcửđộngbàntay Vì vậy, nội dung chương đề xuất giải pháp học tham số mơ hình để đạt độ xác cao, đáp ứng thời gian thực phát trích chọn vùng bàntaySau đó, dựa vào việc kếthợpdạngtín hiệu biến đổi theo quy luật cửđộng định nghĩa, đề xuất giải pháp để phân đoạn chuỗi cửđộngbàntay đáp ứng thời gian thực 3.2 Giản đồ học ngườidùng 3.2.1 Một số giả thiết ràng buộc 3.2.2 Sơ đồ đề xuất (a) The proposed vision-based hand detection and segmentation RGB image Hand region Preprocessing data Kinect Detecting body area Hand detected and Segmented Detecting hand candidates Depth image Pruning hand Learning parameters (d±∆) of a distance to hand Learning parameters (µ,δ) ,η of background model Learning parameters (µ,δ) of skin model (b) The proposed user-guide scheme Hình 3.1 Minh họa hệ thống đề xuất phát trích chọn bàntay - Tiền xử lý: Doảnh I D thu thập từ cảm biến Kinect tọa độDo đó, bước tiền xử lý nhằm hiệu chỉnh để đưa điểm ảnh màu ảnhđộsâu tọa độ Phương pháp đề xuất [1] sửdụng - Phát người Bd : Bd = D|Dif f (D,BG)>T hreshbody (3.1) Hd = Bd |Bd (P9,s9) (P11,s11) 10 60 (P12,s12) 40 11 12 (P7,s7) (P1,s1) The ideal closed-form gesture (P6,s6) 100 (P2,s2) -20 (P3,s3) (P4,s4) si = The most different frames -40 -150 2π T N b) Quasi closed-form gesture c) Quasi closed-form gesture (P5,s5) si < 2π T N (P8,s8) 13 (P13,s13) 20 The most similar frames The most different frames The most similar frames y 2π T N -100 -100 -50 x 50 100 150 d) Ideal closed-form gesture a Closed-form gesture in new space Hình 4.5 Biểu diễn đa tạp cửtayđộng “Tiếp theo" không gian đề xuất 4.2.3.3 Đồng pha với phương pháp nội suy Một giải pháp nội suy triển khai để đồng chuỗi cửđộngbàntay nhằm đưa chuỗi kích thước khơng gian Giải pháp đề 16 The most similar frames si = (a) Quasi close-form gesture The most different frames Rejected the most similar frames 2πT si < N 2πT si > N 2πT N (b) The ideal close-form gesture Interpolated between Different frames si = 2πT N (c) Quasi close-form gesture (d) The ideal close-form gesture Hình 4.6 Quá trình đồng pha chuỗi cửđộng xuất thực với hai trường hợp: (1) Nội suy cặp hai cử liên tiếp khác nhất, (2) loại bỏ bớt cử hai cửtương tự minh họa Hình 4.6(a) Gọi M kích thước chuỗi tay mong muốn, từ cửtay GT S = {P1 , P2 , , PN } (t1 , t2 , , tN ), véc tơ khoảng cách GT S tính tốn Dinter = {di ; (i = 1, , N − 1)} Các khoảng cách tính khoảng cách Ơ cờ lít di = ||Pi − Pi+1 ||2 hai cửtay liên tiếp Pi Pi+1 Khi cửđộng có N cử chỉ, kích thước mong muốn M N < M Khoảng cách lớn xác định từ véc tơ Dinter (dmax = max(Dinter )), minh họa Hình 4.6(c) Điểm xa nội suy với điểm P ∗ (4.9) chèn vào Quá trình nội suy lặp lại kích thước chuỗi cử M : P∗ = [ xi+1 − xi yi+1 − yi Yi+1,1 − Yi,1 Yi+1,2 − Yi,2 Yi+1,3 − Yi,3 T , , , , ] 2 2 (4.9) Khi N > M , véc tơ khoảng cách nhỏ tính tốn hai cửtay gần Dinter (dmin = min(Dinter )) Phép loại trừ điểm từ hai điểm gần thực (4.10) Quá trình lặp lại chuỗi cửtay có kích thước M : Premoved = P P 4.2.3.4 i [(di−1 < di+1 )&(i = N − 1)]or[(i = 1)] i+1 [(di−1 > di+1 )&(i = 1)]or[(i = N − 1)] (4.10) NhậndạngcửđộngbàntaySau bước nội suy, tất cửđộng biểu diễn véc tơ có kích thước Bước nhậndạngcửđộng thực với phân lớp khác SVM, NB, DT, RF, NN, KNN Việc sửdụng phân lớp nhằm mục đích lựa chọn phân lớp phù hợp với véc tơ biểu diễn đề xuất 4.3 Các đánh giá thử nghiệm Trong phần này, đánh giá thực bao gồm: Độ xác hệ thống đề xuất điều chỉnh hệ số nội suy chuỗi cử M , điều chỉnh tham số 17 phân lớp SVM, độ xác nhậndạngsửdụng giá trị tối ưu hệ số M , so sánh đánh giá độ xác nhậndạng với đặc trưng riêng lẻ kết hợp, so sánh hiệu giải pháp đề xuất CSDL khác Hiệu hệ thống điều chỉnh hệ số nội suy 100 Recall (%) MICA1 96 94 92 90 88 86 84 82 80 98 96 94 92 90 88 Recall (%) MICA2 Recall 95 (%) 100 Recall (%) 80 MSRGesture3D NVIDIA 90 60 85 40 80 20 75 70 10 18 30 40 60 80 100 Temporal resolution value 10 18 30 40 60 80 100 Temporal resolution value 10 15 18 25 30 35 40 50 60 70 80 90 100 150 4.3.1 10 18 30 40 60 80 100 Temporal resolution value Temporal resolution value Hình 4.7 Kếtnhậndạngtươngứng với điều chỉnh hệ số M 4.3.2 Đánh giá hiệu giải pháp đề xuất KLT-ISOMAP Recall(%) 100 ISOMAP Recall(%) 100 KLT DTW -based C3D-SVM The proposed method 80 80 60 60 40 40 20 20 0 MICA MICA Dataset MICA MICA MICA MICA MICA MICA Dataset (a) The comparison combination characteristics (b) Performance comparisons with different techniques Hình 4.8 So sánh kếthợp đặc trưng (KLT ISOMAP) cửđộng 4.3.3 So sánh hiệu giải pháp đề xuất nhiều vị trí khác Kết đánh giá cho thấy giải pháp đề xuất đáp ứng tốt với hướng quay khác nhau, vị trí khác bàntay đến cảm biến Kinect Giải pháp đề xuất đạt kết tốt ba kỹ thuật thử nghiệm (đạt độ xác 96.66%) Recall (%) 100 DTW-based C3D-SVM The proposed method 80 60 40 20 10 11 12 Positions (differences in distance and direction to Kinect) 13 Hình 4.9 So sánh hiệu số giải pháp nhậndạng khác 4.3.4 Đánh giá hiệu CSDL khác 18 Bảng 4.1 Hiệu giải pháp đề xuất ba CSDL khác CSDL MSRGesture3D NDIVIA Dataset Our dataset 4.4 Độ xác (%) Triệu hồi (%) 94.5 ± 3.1 93.56 ± 5.1 88.85 ± 4.7 87.5 ± 4.2 96.1 ± 3.2 96.45 ± 2.1 Thảo luận kết luận Chương trình bày biểu diễn cho cửđộngbàntaykếthợp đặc trưng không gian dựa biểu diễn đa tạp ISOMAP thời gian dựa KLT Giải pháp nội suy không gian cho mẫu tín hiệu có tính chu kỳ đóng thực trước đưa vào phân lớp RBF-SVM, phân lớp phù hợp với đặc trưng biểu diễn đề xuất Kết cho thấy hệ thống đạt độ xác nhậndạng cao nhiều vị trí góc nhìn khác nhau, cao so với giải pháp sửdụng kỹ thuật học sâu tiên tiến C3D giải pháp đồng pha DTW CHƯƠNG TRIỂN KHAI ỨNGDỤNG ĐIỀU KHIỂN THIẾTBỊ GIA ĐỤNGSỬDỤNGCỬCHỈTAYĐỘNG 5.1 Mở đầu Chương trình bày trình triển khai hệ thống điều khiển thiếtbị điện gia dụngsửdụngcửtay định nghĩa Hệ thống điều khiển hoạt độngthông thường thiếtbị điện gia dụng bật/tắt, tăng/giảm cường độ sáng đèn hoạt động đèn Hệ thống cho phép ngườidùngtươngtác cách tự nhiên thuận tiện mà không yêu cầu giao diện ngườidùng 5.2 5.2.1 Triển khai hệ thống điều khiển sửdụngcửtayÁnh xạ cửtay với tập lệnh Để ánh xạ tập lệnh định nghĩa với chế độthiết bị, sáu trạng thái hoạt động đèn tươngứng với sáu mức sáng (0 % - Đèn tắt, 20%, 40%, 60%, 80%, 100% cường độ sáng) thực Tương tự vậy, với sáu chế độ hoạt động quạt Bật/Tắt, thay đổi ba tốc độ quay quạt, đèn ngủ quạt, chuyển hướng Các lệnh thực thông qua năm cửtay định nghĩa (G={Bật/Tắt, Tăng, Giảm, Tiếp theo, Quay lại}) 19 5.2.2 Các chế độ hoạt động hệ thống điều khiển sửdụngcửtay Giản đồ biểu diễn chuyển trạng thái mô tả Hình 5.1 Decrease Increase Decrease Increase Decrease Increase Level /Speed (0%) Next Back Decrease Increase Level /Speed (20%) Next Back Level /Speed (40%) Next Level /Speed (60%) Back Next Back Level /Speed (80%) Next Back Level /Speed (100%) Turn on_off Turn on_off Hình 5.1 Giản đồ trạng thái hệ thống điều khiển đèn/quạt 5.2.3 Triển khai hệ thống điều khiển Zig-bee HUE Philip HUE Lamp Zig-bee Router Scene Kinect sensor PC The dynamic hand gesture recognition system Arduino Transceivers Vinawin Fan Home appliances Hình 5.2 Kết nối phần cứng hệ thống điều khiển đèn quạt 5.3 Các đánh giá thử nghiệm hệ thống điều khiển Môi trường thử nghiệm thiết kế mô theo phòng thực tế gia đình phòng thơng minh Viện nghiên cứu Quốc tế Truyền thông Đa phương tiện MICA - Đại học Bách khoa Hà Nội Các đồdùng phòng bố trí tương tự phòng sinh hoạt gia đình gồm tivi, đèn, quạt, bàn ghế, cửa vào, camera, điều hòa, Hai hệ thống cài đặt để điều khiển thiếtbị chiếu sáng (đèn) thiếtbị làm mát (quạt) Sau đặt cố định cảm biến Kinect, mười ba vị trí khác tầm nhìn thấy phía trước cảm biến Kinect đánh dấu 5.3.1 Thiết lập ngữ cảnh 5.3.2 Cài đặt môi trường 5.3.3 Xây dựng kịch 5.3.4 Các đánh giá thử nghiệm 5.3.4.1 Đánh giá chi phí thời gian tồn hệ thống mơi trường thực Tổng thời gian kể từ bước xử lý liệu đầu vào lệnh định khoảng thời gian 969.292ms Thời gian kể từ ngườidùngkết thúc lệnh, sau 20 Starting a gesture Ending a gesture 855.873ms 113.662ms Decision Time Pre_processing1 Hand …… Pre_processingN detection1 (4.501േ 0.39)ms *13.5frames Hand Spotting detectionN (58.897േ14.4)ms *13.5frames Gesture extraction 0.954േ0.27 ms 112.036േ50.4 ms Recognition 0.672േ0.013 ms Hình 5.3 Chi phí thời gian tồn hệ thốngtươngtáccửtay khoảng thời gian 113.662 ms hệ thống phát lệnh điều khiển Thời gian ngắn phù hợp để triển khai ứngdụng thực tế 5.3.4.2 Đánh giá hiệu hệ thống phát nhậndạngĐộ triệu hồi, độ xác độđo F1 tồn hệ thống tính tốn Kết mơ tả Bảng 5.1 sau đây: Bảng 5.1 Độ xác (%) hệ thống thực với 05 lệnh điều khiển ĐộđoCử Bật/Tắt Tăng Giảm Tiếp theo Quay lại Trung bình(%) 5.3.5 Độ xác(%) Triệu hồi(%) F1 Hệ số(%) 85.64 98.77 93.33 97.07 96.49 94.26 ± 4.66 89.63 87.5 90.81 85.12 84.18 87.45 ± 2.54 87.59 92.79 92.05 90.71 89.91 90.61 ± 1,81 Đánh giá phản hồi ngườidùng hệ thống 8.33 8.33 16.66 16.66 Yes 91.67 (a) % Users agreements (Yes/no) on using hand to control appliances 8.33 16.66 8.33 (c) Overall users’ satisfactions 10 41.66 25 More quickly 8.33 33.33 16.66 More convenient 33.33 33.33 58.33 (b) % Users again a gesture when the system “do nothing” 33.33 Repeat times No 16.66 (e) Assessments on responding time (d) Users’ feeling on the interaction way using hand Hình 5.4 Đánh giá ngườidùng hệ thống 21 More satisfied 8.33 16.66 5.4 Thảo luận kết luận Chương trình bày cách thức triển khai đánh giá hệ thống điều khiển 02 thiếtbị điện gia dụng (đèn, quạt) sửdụngcửđộngbàntayKết cho thấy giải pháp đề xuất từ CSDL định nghĩa đến giải pháp phát hiện, nhậndạng chuỗi cửđộng khả thi để triển khai ứngdụng thực Bộ CSDL dễ nhớ, dễ thực hiện, tự nhiên với ngườidùng Bên cạnh đó, kếtnhậndạng hệ thống cuối đạt với độ xác xấp xỉ 90.61% mơi trường phòng thí nghiệm, chi phí thời gian thấp xấp xỉ giây KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận LATS đề xuất phương pháp cho toán nhậndạngcửbàntayứngdụngtươngtácngườithiếtbị mơi trường nhà Các đóng góp LATS tóm lược sau: ❼ Đề xuất tập cửtayđộng để điều khiển hầu hết thiếtbị nhà thông minh Tập cử khơng có tính tự nhiên thân thiện ngườidùng cuối mà cho phép hệ thốngnhậndạng hoạt động bền vững với yếu tố mơi trường, vị trí hướng điều khiển người ❼ Nâng cao hiệu thuật toán: phát bàn tay, phân đoạn cử động, nhậndạngcửđộngCụ thể sau: – Đề xuất phương pháp học tham số mơi trường mơ hình nền, mơ hình màu da, khoảng cách từ người đến Kinect Đề xuất làm tăng độ xác phát hiện, đồng thời giảm thời gian tính tốn pha tiền xử lý hệ thống – Nghiên cứu đề xuất phương pháp hiệu quả, đơn giản, thời gian thực để phân đoạn cửđộngbàntay từ chuỗi hìnhảnh liên tiếp thu nhận từ Kinect Đây pha tiền xử lý quan trọng trước thực nhậndạngcử Với đặc điểm tập cử có tính chu kỳ, hiệu giải thuật phân đoạn cửđộng cải thiện đáng kể – Đã đề xuất biểu diễn cửđộngbàntay dựa việc kếthợpđồng thời đặc trưng không gian thời gian Trong đặc trưng thời gian trích chọn từ lộ trình chuyển độngbàn tay, đặc trưng không gian biểu diễn không gian có số chiều thấp sửdụng kỹ thuật đa tạp Hơn nữa, LATS đề xuất phương pháp nội suy để giải vấn đề liên quan đến biến động pha cử 22 sai khác vận tốc thực cử chỉ, độ dài cử tốc độ lấy mẫu cảm biến Cuối giải thuật học máy SVM sửdụng để thực phân lớp cử ❼ Triển khai, cài đặt, đánh giá hệ thống điều khiển đèn quạt môi trường nhà thông minh Viện MICA hội chợ triển lãm KHCN trường ĐHBK Hà Nội với nhiều ngườidùng khác Bên cạnh đóng góp trên, LATS số hạn chế sau: ❼ Hiện tại, tập cử gồm năm cử có tính chu kỳ để điều khiển số chức hầu hết thiếtbị nhà Tuy nhiên, tập cử hạn chế mặt số lượng ❼ Thôngtinđộsâusửdụng để tách biệt vùng bàntay khỏi ngườiDođộ phân giải cảm biến độsâu Kinect hạn chế, khơng tin cậy khoảng cách xa (>3m), đặc biệt độsâu không đo khoảng cách gần (0.8m) xa (4m) Vì vậy, phương pháp đề xuất không hiệu ngườidùngđứng gần xa cảm biến Kinect ❼ Việc biểu diễn cửđộngbàntay dựa thôngtin màu mà chưa khai thác thôngtinđộsâu thu từ cảm biến Kinect ❼ Mặc dù phương pháp biểu diễn cử chứng minh thực nghiệm bền vững so với số phương pháp có, hiệu phương pháp đề xuất cần phải đánh giá sâu Đặc biệt ảnh hưởng yếu tố vị trí hướng người điều khiển so với Kinect đến hiệu phương pháp cần phân tích kỹ ❼ Ứngdụng điều khiển thiếtbị phòng thơng minh đánh giá với giả thiết có người phòng điều khiển Định hướng nghiên cứu ❼ Đối với tập cử điều khiển: Mở rộng để đa dạng hóa tập cử điều khiển thiếtbị khác gồm cử tĩnh cửđộng ❼ Đối với hệ thốngnhậndạngcử chỉ: – Trong pha phát phân vùng bàn tay, đề xuất ước lượng thích nghi khoảng cách từ ngườidùng đến cảm biến, áp dụng giải thuật bám vết, làm mịn hành trình (sử dụng lọc Kalman, lọc hạt) để nâng cao hiệu phát bàntay – Trong pha phân đoạn cử động: Kếthợp đặc trưng khác tính chu kỳ hướng chuyển động, ràng buộc đa tạp đóng từ điểm bắt đầu 23 điểm kết thúc cử Đây hướng nghiên cứu hứa hẹn nhằm nâng cao hiệu việc phân đoạn cử – Trong pha nhậndạngcử động: Tìm đa tạp chung từ nhiều đa tạp xây dựng từ thể thức khác liệu (màu, độ sâu) nhằm kếthợpđồng thời biểu diễn đa thể thức cử ❼ Về mặt phát triển ứng dụng: Sửdụng phiên Kinect nhằm nâng cao độ phân giải khả đo Kinect Kếthợp nhiều Kinect để ước lượng vị trí hìnhdángngười khơng gian Từ đây, phát triển ứngdụng điều khiển thiếtbị cách tự nhiên, thân thiện đáp ứng thời gian thực Tài liệu tham khảo [1] Herrera D., Kannala J., and Heikkila J., (2012), “Joint depth and color camera calibration with distortion correction”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 34(10):pp 2058–2064 [2] T Lin and H Zha, (2008), “Riemannian Manifold Learning”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Vol 30, No 5, pp 796– 809 [3] Lucas B.D and Kanade T., (1981), “ An iterative image registration technique with an application to stereo vision,” In Proceedings of The International Joint Conference on Artificial Intelligence (IJCAI), pp 674–679 [4] Arpit Mittal A.Z and Torr P., (2011), “ Hand detection using multiple proposals”, In Proceedings of The British Machine Vision Conference (BMVC), pp 75.1–75.11 [5] Pisharady P.K., Vadakkepat P., and Loh A.P (2012), “ Attention Based Detection and Recognition of Hand Postures Against Complex Backgrounds”, International Journal of Computer Vision (IJCV), 101:pp 403–419 [6] Stauffer C and Grimson W (1999), “Adaptive background mixture models for real-time tracking”, In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, pp 246 – 252 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2014) Ultilizing Depth Image from Kinect sensor: Error Analysis and Its Application, in the proceeding of the 7th Vietnamese Conference on FAIR 2014, ThaiNguyen, VietNam, ISBN: 978-604913-300-8, pp 216-222, 2014 [2] Huong-Giang Doan, Hai Vu, Thanh-Hai Tran, and Eric Castelli (2015) Improvements of RGBD hand posture recognition using an user-guide scheme, In 2015 IEEE 7th International Conference on CIS and RAM, Cambodia, ISSN 2326-8123, ISBN 978-1-4673-7338-8, DOI 10.1109/ICCIS.2015.7274-542, pp 24-29, 2015 [3] Huong-Giang Doan, Duy-Anh Vu, Hai Vu, and Thanh-Hai Tran (2015) Dynamic hand gesture recognition utilizes spatial-temporal features, The 8th Vietnamese Conference on FAIR 2015, Hanoi, VietNam, ISBN: 978-604-913-397-8, pp 257-267, 2015 [4] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2015) Recognition of hand gestures from cyclic hand movements using spatial-temporal features, in the proceeding of the Sixth IEEE International SoICT 2015, Hue City, Vietnam, ISBN 978-1-4503-3843-1, pp 260-267, 2015 [5] Huong-Giang Doan, Van-Toi Nguyen, Hai Vu, and Thanh-Hai Tran (2016) A combination of user-guide scheme and kernel descriptor on rgb-d data for robust and realtime hand posture recognition, Journal of EAAI, Elsevier, ISSN: 0952-1976, vol 49, no C, pp 103-113, 2016, (ISI) [6] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2016) Phase Synchronization in a Manifold Space for Recognizing Dynamic Hand Gestures from Periodic Image Sequence, in the proceeding of the 12th IEEE International Conference on RIVF 2016, ISBN 978-1-5090-4134-6, pp 163 - 168, Hanoi, VietNam, 2016 [7] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic hand gesture recognition from cyclical hand pattern, to appear in proceeding of The fifteenth IAPR International Conference on MVA2017, pp 84-87, Nagoya, Japan, May 8-12, 2017 [8] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) New Cyclical Pattern and Temporal-Spatial Representation for Robust Dynamic Hand Gesture Recognition, Doctoral Consortium of the IEEE FG’17 (appear on the IEEE FG’17 website), Washington DC, USA, May 30- Jun 03, 2017 [9] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic Hand Gesture Recognition using cyclical patterns of hand movement and its applications, Journal of Science and Technology(JST2017), Technical Universities, pp 134-139, Viet Nam, Jun, 2017 [1] Herrera D., Kannala J., and Heikkila J (2012) Joint depth and color camera calibration with distortion correction IEEE Trans Pattern Analysis and Machine Intelligence [2] Lin T and Zha H (May 2008) Riemannian manifold learning TPAMI , 30(5):pp 796–809 ISSN 0162-8828 doi:10.1109/TPAMI.2007.70735 [3] Lucas B.D and Kanade T (1981) An iterative image registration technique with an application to stereo vision In Proc IJCAI , pp 674–679 [4] Mittal A., Zisserman A., and Torr P (2011) Hand detection using multiple proposals In Proc of International Conference on British Machine Vision Conference [5] Pisharady P.K., Vadakkepat P., and Loh A.P (Jan 2013) Attention Based Detection and Recognition of Hand Postures Against Complex Backgrounds International Journal of Computer Vision, pp 403–419 [6] Stauffer C and Grimson W (1999) Adaptive background mixture models for realtime tracking In Proceedings of CVPR ... RMSE cử động 4.2.2.2 4.2.3 4.2.3.1 Nhận dạng cử động bàn tay với phương pháp K-NN Giải pháp đồng pha nhận dạng cử động bàn tay Biểu diễn cử động bàn tay Một cử động bàn tay GT S bao gồm N hình trạng... điều khiển thiết bị điện tử gia dụng dùng cử động bàn tay phương pháp nhận dạng cử động bàn tay với pha gồm: Phát trích chọn vùng bàn tay ảnh, phân đoạn nhận dạng cử động bàn tay từ chuỗi ảnh liên... chọn bàn tay dựa ảnh màu ảnh độ sâu đạt hiệu hệ thống cao đáp ứng thời gian thực Sau đó, chuỗi cử tay phân khúc sử dụng kết hợp đặc trưng tín hiệu chiều chuỗi cử động Nhận dạng cử động bàn tay: Phát