Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,1 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐOÀN THỊ HƯƠNG GIANG NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY NGƯỜI SỬ DỤNG KẾT HỢP THƠNG TIN HÌNH ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG TÁC NGƯỜI-THIẾT BỊ Chuyên ngành: Kỹ thuật Điều khiển Tự động hóa Mã số: 62520216 TĨM TẮT LUẬN ÁN TIẾN SĨ ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hà Nội 3−2018 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: TS Vũ Hải TS Trần Thị Thanh Hải Phản biện 1: PGS.TS Ngô Quốc Tạo Phản biện 2: PGS.TS Nguyễn Quang Hoan Phản biện 3: PGS.TS Trần Đức Tân Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi 14 giờ, ngày 09 tháng 02 năm 2018 Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Ngày nay, công nghệ đại ngày phát triển trợ giúp cho người nhiều lĩnh vực khác Trong đó, tự động hóa tịa nhà hay không gian sống thông minh xu hướng nghiên cứu xuất phát từ nhu cầu thực tế sống Các hệ thống tự động hóa có mặt nhiều lĩnh vực khác sống hàng ngày, từ ứng dụng trợ giúp đơn giản chuông cửa, điều khiển cửa vào nhà, đến việc tự động hóa thiết bị điện tử gia dụng phức tạp hệ thống đèn chiếu sáng, điều hòa, hệ thống loa đài, ti vi, Mặc dù ứng dụng tự động hóa tịa nhà đề xuất nhiều Các sản phẩm có chủ yếu tập trung vào cơng nghệ tiết kiệm lượng, điều khiển thiết bị điện tử gia đình sử dụng thiết bị phụ trợ yêu cầu giao diện để tương tác người dùng thiết bị Nhu cầu tự động hóa tịa nhà với tương tác người thiết bị điện tử gia dụng cách tự nhiên cần thiết song tốn cịn gặp phải nhiều thách thức như: Khơng địi hỏi thiết bị phụ trợ hay tiếp xúc trực tiếp trình điều khiển; khơng địi hỏi giao diện tương tác người-thiết bị Mục tiêu hướng đến đề tài nghiên cứu phát triển hệ thống điều khiển thiết bị cách tự nhiên hiệu Tuy nhiên, tương tác người dùng - thiết bị; hiệu thể thơng qua tính bền vững hệ thống thay đổi yếu tố bên khả đáp ứng thời gian thực Để giải vấn đề này, hai xu hướng nghiên cứu đề xuất là: Phát triển công nghệ phụ trợ phát triển thuật toán Với xu hướng phát triển công nghệ phụ trợ bao gồm giải pháp sử dụng găng tay chuyên dụng, miếng dán đánh dấu vùng bàn tay, gắn trực tiếp cảm biến tay cánh tay khiến cho người dùng phụ thuộc thiết bị, chi phí mua thiết bị đắt đỏ, điều khiển không tự nhiên Cách tiếp cận thứ hai phát triển thuật toán, nhận dạng cử tay triển khai nhiều lĩnh vực khác như: thị giác máy tính rơ bốt, điều khiển tự động hóa, Tuy vậy, yêu cầu tính bền vững xử lý thời gian thực thách thức nghiên cứu hệ thống nhận dạng cử tay Luận án dung hòa hai hướng tiếp cận Trong đó, tập cử tay có tính ngữ nghĩa, gợi nhớ đề xuất nhằm thay thiết bị phụ trợ, cung cấp đặc trưng hữu ích cho hệ thống, người dùng điều khiển cách tự nhiên Bên cạnh đó, giải thuật biểu diễn nhận dạng hoạt động cử nghiên cứu thiết kế đảm bảo tính bền vững Các kết đánh giá thử nghiệm rằng, phương pháp tương tác tự nhiên không yêu cầu liên kết trực tiếp với thiết bị không yêu cầu phải có giao diện người dùng Hệ thống đề xuất tối đa khả sử dụng thông qua công cụ nhận dạng cử tay cung cấp hệ thống điều khiển nhiều thiết bị điện gia dụng với đáp ứng thời gian thực Mục tiêu luận án Thiết kế tập sở liệu (CSDL) cử bàn tay tương ứng với số lệnh điều khiển cho thiết bị điện tử gia dụng Ngoài ra, CSDL có đặc trưng hỗ trợ hệ thống nhận dạng đạt hiệu nhận dạng cao Nghiên cứu triển khai giải thuật phân đoạn cử bàn tay đáp ứng thời gian thực, bền vững với thay đổi yếu tố bên (ánh sáng, ): Nghiên cứu đề xuất phương pháp phát trích chọn vùng bàn tay từ ảnh màu ảnh độ sâu, phân đoạn cử tay từ chuỗi liên tiếp Nghiên cứu đề xuất phương pháp biểu diễn chuỗi cử động bàn tay đồng pha cử động Giải pháp hướng tới biểu diễn cử tay theo không gian thời gian, đáp ứng với nhiều người, nhiều vị trí, nhiều hướng khác người đến cảm biến Kinect Triển khai hệ thống điều khiển thiết bị điện tử gia dụng sử dụng cử bàn tay Các đóng góp luận án Đóng góp thứ 1: Thiết kế tập CSDL cử tay tương ứng với lệnh điều khiển thiết bị điện tử gia dụng Thu thập CSDL, đánh giá tính khả thi tập lệnh, thử nghiệm giải thuật đề xuất chia sẻ cho cộng đồng nghiên cứu Đóng góp thứ 2: Đề xuất giải pháp phân đoạn chuỗi cử tay đáp ứng thời gian thực gồm: Giải pháp hiệu để phát trích chọn vùng bàn tay từ ảnh màu ảnh độ sâu; Giải pháp phân đoạn cử từ chuỗi bàn tay liên tiếp Đóng góp thứ 3: Đề xuất phương pháp biểu diễn cử dựa đặc trưng không gian dựa biểu diễn đa tạp (ISOMAP), kết hợp với đặc trưng thời gian (KLT), có tính đến đồng pha cử không gian biểu diễn đề xuất Đóng góp thứ 4: Triển khai giải pháp tồn diện để điều khiển số thiết bị điện tử gia dụng dùng cử động bàn tay Hệ thống hoàn chỉnh cài đặt ngữ cảnh nhà phịng thơng minh Viện MICA Cấu trúc luận án Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu luận án; ngữ cảnh, ràng buộc thách thức giải toán; Các đóng góp luận án Chương 1: Tổng quan điều khiển sử dụng cử bàn tay nghiên cứu liên quan đến vấn đề đặt luận án Chương 2: Thiết kế xây dựng cử bàn tay có tính chất chu kỳ Chương 3: Đề xuất phương pháp phát hiện, phân đoạn cử bàn tay đáp ứng yêu cầu thời gian thực độ xác Phân đoạn chuỗi cử tay động từ chuỗi liên tiếp hình trạng bàn tay Chương 4: Đề xuất giải pháp biểu diễn cử động bàn tay kết hợp đặc trưng không gian thời gian, giải pháp đồng pha không gian Chương 5: Triển khai, đánh giá hệ thống điều khiển sử dụng cử tay Thực đánh giá thử nghiệm hệ thống hoàn thiện Kết luận định hướng nghiên cứu luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN Chương trình bày nghiên cứu liên quan đến hệ thống điều khiển thiết bị điện tử gia dụng dùng cử động bàn tay phương pháp nhận dạng cử động bàn tay với pha gồm: Phát trích chọn vùng bàn tay ảnh, phân đoạn nhận dạng cử động bàn tay từ chuỗi ảnh liên tiếp 1.1 Hệ thống điều khiển thiết bị sử dụng cử động bàn tay Đã có nhiều hệ thống điều khiển thiết bị điện gia dụng sử dụng cử tay đề xuất ti vi thông minh hãng Sansung, Omron, Các hệ thống chia thành hai nhóm chính: Độc lập phụ thuộc giao diện người dùng Hệ thống yêu cầu có giao diện người dùng thực điều khiển không phù hợp với hầu hết thiết bị điện tử gia dụng khơng có đèn, quạt, 1.2 Phương pháp phát trích chọn bàn tay ảnh Phát vùng bàn tay xác định có mặt vị trí vùng bàn tay ảnh Đây pha cần thiết áp dụng nhằm loại bỏ yếu tố phông khơng tham gia vào việc mơ hình hóa cử bàn tay Đã có nhiều nghiên cứu phát trích chọn vùng bàn tay dựa đặc trưng màu sắc, hình dáng, chuyển động độ sâu Trong khi, bàn tay người có nhiều bậc tự do, hình trạng bàn tay ln thay đổi phụ thuộc vào nhiều yếu tố góc nhìn máy ảnh, khác độ to nhỏ, độ phân giải, cường độ chiếu sáng, Bởi vậy, độ xác thời gian đáp ứng bước phát trích chọn vùng bàn tay yêu cầu cần phải giải hệ thống thực tế 1.3 Phương pháp phân đoạn cử động bàn tay Đối với hệ thống nhận dạng cử động bàn tay, việc xác định điểm bắt đầu kết thúc chuỗi cử tương ứng với ứng viên cử đó, việc làm cần thiết trước đưa vào biểu diễn nhận dạng cử Các phương pháp phân đoạn thường chia thành hai loại: sử dụng mơ hình sử dụng tín hiệu đặc trưng Hướng tiếp cận sử dụng mơ hình thường gặp phải số giới hạn chế sau: hệ thống u cầu ngưỡng tham số mơ hình q trình huấn luyện khó thay đổi hệ thống thêm bớt cử Hơn nữa, cần thiết phải định nghĩa cử có nghĩa tập cử thơng thường, có nhiều cử thơng thường Ngồi ra, sử dụng mơ hình thường có thời gian trễ lớn điều thực thách thức triển khai hệ thống thực Hướng tiếp cận dựa dạng tín hiệu đặc trưng cử tay thường là: chuyển động, vận tốc, gia tốc bàn tay, Hướng tiếp cận thường đạt tốc độ đáp ứng nhanh với giải thuật đơn giản Tuy nhiên, cử tay phải thiết kế cho đảm bảo đặc trưng khác biệt và/hoặc sử dụng thêm thiết bị phụ trợ để đo xác thay đổi cử tay 1.4 Phương pháp nhận dạng cử động bàn tay Các phương pháp nhận dạng cử động gặp số giới hạn như: mơ hình cần phải cài đặt, thiết lập lại tham số phức tap cần thêm bớt cử Giải pháp đạt độ xác u cầu độ phức tạp tính tốn thời gian đáp ứng cao Các mơ hình nhận dạng HMM hay CRF, CNN thường yêu cầu số lượng liệu huấn luyện lớn Đặc biệt, phương pháp sử dụng mạng nơ ron yêu cầu cấu hình máy tính cao máy tính phải có GPU 1.5 Thảo luận kết luận Dựa việc phân tích ưu nhược điểm kỹ thuật có, luận án hướng tới giải nội dung sau: Định nghĩa cử động bàn tay: Để điều khiển thiết bị cần có CSDL có tính đồng bộ, phù hợp với phần lớn thiết bị điện tử gia dụng, không phụ thuộc giao diện người dùng Tập lệnh có tính đặc thù phù hợp với thiết bị, cung cấp đặc trưng hiệu cho hệ thống, đáp ứng tính tự nhiên thuận tiện người dùng tương tác Phát tay, phân khúc chuỗi cử động bàn tay: Nghiên cứu, phát triển phương pháp phát trích chọn bàn tay dựa ảnh màu ảnh độ sâu đạt hiệu hệ thống cao đáp ứng thời gian thực Sau đó, chuỗi cử tay phân khúc sử dụng kết hợp đặc trưng tín hiệu chiều chuỗi cử động Nhận dạng cử động bàn tay: Phát triển phương pháp biểu diễn cử động bàn tay kết hợp đặc trưng không gian thời gian Giải tốn đồng pha khơng gian phân lớp cử động CHƯƠNG THIẾT VẾ VÀ XÂY DỰNG CƠ SỞ DỮ LIỆU CĨ TÍNH CHU KỲ Một số CSDL cử động bàn tay có tồn hạn chế định trình bày mục 2.1 Chương trình bày nguyên lý thiết kế xây dựng CSDL cử tay có tính chất chu kỳ Các cử tay cho phép người dùng tương tác tự nhiên, thuận tiện với thiết bị đảm bảo hiệu hoạt động hệ thống điều khiển Phần 2.2.1 trình bày thiết kế chi tiết CSDL cử động bàn tay có tính chu kỳ 2.1 Các CSDL cử động bàn tay có Các CSDL cử động bàn tay đề xuất tồn số giới hạn định như: phục vụ cho ứng dụng chuyên biệt, pha trộn lẫn cử tĩnh động, số lượng cử hạn chế lệnh bật/tắt thiết bị, CSDL không công bố cho cộng đồng nghiên cứu 2.2 Thiết kế CSDL cử động có tính chu kỳ 2.2.1 Các lệnh điều khiển thiết bị điện tử gia dụng Bảng 2.1 Các lệnh thiết bị điện tử gia dụng Lệnh Thiết bị Tivi Máy quay Đèn Điều hòa Quạt Lệnh 1/Bật-Tắt Bật/Tắt Bật/Tắt Bật/Tắt Bật/Tắt Bật/Tắt Lệnh 2/Tăng Lệnh 3/Giảm (+) Kênh Quay lên (+) Tinh (+) Nhiệt độ (+) Tốc độ (-) Kênh Quay xuống (-) Tinh (-) Nhiệt độ (-) Tốc độ Lệnh 4/Tiếp theo (+) Tiếng Quay trái (+) Thô Quạt bật/tắt Quay Lệnh 5/Quay lại (-) Tiếng Quay phải (-) Thô Chế độ Đèn ngủ Mỗi hộ gia đình thường có nhiều thiết bị điện tử gia dụng khác như: đèn, quạt, tivi, điều hòa, cửa, loa đài, tivi, Để có hệ thống điều khiển sử dụng cử tay cách đồng bộ, cần thiết phải có CSDL cử tay có khả dùng chung cho thiết bị Để định nghĩa CSDL cử tay phục vụ cho điều khiển, phải xác định lệnh gốc thiết bị cần điều khiển, ý nghĩa lệnh cách thực gợi nhớ đưa từ nhà sản xuất Sau đó, cử tay thường định nghĩa cho có tương ứng với ý nghĩa lệnh, đồng thời có tính gợi nhớ để dễ sử dụng thường xuyên, lâu dài Cuối cùng, gán cử tay với lệnh gốc Trong nghiên cứu này, năm lệnh định nghĩa mô tả Bảng 2.1 2.2.2 Định nghĩa CSDL Năm lệnh thường sử dụng gồm: bật/tắt, tăng(kênh), giảm(kênh), tăng(tiếng), giảm(tiếng) Mỗi lệnh thực có ba pha pha chuẩn bị, pha thực thi pha kết thúc Trong pha thực thi, bàn tay khơng thay đổi hình trạng mà dịch chuyển theo ba trạng thái gồm: khởi động, trung gian/chuyển động kết thúc Sự thay đổi hình trạng bàn tay có tính chu kỳ từ lúc đóng tay sau mở tay đóng tay lại mơ tả Hình 2.1 Middle Start Stop Move Stop Start Turn on_off Middle Start Start Stop Increase Move Stop Start Middle Decrease Start Middle Middle Stop Stop Next Back Hình 2.1 Sự thay đổi hình trạng tay quỹ đạo cử tay định nghĩa 2.2.3 Đặc điểm CSDL x x( t ) = x( t + T ) x(t) x(t+T) time t Stop Move t+T T b Ideal periodic signal in time domain Middle Start s= 2Πt T c Ideal periodic signal in phase domain a Closed-form gestures Hình 2.2 Phân tích đặc điểm tín hiệu có tính chu kỳ Mỗi cử định nghĩa khác biệt thay đổi hình trạng bàn tay hướng dịch chuyển tay Trong đó, hình trạng tay bao gồm chuỗi liên tiếp cử tay có tính chu kỳ chuyển động bàn tay biểu diễn ý nghĩa lệnh Bộ CSDL có số đặc điểm sau: - Mỗi cử có trạng thái bắt đầu kết thúc giống Tính chất sử dụng để phân đoạn chuỗi cử động bàn tay - Mỗi cử tay xem tín hiệu có tính chu kỳ đóng biểu diễn Hình 2.2 - Thời gian thực thi cử lớp lớp cử khác không giống tốc độ thực người, và/hoặc hướng chuyển động bàn tay lệnh không giống - Các cử lớp khơng đồng pha với Trong lớp, trạng thái loại cử khơng đồng 2.3 Thu thập CSDL Từ năm cử định nghĩa, bốn CSDL thu thập môi trường, ngữ cảnh khác gồm MICA1, MICA2, MICA3, MICA4 Đặc điểm CSDL thể chi tiết Bảng 2.2: Bảng 2.2 Đặc điểm CSDL CSDL Đặc điểm Số lượng người Môi trường Điều kiện Nhiễu Số vị trí Khoảng cách (m) 2.4 MICA1 MICA2 MICA3 MICA4 16 35 33 Phịng thí nghiệm (PTN) Hội chợ Hội chợ PTN Đơn giản Phức tạp Phức tạp Đơn giản Ít Nhiều 2.5 Nhiều 1.5; 2.5 Ít 13 1.5->3 Thảo luận kết luận Sau khảo sát tập CSDL công bố xuất phát từ yêu cầu toán điều khiển thiết bị điện gia dụng, CSDL định nghĩa CSDL bao gồm năm lệnh, tương ứng với lệnh để điều khiển hầu hết thiết bị điện gia dụng Tập CSDL đề xuất bao gồm chuỗi cử tay có tính chất chu kỳ đóng, dễ nhớ, dễ thực Bốn CSDL thu thập môi trường khác nhau, với điều kiện phông khác nhau, đa dạng độ tuổi giới tính người tham gia thu thập Các CSDL chia sẻ cho cộng đồng nghiên cứu CHƯƠNG TRÍCH CHỌN BÀN TAY VÀ PHÂN ĐOẠN CỬ CHỈ ĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜI DÙNG 3.1 Mở đầu Tương tác người máy thông qua cử bàn tay xem cách thức tương tác tự nhiên thân thiện Tuy nhiên, cách thức điều khiển phải đối mặt với nhiều thách thức phức tạp biến đổi cấu trúc bàn tay, điều kiện chiếu sáng khác nhau, điều kiện phơng phức tạp Vì vậy, thuật tốn đề xuất yêu cầu xử lý phức tạp và/hoặc tính tốn thời gian cao Trong việc phát trích chọn vùng bàn tay bước tiền xử lý toán nhận dạng cử động bàn tay Vì vậy, nội dung chương đề xuất giải pháp học tham số mô hình để đạt độ xác cao, đáp ứng thời gian thực phát trích chọn vùng bàn tay Sau đó, dựa vào việc kết hợp dạng tín hiệu biến đổi theo quy luật cử động định nghĩa, đề xuất giải pháp để phân đoạn chuỗi cử động bàn tay đáp ứng thời gian thực 3.2 Giản đồ học người dùng 3.2.1 Một số giả thiết ràng buộc 3.2.2 Sơ đồ đề xuất (a) The proposed vision-based hand detection and segmentation RGB image Hand region Preprocessing data Kinect Detecting body area Hand detected and Segmented Detecting hand candidates Depth image Pruning hand Learning parameters (µ,δ) ,η of background model Learning parameters (d±∆) of a distance to hand Learning parameters (µ,δ) of skin model (b) The proposed user-guide scheme Hình 3.1 Minh họa hệ thống đề xuất phát trích chọn bàn tay - Tiền xử lý: Do ảnh I D thu thập từ cảm biến Kinect khơng có tọa độ Do đó, bước tiền xử lý nhằm hiệu chỉnh để đưa điểm ảnh màu ảnh độ sâu tọa độ Phương pháp đề xuất [1] sử dụng - Phát người Bd : B d = D| Dif f (D,BG)>T hresh body (3.1) - Phát tay H d : H d = B d |B d M , véc tơ khoảng cách nhỏ tính tốn hai cử tay gần D inter (dmin = min(D inter )) Phép loại trừ điểm từ hai điểm gần thực (4.10) Quá trình lặp lại chuỗi cử tay có kích thước M : Premoved = The most similar frames πT si < N Pi [(di−1 < d i+1 )&(i 6= N − 1)]or [(i = 1)] P i+1 [(di−1 > d i+1 )&(i 6= 1)]or [(i = N − 1)] The most different frames Rejected the most similar frames si > π T si = N (a) Quasi close-form gesture (4.10) Interpolated between Different frames 2π T N si = 2πT N (c) Quasi close-form gesture (d) The ideal close-form gesture (b) The ideal close-form gesture Hình 4.6 Quá trình đồng pha chuỗi cử động 4.2.3.4 Nhận dạng cử động bàn tay Sau bước nội suy, tất cử động biểu diễn véc tơ có kích thước Bước nhận dạng cử động thực với phân lớp khác SVM, NB, DT, RF, NN, KNN Việc sử dụng phân lớp nhằm mục đích lựa chọn phân lớp phù hợp với véc tơ biểu diễn đề xuất 17 4.3 Các đánh giá thử nghiệm Trong phần này, đánh giá thực bao gồm: Độ xác hệ thống đề xuất điều chỉnh hệ số nội suy chuỗi cử M , điều chỉnh tham số phân lớp SVM, độ xác nhận dạng sử dụng giá trị tối ưu hệ số M , so sánh đánh giá độ xác nhận dạng với đặc trưng riêng lẻ kết hợp, so sánh hiệu giải pháp đề xuất CSDL khác NVIDIA[5] Hiệu hệ thống điều chỉnh hệ số nội suy 100 Recall (%) Recall MICA2 96 (%) 94 92 90 88 86 84 82 80 10 18 30 40 60 80 100 Temporal resolution value MICA1 98 96 94 92 90 88 10 18 30 40 60 80 100 Temporal resolution value Recall 95 (%) 100 Recall (%) 80 MSRGesture3D 90 NVIDIA 60 85 40 80 20 75 70 10 15 18 25 30 35 40 50 60 70 80 90 100 150 4.3.1 Temporal resolution value 10 18 30 40 60 80 100 Temporal resolution value Hình 4.7 Kết nhận dạng tương ứng với điều chỉnh hệ số M 4.3.2 Đánh giá hiệu giải pháp đề xuất KLT-ISOMAP Recall(%) 100 ISOMAP Recall(%) 100 KLT DTW Based[D4] - C3D-SVM[8] The proposed method 80 80 60 60 40 40 20 20 0 MICA MICA Dataset MICA MICA MICA1 MICA MICA3 MICA4 Dataset (a) The comparison combination characteristics (b) Performance comparisons with different techniques Hình 4.8 So sánh kết hợp đặc trưng (KLT ISOMAP) cử động 4.3.3 So sánh hiệu giải pháp đề xuất nhiều vị trí khác Recall (%) 100 DTW-based[D4] C3D-SVM[8] The proposed method 80 60 40 20 10 11 12 Positions (differences in distance and direction to Kinect) 13 Hình 4.9 So sánh hiệu số giải pháp nhận dạng khác Kết đánh giá cho thấy giải pháp đề xuất đáp ứng tốt với hướng quay khác nhau, vị trí khác bàn tay đến cảm biến Kinect Giải pháp đề xuất đạt kết tốt ba kỹ thuật thử nghiệm (đạt độ xác 96.66%) 18 4.3.4 Đánh giá hiệu CSDL khác Bảng 4.1 Hiệu giải pháp đề xuất ba CSDL khác CSDL MSRGesture3D NDIVIA Dataset Our dataset 4.4 Độ xác (%) Triệu hồi (%) 94.5 ± 3.1 93.56 ± 5.1 88.85 ± 4.7 87.5 ± 4.2 96.1 ± 3.2 96.45 ± 2.1 Thảo luận kết luận Chương trình bày biểu diễn cho cử động bàn tay kết hợp đặc trưng không gian dựa biểu diễn đa tạp ISOMAP thời gian dựa KLT Giải pháp nội suy không gian cho mẫu tín hiệu có tính chu kỳ đóng thực trước đưa vào phân lớp RBF-SVM, phân lớp phù hợp với đặc trưng biểu diễn đề xuất Kết cho thấy hệ thống đạt độ xác nhận dạng cao nhiều vị trí góc nhìn khác nhau, cao so với giải pháp sử dụng kỹ thuật học sâu tiên tiến C3D giải pháp đồng pha DTW[D4] CHƯƠNG TRIỂN KHAI ỨNG DỤNG ĐIỀU KHIỂN THIẾT BỊ GIA ĐỤNG SỬ DỤNG CỬ CHỈ TAY ĐỘNG 5.1 Mở đầu Chương trình bày trình triển khai hệ thống điều khiển thiết bị điện gia dụng sử dụng cử tay định nghĩa Hệ thống điều khiển hoạt động thông thường thiết bị điện gia dụng bật/tắt, tăng/giảm cường độ sáng đèn hoạt động đèn Hệ thống cho phép người dùng tương tác cách tự nhiên thuận tiện mà không yêu cầu giao diện người dùng 5.2 Triển khai hệ thống điều khiển sử dụng cử tay 5.2.1 Ánh xạ cử tay với tập lệnh Để ánh xạ tập lệnh định nghĩa với chế độ thiết bị, sáu trạng thái hoạt động đèn tương ứng với sáu mức sáng (0 % - Đèn tắt, 20%, 40%, 60%, 80%, 100% cường độ sáng) thực Tương tự vậy, với sáu chế độ hoạt động quạt Bật/Tắt, thay đổi ba tốc độ quay quạt, đèn ngủ quạt, chuyển hướng Các lệnh thực thông qua năm cử tay định nghĩa (G={Bật/Tắt, Tăng, Giảm, Tiếp theo, Quay lại}) 19 5.2.2 Các chế độ hoạt động hệ thống điều khiển sử dụng cử tay Giản đồ biểu diễn chuyển trạng thái mô tả Hình 5.1 Decrease Increase Decrease Increase Decrease Increase Level /Speed (0%) Next Back Decrease Increase Level /Speed (20%) Next Back Level /Speed (40%) Next Level /Speed (60%) Back Next Back Level /Speed (80%) Next Back Level /Speed (100%) Turn on_off Turn on_off Hình 5.1 Giản đồ trạng thái hệ thống điều khiển đèn/quạt 5.2.3 Triển khai hệ thống điều khiển Zig-bee HUE Philip HUE Lamp Zig-bee Router Scene Kinect sensor PC The dynamic hand gesture recognition system Arduino Transceivers Vinawin Fan Home appliances Hình 5.2 Kết nối phần cứng hệ thống điều khiển đèn quạt 5.3 Các đánh giá thử nghiệm hệ thống điều khiển Môi trường thử nghiệm thiết kế mô theo phịng thực tế gia đình phịng thơng minh Viện nghiên cứu Quốc tế Truyền thông Đa phương tiện MICA - Đại học Bách khoa Hà Nội Các đồ dùng phịng bố trí tương tự phịng sinh hoạt gia đình gồm tivi, đèn, quạt, bàn ghế, cửa vào, camera, điều hòa, Hai hệ thống cài đặt để điều khiển thiết bị chiếu sáng (đèn) thiết bị làm mát (quạt) Sau đặt cố định cảm biến Kinect, mười ba vị trí khác tầm nhìn thấy phía trước cảm biến Kinect đánh dấu 5.3.1 Thiết lập ngữ cảnh 5.3.2 Cài đặt môi trường 5.3.3 Xây dựng kịch 5.3.4 Các đánh giá thử nghiệm 5.3.4.1 Đánh giá chi phí thời gian tồn hệ thống môi trường thực Tổng thời gian kể từ bước xử lý liệu đầu vào lệnh định khoảng thời gian 969.292ms Thời gian kể từ người dùng kết thúc lệnh, sau 20 khoảng thời gian 113.662 ms hệ thống phát lệnh điều khiển Thời gian ngắn phù hợp để triển khai ứng dụng thực tế Starting a gesture Ending a gesture 855.873ms Decision 113.662ms Time Pre_processing1 Hand …… Pre_processingN detection1 (4.501 േ◌0.39)ms *13.5frames Hand Spotting detectionN (58.897 േ◌14.4)ms *13.5frames 0.954 േ◌0.27 ms Gesture extraction Recognition 112.036 േ◌50.4 ms 0.672 േ◌0.013 ms Hình 5.3 Chi phí thời gian tồn hệ thống tương tác cử tay 5.3.4.2 Đánh giá hiệu hệ thống phát nhận dạng Độ triệu hồi, độ xác độ đo F tồn hệ thống tính tốn Kết mô tả Bảng 5.1 sau đây: Bảng 5.1 Độ xác (%) hệ thống thực với 05 lệnh điều khiển Độ đo Cử Bật/Tắt Tăng Giảm Tiếp theo Quay lại Trung bình(%) 5.3.5 Độ xác(%) Triệu hồi(%) F1 Hệ số(%) 85.64 98.77 93.33 97.07 96.49 94.26 ± 4.66 89.63 87.5 90.81 85.12 84.18 87.45 ± 2.54 87.59 92.79 92.05 90.71 89.91 90.61 ± 1,81 Đánh giá phản hồi người dùng hệ thống 8.33 8.33 16.66 Yes 91.67 (a) % Users agreements (Yes/no) on using hand to control appliances 8.33 16.66 8.33 8.33 (c) Overall users’ satisfactions 10 41.66 25 More quickly 33.33 33.33 16.66 More convenient 33.33 33.33 58.33 (b) % Users again a gesture when the system “do nothing” 16.66 16.66 (d) Users’ feeling on the interaction way using hand (e) Assessments on responding time Hình 5.4 Đánh giá người dùng hệ thống 21 More satisfied Repeat times No 8.33 16.66 5.4 Thảo luận kết luận Chương trình bày cách thức triển khai đánh giá hệ thống điều khiển 02 thiết bị điện gia dụng (đèn, quạt) sử dụng cử động bàn tay Kết cho thấy giải pháp đề xuất từ CSDL định nghĩa đến giải pháp phát hiện, nhận dạng chuỗi cử động khả thi để triển khai ứng dụng thực Bộ CSDL dễ nhớ, dễ thực hiện, tự nhiên với người dùng Bên cạnh đó, kết nhận dạng hệ thống cuối đạt với độ xác xấp xỉ 90.61% mơi trường phịng thí nghiệm, chi phí thời gian thấp xấp xỉ giây KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận LATS đề xuất phương pháp cho toán nhận dạng cử bàn tay ứng dụng tương tác người thiết bị môi trường nhà Các đóng góp LATS tóm lược sau: Đề xuất tập cử tay động để điều khiển hầu hết thiết bị nhà thơng minh Tập cử khơng có tính tự nhiên thân thiện người dùng cuối mà cho phép hệ thống nhận dạng hoạt động bền vững với yếu tố mơi trường, vị trí hướng điều khiển người Nâng cao hiệu thuật toán: phát bàn tay, phân đoạn cử động, nhận dạng cử động Cụ thể sau: – Đề xuất phương pháp học tham số mơi trường mơ hình nền, mơ hình màu da, khoảng cách từ người đến Kinect Đề xuất làm tăng độ xác phát hiện, đồng thời giảm thời gian tính tốn pha tiền xử lý hệ thống – Nghiên cứu đề xuất phương pháp hiệu quả, đơn giản, thời gian thực để phân đoạn cử động bàn tay từ chuỗi hình ảnh liên tiếp thu nhận từ Kinect Đây pha tiền xử lý quan trọng trước thực nhận dạng cử Với đặc điểm tập cử có tính chu kỳ, hiệu giải thuật phân đoạn cử động cải thiện đáng kể – Đã đề xuất biểu diễn cử động bàn tay dựa việc kết hợp đồng thời đặc trưng không gian thời gian Trong đặc trưng thời gian trích chọn từ lộ trình chuyển động bàn tay, đặc trưng không gian biểu diễn khơng gian có số chiều thấp sử dụng kỹ thuật đa tạp Hơn nữa, LATS đề xuất phương pháp nội suy để giải vấn đề liên quan đến biến động pha cử 22 sai khác vận tốc thực cử chỉ, độ dài cử tốc độ lấy mẫu cảm biến Cuối giải thuật học máy SVM sử dụng để thực phân lớp cử Triển khai, cài đặt, đánh giá hệ thống điều khiển đèn quạt môi trường nhà thông minh Viện MICA hội chợ triển lãm KHCN trường ĐHBK Hà Nội với nhiều người dùng khác Bên cạnh đóng góp trên, LATS số hạn chế sau: Hiện tại, tập cử gồm năm cử có tính chu kỳ để điều khiển số chức hầu hết thiết bị nhà Tuy nhiên, tập cử hạn chế mặt số lượng Thông tin độ sâu sử dụng để tách biệt vùng bàn tay khỏi người Do độ phân giải cảm biến độ sâu Kinect hạn chế, không tin cậy khoảng cách xa (>3m), đặc biệt độ sâu không đo khoảng cách gần (0.8m) xa (4m) Vì vậy, phương pháp đề xuất không hiệu người dùng đứng gần xa cảm biến Kinect Việc biểu diễn cử động bàn tay dựa thông tin màu mà chưa khai thác thông tin độ sâu thu từ cảm biến Kinect Mặc dù phương pháp biểu diễn cử chứng minh thực nghiệm bền vững so với số phương pháp có, hiệu phương pháp đề xuất cần phải đánh giá sâu Đặc biệt ảnh hưởng yếu tố vị trí hướng người điều khiển so với Kinect đến hiệu phương pháp cần phân tích kỹ Ứng dụng điều khiển thiết bị phịng thơng minh đánh giá với giả thiết có người phòng điều khiển Định hướng nghiên cứu Đối với tập cử điều khiển: Mở rộng để đa dạng hóa tập cử điều khiển thiết bị khác gồm cử tĩnh cử động Đối với hệ thống nhận dạng cử chỉ: – Trong pha phát phân vùng bàn tay, đề xuất ước lượng thích nghi khoảng cách từ người dùng đến cảm biến, áp dụng giải thuật bám vết, làm mịn hành trình (sử dụng lọc Kalman, lọc hạt) để nâng cao hiệu phát bàn tay – Trong pha phân đoạn cử động: Kết hợp đặc trưng khác tính chu kỳ hướng chuyển động, ràng buộc đa tạp đóng từ điểm bắt đầu 23 điểm kết thúc cử Đây hướng nghiên cứu hứa hẹn nhằm nâng cao hiệu việc phân đoạn cử – Trong pha nhận dạng cử động: Tìm đa tạp chung từ nhiều đa tạp xây dựng từ thể thức khác liệu (màu, độ sâu) nhằm kết hợp đồng thời biểu diễn đa thể thức cử Về mặt phát triển ứng dụng: Sử dụng phiên Kinect nhằm nâng cao độ phân giải khả đo Kinect Kết hợp nhiều Kinect để ước lượng vị trí hình dáng người không gian Từ đây, phát triển ứng dụng điều khiển thiết bị cách tự nhiên, thân thiện đáp ứng thời gian thực Tài liệu tham khảo [1] Herrera D., Kannala J., and Heikkila J., (2012), “Joint depth and color camera calibration with distortion correction”, Pattern Analysis and Machine Intelligence (TPAMI), 34(10):pp 2058–2064 [2] T Lin and H Zha, (2008), “Riemannian Manifold Learning”, Pattern Analysis and Machine Intelligence (TPAMI), Vol 30, No 5, pp 796–809 [3] Lucas B.D and Kanade T., (1981), “An iterative image registration technique with an application to stereo vision,” International Joint Conference on Artificial Intelligence (IJCAI), pp 674–679 [4] Arpit Mittal A.Z and Torr P., (2011), “Hand detection using multiple proposals”, The British Machine Vision Conference (BMVC), pp 75.1–75.11 [5] Molchanov P., Yang X., Gupta S., Kim K., Tyree S., and Kautz J., (2016), “Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks”, Computer Vision and Pattern Recognition (CVPR), pp 4207–4215 [6] Pisharady P.K., Vadakkepat P., and Loh A.P (2013), “Attention Based Detection and Recognition of Hand Postures Against Complex Backgrounds”, International Journal of Computer Vision, pp 403–41 [7] Stauffer C and Grimson W (1999), “Adaptive background mixture models for real-time tracking”, Computer Vision and Pattern Recognition (CVPR), pp 246 – 252 [8] Tran D., Bourdev L., Fergus R., Torresani L., and Paluri M (2015), “Learning spatiotemporal features with 3d convolutional networks”, The IEEE International Conference on Computer Vision (ICCV), pp 4489-4497 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA TÁC GIẢ [D1] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2014) Ultilizing Depth Image from Kinect sensor: Error Analysis and Its Application, in the proceeding of the 7th Vietnamese Conference on FAIR 2014, ThaiNguyen, VietNam, ISBN: 978-604913-300-8, pp 216-222, 2014 [D2] Huong-Giang Doan, Hai Vu, Thanh-Hai Tran, and Eric Castelli (2015) Improvements of RGBD hand posture recognition using an user-guide scheme, In 2015 IEEE 7th International Conference on CIS and RAM, Cambodia, ISSN 2326-8123, ISBN 978-1-4673-7338-8, DOI 10.1109/ICCIS.2015.7274-542, pp 24-29, 2015 [D3] Huong-Giang Doan, D.Anh Vu, Hai Vu, and Thanh-Hai Tran (2015) Dynamic hand gesture recognition utilizes spatial-temporal features, The 8th Vietnamese Conference on FAIR 2015, Hanoi, VietNam, ISBN: 978-604-913-397-8, pp 257-267, 2015 [D4] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2015) Recognition of hand gestures from cyclic hand movements using spatial-temporal features, in the proceeding of the Sixth IEEE International SoICT 2015, Hue City, Vietnam, ISBN 978-1-4503-3843-1, pp 260-267, 2015 [D5] Huong-Giang Doan, Van-Toi Nguyen, Hai Vu, and Thanh-Hai Tran (2016) A combination of user-guide scheme and kernel descriptor on rgb-d data for robust and realtime hand posture recognition, Journal of EAAI, Elsevier, ISSN: 0952-1976, vol 49, no C, pp 103-113, 2016, (ISI) [D6] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2016) Phase Synchronization in a Manifold Space for Recognizing Dynamic Hand Gestures from Periodic Image Sequence, in the proceeding of the 12th IEEE International Conference on RIVF 2016, ISBN 978-1-5090-4134-6, pp 163 - 168, Hanoi, VietNam, 2016 [D7] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic hand gesture recognition from cyclical hand pattern, to appear in proceeding of The fifteenth IAPR International Conference on MVA2017, pp 84-87, Nagoya, Japan, May 8-12, 2017 [D8] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) New Cyclical Pattern and Temporal-Spatial Representation for Robust Dynamic Hand Gesture Recognition, Doctoral Consortium of the IEEE FG’17 (appear on the IEEE FG’17 website), Washington DC, USA, May 30- Jun 03, 2017 [D9] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic Hand Gesture Recognition using cyclical patterns of hand movement and its applications, Journal of Science and Technology(JST2017), Technical Universities, pp 134-139, Viet Nam, Jun, 2017 ... vision-based hand detection and segmentation RGB image Hand region Preprocessing data Kinect Detecting body area Hand detected and Segmented Detecting hand candidates Depth image Pruning hand Learning... [D9] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic Hand Gesture Recognition using cyclical patterns of hand movement and its applications, Journal of Science and Technology(JST2017),... pp 163 - 168, Hanoi, VietNam, 2016 [D7] Huong-Giang Doan, Hai Vu, and Thanh-Hai Tran (2017) Dynamic hand gesture recognition from cyclical hand pattern, to appear in proceeding of The fifteenth