Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

59 5 0
Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NCKH CẤP TRƯỜNG TRỌNG ĐIỂM THIẾT KẾ HỆ THỐNG NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG MẠNG NƠ-RON CHẬP S K C 0 9 MÃ SỐ: T2020-44TĐ S KC 0 Tp Hồ Chí Minh, tháng 04/2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM THIẾT KẾ HỆ THỐNG NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG MẠNG NƠ-RON CHẬP Mã số: T2020-44TĐ Chủ nhiệm đề tài: ThS Lê Minh Thành TP HCM, 04/2021 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM THIẾT KẾ HỆ THỐNG NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG MẠNG NƠ-RON CHẬP Mã số: T2020-44TĐ Chủ nhiệm đề tài: ThS Lê Minh Thành Thành viên đề tài: PGS TS Phan Văn Ca PGS.TS Trương Ngọc Sơn ThS Lê Minh ThS Đặng Phước Hải Trang TS Đỗ Duy Tân TP HCM, 04/2021 DANH SÁCH THÀNH VIÊN THAM GIA ĐỀ TÀI Số TT Họ Tên Nhiệm vụ Lê Minh Thành Chủ nhiệm Phan Văn Ca Thành viên Trương Ngọc Sơn Thành viên Lê Minh Thành viên Đặng Phước Hải Trang Thành viên Đỗ Duy Tân Thành viên MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC CÁC CHỮ VIẾT TẮT Chương MỞ ĐẦU 1.1 Tổng quan 1.2 Mục tiêu đề tài 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Nội dung nghiên cứu Chương MẠNG NƠ-RON TÍCH CHẬP VÀ ỨNG DỤNG NHẬN DẠNG CỬ CHỈ BÀN TAY 2.1 Mạng nơ-ron tích chập 2.2 Tổng quan kỹ thuật phát đối tượng 13 2.2.1 Phát đối tượng sử dụng mô hình R-CNN (Regions with CNN Features) 13 2.2.2 Phát đối tượng sử dụng mơ hình Single Shot Detector (SSD) 15 2.3 Tăng cường liệu 16 Chương 18 THIẾT KẾ HỆ THỐNG 18 NHẬN DẠNG CỬ CHỈ BÀN TAY 18 3.1 Thiết kế hệ thống nhận dạng bàn tay với ảnh bàn tay tĩnh 18 3.2 Thiết kế hệ thống nhận dạng bàn tay với ảnh bàn tay từ camera 21 Chương 28 KẾT QUẢ NGHIÊN CỨU VÀ ỨNG DỤNG 28 4.1 Hệ thống nhận dạng bàn tay với ảnh bàn tay tĩnh 28 4.2 Hệ thống nhận dạng bàn tay thời gian thực 30 Chương 35 KẾT LUẬN VÀ KIẾN NGHỊ 35 5.1 Kết nghiên cứu 35 5.2 Kiến nghị định hướng nghiên cứu 35 TÀI LIỆU THAM KHẢO 36 PHỤ LỤC 39 Bài báo thuộc danh mục sản phẩm đề tài 39 DANH MỤC BẢNG BIỂU Bảng 1: Tập liệu ngõ vào 18 Bảng 2: Các thông số mạng nơ-ron đề xuất cho ứng dụng nhận dạng cử tay 19 Bảng 3: Thơng số mạng nơ-ron mơ hình phát bàn tay .23 Bảng 4: Thông mơ hình cho ứng dụng phân loại cử tay 26 Bảng 5: Các thơng số huấn luyện mơ hình .26 Bảng 1: Quá trình huấn luyện kiểm tra 28 Bảng 2: Kết nhận dạng theo cử 29 Bảng 3: Kết nhận dạng độ mở khác cử 29 DANH MỤC CÁC CHỮ VIẾT TẮT CNN Convolutional Neural Network R-CNN Regions with CNN Features VOC Visual Object Class GPU Graphics Processing Unit TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự - Hạnh phúc KHOA ĐIỆN – ĐIỆN TỬ Tp HCM, ngày 10 tháng 04 năm 2021 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Thiết kế hệ thống nhận dạng cử bàn tay dùng mạng nơ-ron chập - Mã số: T2020-44TĐ - Chủ nhiệm: ThS Lê Minh Thành - Cơ quan chủ trì: Trường Đại học Sư phạm Kỹ thuật TP.HCM - Thời gian thực hiện: 12 tháng Mục tiêu: Đề tài thiết kế mô hệ thống nhận dạng cử bàn tay dùng mạng nơ-ron chập với ngõ vào ảnh cử bàn tay phân loại thành cử bao gồm: “năm ngón tay khép kín”, “năm ngón tay mở”, “cử bốn ngón tay mở”, “bàn tay nắm”, “cử có ba ngón tay mở” “cử có hai ngón tay mở” Tính sáng tạo: Tạo tập liệu hình thái khác cử bàn tay, đề xuất cấu trúc nhận dạng hình thái cử bàn tay Kết nghiên cứu: - Hệ thống có khả nhận dạng trạng thái cử bàn tay với độ xác 98.6% - Thiết kế hệ thống nhận dạng cử bàn tay theo thời gian thực Thông tin chi tiết sản phẩm: a Sản phẩm khoa học: + Báo cáo khoa học (ghi rõ số lượng, giá trị khoa học): 01 báo cáo khoa học + Bài báo khoa học (ghi rõ đầy đủ tên tác giả, tên báo, tên tạp chí, số xuất bản, năm xuất bản): 01 báo chấp nhận đăng Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng b Sản phẩm ứng dụng (bao gồm vẽ, mơ hình, thiết bị máy móc, phần mềm…, ghi rõ số lượng, quy cách, công suất….): Chương trình mơ Matlab python Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Kết nghiên cứu dùng làm tài liệu tham khảo cho sinh viên học chuyên ngành điện tử truyền thông Trưởng Đơn vị Chủ nhiệm đề tài (ký, họ tên) (ký, họ tên) INFORMATION ON RESEARCH RESULTS General information: Project title: A design of hand gesture recogntion system using convolutional neural network Code number: T2020-44TĐ Coordinator: Le Minh Thanh Implementing institution: HCMC University of Technology and Education Duration: from 05/2020 to 05/2021 Objective(s): Design a hand gesture recognition system using convolutional neural network The proposed convolutional network is capable of recognizing different gestures of the right hand Creativeness and innovativeness: Hand gestures dataset was proposed for the application of hand gesture recogntion Research results: - Scientific output: 01 scientific report, 01 paper accepted in the Journal of Science and Technology, Da Nang University (JST-UD) - Applied output: Products: - Simulation program by using Matlab and Python Effects, transfer alternatives of research results and applicability: The research results are used as a reference for the students of the electronics communication engineering ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 4.1, 2021 53 NHẬN DẠNG CỬ CHỈ BÀN TAY DÙNG MẠNG NƠ-RON CHẬP HAND GESTURE RECOGNITION USING CONVOLUTIONAL NEURAL NETWORK Lê Minh Thành1, Lê Minh1, Phan Văn Ca1, Đặng Phước Hải Trang1, Đỗ Duy Tân1, Trương Ngọc Sơn1* Trường Đại học Sư phạm Kỹ thuật TP Hồ Chí Minh Tác giả liên hệ: sontn@hcmute.edu.vn (Nhận bài: 19/02/2021; Chấp nhận đăng: 15/4/2021) * Tóm tắt - Giao diện người – máy trực quan người điều khiển máy tính giọng nói hay cử mà khơng cần dùng thiết bị điều khiển chuột hay bàn phím Đặc biệt, hệ thống thị giác thích hợp mơi trường ồn có âm bị nhiễu Bên cạnh đó, mạng nơ-ron chập áp dụng nhiều toán nhận dạng với độ xác cao nhận dạng gương mặt, nhận dạng số viết tay, xử lý ngôn ngữ tự nhiên Bài báo thiết lập mạng nơ-ron chập với 14 lớp ứng dụng vào hệ thống nhận dạng cử bàn tay phải, với đối tượng đầu vào ảnh tĩnh thu từ camera điện thoại Tập liệu huấn luyện tạo từ cử tay người Kết mô matlab cho thấy hệ thống có tỷ lệ xác 98,6% ảnh bàn tay chụp diện, có độ sáng độ mở ngón tay thích hợp Abstract - The human-machine interfaces will be more efficient when operated with voices or gestures without any hardware, such as mouse or keyboards In particular, vision-based systems will be more appropriate in loud environments or environments with noises In addition, the convolutional neural network has been applied more and more frequently in recognition problems with high accuracy such as face recognition, handwritten digits recognition, natural language processing In this paper, we employed a convolutional neural network with 14 layers for the hand gesture recognition system with different gestures of the right hand, and the input images were taken by a phone camera The training data set was collected from the hand gesture of people The simulation results obtained using Matlab show that the system has an accuracy of 98.6% for hand images taken from the front with the appropriate brightness and suitable finger distance Từ khóa - Nhận dạng cử bàn tay; nơ-ron chập; CNN Key words - hand gesture recognition; convolutional neural network; CNN Giới thiệu Ngày nay, tự động hóa dần thay hoạt động người nhiều lĩnh vực Với yêu cầu thiết kế địi hỏi độ xác cao, nhiều hệ thống giúp người tiếp cận đến nơi mà tưởng chừng người không đến Điều thách thức giao diện người – máy phải đạt hiệu cao thơng hiểu mà cịn phải đạt tốc độ xử lý nhanh chóng Giao diện người – máy sử dụng thơng qua bàn phím chuột bị giới hạn khoảng cách người dùng với đối tượng cần tương tác [1] Một số tương tác qua giọng nói đem lại nhiều tiện ích cho người dùng điều khiển thiết bị thông qua giọng nói ngơi nhà thơng minh [2], vấn đề nhận dạng đối tượng cần thiết an ninh [3] Tuy nhiên, giao diện bị giới hạn đặc trưng giọng nói theo vùng miền, từ dẫn đến việc thiết kế hệ thống phức tạp khó sử dụng phổ biến [4] Nhận diện cử bàn tay phương pháp để xây dựng giao diện người dùng thân thiện máy người sử dụng Trong tương lai gần, công nghệ nhận dạng cử bàn tay cho phép máy phức hợp thiết bị thông minh hoạt động dựa tư bàn tay, ngón tay di chuyển bàn tay, loại bỏ việc giao tiếp vật lý người máy Ngày nay, với phát triển thư viện mã nguồn mở lĩnh vực thị giác máy tính cho phép thiết kế ứng dụng nhận dạng cử bàn tay dễ dàng áp dụng ứng dụng rộng rãi vào nhiều lĩnh vực y học [5], nhận dạng ngôn ngữ cử [6], điều khiển robot [7], thực tế ảo [8], điều khiển thiết bị nhà [9] ứng dụng giải trí [10] Giải thuật nhận dạng cử bàn tay phát triển ban đầu dựa kỹ thuật xử lý ảnh thị giác máy tính Các giải thuật chủ yếu dựa vào việc phân đoạn tách đặt trưng bàn tay dựa vào số đặc trưng màu da, khung xương, độ xâu, mơ hình chiều, nhận dạng dựa vào chuyển động [11]-[13] Trong năm gần đây, trí tuệ nhân tạo cụ thể mạng học sâu (Deep neural network) trở nên hiệu áp dụng nhiều ứng dụng nhận dạng, phân loại ảnh, xử lý ngơn ngữ tự nhiên Một yếu tố việc phát triển công nghệ vi mạch cho phép hệ thống máy tính có cấu hình mạnh đời tạo điều kiện cho việc thực thi mạng nhiều lớp trở nên hiệu trước Song song với việc phát triển phần cứng mạng học sâu, phát triển thư viện mã nguồn mở cho phép thiết kế cách mạng học sâu cho ứng dụng đa dạng đơn giản Trong báo này, nhóm tác giả trình bày thiết kế mạng nơ-ron tích chập cho toán nhận dạng cử bàn tay Mạng nơ-ron tích chập huấn luyện tập mẫu nhóm tác giả tự tạo bao gồm 27,600 mẫu với lớp khác bao gồm “năm ngón tay khép kín”, “năm ngón tay mở”, “cử bốn ngón tay mở”, “bàn tay nắm”, “cử có ba ngón tay mở” “cử có hai ngón tay mở”, đặt tên tương ứng từ class1 đến class6 Quá trình thực nghiệm cho thấy hệ thống nhận dạng đạt độ xác lên đến 98,6% Ho Chi Minh City University of Technology and Education (Le Minh Thanh, Le Minh, Phan Van Ca, Dang Phuoc Hai Trang, Do Duy Tan, Son Ngoc Truong) Lê Minh Thành, Lê Minh, Phan Văn Ca, Đặng Phước Hải Trang, Đỗ Duy Tân, Trương Ngọc Sơn 54 Thiết kế hệ thống nhận dạng cử bàn tay 2.1 Chuẩn bị tập liệu huấn luyện Hệ thống nhận dạng báo xây dựng để phân biệt loại cử bàn tay phải Tập liệu đầu vào cho trình huấn luyện tạo dựa theo tập liệu Cambride-Gestture Data Base [14] với 27,600 hình ảnh có kích thước 3024×3024 bao gồm ảnh chụp từ người điều kiện không sáng, không tối ảnh khác Các bàn tay chụp vị trí tư khác nhau: Thẳng, nghiêng trái, nghiêng phải, gần xa Tập liệu chia thành tập liệu tập huấn luyện tập kiểm tra với tỉ lệ tương ứng 80% 20% Trong tập liệu huấn luyện tập kiểm tra có tất trường hợp tư vị trí cử có tập liệu, tệp hai tập liệu huấn luyện kiểm tra khơng trùng Ảnh đầu vào giảm kích thước xuống cịn 227×227 để phù hợp với mạng nơ-ron chập để tối ưu thời gian tài nguyên Mẫu bàn tay người tập liệu (tương ứng với số thứ tự từ đến 7) trình bày Bảng Bảng Tập liệu ngõ vào STT Class1 Class2 Class3 Class4 Class5 Class6 Cross Channel Normalization Lớp chuẩn hóa Max Pooling Lớp gộp, cửa sổ 33 Lớp chập 256 lọc kích thước 5548 với bước trượt [1 1] ReLU Hàm kích hoạt Cross Channel Normalization Lớp chuẩn hóa Max Pooling Lớp gộp, sổ 33 với bước trượt [2 2] 10 Chập 384 lọc kích thước 33256 với bước trượt [1 1] 11 ReLU Hàm kích hoạt 12 Chập 384 lọc với kích thước 33192 với bước trượt [1 1] 13 ReLU Hàm kích hoạt 14 Chập 256 Bộ lọc với kích thước 33192 với bước trượt [1 1] 15 ReLU Hàm kích hoạt 16 Max Pooling kernel 3x3 với bước trượt [2 2] 17 Lớp kết nối đầy đủ 4096 nơ-ron 18 ReLU Hàm kích hoạt 19 Dropout 50% 20 Lớp kết nối đầy đủ 4096 nơ-ron 21 ReLU Hàm kích hoạt 22 Dropout 50% 23 Lớp kết nối đầy đủ 1000 nơ-ron 24 ReLU Lớp hiệu chỉnh 25 Dropout 50% 26 Lớp kết nối đầy đủ nơ-ron 27 Softmax Phân bố xác suất ngõ 28 Ngõ nhãn Bảng liệt kê mẫu bàn tay người với lớp cử khác chụp từ điện thoại để tạo tập liệu cho trình huấn luyện 2.2 Thiết kế kiến trúc mạng nơ-ron chập Một mơ hình mạng nơ-ron chập (Convolutional neural network) bao gồm 28 lớp với thông số chi tiết trình bày Bảng thiết kế cho ứng dụng nhận dạng cử bàn tay Bảng Các thông số mạng nơ-ron đề xuất Kiểu lớp STT Thông số Ảnh đầu vào 2272273 Lớp chập 96 lọc kích thước 11113 với bước trượt [4 4] ReLU Hàm kích hoạt Đầu vào hệ thống ảnh màu kênh R, G, B với kích thước 2272273 từ tập liệu Sau đó, ảnh đầu vào nhân chập lần với 96 lọc chiều có kích thước 11113 với bước trượt [4 4] Các ảnh đặc trưng đầu (96 ảnh với kích thước 55553) tiếp tục đưa qua hàm kích hoạt ReLU thực chuẩn hóa chéo kênh (5 kênh/phần tử) Sau đó, ảnh tiếp tục đưa qua lớp gộp sử dụng hàm Max Pooling với lọc 33 bước trượt [2 2] thu ảnh có kích thước 27273 Các thao tác bao gồm nhân chập, kích hoạt với hàm ReLu chuẩn hóa chéo kênh (5 kênh/phần tử) tiếp tục thi lần ảnh để thu 256 ảnh đặc trưng với kích thước 11113 Các ảnh tiếp tục nhân chập kích hoạt hàm ReLU thêm lần trước qua lớp Max Pooling lần cuối Kết thu lúc 256 ảnh với kích thước 223 Sau đó, lớp kết nối đầy đủ sử dụng, theo sau hàm kích hoạt ReLU Dropout với tỉ lệ 50% để tránh tượng khớp Thao tác thực thi lần với số lượng nơ-ron lớp kết nối đầy đủ 4096, 4096 1000 nơ-ron Cuối cùng, lớp kết nối đầy đủ với nơ-ron sử dụng, theo sau ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 19, NO 4.1, 2021 hàm Softmax ngõ cuối hệ thống để tạo phân bố xác xuất Ngõ cuối gồm nhãn, tương ứng với cử tay cần nhận dạng (class1 – class6) Kết thực nghiệm 3.1 Kết trình huấn luyện mạng Độ xác giá trị mát trình huấn luyện kiểm tra với số lần lặp lại từ 100 đến 882 lần trình bày Bảng Bảng Quá trình huấn luyện kiểm tra Giá trị Giá trị Độ Số lần Thời gian mát mát xác lặp lại (s) tập huấn tập tập huấn luyện kiểm tra luyện (%) Độ xác tập kiểm tra (%) 55 ảnh cử bàn tay có độ mở ngón tay khác khơng trùng với ảnh có sở liệu Việc kiểm tra thực với ảnh chụp trực tiếp từ camera thử 100 lần Kết trình bày Bảng Bảng Kết nhận dạng độ mở khác cử Mẫu Kết Class1 Class1 Class1 Tỷ lệ (%) 100 99,99 100 Mẫu 1,97 2,3371 2,3371 10 17,30 100 238,99 0,2921 0,4770 88 81,18 Kết Class2 Class2 Class2 200 465,30 0,0508 0,4093 100 83,97 Tỷ lệ (%) 100 99,42 100 300 692,01 0,1436 0,4549 96 81,47 400 923,21 0,0058 0,4239 100 84,17 500 1157,13 0,0088 0,3034 100 88,51 600 1391,19 0,0015 0,3487 100 87,64 Kết Class3 Class3 Class3 Tỷ lệ (%) 99,97 99,8 99,06 Kết Class3 Class5 Class5 Tỷ lệ (%) 91 97,88 99,74 Kết Class6 Class6 Class6 Tỷ lệ (%) 98,99 99,22 99,24 700 1620,36 0,0127 0,2780 100 89,08 800 1852,25 0,0015 0,4406 100 85,89 882 2052,19 0,0002 0,2561 100 99,17 Dựa vào kết liệt kê Bảng thấy, sau 882 lần huấn luyện tỉ lệ nhận dạng xác tập kiểm tra cải thiện từ 17,3% lần huấn luyện lên tới 99,17% lần huấn luyện thứ 882 Các thông số mơ hình lần huấn luyện cuối sử dụng để thực nghiệm hệ thống cho việc nhận dạng thời gian thực 3.2 Kết nhận dạng ảnh tập kiểm tra Kết nhận dạng ảnh tập kiểm tra theo cử với tổng số 920 tệp trình bày ma trận tương quan Bảng Bảng Kết nhận dạng theo cử Class1 Class2 Class3 Class4 Class5 Class6 Tỷ lệ (%) Class1 920 0 0 100 Class2 914 0 99,34 Class3 0 909 0 98,8 Class4 50 920 0 100 Class5 0 0 860 22 93,47 Class6 0 0 920 100 Với tập kiểm tra gồm 920 ảnh, tỉ lệ nhận dạng cao 100% xảy trạng thái ngõ Class1 (năm ngón tay khép kín), Class4 (bàn tay nắm) Class (cử có hai ngón tay mở), tỉ lệ nhận dạng thấp ngõ Class5 (cử có ba ngón tay mở) với độ xác 93,47% Tính trung bình, tỉ lệ nhận dạng xác cho trạng thái ngõ tập liệu kiểm tra 98.6% Để đánh giá độ tin cậy hệ thống, nhóm tác giả tiến hành kiểm tra trình nhận dạng hệ thống Mẫu Mẫu Mẫu Như vậy, với ngón tay có độ mở khác nhau, kết nhận dạng hệ thống xác trạng thái ngõ Class1 (99,99%), Class2 (99,8%), Class6 (99,15%) Kết luận Trong báo này, nhóm tác giả đề xuất mơ hình mạng nơ-ron chập ứng dụng cho việc nhận dạng cử bàn tay với ảnh đầu vào chụp trực tiếp từ camera Tập liệu nhóm tạo với lớp cử bàn tay khác Kết kiểm chứng cho thấy, hệ thống nhận dạng tốt, có tỉ lệ trung bình lên tới 98,6%, với ảnh đầu vào có điều kiện ánh sáng, góc chụp độ mở ngón tay thích hợp Mơ hình mạng nơ-ron tích chập đề xuất cho ứng dụng nhận dạng cử bàn tay ứng dụng hệ thống điều khiển không tiếp xúc, ứng dụng chuyển đổi ngôn ngữ cử sang văn ứng dụng điều khiển thông minh khác Lời cảm ơn: Bài báo sản phẩm đề tài cấp trường trọng điểm mã số T2020 – 44TĐ hỗ trợ trường Đại học Sư phạm Kỹ thuật TP.HCM 56 Lê Minh Thành, Lê Minh, Phan Văn Ca, Đặng Phước Hải Trang, Đỗ Duy Tân, Trương Ngọc Sơn TÀI LIỆU THAM KHẢO [1] Oyebade Oyedotun and Adnan Khashman, “Deep learning in visionbased static hand gesture recognition”, Neural Computing and Applications, vol 28, Apr 2016 [2] Deval G Patel, “Point Pattern Matching Algorithm for Recognition of 36 ASL Gestures”, International Journal of Science and Modern Engineering (IJISME), vol 1, no 7, June 2013 [3] Dennis Núñez Fernández and Bogdan Kwolek, “Hand Posture Recognition Using Convolutional Neural Network”, Polish National Science Center (CNN), Dec 2014 [4] Aashni Haria, Archanasri Subramanian, Nivedhitha Asokkumar, Shristi Poddar, and Jyothi Nayak, “Hand Gesture Recognition for Human Computer Interaction”, Procedia Computer Science, vol 115, pp 367-374, Dec 2017 [5] J P Wachs, M Kölsch, H Stern, Y Edan, “Vision-based handgesture applications” Commun ACM 2011, vol 54, no 2, pp 60– 71, 2011 [6] J.R Pansare, S H Gawande, M Ingle, “Real-time static hand gesture recognition for American Sign Language (ASL) in complex background”, Journal of Signal and Information Processing, vol 3, no 2, Aug 2012 [7] M Van den Bergh, D Carton, R De Nijs, N Mitsou, C Landsiedel, K Kuehnlenz, D Wollherr, L Van Gool, M Buss, “Real-time 3D hand gesture interaction with a robot for understanding directions from humans”, Proceedings of the 2011 Ro-Man, Atlanta, GA, USA, 31 July–3 August, pp 357–362, 2011 [8] R.Y Wang, J Popovi´c, “Real-time hand-tracking with a color glove”, ACM Trans Graph., vol 28, pp 1–8, 2009 [9] S Desai, A Desai, “Human Computer Interaction through hand gestures for home automation using Microsoft Kinect”, Proceedings of the International Conference on Communication and Networks, Xi’an, China, 10–12 October, pp 19–29, 2017 [10] H Kaur, J Rani, “A review: Study of various techniques of Hand gesture recognition” Proceedings of the 2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems (ICPEICES), Delhi, India, pp 1–5, Jul 2016 [11] G R S Murthy, R S Jadon, “A review of vision based hand gestures recognition”, Int J Inf Technol Knowl Manag., vol 2, pp 405–410, 2009 [12] R Z Khan, N A Ibraheem, “Hand gesture recognition: A literature review” Int J Artif Intell Appl., vol 3, pp 161-174, 2012 [13] J Suarez and R R Murphy, “Hand gesture recognition with depth images: A review”, The 21st IEEE International Symposium on Robot and Human Interactive Communication, Paris, France, pp 411-417, 2012 [14] T-K Kim, S-F Wong and R Cipolla, Tensor Canonical Correlation Analysis for Action Classification, In Proc of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Minneapolis, MN, 2007 S K L 0 ... THIẾT KẾ HỆ THỐNG 18 NHẬN DẠNG CỬ CHỈ BÀN TAY 18 3.1 Thiết kế hệ thống nhận dạng bàn tay với ảnh bàn tay tĩnh 18 3.2 Thiết kế hệ thống nhận dạng bàn tay với ảnh bàn. .. phân tích, mơ hệ thống đánh giá kết Chương MẠNG NƠ -RON TÍCH CHẬP VÀ ỨNG DỤNG NHẬN DẠNG CỬ CHỈ BÀN TAY 2.1 Mạng nơ- ron tích chập Mạng nơ- ron tích chập hay cịn gọi ngắn gọn mạng nơ- ron chập (Convolutional... đề tài Thiết kế mô hệ thống nhận dạng cử bàn tay dùng mạng nơ- ron chập với ngõ vào ảnh chứa cử bàn tay Đối với ảnh tĩnh, hệ thống có khả nhận dạng cử bàn tay khác bao gồm “năm ngón tay khép kín”,

Ngày đăng: 06/01/2022, 16:59

Hình ảnh liên quan

Hình 2.1: Mạng nơ-ron tích chập. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.1.

Mạng nơ-ron tích chập Xem tại trang 14 của tài liệu.
Mạng nơ-ron tích chập trong hình 2.1 có kiến trúc bao gồm 2 lớp chập (convolutional  layer),  2  lớp  gộp  (pooling  layer)  và  lớp  kết  nối  đầy  đủ   (fully-connected layer) - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

ng.

nơ-ron tích chập trong hình 2.1 có kiến trúc bao gồm 2 lớp chập (convolutional layer), 2 lớp gộp (pooling layer) và lớp kết nối đầy đủ (fully-connected layer) Xem tại trang 15 của tài liệu.
Hình 2.3: MaxPooling với của sổ 2×2 và bước trượt 2. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.3.

MaxPooling với của sổ 2×2 và bước trượt 2 Xem tại trang 16 của tài liệu.
Hình 2.4: Average Pooling. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.4.

Average Pooling Xem tại trang 17 của tài liệu.
2.2.1. Phát hiện đối tượng sử dụng mô hình R-CNN (Regions with CNN Features) - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

2.2.1..

Phát hiện đối tượng sử dụng mô hình R-CNN (Regions with CNN Features) Xem tại trang 18 của tài liệu.
Nhược điểm của R-CNN là mô hình phải training nhiều bước, tốn tài nguyên và thời gian huấn luyện vì sử dụng mạng VGG16, thời gian phát hiện chậm vì phải dùng  mạng CNN cho mỗi vùng đề xuất - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

h.

ược điểm của R-CNN là mô hình phải training nhiều bước, tốn tài nguyên và thời gian huấn luyện vì sử dụng mạng VGG16, thời gian phát hiện chậm vì phải dùng mạng CNN cho mỗi vùng đề xuất Xem tại trang 19 của tài liệu.
Hình 2.7: Kiến trúc mô hình R-CNN [14]. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.7.

Kiến trúc mô hình R-CNN [14] Xem tại trang 19 của tài liệu.
Hình 2.9: Kiến trúc mô hình Faster R-CNN với sự kết hợp của CNN và RPN [16]. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.9.

Kiến trúc mô hình Faster R-CNN với sự kết hợp của CNN và RPN [16] Xem tại trang 20 của tài liệu.
Hình 2.10: Kiến trúc mô hình SSD [18]. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.10.

Kiến trúc mô hình SSD [18] Xem tại trang 21 của tài liệu.
Hình 2.11: Minh hoạ một số phương pháp tăng cường ảnh. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 2.11.

Minh hoạ một số phương pháp tăng cường ảnh Xem tại trang 22 của tài liệu.
Bảng 3.1: Tập dữ liệu ngõ vào. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 3.1.

Tập dữ liệu ngõ vào Xem tại trang 23 của tài liệu.
Hình 3.1: Các ảnh trong tập huấn luyện. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 3.1.

Các ảnh trong tập huấn luyện Xem tại trang 27 của tài liệu.
Mô hình phát hiện bàn tay có kiến trúc dựa trên kiến trúc của mô hình SSD. Kiến trúc  mạng  học  sâu  sử  dụng  cho  mô  hình  SSD  được  thiết  kế  bởi  các  khối  Depthwise  Separable - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

h.

ình phát hiện bàn tay có kiến trúc dựa trên kiến trúc của mô hình SSD. Kiến trúc mạng học sâu sử dụng cho mô hình SSD được thiết kế bởi các khối Depthwise Separable Xem tại trang 27 của tài liệu.
Hình 3.4: Cấu trúc RFB Module. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 3.4.

Cấu trúc RFB Module Xem tại trang 28 của tài liệu.
Việc sử dụng khối Depthwise Separable sẽ làm mô hình trở nên nhẹ hơn và nhanh hơn. Giả sử với lớp tích chập thông thường một ảnh có kích thước 12x12x3 đi qua một  Conv kernel size là 3x3 tạo ra một ngõ ra kích thước 11x11x3 sẽ cần:  - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

i.

ệc sử dụng khối Depthwise Separable sẽ làm mô hình trở nên nhẹ hơn và nhanh hơn. Giả sử với lớp tích chập thông thường một ảnh có kích thước 12x12x3 đi qua một Conv kernel size là 3x3 tạo ra một ngõ ra kích thước 11x11x3 sẽ cần: Xem tại trang 28 của tài liệu.
Hình 3.5: Một số ảnh trong tập huấn luyện. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 3.5.

Một số ảnh trong tập huấn luyện Xem tại trang 29 của tài liệu.
Tập dữ liệu huấn luyện trước khi được đưa vào mô hình sẽ được tiền xử lý. Quá trình tiền xử lý bao gồm thay đổi kích thước ảnh về một kích thước cố định ở đây là  320x240 - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

p.

dữ liệu huấn luyện trước khi được đưa vào mô hình sẽ được tiền xử lý. Quá trình tiền xử lý bao gồm thay đổi kích thước ảnh về một kích thước cố định ở đây là 320x240 Xem tại trang 29 của tài liệu.
Hình 3.7: Thực nghiệm chứng minh ảnh hưởng của hàm phi tuyến. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 3.7.

Thực nghiệm chứng minh ảnh hưởng của hàm phi tuyến Xem tại trang 30 của tài liệu.
Hình 3.6: Kiến trúc khối Residual của mô hình MobileNetV2 [20]. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 3.6.

Kiến trúc khối Residual của mô hình MobileNetV2 [20] Xem tại trang 30 của tài liệu.
Bảng 3.4: Thông mô hình cho ứng dụng phân loại cử chỉ tay. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 3.4.

Thông mô hình cho ứng dụng phân loại cử chỉ tay Xem tại trang 31 của tài liệu.
Mô hình sau khi được huấn luyện được đưa vào ứng dụng nhận dạng cử chỉ bàn tay theo thời gian thực - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

h.

ình sau khi được huấn luyện được đưa vào ứng dụng nhận dạng cử chỉ bàn tay theo thời gian thực Xem tại trang 32 của tài liệu.
Mô hình mạng CNN được thiết nhận dạng cử chỉ bàn tay với 6 trạng thái. Mô hình được huấn luyện và kiểm tra trên tập dữ liệu các ảnh tĩnh đã được tạo trước đó - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

h.

ình mạng CNN được thiết nhận dạng cử chỉ bàn tay với 6 trạng thái. Mô hình được huấn luyện và kiểm tra trên tập dữ liệu các ảnh tĩnh đã được tạo trước đó Xem tại trang 33 của tài liệu.
Bảng 4.3: Kết quả nhận dạng các độ mở khác nhau của cử chỉ. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 4.3.

Kết quả nhận dạng các độ mở khác nhau của cử chỉ Xem tại trang 34 của tài liệu.
Hình 4.2: Kết quả kiểm tra hệ thống với cử chỉ tay "like". - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 4.2.

Kết quả kiểm tra hệ thống với cử chỉ tay "like" Xem tại trang 37 của tài liệu.
Hình 4.3: Kết quả kiểm tra hệ thống với cử chỉ tay "ok". - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 4.3.

Kết quả kiểm tra hệ thống với cử chỉ tay "ok" Xem tại trang 38 của tài liệu.
Hình 4.4: Kết quả kiểm tra hệ thống với cử chỉ 2 ngón tay vuông góc. - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Hình 4.4.

Kết quả kiểm tra hệ thống với cử chỉ 2 ngón tay vuông góc Xem tại trang 39 của tài liệu.
Bảng 1. Tập dữ liệu ngõ vào - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 1..

Tập dữ liệu ngõ vào Xem tại trang 56 của tài liệu.
Bảng 4. Kết quả nhận dạng theo từng cử chỉ - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 4..

Kết quả nhận dạng theo từng cử chỉ Xem tại trang 57 của tài liệu.
Dựa vào kết quả liệt kê trong Bảng 3 có thể thấy, sau 882 lần huấn luyện tỉ lệ nhận dạng chính xác trên tập kiểm  tra đã cải thiện từ 17,3% ở lần huấn luyện đầu tiên lên tới  99,17% ở lần huấn luyện thứ 882 - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

a.

vào kết quả liệt kê trong Bảng 3 có thể thấy, sau 882 lần huấn luyện tỉ lệ nhận dạng chính xác trên tập kiểm tra đã cải thiện từ 17,3% ở lần huấn luyện đầu tiên lên tới 99,17% ở lần huấn luyện thứ 882 Xem tại trang 57 của tài liệu.
Bảng 3. Quá trình huấn luyện và kiểm tra - Thiết kế hệ thống nhận dạng cử chỉ bàn tay dùng mạng nơ ron chập

Bảng 3..

Quá trình huấn luyện và kiểm tra Xem tại trang 57 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan