Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
374,7 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ - VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY TỪ CẢM BIẾN MANG HÌNH ẢNH Sinh viên thực hiện: NGUYỄN VĂN THẮNG Lớp KTĐTTT 07 – K61 Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI Hà Nội, 6-2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ - VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY TỪ CẢM BIẾN MANG HÌNH ẢNH Sinh viên thực hiện: Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI Cán phản biện: ………………………… Hà Nội, 6-2021 PHẦN MỞ ĐẦU Bài toán nhận dạng hoạt động người thu hút quan tâm nghiên cứu nhà khoa học thập kỷ qua Đây lĩnh vực nghiên cứu đầy tiềm mở nhiều ứng dụng theo dõi giám sát, tương tác người máy giải trí Trong đó, vấn đề nhận dạng cử tay người đóng vai trị đặc biệt quan trọng việc xây dựng ứng dụng thực tiễn giúp ích cho đời sống người (ví dụ sử dụng cử tay để điều khiển thiết bị gia dụng) Do vậy, cần thiết kế mơ hình phát nhận dạng cử tay tự động CHƯƠNG TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ TAY NGƯỜI 1.1 Một số khái niệm Cùng với tiến công nghệ, giao tiếp người với máy tính trở nên tự nhiên, đồng thời gần với giao tiếp người với người Một phương pháp giao tiếp tự nhiên người với người dựa ngôn ngữ thể, cụ thể cử tay Xu hướng cho phép máy tính nhận dạng cử tay người theo thời gian thực xuất số sản phẩm thương mại tivi thông minh Samsung, cảm biến Kinect cho máy chơi game Xbox360 Microsoft, DepthSense SoftKinect, camera Creative Interactive Gesture Intel, tivi tích hợp nhận dạng khn mặt bàn tay hãng Omron, hay thiết bị Leap Motion 1.2 Một số nghiên cứu liên quan nhận dạng cử tay người 1.2.1 Hướng tiếp cận biểu diễn hoạt động dựa đặc trưng trích chọn thiết kế tay (hand-crafted features) Đặc trưng thiết kế tay (handcrafted feature) đặc trưng thiết kế từ trước, nhằm đưa cấu trúc đặc trưng phù hợp với đối tượng hoạt động Nhờ mà mơ hình cải thiện độ xác Đây cơng việc địi hỏi sáng tạo thời gian nhà khoa học liệu Các đặc trưng giúp cho việc chuyển đổi liệu thơ ban đầu thành tập thuộc tính giúp biểu diễn liệu tốt hơn, giúp tương thích với mơ hình dự đốn cụ thể, cải thiện độ xác mơ hình Hình 1-1 Các bước xử lý hệ thống nhận dạng sử dụng đặc trưng trích chọn thiết kế tay Hình -1 minh họa hệ thống tổng quát sử dụng đặc trưng thiết kế tay Sơ đồ gồm khối là: - Khối trích chọn đặc trưng tay: Nhận đầu vào pixel ảnh đưa đặc trưng cho ảnh Đặc trưng khối chọn từ trước tùy theo yêu cầu toán đặc điểm dataset - Khối phân lớp: Là phân lớp huấn luyện từ trước với đầu vào đặc trưng xuất từ khối trích chọn đặc trưng đưa nhãn lớp tương ứng 1.2.2 Hướng tiếp cận biểu diễn hoạt động dựa kỹ thuật học sâu Kỹ thuật học sâu (Deep learning) thuật toán học máy xây dựng dựa số ý tưởng mô hệ thống não người Nó biểu diễn liệu thơng qua nhiều tầng từ cụ thể đến trừu tượng qua trích rút đặc trưng có ý nghĩa nhận dạng đối tượng ảnh Thuật toán học sâu đạt nhiều thành cơng tốn xử lý ảnh hay nhận dạng giọng nói Khác với đặc trưng thiết kế tay, kỹ thuật học sâu học đặc trừng từ liệu ảnh thô ban đầu 1.2.3 Nhận xét chung Hướng biểu diễn dựa đặc trưng trích xuất tay cho kết tốt tập liệu nhỏ có số đặc điểm định Tuy thực tế, liệu thu nhận điều kiện khác đa dạng Cử tay người bị che khuất vật thể phía trước hay liệu nhận khung cảnh khác Do đó, sở liệu lớn việc sử dụng phương pháp khó khăn 1.3 Mục tiêu đồ án Trong ĐATN em tập trung vào việc phân loại nhận dạng cử tĩnh bàn tay, cách thử nghiệm tập liệu thu thập gồm ảnh tĩnh bàn tay 10 đối tượng, thuộc 10 lớp hoạt động thu từ cảm biến đeo cổ tay Trong chương tiếp theo, em trình bày lý thuyết mạng học sâu mạng YOLOv5 Các mở rộng triển khai cài đặt thử nghiệm đánh giá mạng YOLOv5 liệu cử tĩnh bàn tay trình bày chương 3 CHƯƠNG MẠNG NƠ RON TÍCH CHẬP CHO BÀI TỐN NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY 2.1 Giới thiệu chung mạng nơ ron tích chập 2.1.1 Mạng nơ ron nhân tạo (artificial neural network) Mạng nơ-ron nhân tạo thiết kế dựa nghiên cứu sinh học não người (Hình 2) Hình miêu tả cấu trúc nơ-ron não người Hình 2-2 Minh hoạ mạng nơ ron người (từ Rob Fergus) 2.1.1.1 Cấu trúc mạng nơ ron 2.1.2 Mạng nơ ron tích chập + Chia sẻ trọng số (weight sharing) + Lấy mẫu (subsampling) 2.1.2.1 Cấu trúc mạng CNN Hình 2-3 Cấu trúc đại diện mạng nơ ron tích chập Nguồn www.mathworks.com 2.1.2.2 Tính chất mạng CNN CHƯƠNG XÂY DỰNG MƠ HÌNH CNN NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY 3.1 Sơ đồ khối tổng quát Để hoàn thành việc nhận dạng cử tĩnh bàn tay sử dụng mơ hình YOLOv5, cần thực bước sau: Bước 1: Thu thập ảnh chứa ảnh cử tĩnh, tiến hành tiền xử lý gán nhãn cho hình Bước 2: Phân chia liệu thành tập huấn luyện tập kiểm tra Bước 3: Huấn luyện mơ hình sử dụng liệu tập huấn luyện Bước 4: So sánh đánh giá mơ hình sử dụng tập kiểm tra Hình 3-4 Sơ đồ khối q trình thực mơ hình nhận dạng cử tĩnh bàn tay 3.2 Thu thập CSDL cử tĩnh bàn tay từ cảm biến mang hình ảnh 3.2.1 Nhu cầu xây dựng CSDL 3.2.2 Kết thực nghiệm 3.2.2.1 Đánh giá định lượng tập validation CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Kết luận 4.2 Hướng phát triển TÀI LIỆU THAM KHẢO [1] https://github.com/ultralytics/yolov5, last accessed at 14:57 on June 24, 2021 [2] Qing Chen, El-Sawah A., Joslin C., et al (2005) A dynamic gesture interface for virtualenvironments based on hidden markov models IEEE, 109–114, 109– 114 [3] Chen X and Koskela M (2013) Online RGB-D gesture recognition with extreme learning machines ACM Press, 467–474, 467–474 [4] Doan H.-G., Vu H., and Tran T.-H (2017) Dynamic hand gesture recognition from cyclical hand pattern IEEE, 97–100, 97–100 [5] Burges C.J.C (1998) A Tutorial on Support Vector Machines for Pattern Recognition Data Min Knowl Discov, 2(2), 121–167 [6] Gkioxari G., Girshick R., and Malik J (2015) Contextual Action Recognition with R*CNN IEEE, 1080–1088, 1080–1088 [7] Cheron G., Laptev I., and Schmid C (2015) P-CNN: Pose-Based CNN Features for Action Recognition IEEE, 3218–3226, 3218–3226 [8] Simonyan K and Zisserman A Two-Stream Convolutional Networks for Action Recognition in Videos [9] Ji S., Xu W., Yang M., et al (2013) 3D Convolutional Neural Networks for Human Action Recognition IEEE Trans Pattern Anal Mach Intell, 35(1), 221– 231 [10] Bishop C.M (2006), Pattern recognition and machine learning, Springer, New York [11] Becker S and Lecun Y (1989) Improving the convergence of backpropagation learning with second-order methods Proc 1988 Connect Models Summer Sch San Mateo [12] Brox T., Bruhn A., Papenberg N., et al (2004) High Accuracy Optical Flow Estimation Based on a Theory for Warping Computer Vision - ECCV 2004 Springer Berlin Heidelberg, Berlin, Heidelberg, 25–36 [13] https://github.com/AlexeyAB/darknet, last accessed at 22:35 on June 17, 2021 [14]https://www.kaggle.com/phamdinhkhanh/convolutional-neural-network-p1, last accessed at 15:31 on June 14, 2021 [15] https://blog.roboflow.com/yolov5-improvements-and-evaluation/, last accessed at 17:31 on June 18, 2021 ...TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ - VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY TỪ CẢM BIẾN MANG HÌNH ẢNH Sinh viên thực hiện: Giảng... mơ hình sử dụng liệu tập huấn luyện Bước 4: So sánh đánh giá mơ hình sử dụng tập kiểm tra Hình 3-4 Sơ đồ khối q trình thực mơ hình nhận dạng cử tĩnh bàn tay 3.2 Thu thập CSDL cử tĩnh bàn tay từ. .. trung vào việc phân loại nhận dạng cử tĩnh bàn tay, cách thử nghiệm tập liệu thu thập gồm ảnh tĩnh bàn tay 10 đối tượng, thuộc 10 lớp hoạt động thu từ cảm biến đeo cổ tay Trong chương tiếp theo,