Luận văn Thạc sĩ Khoa học máy tính: Xây dựng hệ thống phân tích hình ảnh trên ros cho robot hướng dẫn viên

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Xây dựng hệ thống phân tích hình ảnh trên ros cho robot hướng dẫn viên
Tác giả	Trần Ngọc Linh
Người hướng dẫn	TS. Trần Quốc Long
Trường học	Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	57
Dung lượng	49,66 MB

Nội dung

Với việc xây dựng bộ máy trạng thái hữu hạn và ứng dụng thuật toán phát hiện vẫy tay và nhận điện khuôn mặt đã giúp Fuso có thể phát hiện được người vẫy tay cần hỗ trợ, di chuyển đến để nhận diện đối tượng và chào người đó bằng tên nếu đã biết trước. Mời các bạn tham khảo!

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Ngọc Linh XÂY DỰNG HỆ THỐNG PHÂN TÍCH HÌNH ẢNH TRÊN ROS CHO ROBOT HƯỚNG DẪN VIÊN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Hà Nội - 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGỌC LINH XÂY DỰNG HỆ THỐNG PHÂN TÍCH HÌNH ẢNH TRÊN ROS CHO ROBOT HƯỚNG DẪN VIÊN Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN QUỐC LONG Hà Nội - 2020 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY i LỜI CAM ĐOAN Tôi xin cam đoan kết thực nghiệm nghiên cứu mà trình bày luận văn thực hướng dẫn Tiến sĩ Trần Quốc Long Tất tham khảo nghiên cứu liên quan luận văn trích dẫn nguồn gốc rõ ràng phần tài liệu tham khảo cuối luận văn Tơi cam đoan luận văn khơng có việc chép tài liệu cơng trình nghiên cứu người khác mà khơng ghi rõ nguồn gốc trích dẫn TÁC GIẢ LUẬN VĂN Trần Ngọc Linh ii LỜI CẢM ƠN Lời đầu tiên, muốn gửi lời cảm ơn chân thành sâu sắc đến giáo viên hướng dẫn tôi, Tiến sĩ Trần Quốc Long công tác Khoa Công Nghệ Thông Tin Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Thầy tận tình hướng dẫn cho tơi lời khun bổ ích để giúp tơi hồn thành luận văn Bên cạnh đó, tơi xin cám ơn Giáo sư, Tiến sĩ Chử Đức Trình Phó giáo sư, Tiến sĩ Bùi Thanh Tùng công tác khoa Điện Tử Viễn Thông Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, ln ln hỗ trợ đội nhóm phát triển Robot để có trang thiết bị cần thiết phục vụ cho việc nghiên cứu phát triển thành công Fuso Tơi chân thành cảm ơn hai em Nguyễn Đình Tn, Phan Hồng Anh em nhóm đề tài “QG.17.69-Nghiên cứu phát triển robot thuyết minh hướng dẫn” luôn giúp đỡ hỗ trợ q trình nghiên cứu Lời cuối tơi xin cảm ơn gia đình bạn bè ủng hộ, khích lệ tơi đường học vấn Hà Nội, Ngày 30 tháng năm 2020 Trần Ngọc Linh iii TÓM TẮT Những năm gần đây, với phát triển mạnh mẽ đột phá từ công nghệ, đặc biệt lĩnh vực trí tuệ nhân tạo, nhiều cơng việc người mà máy tính làm tốt nhận dạng mặt người hay nói chuyện tương tác giống Sophia hỗ trợ bác sĩ việc chẩn đoán, dự báo điều trị bệnh Cùng với xu hướng phát triển cơng nghệ nói chung hay robot tồn giới nói riêng, robot Fuso nghiên cứu phát triển để thay người làm hướng dẫn viên phòng trưng bày, viện bảo tàng Robot chia làm phần khác để phát triển độc lập: hệ thống xử lý chuyển động, hệ thống xử lý giao diện tương tác, hệ thống phân tích âm hệ thống phân tích hình ảnh Luận văn tập trung vào phát triển hệ thống phân tích hình ảnh cho robot, bao gồm mô-đun nhỏ Thứ nhất, xây dựng mô-đun máy trạng thái hữu hạn ROS để dựng lên tất trạng thái hoạt động robot mà giao tiếp, trao đổi liệu với phần khác robot hoàn thành chức cụ thể Thêm vào đó, xây dựng máy trạng thái hữu hạn giúp cho việc mở rộng, nâng cấp chức gỡ lỗi q trình phát triển dễ dàng Mơ-đun thứ hai xây dựng phát hành động vẫy tay dựa thơng tin khung xương cánh tay trích xuất từ kết thuật toán phát khung xương người Openpose Với mơ-đun giúp robot phát người cần hỗ trợ qua hành động vẫy tay để tiếp cận phục vụ Hiện tại, phát vẫy tay đạt độ xác trung bình xấp xỉ 78% với khoảng cách đến robot từ đến mét Và cuối việc xây dựng mô-đun nhận diện mặt người dựa thuật toán Facenet với độ xác 97% giúp cho Fuso có khả ghi nhớ khuôn mặt người phục vụ để lần sau phục vụ tốt Với việc xây dựng máy trạng thái hữu hạn ứng dụng thuật toán phát vẫy tay nhận điện khuôn mặt giúp Fuso phát người vẫy tay cần hỗ trợ, di chuyển đến để nhận diện đối tượng chào người tên biết trước Hiện tại, robot chạy thử nghiệm phòng truyền thống Đại Học Quốc Gia Hà Nội Từ khóa: Fuso, robot hướng dẫn viên, phân tích hình ảnh iv MỤC LỤC Danh mục hình vẽ vi Danh mục kí hiệu, viết tắt viii Chương Giới thiệu vấn đề toán cần giải 1.1 Lịch sử hình thành phát triển robot 1.2 Giới thiệu toán 1.3 Những đóng góp 1.4 Cấu trúc luận văn Chương Cơ sở lý thuyết 2.1 Hệ điều hành Robot – Robot Operating System 2.2 Vectơ hỗ trợ hồi qui (Support Vector Machine - SVM) 12 2.3 Thuật toán xác định khung xương người - OpenPose 15 2.4 Thuật toán hỗ trợ nhận diện mặt người FaceNet 17 Chương 22 Thiết kế cài đặt hệ thống 22 3.1 Kiến trúc tổng quan hệ thống phân tích hình ảnh 22 3.2 Mô-đun phát vẫy tay 29 3.3 Mô-đun nhận dạng mặt người 32 3.4 Xây dựng kịch 34 Chương 40 Kết thử nghiệm, ứng dụng tổng kết 40 4.1 Kết phát vẫy tay 40 4.2 Kết nhận diện mặt người 41 v 4.3 Ứng dụng thực tiễn 43 4.4 Tổng kết 45 Tài liệu tham khảo 46 vi Danh mục hình vẽ Hình 1-1-Camera Intel Realsense D435 [15] Hình 2-1-Trao đổi thơng tin node qua Topic 11 Hình 2-2-Trao đổi thơng tin node qua Service 12 Hình 2-3-Các đường phân chia hai lớp 13 Hình 2-4-Điểm nhiễu nằm gần mặt phân tách (trái) điểm nhiễu nằm bên mặt phân tách lớp lại (phải) 14 Hình 2-5-So sánh thuật toán với OpenPose 16 Hình 2-6-Sơ đồ tổng quát thuật toán OpenPose 16 Hình 2-7-Cấu trúc mơ hình FaceNet [14] 17 Hình 2-8-Mạng học sâu Inception ResNet V1 [19] 20 Hình 3-1-Thành phần hệ thống 23 Hình 3-2-Sơ đồ chuyển trạng thái máy trạng thái hữu hạn 24 Hình 3-3-Thiết kế tệp cài cho việc tự động xây dựng máy trạng thái hữu hạn 25 Hình 3-4-Thiết kế lớp cho việc tự động xây dựng máy trạng thái hữu hạn 26 Hình 3-5-Mơ hình kế thừa tốn phân tích hình ảnh 27 Hình 3-6-Các tác vụ đăng kí nhận liệu từ Realsense D435 28 Hình 3-7-Sơ đồ tổng quan thuật tốn vẫy tay 29 Hình 3-8-Góc tạo thành cánh tay mặt phẳng ngang vẫy 30 Hình 3-9-Định danh người qua trục hồnh Ox 31 Hình 3-10-Sơ đồ tổng qt nhận dạng khn mặt người 32 Hình 3-11-Tìm mặt người vẫy tay 33 Hình 3-12-Sơ đồ chuyển trạng thái qua kịch 34 vii Hình 3-13-Sơ đồ chuyển trạng thái qua kịch phát người vẫy tay 35 Hình 3-14-Sơ đồ chuyển trạng thái qua kịch nhận diện khuôn mặt người 37 Hình 4-1-Kết thử nghiệm phát vẫy tay 40 Hình 4-2-Kết huấn luyện nhận dạng mặt người K-Fold 42 Hình 4-3-Ảnh nhận diện mặt người thực tế 42 Hình 4-4-Một số hình ảnh robot Fuso triển lãm phòng trưng bày Đại học Quốc Gia Hà Nội 44 viii Danh mục kí hiệu, viết tắt ROS Robot Operating System – Hệ điều hành Robot MTCNN Multi-task Cascaded Convolutional Networks SVM Support Vector Machine SLAM Simultaneous Localization and Mapping LFW Labeled Faces in the Wild 33 FaceNet để lấy vectơ embedding Và vectơ embedding đưa vào mơ hình SVM huấn luyện trước từ pha huấn luyện để nhận diện khuôn mặt người Mơ hình nhận diện hay sai lưu lại liệu để phục vụ cho huấn luyện cải tiến mơ hình tương lai Như bên trình bày, để phát mặt người mơ-đun sử dụng MTCNN Tuy nhiên, ảnh mà có nhiều khn mặt người MTCNN trả mảng khn mặt người gồm có vị trí kích cỡ ảnh mặt người Do cần tìm người vẫy tay số khuôn mặt mà MTCNN trả Như nêu, sau vẫy tay robot di chuyển đến trước mặt người vẫy tay nên mặt người vẫy tay người gần với tâm ảnh Giả sử ảnh có 𝑛 khn mặt thuật tốn MTCNN phát ảnh mặt người 𝑖 có tọa độ (𝑥9 , 𝑦9 ) và có kích thước thước (𝑤9 , ℎ9 ) Vậy tâm ảnh mặt người 𝑖 𝑐𝑥9 = ‚K LnK , 𝑐𝑦9 = PK LoK Tâm ảnh 𝑐𝑥 = ‚Ln , 𝑐𝑦 = PLo Vậy khoảng cách từ tâm ảnh mặt người đến tâm ảnh tổng thể có khoảng cách 𝑑9 = ’(𝑐𝑥 − 𝑐𝑥9 )5 + (𝑐𝑦 − 𝑐𝑦9 )5 Vậy với 𝑚𝑖𝑛(𝑑' , 𝑑% , … , 𝑑7 ) mặt người nhận diện Hình 3-11 mơ tả cách tìm mặt trung tâm ảnh bên trình bày Hình 3-11-Tìm mặt người vẫy tay 34 3.4 Xây dựng kịch Phần tập trung vào việc mơ tả kịch q trình chạy thuật toán kịch Tất kịch mơ tả cách tổng qt qua Hình 3-12 Hình 3-12-Sơ đồ chuyển trạng thái qua kịch Theo Hình 3-12, gồm có máy trạng thái hữu hạn nằm PI (Sử dụng để điều khiển động di chuyển) máy trạng thái Jetson TX2 để phân tích hình cho robot Hai máy trạng thái hữu hạn trao đổi thông tin qua Topic với kí hiệu mũi tên nét gạch đứt màu da cam Hình 3-12 Cịn mũi tên liền màu đen thể kiện chuyển trạng thái nội máy trạng thái hữu hạn Jetson TX2 Luồng kịch chi tiết thể chi tiết phần sau 35 3.4.1 Kịch phát người vẫy tay Mô tả Kịch cho phép robot phát người cần trợ giúp Khi robot đứng yên mà có chuyển động phạm vi robot quan sát robot bắt đầu quan sát xem khu vực quan sát robot có cần trợ giúp qua hành động vẫy tay Nếu có người khu vực quan sát có người vẫy tay robot xác định vị trí người cần trợ giúp tiến lại gần Các luồng trạng thái mô tả qua Hình 3.13 Hình 3-13-Sơ đồ chuyển trạng thái qua kịch phát người vẫy tay 36 Các luồng kiện Kịch bắt đầu robot khởi động phận sẵn sàng hoạt động Bộ máy PI gửi message VISION_MOTION lên cho máy Jetson TX2 Theo Hình 3-13, hoạt động chuyển trạng thái thực sau Đầu tiên máy trạng thái Jetson TX2 trạng thái IDLE nhận message VISION_MOTION từ PI Bộ máy trạng thái Jetson TX2 chuyển trạng thái từ IDLE sang DETECT_MOTION Bộ máy trạng thái DETECT_MOTION khởi động chạy thuật toán phát chuyển động Nếu phát có chuyển động máy trạng thái gửi message VISION_HAVING_MOTION cho máy PI chuyển trạng thái Jetson TX2 từ DETECT_MOTION lại IDLE Bộ máy PI tiếp tục gửi message VISON_HAND_WAVING cho máy Jetson TX2 Bộ máy Jetson TX2 chuyển trạng thái từ IDLE sang HAND_WAVING Bộ máy trạng thái HAND_WAVING bắt đầu chạy thuật toán phát người vẫy tay Nếu phát có người vẫy tay robot xác định vị trí người vẫy tay phòng gửi message VISON_HAVING_WAVING cho máy PI Đồng thời máy chuyển từ trạng thái HAND_WAVING lại trạng thái IDLE Các yêu cầu Khi nhiều người vẫy tay gọi robot robot ưu tiên phục vụ cho người vẫy 37 3.4.2 Kịch nhận diện khuôn mặt người vẫy tay Kịch cho phép robot nhận diện khn mặt người vẫy tay Với mục đích lấy thông tin người vẫy tay chào người vẫy tay biết từ trước, chưa biết robot hỏi tên lưu lại hình ảnh để huấn luyện cho việc nhận diện khuôn mặt lần sau Sau vẫy tay robot xác định vị trí người vẫy tay dựa vào khoảng cách người vẫy tay robot với góc tạo thành hướng hình robot người vẫy tay robot tâm góc Hai thơng tin cho máy PI (nơi điều khiển phận chuyển động robot) để tính tốn vị trí người vẫy đồ 3D tiếp cận người Khi tiếp cận thành cơng robot bắt đầu nhận dạng khn mặt người Luồng chuyển trạng thái chi tiết kịch nhận diện mặt người mơ tả qua Hình 3-14 Hình 3-14-Sơ đồ chuyển trạng thái qua kịch nhận diện khuôn mặt người 38 3.4.2.1 Kịch nhận diện người vẫy tay biết từ trước Mô tả Kịch cho phép robot nhận diện mặt người vẫy tay biết từ trước Với mục đích lấy thơng tin người vẫy tay chào người vẫy tay tên họ Thêm vào đó, xác định thơng tin người vẫy robot tìm lịch sử phục vụ người để hiểu người vẫy tay quan tâm đến vật, thông tin để từ phục vụ tốt Các luồng kiện Kịch bắt đầu máy PI gửi message VISION_FACE_ID cho máy Jetson TX2 Theo Hình 3-14, hoạt động chuyển trạng thái thực sau Đầu tiên máy trạng thái Jetson TX2 nhận message VISION_FACE_ID từ PI Bộ máy trạng thái Jetson TX2 chuyển trạng thái từ IDLE sang trạng thái FACE_ID Bộ máy trạng thái FACE_ID chạy thuật toán nhận diện khuôn mặt Nếu nhận diện mặt người tay máy gửi message EV_FACE_ID cho máy PI đồng thời chuyển trạng thái từ FACE_ID thành trạng thái IDLE Các yêu cầu Mức độ chắn mặt người tay nằm liệu mặt người gặp phải lớn 50% 39 3.4.2.2 Kịch người vẫy tay người lạ Mô tả Kịch cho phép robot ghi nhớ mặt người lạ để lần sau gặp robot chào tên Các luồng kiện Kịch bắt đầu máy PI gửi message VISION_FACE_ID cho máy Jetson TX2 Theo Hình 3-14, hoạt động chuyển trạng thái thực sau Đầu tiên máy trạng thái Jetson TX2 nhận message VISION_FACE_ID từ PI Bộ máy trạng thái Jetson TX2 chuyển trạng thái từ IDLE sang trạng thái FACE_ID Bộ máy trạng thái FACE_ID chạy thuật toán nhận diện khuôn mặt Nếu không xác định mặt người thị máy gửi message EV_FACE_ID_NOT_SURE chuyển trạng thái từ FACE_ID thành trạng thái IDLE Các yêu cầu Ảnh mặt người lạ lưu cho việc huấn luyện lần sau 40 Chương Kết thử nghiệm, ứng dụng tổng kết Chương đưa kết thử nghiệm thuật toán phát vẫy tay, thuật toán nhận diện mặt người ứng dụng robot vào thực tiễn 4.1 Kết phát vẫy tay Kết thử nghiệm vẫy tay thực Phòng trưng bày Đại học Quốc Gia Hà Nội Thử nghiệm đo độ xác thuật tốn vẫy tay theo khoảng cách 1-5 mét Một người đứng trước mặt robot trị trí cách robot với khoảng cách 1m; 1,5m;…; 5m khoảng người đứng trước mặt thực vẫy tay 60 lần Với lần vẫy tay kết ghi nhận lại robot có phát vẫy tay hay không ghi lại kết để thống kê Hình 4-1 mơ tả kết thử nghiệm vẫy tay 1.2 0.8 0.6 0.4 0.85 0.866 0.916 0.883 0.866 0.8 0.783 0.2 0.566 0.533 4.5 m 5m 1m 1.5 m 2m 2.5 m 3m 3.5 m 4m Hình 4-1-Kết thử nghiệm phát vẫy tay 41 Theo Hình 4-1, thấy kết vẫy tay khoảng cách từ 1-3,5 mét có độ xác 80% Độ xác tăng dần theo khoảng cách khoảng 1-2 mét đạt độ xác cao khoảng cách mét với độ xác 91,6% Ở khoảng cách 1,5 mét độ xác lại thấp khoảng cách mét người tay đứng gần robot camera khơng thể thu hết tồn hình ảnh cánh tay dẫn đến việc nhận diện khung xương cánh tay có độ xác thấp việc tính tốn để phát vẫy tay giảm xuống Cịn khoảng cách mét so với robot khoảng cách đủ gần để camera robot thu hết tồn cánh tay độ xác đạt cao nói Từ khoảng cách lớn mét độ xác có xu hướng giảm dần Đặc biệt khoảng cách 4,5 mét độ xác giảm cịn 56,6% 53,3% Nguyên nhân khoảng cách xa dần cánh tay nhỏ dần dẫn đến việc nhận diện khớp cổ tay khuỷu tay thuật tốn Openpose có độ xác thấp dần đến tính tốn phát vẫy có độ xác thấp Độ xác trung bình thử nghiệm qua khoảng cách khác xấp xỉ 78% 4.2 Kết nhận diện mặt người Dữ liệu huấn luyện gồm có 36 khn mặt người thực tế thành viên đề tài chỉnh kích thước 180 × 180 Tổng số liệu ảnh khn mặt người lớn 1000 ảnh Do số lượng ảnh nên trình huấn luyện ảnh mặt người người làm giàu lên cách sử dụng thư viện imgaug python để dịch trái, dịch phải, xoay, lật, làm mờ, thêm giảm sáng Vậy người có thêm 50 ảnh mặt người làm giàu Sau có tập ảnh liệu khn mặt người giàu Tồn ảnh đưa qua thuật toán Facenet để sinh vectơ embedding lưu lại định dạng npy theo cấu trúc thư mục ảnh Ví dụ ảnh mặt người có tên 1.png có nhãn lưu thư mục có cấu trúc dataset/1/1.png vectơ embedding lưu thư mục có cấu trúc embedding/1/1.npy Việc sinh thêm thư mục lưu vectơ embedding nhằm mục đích thêm liệu ảnh khuôn mặt vào lớp có khơng phải chạy lại tồn thư mục lớp để sinh vectơ embedding toán ảnh mà cần chạy phần liệu ảnh khuôn mặt thêm để sinh vectơ embedding Vectơ embedding sinh sử dụng để huấn luyện mơ hình SVM Trong q trình huấn luyện sử dụng kĩ thuật K-Fold với 𝑘 = chạy lại lần Kĩ thuật K-Fold với 𝑘 = nghĩa chia tập liệu thành phần phần sử dụng để huấn luyện mơ hình SVM phần cịn lại sử dụng để đánh giá mơ hình Ví dụ với fold-1 phần liệu (2,3,4,5) dùng để huấn luyện phần liệu (1) 42 dùng để đánh giá Với fold-2 phần liệu (1,3,4,5) dùng để huấn luyện phần liệu (2) dùng để đánh giá Tương tự cho fold lại, kết thử nghiệm thể theo Hình 4.2 Số lần Fold 0,9758 0,9838 0,9717 0,9637 0,9596 0,9879 0,9751 0,9502 0,9585 0,9834 0,9792 0,9668 0,9533 0,9502 0,9661 0,9703 0,9661 0,9668 0,9868 0,9606 0,9912 0,9737 0,9825 0,9737 0,9681 0,9909 0,9727 0,9681 0,9727 0,9737 Hình 4-2-Kết huấn luyện nhận dạng mặt người K-Fold Theo kết Hình 4-2, qua lần thử nghiệm cho thấy độ xác nhận diện nằm khoảng từ 95% đến 99% với độ lệch chuẩn 1% Qua thấy nhận diện khn mặt hệ thống có độ xác cao ổn định Độ xác trung bình hệ thống với lần chạy 97,11% Hình 4-3 hình ảnh chạy thực tế nhận diện khn mặt người phòng trưng bày Đại Học Quốc Gia Hà Nội Hình 4-3-Ảnh nhận diện mặt người thực tế 43 4.3 Ứng dụng thực tiễn Robot chạy thử nghiệm phòng truyền thống Đại Học Quốc Gia Hà Nội Ngoài trưng bày Triển lãm 60 năm thành tựu khoa học công nghệ nhân kỷ niệm 60 năm thành lập Bộ Khoa học Cơng nghệ Hình 4-4 số hình ảnh Fuso triển lãm phịng trưng bày Đại học Quốc Gia Hà Nội Với Hình 4-4 (a) hình ảnh Fuso triển lãm Hình 4-4 (b) phịng trưng bày Hình 4-4 (c) (d) hình ảnh người vào phịng trưng bày chuẩn bị thực việc vẫy tay Hình 4-4 (e), (f), (g), (h) hình ảnh người thực vẫy tay robot tiếp cận người vẫy tay nhận dạng khn mặt đối tượng Hình 4-4 (i), (j), (k) hình ảnh robot thuyết trình khu vực trưng bày (b) (a) (c) (d) (e) 44 (f) (g) (h) (i) (j) (k) Hình 4-4-Một số hình ảnh robot Fuso triển lãm phòng trưng bày Đại học Quốc Gia Hà Nội 45 4.4 Tổng kết 4.4.1 Kết luận Với phát triển mạnh mẽ công nghệ đặc biệt phải kể đến lĩnh vực robot trí tuệ nhân tạo việc tạo robot thông minh để hỗ trợ người đời sống ngày cần thiết Fuso – robot hướng dẫn viên, tạo phần nhỏ phát triển robot đất nước Trong luận văn tập trung nghiên cứu, phát triển phần hệ thống phân tích hình ảnh robot Với việc xây dựng lên máy trạng thái hữu hạn định nghĩa toàn trạng thái robot từ giúp dễ dàng bảo trì mở rộng chức hệ thống Cùng với việc xây dựng máy trạng thái phát triển thuật toán phát vẫy tay dựa thuật toán phát khung xương người Openpose đạt độ xác trung bình 78,42% Bên cạnh thuật phát vẫy tay thuật toán nhận dạng mặt người ứng dụng vào robot Để robot nhận dạng người gặp chào tên người cách thân thiện người Ban đầu ảnh đưa qua thuật toán MTCNN để phát mặt người ảnh tiếp ảnh khn mặt cắt từ kết chạy qua thuật toán Facenet để lấy vectơ embedding ảnh khuôn mặt đưa vào mơ hình SVM huấn luyện trước để phân lớp nhận điện người ảnh Mơ hình SVM huấn luyện sử dụng kĩ thuật kiểm định chéo K-fold đạt độ xác 97,11% Với kết khả quan đạt bước đệm để tơi phát triển cho robot đạt kết cao tương lai 4.4.2 Hướng phát triển tương lai Trong tương lai robot cần nâng cao kết thuật tốn có Thứ thuật toán phát vẫy tay khoảng cách xa độ xác phải cao 90% để ứng dụng vào khu vực rộng Vì mét độ xác phát vẫy tay thấp 50% Thứ hai thuật toán nhận dạng mặt người cần huấn luyện thêm để đạt độ giới 99% Cuối cùng, xây dựng thêm mơ-đun để robot tự xây dựng đồ 3D xác định vị trí đồ qua camera Đó toán Visual SLAM – Simultaneous Localization and Mapping cần giải Tài liệu tham khảo [1] A Gasparetto, G Scalera, “From the Unimate to the Delta robot: the early decades of Industrial Robotics”, History of Mechanism and Machine Science, 2019, pp 284-295 [2] M V Georges Giralt, Raja Chatila, “An integrated navigation and motion control system for autonomous multisensory mobile robots”, Autonomous Robot Vehicles, vol Springer, New York, 1990, pp 420-442 [3] M Fujita, “On activating human communications with pet-type robot AIBO”, Proceedings of the IEEE, 2004, pp 1804-1813 [4] F David, B Eric, C Jennifer “Building Watson: An Overview of the DeepQA Project”, AI Magazine, 2010 [5] D Silver, A Huang, C Maddison, et al, “Mastering the game of Go with deep neural networks and tree search”, Nature, 2016 [6] Jesus Retto, “SOPHIA, FIRST CITIZEN ROBOT OF THE WORLD”, ResearchGate https://www researchgate Net, 2017 [7] M Quigley, K Conley, B Gerkey, J Faust, T Foote, J Leibs, R Wheeler, A.Y Ng, “ROS: An open-source Robot Operating System", ICRA Workshop on Open Source Software, 2009 [8] C Cortes, V Vapnik, “Support-vector networks”, Machine Learning 20, 1995 [9] Z Cao, G Hidalgo, T Simon, S.-E Wei, and Y Sheikh, “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019 [10] K Simonyan, A Zisserman, “Very deep convolutional networks for large-scale image recognition”, ICLR, 2015 [11] M D Zeiler, R Fergus, “Visualizing and understanding convolutional networks”, European conference on computer vision, 2013 [12] C Szegedy, W Liu, Y Jia, el al, “Going deeper with convolutions”, CVPR, 2014 [13] K Zhang, Z Zhang, Z Li, Y Qiao, “Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks”, IEEE Signal Processing Letters, 2016 [14] F Schroff, D Kalenichenko, J Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, CVPR, 2015 [15] Website: https://www.intelrealsense.com/depth-camera-d435/, ngày truy cập: 10/09/2020 [16] Website: https://developer.nvidia.com/embedded/develop/hardware, 10/09/2020 ngày truy cập: [17] A Martnez, E Fernndez, “Learning ROS for Robotics Programming”, Birmingham-UK, 2013, pp 25-39 [18] C M Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006, pp.325-338 [19] C Szegedy, S Ioffe, V Vanhoucke, A Alemi, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”, AAAI, 2017 [20] Website: https://intel.github.io/robot_devkit_doc/pages/rs.html, ngày truy cập: 10/09/2020 [21] G Gkioxari, B Hariharan, R Girshick, J Malik “Using k-poselets for detecting people and localizing their key- points”, CVPR, 2014 [22] U Iqbaland, J Gall, “Multi-person pose estimation with local joint-to-person associations”, ECCV Workshops, 2016 [23] Hao-shu Fang, S Xie, Yu-Wing Tai, Cewu Lum, “RMPE: Regional Multi-person Pose Estimation”, ICCV, 2017 [24] K Sun, Bin Xiao, Dong Liu, Jingdong Wang, “Deep High-Resolution Representation Learning for Human Pose Estimation”, CVPR, 2019 ... ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGỌC LINH XÂY DỰNG HỆ THỐNG PHÂN TÍCH HÌNH ẢNH TRÊN ROS CHO ROBOT HƯỚNG DẪN VIÊN Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính... lập: hệ thống xử lý chuyển động, hệ thống xử lý giao diện tương tác, hệ thống phân tích âm hệ thống phân tích hình ảnh Luận văn tập trung vào phát triển hệ thống phân tích hình ảnh cho robot, ... service hệ điều hành ROS – Robot Operating System [7] Trong luận văn này, tơi xin trình bày bày hệ thống phân tích hình ảnh cho robot Phân tích hình ảnh chia làm mô-đun nhỏ: môđun xây dựng máy

Ngày đăng: 10/06/2021, 10:31

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] A. Gasparetto, G. Scalera, “From the Unimate to the Delta robot: the early decades of Industrial Robotics”, History of Mechanism and Machine Science, 2019, pp. 284-295

Sách, tạp chí

Tiêu đề:	From the Unimate to the Delta robot: the early decades of Industrial Robotics”, "History of Mechanism and Machine Science

[2] M. V. Georges Giralt, Raja Chatila, “An integrated navigation and motion control system for autonomous multisensory mobile robots”, Autonomous Robot Vehicles, vol. 7. Springer, New York, 1990, pp. 420-442

Sách, tạp chí

Tiêu đề:	An integrated navigation and motion control system for autonomous multisensory mobile robots”, "Autonomous Robot Vehicles, vol. 7

[3] M. Fujita, “On activating human communications with pet-type robot AIBO”, Proceedings of the IEEE, 2004, pp. 1804-1813

Sách, tạp chí

Tiêu đề:	On activating human communications with pet-type robot AIBO

[4] F. David, B. Eric, C. Jennifer “Building Watson: An Overview of the DeepQA Project”, AI Magazine, 2010

Sách, tạp chí

Tiêu đề:	Building Watson: An Overview of the DeepQA Project

[5] D. Silver, A. Huang, C. Maddison, et al, “Mastering the game of Go with deep neural networks and tree search”, Nature, 2016

Sách, tạp chí

Tiêu đề:	Mastering the game of Go with deep neural networks and tree search

[6] Jesus Retto, “SOPHIA, FIRST CITIZEN ROBOT OF THE WORLD”, ResearchGate https://www. researchgate. Net, 2017

Sách, tạp chí

Tiêu đề:	SOPHIA, FIRST CITIZEN ROBOT OF THE WORLD

[7] M. Quigley, K. Conley, B. Gerkey, J. Faust, T. Foote, J. Leibs, R. Wheeler, A.Y. Ng, “ROS: An open-source Robot Operating System", ICRA Workshop on Open Source Software, 2009

Sách, tạp chí

Tiêu đề:	ROS: An open-source Robot Operating System

[8] C. Cortes, V. Vapnik, “Support-vector networks”, Machine Learning 20, 1995

Sách, tạp chí

Tiêu đề:	Support-vector networks

[9] Z. Cao, G. Hidalgo, T. Simon, S.-E. Wei, and Y. Sheikh, “OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019

Sách, tạp chí

Tiêu đề:	OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields

[10] K. Simonyan, A. Zisserman, “Very deep convolutional networks for large-scale image recognition”, ICLR, 2015

Sách, tạp chí

Tiêu đề:	Very deep convolutional networks for large-scale image recognition

[11] M. D. Zeiler, R. Fergus, “Visualizing and understanding convolutional networks”, European conference on computer vision, 2013

Sách, tạp chí

Tiêu đề:	Visualizing and understanding convolutional networks

[12] C. Szegedy, W. Liu, Y. Jia, el al, “Going deeper with convolutions”, CVPR, 2014

Sách, tạp chí

Tiêu đề:	Going deeper with convolutions

[13] K. Zhang, Z. Zhang, Z. Li, Y. Qiao, “Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks”, IEEE Signal Processing Letters, 2016

Sách, tạp chí

Tiêu đề:	Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

[14] F. Schroff, D. Kalenichenko, J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, CVPR, 2015

Sách, tạp chí

Tiêu đề:	FaceNet: A Unified Embedding for Face Recognition and Clustering

[17] A. Martnez, E. Fernndez, “Learning ROS for Robotics Programming”, Birmingham-UK, 2013, pp. 25-39

Sách, tạp chí

Tiêu đề:	Learning ROS for Robotics Programming

[18] C. M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006, pp.325-338

Sách, tạp chí

Tiêu đề:	Pattern Recognition and Machine Learning

[19] C. Szegedy, S. Ioffe, V. Vanhoucke, A. Alemi, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”, AAAI, 2017

Sách, tạp chí

Tiêu đề:	Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

[15] Website: https://www.intelrealsense.com/depth-camera-d435/, ngày truy cập: 10/09/2020

Link

[16] Website: https://developer.nvidia.com/embedded/develop/hardware, ngày truy cập: 10/09/2020

Link

[20] Website: https://intel.github.io/robot_devkit_doc/pages/rs.html, ngày truy cập: 10/09/2020

Link