Luận án tiến sĩ khoa học máy tính nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị

212 3 0
Luận án tiến sĩ khoa học máy tính  nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN QUỐC HÙNG NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội − 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN QUỐC HÙNG NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62480101 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Thanh Hải PGS.TS Nguyễn Quang Hoan Hà Nội −2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án: “Nghiên cứu phát triển số kỹ thuật định vị dựa hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị” cơng trình nghiên cứu riêng Một phần số liệu, kết trình bày luận án trung thực, cơng bố tạp chí khoa học chun ngành, kỷ yếu hội nghị khoa học nước quốc tế Phần cịn lại luận án chưa cơng bố cơng trình nghiên cứu nước Hà Nội, ngày 20 tháng năm 2016 NGHIÊN CỨU SINH Nguyễn Quốc Hùng TẬP THỂ HƯỚNG DẪN KHOA HỌC TS Trần Thị Thanh Hải PGS.TS Nguyễn Quang Hoan i LỜI CẢM ƠN Luận án tiến sĩ thực Viện Nghiên cứu Quốc tế MICA, trường Đại học Bách khoa Hà Nội hướng dẫn khoa học TS Trần Thị Thanh Hải PGS.TS Nguyễn Quang Hoan Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy, cô định hướng khoa học suốt trình nghiên cứu Nghiên cứu sinh xin trân trọng cảm ơn nhà khoa học, tác giả cơng trình cơng bố trích dẫn cung cấp nguồn tư liệu quý báu q trình hồn thành luận án Nghiên cứu sinh xin trân trọng cảm ơn Viện Nghiên cứu Quốc tế đa phương tiện MICA; Viện Đào tạo sau Đại học Trường Đại học Bách Khoa Hà Nội; GS.TS Phạm Thị Ngọc Yến; GS.TS Eric Castelli; đề tài KHCN tiềm mã số: KC.01.TN19/11-15, đề tài VLIR mã số: ZEIN2012RIP19; đề tài hợp tác Việt - Bỉ mã số: FWO.102.2013.08; Quỹ phát triển KH&CN quốc gia Việt Nam; Trường THCS Nguyễn Đình Chiểu Hà Nội; nhóm nghiên cứu IPI Đại học GENT Vương quốc Bỉ tạo điều kiện thuận lợi thời gian, địa điểm thực tập, trang thiết bị, hỗ trợ mặt nhân lực để NCS thực việc thu thập liệu, thực nghiệm kết nghiên cứu Cuối nghiên cứu sinh xin bày tỏ biết ơn tới Ban giám hiệu Trường Cao đẳng Y tế Thái Nguyên; gia đình đồng nghiệp động viên khích lệ, tạo điều kiện thuận lợi để NCS yên tâm công tác học tập Hà Nội, ngày 20 tháng năm 2016 NGHIÊN CỨU SINH Nguyễn Quốc Hùng ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xv MỞ ĐẦU 1 TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP NGƯỜI KHIẾM THỊ 1.1 Đặt vấn đề 1.2 Các nghiên cứu liên quan 4 1.2.1 Các nghiên cứu giới 1.2.1.1 Siêu âm 1.2.1.2 1.2.1.3 1.2.1.4 Hồng ngoại Laser Camera 7 1.2.1.5 Đa cảm biến Các nghiên cứu nước 10 1.2.3 Thảo luận 1.3 Mục tiêu nghiên cứu phương pháp đề xuất 1.3.1 Mục tiêu phạm vi nghiên cứu 11 12 12 1.3.2 Phương pháp đề xuất 1.4 Kết luận chương 12 13 BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 2.1 Giới thiệu chung 14 14 2.2 Những nghiên cứu liên quan 2.2.1 Hướng tiếp cận sử dụng đồ số liệu 15 15 1.2.2 2.2.2 2.2.3 2.2.4 Hướng tiếp cận sử dụng đồ topo Hướng tiếp cận lai Thảo luận iii 17 19 21 2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường 22 2.4 Phương pháp xây dựng đồ môi trường 2.4.1 Xây dựng đồ số liệu 2.4.1.1 Phương pháp đo hành trình hình ảnh sử dụng mơ 23 23 hình khơng chắn Thích nghi VO cho mơi trường nhà 24 27 2.4.1.2 2.4.2 Xây dựng đồ topo 29 2.4.2.1 Giải thuật FAB-MAP 30 2.4.2.2 Thích nghi cải thiện FAB-MAP xây dựng đồ topo 39 2.4.3 Bổ sung thông tin đối tượng vật cản tĩnh đồ 2.5 Phương pháp định vị 44 44 2.6 Kết thực nghiệm 2.6.1 Môi trường đánh giá 2.6.2 Thu thập liệu đánh giá 45 45 46 2.6.2.1 Hệ thống thu thập liệu 2.6.2.2 Thu thập liệu Kết đánh giá 46 47 48 2.6.3.1 2.6.3.2 Đánh giá phương pháp xây dựng đồ số liệu Đánh giá phương pháp định vị hình ảnh 48 53 2.7 Kết luận chương 59 PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN 3.1 Định nghĩa toán thách thức 3.2 Những nghiên cứu liên quan 60 60 61 2.6.3 3.2.1 Các phương pháp sử dụng 01 camera 3.2.1.1 Hướng nghiên cứu sử dụng stereo camera 61 62 3.2.1.2 Hướng nghiên cứu sử dụng cảm biến Kinect 3.2.1.3 Phân tích đánh giá phương pháp 3.3 Đề xuất phương pháp phát ước lượng khoảng cách 64 65 66 3.4 Phát vật cản 3.4.1 Phát vật cản cố định 67 67 3.4.1.1 3.4.1.2 3.4.1.3 Đối sánh điểm đặc trưng Phát vật cản từ kết đối sánh Xác định vùng chứa đối tượng 68 71 74 Phát vật cản động 3.4.2.1 Trích chọn đặc trưng HoG 3.4.2.2 Bộ phân loại SVM 75 75 76 3.5 Uớc lượng khoảng cách vật cản 3.5.1 Nguyên lý ước lượng khoảng cách 77 77 3.4.2 iv 3.5.2 Xây dựng đồ chênh lệch 79 3.5.2.1 3.5.2.2 3.5.2.3 Thu thập liệu Hiệu chỉnh hình ảnh Đối sánh hình ảnh 80 80 84 3.5.2.4 Tính tốn độ sâu 3.6 Kết đánh giá 86 88 3.6.1 3.6.2 3.6.3 Xây dựng sở liệu vật cản Đánh giá giải thuật phát đối tượng Đánh giá giải thuật ước lượng khoảng cách vật cản 88 90 93 3.7 Kết luận chương 98 PHÁT TRIỂN VÀ THỬ NGHIỆM HỆ THỐNG DẪN ĐƯỜNG 4.1 Hệ thống tích hợp 4.1.1 Tích hợp phần cứng 99 99 99 4.1.2 Kiến trúc tổng thể 101 4.2 Phát triển hệ thống dẫn đường sử dụng robot 102 4.2.1 4.2.2 Tìm đường cho robot 102 Điều khiển robot 103 4.2.2.1 Điều khiển trực tiếp dựa đường xác định 103 4.2.2.2 Điều khiển theo dự báo hiệu chỉnh vị trí lọc Kalman 105 4.2.3 Tương tác người-robot 111 4.3 Thử nghiệm đánh giá hệ thống dẫn đường 112 4.3.1 Mơi trường quy trình thử nghiệm 112 4.3.1.1 4.3.1.2 4.3.2 Môi trường thử nghiệm 112 Quy trình thử nghiệm 115 Kết thực nghiệm 116 4.3.2.1 Đánh giá khả xác định vị trí xuất phát robot 116 4.3.2.2 Đánh giá khả điều khiển robot 117 4.3.2.3 4.3.2.4 Đánh giá khả tương tác người-robot 119 Đánh giá hệ thống dẫn đường trợ giúp NKT robot 121 4.3.3 Bàn luận hệ thống robot dẫn đường 130 4.4 Kết luận chương 132 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 TÀI LIỆU THAM KHẢO 136 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 148 PHỤ LỤC 151 v A MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 151 A.1 Đặc trưng Harris Corner 151 A.2 Đặc trưng SIFT 153 A.3 Đặc trưng SURF 157 A.4 Đặc trưng GIST 163 A.5 Đặc trưng HoG 165 A.6 Đặc trưng Haar 170 B ĐÁNH GIÁ HIỆU NĂNG NHẬN DẠNG TRÊN MỘT SỐ CSDL 173 B.1 Giới thiệu CSDL thử nghiệm 173 B.2 Khung nhận dạng đối tượng tổng quát 177 B.3 Độ đo đánh giá 182 B.4 Kết đánh giá 183 C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU 188 C.1 Xe camera thu thập liệu 188 C.2 Hiệu chỉnh camera góc rộng 191 C.3 Robot PC-Bot914 193 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Viết tắt AM AP BOW CSDL ED FAB-MAP FLANN FN FP GPS HOG HSI KF KH&CN k-NN LASER LATS LIDAR MICA MUT NCS NĐC NKT PUT RANSAC RFID RGB RMSE SAD SIFT SLAM SURF SVM TP TQB VO WIFI Nghĩa đầy đủ (tiếng Việt/tiếng Anh) Appearance based Mapping Average Precision Bag of Words Cơ sở liệu Euclidean Distance Fast Appearance Based Mapping Fast Library for Approximate Nearest Neighbors False Negative False Positive Global Positioning System Histogram of Oriented Gradients Hue Saturation and Intensity Kalman Filter Khoa học Công nghệ K-Nearest Neighbors Light Amplification by Stimulated Emission of Radiation Luận án tiến sĩ Light Detection And Ranging Multimedia, Information, Communication & Applications Motion Uncertainty Tetragon Nghiên cứu sinh Nguyễn Đình Chiểu Người khiếm thị Perspective Uncertainty Tetragons RANdom SAmple Consensus Radio Frequency Identification Red Green and Blue Root Mean Square Error Sum of Absolute Differences Scale Invariant Feature Transforms Simultaneous Localization and Mapping Speeded Up Robust Features Support Vector Machine True Positive Tạ Quang Bửu Visual Odometry Wireless Fidelity vii DANH MỤC CÁC BẢNG Bảng 2.1 Bảng tổng hợp thông tin 03 môi trường thử nghiệm 46 Bảng 2.2 Tốc độ lấy mẫu (fps) camera môi trường thử nghiệm 47 Bảng 2.3 Dữ liệu thu thập E1:NĐC 47 Bảng 2.4 Dữ liệu thu thập E2:TQB 47 Bảng 2.5 Dữ liệu thu thập E3:MICA 47 Bảng 2.6 Kết đánh giá RMSE E1:NĐC 48 Bảng 2.7 Kết đánh giá độ sai số tiêu chuẩn RMSE E2:TQB 50 Bảng 2.8 Kết đánh giá độ sai số tiêu chuẩn RMSE E3:MICA 52 Bảng 2.9 So sánh khả định vị giải thuật FAB-MAP* E1:NĐC 54 Bảng 2.10 Kết đánh giá so sánh giải thuật định vị FAB-MAP* E2:TQB 56 Bảng 2.11 Kết đánh giá so sánh giải thuật định vị FAB-MAP* E3:MICA 57 Bảng 3.1 Kết thu nhận liệu khung cảnh/đường phục vụ đánh giá 88 Bảng 3.2 Thu thập liệu đánh giá phát ước lượng khoảng cách vật cản 90 Bảng 3.3 Kết phát đối tượng theo phương pháp đề xuất 91 Bảng 3.4 Kết phát đánh giá so sánh với phương pháp Haar-AdaBoost 91 Bảng 3.5 Kết dự đoán độ sai số ước lượng khoảng cách vật cản 93 Bảng 4.1 Danh sách tham gia thử nghiệm dẫn đường E1:NĐC 112 Bảng 4.2 Danh sách tham gia đánh giá hệ thống dẫn đường E2:TQB Bảng 4.3 Danh sách tham gia đánh giá hệ thống dẫn đường E3:MICA 114 Bảng 4.4 Kết đánh giá điểm xuất phát robot 117 Bảng 4.5 Kết đánh giá vai trò lọc Kalman điều khiển robot 118 Bảng 4.6 Kết sai số định vị sử dụng sai số trung vị 118 viii 113 sinh viên; 05 Phòng thiết bị; 06 Phòng thư ký; 07 Phòng hội thảo; 08 Thang máy; 09 Kho; 10 Nhà vệ sinh − Dữ liệu đối tượng: 01 Ghế; 02 Máy tính; 03.Bình chữa cháy; 04 Tủ lạnh; 05 Máy in; 06 Màn hình; 07 Thùng rác; 08 Bồn tiểu Tổng số 5263 ảnh cho lần thu (Visual-1 Visual-2) bao gồm ảnh màu (RGB) ảnh độ sâu (Depth- Point Cloud Data) chia làm 02 phần: 1947 ảnh (Visual-1) huấn luyện tách 2363 đối tượng, 3515 ảnh (Visual-2) phục vụ cho thử nghiệm • PascalVOC 2007 [44] [45] [43]: gồm có 20 lớp đối tượng chia làm 04 nhóm mơ tả Hình B.2: 01 Máy bay 02 Xe buýt 03 Ô tô 04 Xe đạp 05 Xe máy 06 Thuyền 07 Xe lửa 08 Chậu 09 Chai lọ 11 Bàn ăn 12 Ghế Sô-pha 13 Tivi/màn hình 14 Chim 15 Mèo 18 Ngựa 19 Cừu 20 Người 16 Bò 17 Chó 10 Ghế Hình B.2 Minh họa 20 lớp đối tượng Pascal VOC − Nhóm phương tiện giao thơng: 01 Máy bay; 02 Xe bt; 03 Ơ tô; 04 Xe đạp; 05 Xe máy; 06 Tàu thuyền; 07 Xe lửa − Nhóm đối tượng nhà : 08 Chai lọ; 09 Ghế; 10 Bàn ăn; 11 Chậu cây; 12 Ghế sơ-pha; 13 Tivi/Màn hình − Nhóm đối tượng người : 20 Người 174 − Nhóm đối tượng động vật: 14 Chim; 15 Mèo; 16 Bị; 17.Chó; 18 Ngựa; 19 Cừu Tổng số 7453 ảnh chứa 15 509 đối tượng chia làm 02 loại: 2501 ảnh huấn luyện 4952 ảnh thử nghiệm • Naiscorp 2012: xây dựng dịch vụ quảng cáo trực tuyến nằm khuôn khổ đề tài tiền Bộ Khoa học Công nghệ mã số: KC.01.TN19/11-15, bao gồm 10 lớp đối tượng, đối tượng có 500 ảnh, tổng số ảnh sở liệu 5000 ảnh, 2500 ảnh cho phần thử nghiệm, 2500 ảnh cho phần huấn luyện tổ chức theo thư mục Hình B.4 − Nhóm đối tượng nhà : 00 Hoa; 01 Điện thoại; 02 Đồng hồ; 03 Giày dép; 04 Kính; 08 Máy tính xách tay; − Nhóm đối tượng người : 05 Người; − Nhóm phương tiện giao thơng: 09 Xe máy; 06 Ơ tơ; 07 Thuyền; Nhận xét: Cả ba CSDL Naiscorp 2012, Pascal VOC 2007 Robot Vision 2013 phải đảm bảo yêu tố đặt CSDL đủ lớn, đa dạng góc chụp, kiểu dáng, phông nền, hướng, khoảng cách, điều kiện chiếu sáng thu nhận ảnh đối tượng mơ tả Hình B.3 (a) Sự đa dạng Naicorp 2012 (b) Sự thay đổi góc nhìn Robot Vison 2013 (c) Độ chiếu sáng Pascal VOC 2007 Hình B.3 Những khó khăn thách thưc CSDL đề xuất 175 Hoa Điện thoại Đồng hồ Giầy dép Kính Người Ô tô Thuyền Máy tính xách tay Xe máy Hình B.4 Các lớp đối tượng CSDL Naicorp 2012 176 B.2 Khung nhận dạng đối tượng tổng quát Trong khuôn khổ luận án, đề xuất nghiên cứu thử nghiệm phương pháp kết hợp đặc trưng phân loại nhằm tăng hiệu nhận dạng đối tượng mơ tả Hình B.5: Đầu vào nh/Video Cơ sở liệu Trượt cửa sổ Tiền xử lý Trích chọn đặc trưng Haar, HoG, Gist Trích chọn đặc trưng Nhận dạng (Adaboost, SVM, k-NN) Huấn luyện (Adaboost, SVM, k-NN) Mô hình huấn luyện Kết Pha huấn luyện Pha nhận dạng Hình B.5 Khung làm việc tổng quát phát nhận dạng đối tượng Quá trình nhận dạng bao gồm pha: • Huấn luyện: Cơ sở liệu mẫu đưa vào tiền xử lý để làm (màu sắc, ánh sáng, kích thước, dung lượng ) sau chuyển sang phần trích chọn đặc trưng Tại đây, đặc trưng đề xuất Haar, HoG, GIST trích chọn đưa vào phần huấn luyện Kết cho ta tập vector đặc trưng sử dụng cho pha nhận dạng • Nhận dạng: Ảnh/Video cần nhận dạng đưa qua trượt cửa sổ, liệu quét với nhiều kích thước khác Mỗi cửa sổ trích chọn đặc trưng đưa vào phần nhận dạng Tại mơ hình nhận dạng thực việc đánh giá so sánh với mơ hình học theo ngưỡng cho trước, ngưỡng định kết nhận dạng đối tượng Hình B.5 đưa mơ hình khung nhận dạng kết hợp phương pháp nhận dạng đối tượng, chúng tơi trình bày tóm tắt phương pháp nhận dạng đối tượng kết hợp bao gồm: − Kết hợp Haar- AdaBoost: Haar [135] loại đặc trưng thường 177 dùng cho toán nhận dạng đối tượng ảnh, xây dựng từ hình chữ nhật có kích thước nhau, để tính độ chênh lệch giá trị mức xám điểm ảnh vùng kề Đặc trưng có ưu điểm tính tốn nhanh thơng qua việc sử dụng kỹ thuật ảnh tích phân, chi tiết có PHỤ LỤC A.6 luận án Đặc trưng Haar thường sử dụng giải thuật học Boosting để lựa chọn số đặc trưng tiêu biểu để biểu diễn đối tượng Adaboost (Adaptive Boost): tiếp cận boosting [49] Freund Schapire đưa vào năm 1995 Adaboost hoạt động nguyên tắc kết hợp tuyến tính phân loại yếu để có phân loại mạnh mơ tả Hình B.6 Là cải tiến tiếp cận boosting, Adaboost sử dụng thêm khái niệm trọng số (weight) để đánh dấu mẫu khó nhận dạng H(x) = sign( T X (B.1) αt ht (x)) t=1 T số lượng phân loại yếu ht (x) thời điểm t; hệ số αt = 21 ln( 1−εj ); εj εj lỗi Trong trình huấn luyện, phân loại yếu xây dựng, thuật toán tiến hành câp nhật lại trọng số để chuẩn bị cho việc xây dựng phân loại yếu kế tiếp: tăng trọng số mẫu bị nhận dạng sai giảm trọng số mẫu nhận dạng phân loại yếu vừa xây dựng Bộ phân loại yếu h;(x) Bộ phân loại yếu Bộ phân loại yếu h= Support vectors Support vectors −b kwk −ξi kwk Hình B.8 Siêu phẳng tách với khoảng cách lề cực đại SVM Hình B.8 mơ tả khả vượt trội SVM tính hiệu quả, độ xác, khả xử lý liệu cách linh hoạt, việc sử dụng phương pháp SVM lựa chọn tối ưu việc giải toán phát nhận dạng Siêu phẳng có khoảng cách với liệu gần lớn (biên lớn nhất) gọi siêu phẳng tối ưu, minh họa Hình B.9 − Kết hợp GIST- kNN : Đặc trưng GIST [114], [106] việc trích chọn từ ảnh tập hợp đặc trưng quan trọng tính tự nhiên, mở rộng, độ nhám, độ chắn, cho phép trình bày cấu trúc khơng gian cảnh Chi tiết cách tính tốn đặc trưng có nội dung PHỤ LỤC A.4 luận án Bộ phân lớp k-NN (k-Nearest Neighbors)[73]: Học dựa láng giềng gần 180 Biên lớn + + + bc Lớp I + Lớp II + + + + bc + + Một siêu phẳng bc bc bc bc bc bc bc Siêu phẳng tối ưu Hình B.9 Phân tách theo siêu phẳng (w,b) khơng gian chiều tập mẫu giải thuật phân lớp tập đóng ví dụ không gian đặc trưng Ý tưởng phương pháp xếp vào lớp có k hàng xóm gần với nhất, minh họa Hình B.10 Aûnh thử nghiệm Khoảng cách Nhãün lớp D1 D1 D5 D8 Lớp nh huấn luyện Hình B.10 Minh họa bước tính tốn k-NN Các hàm tính khoảng cách k-NN đóng vai trị quan trọng phương pháp học, dựa láng giềng gần thường xác định trước khơng thay đổi suốt q trình học phân lớp + Các hàm tính khoảng cách hình học: dành cho tốn có thuộc 181 tính đầu vào kiểu số thực (xi ∈ R) o Hàm Minkowski: d(x, z) = ( n X |xi − zi |p )1/p (B.3) i=1 o Hàm Manhattan: d(x, z) = n X |xi − zi | (B.4) i=2 v u n uX o Hàm Euclid: d(x, z) = t (xi − zi )2 (B.5) i=1 + Hàm khoảng cách Hamming: dành cho tốn có thuộc tính đầu vào kiểu nhị phân (xi ∈ {0, 1}) d(x, z) = n X Dif f erence(xi , zi ) (B.6) i=1 ( 1, (x 6= z) Trong đó: Dif f erence(x, z) = B.3 0, (x = z) Độ đo đánh giá Trong 03 CSDL đề xuất thử nghiệm, sử dụng độ đo đánh giá khác cụ thể sau: • CSDL Naiscorp 2012: Sử dụng độ đo xác (Precision) tính theo cơng thức (2.26) để đánh giá hiệu hệ thống nhận dạng • CSDL Robot Vision 2013: Cung cấp bảng điểm cho việc nhận dạng 10 khung cảnh 08 đối tượng Bảng B.1, điểm cuối tổng điểm tất điểm thu Bảng B.1 Quy định thang tính điểm phần thi nhận dạng RobotVision2013 Các lớp đối tượng/Class Nhận dạng xác Nhận dạng sai Không nhận dạng Khung cảnh 1.0 -0.5 0.0 Đối tượng 0.125 -0.125 0.000 • CSDL PascalVOC 2007: sử dụng độ đo xác trung bình AP (Average Precision) thể giá trị tích phân đồ thị ROC (Receiver Operating Characteristic) hai giá trị độ đo triệu hồi (recall) độ đo xác (Precision) 182 B.4 Kết đánh giá Kết đánh giá 03 CSDL thực nghiệm sở để lựa chọn lớp đối tượng đạt hiệu cao nhằm xây dựng CSDL vật cản phù hợp với môi trường thực tế mà NKT thường gặp phải Cụ thể sau: - CSDL Naiscorp 2012: Trong Bảng B.2 Haar-AdaBoost phương pháp tốt cho lớp điện thoại, đồng hồ, hoa, ô tô Thuyền, điều tính Haarlike đại diện với chi tiết đối tượng Còn GIST k-NN phương pháp nhận dạng tốt cho lớp Giày dép, Kính, Máy tính xách tay, Xe máy Độ xác trung bình CSDL Naiscorp 2012 80% Bảng B.2 Kết nhận dạng tượng CSDL Naiscorp 2012 TT Lớp đối tượng Haarlike-Adaboost HoG-SVM GIST-kNN 00 Điện thoại 97% 67% 88% 01 Đồng hồ 98% 95% 81% 02 Giày dép 34% 67% 73% 03 Hoa 90% 76% 75% 04 Kính 91% 87% 98% 05 Máy tính 62% 78% 99% 06 Người 91% 90% 77% 07 Ơ tơ 100% 85% 91% 08 Thuyền 100% 78% 92% 09 Xe máy 56% 88% 96% 82% 81% 87% Trung bình Hình B.11 đối tượng ảnh khoanh vùng gán nhãn, kết nhận dạng phụ thuộc vào CSDL huấn luyện Hình B.11(a) nhận dạng đồng hồ đặc tính ảnh đưa vào nhận dạng khác nhiều so với huấn luyện Hình B.11(b) cho thấy nhận dạng nhầm từ lớp đồng hồ sang lớp máy tính xách tay số đặc trưng trích chọn ảnh đồng hồ phím bấm tương đối giống với đặc trưng trích chọn lớp máy tính xách tay, nên xảy trường hợp nhận dạng nhầm Hình B.11(c) cho thấy lớp đồng hồ nhận dạng đúng, nhiên đặc trưng trích chọn lớp đồng hồ hình trịn, phía có họa tiết giống bơng hoa nên nhận nhầm sang lớp hoa Cuối Hình B.11(d) có tình trạng nhận dạng nhập nhằng, nhận dạng lớp máy tính máy tính chứa hình ảnh giày dép nên hiểu nhận dạng sai nhận dạng Thuật toán nhận dạng đối tượng chạy máy tính cấu hình (CHIP Intel(R) Core(TM) 183 (a) Phát (b) Phát nhầm (c) Phát đúng, thừa (d) Phát nhập nhằng Hình B.11 Một số kết nhận dạng đúng/sai CSDL Naicorp 2012 i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB) Kích thước trung bình ảnh 600 × 400, tốc độ tính tốn đạt 88.12 ms/ ảnh - CSDL Robot Vision 2013: Đã có 16 kết đội thi đến từ nhóm nghiên cứu giới gửi tới thi Robot Vision, nhóm MICA gửi 03 kết dự thi, cụ thể sau Phương pháp nhận dạng đề xuất sử dụng giải thuật kết hợp GIST k-NN để nhận dạng khung cảnh trước nhận dạng đối tượng Kết nhận dạng minh họa Hình B.12 (a) Phát (b) Phát nhầm Hình B.12 Một số kết nhận dạng đúng/sai CSDL RobotVision2013 Nhóm nghiên cứu MICA đứng thứ 9/16 kết đạt số điểm 4497.875 điểm, kết xếp hạng có Bảng B.3 Kết chưa cao số nguyên nhân nhóm nghiên cứu chưa sử dụng đến hình ảnh độ sâu (Depth) cung cấp, đặc trưng trích chọn ảnh huấn luyện chưa đủ nhiều, bao hết trường hợp tập thử nghiệm Với nguyên nhân 184 Bảng B.3 Kết điểm nhận dạng đối tượng CSDL Robot Vision 2013 TT 10 11 12 13 14 15 16 Đội thi MIAR ICT MIAR ICT MIAR ICT MIAR ICT MIAR ICT NUDT SIMD* REGIM MICA REGIM MICA MICA GRAM GRAM GRAM NUDT Tổng điểm 6033.5 5924.25 5924.25 5867.5 5867 5722.5 5004.75 4638.875 4497.875 3763.75 3316.125 2680.625 -487 -497 -497 -866.25 Kết tham dự 1367338469342_result5.txt 1367337521811_result1.txt 1367338031442_result3.txt 1367338141275_result4.txt 1367337920393_result2.txt 1367330362498_Submission_zy.results 1366035468189_exampletest.results 1367938209005_results2 (1).results 1367489769671_MICA_RobotVision_2.txt 1367937984977 results1 (1).results 1367487985297_MICA_RobotVision_1.txt 1368014381988_MICA_RobotVision_3.txt 1368038785876_gram_3dspmk_l2_k400.txt 1368090179987_gram_3dspmk_l2_k800.txt 1368090208187_gram_3dspmk_l2_k1000.txt 1367376643434_Submission_yl.results chúng tơi đề xuất kết hợp 02 nguồn liệu màu sắc (RGB) ảnh độ sâu (Depth) để nhận dạng xác có khung cảnh đề xuất Thuật tốn chạy cấu hình máy tính (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB), kích thước ảnh trung bình 640 × 480, thời gian tính tốn trêm ảnh 90.3 ms/ ảnh - CSDL PascalVOC 2007: Với đồ thị AP Hình B.13 thấy đặc trưng GIST phân lớp k-NN chạy với CSDL Pascal VOC 2007 cho kết trung bình, với AP=0.164, đồ thị AP lớp đối tượng Hình B.14 thấy rõ vai trò đặc trưng GIST sử dụng nhận dạng đối tượng cho kết tốt lớp người, tơ, xe bt, hình ti vi khơng tốt lớp cịn lại Lý đối tượng CSDL đa dạng, số lượng lớn đặc biệt ảnh chứa nhiều đối tượng Tuy nhiên, GIST, k-NN cần phối hợp với đặc trưng khác kết tốt Một số hình ảnh kết nhận dạng CSDL Pascal VOC 2007: Hình B.15(a) khoanh vùng đối tượng ô tô, người (ngồi ô tô), đặc biệt với kỹ thuật quét cửa sổ toàn ảnh khoanh vùng khóm bên đường, giống đối tượng chậu hoa có CSDL Tuy nhiên, phương pháp cho kết 185 Hình B.13 Đồ thị AP 20 lớp đối tượng CSDL PascalVOC 2007 Hình B.14 Đồ thị AP lớp đối tượng CSDL PascalVOC 2007 186 (a) Phát (b) Phát đúng, thừa Hình B.15 Kết nhận dạng đối tượng CSDL Pascal VOC 2007 phát thừa Hình B.15(b) Hình B.15(c) (b) Nhận nhầm sang lớp chó (a) Lớp cừu (c) Nhận nhầm sang lớp Bò Hình B.16 Kết nhận dạng đối tượng CSDL Pascal VOC 2007 Thuật toán nhận dạng đối tượng sở liệu PascalVOC 2007 chạy máy tính cấu hình (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB) Kích thước trung bình ảnh (380 × 470) điểm ảnh, tốc độ tính tốn đạt 150 ms/ảnh 187 PHỤ LỤC C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU C.1 Xe camera thu thập liệu - Ý tưởng thử nghiệm: sử dụng 02 camera bố trí vng góc, thu liệu đồng thời: camera thứ chiếu xuống đất thu hình ảnh mặt đường, camera thứ hai hướng phía trước thu thập liệu khung cảnh, camera gắn gậy; cầm tay; gắn ghế; gắn xe đẩy hàng; gắn xe đạp mô tả Hình C.1 (a) Gắn ghế (b) Gắn xe đẩy hàng (c) Gắn xe đạp (e) Cầm tay người (d) Gắn gậy người Hình C.1 Một số giải pháp thu thập liệu từ camera Với thiết kế đề xuất Hình C.1, chúng tơi tiến hành đánh giá 02 kịch nhà trời sau: + Kịch (trong nhà): khu thực nghiệm - Đại học Gent - Vương quốc Bỉ, định nghĩa 06 địa điểm (A, B, C, D, E, G) xuất phát từ A thành vịng trịn khép kín qua điểm quay trở lại A, chiều dài hành trình d = 89.4m Hình C.2(a) Phương pháp thu thập liệu sử dụng ghế xe đẩy hàng mô 188

Ngày đăng: 18/04/2023, 16:43

Tài liệu cùng người dùng

Tài liệu liên quan