Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

88 265 0
Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ii ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƯƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG HÌNH TÚI TỪ MẠNG NEURAL Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học TS Nguyễn Tồn Thắng Thái Nguyên, tháng 06 năm 2016 iii iiii LỜI CAM ĐOAN Tên Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa 2014- 2016, chuyên nghành Khoa học máy tnh Tôi xin cam đoan luận văn thạc sĩ: Phương pháp nhận diện mẫu sử dụng hình túi từ mạng Neural tự thân tơi tìm hiểu, nghiên cứu hướng dẫn TS Nguyễn Tồn Thắng Các chương trình thực nghiệm thân tơi lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Nguyễn Khánh Tùng iv LỜI CẢM ƠN Để hồn thành luận văn tơi nhiều động viên giúp đỡ cá nhân tập thể Trước hết, cho tơi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Toàn Thắng hướng dẫn thực đề tài nghiên cứu Xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo người đem lại cho tơi kiến thức vơ q giá, có ích năm học vừa qua Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều tạo điều kiện cho tơi suốt q trình học tập Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo, Khoa sau đại học, Đại học Công nghệ thông tin Truyền thông Thái Nguyên tạo điều kiện cho tơi q trình học tập nghiên cứu Cuối xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể lớp Khoa học máy tnh K13 C Quảng Ninh, người ln bên tơi, động viên khuyến khích tơi q trình thực đề tài nghiên cứu HỌC VIÊN Nguyễn Khánh Tùng v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU CHƯƠNG TỔNG QUAN 1.1 Khảo sát số cơng trình cơng bố nhận diện bàn tay 1.2.Trích chọn đặc trưng 10 1.2.1 Đặt vấn đề 10 1.2.2 Đặc trưng màu sắc 11 1.2.3 Đặc trưng kết cấu 12 1.2.4 Đặc trưng hình dạng 13 1.2.5 Đặc trưng cục bất biến 14 1.3 Phân lớp liệu mạng neuron 18 1.3.1 Phân lớp liệu 18 1.3.2 Các vấn đề liên quan đến phân lớp liệu 21 1.3.3 Mạng neuron 22 CHƯƠNG TRÌNH BÀY SỬ DỤNG HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29 TẢ CHO VẬT THỂ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON 29 2.1 hình túi từ phân lớp văn 29 2.2 Ý tưởng Thuật toán 31 2.3 Diễn giải chi tiết thuật toán 35 2.3.1 Trích chọn tả đặc trưng với SURF 35 2.3.2 Phân cụm đặc trưng SURF sinh từ điển 37 2.3.3.Tạo loại tả vật thể dựa SURF từ điển để dùng cho mạng neuron 40 vi 2.3.4 Huấn luyện phân lớp với mạng neuron 42 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 44 3.1 Các lớp xây dựng chương trình 44 3.2 Chương trình «Hand Recognitor» 49 CHƯƠNG THỬ NGHIỆM THUẬT TỐN PHÂN TÍCH KẾT QUẢ 60 4.1 Thử nghiệm với liệu tự tạo 60 4.1.1 Giai đoạn sinh từ điển huấn luyện 60 4.1.2 Test với liệu chứa ảnh với đơn giản nhiều góc nghiêng khoảng cách khác 63 4.1.3 Test với liệu chứa ảnh có nhiễu 67 4.1.4 Test với liệu chứa ảnh bị nhiễu nặng 69 4.1.5 Kết luận 70 4.2 Thử nghiệm với số liệu mở 71 4.2.1 Thử nghiệm với liệu Sebastien Marcel 71 4.2.2 Test với liệu Đại học Cambridge 73 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 77 vii DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang Bảng 3.1 tả lớp để xây dựng mạng neuron 45 Bảng 3.2 tả lớp module SURF 46 Bảng 3.3 tả số lớp thuộc module sinh từ điển 47 Bảng 4.1 Một số kết phân tích số lượng đặc trưng với giá trị khác ngưỡng Hessian 62 Bảng4.2 Kết test với liệu hình có kích thước khác 65 Bảng 4.3 Kết test với liệu ảnh có nhiễu nhẹ 68 Bảng 4.4 Kết test với liệu có nhiễu 70 Bảng 4.5 Kết test với liệu Sebastien Marcel 72 Bảng 4.6 Kết thử nghiệm hình CGM 73 Bảng 4.7 Kết thử nghiệm với liệu Đại học Cambridge 75 viii viiiv DANH MỤC CÁC HÌNH Số hình Tên hình Trang Hình 1.1 Găng tay có gắn thiết bị HCI Hình 1.2 hình bàn tay với 27 DOF Tomasi xây dựng nguyên tắc hoạt động phương pháp dựa hình 3D Hình 1.3 Nhận diện bàn tay dựa đường biên Hình 1.4 Đặc trưng Haar AdaBoost Hình 1.5 Biểu đồ việc tính tốn DoG ảnh từ ảnh kê mờ 16 Hình 1.6 Quá trình lựa chọn điểm hấp dẫn 17 Hình 1.7 Biểu diễn vector đặc trưng 18 Hình 1.8.cấu trúc neuron 23 Hình 1.9 hình neuron Mc Culloch Pitts 24 Hình 1.10 Mạng truyền thẳng ba lớp 25 Hình 2.1 tả ý tưởng thuật tốn nhận diện vật thể trình bày dựa hình túi từ 32 Hình 2.2 Sơ đồ tổng quát thuật toán nhận diện vật thể trình bày 33 Hình 2.3 Đặc trưng trích chọn SURF 37 Hình 2.4.Mơ tả trực quan q trình phân cụm sinh từ điển 39 Hình 2.5 Vật thể tả BOW tương ứng 41 Hình 2.6.Mạng neuron nhiều lớp 42 Hình 3.1 Các lớp để xây dựng mạng neuron 45 Hình 3.2 tả lớp module SURF 46 Hình 3.3 Các lớp thuộc module sinh từ điển 48 Hình 3.4 Giao diện chương trình Hand Recognitor 49 Hình 3.5 Giao diện module tạo liệu test thuật tốn 50 Hình 3.6 Tab «Real-time» để tạo liệu 51 ix Hình 3.7 Ví dụ ảnh thu thuộc lớp «Fist», «OK», «Palm», «Point» 52 Hình 3.8 Giao diện module tạo liệu test thuật toán 53 Hình 3.9 Ứng dụng «BOW params» để lựa chọn tham số 54 Hình 3.10 Kết phân tích ảnh thuộc lớp 55 Hình 3.11 Giao diện để tạo huấn luyện mạng neuron 56 Hình 3.12 Tự động test độ xác thuật tốn 58 Hình 3.13 Kiểm tra hoạt động thuật toán 59 Hình 3.14 Thử nghiệm nhận diện thời gian thực 59 Hình 4.1 Các lớp vật thể liệu 60 Hình 4.2 Một phần liệu dùng để sinh từ điển 61 Hình 4.3 Bộ liệu huấn luyện 63 Hình 4.4 Một số hình liệu test 64 Hình 4.5 Một phần liệu test với nhiễu nhẹ 68 Hình 4.6 Một phần liệu thử nghiệm 69 Hình 4.7 Các lớp liêu Sebastien Marcel 71 Hình 4.8 Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên), nhóm “phức tạp” (hàng dưới) 72 Hình 4.9 Một phần liệu Đại học Cambridge 74 MỞ ĐẦU Ngày phát triển rộng rãi ứng dụng công nghệ thông tin vào sống, việc tương tác người thiết bị ngày trở nên quan trọng Trước đây, bàn phím chuột giao diện để giao tiếp người máy tnh Trong lĩnh vực khác cần tới thông tin 3D, chẳng hạn trò chơi máy tnh, robot lĩnh vực thiết kế… thiết bị khí khác bóng lăn, cần điều khiển hay găng tay liệu sử dụng Tuy nhiên, người giao tiếp chủ yếu “nghe” “nhìn”, giao diện người – máy trực quan người điều khiển máy tnh giọng nói hay cử giống tương tác người với người giới thực mà không cần thông qua thiết bị điều khiển khác chuột hay bàn phím Một ưu điểm khác người dùng giao tiếp từ xa mà khơng cần phải có tiếp xúc vật lý với máy tnh So với hệ thống điều khiển lệnh âm thanh, hệ thống thị giác thích hợp môi trường ồn trường hợp âm bị nhiễu Nhận dạng cử động tay người cách tự nhiên tương tác người – máy ngày nhiều nhà nghiên cứu học viện ngành công nghiệp quan tâm đến hướng Nó cho phép người tương tác với máy dễ dàng thuận tiện mà không cần phải mang thêm thiết bị ngoại vi Với mục đích nghiên cứu kỹ thuật nhận dạng cử bàn tay người, luận văn tập trung trình bày số nội dung sau: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI Tương tác người - máy (Human - Computer Interaction, HCI) lĩnh vực thu hút nhiều nghiên cứu đạt nhiều kết ấn tượng thời gian gần Một toán quan trọng lĩnh vực cung cấp khả điều khiển máy tính (hoặc thiết bị) từ xa thông qua camera kết nối với máy Bài toán thường bao gồm bước: phát đối tượng thị trường camera (ví dụ, tay, mặt, thể người điều khiển thiết bị đặc biệt dùng để điều khiển); theo dõi chuyển động đối tượng; nhận diện hình dạng cách thức chuyển động đối tượng Kết nhận diện sử dụng để tạo lệnh tương ứng cho máy tính Mục đích đề tài xây dựng phương pháp nhận diện mẫu frame thu trực tiếp từ camera theo thời gian thực để giải bước thứ ba toán điều khiển máy tnh từ xa nêu Phương pháp nhận diện sử dụng hình túi từ (bag-of-features, bag-of-words) kết hợp với phương pháp phân lớp mạng neural Trong đó, hình túi từ sử dụng để tạo vector đặc trưng làm liệu đầu vào cho mạng neural Phương pháp nhận diện cần đảm bảo tốc độ xử lý cao (để thực thời gian thực với liệu thu trực tiếp từ camera), có tính bền vững với số dạng biến đổi đối tượng (xoay hình, thay đổi kích thước vị trí frame) Đối tượng nhận diện đề tài cử tay người số đồ vật đơn giản ĐỐI TƯỢNG PHẠM VI NGHIÊN CỨU a Lý thuyết - Nghiên cứu hình túi từ; - Nghiên cứu số phương pháp trích chọn đặc trưng ảnh số; - Nghiên cứu số phương pháp phân cụm liệu đơn giản; - Nghiên cứu mạng neural nhiều lớp b Thực nghiệm - Xây dựng chương trình thử nghiệm; - Thực huấn luyện test số loại lớp đối tượng (ví dụ, dạng tay người, số loại đồ vật đơn giản); - Thực huấn luyện test số kho liệu cử (ví dụ, kho liệu trường Đại học Cambridge); Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn  Bộ liệu gốc kích thước 120x120, lớp chứa 500 hình;  Bộ liệu kích thước 100x100, lớp chứa 500 hình (là hình liệu thu nhỏ kích thước);  Bộ liệu kích thước 80x80, lớp chứa 500 hình (là hình liệu thu nhỏ kích thước);  Bộ liệu kích thước 50x50, lớp chứa 500 hình (là hình liệu thu nhỏ kích thước) Hình 4.4 Một số hình liệu test Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Kết test thể bảng 4.2 Bảng 4.2 Kết test với liệu hình có kích thước khác Kích thước 120x120 Lớp Open Fist Palm Palm V-Shape Fist 493 0 Nhận diện Open Palm 499 0 thành Palm 0 494 V-Shape 0 490 10 39 42 39 40 Độ xác (%) 98,6 99,8 98,8 98,0 Độ xác trung bình 98,8 % Không nhận diện Kết Thời gian xử lý trung bình (ms) Kích thước 100x100 Lớp Fist Fist Open Palm Palm V-Shape 492 0 Nhận diện Open Palm 499 0 thành Palm 0 493 V-Shape 0 490 10 Không nhận diện Thời gian xử lý bao gồm thời gian trích đặc trưng SURF, thời gian tính vector BOW, thời gian xử lý mạng neuron Số hóa Trung tâm Học liệu – http://www.lrc.tnu.edu.vn ĐHTN 66 Kết Thời gian xử lý trung bình (ms) Độ xác (%) 28 31 29 30 98,4 99,8 98,6 98,0 Palm V-Shape Độ xác trung bình 98,7 % Kích thước 80x80 Lớp Fist Fist Open Palm 490 0 Nhận diện Open Palm 499 0 thành Palm 0 491 V-Shape 0 489 10 11 14 16 15 15 98,0 99,8 98,2 97,8 Palm V-Shape Không nhận diện Kết Thời gian xử lý trung bình (ms) Độ xác (%) Độ xác trung bình 98,5 % Kích thước 50х50 Lớp Fist Open Palm Fist 444 22 23 Nhận diện Open Palm 10 470 11 12 thành Palm 443 13 V-Shape 14 11 441 23 13 11 Khơng nhận diện Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 67 Kết Thời gian xử lý trung bình (ms) Độ xác (%) 14 16 15 15 88,8 94,0 88,6 88,2 Độ xác trung bình 89,9 % Kết thực nghiệm cho thấy chênh lệch nhỏ độ xác trung bình (trừ hình kích thước 50x50) Tuy nhiên thời gian xử lý trung bình chênh lệch lớn (15 ms hình kích thước 80x80, 40 ms với hình kích thước 120x120) Tốc độ xử lý chấp nhận để sử dụng thời gian thực (với camera có tốc độ thu 15 frame/giây thời gian xử lý frame khơng vượt 40 ms, không tạo tnh trạng giật hình) Thuật tốn trình bày đạt kết nhận diện cao tnh lý tưởng (một vật thể trơn) không phụ thuộc vào khoảng cách chụp góc nghiêng vật thể hình Đối với liệu hình kích thước 50x50, độ xác giảm mạnh số lượng nhận diện nhầm tăng lên đáng kể (trừ lớp Open Palm) Khi phân tích cho thấy, số lượng đặc trưng SURF thu từ hình khoảng 7-10 (trừ Open Palm) Như vậy, thuật toán hoạt động thiếu hiệu số lượng đặc trưng SURF thu ảnh có kích thước nhỏ Điều giúp đưa đến kết luận rằng, vật thể có bề mặt q đơn giản (vd, hình bóng tròn đồng màu), thuật tốn khơng hoạt động hiệu có q đặc trưng trích từ hình vật thể Thuật tốn hoạt động tốt với vật thể có hình dạng bề mặt phức tạp 4.1.3 Test với liệu chứa ảnh có nhiễu Bộ liệu chứa ảnh có nhiễu nhẹ (hình 4.5) bao gồm 1000 ảnh cho lớp Mỗi ảnh chụp với độ sáng thấp đơn giản có số Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 68 vật thể nhỏ khác Kích thước ảnh liệu 100x100 pixel Kết test trình bày bảng 4.3 Hình 4.5 Một phần liệu test với nhiễu nhẹ Bảng 4.3 Kết test với liệu ảnh có nhiễu nhẹ Lớp Fist Open Palm V-Shape Palm Fist 947 0 Nhận diện Open Palm 983 thành Palm 0 951 V-Shape 0 935 52 17 49 64 31 34 30 32 94,7 98,3 95,1 93,5 Không nhận diện Kết Thời gian xử lý trung bình Độ xác (%) Độ xác trung bình 95,8 % Trong thử nghiệm quan sát thấy độ xác trung bình giảm nhẹ (so với thử nghiệm phần trước), đồng thời tăng thời gian xử lý Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 69 trung bình hình Điều giải thích sau: xuất vật thể khác hình nền, số lượng đặc trưng SURF tm thấy tăng lên, làm tăng thời gian xử lý xây dựng tả BOW; đặc trưng SURF thu từ đối tượng “lạ” (khơng phải từ vật thể) có ảnh hưởng xấu tới độ xác thuật tốn nhận diện Kết thử nghiệm đưa đến kết luận quan trọng: phương pháp biểu diễn đặc trưng BOW hoạt động mà không cần thực phân tách riêng vật thể khỏi hình 4.1.4 Test với liệu chứa ảnh bị nhiễu nặng Đây liệu chụp điều kiện thật văn phòng với độ sáng khơng cố định, có lẫn vật thể lớn khác, với nhiều góc nghiêng kích thước khác (từ 80x80 tới 120x120) Một phần liệu trình bày hình 4.6 Kết test trình bày bảng 4.4 Hình 4.6 Một phần liệu thử nghiệm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 70 Bảng 4.4 Kết test với liệu có nhiễu Lớp Fist Fist Open Palm Palm V-Shape 918 Nhận diện Open Palm 965 thành Palm 903 V-Shape 1 918 80 35 95 79 34 37 34 35 91,8 96,5 90,3 91,8 Không nhận diện Kết Thời gian xử lý trung bình (ms) Độ xác (%) Độ xác trung bình 92,6 % Trong thử nghiệm này, độ xác giảm đáng kể thời gian xử lý tăng lên so với thử nghiệm nhìn chung, độ xác chấp nhận Nếu thuật toán nhận diện sử dụng với giải pháp theo dõi vật thể (object tracking) đạt kết tương tự thử nghiệm thứ hai (do phương pháp theo dõi vật thể thường khoanh vùng khu vực chứa vật thể) 4.1.5 Kết luận Thuật tốn trình bày đạt kết nhận diện cao tnh lý tưởng (một vật thể trơn) khơng phụ thuộc vào khoảng cách chụp góc nghiêng vật thể hình Thuật tốn hoạt động thiếu hiệu số lượng đặc trưng SURF thu q ảnh có kích thước nhỏ Điều giúp đưa đến kết luận rằng, vật thể có bề mặt đơn giản, thuật tốn khơng hoạt động hiệu có q đặc trưng trích từ hình vật thể Thuật toán hoạt động tốt với vật thể có hình dạng bề mặt phức tạp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 71 Phương pháp biểu diễn đặc trưng BOW hoạt động mà không cần thực phân tách riêng vật thể khỏi hình Vây mơi trương lam viêc la mơt yêu tô anh hương tơi hiêu qua cua công viêc thư nghiêm thuât toan 4.2 Thử nghiệm với số liệu mở Trong phần trình bày kết thử nghiệm với hai liệu: liệu Sebastien Marcel liệu Đại học Cambridge 4.2.1 Thử nghiệm với liệu Sebastien Marcel Bộ liệu xây dựng công bố với lớp (A, B, C, Five, Point, V) phần ký hiệu ngôn ngữ cử Hoa Kỳ (ASL – American Sign Language) (Hình 4.7) A B C Five Point V Hình 4.7 Các lớp liệu Sebasten Marcel Bộ liệu huấn luyện chứa 1329 hình thuộc lớp A, 487 hình lớp B, 572 hình lớp C, 645 lớp Five, 1395 hình lớp Point, 435 hình lớp V Để sinh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 72 từ điển, cơng trình tự xây dựng liệu gồm 200 hình kích thước 100x100 cho lớp Bộ liệu test chứa 97 hình lớp A, 102 hình lớp B, 112 hình lớp C, 112 hình lớp Five, 138 hình lớp Point 119 hình lớp V (hình 4.8) Kết thử nghiệm trình bày bảng 4.5 Hình 4.8 Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên), nhóm “phức tạp” (hàng dưới) Bảng 4.5 Kết test với liệu Sebastien Marcel Thời gian xử Lớp Số hình Nhận diện Độ xác lý trung bình (ms) (1) (2) (1) (2) (1) (2) (1) (2) A 58 39 57 35 98,3% 89,7% 27 28 B 61 41 59 40 96,7% 97,6% 27 27 C 65 47 60 40 92,3% 85,1% 27 27 V 57 38 54 30 94,7% 78,9% 27 27 Five 76 58 75 56 98,7% 96,6% 28 29 Point 65 54 63 50 96,9% 92,6% 27 27 96,3% 90,1% Kết Độ xác trung bình 93,2% Cột (1), (2) – Kết test với liệu đơn giản (1), liệu phức tạp (2) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 73 Trong cơng trình [8], Sebastien Marcel xây dựng hình CGM (Constrained Generative Model) để nhận diện hình bàn tay Kết tác giả cơng bố tổng kết bảng 4.6 Bảng 4.6 Kết thử nghiệm hình CGM Trên đơn giản Lớp Số hình Độ xác trung bình A,B,C,V 241 93,8% A-V 382 93,4% Trên phức tạp Lớp Số hình Độ xác trung bình A,B,C,V 165 74,8% A-V 277 76,1% Nhìn qua kết bảng test CGM so với kết test thư nghiêm Vê măt chi sô hiêu qua cua chung hăn đô chinh xac lân thơi gian xư li 4.2.2 Test với liệu Đại học Cambridge Bộ liệu Đại học Cambridge chứa 900 chuỗi hình với lớp, tương ứng với hình dạng bàn tay hướng nghiêng bàn tay (hình 4.9), chụp với hướng chiếu sáng khác Mỗi lớp chứa 100 chuỗi hình (5 hướng chiếu sáng x 20 chuỗi hình cho hướng) Mỗi chuỗi hình chứa 70 hình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 74 Trái Phải Nắm Phẳng Mở Chữ V a) Phẳng/ Trái Phẳng/ Phải Phẳng/ Nắm Mở/ Trái Mở/ Phải Mở/ Khép V / Trái V / Phải V / Khép b) c) Hình 4.9 Một phần liệu Đại học Cambridge a) lớp, bao gồm hình dạng hướng nghiêng; b) Ví dụ hình lớp; c) hướng chiếu sáng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 75 Bảng 4.7 Kết thử nghiệm với liệu Đại học Cambridge Hướng chiếu Lớp sáng Độ xác (%) Phẳng 95,2 Mở 98,1 V 94,5 Phẳng 93,4 Mở 97,7 V 93,1 Phẳng 93,6 Mở 97,9 V 93,1 Phẳng 97,5 V 92,9 Phẳng 94,2 Mở 98,1 V 93,9 Số hóa Trung tâm Học liệu – ĐHTN (%) 95,9 94,7 94,9 94 Mở Độ xác trung bình Độ xác trung bình 94,8 95,4 95,1% http://www.lrc.tnu.edu.vn 76 KẾT LUẬN Trong thời gian vừa qua, trình bày nội dung nghiên cứu đề tài tơi bao gồm phần sau: - Giới thiệu chung nhận diện mẫu - Những vấn đề cần giải toán nhận diện mẫu - Các phương pháp trích chọn đặc trưng ảnh số - Các phương pháp biểu diễn đặc trưng - Các phương pháp phân lớp liệu - Một số phương pháp nhận diện mẫu công bố (phân tch, so sánh ưu/nhược điểm, phạm vi ứng dụng) - Trình bày thuật toán xây dựng vector đặc trưng dựa hình túi từ + Lựa chọn phương pháp trích chọn đặc trưng (Trình bày sử dụng song song SURF SIFT) + Lựa chọn phương pháp phân cụm liệu (Trình bày sử dụng thuật tốn Kmeans) + Trình bày thuật tốn xây dựng kho từ vựng cho hình túi từ + Trình bày thuật tốn xây dựng vector đặc trưng cho đối tượng ảnh số + Xây dựng chương trình thử nghiệm + Thực huấn luyện test số kho liệu cử + Phân tích, đánh giá kết thu được; so sánh kết thu với kết số phương pháp nhận diện công bố + Thuật toán đạt kết nhận diện cao tình lý tưởng (một vật thể trơn) không phụ thuộc vào khoảng cách chụp góc nghiêng vật thể hình + Thuật toán hoạt động thiếu hiệu số lượng đặc trưng SURF thu ảnh có kích thước nhỏ Điều giúp đưa đến kết luận rằng, vật thể có bề mặt q đơn giản, thuật tốn khơng hoạt Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn động hiệu có q đặc trưng trích từ hình vật thể Thuật tốn hoạt động tốt với vật thể có hình dạng bề mặt phức tạp TÀI LIỆU THAM KHẢO [1] A Argyros and M Lourakis, “Vision-based interpretation of hand ges- tures for remote control of a computer mouse,” in Proc Workshop Com- put.HumanInteract.,2006,pp.40–51 [2] A Barczak and F Dadgostar, “Real-time hand tracking using a set of co- operative classifiers based on Haar-like features,” Res Let Inf Math Sci.,vol.7,pp.29–42,2005 [3] L Bretzner, I Laptev, and T Lindeberg, “Hand gesture recognition using multiscale color features, hieracrchichal models and particle filter-ing,” in Proc Int Conf Autom Face Gesture Recog., Washington, DC,May 2002 [4] Q Chen, N Georganas, and E Petriu, “Real-time vision-based hand gesture recognition using Haar-like features,” in Proc IEEE IMTC, 2007, pp.1–6 [5] A El-Sawah, N Georganas, and E Petriu, “A prototype for 3-D hand tracking and gesture estimation,” IEEE Trans Instrum Meas., vol 57,no.8, pp 1627–1636, Aug 2008 [6] A J Heap and D C Hogg, “Towards 3-D hand tracking using a de- formable model,” in Proc 2nd Int Face Gesture Recog Conf., Killington, VT, Oct 1996, pp 140–145 [7] M Kolsch and M Turk, “Analysis of rotational robustness of hand detection with a Viola-Jones detector,” in Proc 17th ICPR, 2004, pp 107–110 [8] Maral S.Haud posture recognion in a body-face centered space // Extened Abstract on Human Factors in computer System (CHI'99) - NewYork: ACM, 1999 - P.340-347 [9] J M Rehg and T Kanade, “Visual tracking of high DOF articulated structures: An application to human hand tracking,” in Proc Eur Conf Comput.Vis.,1994,pp.35–46 [10] B Stenger, “Template based hand pose recognition using multiple cues,” in Proc 7th ACCV, 2006, pp 551–560 [11] B Stenger, P R S Mendonỗa, and R Cipolla, Model-based 3D tracking of an articulated hand,” in Proc Brit Mach Vis Conf., Manchester, U.K.,Sep 2001, vol I, pp 63–72 [12] P Viola and M Jones, “Robust real-time object detection,” Int J Comput.Vis.,vol.2,no.57,pp.137–154,2004 [13] C Wang and K Wang, Hand Gesture Recognition Using Adaboost With SIFT for Human Robot Interaction, vol.370.Berlin, Germany: Springer- Verlag, 2008 [14] S.Wagner,B.Alefs, and C Picus,“Framework for a portable gesture interface,” in Proc Int Conf Autom Face Gesture Recog., 2006,pp 275–280 [15] H Zhou and T Huang, “Tracking articulated hand motion with Eigen dynamics analysis,” in Proc Int Conf Comput Vis., 2003, vol 2,pp.1102–1109 ... điều khiển máy tnh từ xa nêu Phương pháp nhận diện sử dụng mô hình túi từ (bag-of-features, bag-of-words) kết hợp với phương pháp phân lớp mạng neural Trong đó, mơ hình túi từ sử dụng để tạo vector... với phương pháp khác công bố NỘI DUNG NGHIÊN CỨU Chương Tổng quan Phần trình bày kiến thức nhận diện mẫu, toán nhận diện mẫu, số phương pháp nhận diện mẫu công bố Chương Trình bày sử dụng mơ hình. .. 1.3.3 Mạng neuron 22 CHƯƠNG TRÌNH BÀY SỬ DỤNG MƠ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29 MƠ TẢ CHO VẬT THỂ VÀ THUẬT TỐN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON 29 2.1 Mơ hình túi từ phân

Ngày đăng: 13/06/2018, 10:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan