(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural

87 16 0
(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural(Luận văn thạc sĩ) Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MƠ HÌNH TÚI TỪ VÀ MẠNG NEURAL LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, tháng 06 năm 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MƠ HÌNH TÚI TỪ VÀ MẠNG NEURAL Chun ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học TS Nguyễn Toàn Thắng Thái Nguyên, tháng 06 năm 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CAM ĐOAN Tên Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa 2014- 2016, chun nghành Khoa học máy tính Tôi xin cam đoan luận văn thạc sĩ: Phƣơng pháp nhận diện mẫu sử dụng mơ hình túi từ mạng Neural tự thân tơi tìm hiểu, nghiên cứu dƣới hƣớng dẫn TS Nguyễn Toàn Thắng Các chƣơng trình thực nghiệm thân tơi lập trình, kết hồn tồn trung thực Các tài liệu tham khảo đƣợc trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Nguyễn Khánh Tùng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv LỜI CẢM ƠN Để hoàn thành luận văn đƣợc nhiều động viên giúp đỡ cá nhân tập thể Trƣớc hết, cho xin đƣợc bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Tồn Thắng hƣớng dẫn tơi thực đề tài nghiên cứu Xin bày tỏ lịng biết ơn chân thành tới thầy, giáo ngƣời đem lại cho kiến thức vô q giá, có ích năm học vừa qua Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều tạo điều kiện cho suốt trình học tập Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo, Khoa sau đại học, Đại học Công nghệ thông tin Truyền thông Thái Nguyên tạo điều kiện cho trình học tập nghiên cứu Cuối tơi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể lớp Khoa học máy tính K13 C Quảng Ninh, ngƣời bên tôi, động viên khuyến khích tơi q trình thực đề tài nghiên cứu HỌC VIÊN Nguyễn Khánh Tùng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU CHƢƠNG TỔNG QUAN 1.1 Khảo sát số cơng trình đƣợc công bố nhận diện bàn tay 1.2.Trích chọn đặc trƣng 10 1.2.1 Đặt vấn đề 10 1.2.2 Đặc trƣng màu sắc 11 1.2.3 Đặc trƣng kết cấu 12 1.2.4 Đặc trƣng hình dạng 13 1.2.5 Đặc trƣng cục bất biến 14 1.3 Phân lớp liệu mạng neuron 18 1.3.1 Phân lớp liệu 18 1.3.2 Các vấn đề liên quan đến phân lớp liệu 21 1.3.3 Mạng neuron 22 CHƢƠNG TRÌNH BÀY SỬ DỤNG MƠ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29 MƠ TẢ CHO VẬT THỂ VÀ THUẬT TỐN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON 29 2.1 Mơ hình túi từ phân lớp văn 29 2.2 Ý tƣởng Thuật toán 31 2.3 Diễn giải chi tiết thuật toán 35 2.3.1 Trích chọn mơ tả đặc trƣng với SURF 35 2.3.2 Phân cụm đặc trƣng SURF sinh từ điển 37 2.3.3.Tạo loại mô tả vật thể dựa SURF từ điển để dùng cho mạng neuron 40 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi 2.3.4 Huấn luyện phân lớp với mạng neuron 42 CHƢƠNG XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 44 3.1 Các lớp xây dựng chƣơng trình 44 3.2 Chƣơng trình «Hand Recognitor» 49 CHƢƠNG THỬ NGHIỆM THUẬT TOÁN VÀ PHÂN TÍCH KẾT QUẢ 60 4.1 Thử nghiệm với liệu tự tạo 60 4.1.1 Giai đoạn sinh từ điển huấn luyện 60 4.1.2 Test với liệu chứa ảnh với đơn giản nhiều góc nghiêng khoảng cách khác 63 4.1.3 Test với liệu chứa ảnh có nhiễu 67 4.1.4 Test với liệu chứa ảnh bị nhiễu nặng 69 4.1.5 Kết luận 70 4.2 Thử nghiệm với số liệu mở 71 4.2.1 Thử nghiệm với liệu Sebastien Marcel 71 4.2.2 Test với liệu Đại học Cambridge 73 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 77 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang Bảng 3.1 Mô tả lớp để xây dựng mạng neuron 45 Bảng 3.2 Mô tả lớp module SURF 46 Bảng 3.3 Mô tả số lớp thuộc module sinh từ điển 47 Bảng 4.1 Một số kết phân tích số lƣợng đặc trƣng với giá trị khác ngƣỡng Hessian 62 Bảng4.2 Kết test với liệu hình có kích thƣớc khác 65 Bảng 4.3 Kết test với liệu ảnh có nhiễu nhẹ 68 Bảng 4.4 Kết test với liệu có nhiễu 70 Bảng 4.5 Kết test với liệu Sebastien Marcel 72 Bảng 4.6 Kết thử nghiệm mơ hình CGM 73 Bảng 4.7 Kết thử nghiệm với liệu Đại học Cambridge 75 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Số hình Tên hình Trang Hình 1.1 Găng tay có gắn thiết bị HCI Hình 1.2 Mơ hình bàn tay với 27 DOF Tomasi xây dựng nguyên tắc hoạt động phƣơng pháp dựa mơ hình 3D Hình 1.3 Nhận diện bàn tay dựa đƣờng biên Hình 1.4 Đặc trƣng Haar AdaBoost Hình 1.5 Biểu đồ mơ việc tính tốn DoG ảnh từ ảnh kê mờ 16 Hình 1.6 Quá trình lựa chọn điểm hấp dẫn 17 Hình 1.7 Biểu diễn vector đặc trƣng 18 Hình 1.8.cấu trúc neuron 23 Hình 1.9 Mơ hình neuron Mc Culloch Pitts 24 Hình 1.10 Mạng truyền thẳng ba lớp 25 Hình 2.1 Mơ tả ý tƣởng thuật tốn nhận diện vật thể trình bày dựa mơ hình túi từ 32 Hình 2.2 Sơ đồ tổng qt thuật tốn nhận diện vật thể trình bày 33 Hình 2.3 Đặc trƣng đƣợc trích chọn SURF 37 Hình 2.4.Mơ tả trực quan trình phân cụm sinh từ điển 39 Hình 2.5 Vật thể mô tả BOW tƣơng ứng 41 Hình 2.6.Mạng neuron nhiều lớp 42 Hình 3.1 Các lớp để xây dựng mạng neuron 45 Hình 3.2 Mơ tả lớp module SURF 46 Hình 3.3 Các lớp thuộc module sinh từ điển 48 Hình 3.4 Giao diện chƣơng trình Hand Recognitor 49 Hình 3.5 Giao diện module tạo liệu test thuật tốn 50 Hình 3.6 Tab «Real-time» để tạo liệu 51 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ix Hình 3.7 Ví dụ ảnh thu đƣợc thuộc lớp «Fist», «OK», «Palm», «Point» 52 Hình 3.8 Giao diện module tạo liệu test thuật tốn 53 Hình 3.9 Ứng dụng «BOW params» để lựa chọn tham số 54 Hình 3.10 Kết phân tích ảnh thuộc lớp 55 Hình 3.11 Giao diện để tạo huấn luyện mạng neuron 56 Hình 3.12 Tự động test độ xác thuật tốn 58 Hình 3.13 Kiểm tra hoạt động thuật toán 59 Hình 3.14 Thử nghiệm nhận diện thời gian thực 59 Hình 4.1 Các lớp vật thể liệu 60 Hình 4.2 Một phần liệu dùng để sinh từ điển 61 Hình 4.3 Bộ liệu huấn luyện 63 Hình 4.4 Một số hình liệu test 64 Hình 4.5 Một phần liệu test với nhiễu nhẹ 68 Hình 4.6 Một phần liệu thử nghiệm 69 Hình 4.7 Các lớp liê ̣u Sebastien Marcel 71 Hình 4.8 Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên), nhóm “phức tạp” (hàng dƣới) 72 Hình 4.9 Một phần liệu Đại học Cambridge 74 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Ngày dƣới phát triển rộng rãi ứng dụng công nghệ thông tin vào sống, việc tƣơng tác ngƣời thiết bị ngày trở nên quan trọng Trƣớc đây, bàn phím chuột giao diện để giao tiếp ngƣời máy tính Trong lĩnh vực khác cần tới thơng tin 3D, chẳng hạn nhƣ trị chơi máy tính, robot lĩnh vực thiết kế… thiết bị khí khác nhƣ bóng lăn, cần điều khiển hay găng tay liệu đƣợc sử dụng Tuy nhiên, ngƣời giao tiếp chủ yếu “nghe” “nhìn”, giao diện ngƣời – máy trực quan ngƣời điều khiển máy tính giọng nói hay cử giống nhƣ tƣơng tác ngƣời với ngƣời giới thực mà không cần thông qua thiết bị điều khiển khác nhƣ chuột hay bàn phím Một ƣu điểm khác ngƣời dùng giao tiếp từ xa mà khơng cần phải có tiếp xúc vật lý với máy tính So với hệ thống điều khiển lệnh âm thanh, hệ thống thị giác thích hợp môi trƣờng ồn trƣờng hợp âm bị nhiễu Nhận dạng cử động tay ngƣời cách tự nhiên tƣơng tác ngƣời – máy ngày nhiều nhà nghiên cứu học viện ngành công nghiệp quan tâm đến hƣớng Nó cho phép ngƣời tƣơng tác với máy dễ dàng thuận tiện mà không cần phải mang thêm thiết bị ngoại vi Với mục đích nghiên cứu kỹ thuật nhận dạng cử bàn tay ngƣời, luận văn tập trung trình bày số nội dung nhƣ sau: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI Tƣơng tác ngƣời - máy (Human - Computer Interaction, HCI) lĩnh vực thu hút nhiều nghiên cứu đạt đƣợc nhiều kết ấn tƣợng thời gian gần Một toán quan trọng lĩnh vực cung cấp khả điều khiển máy tính (hoặc thiết bị) từ xa thông qua camera kết nối với máy Bài toán thƣờng bao gồm bƣớc: phát đối Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 64  Bộ liệu gốc kích thƣớc 120x120, lớp chứa 500 hình;  Bộ liệu kích thƣớc 100x100, lớp chứa 500 hình (là hình liệu đƣợc thu nhỏ kích thƣớc);  Bộ liệu kích thƣớc 80x80, lớp chứa 500 hình (là hình liệu đƣợc thu nhỏ kích thƣớc);  Bộ liệu kích thƣớc 50x50, lớp chứa 500 hình (là hình liệu đƣợc thu nhỏ kích thƣớc) Hình 4.4 Một số hình liệu test Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 65 Kết test đƣợc thể bảng 4.2 Bảng 4.2 Kết test với liệu hình có kích thƣớc khác Kích thƣớc 120x120 Lớp Open Fist Fist Palm Palm V-Shape 493 0 Nhận diện Open Palm 499 0 thành Palm 0 494 V-Shape 0 490 10 Thời gian xử lý trung bình (ms)1 39 42 39 40 Độ xác (%) 98,6 99,8 98,8 98,0 Độ xác trung bình 98,8 % Khơng nhận diện Kết Kích thƣớc 100x100 Lớp Fist Fist Open Palm Palm V-Shape 492 0 Nhận diện Open Palm 499 0 thành Palm 0 493 V-Shape 0 490 10 Không nhận diện Thời gian xử lý bao gồm thời gian trích đặc trƣng SURF, thời gian tính vector BOW, thời gian xử lý mạng neuron Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 66 Kết Thời gian xử lý trung bình (ms) Độ xác (%) 28 31 29 30 98,4 99,8 98,6 98,0 Palm V-Shape Độ xác trung bình 98,7 % Kích thƣớc 80x80 Lớp Fist Fist Open Palm 490 0 Nhận diện Open Palm 499 0 thành Palm 0 491 V-Shape 0 489 10 11 14 16 15 15 98,0 99,8 98,2 97,8 Palm V-Shape Không nhận diện Kết Thời gian xử lý trung bình (ms) Độ xác (%) Độ xác trung bình 98,5 % Kích thƣớc 50х50 Lớp Fist Fist Open Palm 444 22 23 Nhận diện Open Palm 10 470 11 12 thành Palm 443 13 V-Shape 14 11 441 23 13 11 Không nhận diện Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 67 Kết Thời gian xử lý trung bình (ms) Độ xác (%) 14 16 15 15 88,8 94,0 88,6 88,2 Độ xác trung bình 89,9 % Kết thực nghiệm cho thấy chênh lệch nhỏ độ xác trung bình (trừ hình kích thƣớc 50x50) Tuy nhiên thời gian xử lý trung bình chênh lệch lớn (15 ms hình kích thƣớc 80x80, 40 ms với hình kích thƣớc 120x120) Tốc độ xử lý chấp nhận đƣợc để sử dụng thời gian thực (với camera có tốc độ thu 15 frame/giây thời gian xử lý frame không đƣợc vƣợt 40 ms, không tạo tình trạng giật hình) Thuật tốn trình bày đạt đƣợc kết nhận diện cao tình lý tƣởng (một vật thể trơn) khơng phụ thuộc vào khoảng cách chụp hình nhƣ góc nghiêng vật thể hình Đối với liệu hình kích thƣớc 50x50, độ xác giảm mạnh số lƣợng nhận diện nhầm tăng lên đáng kể (trừ lớp Open Palm) Khi phân tích cho thấy, số lƣợng đặc trƣng SURF thu đƣợc từ hình khoảng 7-10 (trừ Open Palm) Nhƣ vậy, thuật toán hoạt động thiếu hiệu số lƣợng đặc trƣng SURF thu đƣợc q ảnh có kích thƣớc nhỏ Điều giúp đƣa đến kết luận rằng, vật thể có bề mặt đơn giản (vd, hình bóng trịn đồng màu), thuật tốn khơng hoạt động hiệu có q đặc trƣng trích đƣợc từ hình vật thể Thuật tốn hoạt động tốt với vật thể có hình dạng bề mặt phức tạp 4.1.3 Test với liệu chứa ảnh có nhiễu Bộ liệu chứa ảnh có nhiễu nhẹ (hình 4.5) bao gồm 1000 ảnh cho lớp Mỗi ảnh đƣợc chụp với độ sáng thấp đơn giản có số Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 68 vật thể nhỏ khác Kích thƣớc ảnh liệu 100x100 pixel Kết test đƣợc trình bày bảng 4.3 Hình 4.5 Một phần liệu test với nhiễu nhẹ Bảng 4.3 Kết test với liệu ảnh có nhiễu nhẹ Lớp Fist Open Palm V-Shape Palm Fist 947 0 Nhận diện Open Palm 983 thành Palm 0 951 V-Shape 0 935 Không nhận diện đƣợc 52 17 49 64 31 34 30 32 94,7 98,3 95,1 93,5 Kết Thời gian xử lý trung bình Độ xác (%) Độ xác trung bình 95,8 % Trong thử nghiệm quan sát thấy độ xác trung bình giảm nhẹ (so với thử nghiệm phần trƣớc), đồng thời tăng thời gian xử lý Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 69 trung bình hình Điều đƣợc giải thích nhƣ sau: xuất vật thể khác hình nền, số lƣợng đặc trƣng SURF tìm thấy tăng lên, làm tăng thời gian xử lý xây dựng mô tả BOW; đặc trƣng SURF thu đƣợc từ đối tƣợng “lạ” (không phải từ vật thể) có ảnh hƣởng xấu tới độ xác thuật toán nhận diện Kết thử nghiệm đƣa đến kết luận quan trọng: phƣơng pháp biểu diễn đặc trƣng BOW hoạt động mà khơng cần thực phân tách riêng vật thể khỏi hình 4.1.4 Test với liệu chứa ảnh bị nhiễu nặng Đây liệu đƣợc chụp điều kiện thật văn phòng với độ sáng khơng cố định, có lẫn vật thể lớn khác, với nhiều góc nghiêng kích thƣớc khác (từ 80x80 tới 120x120) Một phần liệu đƣợc trình bày hình 4.6 Kết test trình bày bảng 4.4 Hình 4.6 Một phần liệu thử nghiệm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 70 Bảng 4.4 Kết test với liệu có nhiễu Lớp Fist Open Palm Palm V-Shape 918 Nhận diện Open Palm 965 thành Palm 903 V-Shape 1 918 Không nhận diện đƣợc 80 35 95 79 34 37 34 35 91,8 96,5 90,3 91,8 Fist Kết Thời gian xử lý trung bình (ms) Độ xác (%) Độ xác trung bình 92,6 % Trong thử nghiệm này, độ xác giảm đáng kể thời gian xử lý tăng lên so với thử nghiệm nhƣng nhìn chung, độ xác chấp nhận đƣợc Nếu thuật toán nhận diện đƣợc sử dụng với giải pháp theo dõi vật thể (object tracking) đạt đƣợc kết tƣơng tự nhƣ thử nghiệm thứ hai (do phƣơng pháp theo dõi vật thể thƣờng khoanh vùng đƣợc khu vực chứa vật thể) 4.1.5 Kết luận Thuật tốn trình bày đạt đƣợc kết nhận diện cao tình lý tƣởng (một vật thể trơn) không phụ thuộc vào khoảng cách chụp hình nhƣ góc nghiêng vật thể hình Thuật tốn hoạt động thiếu hiệu số lƣợng đặc trƣng SURF thu đƣợc ảnh có kích thƣớc nhỏ Điều giúp đƣa đến kết luận rằng, vật thể có bề mặt q đơn giản, thuật tốn khơng hoạt động hiệu có q đặc trƣng trích đƣợc từ hình vật thể Thuật tốn hoạt động tốt với vật thể có hình dạng bề mặt phức tạp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 71 Phƣơng pháp biểu diễn đặc trƣng BOW hoạt động mà khơng cần thực phân tách riêng vật thể khỏi hình Vâ ̣y môi trƣờng làm viê ̣c là mô ̣t yế u tố ảnh hƣởng tới hiê ̣u quả của công viê ̣c thƣ̉ nghiê ̣m thuâ ̣t toán 4.2 Thử nghiệm với số liệu mở Trong phần trình bày kết thử nghiệm với hai liệu: liệu Sebastien Marcel liệu Đại học Cambridge 4.2.1 Thử nghiệm với liệu Sebastien Marcel Bộ liệu đƣợc xây dựng công bố với lớp (A, B, C, Five, Point, V) phần ký hiệu ngôn ngữ cử Hoa Kỳ (ASL – American Sign Language) (Hình 4.7) A B C Five Point V Hình 4.7 Các lớp liệu Sebastien Marcel Bộ liệu huấn luyện chứa 1329 hình thuộc lớp A, 487 hình lớp B, 572 hình lớp C, 645 lớp Five, 1395 hình lớp Point, 435 hình lớp V Để sinh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 72 từ điển, cơng trình tự xây dựng liệu gồm 200 hình kích thƣớc 100x100 cho lớp Bộ liệu test chứa 97 hình lớp A, 102 hình lớp B, 112 hình lớp C, 112 hình lớp Five, 138 hình lớp Point 119 hình lớp V (hình 4.8) Kết thử nghiệm trình bày bảng 4.5 Hình 4.8 Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên), nhóm “phức tạp” (hàng dưới) Bảng 4.5 Kết test với liệu Sebastien Marcel2 Lớp Số hình Nhận diện (1) (2) (1) (2) A 58 39 57 35 B 61 41 59 C 65 47 V 57 Five Point Độ xác (1) (2) Thời gian xử lý trung bình (ms) (1) (2) 98,3% 89,7% 27 28 40 96,7% 97,6% 27 27 60 40 92,3% 85,1% 27 27 38 54 30 94,7% 78,9% 27 27 76 58 75 56 98,7% 96,6% 28 29 65 54 63 50 96,9% 92,6% 27 27 Kết Độ xác trung bình 96,3% 90,1% 93,2% Cột (1), (2) – Kết test với liệu đơn giản (1), liệu phức tạp (2) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 73 Trong cơng trình [8], Sebastien Marcel xây dựng mơ hình CGM (Constrained Generative Model) để nhận diện hình bàn tay Kết đƣợc tác giả công bố tổng kết bảng 4.6 Bảng 4.6 Kết thử nghiệm mơ hình CGM Trên đơn giản Lớp Số hình Độ xác trung bình A,B,C,V 241 93,8% A-V 382 93,4% Trên phức tạp Lớp Số hình Độ xác trung bình A,B,C,V 165 74,8% A-V 277 76,1% Nhìn qua kết bảng test CGM so với kết test thƣ̉ nghiê ̣m.Về mă ̣t chỉ số hiê ̣u quả của chúng hẳ n đô ̣ chiń h xác lẫn thời gian xƣ̉ lí 4.2.2 Test với liệu Đại học Cambridge Bộ liệu Đại học Cambridge chứa 900 chuỗi hình với lớp, tƣơng ứng với hình dạng bàn tay hƣớng nghiêng bàn tay (hình 4.9), đƣợc chụp với hƣớng chiếu sáng khác Mỗi lớp chứa 100 chuỗi hình (5 hƣớng chiếu sáng x 20 chuỗi hình cho hƣớng) Mỗi chuỗi hình chứa 70 hình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 74 Trái Phải Nắm Phẳng Mở Chữ V a) Phẳng/ Trái Phẳng/ Phải Phẳng/ Nắm Mở/ Trái Mở/ Phải Mở/ Khép V / Trái V / Phải V / Khép b) c) Hình 4.9 Một phần liệu Đại học Cambridge a) lớp, bao gồm hình dạng hướng nghiêng; b) Ví dụ hình lớp; c) hướng chiếu sáng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 75 Bảng 4.7 Kết thử nghiệm với liệu Đại học Cambridge Hƣớng chiếu Lớp sáng Độ xác Độ xác trung (%) bình (%) Phẳng 95,2 Mở 98,1 V 94,5 Phẳng 93,4 Mở 97,7 V 93,1 Phẳng 93,6 Mở 97,9 V 93,1 Phẳng 97,5 V 92,9 Phẳng 94,2 Mở 98,1 V 93,9 Số hóa Trung tâm Học liệu – ĐHTN 94,7 94,9 94 Mở Độ xác trung bình 95,9 94,8 95,4 95,1% http://www.lrc.tnu.edu.vn 76 KẾT LUẬN Trong thời gian vừa qua, nhƣ trình bày nội dung nghiên cứu đề tài bao gồm phần sau: - Giới thiệu chung nhận diện mẫu - Những vấn đề cần giải toán nhận diện mẫu - Các phƣơng pháp trích chọn đặc trƣng ảnh số - Các phƣơng pháp biểu diễn đặc trƣng - Các phƣơng pháp phân lớp liệu - Một số phƣơng pháp nhận diện mẫu đƣợc cơng bố (phân tích, so sánh ƣu/nhƣợc điểm, phạm vi ứng dụng) - Trình bày thuật tốn xây dựng vector đặc trƣng dựa mơ hình túi từ + Lựa chọn phƣơng pháp trích chọn đặc trƣng (Trình bày sử dụng song song SURF SIFT) + Lựa chọn phƣơng pháp phân cụm liệu (Trình bày sử dụng thuật tốn Kmeans) + Trình bày thuật tốn xây dựng kho từ vựng cho mơ hình túi từ + Trình bày thuật tốn xây dựng vector đặc trƣng cho đối tƣợng ảnh số + Xây dựng chƣơng trình thử nghiệm + Thực huấn luyện test số kho liệu cử + Phân tích, đánh giá kết thu đƣợc; so sánh kết thu đƣợc với kết số phƣơng pháp nhận diện đƣợc cơng bố + Thuật tốn đạt đƣợc kết nhận diện cao tình lý tƣởng (một vật thể trơn) khơng phụ thuộc vào khoảng cách chụp hình nhƣ góc nghiêng vật thể hình + Thuật tốn hoạt động thiếu hiệu số lƣợng đặc trƣng SURF thu đƣợc q ảnh có kích thƣớc nhỏ Điều giúp đƣa đến kết luận rằng, vật thể có bề mặt đơn giản, thuật tốn khơng hoạt Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 77 động hiệu có q đặc trƣng trích đƣợc từ hình vật thể Thuật toán hoạt động tốt với vật thể có hình dạng bề mặt phức tạp TÀI LIỆU THAM KHẢO [1] A Argyros and M Lourakis, “Vision-based interpretation of hand gestures for remote control of a computer mouse,” in Proc Workshop Comput.HumanInteract.,2006,pp.40–51 [2] A Barczak and F Dadgostar, “Real-time hand tracking using a set of cooperative classifiers based on Haar-like features,” Res Lett Inf Math Sci.,vol.7,pp.29–42,2005 [3] L Bretzner, I Laptev, and T Lindeberg, “Hand gesture recognition using multiscale color features, hieracrchichal models and particle filter-ing,” in Proc Int Conf Autom Face Gesture Recog., Washington, DC,May 2002 [4] Q Chen, N Georganas, and E Petriu, “Real-time vision-based hand gesture recognition using Haar-like features,” in Proc IEEE IMTC, 2007, pp.1–6 [5] A El-Sawah, N Georganas, and E Petriu, “A prototype for 3-D hand tracking and gesture estimation,” IEEE Trans Instrum Meas., vol 57,no.8, pp 1627–1636, Aug 2008 [6] A J Heap and D C Hogg, “Towards 3-D hand tracking using a deformable model,” in Proc 2nd Int Face Gesture Recog Conf., Killington, VT, Oct 1996, pp 140–145 [7] M Kolsch and M Turk, “Analysis of rotational robustness of hand detection with a Viola-Jones detector,” in Proc 17th ICPR, 2004, pp 107–110 [8] Maral S.Haud posture recognion in a body-face centered space // Extened Abstract on Human Factors in computer System (CHI'99) - NewYork: ACM, 1999 - P.340-347 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 78 [9] J M Rehg and T Kanade, “Visual tracking of high DOF articulated structures: An application to human hand tracking,” in Proc Eur Conf Comput.Vis.,1994,pp.35–46 [10] B Stenger, “Template based hand pose recognition using multiple cues,” in Proc 7th ACCV, 2006, pp 551560 [11] B Stenger, P R S Mendonỗa, and R Cipolla, “Model-based 3D tracking of an articulated hand,” in Proc Brit Mach Vis Conf., Manchester, U.K.,Sep 2001, vol I, pp 63–72 [12] P Viola and M Jones, “Robust real-time object detection,” Int J Comput.Vis.,vol.2,no.57,pp.137–154,2004 [13] C Wang and K Wang, Hand Gesture Recognition Using Adaboost With SIFT for Human Robot Interaction, vol.370.Berlin, Germany: SpringerVerlag, 2008 [14] S.Wagner,B.Alefs, and C Picus,“Framework for a portable gesture interface,” in Proc Int Conf Autom Face Gesture Recog., 2006,pp 275–280 [15] H Zhou and T Huang, “Tracking articulated hand motion with Eigen dynamics analysis,” in Proc Int Conf Comput Vis., 2003, vol 2,pp.1102–1109 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... khiển máy tính từ xa nêu Phƣơng pháp nhận diện sử dụng mơ hình túi từ (bag-of-features, bag-of-words) kết hợp với phƣơng pháp phân lớp mạng neural Trong đó, mơ hình túi từ đƣợc sử dụng để tạo vector... TRÌNH BÀY SỬ DỤNG MƠ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ MƠ TẢ CHO VẬT THỂ VÀ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON 2.1 Mơ hình túi từ phân lớp văn Mơ hình túi từ (Bag-of-words model) phƣơng pháp biểu... CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN KHÁNH TÙNG PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MƠ HÌNH TÚI TỪ VÀ MẠNG NEURAL Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC

Ngày đăng: 16/11/2020, 09:33

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan