1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nhn dng c ch dng ca tay s dng c

68 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI *** CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc - NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Họ tên : Võ Tá Hoàng Mã số sinh viên : 20093469 Điện thoại : 01674655317 Email : tahoanght91@gmail.com Khóa : K54 Lớp : KSCLC Tin học công nghiệp Viện : Điện Ngành : Kỹ thuật đo tin học công nghiệp Nơi thực đồ án tốt nghiệp : Viện nghiên cứu quốc tế MICA Thời gian làm đồ án tốt nghiệp : từ ngày 14/02/2014 đến ngày 08/06/2014 Tên đề tài Nhận dạng cử động tay ngƣời sử dụng cảm biến KINECT Các số liệu ban đầu - Bộ sở liệu thi CHALEARN Nhiệm vụ đồ án - Phân cắt liệu CHALEARN thành cử riêng rẽ theo 20 lớp khác - Xây dựng liệu ảnh lịch sử chuyển động từ video RGB video độ sâu liệu CHALEARN - Thử nghiệm liệu MHI với Kernel Descriptor mơ hình SVM để nhận dạng cử - Trích xuất chuẩn hóa liệu thơng tin xƣơng từ groundtruth - Tạo đặc trƣng cử từ liệu thông tin xƣơng - Thử nghiệm liệu thơng tin xƣơng với thuật tốn DTW thuật toán KNN để nhận dạng cử Lời cam đoan sinh viên Tơi – Võ Tá Hồng – cam kết đồ án tốt nghiệp cơng trình nghiên cứu thân dƣới hƣớng dẫn TS Trần Thị Thanh Hải Các kết nêu đồ án tốt nghiệp trung thực, chép tồn văn cơng trình khác Ngày tháng năm CHỦ NHIỆM BỘ MÔN (Ký, ghi rõ họ tên) SINH VIÊN THỰC HIỆN (Ký, ghi rõ họ tên) CÁN BỘ HƢỚNG DẪN (Ký, ghi rõ họ tên) NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 MỤC LỤC NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP MỤC LỤC DANH MỤC VIẾT TẮT TIẾNG VIỆT DANH MỤC VIẾT TẮT TIẾNG ANH DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT LỜI MỞ ĐẦU CHƢƠNG : TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG KINECT 10 1.1 Nhận dạng cử động tay ngƣời 10 1.2 Nghiên cứu số phƣơng pháp nhận dạng cử động tay sử dụng Kinect 11 1.2.1 Nhận dạng cử động dựa vào thông tin RGB-D phƣơng pháp Extreme Learning Machine (ELM) 11 1.2.2 1.3 Nhận dạng cử động dựa vào kết hợp liệu video Audio 15 Đề xuất phƣơng pháp nhận dạng cử tay khuôn khổ ĐATN 23 CHƢƠNG 2: BIỂU DIỄN VÀ NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY DỰA TRÊN DỮ LIỆU RGB VÀ ĐỘ SÂU 27 2.1 Ảnh lịch sử chuyển động (MHI) 27 2.2 Bộ mô tả hàm nhân 30 2.2.1 Thiết kế “Match Kernel” cho đặc trƣng gradient 31 2.2.2 Học hệ vector sở rút gọn sử dụng KPCA 33 2.2.3 Xây dựng mô tả đặc trƣng 33 2.3 Giải thuật học máy SVM 35 CHƢƠNG 3: BIỂU DIỄN VÀ NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY BỞI THÔNG TIN KHỚP XƢƠNG 38 3.1 Thông tin khớp xƣơng từ cảm biến Kinect 38 3.2 Chuẩn hóa tọa độ khớp 39 3.3 Thuật toán Dynamic Time Warping (DTW) 41 3.4 Giải thuật học máy K-Nearest Neighbors (KNN) 42 CHƢƠNG 4: PHÂN TÍCH THIẾT KẾ VÀ TRIỂN KHAI MƠ ĐUN NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY NGƢỜI 44 4.1 Phƣơng pháp 1: nhận dạng sử dụng ảnh MHI, hàm nhân mơ hình SVM 44 4.1.1 Thiết kế hệ thống 44 4.1.2 Module tính ảnh MHI 45 Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 4.1.2.1 Tìm thời điểm hành động kết thúc 45 4.1.2.2 Tính ảnh MHI 47 4.1.3 Module tính vector đặc trƣng 47 4.1.4 Module học mô hình biểu diễn lớp cử 48 4.1.5 Module xác định lớp cử 49 4.2 Phƣơng pháp 2: Nhận dạng sử dụng ảnh thông tin xƣơng, giải thuật DTW KNN 49 4.2.1 Thiết kế hệ thống 49 4.2.2 Module trích xuất liệu khung xƣơng 50 4.2.3 Module tạo vector mô tả cử 52 4.2.4 Module nhận dạng 52 CHƢƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 54 5.1 Giới thiệu CSDL sử dụng đề tài 54 5.2 Phƣơng pháp đánh giá giải thuật nhận dạng 57 5.3 Thử nghiệm đánh giá 58 5.3.1 Kết với phƣơng pháp 1: (MHI-KD-SVM) 58 5.3.1.1 Dữ liệu sử dụng 58 5.3.1.2 Các tham số sử dụng KDES 59 5.3.1.3 Kết liệu MHI gốc 59 5.3.1.4 Kết thử nghiệm chuẩn hóa liệu cải tiến KDES 59 5.3.2 Kết với phƣơng pháp 2: (Ske-DTW-KNN) 60 5.3.2.1 Dữ liệu sử dụng 60 5.3.2.2 Kết nhận dạng phƣơng pháp KNN 60 5.3.3 So sánh phân tích kết 61 5.3.3.1 Đánh giá phƣơng pháp MHI-KDES_SVM 61 5.3.3.2 Đánh giá phƣơng pháp Ske-DTW-KNN 64 CHƢƠNG 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 66 6.1 Kết luận 66 6.2 Hƣớng phát triển 66 TÀI LIỆU THAM KHẢO 67 Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 DANH MỤC VIẾT TẮT TIẾNG VIỆT Từ viết tắt Ý nghĩa ĐATN Đồ án tốt nghiệp CSDL Cơ sở liệu DANH MỤC VIẾT TẮT TIẾNG ANH SVM Support Vector Machine KDES Kernel Descriptor KNN K-Nearest Neighbor KPCA Kernel Principle Component Analysis HMM Hidden Markov Model ELM Extreme Learning Machines MHI Motion History Image bMHI Backward Motion History Image fMHI Forward Motion History Image 3D-MHI Three Dimension Motion History Image DTW Dynamic Time Warping MFCC Mel Frequency Cepstral Coefficients Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 DANH MỤC HÌNH VẼ Hình 1.1: Nhận dạng cử động theo phƣơng pháp ELM [3] 12 Hình 1.2: Các khung hình RGB thơng tin xƣơng tƣơng ứng cho cử giống 13 Hình 1.3: Đặc trƣng HOG trích chọn từ vùng tay trái tay phải 13 Hình 1.4: Tỷ lệ lỗi tính đặc trƣng tay tay trội 14 Hình 1.5: Kết kết hợp tối ƣu tập liệu thử nghiệm 15 Hình 1.6: Tỷ lệ lỗi sử dụng đặc trƣng kết hợp tối ƣu cử tập thử nghiệm 15 Hình 1.7: Kết phát điểm kết thúc cử 16 Hình 1.8: Mơ hình Markov ẩn cho từ “best” 16 Hình 1.9: Kết phân loại dựa liệu Audio 17 Hình 1.10: Kết phân loại cử dựa đặc trƣng skeleton 18 Hình 1.11: Kết kết hợp loại liệu Skeleton Audio 20 Hình 1.12: Đồ thị so sánh kết cách sử dụng liệu 20 Hình 1.13: Một chuỗi với xác suất phân lớp 22 Hình 1.14: Confusion matrix biểu diễn độ xác mơ hình khác nhau, mơ hình Skeleton sử dụng thêm lớp cho đoạn khơng có cử 23 Hình 1.15: Pha huấn luyện mơ hình nhận dạng cử động tay 25 Hình 1.16: Pha thử nghiệm mơ hình nhận dạng cử động tay 25 Hình 2.1: Hàng trên: Các keyframes chuyển động tay 29 Hàngdƣới: Ảnh MHI tƣơng ứng với keyframe 29 Hình 2.2: MHI-Color,MHI-Depth, bMHI fMHI cử Buonissimo 30 Hình 2.3: Ảnh hƣởng tham số suy giảm  tính tốn MHI cử Basta 30 Hình 2.4: Thuộc tính pixel: Biểu diễn hƣớng gradient, đo khoảng cách pixel có hƣớng   ' 32 Hình 2.5: Lấy lƣới ảnh MHI cử Basta 33 Hình 2.6: Minh họa phƣơng pháp Spatial Pyramid Matching 34 Hình 2.7: Các đƣờng thẳng phân chia lớp không gian 2D 36 Hình 2.8: Minh họa cho lựa chọn đƣờng phân chia tốt 37 Hình 3.1: Biểu diễn khớp xƣơng liệu CHALEARN 38 Hình 3.2: Cử cosatifarei ngƣời khác thực 39 Hình 3.3: Khung xƣơng cử cosatifarei ngƣời khác thực hiện( theo trục X-Y) 40 Hình 3.4: Khung xƣơng cử cosatifarei ngƣời khác thực (theo trục Y-Z) 40 Hình 3.5: Thông tin xƣơng cử khác [22] 41 Hình 3.6: Mơ tả thuật tốn DTW 41 Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Hình 3.7: Mơ tả thuật toán K-NN 43 Hình 4.1: Sơ đồ khối hệ thống nhận dạng cử theo phƣơng pháp MHI-KDES-SVM [6] 45 Hình 4.2: Sơ đồ thuật toán xác định thời điểm kết thúc hành động 45 Hình 4.3: Biểu đồ thể mức độ chuyển động chuỗi video 46 Hình 4.4: Sơ đồ thuật tốn tính ảnh MHI 47 Hình 4.5: Sơ đồ thuật tốn tính vector đặc trƣng ảnh MHI 48 Hình 4.6: Sơ đồ thuật toán xác định lớp cử 49 Hình 4.7: Mơ hình nhận dạng sử dụng thông tin khớp xƣơng 50 Hình 4.8: Sơ đồ thuật tốn trích xuất liệu khung xƣơng 50 Hình 4.9: Sơ đồ chuẩn hóa liệu khung xƣơng 51 Hình 4.10: Sơ đồ thuật tốn module tạo vector mơ tả cử 52 Hình 5.1: 10 lớp cử đầu tập CHALEARN 54 Hình 5.2 : 10 lớp cử sau tập CHALEARN 55 Hình 5.3: Giao diện DataViewer 56 Hình 5.4: Các liệu lƣu trữ mẫu 56 Hình 5.5: Minh họa số liệu CSDL CHALEARN 57 Hình 5.6: Tỉ lệ nhận dạng lớp MHI-Color chuẩn hóa(%) 61 Hình 5.7: Ảnh MHI cử Basta 61 Hình 5.8: Ảnh MHI cử Furbo 62 Hình 5.9: Tỉ lệ bị nhận nhầm vào lớp MHI-Color chuẩn hóa(%) 62 Hình 5.10: Sự giống cử “Vattene” “Tantotempo” 63 Hình 5.11: Các mẫu khác cử “Vattene” 63 Hình 5.12: Độ xác phƣơng pháp Ske-DTW-KNN cho liệu với K=20 64 Hình 5.13: Độ xác phƣơng pháp áp dụng KNN với K=20 65 Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 DANH MỤC BẢNG BIỂU Bảng 1.1: Tỷ lệ lỗi loại đặc trƣng loại kết hợp khác 14 Bảng 1.2: Kết sử dụng đặc trƣng Audio 17 Bảng 1.3: Kết sử dụng thông tin Skeleton 19 Bảng 1.4: Kết kết hợp đặc trƣng Skeleton Audio 19 Bảng 1.5: Trọng số sử dụng để kết hợp mơ hình 23 Bảng 1.6: Score mơ hình trọng số kết hợp với ngƣỡng khác 23 Bảng 1.7: Score đội xếp đầu thi CHALEARN 23 Bảng 5.1: Danh sách cử tập liệu CHALEARN 55 Bảng 5.2: Kết phƣơng pháp liệu MHI gốc 59 Bảng 5.3: Kết sử dụng KDES chuẩn hóa liệu 59 Bảng 5.4: Kết thử nghiệm với KNN thông thƣờng với liệu gốc liệu chuẩn hóa 60 Bảng 5.5: Độ xác KNN thơng thƣờng KNN báo [18] với K = 20 (%) 60 Bảng 5.6: Thống kê mức độ nhầm lẫn lớp 62 Bảng 5.7: Các phƣơng pháp kết nhóm nghiên cứu [2] 64 Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT English Tiếng Việt Support Vector Machine Máy véc tơ hỗ trợ Kernel Descriptor Bộ mô tả hàm nhân K-Nearest Neighbors K hàng xóm gần Dynamic Time Warping Độ sai lệch thời gian động Sliding Window Cửa sổ trƣợt Motion History Image Ảnh lịch sử chuyển động Patch Một vùng ảnh Skeleton Thông tin xƣơng RGB data/video Dữ liệu/video màu Depth data/video Dữ liệu/video độ sâu Kernel Pricipal Component Analysis Phân tích thành phần dựa hàm nhân Hidden Markov Model Mơ hình Markov ẩn Score Độ đo kết nhận dạng Recall Độ triệu hồi Module Mô đun Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 LỜI MỞ ĐẦU Tƣơng tác ngƣời máy lĩnh vực nghiên cứu thu hút nhiều quan tâm nhà khoa học giới nhƣ nƣớc thời gian gần Mục tiêu nghiên cứu nhằm hƣớng tới hệ tƣơng tác ngƣời – máy stiệm cận với tƣơng giác ngƣời với ngƣời, nghĩa dùng phƣơng tiện tƣơng tác thơng qua cử chỉ, điệu bộ, tiếng nói, v.v Hiện tại, ngƣời chủ yếu tƣơng tác với máy tính thơng qua chuột bàn phím Với phát triển nhanh chóng cơng nghệ khoa học máy tính, ngƣời ta muốn có tƣơng tác dễ dàng hơn, nhanh hơn, tiện lợi cho ngƣời sử dụng giống nhƣ sử dụng cử thơng thƣờng ngƣời tiếng nói Trên thực tế, số kỹ thuật lĩnh vực Thị giác máy tính Học máy cho phép máy tính biểu diễn nhận dạng cử tay hay giọng nói ngƣời Lấy ý tƣởng từ thi CHALEARN Gesture Mircrosoft tổ chức, em lựa chọn đề tài “Nhận dạng cử động tay sử dụng cảm biến KINECT” làm đồ án tốt nghiệp Nội dung nghiên cứu đề tài đề xuất số phƣơng pháp nhận dạng cử động tay ứng dụng tƣơng tác ngƣời máy, sau đánh giá hiệu phƣơng pháp CSDL dùng chung thi Trong ĐATN, em nghiên cứu phát triển hai phƣơng pháp nhận dạng: phƣơng pháp thứ sử dụng liệu video RGB-Depth với kỹ thuật biểu diễn cử sử dụng ảnh lịch sử chuyển động (MHI), mô tả hàm nhân (KDES) với phân loại Support Vector Machine (SVM), phƣơng pháp thứ sử dụng thông tin xƣơng (Skeleton) với giải thuật ngƣời láng giềng gần (KNN) Báo cáo gồm chƣơng: Chƣơng 1: Tổng quan toán nhận dạng cử động tay sử dụng KINECT Chƣơng 2: Biểu diễn nhận dạng cử động tay dựa liệu RGB độ sâu Chƣơng 3: Biểu diễn nhận dạng cử động tay dựa thông tin khớp xƣơng Chƣơng 4: Phân tích, thiết kết triển khai mô đun nhận dạng cử động tay ngƣời Chƣơng 5: Thử nghiệm đánh giá Chƣơng 6: Kết luận hƣớng phát triển Để hoàn thành tốt đồ án này, em xin chân thành cảm ơn hƣớng dẫn, bảo nhiệt tình TS Trần Thị Thanh Hải, viện nghiên cứu quốc tế MICA tạo điều kiện thuận lợi cho em trình thực đồ án Tin học công nghiệp – KSCLC – ĐHBKHN | NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 CHƢƠNG : TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG KINECT 1.1 Nhận dạng cử động tay ngƣời Một số định nghĩa Nhận dạng đối tƣợng lĩnh vực thị giác máy tính hƣớng đến nhiều đối tƣợng khác nhƣ: cây, logo, vân tay hay nhận dạng cử động tay … Trong khuôn khổ ĐATN, em hƣớng đến giải toán nhận dạng cử động tay ngƣời Vì thế, em xin nêu định nghĩa toán: Nhận dạng cử tay xác định xem cử mà người thực thuộc lớp cử số tập cử định nghĩa từ trước Ví dụ: Định nghĩa 20 loại cử động tay từ trƣớc theo tên loại cử Nhiệm vụ hệ thống nhận dạng với cử thu nhận đƣợc hệ thống nhận dạng đƣợc cử thuộc lớp 20 lớp định nghĩa sẵn Các ứng dụng nhận dạng cử động tay ngƣời Bài toán nhận dạng cử có nhiều ứng dụng nhƣ: • • • • • • • Phát triển công cụ trợ giúp nói chuyện tay Giúp trẻ em thao tác với máy tính Chuẩn đốn cảm xúc bệnh nhân, đo mức độ trầm cảm Phát nói dối Thực di chuyển vật thể môi trƣờng ảo Trợ giúp dạy học từ xa v.v Phân loại hệ thống nhận dạng Để nhận dạng đƣợc cử chỉ, số cảm biến đƣợc sử dụng để thu thập liệu cử Hệ thống nhận dạng cử đƣợc tạm phân thành hai loại 1) Dựa cảm biến gắn ngƣời: Theo loại này, ngƣời phải đeo số cảm biến (vận tốc, gia tốc, cảm biến quang, v.v) số vị trí thực cử (cánh tay, ngón tay) Điển hình phƣơng pháp hệ thống games, đồ họa sử dụng găng tay chuyên dụng để đo chuyển động tay ngón tay [13] 2) Dựa cảm biến độc lập với ngƣời: Theo loại này, hệ thống cảm biến gắn bên ngồi mơi trƣờng Ngƣời khơng phải đeo loại cảm biến Điển hình phƣơng pháp sử dụng cảm biến camera gắn mơi trƣờng Ƣu điểm phƣơng pháp so với phƣơng pháp thuộc lớp thứ chi phí giá thành cho thiết bị thơng dụng, rẻ Ngƣời mang vác thiết bị nên thực cử cách tự nhiên Trong vài năm trở lại đây, với đời cảm biến Kinect Microsoft với giá thành rẻ nhƣng lại cung cấp liệu đa thể thức môi trƣờng nhƣ: âm thanh, hình Tin học cơng nghiệp – KSCLC – ĐHBKHN | 10 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 CHƢƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 5.1 Giới thiệu CSDL sử dụng đề tài Nhƣ em trình bày chƣơng 1, thi CHALEARN cấp liệu để huấn luyện thử nghiệm lớn phong phú Bộ liệu có 13858 mẫu cử đƣợc ghi lại cảm biến KINECT, bao gồm liệu audio, video RGB, video Depth, user mask thông tin khớp xƣơng(skeleton) [1] Video RGB video Depth có kích thƣớc khung hình 640×480 tỷ lệ khung hình trung bình 20 fps Tổng cộng có 27 ngƣời tham gia xây dƣunjg liệu 20 cử ngƣời nƣớc Ý Một số ngƣời nhóm khơng phải ngƣời gốc Ý Bộ liệu đƣợc đánh số theo đó, tập liệu development có: chứa 7.754 mẫu (video shot), tập liệu validation 3.362 mẫu , tập liệu testing có: 2.742 mẫu Trong đề tài mình, em sử dụng tập liệu development CHALEARN gồm 392 video cho sẵn groundtruth (Thực tế tập huấn luyện có 393 video nhƣng có video khơng cho sẵn groundtruth) Sau đó, em tiến hành cắt theo goundtruth 392 video thành 7.754 video-shot tƣơng ứng với cử lƣu lại vào 20 lớp cử Hình 5.1: 10 lớp cử đầu tập CHALEARN Tin học công nghiệp – KSCLC – ĐHBKHN | 54 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Hình 5.2 : 10 lớp cử sau tập CHALEARN Trên Hình 5.1 minh họa 20 cử Các cử đƣợc gán tên nhƣ Bảng 5.1 Bảng 5.1: Danh sách cử tập liệu CHALEARN STT 10 Tên cử vattene vienqui perfetto furbo cheduepalle chevuoi daccordo seipazzo combinato freganiente STT 11 12 13 14 15 16 17 18 19 20 Tên cử ok cosatifarei basta prendere noncenepiu fame tantotempo buonissimo messidaccordo sonostufo Định dạng cấu trúc liệu Chalearn: Dữ liệu CHALEARN cung cấp tập tin sau: X_audio.ogg , X_color.mp4, X_depth.mp4, X_user.mp4 có chứa âm thanh, RGB, độ sâu, video sử dụng mặt nạ cho chuỗi X tƣơng ứng (xem hình 5.5) Để khai thác liệu này, CHALEARN cung cấp công cụ để xuất liệu MATLAB, gọi “dataViewer” (Hình 5.2) Tin học công nghiệp – KSCLC – ĐHBKHN | 55 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Hình 5.3: Giao diện DataViewer Xuất liệu dataViewer gồm bƣớc sau: Tải mẫu liệu tệp nén vào nút “Load Data” (quá trình nhiều thời gian) Hiển thị tất liệu đƣợc lƣu trữ mẫu Hình 5.4: Các liệu lưu trữ mẫu Xuất liệu nút “Export data to MAT” Dữ liệu đƣợc xuất có cấu trúc Matlab sau:          NumFrames: Tổng số lƣợng khung hình Tốc độ khung hình: Tỷ lệ khung hình video fps Âm thanh: cấu trúc có chứa liệu âm định dạng WAV Y: âm liệu Fs: tỷ lệ mẫu cho liệu Label: cấu trúc có chứa liệu nhãn Name: Tên đƣợc đặt cho cử Begin: Khung bắt đầu cử End: Khung kết thúc cử Khi trích xuất liệu bao gồm video:   RGB: Ma trận biểu diễn thơng tin hình ảnh màu RGB Detph: Ma trận biểu độ sâu đƣợc tính mm Tin học cơng nghiệp – KSCLC – ĐHBKHN | 56 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014  User Mask: Ma trận số biểu diễn số ngƣời xuất khung hình Một giá trị khác không điểm ảnh thể có chủ thể pixel giá trị ngƣợc lại  Skeleton: Chứa thông tin xƣơng ngƣời (Skeleton) 20 khớp xƣơng đƣợc lƣu lại với giá trị vị trí Dữ liệu đƣợc thể thơng qua Hình 5.5 Hình 5.5: Minh họa số liệu CSDL CHALEARN Đánh giá thuận lợi thách thức CSDL CHALEARN Thuận lợi:  Thu nhận liệu với điều kiện Kinect đƣợc gắn vị trí cố định tồn q trình thu nhận với ngƣời tham gia khác  Một video có nhiều cử nhƣng đƣợc ngƣời thể hiện, vị trí ngƣời thƣờng thay đổi tồn trình thực cử  Cử thực chủ yếu cánh tay bàn tay  Đã xuất liệu nhƣ âm thanh, mơ hình xƣơng, mặt nạ, độ sâu, RGB Khó khăn: Trong chuỗi:  Các cử đƣợc thực liên tục mà khơng có thơi gian nghỉ Vì việc phân tách khoảng chứa cử chuỗi gặp khó khăn Trong nhiều trƣờng hợp cử đƣợc thực thời gian ngắn dài cho lần khác Giữa chuỗi:  Các vấn đề nhƣ backgroud, quần áo, màu da, ánh sáng, nhiệt độ, độ phân giải khác lần thu liệu  Sự thay đổi hình dáng ngƣời tham dự  Vị trí đứng ngƣời so với KINECT khác 5.2 Phƣơng pháp đánh giá giải thuật nhận dạng Có tiêu chí đánh giá kết hệ thống: đánh giá theo Tỷ lệ nhận dạng (Recognition rate) đánh giá theo độ đo mà thi CHALEARN đề xuất (score)  Tỷ lệ nhận dạng Gọi: TPi : số cử nhận dạng lớp i (i từ đến 20) Ni : tổng số cử lớp i Tin học công nghiệp – KSCLC – ĐHBKHN | 57 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT Độ xác lớp thứ i: Acci = 2014 TPi ×100% Ni 20 Độ xác tập thử nghiệm: Acc =  TP i 1 20 N i 1  Giá trị Score  Khoảng cách Levanshtein: i ×100% i Cho chuỗi video ban đầu (video chƣa đƣợc cắt rời thành cử riêng rẽ), trình nhận dạng cung cấp danh sách nhãn R tƣơng ứng với cử đƣợc nhận dạng, nhãn dành cho cử đƣợc nhận dạng Nhiệm vụ so sánh danh sách nhãn với danh sách nhãn T tƣơng ứng danh sách cử cho groundtruth Để đo sai lệch nhãn, thi đề xuất tính khoảng cách Levanshtein L(R,T), số phép thực tối thiểu (thay thế, chèn, xóa) danh sách R để biến thành danh sách T (hoặc ngƣợc lại) [1] Ví dụ: L([1 4], [3 2]) = L([1], [2]) = L([2 2], [2]) =  Score thi: Độ đo score toàn tập thử nghiệm tổng khoảng cách Levanshtein tất chuỗi video thử nghiệm chia cho tổng số cử tập thử nghiệm Score tƣơng tự nhƣ tỷ lệ lỗi, nhiên vƣợt trội đơi chút 5.3 Thử nghiệm đánh giá 5.3.1 Kết với phƣơng pháp 1: (MHI-KD-SVM) 5.3.1.1 Dữ liệu sử dụng Đề tài sử dụng video RGB video Depth tập liệu huấn luyên CHALEARN cung cấp Từ liệu này, em thực tính ảnh MHI tạo đƣợc liệu ảnh MHI dành cho huấn luyện kiểm thử      Có liệu MHI : MHI Depth MHI Color Backward MHI tính Depth Forward MHI tính Depth  Mỗi có 20 lớp cử chỉ, lớp cử khoảng gần 400 ảnh Tổng số ảnh liệu 7754 Tin học công nghiệp – KSCLC – ĐHBKHN | 58 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014  Quá trình huấn luyện chọn ngẫu nhiên 200 ảnh lớp, nhƣ 20 lớp có 4000 dùng làm mẫu huấn luyện sử dụng SVM tạo mơ hình phân loại  Q trình thử nghiệm lấy số ảnh cịn lại lớp, nhƣ 3754 ảnh để thử nghiệm 5.3.1.2 Các tham số sử dụng KDES  Features đƣợc tính lƣới đều, điểm lƣới cách pixel  Kích thƣớc patch 16 x 16  Số vector riêng KPCA 200, ảnh đƣợc biểu diễn vector có số chiều : (200 x số patch)  Sử dụng “Spatial Pyramid Matching” tầng [0 2], từ vector đặc trƣng cho ảnh có 21000 chiều ( 21000 = 1000 × (1 + 22 + 42) )  Sử dụng SVM tuyến tính với kĩ thuật “one-vs-all” 5.3.1.3 Kết liệu MHI gốc Bảng 5.2: Kết phương pháp liệu MHI gốc Bộ DL Độ xác (%) Score MHI Depth 57,0 0,65983 bMHI Depth 55,8 0,67182 fMHI Depth 54,6 0,68913 MHI Color 55,7 0,66356 5.3.1.4 Kết thử nghiệm chuẩn hóa liệu cải tiến KDES Nhƣ phân tích trên, CSDL có cử có ngƣời thực sử dụng tay trái, có ngƣời lại sử dụng tay phải Vì em thực chuẩn hóa liệu cách lấy trục trục ảnh để xác định xem ngƣời giơ tay Nếu ngƣời giơ tay phải đảo ảnh qua trục để giống với tay trái Do việc tính KDES đặc trƣng đƣợc lấy ảnh bắt vào patch khơng có ý nghĩa nên áp dụng thủ thuật nhỏ với patch tính tổng biên độ vector gradient patch Sau với ảnh, giữ lại 1/3 số patch có giá trị tổng lớn chọn làm đặc trƣng mức patch đƣa vào q trình tính tốn Với hai cải thiện này, kết nhận dạng tăng lên từ 3-5% Bảng 5.3: Kết sử dụng KDES chuẩn hóa liệu Bộ DL Normalized MHI Depth Độ xác (%) 60.6 Score 0.61135 Normalized bMHI Depth Normalized fMHI Depth Normalized MHI Color 60.7 60.2 62.4 0.60362 0.61161 0.56793 Tin học công nghiệp – KSCLC – ĐHBKHN | 59 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 5.3.2 Kết với phƣơng pháp 2: (Ske-DTW-KNN) 5.3.2.1 Dữ liệu sử dụng Phƣơng pháp sử dụng liệu thơng tin xƣơng CHALEARN cung cấp Có liệu liệu thông tin xƣơng ban đầu liệu chuẩn hóa Khác với q trình thử nghiệm phƣơng pháp 1, phƣơng pháp này, em chọn cố định 2000 cử tập liệu để huấn luyện chọn tiếp 2000 cử để thử nghiệm tập liệu Lý em huấn luyện 2000 cử thử nghiệm thuật tốn KNN liệu thơng tin xƣơng để tìm tham số K tối ƣu 5.3.2.2 Kết nhận dạng phƣơng pháp KNN Có phƣơng pháp áp dụng thuật tốn KNN đề tài em, KNN thông thƣờng KNN đề xuất báo [18]  KNN thông thƣờng phƣơng pháp chọn K mẫu cử gần với mẫu thử nghiệm toàn tập huấn luyện, đếm số K mẫu mẫu cử lớp chiếm tỷ lệ nhiều coi mẫu thử nghiệm thuộc lớp  KNN báo phƣơng pháp chọn K mẫu cử gần với mẫu thử nghiệm lớp tập thử nghiệm Sau tính khoảng cách trung bình K mẫu với mẫu thử nghiệm, khoảng cách gọi khoảng cách mẫu thử nghiệm lớp cử Cuối cùng, mẫu thử nghiệm có khoảng cách trung bình tới lớp ngắn coi thuộc lớp Bảng 5.4: Kết thử nghiệm với KNN thông thường với liệu gốc liệu chuẩn hóa Tham số K KNN 10 15 20 25 30 40 Độ xác với liệu Skeleton gốc(%) 31,52 31,87 30,62 30,17 28,77 26,98 23,88 Độ xác với liệu Skeleton chuẩn hóa(%) 35,77 36,97 37,43 38,43 37,78 36,82 35,47 Từ bảng 5.4, ta biết đƣợc với tham số K = 20 cho kết tốt tham số cịn lại, vậy, trình thử nghiệm sau này, đề tài sử dụng KNN với tham số K=20 tập liệu thử nghiệm Bảng 5.5: Độ xác KNN thông thường KNN báo [18] với K = 20 (%) KNN báo 38,45 Tin học công nghiệp – KSCLC – ĐHBKHN KNN thông thƣờng 35,65 | 60 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Ta thấy phƣơng pháp áp dụng KNN mà báo [18] đề xuất có độ xác cao (Bảng 5.5) 5.3.3 So sánh phân tích kết 5.3.3.1 Đánh giá phƣơng pháp MHI-KDES_SVM 100 90 80 70 60 50 40 30 20 10 Hình 5.6: Tỉ lệ nhận dạng lớp MHI-Color chuẩn hóa(%) Nhận xét: Nhận thấy cử “Basta”, “Combinato”, “Fame” đạt kết tốt, độ xác đạt từ 78% đến 91% Tuy nhiên có số cử nhận dạng có độ nhƣ “Freganiente”, “Furbo”,“Noncenepiu”, “Ok”, “Vienqui” có độ xác bé 50% (xem Hình 5.6) Nguyên nhân mức độ đặc trƣng cử chỉ, ví dụ cử “Basta” có ảnh MHI khác biệt với cử lại biểu diễn đƣợc hành động rõ rệt, dễ hiểu cử đƣợc nhận dạng tốt (xem Hình 5.7) Hình 5.7: Ảnh MHI cử Basta Còn cử “Furbo” xuất ảnh MHI không thu đƣợc nhiều thơng tin chuyển động, ngun nhân mà hệ thống khơng thể nhận dạng xác cử (xem Hình 5.8) Tin học cơng nghiệp – KSCLC – ĐHBKHN | 61 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Hình 5.8: Ảnh MHI cử Furbo Hình 5.9: Tỉ lệ bị nhận nhầm vào lớp MHI-Color chuẩn hóa(%) Hình 5.4 cho thấy lớp dễ bị nhầm lẫn với lớp lại tập liệu Các lớp Freganiente, Furbo, Seipazzo có tỷ lệ bị nhận nhầm lớp khác cao, khoảng gần 7%, tiếp đến cử Buonissimo, Noncenepiu,Ok,Vienqui, Vattene có tỷ lệ nhận nhầm vào chúng xấp xỉ 6% Theo đánh giá em, cử có hành động tƣơng tự ảnh MHI đƣợc tính tốn trơng khơng có phân biệt rõ rệt Bảng 5.6: Thống kê mức độ nhầm lẫn lớp STT Tên lớp 10 11 12 „Basta' „Buonissimo' „Cheduepalle' „Chevuoi' „Combinato' 'Cosatifarei' „Daccordo' 'Fame' 'Freganiente' 'Furbo' 'Messidaccordo' 'Noncenepiu' Hay nhận nhầm thành „Daccordo' „Seipazzo' „Basta' „Combinato' „Chevuoi' „Buonissimo' „Chevuoi' 'Sonostufo' 'Furbo' 'Freganiente' „Daccordo' 'Ok' Tin học công nghiệp – KSCLC – ĐHBKHN Tỉ lệ nhầm (trên tổng số ảnh nhầm) (%) 17.647 28.421 28.889 16.981 18.605 13.158 17.021 18.919 13.445 21.154 20.339 16.393 | 62 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 13 14 15 16 17 18 19 20 'Ok' 'Perfetto' 'Prendere' „Seipazzo' 'Sonostufo' 'Tantotempo' 'Vattene' 'Vieniqui' 'Vieniqui' 'Tantotempo' 'Noncenepiu' „Buonissimo' 'Fame' 'Vattene' 'Tantotempo' 'Vattene‟ (20->19) 2014 15.596 19.118 14.667 17.647 17.073 42.647 34.286 14.815 Số lƣợng lớp cử lớn có nhiều lớp cử trơng tƣơng tự nên khó khăn để phân loại đƣợc xác cử nhƣ Ví dụ lớp cử “Vattene” “Tantotempo” cho ảnh MHI giống (xem Hình 5.10) Hình 5.10: Sự giống cử “Vattene” “Tantotempo” Đó lý mà có tỷ lệ lớn nhận dạng nhầm lẫn cử Ngoài ra, mẫu cử không đồng cách thực hiện, có mẫu ngƣời hành động tay trái, có mẫu ngƣời sử hành động tay phải có mẫu hành động tay Điều khó khăn trình phân lớp cử chỉ, thƣờng bị nhận dạng nhầm Ví dụ cử “Vatenne” nhƣng mẫu khác nhiều nhƣ sau: Hình 5.11: Các mẫu khác cử “Vattene” Tin học công nghiệp – KSCLC – ĐHBKHN | 63 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT  2014 So sánh với kết thi CHALEARN Cuộc thi CHALEARN 2013 kết thúc có 17 nhóm nghiên cứu đƣa kết theo tiêu chí thi Có nhiều kết tốt, nhiên họ có sử dụng kèm liệu audio nghiên cứu Nếu xét kết tất nhóm thi kết đề tài nằm vị trí thứ 11 12 thi Hiện tại, Score đạt đƣợc tốt đồ án 0,56793 Bảng 5.7: Các phương pháp kết nhóm nghiên cứu [2] 5.3.3.2 Đánh giá phƣơng pháp Ske-DTW-KNN 100 80 60 Dữ liệu gốc 40 Dữ liệu chuẩn hóa 20 10 11 12 13 14 15 16 17 18 19 20 Hình 5.12: Độ xác phương pháp Ske-DTW-KNN cho liệu với K=20 Tin học công nghiệp – KSCLC – ĐHBKHN | 64 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 Ta dễ nhận thấy sau chuẩn hóa liệu thơng tin xƣơng, kết nhận dạng đƣợc cải thiện tƣơng đối nhiều lớp cử Điển hình nhƣ cử 1, 5, 9, 20 đặc biệt cử đƣợc nhận dạng lên nhiều Tuy nhiên, có số cử bị giảm độ xác đi, ví dụ cử 3,10,15,17,19 Nhất cử 17 gần nhƣ không nhận đƣợc mẫu thử nghiệm (Hình 5.12) Nhận xét: Vì phƣơng pháp sử dụng tọa độ khớp xƣơng nên với cử sử dụng tay đồng nhất, ví dụ dùng tay trái tay phải dùng tay dễ nhận hơn, cịn cử khơng đồng hành động sử dụng tay khó để nhận dạng thông tin khớp xƣơng Đề xuất: Tiếp tục chuẩn hóa liệu khớp xƣơng để đồng cách thức thực cử Ví dụ đƣa khớp xƣơng tay vận động bên 0.8 KNN thông thƣờng 0.6 0.4 KNN báo 0.2 10 11 12 13 14 15 16 17 18 19 20 Hình 5.13: Độ xác phương pháp áp dụng KNN với K=20 Cả phƣơng pháp áp dụng thuật toán KNN cho kết gần nhƣ tƣơng đƣơng lớp cử Tuy nhiên, phƣơng pháp mà báo đề xuất [18] có nhỉnh chút hầu hết lớp, có số lớp độ xác thấp (Hình 5.13) Tin học cơng nghiệp – KSCLC – ĐHBKHN | 65 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 CHƢƠNG 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 6.1 Kết luận Báo cáo trình bày nghiên cứu em 02 phƣơng pháp nhận dạng cử động tay Sử dụng ảnh lịch sử chuyển động (MHI), Bộ mô tả hàm nhân (Kernel Descriptor) ảnh màu ảnh độ sâu Kỹ thuật học máy SVM Sử dụng thơng tin tọa độ khớp chính, kỹ thuật DTW thuật toán KNN Mặc dù kỹ thuật đƣợc nghiên cứu nhiều số toán nhận dạng đối tƣợng, theo hiểu biết em, chƣa có cơng trình thực nghiên cứu sử dụng kỹ thuật toán nhận dạng cử tay nhƣ phƣơng pháp thứ Hơn nữa, từ nghiên cứu lý thuyết đến việc cài đặt thực nghiệm vấn đề Ví dụ, việc tính tốn ảnh MHI địi hỏi nhiều thử nghiệm, đánh giá để đạt đƣợc kết biểu diễn chuẩn cử Ngoài ra, đề tài đề xuất số cải thiện nhỏ mô tả hàm nhân để đạt đƣợc kết tốt so với việc sử dụng nguyên trình bày [5] Trong đề tài thực nghiên cứu so sánh đánh giá loại liệu khác (màu sắc, độ sâu), với biểu diễn MHI, fMHI, bMHI Trong thời gian tới, em tích hợp thêm biểu diễn khác, khai thác liệu cấp cao nhƣ Skeleton để cải thiện hiệu nhận dạng Nhận dạng cử động bàn tay đề tài lớn, đòi hỏi công sức nhiều ngƣời tham gia Trong nội dung trình bày em tham gia bƣớc nhƣ tính tốn ảnh MHI, huấn luyện thử nghiệm SVM với mô tả hàm nhân KDES, chuẩn hóa thơng tin khớp xƣơng, phát triển giải thuật DTW, KNN So sánh, phân tích đánh giá kết đạt đƣợc 6.2 Hƣớng phát triển Nhƣ nhận thấy phần kết quả, tỷ lệ nhận dạng hai phƣơng pháp đề xuất chƣa cao:  Phƣơng pháp thứ cho hiệu suất tốt khoảng 62 % với liệu RGB Việc kết hợp thông tin fMHI, bMHI với liệu độ sâu không đem lại hiệu cao liệu  Phƣơng pháp thứ cho kết kém: 38% số phƣơng pháp giới đạt đƣợc khoảng 60% Vì thời gian tới, hƣớng phát triển đề tài em nhƣ sau:  Cải thiện khả biểu diễn MHI cách sử dụng vài ảnh MHI chuỗi thay sử dụng 01 MHI Điều cho phép tăng tính phân biệt cử  Kết hợp phƣơng pháp nhận dạng để tận dụng ƣu nhƣợc điểm phƣơng pháp Tin học công nghiệp – KSCLC – ĐHBKHN | 66 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 TÀI LIỆU THAM KHẢO [1] ChaLearn Multi-modal Gesture Recognition Challenge 2013 http://gesture.chalearn.org/ [2] ChaLearn Results of ChaLearn multi-modal gesture recognition challenge 2013 http://iselab.cvc.uab.es/CHALEARN-MMGesture-ChallengeResults2013.pdf [3] Xi Chen, Markus Koskela Online RGB-D Gesture Recognition with Extreme Learning Machines, In Proceedings of the 18th Scandinavian Conference on Image Analysis, volume 7944 of LNCS, Espoo, Finland, June 2013 Springer Verlag [4] Bingbing Ni, Gang Wang, Pierre Moulin RGBD-HuDaAct: A Color –Depth Video Database for human daily activity recognition, 1st IEEE workshop on Consumer Depth Cameras for Computer Vision, in conjunction with ICCV 2011 [5] L Bo, X Ren, D Fox Kernel Descriptors for Visual Recognition, University of Washington & Intel Labs Seattle, NIPS 2010 [6] Thi Thanh Hai Tran, Van Toi Nguyen, Van Ngoc Nguyen, Quentin Midy Vision based dynamic hand gesture recognition, ICT PAMM Workshop on Mobility Assistance and service Robotics Program, 2013 [7] Olivier Chapelle Support vector machines for image classification, Stage de deuxième année de magistère d’informatique de l’École Normale Supérieur de Lyon, 1998 [8] L Auria, R.-A Moro Support Vector Machine (SVM) as a technique for solvency analysis, Berlin, August 2008 [9] D.I.,Kosmopoulos, P Doliotis,V Athitsos, I Maglogiannis Fusion of Color and Depth Video for Human Behavior Recognition in an Assistive Environment In HCI (25)(2013) [10] N.Dalal, B.Triggs Histograms of Oriented Gradients for Human Detection In Computer Vision and Pattern Recognition, 2005 CVPR, 2005 IEEE Computer Society Conference on, volume 1, pages 886-893 IEEE, 2005 [11] James W Davis Hierarchical Motion History Images for Recognizing Human Motion, in Detection and Recognition of Events in Video, In IEEE Workshop, 2001 [12] Md Atiqur Rahman Ahad, J K Tan, H Kim, S Ishikawa Motion history image: its variants and applications, Springer-Verlag New York, Inc Secaucus, NJ, USA, 03-2012 [13] Andreas Bulling, Ulp Blanke, Bernt Schiele A Tutorial on Human Activity Recognition Using Body-worn Inertial Sensors, ACM Computing Surveys, Vol X, No X, 06-2013 [14] S Lazebnik, C Schmid, J Ponce Computer Vision and Pattern Recognition, IEEE Computer Society Conference on (Volume 2), pages 2169-2178, 2006 [15] Liang Wang, Weiming Hu, Tieniu Tan Recent developments in human motion analysis, In Pattern Recognition, Volume 36, Issue 3, pages 585-601, 03-2003 Tin học công nghiệp – KSCLC – ĐHBKHN | 67 NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA TAY SỬ DỤNG CẢM BIẾN KINECT 2014 [16] Aaron F Bobick , James W Davis The Recognition of Human Movement Using Temporal Templates, in Pattern Analysis and Machine Intelligence, IEEE Transactions on (Volume:23 , Issue: ), 03-2001 [17] G Huang, H Zhou, X Ding, and R Zhang Extreme learning machine for regression and multiclass classi_cation Systems, Man, and Cybernetics, Part B, IEEE Transactions on, pages 513-529, 2012 [18] Jiaxiang Wu, Jian Cheng, Fusing Multi-modal Features for Gesture Recognition, ICMI’13, December 9–13, 2013, Sydney, Australia [19] Immanuel Bayer, Thierry Silbermann A Multi Modal Approach to Gesture Recognition from Audio and Video Data, ICMI’13, December 9–13, 2013, Sydney, Australia [20] MacQueen “J Some Methods for Classification and Analysis of Multivariate Observations” book, 1967 [21] Svetlana Lazebnik, Cordelia Schmid, Jean Ponce Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Computer Vision and Pattern Recognition, IEEE Computer Society Conference on Vol 2, 2006 [22] Ferda Ofli, Rizwan Chaudhry, Gregorij Kurillo, Reneé Vidal, Ruzena Bajcsy Sequence of the Most Informative Joints (SMIJ): A new representation for human skeletal action recognition, IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 [23] Antonio Hernández-Vela et al Probability-based Dynamic Time Warping and Bagof-Visual and Depth-Words for Human Gesture Recognition in RGB-D In Pattern Recognition Letters, 2013 [24] N S Altman "An introduction to kernel and nearest-neighbor nonparametric regression" The American Statistician, pages 175–185 1992 Tin học công nghiệp – KSCLC – ĐHBKHN | 68 ... kernel nêu ph? ?c tạp k? ?ch thƣ? ?c patch lớn, phải giảm s? ?? chiều không gian đ? ?c trƣng mà đủ để biểu diễn tốt cho đ? ?c trƣng ảnh MHI C? ? c? ?ch tiếp c? ??n để tr? ?ch chọn đ? ?c trƣng s? ?? chiều thấp từ “match kernel”:... nghiệp – KSCLC – ĐHBKHN | 32 NHẬN DẠNG C? ?? CH? ?? ĐỘNG C? ??A TAY S? ?? DỤNG C? ??M BIẾN KINECT 2014 2.2.2 H? ?c hệ vector s? ?? rút gọn s? ?? dụng KPCA “Match kernel” cung c? ??p c? ?ch th? ?c để đo tƣơng quan patch ảnh,... điển thành vector N chiều Trung bình khoảng c? ?ch cho ta vector N chiều (N s? ?? từ từ điển)  thấp Trọng s? ?? đƣ? ?c gán cho vector N chiều Tầng cao trọng s? ?? Nhƣ vậy, s? ?? dụng từ điển N chiều chia ảnh thành

Ngày đăng: 23/12/2021, 10:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w