Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
2,22 MB
Nội dung
TRẦN QUỐC TOẢN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN QUỐC TOẢN KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NHẬN DẠNG SỰ KIỆN NGÃ CỦA NGƯỜI SỬ DỤNG KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA CLC2017A Hà Nội – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN QUỐC TOẢN NHẬN DẠNG SỰ KIỆN NGÃ CỦA NGƯỜI SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Kỹ thuật điều khiển tự động hóa LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRẦN THỊ THANH HẢI Hà Nội – 2018 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc đến cô Trần Thị Thanh Hải, người tận tình bảo, giúp đỡ hướng dẫn em suốt trình học tập thực luận văn Em xin gửi lời cảm ơn đến Viện nghiên cứu quốc tế MICA - Đại học Bách Khoa Hà Nội tạo điều kiện giúp đỡ em trình tìm hiểu thực luận văn Cảm ơn thầy cơ, anh, chị nhóm nghiên cứu Thị giác máy tính tận tình giúp đỡ, hướng dẫn cho em Em muốn cảm ơn Trung tâm đào tạo sau đại học – Trường Đại học Bách Khoa Hà Nội giúp đỡ tạo điều kiện cho em suốt khoá học Đồng thời em xin dành lời cảm ơn đến thầy cô trường Đại học Bách khoa Hà Nội Đặc biệt, thầy cô viện Điện, người lối, dẫn đường cho em hành trình tìm tri thức, người hướng dẫn, dạy bảo em tận tình trình học mái trường thực luận văn Cuối cùng, em xin gửi lời cảm ơn đến gia đình, người thân bạn bè, người động viên em nhiều thời gian qua Sinh viên Trần Quốc Toản MỤC LỤC DANH MỤC VIẾT TẮT TIẾNG VIỆT DANH MỤC VIẾT TẮT TIẾNG ANH .7 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT .8 DANH MỤC HÌNH VẼ .9 DANH MỤC BẢNG BIỂU 10 LỜI MỞ ĐẦU 11 CHƯƠNG 1: GIỚI THIỆU CHUNG .12 1.1 Ngữ cảnh nghiên cứu 12 1.1.1 Bài toán nhận dạng hoạt động người .12 1.1.2 Phân loại hệ thống nhận dạng dựa cảm biến sử dụng 12 1.2 Một số thách thức hướng giải 13 1.3 Những điểm LVCH so với ĐATN 14 CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 15 2.1 Nhận dạng hoạt động người dựa vào thông tin xương 15 2.2 Nhận dạng hoạt động người động sử dụng đồ độ sâu 17 2.3 Nhận dạng hoạt động người động dựa vào Multi-Temporal Depth Motion Maps-Based Local Binary Patterns 18 2.4 Nhận dạng hoạt động người động dựa vào Depth Motion Map Static Pose Map 19 2.5 Đề xuất phương pháp nhận dạng hoạt động người khuôn khổ LVCH .19 CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT .21 3.1 Khung làm việc tổng quát phương pháp đề xuất 21 3.2 Tính tốn ảnh DMM SPM 22 3.2.1 Ảnh DMM 22 3.2.2 Ảnh SPM 22 3.3 Trích chọn đặc trưng .23 3.3.1 Biểu diễn lược đồ hướng quan điểm hàm nhân (kernel view) 23 3.3.2 Dựa mô tả KDES 25 3.3.3 Dựa mạng nơ-ron tích chập .26 3.3.3.1 Định nghĩa mạng nơ-ron tích chập 26 3.3.3.2 Kiế n trúc Ma ̣ng nơ-ron tić h chập 27 3.3.3.3 Ho ̣c chuyể n giao tinh chin ̉ h mơ hình h́ n luyện .31 3.3.3.4 Mạng học sâu Resnet-101 .32 3.3.3.5 Ứng du ̣ng ma ̣ng ResNet vào bài toán nhận da ̣ng hoạt động người .34 3.4 Giải thuật học máy SVM (Support Vector Machine) 35 CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 4.1 Môi trường cài đặt 38 4.1.1 Các tham số sử dụng để tính tốn mơ tả KDES 39 4.1.2 Thông số cài đặt cho mạng ResNet-101 39 4.2 Dữ liệu thử nghiệm thước đo đánh giá .39 4.2.1 Giới thiệu CSDL sử dụng đề tài: CMDFALL 39 4.2.2 Thước đo đánh giá 43 4.3 Kết thử nghiệm bàn luận 44 4.3.1 Đánh giá thử nghiệm 44 4.3.2 Kết thử nghiệm 46 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 5.1 Kết luận 53 5.2 Hướng phát triển 53 TÀI LIỆU THAM KHẢO 55 DANH MỤC VIẾT TẮT TIẾNG VIỆT Từ viết tắt Ý nghĩa LVCH Luận văn cao học ĐATN Đồ án tốt nghiệp CSDL Cơ sở liệu NCKH Nghiên cứu khoa học DANH MỤC VIẾT TẮT TIẾNG ANH SVM Support Vector Machine KDES Kernel Descriptor SPM Static Pose Map DMM Depth Motion Map LBP Local Binary Pattern HOG Histogram of Oriented Gradient STIP Spatio Temporal Interest Point HON4D Histogram of Oriented 4D Normals DTW Dynamic Time Warping KPCA Kernel Principal Component Analysis CNN Convolutional Neural Networks BOW Bag of Word BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT English Tiếng Việt Support Vector Machine Máy véc tơ hỗ trợ Kernel Descriptor Bộ mô tả hàm nhân Sliding Window Cửa sổ trượt Patch Một vùng ảnh Skeleton Thông tin xương RGB data/video Dữ liệu/video màu Depth data/video Dữ liệu/video độ sâu Kernel Pricipal Component Phân tích thành phần dựa Analysis hàm nhân Score Độ đo kết nhận dạng Module Mơ đun Bag of Word Mơ hình túi từ DANH MỤC HÌNH VẼ Hình 2.1 Chi tiết kết nhận dạng phương pháp liệu UTKKinectAction 16 Hình 2.2 Chi tiết kết nhận dạng phương pháp liệu Florence3DAction 16 Hình 3.1 Mơ hình nhận dạng tổng qt phương pháp đề xuất 21 Hình 3.2 Biểu diễn hướng vector gradient, đo khoảng cách pixel có hướng .24 Hình 3.3 Các bước tính mơ tả hàm nhân ảnh .25 Hình 3.4 Minh họa phương pháp Spatial Pyramid Matching .26 Hin ̀ h 3.5 Kiế n trúc cơ bản của một ma ̣ng tić h chập 27 Hình 3.6 Ví du ̣ bộ lo ̣c tích chập đươ ̣c sử du ̣ng trên ma trận điể m ảnh 28 Hin ̀ h 3.7 Trường hơ ̣p thêm/không thêm viề n trắ ng vào ảnh tić h chập 29 Hin ̀ h 3.8 Phương thức Avarage Pooling và Max Pooling 30 Hình 3.9 Kiến trúc ResNet .33 Hình 3.10 Minh họa khối ResNet 2-layer 3-layer .34 Hình 4.1 Minh họa mơi trường cài đặt thiết bị 40 Hình 4.2 Minh họa đồng liệu 42 Hình 4.3 Minh họa độ hội tụ train cho 20 lớp 45 Hình 4.4 Minh họa độ hội tụ train cho lớp 46 Hình 4.5 Minh họa độ hội tụ train cho lớp 46 DANH MỤC BẢNG BIỂU Bảng 2.1 Độ xác nhận dạng (%) phương pháp liệu UTKKinect-Action 16 Bảng 2.2 Độ xác nhận dạng (%) phương pháp so với phương pháp khác liệu MSR Action3D .17 Bảng 2.3 Độ xác phương pháp với liệu MSR Action 3D MSRGestures 18 Bảng 2.4 Kết CSDL IsoGD 19 Bảng 2.5 Kết CSDL NATOPS 19 Bảng 4.1 Danh sách hoạt động sở liệu 41 Bảng 4.2 Minh họa sở liệu thời điểm đầu kết thúc hoạt động 44 Bảng 4.3 Minh họa ảnh DMM SPM tương ứng cho nhóm hoạt động .45 Bảng 4.4 Tổng hợp kết thử nghiệm phương pháp .47 Bảng 4.5 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–KDES-SVM 48 Bảng 4.6 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật DMM–KDES-SVM 49 Bảng 4.7 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật DMM– KDES-SVM 49 Bảng 4.8 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật SPM– KDES-SVM 49 Bảng 4.9 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật SPM–KDES-SVM 50 Bảng 4.10 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật SPM– KDES-SVM 50 Bảng 4.8 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–ResNet-SVM 50 Bảng 4.9 Minh họa số hoạt động bị nhận nhầm trường hợp phân loại 20 hoạt động 51 Bảng 4.10 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật DMM–ResNet-SVM 51 Bảng 4.11 Minh họa số hoạt động bị nhận nhầm trường hợp phân loại nhóm hoạt động 52 Bảng 4.12 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật DMM– ResNet-SVM .52 10 C Thu thập liệu thích Mỗi người thực tồn 20 hành động khoảng phút, tổng cộng khoảng 400 phút cho Kinect Có tất 1000 mẫu bao gồm 400 hoạt động ngã 600 hoạt động bình thường Mỗi mẫu thu nhiều dạng: RGB, Depth, Skeleton cho tồn khung nhìn Kinect giá trị gia tốc Tất liệu đồng hóa theo thời gian Hình 4.2 minh họa đồng liệu từ Kinects accelerometers Các liệu em tham gia vào gán nhãn để xác định điểm bắt đầu điểm kết thúc hoạt động chuỗi video liên tiếp Hình 4.2 Minh họa đồng liệu D Đánh giá thuận lợi thách thức CSDL Thuận lợi: Thu nhận liệu với điều kiện Kinect gắn vị trí cố định tồn q trình thu nhận với người tham gia khác Một video có nhiều hoạt động người thực hiện, điều cho phép dễ kiểm soát CSDL, đồng thời dễ dàng cho việc đọc ghi liệu huấn luyện nhận dạng Tất liệu đồng hóa theo thời gian thu lại nhiều dạng (RGB, Depth, khung xương, gia tốc) 42 Khó khăn: Trong chuỗi: Các hoạt động thực liên tục mà khơng có thời gian nghỉ Vì việc phân tách khoảng chứa hoạt động chuỗi gặp khó khăn Trong nhiều trường hợp hoạt động thực thời gian ngắn dài cho lần khác Giữa chuỗi: Các vấn đề phông nền, quần áo, màu da, ánh sáng, nhiệt độ, độ phân giải khác lần thu liệu Sự thay đổi hình dáng người tham dự Vị trí người thay đổi tồn q trình thực hoạt động Vị trí đứng người so với Kinect khác 4.2.2 Thước đo đánh giá Bộ CSDL CMDFALL thu lại nhiều dạng đồng hóa theo thời gian Tuy nhiên, thời gian triển khai tồn CSDL khơng cho phép nên em lựa chọn CSDL khung nhìn (Hình 4.2) để sử dụng phạm vi đề tài luận văn Tổng cộng liệu cho khung nhìn 2034 mẫu Tuy nhiên tính tốn số hoạt động diễn vùng khơng đo cảm biến độ sâu Vì em sử dụng tập (1967 mẫu gồm 993 mẫu train 974 mẫu test) để thử nghiệm Tỷ lệ nhận dạng Gọi: TPi: số hoạt động nhận dạng lớp i (i từ đến 20) Ni: tổng số hoạt động lớp i Độ xác lớp thứ i: Acci = TPi ×100% Ni 20 Độ xác tập thử nghiệm: Acc = TP i 1 20 N i 1 43 i ×100% i 4.3 Kết thử nghiệm bàn luận 4.3.1 Đánh giá thử nghiệm Luận văn sử dụng video RGB, video ảnh độ sâu tập liệu huấn luyện Viện Mica cung cấp Mỗi video dài có chứa nhiều kiện Trong luận văn, em sử dụng tập liệu viện MICA gồm 50 video Để phục vụ cho trình huấn luyện xây dựng sở liệu để đánh giá thử nghiệm, em tiến hành xác định vị trí đầu vị trí cuối cho hoạt động, ghi lại tương ứng giá trị đầu cuối với hoạt động lưu lại vào 20 lớp hoạt động Trước hết, để đơn giản, em xác định thời điểm đầu cuối hoạt động cách thủ công Mở video RGB qua phần mềm Avidemux 2.5.6, quan sát ghi lại thời điểm bắt đầu kết thúc hoạt động Bảng 4.2 minh họa sở liệu thời điểm đầu kết thúc người cho 8/20 nhãn hoạt động thu từ góc nhìn Kinect Bảng 4.2 Minh họa sở liệu thời điểm đầu kết thúc hoạt động ID 5 5 6 6 8 Người thứ Bắt đầu Kết thúc 872 1225 1226 1611 1623 2009 2030 2427 2451 2525 2555 2618 2657 2706 2739 2795 2833 2879 2911 2948 2972 3038 3074 3126 3166 3214 3226 3625 3630 3682 3911 3977 ID 5 5 6 6 8 Người thứ Bắt đầu Kết thúc 631 999 1008 1411 1412 1802 1828 2229 2250 2302 2329 2384 2411 2463 2487 2539 2615 2666 2703 2766 2810 2866 2940 2997 3050 3432 3439 3492 3634 3691 ID 5 5 6 6 8 Người thứ Bắt đầu Kết thúc 455 833 833 1233 1241 1622 1661 2027 2070 2113 2159 2195 2250 2288 2323 2355 2446 2485 2524 2557 2610 2642 2663 2704 2778 3260 3260 3299 3407 3459 3643 3695 Sau xác định thời điểm đầu cuối hoạt động Bước sử dụng video depth tính toán ảnh DMM, SPM tương ứng cho hoạt động 44 Bảng 4.3 Minh họa ảnh DMM SPM tương ứng cho nhóm hoạt động ID DMM SPM Tiếp theo, với việc sử dụng mạng học sâu ResNet để trích chọn đặc trưng ảnh cần ý nhỏ là: ResNet huấn luyện liệu ImageNet lên đến 1.2 triệu ảnh màu RGB gán nhãn cho 1.000 lớp đối tượng khác Bây giờ, em ứng dụng ResNet vào toán em ảnh Depth Motion Map chưa có nên em cần phải huấn luyện lại dựa thông số khởi tạo mạng Quá trình huấn luyện thực server chạy hệ điều hành Ubuntu 16.04.3 LTS, sử dụng Card đồ họa GeForce GTX 1080 Ti, Ram 12GB Huấn luyện 993 mẫu đánh giá 974 mẫu Thời gian huấn luyện trung bình: tiếng Hình 4.3, 4.4, 4.5 minh họa hình ảnh train, khả hội tụ nhanh, ‘acc” độ xác tính tập train lúc huấn luyện 1.2 0.8 0.6 0.4 0.2 0 -0.2 100 200 300 400 500 Epoch loss acc Hình 4.3 Minh họa độ hội tụ train cho 20 lớp 45 600 1.2 0.8 0.6 0.4 0.2 0 50 100 150 -0.2 200 250 300 350 400 Epoch loss acc Hình 4.4 Minh họa độ hội tụ train cho lớp 1.2 0.8 0.6 0.4 0.2 0 50 -0.2 100 150 200 250 Epoch loss acc Hình 4.5 Minh họa độ hội tụ train cho lớp 4.3.2 Kết thử nghiệm Tổng hợp kết thử nghiệm cho 20 hoạt động, nhóm lớp trình bày bảng 4.4 46 Bảng 4.4 Tổng hợp kết thử nghiệm phương pháp Phương pháp 20 hoạt động nhóm Ngã Không Ngã DMM–KDES-SVM 51.2% 84.2% 93.5% SPM-KDES-SVM 51.6% 85.5% 93.0% 49.9% 83.5% 92.5% 67.4% 95.2% 98.8% 65.9% 93.3% 98.4% 63.0% 92.9% 96.1% (DMM+SPM)-KDESSVM DMM-Resnet 101SVM DMM-Resnet 101softmax SPM-Resnet 101softmax Nhận xét: Từ bảng 4.4, ta thấy kết cho DMM SPM giống Dẫn đến, sử dụng thông tin SPM để bổ sung cho DMM, kết thu tương đương Việc bổ sung thông tin SPM cho DMM trường hợp khơng tăng thêm độ xác Áp dụng kỹ thuật học sâu Resnet-101 nâng cao độ xác (từ 51.2% lên 67.4% cho nhóm 20 kiện, 93.5% lên 98.8% cho lớp) Cho thấy sức mạnh kỹ thuật học sâu toán nhận dạng Khi kết hợp DMM với Resnet SVM cho hiệu cao việc phân tách lớp hoạt động (98.8% cho lớp) 47 Bảng 4.5 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–KDES-SVM ID 1 13 4 10 11 12 13 14 15 16 17 18 19 20 0 0 0 1 14 13 2 0 0 1 0 11 11 13 0 1 0 0 15 0 19 0 0 0 0 0 0 0 25 0 0 0 10 1 0 0 1 3 10 0 0 0 0 13 0 0 0 0 0 0 0 50 10 1 0 0 43 0 2 0 0 0 11 0 0 0 0 33 14 0 0 0 12 0 0 0 11 0 0 13 14 15 16 17 18 19 20 0 1 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 23 0 12 0 0 0 0 0 0 4 54 54 61 60 2 6 0 0 0 23 15 19 Nhận xét: Từ bảng 4.5 ta thấy nhóm hoạt động sau dễ bị nhận nhầm: Ngã bên trái (ID = 2) ngã bên phải (ID = 3) Cúi xuống nhặt đồ tay trái (ID = 16) cúi xuống nhặt đồ tay phải (ID = 17) Nguyên nhân: Các hoạt động giống Vì người thực hoạt động theo hướng bất kỳ, nên trường hợp người thực ngã bên trái quay người lại ngã bên phải cho kết DMM giống 48 Bảng 4.6 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật DMM–KDES-SVM ID 212 13 78 52 2 106 14 10 0 263 24 12 146 Bảng 4.7 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật DMM– KDES-SVM ID 352 52 39 570 Bảng 4.8 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật SPM–KDES-SVM ID 10 11 12 13 14 15 16 17 18 19 20 17 0 0 0 0 0 3 0 31 0 1 0 1 0 0 10 15 15 0 1 0 0 13 18 0 0 0 0 0 0 0 0 31 0 0 1 0 0 0 17 0 0 1 0 14 0 0 0 0 12 0 0 0 2 0 0 0 0 58 0 0 0 10 0 0 0 1 47 0 0 0 0 11 0 0 0 0 34 13 0 0 0 12 10 0 0 0 11 0 0 0 13 0 0 0 0 27 0 0 0 14 0 0 0 0 3 1 15 1 0 0 0 0 10 16 1 1 0 0 70 49 17 0 0 0 0 0 41 87 2 18 0 0 1 0 0 19 12 12 0 0 0 3 26 20 0 0 0 0 13 20 49 Bảng 4.9 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật SPM–KDES-SVM ID 220 12 78 3 48 13 0 105 15 264 21 9 139 Bảng 4.10 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật SPM– KDES-SVM ID 349 43 42 578 Bảng 4.8 Bảng tổng hợp kết phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–ResNet-SVM ID 10 11 12 13 14 15 16 17 18 19 20 17 0 0 0 0 0 0 0 19 0 0 0 0 0 0 0 19 1 0 0 0 0 0 0 1 16 1 0 0 0 0 0 0 0 0 90 34 0 0 1 1 0 0 0 62 71 0 0 0 7 2 0 10 0 0 0 0 0 0 0 0 41 0 0 0 0 0 0 0 35 10 0 0 0 10 0 0 0 12 11 24 0 0 0 11 0 0 1 16 20 0 1 0 12 0 0 0 0 0 22 0 0 0 0 13 0 0 0 0 0 0 50 0 0 0 14 2 0 0 0 1 21 0 0 0 15 0 0 0 0 1 23 0 16 0 0 0 0 0 0 15 17 0 0 17 0 0 0 0 0 0 0 59 0 18 0 0 0 0 0 0 0 0 49 0 19 0 0 0 0 0 0 0 0 0 34 20 0 0 0 0 0 0 0 0 0 20 50 Bảng 4.9 Minh họa số hoạt động bị nhận nhầm trường hợp phân loại 20 hoạt động Hoạt động ngã bên trái (a10) bị nhận nhầm thành hoạt động ngã phía trước (a8) Hoạt động di chuyển ghế (a14) bị nhận nhầm thành hoạt động lại (a1) Hoạt động ngã bên phải ngồi ghế (a16) bị nhận nhầm thành hoạt động ngã bên phải (a11) Bảng 4.10 Bảng tổng hợp kết phân lớp cho nhóm hoạt động sử dụng kỹ thuật DMM–ResNet-SVM ID 233 2 53 0 64 0 0 122 5 0 12 282 0 173 51 Bảng 4.11 Minh họa số hoạt động bị nhận nhầm trường hợp phân loại nhóm hoạt động Hoạt động ngã (nhóm 1) bị nhận nhầm thành hoạt động di chuyển chân tay (nhóm 5) Hoạt động ngã nằm giường (nhóm 2) bị nhận nhầm thành ngã (nhóm 1) Hoạt động ngã ngồi ghế (nhóm 3) bị nhận nhầm thành thành ngã (nhóm 1) Bảng 4.12 Bảng tổng hợp kết phân lớp cho lớp sử dụng kỹ thuật DMM– ResNet-SVM ID 356 607 Bình luận: Kết nhận dạng khả quan, số hoạt động bị nhận nhầm hoạt động tương đối giống Với nhiệm vụ phát ngã đề tài luận văn, phương pháp đề xuất đưa chứng minh có khả thi, nghiên cứu, cải thiện thêm phương pháp, đồng thời kết hợp với số luồng khác RGB, khung xương, gia tốc để triển khai áp dụng vào thực tế 52 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn trình bày nghiên cứu em phương pháp nhận dạng hoạt động người sử dụng đồ chuyển động (DMM), hình trạng tĩnh đặc tả chuyển động (SPM) Sau đó, trích chọn đặc trưng ảnh DMM/SPM sử dụng mô tả hàm nhân (Kernel Descriptor), mạng học sâu Resnet-101 tiếp tục đưa vào phân lớp Support Vector Machine (SVM) để phân loại hoạt động Mặc dù kỹ thuật nghiên cứu số toán nhận dạng đối tượng, theo hiểu biết em, chưa có cơng trình thực nghiên cứu sử dụng kỹ thuật toán nhận dạng hoạt động người phương pháp đề xuất Hơn nữa, từ nghiên cứu lý thuyết đến việc cài đặt thực nghiệm vấn đề Ví dụ, việc tính tốn ảnh DMM, SPM đòi hỏi nhiều thử nghiệm, đánh giá để đạt kết biểu diễn chuẩn hoạt động Trong thời gian tới, em nghiên cứu so sánh đánh giá loại liệu khác (màu sắc, độ sâu) tích hợp thêm biểu diễn khác, khai thác liệu cấp cao Skeleton để cải thiện hiệu nhận dạng Để chuẩn bị nội dung trình bày luận văn, em tiến hành ghi lại thời điểm đầu kết thúc cho hoạt động, tính tốn ảnh DMM, SPM cho hoạt động đó, huấn luyện thử nghiệm SVM với mô tả hàm nhân KDES, tìm hiểu áp dụng mạng học sâu Resnet-101 So sánh, phân tích đánh giá kết đạt Qua bảng kết 4.4, em có rút sử dụng ảnh DMM kết hợp với mạng học sâu Resnet SVM cho hiệu cao việc phân tách lớp hoạt động 5.2 Hướng phát triển Như nhận thấy bảng kết 4.4, tỷ lệ nhận dạng phương pháp đề xuất cho hiệu suất tốt khoảng 98% với liệu Depth cho lớp Trong thời gian tới, hướng phát triển đề tài em sau: 53 Depth: cải tiến ảnh depth, thực số phép tiền xử lý để loại bỏ nhiễu Thử nghiệm mạng khác ResNet 18, 34, 50, 152 lớp Cải thiện khả biểu diễn DMM cách sử dụng vài ảnh DMM chuỗi thay sử dụng 01 DMM Điều cho phép tăng tính phân biệt hoạt động Kết hợp phương pháp nhận dạng để tận dụng ưu nhược điểm phương pháp Fusion: thử nghiệm early fusion, late fusion ảnh depth Xem xét thêm số luồng nữa: RGB, khung xương, gia tốc Trong thời gian tới, em đánh giá, thử nghiệm với phương pháp sau cải thiện phương pháp để ứng dụng nhận dạng hoạt động thời gian thực 54 TÀI LIỆU THAM KHẢO [1] C J R K N Chen, Action Recognition from Depth Sequences Using Depth Motion Maps-based Local Binary Patterns, WACV, 2015 [2] J F A C M S T F M M R K A l A Shotton, Real-Time Human Pose Recognition in Parts from a Single Depth Image, PAMI, 2012 [3] J G Z Q W L Z J Y R Mao Ye, A Survey on Human Motion Analysis from Depth Data, Time-of-Flight and Depth Imaging Sensors, Algorithms, and Applications, 2013 [4] X Z C T Y Yang, Recognizing Actions Using Depth Motion Mapsbased Histograms of Oriented Gradients, ACM, 2012 [5] L R X F D Bo, Kernel Descriptors for Visual Recognition, Advances in Neural Information Processing Systems, 2010 [6] F A R C Raviteja Vemulapalli, Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group, CVPR, 2013 [7] C Chen and H L B Z J H N K Mengyuan Liu, Multi-Temporal Depth Motion Maps-Based Local Binary Patterns for 3-D Human Action Recognition, IEEE Access, 2017 [8] O L Z Omar, HON4D: Histogram of Oriented 4D Normals for: Activity Recognition from Depth Sequences, CVPR, 2013 [9] X T Y Yang, Super Normal Vector for Activity Recognition Using Depth Sequences, CVPR, 2014 [10] C S J P Svetlana Lazebnik, Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, Computer Vision and Pattern Recognition, IEEE Computer Society Conference on Vol 2, 2006 [11] O Chapelle, Support vector machines for image classification, Stage de deuxième année de magistère d’informatique de l’École Normale Supérieur de Lyon, 1998 [12] R.-A M L Auria, Support Vector Machine (SVM) as a technique for solvency analysis, Berlin, 2008 [13] W Z Z a L Z Li, Action Recognition based on A Bag of 3D Points, CVPR, 2010 [14] X a T Y Yang, EigenJoints-based Action Recognition Using Naïve-BayesNearest-Neighbor, CVPR, 2012 [15] E N G O Z L a M C A Vieira, Stop: Space-time occupancy patterns for 3d action recognition from depth map sequences, CIARP, 2012 55 [16] Z L J C Z C a Y W J Wang, Robust 3d action recognition with random occupancy patterns, ECCV, 2012 [17] Z L Y W a J Y J Wang, Mining actionlet ensemble for action recognition with depth cameras, CVPR, 2012 [18] Z L Y W a J Y J Wang, Mining actionlet ensemble for action recognition with depth cameras, CVPR, 2012 [19] M D C S a P P H Jegou, Aggregating Local Descriptors into A Compact Image Representation, CVPR, 2010 [20] V R G C a S B P Dollar, Behavior recognition via sparse spatio-temporal features, ICCV, 2005 [21] Z L Y W a J Y J Wang, Mining Actionlet Ensemble for Action Recognition with Depth Cameras, CVPR, 2012 [22] I Laptev, On space-time interst points, IJCV, 2005 [23] S W Y S Y Z Zhi Zhang, Gesture Recognition Using Enhanced Depth Motion Map and Static Pose Map, IJCV, 2015 [24] X Z S R J S Kaiming He, Deep Residual Learning for Image Recognition, CVPR, 2016 [25] T.-L L D.-T P V.-N H V.-M K Q.-T T T.-S N C P Thanh-Hai Tran, A Multimodal multiview dataset for human fall analysis and preliminary investigation on modality, ICPR, 2018 [26] A Karpathy, CS231n Convolutional Neural Networks for Visual Recognition Transfer Learning, http://cs231n.github.io/transfer-learning [27] Welcome Theano documentation, http://deeplearning.net/software/theano [28] TensorFlow, https://www.tensorflow.org/ 56 ... ĐẠI HỌC BÁCH KHOA HÀ NỘI - TRẦN QUỐC TOẢN NHẬN DẠNG SỰ KIỆN NGÃ CỦA NGƯỜI SỬ DỤNG KỸ THUẬT HỌC SÂU Chuyên ngành : Kỹ thuật điều khiển tự động hóa LUẬN VĂN THẠC SỸ KHOA HỌC KỸ THUẬT... loại hệ thống nhận dạng dựa cảm biến sử dụng Để nhận dạng hoạt động người, số cảm biến sử dụng để thu thập liệu hoạt động Dựa hệ cảm biến thu nhận liệu, hệ thống nhận dạng hoạt động người phân thành... bày giải thuật nhận dạng người sử dụng kỹ thuật DMM, SPM với thuật tốn trích chọn đặc trưng (KDES, RESNET) Mơ hình nhận dạng trình bày hình 3.1 với hai pha bản: Pha huấn luyện: sử dụng tập