Nhận dạng hành động người bằng kỹ thuật học sâu 3d CNN

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ CÔNG HIẾU NHẬN DẠNG HÀNH ĐỘNG NGƯỜI BẰNG KỸ THUẬT HỌC SÂU 3D-CNN Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS HOÀNG VĂN DŨNG Đà Nẵng - Năm 2018 LỜI CAM ĐOAN MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TÓM TẮT LUẬN VĂN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Tổng quan nghiên cứu liên quan Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học ý nghĩa thực tiễn Cấu trúc luận văn CHƯƠNG TỔNG QUAN 1.1 Tổng quan hệ thống thông minh 1.1.1 Khái niệm 1.1.2 Hệ thống tương tác người - máy (robot) 1.1.3 Hệ thống tương tác thực ảo 1.1.4 Hệ thống hỗ trợ chăm sóc bệnh nhân, người già 1.2 Trí tuệ nhân tạo ứng dụng 1.2.1 Một số khái niệm chung 1.2.2 Một số ứng dụng trí tuệ nhân tạo 1.2.3 Học máy 1.2.4 Phân loại phương pháp học máy 1.2.5 Mạng neural nhân tạo 1.3 Trích chọn biểu diễn đặc trưng hình ảnh 11 1.3.1 Đặc trưng ảnh 11 1.3.2 Một số phương pháp trích chọn đặc trưng đơn giản 12 1.3.3 Mô tả đặc trưng Haar 14 1.3.4 Mô tả đặc trưng HOG 15 1.3.5 Mô tả đặc trưng SIFT 19 1.3.6 Một số ứng dụng nhận dạng đối tượng 23 1.4 Kỹ thuật học sâu 23 1.4.1 Một số khái niệm 23 1.4.2 Một lĩnh vực ứng dụng kỹ thuật học sâu 23 1.4.3 Mạng neural học sâu 24 CHƯƠNG KỸ THUẬT MẠNG TÍCH CHẬP TRONG NHẬN DẠNG HÀNH ĐỘNG 25 2.1 Mạng neural tích chập 25 2.1.1 Giới thiệu mạng tích chập 25 2.1.2 Cấu trúc mạng tích chập CNN 25 2.2 Một số mạng neural học sâu sử dụng nhận dạng 27 2.2.1 Mạng LeNet 27 2.2.2 Mạng AlexNet 28 2.2.3 Mạng ZFNet 31 2.2.4 Mạng GoogLeNet 31 2.3 Mạng neural tích chập 3D-CNN 34 2.3.1 Phép tích chập 3D 35 2.3.2 Kiến trúc 3D- CNN 37 2.4 Giải pháp nhận dạng hành động mạng tích chập 38 2.4.1 Bài toán nhận dạng hành động 38 2.4.2 Thiết kế mơ hình nhận dạng hành động 39 2.4.3 Thiết kế mạng neural tích chập nhận dạng hành động 41 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 45 3.1 Môi trường công cụ sử dụng thực nghiệm 45 3.2 Dữ liệu thực nghiệm nhận dạng hành động 45 3.3 Thiết lập tham số thực nghiệm hệ thống 46 3.3.1 Tiền xử lý video: 46 3.3.2 Tạo lớp: 46 3.3.3 Quá trình huấn luyện vào đánh giá: 48 3.4 Phân tích, đánh giá kết thực nghiệm 48 3.5 Xử lý tăng cường liệu 49 3.6 Kết thực nghiệm 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56 TÀI LIỆU THAM KHẢO 57 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN 59 BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN TRANG TÓM TẮT LUẬN VĂN NHẬN DẠNG HÀNH ĐỘNG NGƯỜI BẰNG KỸ THUẬT HỌC SÂU 3D-CNN Học viên: Lê Công Hiếu Chuyên ngành: Ngành Khoa Học Máy Tính Mã số: 8480101 Khóa: 34 Trường Đại học Bách khoa - ĐHĐN Tóm tắt – Nhận dạng hành động đống vai trò quan trọng hệ thống giám sát, tương tác robot-con người hệ thống tự vận hành Tuy nhiên, có nhiều thử thách vấn đề hình dạng, điều kiện chiếu sáng phức tạp hành động Thời gian tính tốn độ xác thường thách thức hệ thống nhận dạng hành động Kỹ thuật mạng nơ-ron học sâu kỹ thuật nghệ thuật xử lý hình ảnh Khả học sâu cao hành động theo chiều thời gian từ phân tích video bị cản trở khơng đồng phân lớp, giống hành động Trong luận văn trình bày cách tiếp cận dựa mạng nơ-ron học sâu liên tục tăng cường liệu để cải thiện độ xác Đầu tiên, mạng nơ-ron học sâu xây dựng cách sử dụng số inceptions sử dụng phép tích chập song song khác nhằm rút ngắn thời gian xử lý Thứ hai, tăng cường hình ảnh từ tập liệu huấn luyện tạo liệu lớn đủ cho mạng nơ-ron học sâu thực huấn luyện Mục đích tránh vấn đề liệu nhỏ huấn luyện, dễ dẫn tới kết lỗi lớn, đồng nghĩa liệu học lớn mạng học sâu tăng cường khả học tốt Đánh giá kết dựa vài tập liệu chuẩn đề xuất Kết đánh giá thử nghiệm tập liệu điểm chuẩn cho thấy cách tiếp cận đề xuất nâng cao hiệu suất lên độ xác 89,53% So sánh kết khác cho thấy phương pháp đề xuất luận văn đạt cao hiệu suất hầu hết phương pháp khác Từ khóa – Nhận dạng hành động, mạng học sâu, hệ thống giám sát IDENTIFY HUMAN ACTIONS WITH 3D-CNN DEEP LEARNING NETWORK Abstract – Action recognition plays an important task insurveillance systems, robot-human interaction and autonomous, systems However, there are many challenging problems due to varieties of shape, illumination conditions, and complex of actions Consuming time and precision are typicallythe main challenges for action recognition systems Deep neural network techniques have dramatically become the state of the art in image processing The high capacity deep learning on the temporal action from video analysis has been impeded because of varieties of classes, similarity of actions This thesis presents a new approach based on sequential deep neuralnetwork and data augmentation for improving accuracy First,the deep neural network is constructed using several inceptions with different parallel convolutional operations which support reducing consuming time Second, image augmentation of training dataset generates a larger data enough for deep neural network learning This proposed task is aimed to address the small data problem It is utilized for enhancing capabilities of deep learning The proposed approach was evaluated on some benchmark datasets Experimental evaluation on public benchmark dataset shows that the proposed approach enhances performance to 89.53% accuracy Comparison results illustrated that our proposed method reaches higher performance than almost state- of- the- art methods Key words - Action recognition, deep learning, surveillance systems DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Anh Trí tuệ nhân tạo Tiếng Việt Trí tuệ nhân tạo AI ANN Artificial intelligence Trí tuệ nhân tạo Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolution Neural Network Mạng nơ-ron tích chập DNN Deep Neural Network Mạng neural sâu GPU NN Graphics Processing Unit Đơn vị xử lý đồ họa Neural Network Mạng nơ-ron ReLU Rectified Linear Unit Hiệu chỉnh đơn vị tuyến tính SIFT Scale-Invariant Feature Transform Biến đổi đặc trưng tỉ lệ không thay đổi SOM Self Organizing Maps Support Vetor Machines Mạng nơ-ron tự tổ chức Máy vector hỗ trợ TTNT SVM DANH MỤC CÁC HÌNH Hình 1.1 Các yếu tố tương tác người máy Hình 1.2 Mơ hình mạng neural 10 Hình 1.3 Quá trình xử lý ANN 10 Hình 1.4 Ảnh minh họa vector liên kết hệ số góc liên kết biên cạnh 13 Hình 1.5 Các mẫu đặc trưng Haar 14 Hình Tính nhanh tổng giá trị pixel vùng chữ nhật 15 Hình 1.7 Q trình trích đặc trưng HOG 16 Hình 1.8 Mẫu ảnh đầu vào chia thành cell block để tính đặc trưng HOG 16 Hình 1.9 Tính hướng độ lớn gradient 17 Hình 1.10 Tính gradient ảnh: (a) ảnh đa mức xám, (b) giá trị gradient theo chiều X Y, (c) hướng độ lớn gradient 17 Hình 1.11 Chia hướng theo bin lược đồ hướng gradient 18 Hình 1.12 Sơ đồ tổng quan trích rút đặc trưng HOG 19 Hình 1.13 Đối tượng vùng cửa sổ thay đổi co giãn ảnh 20 Hình 1.14 Tính DoG theo mức tỷ lệ tạo thành hình chóp 21 Hình 1.15 Xác định điểm cực trị dựa vào mức giá trị DoG 21 Hình 1.16 Kết minh họa tính DoG tính xác điểm cực trị 22 Hình 1.17 Mơ tả đặc trưng keypoint lược đồ hướng gradient 22 Hình 2.1 Mơ hình mạng neural tích chập (nguồn internet) 25 Hình 2.2 Phép tích chập với lọc (nguồn internet) 26 Hình 2.3 Phép MaxPooling (2x2), stride=2 (nguồn internet) 27 Hình 2.4 Kiến trúc mạng LeNet-5 28 Hình 2.5 Kiến trúc lớp mơ hình AlexNet 29 Hình 2.6 Kiến trúc lớp mơ hình FZNet 31 Hình Một dạng cụ thể kiến trúc mạng GoogLeNet 32 Hình Module Inception 33 Hình Mạng neural học sâu đơn giản gồm inception 34 Hình 2.1 Ph p tích chập khối (3D-CNN) 34 Hình 2.11 (a) Tích chập 2D, (b) Tích chập 3D 36 Hình 2.12 Kiến trúc 3D CNN cho nhận dạng hành động, bao gồm lớp hardwired, lớp tích chập, lớp subsampling lớp full connection 37 Hình 2.13 Kiến trúc 3D-CNN 37 Hình 2.14 Một hành động đáng ngờ 39 Hình 2.15 Tổng quan kiến trúc hệ thống nhận dạng hành động bất thường 40 Hình 2.16 Sơ đồ tổng thể kiến trúc mạng học sâu cho nhận dạng hành động 42 Hình 2.17 Giản đồ mạng Inception 43 Hình 2.18 Nhận dạng hành động dựa phép lai học máy sử dụng DNN SVM 44 Hình 3.1 Một vài loại lớp hành động tập liệu HMDB51 45 Hình 3.2 Một vài loại lớp hành động leo trèo tập UCF101 46 Hình 3.3 Mạng DNN huấn luyện xác thực tập liệu UCF101: (a) độ xác (b) giá trị hàm lỗi hội tụ đến giá trị kỳ vọng sau vài epochs 48 Hình 3.4 Ví dụ tăng cường hình liệu hình ảnh 49 Hình 3.5 Trọng số mặt nạ lọc lớp tích chập 51 Hình 3.6 Kết kích hoạt số lớp DNN 52 Hình Kiến trúc hai luồng phân loại video 53 Hình 3.8 Kiến trúc thực TDD 55 MỞ ĐẦU Lý chọn đề tài Cùng với phát triển khoa học công nghệ cách mạng cơng nghiệp 4.0, ứng dụng trí tuệ nhân tạo (TTNT) học máy ngày phát triển lĩnh vực quan tâm nhiều nay, lĩnh vực học sâu (Deep Learning) loại phổ biến máy học có thành tựu phát triển vượt bậc Nó mở bước ngoặc việc giải tốn TTNT trước gặp phải khó khăn nhận thức vật (object perception), nhận diện hình ảnh, hành động, hệ thống gợi ý (recommend system) tảng liệu lớn….Trong phải kể đến phát triển lĩnh vực thị giác máy tính (computer vision), đặt tảng cho nhiều ứng dụng thực tiển hệ thống xe tự hành, rôbôt thông minh, nhận dạng hành động hệ thống tương tác người – máy Lĩnh vực học sâu (Deep Learning) kỹ thuật học máy sử dụng mạng nơron nhiều lớp để giải tốn phức tạp dựa phương pháp tích chập trích chọn đặc trưng từ tập liệu lớn đem lại kết xác cao giải tốn TTNT Cụ thể tập trung giải vấn đề liên quan đến mạng neural thị giác máy tính, xử lý ngơn ngữ tự nhiên, xử lý giọng nói… Hiện nay, có nhiều nghiên cứu nhận diện hành động người thông qua video để xác định hành vi người Tuy nhiên lĩnh vực tương đối rộng có nhiều kỹ thuật khác để giải tốn Vì vậy, phạm vi luận văn tập trung nghiên cứu lý thuyết sử dụng kỹ thuật mạng học sâu 3D CNN vào việc giải toán nhận diện hành động người tương tác người–máy, tập trung hướng đến hành động bất thường người lĩnh vực xác định hành động đáng ngờ Thông qua nghiên cứu đề xuất cải tiến tham số đầu vào thuật toán để tăng hiệu thời gian xử lý độ xác nhận dạng, so sánh kết thực với số sở liệu chuẩn có nhằm đánh giá tính hiệu kỹ thuật áp dụng Mục đích nghiên cứu Mục tiêu đề tài nghiên cứu nhận dạng hành động người, tập trung vào hành động bất thường dựa kỹ thuật học sâu mạng tích chập 3D-CNN lĩnh vực thị giác máy tính, nguyên lý hệ thống tương tác người máy Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trích xuất đặc trưng hình ảnh từ video để dự đốn hành động người phục vụ hệ thống tương tác người máy Từ phân tích, đánh giá hiệu độ xác thư viện chuẩn có sẵn Xây dựng tập liệu thực nghiệm đoán nhận số hành động bất thường hệ thống camera giám sát an ninh Tổng quan nghiên cứu liên quan Trong năm gần đây, lĩnh vực trí tuệ nhân tạo nhà khoa học, giớ chuyên gia công ty công nghệ quan tâm đầu tư nghiên cứu ứng dụng vào thực tiển nhiều Google, Baidu,Apple,… ) Các hội thảo lĩnh vực trí tuệ nhân tạo tổ chức thường xuyên để giải tốn thị giác máy tính ( Computer Vision), nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên…Song song với đó, kỹ thuật học sâu sử dụng lĩnh vực thị giác máy tính ngày phổ biến (nhận diện hình ảnh, lĩnh vực khác) phát triển nhờ vào tính ưu việt hỗ trợ thiết bị phần cứng để tăng tốc độ xử lý (GPU/ GPGPU) Đối với toán nhận dạng hành động lĩnh vực khơng mới, có nhiều báo [2] [4][15] [16][17][18] hội thảo trình bày trình bày Có nhiều giải pháp, kiến trúc mạng học sâu đề xuất đưa với kết khác phương pháp “Two-stream model (fusion by SVM)” nhóm tác giả Karen Simonyan, Karen Simonyan [16] cho kết độ xác 88% ( tập UCF101), 59.4% ( tập HMDB-51); phương pháp ResNeXt-101 [17] cho kết độ xác 90.7% (trên tập UCF101),63.8% ( tập HMDB-51); TDD and iDT [18] cho kết độ xác 91.5% ( tập UCF101),65.9% ( tập HMDB-51)… Ở Việt Nam, việc nghiên cứu thị giác máy tính (Computer Vision) kỹ thuật xử lý ảnh, trí tuệ nhân tạo (AI) để áp dụng giải toán tự động nhận dạng hành động, nhận diện khuôn mặt …chưa nghiên cứu nhiều Các sản phẩm thực tế ứng dụng từ kỹ thuật cơng nghệ chưa phổ biến Vì luận văn này, nghiên cứu kỹ thuật học sâu ứng dụng nhận dạng hành động đáng ngờ nhằm hỗ trợ hệ thống giám sát dựa đề xuất kiến trúc nhằm cải tiến tối ưu hóa kết khả quan phương pháp độ xác, hiệu chương trình Đối tượng phạm vi nghiên cứu Nghiên cứu phương pháp học máy (Machine Learning), lĩnh vực học máy thị giác máy tính nhận dạng hành động người tương tác người máy, đặc biệt hành động đáng ngờ phục vụ cảnh báo giám sát an ninh thông qua hệ thống camera giám sát - Hệ thống tương tác người máy hệ thống thông minh - Lý thuyết trí tuệ nhân tạo, mạng neural mạng học sâu [12], [13] - Đánh giá số sở liệu chuẩn UCF1 1[5], HMDB51[ ] - Công cụ lập trình Mathlab [15], Python , thư viện [14]… Phương pháp nghiên cứu - Nghiên cứu lý thuyết: Tổng hợp thu thập nghiên cứu tài liệu có liên quan đến đề tài nêu mục bao gồm: lý thuyết xử lý ảnh, trích xuất đặc 55 Hình 3.8 Kiến trúc thực TDD Kiến trúc TDD bao gồm bước thực chính: i) Trích xuất quỹ đạo (extracting trajectories) chuyển động vùng quan tâm ii) Trích xuất đặc tính đặc trưng (extracting multiscale convolutional feature maps) theo luồng không gian thời gian video iii) Tính tốn TDD Kết thực nghiệm phương pháp cho kết bảng 3-1 với kết độ xác 91.5% ( tập UCF101),65.9% ( tập HMDB-51)… 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với kiến thức nghiên cứu vấn đề kỹ thuật xử lý ảnh, máy học, trí tuệ nhân tạo đặc biệt tìm hiểm sâu mạng tích chập 3D-CNN xử lý nhận dạng hành động đáng ngờ hệ thống giám sát an ninh, luận văn ứng dụng kết hợp mạng DNN SVM truyền thống việc dự đoán nhận dạng hành động đáng ngờ hệ thống camera giám sát an ninh Với kết nghiên cứu thực nghiệm so sánh kết khác tập liệu huấn luyên UCF1 HMDB51 để nhận dạng hành động đáng ngờ cho thấy Việc sử dụng phép kết hợp mạng DNN SVM mang lại kết tốt so với số phương pháp khác hệ thống SVM độc lập, hay sử dụng CNN tất trường hợp Trong hệ thống này, có tiếp cận khác biệt với truyền thống liên kết tích chập CNN xử lý frame liên tục sử dụng trích xuất đặc trưng thay phân lớp Các mẫu video phân loại thành lớp hành động sử dụng kỹ thuật phân lớp SVM Về chương thực nghiệm minh họa, dùng phương pháp khác để so sánh độ xác hệ sở liệu huấn luyện kiểm thử mẩu test Tuy nhiên để áp dụng vào hệ thống giám sát thực tế cần phải tiếp tục nghiên cứu giảm chi phí tính tốn để mang tính khả thi cao nhận dạng hành động theo thời gian thực Ngồi ra, để đánh giá xác khách quan xây dựng tập video hành động từ thực tế để đánh giá độ xác tốt 57 TÀI LIỆU THAM KHẢO [1] Varol, Gul, Ivan Laptev, and Cordelia Schmid "Long-term temporal Convolutionals for action recognition." IEEE transactions on pattern analysis and machine intelligence (2017) [2] Fernando, Basura, et al "Rank pooling for action recognition." IEEE transactions on pattern analysis and machine intelligence39.4 (2017): 773-787 [3] Herath, Samitha, Mehrtash Harandi, and Fatih Porikli "Going deeper into action recognition: A survey." Image and vision computing 60 (2017): 4-21 [4] Luvizon, Diogo C., David Picard, and Hedi Tabia "2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning." arXiv preprint arXiv:1802.09232 (2018) [5] Khurram Soomro, Amir Roshan Zamir and Mubarak Shah, UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild, CRCV-TR-12-01, November, 2012 [6] Kuehne, Hilde, et al "HMDB51: A large video database for human motion recognition." High Performance Computing in Science and Engineering, Springer, 571-582, 2013 [7] Jnawali, Kamal, et al "Deep 3D Convolutional neural network for CT brain hemorrhage classification." Medical Imaging 2018: Computer-Aided Diagnosis Vol 10575 International Society for Optics and Photonics, 2018 [8] Kuzminykh, Denis, et al "3D Molecular Representations Based on the Wave Transform for Convolutionalal Neural Networks." Molecular pharmaceutics (2018) [9] Wang, L., Li, R., Fang, Y., Gradient-layer feature transform for action detection and recognition Journal of Visual Communication and Image Representation 40, 159–167, 2016 [10] Wang, H., Oneata, D., Verbeek, J., Schmid, C., A robust and efficient video representation for action recognition International Journal of Computer Vision 119, 219–238, 2016 [11] Zhang, J., Li, W., Ogunbona, P.O., Wang, P., Tang, C., 2016 RGB-D-based action recognition datasets: A survey Pattern Recognition 60, 86–105 [12] Convolutionalal Neural Networks for Visual Recognition https://cs231n.github.io/ [13] Amirsina Torfi, Seyed Mehdi Iranmanesh, Nasser Nasrabadi, Fellow, IEEE and Jeremy Dawson, “3D Convolutionalal Neural Networks for Cross AudioVisual Matching Recognition” [14] Một số thư viện tham khảo khác https://github.com 58 [15] 3D Convolutional Neural Networks for Human Action Recognition, Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu, ieee transactions on pattern analysis and machine intelligence [16] K Simonyan, and A Zisserman, "Two-stream convolutional networks for action recognition in videos," in Advances in neural information processing systems, pp 568-576, 2014 [17] K Hara, H Kataoka, and Y Satoh, “Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?”, arXiv preprint arXiv:1 11 , 2017 [18] L Wang, Y Qiao, and X Tang, "Action recognition with trajectory-pooled deepconvolutional descriptors," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4305-4314, 2015 59 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN ... thuyết học máy, mạng neural tích chập, kỹ thuật học sâu mạng 3D- CNN nhận dạng hành động người để phân loại, nhận dạng - Phương pháp thực nghiệm: Đánh giá số kỹ thuật thị giác máy tính nhận dạng hành. .. sáng phức tạp hành động Thời gian tính tốn độ xác thường thách thức hệ thống nhận dạng hành động Kỹ thuật mạng nơ-ron học sâu kỹ thuật nghệ thuật xử lý hình ảnh Khả học sâu cao hành động theo chiều... thuyết sử dụng kỹ thuật mạng học sâu 3D CNN vào việc giải toán nhận diện hành động người tương tác người? ??máy, tập trung hướng đến hành động bất thường người lĩnh vực xác định hành động đáng ngờ

Định dạng
Số trang	77
Dung lượng	7,66 MB