Nhận dạng hành động người bằng kỹ thuật học sâu 3D-CNN

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ CÔNG HIẾU NHẬN DẠNG HÀNH ĐỘNG NGƯỜI BẰNG KỸ THUẬT HỌC SÂU 3D-CNN Chuyên ngành: Khoa học máy tính Mã số: 8480101 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS HOÀNG VĂN DŨNG Phản biện 1: TS NGUYỄN VĂN HIỆU Phản biện 2: TS PHẠM XUÂN HẬU Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật chuyên ngành Khoa học may tính họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2018 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Truyền thông Trường Đại học Bách khoa Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Cùng với phát triển khoa học công nghệ cách mạng công nghiệp 4.0, ứng dụng trí tuệ nhân tạo (TTNT) học máy ngày phát triển lĩnh vực quan tâm nhiều nay, lĩnh vực học sâu (Deep Learning) loại phổ biến máy học có thành tựu phát triển vượt bậc Nó mở bước ngoặc việc giải toán TTNT trước gặp phải khó khăn nhận thức vật (object perception), nhận diện hình ảnh, hành động, hệ thống gợi ý (recommend system) tảng liệu lớn….Trong phải kể đến phát triển lĩnh vực thị giác máy tính (computer vision), đặt tảng cho nhiều ứng dụng thực tiển hệ thống xe tự hành, rôbôt thông minh, nhận dạng hành động hệ thống tương tác người – máy Lĩnh vực học sâu (Deep Learning) kỹ thuật học máy sử dụng mạng nơron nhiều lớp để giải tốn phức tạp dựa phương pháp tích chập trích chọn đặc trưng từ tập liệu lớn đem lại kết xác cao giải toán TTNT Cụ thể tập trung giải vấn đề liên quan đến mạng neural thị giác máy tính, xử lý ngơn ngữ tự nhiên, xử lý giọng nói… Hiện nay, có nhiều nghiên cứu nhận diện hành động người thông qua video để xác định hành vi người Tuy nhiên lĩnh vực tương đối rộng có nhiều kỹ thuật khác để giải tốn Vì vậy, phạm vi luận văn tập trung nghiên cứu lý thuyết sử dụng kỹ thuật mạng học sâu 3D CNN vào việc giải toán nhận diện hành động người tương tác người–máy, tập trung hướng đến hành động bất thường người lĩnh vực xác định hành động đáng ngờ Thơng qua nghiên cứu đề xuất cải tiến tham số đầu vào thuật toán để tăng hiệu thời gian xử lý độ xác nhận dạng, so sánh kết thực với số sở liệu chuẩn có nhằm đánh giá tính hiệu kỹ thuật áp dụng Mục đích nghiên cứu Mục tiêu đề tài nghiên cứu nhận dạng hành động người, tập trung vào hành động bất thường dựa kỹ thuật học sâu mạng tích chập 3D-CNN lĩnh vực thị giác máy tính, nguyên lý hệ thống tương tác người máy Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trích xuất đặc trưng hình ảnh từ video để dự đốn hành động người phục vụ hệ thống tương tác người máy Từ phân tích, đánh giá hiệu độ xác thư viện chuẩn có sẵn Xây dựng tập liệu thực nghiệm đoán nhận số hành động bất thường hệ thống camera giám sát an ninh Tổng quan nghiên cứu liên quan Trong năm gần đây, lĩnh vực trí tuệ nhân tạo nhà khoa học, giớ chuyên gia công ty công nghệ quan tâm đầu tư nghiên cứu ứng dụng vào thực tiển nhiều Google, Baidu,Apple,… ) Các hội thảo lĩnh vực trí tuệ nhân tạo tổ chức thường xuyên để giải tốn thị giác máy tính ( Computer Vision), nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên…Song song với đó, kỹ thuật học sâu sử dụng lĩnh vực thị giác máy tính ngày phổ biến (nhận diện hình ảnh, lĩnh vực khác) phát triển nhờ vào tính ưu việt hỗ trợ thiết bị phần cứng để tăng tốc độ xử lý (GPU/ GPGPU) Đối với toán nhận dạng hành động lĩnh vực khơng mới, có nhiều báo hội thảo trình bày trình bày Có nhiều giải pháp, kiến trúc mạng học sâu đề xuất đưa với kết khác phương pháp “Two-stream model (fusion by SVM)” nhóm tác giả Karen Simonyan, Karen Simonyan cho kết độ xác 88% ( tập UCF101), 59.4% ( tập HMDB-51); phương pháp ResNeXt-101 cho kết độ xác 90.7% (trên tập UCF101),63.8% ( tập HMDB-51); TDD and iDT cho kết độ xác 91.5% ( tập UCF101),65.9% ( tập HMDB-51)… Ở Việt Nam, việc nghiên cứu thị giác máy tính (Computer Vision) kỹ thuật xử lý ảnh, trí tuệ nhân tạo (AI) để áp dụng giải toán tự động nhận dạng hành động, nhận diện khuôn mặt …chưa nghiên cứu nhiều Các sản phẩm thực tế ứng dụng từ kỹ thuật công nghệ chưa phổ biến Vì luận văn này, tơi nghiên cứu kỹ thuật học sâu ứng dụng nhận dạng hành động đáng ngờ nhằm hỗ trợ hệ thống giám sát dựa đề xuất kiến trúc nhằm cải tiến tối ưu hóa kết khả quan phương pháp độ xác, hiệu chương trình Đối tượng phạm vi nghiên cứu Nghiên cứu phương pháp Học máy (Machine Learning), lĩnh vực học máy thị giác máy tính nhận dạng hành động người tương tác người máy, đặc biệt hành động bất thường phục vụ lĩnh vực chăm sóc sức khỏe người già - Hệ thống tương tác người máy hệ thống thông minh - Lý thuyết trí tuệ nhân tạo, mạng neural mạng học sâu - Đánh giá số sở liệu chuẩn UCF101, HMDB51 - Công cụ lập trình Mathlab, Python 3.6, thư viện khác… Phương pháp nghiên cứu - Nghiên cứu lý thuyết: Tổng hợp thu thập nghiên cứu tài liệu có liên quan đến đề tài nêu mục bao gồm: lý thuyết xử lý ảnh, trích xuất đặc trưng ảnh Lý thuyết học máy, mạng neural tích chập, kỹ thuật học sâu mạng 3D-CNN nhận dạng hành động người để phân loại, nhận dạng - Phương pháp thực nghiệm: Đánh giá số kỹ thuật thị giác máy tính nhận dạng hành động người, phân tích thiết kế hệ thống nhận dạng hành động kỹ thuật học sâu 3D-CNN Lựa chọn cơng cụ có để cài đặt, đề xuất mơ hình thể cụ thể kết nghiên cứu, kết thực nghiệm so với sở liệu chuẩn để so sánh đánh giá Ý nghĩa khoa học ý nghĩa thực tiễn Với việc nghiên cứu thực nghiệm kỹ thuật học sâu kiến trúc mạng 3D CNN để nhận dạng hành động người cho kết mong muốn, sử dụng tập liệu huấn luyện lớn đóng vai trò quan trọng việc xây dựng mơ hình để dự đốn kết đầu xác Với tập/bộ liệu lớn bao gồm nhiều hành động áp dụng vào xây dựng hệ thống thực tế mang tính thực tiển cao hành động bất thường hệ thống tương tác người máy hỗ trợ giám sát an ninh, chăm sóc y tế, người già,… Cấu trúc luận văn Luận văn chia làm chương: Chương 1: Tổng Quan + Tổng quan hệ thống thông minh + Trí tuệ nhân tạo ứng dụng: khái niệm học máy, phương pháp học máy, mạng neuron nhân tạo + Lý thuyết xử lý ảnh: tìm hiểu phương pháp trích chọn biểu diễn đặc trưng ảnh + Kỹ thuật học sâu (Deep Learning): khái niệm, mạng neuron học sâu, mạng neuron tích chập Chương 2: Kỹ thuật mạng tích chập nhận dạng hành động + Tích chập 3D + Kiến trúc 3D CNN nhận dạng + Thiết kế mơ hình nhận dạng hành động + Phân tích thành phần hệ thống + Phát biểu toán Chương 3: Thực nghiệm đánh giá - Kết luận hướng phát triển - Tài liệu tham khảo 6 CHƯƠNG TỔNG QUAN 1.1 Tổng quan hệ thống thông minh 1.1.1 Khái niệm Hệ thống thông minh (Intelligent Systems – IS) hệ thống thực thi mục đích hoạt động xã hội đó, xem máy tính kết nối với máy tính khác qua hệ thống mạng internet, có khả thu thập phân tích liệu giao tiếp hệ thống khác Các tiêu chí hệ thống thơng minh bao gồm khả học hỏi từ kinh nghiệm, bảo một, kết nối, khả thích ứng theo liệu khả giám sát quản lý từ xa 1.1.2 Hệ thống tương tác người - máy (robot) Tương tác người - máy (Human-computerinteraction (HCI)) nghiên cứu việc thiết kế cơng nghệ máy tính, đặc biệt tập trung tương tác người (người dùng) máy tính 1.1.3 Hệ thống tương tác thực ảo Thực tế ảo (virtual reality- VR) hệ thống giao diện cao cấp người sử dụng máy tính Hệ thống mô vật tượng theo thời gian thực tương tác với người sử dụng qua tổng hợp kênh cảm giác ( thị giác, thính giác, xúc giác, khứu giác vị giác) 1.1.4 Hệ thống hỗ trợ chăm sóc bệnh nhân, người già 1.2 Trí tuệ nhân tạo ứng dụng 1.2.1 Một số khái niệm chung “Trí tuệ nhân tạo hay trí thơng minh nhân tạo khoa học nghiên cứu hành vi thông minh nhằm giải vấn đề đặt chương trình máy tính” 7 1.2.2 Một số ứng dụng trí tuệ nhân tạo + Lĩnh vực giáo dục + Lĩnh vực y tế + Công nghiệp 1.2.3 Học máy Học máy hay máy học (machine learning) lĩnh vực TTNT liên quan đến việc nghiên cứu xây dựng kỹ thuật cho phép hệ thống “học” tự động từ liệu để giải vấn đề cụ thể 1.2.4 Phân loại phương pháp học máy 1.2.5 Mạng neural nhân tạo Mạng neural nhân tạo (Artificial Neural Network - ANN), hay thường gọi ngắn gọn mạng neural, mơ hình xử lý thơng tin mô theo cách thức xử lý thông tin hệ neural sinh học Nó bao gồm có nhóm neural nhân tạo (mỗi neural nút) kết nối với qua liên kết ( biểu diễn trọng số w), xử lý thông tin cách truyền theo kết nối thể thống để giải vấn đề Một mạng neural nhân tạo xây dựng cho ứng dụng cụ thể (nhận dạng mẫu, phân loại, ) thơng qua q trình học từ tập mẫu huấn luyện 8 CHƯƠNG KỸ THUẬT MẠNG TÍCH CHẬP TRONG NHẬN DẠNG HÀNH ĐỘNG 2.1 Mạng neural tích chập 2.1.1 Giới thiệu mạng tích chập Mạng neural tích chập mơ hình mạng học sâu (Deep Learning) giúp cho xây dựng hệ thống thơng minh với độ xác cao nay, sử dụng phép tích chập để trích chọn đặc trưng đầu vào kết hợp với hàm kích hoạt phi tuyến ReLU để tạo thơng tin trừu tượng cho layer tiếp theo, trình lặp lại qua nhiều lớp ẩn (sử dụng lọc tích chập) để sau có số đặc trưng để nhận dạng đối tượng Mạng CNN thường áp dụng toán nhận dạng hình ảnh, xử lý ngơn ngữ tự nhiên,… CNN phát triển dựa ba ý tưởng chính: tính kết nối cục tính bất biến tính bất biến trình chuyển đổi cục 2.2 Một số mạng neural học sâu sử dụng nhận dạng 2.2.1 Mạng LeNet 2.2.2 Mạng AlexNet 2.2.3 Mạng ZFNet 2.2.4 Mạng GoogLeNet 2.3 Mạng neural tích chập 3D-CNN Mạng neural tích chập 3D-CNN mạng tích chập CNN sử dụng phép tích chập khối (ma trận chiều, thêm trục thời gian), thường sử dụng toán nhận dạng (hành động, phân lớp) video Chuyển động video hiểu bao gồm tập hình ảnh biểu diễn trục thời gian định, phát sinh thêm trục thời gian (chiều thời gian) 2.3.1 Phép tích chập 3D Hình 2.1 (a) Tích chập 2D, (b) Tích chập 3D Kích thước kernel 3D theo thời gian 3, kết nối màu có trọng số chia (shared weights) Trong tích chập 3D, kernel giốn áp dung khối 3D chồng lền video đầu vào để trích xuất tính chuyển động Trong phép tích chập 3D kernel trích xuất đặc trưng khung hình khối lập phương đó, trọng số kernel tính tốn hình khối lập phương Ngun tắc chung mơ hình CNNs số feature map tăng lên lớp sau cách sinh từ nhiều đặc trưng từ tập feature map lớp trước Tương tự trường hợp tích chập 2D, 3D thực nhiều phép tích chập với kernel khác đến từ vị trí lớp trước 10 2.3.2 Kiến trúc 3D- CNN Dựa mơ tả phép tích chập 3D, có nhiều kiến trúc đưa ra, luận văn đưa kiến trúc 3D CNN mà phát triển cho việc nhận dạng hành động người Hình 2.2 mơ hình kiến trúc 3D CNN cho nhận dạng hành động, có lớp hardwired layer (lớp khởi tạo ban đầu trích xuất theo đặc tính cố định để khởi tạo cho layer so với việc khởi tạo ngẫu nhiên) Chúng ta có frame với kích thước 60x40 (input frame) Kết cho 33 feature maps lớp thứ với kênh khác phép lọc gray, gradient-x, gradient-y, optflow-x optflow-y Kênh gray chứa giá trị pixel xám input frame Các feature map kênh lọc gradient-x gradient-y tính theo chiều ngang dọc tương ứng input frame Các optflow-x optflow-y chứa trường quang học theo hướng ngang dọc tương ứng tính từ input frame liền kề trước Hình 2.2 Kiến trúc 3D CNN cho nhận dạng hành động, bao gồm lớp hardwired, lớp tích chập, lớp subsampling lớp full connection 11 2.4 Giải pháp nhận dạng hành động mạng tích chập 2.4.1 Bài toán nhận dạng hành động Các hệ thống hỗ trợ giám sát an ninh có cảnh báo tùy thuộc vào thu nhận hình ảnh phát hành động người khả nghi hành động leo trèo qua cửa sổ, đột nhập vào khu vực nhạy cảm tòa nhà, trộm cắp xe,… Có số dấu hiệu hành vi nghi ngờ dẫn đến khả nghi phạm tội ví dụ như người chạy nhanh đám đông, trèo tường mang theo đồ vật qua khu vực đánh dấu nhạy cảm, hay hành vi cho thấy làm vội vã với tư khơng bình thường, có cảm giác căng thẳng thiếu tự tin trình di chuyển so với xung quanh, Bài toán tự động dự đoán hành động người đóng vai trò quan trọng hệ thống giám sát, tương tác người máy hệ thống tự động hóa khác Tuy nhiên, giải pháp gặp phải thách thức lớn chưa giải độ xác, thời gian xử lý Đặc biệt ứng dụng giám sát cơng cộng với thay đổi hình dáng người, điều kiện ánh sáng đa dạng nhóm hành động người Qua thực nghiệm thực tế ứng dụng, kỹ thuật học sâu cho thấy kết khả quan, độ xác cao nhận dạng đối tượng, dự đốn hình ảnh, Với lực hiệu cao học sâu, hy vọng kỹ thuật sử dụng đốn nhận hành động giúp tăng cường độ xác hệ thống nhận dạng Phần chúng tơi trình bày cách tiếp cận sử dụng mạng tích chập 3D dựa kiến trúc mạng neural học sâu để xử lý liệu 3D không gian thời gian Kiến trúc mạng 12 học sâu xây dựng cách xử dụng số inception lớp ẩn kết hợp với nhằm thực song song biến đổi tích chập mạng nhằm làm giảm thời gian tính tốn Bên cạnh đó, nhiều báo khoa học kỹ thuật học sâu đạt độ xác cần thiết có đủ liệu cho huấn luyện mơ hình độ sâu đủ lớn để tham số hóa thực thể cần xử lý Nhằm nâng cao độ xác mơ hình đề xuất, liệu huấn luyện tăng cương cách sử dụng phép biến đổi ảnh nhằm làm cho số lượng mẫu liệu đủ lớn cho việc huấn luyện mạng neural học sâu 2.4.2 Thiết kế mơ hình nhận dạng hành động Dữ liệu video vào Tập liệu hành động bát thường Trích xuất đặc trưng (ROIs) Huấn luyện Tập liệu Phát người Mơ hình hành động Nhận dạng hành động Phân tích hành vi hành động dạng ngữ nghĩa Cảnh báo đến phận giám sát an ninh Hình 2.3 Tổng quan kiến trúc hệ thống nhận dạng hành động bất thường 13 Tập liệu video chứa hành động đáng ngờ gán nhãn, tao thành tập đầu vào huấn luyện hệ thống Tập đưa vào mạng DNN để huấn luyện trích xuất đặc trưng.Sau có trích xuất đặc trưng tập hành động đáng ngờ, video từ hệ thống giám sát qua hệ thống trích xuất vùng quan tâm ( ROIs) phát người, sau nhận dạng hành động bất thường dựa việc trích xuất đặc trưng hình ảnh thu với liệu huấn luyện để phát xem hành động có đáng ngờ khơng kết 2.4.3 Thiết kế mạng neural tích chập nhận dạng hành động Trong phạm vi luận văn đề xuất phương pháp tiếp cận việc dự đoán hành động từ video giám sát tiền xử lý thành dạng hình ảnh đơn theo trục thời gian, dùng cách tiếp cận kết hợp mơ hình DNN để trích xuất đặc trưng máy phân lớp SVM Đầu vào mơ hình video chứa hành động người từ hệ thống giám sát, sau từ video trích xuất tập ảnh (sequence images), hệ thống đưa vào lớp tích chập (Convolution) để giảm kích thước ảnh, sau đưa qua lớp hiệu chỉnh ReLu để loại bỏ giá trị âm ( đưa 0) Dữ liệu tiếp tục đưa xuống lớp lọc cực đại (Max Pooling) để tiếp tục giảm kích thước ảnh Tiếp tục đưa qua lớp chuẩn hóa (Normalization) để chuẩn hóa liệu, sau tiếp tục đưa vào khối inception để tạo mạng có độ sâu rộng hơn, sau đưa qua lớp lọc trung bình (Average pooling) để giảm kích thước, sau ta cho liệu qua lớp Dropout để giải vấn đề khớp với liệu (overfitting) Tiếp theo, liệu đưa vào lớp kết nối đầy đủ 14 với mục đích để nhận dạng đối tượng với độ xác cao Cuối hệ thống đưa liệu vào lớp đầu Softmax để phân lớp liệu chuyển liệu đầu Video Inception Inception Trích xuất ảnh Sequence Images Inception Inception Inception Lớp tích chập Convolution Lớp lọc trung bình Average pooling Lớp hiệu chỉnh ReLU Lớp Dropout Lớp kết nối đầy đủ Fully connection Lớp lọc cực đại Max Pooling Lớp Softmax Lớp chuẩn hóa Normalization Ouput Hình 2.4 Sơ đồ tổng thể kiến trúc mạng học sâu cho nhận dạng hành động Đối với mơ hình thứ dựa học máy kết hợp DNN để trích xuất đặc trưng dùng SVM để nhận dạng hành động Chúng truyền vào hình ảnh đầu vào mạng đồ thị theo chu kỳ 15 (DAG) để học sâu để trích xuất đặc trưng thay phân loại, mơ tả hình 2.5 Images DNN trích xuất đặc trưng (Activate at 1th FC layer) Vecto đặc trưng SVM Action results Hình 2.5 Nhận dạng hành động dựa phép lai học máy sử dụng DNN SVM 16 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Môi trường công cụ sử dụng thực nghiệm 3.2 Dữ liệu thực nghiệm nhận dạng hành động 3.3 Thiết lập thao số thực nghiệm hệ thống 3.3.1 Tiền xử lý video: 3.3.2 Tạo lớp: 3.3.3 Quá trình huấn luyện vào đánh giá: 3.4 Phân tích, đánh giá kết thực nghiệm Trong luận văn này, đánh giá hai loại mơ hình nhận dạng Đầu tiên mạng DNN sử dụng trích xuất đặc trưng nhận dạng hành động Trong phương pháp này, kiến trúc mạng bao gồm 103 lớp, gồm lớp phân loại hành động cuối kiến trúc Hệ thống nhận đạng hành động thiết kế hình 2-16 Hệ thống tiếp cận theo cách truyền thống mạng DNN, nhiên giải vấn đề overfitting liệu huấn luyện UCF101, HMDB5, hình 3-3 Kết huấn luyện cho thấy hệ thống đạt độ xác gần 99,98% hàm tỉ lệ học tập nhỏ dựa tốt độ phân rã sau số epochs 17 Hình 3.1 Mạng DNN huấn luyện xác thực tập liệu UCF101: (a) độ xác (b) giá trị hàm lỗi hội tụ đến giá trị kỳ vọng sau vài epochs Phương pháp thứ hai dựa học máy kết hợp DNN để trích xuất đặc trưng SVM để nhận dạng hành động hình 2-18 Chúng truyền vào hình ảnh đầu vào mạng đồ thị theo chu kỳ (DAG) để học sâu để trích xuất đặc trưng thay phân loại Dữ liệu đầu vào tập hợp cường độ điểm ảnh hình đưa vào mạng học sâu Quá trình training testing tập liệu thử nghiệm đồng với khung hình 240x320 pixcel Dữ liệu đầu vào bao gồm hình ảnh gốc 240x320x15 kích hoạt lớp FC kết cho 874.368 vecto đặc trưng Trong giai đoạn training, vecto đặc trưng, trích xuất từ tập liệu training, cấp cho SVM để học Trong giai đoạn đánh giá, DNN để trích xuất vectơ đặc trưng từ tập liệu test đưa vào mơ hình SVM để nhận dạng hành động Trong mơ hình này, lộc tích chập lớp input 15 kênh tương ứng với 15 frame xám Các lọc độc lập 18 kết nối với 15 kênh hình ảnh đầu vào Lớp cuối xử lý vectơ đặc trưng kích hoạt kết nối đầy đủ, sau chuyển cho SVM để xử lý Chi tiết kiến trúc nhận dạng hình 2-5 Phương pháp SVM thực nhiệm vụ quan trọng tác vụ phân loại ảnh 3.5 Xử lý tăng cường liệu Do vấn đề cân đối liệu huấn luyện, Tăng cường liệu việc quan trọng , điều tạo cân đủ liệu để xây dựng tham số mạnh mẽ cho hệ thống nhận dạng Vấn đề tăng cường liệu có nghĩa tăng số lượng tập liệu hình ảnh Có nhiều cách để tăng cường liệu bao gồm xoay ảnh theo góc ngẫu nhiên, thay đổi điều kiện ánh sáng, cắt xén theo hướng khác nhau, lật ảnh, hình ảnh tạo mẫu ảnh phụkhác cách làm Video clip tập phim hành động chuyển đổi để tạo mẫu với lớp hành động tham số ngẫu nhiên để xử lý tăng cường Một số kết tăng cường hình ảnh thể hình 3.2 Hình 3.2 Ví dụ tăng cường hình liệu hình ảnh 19 3.6 Kết thực nghiệm Hai liệu chuẩn xem xét để đánh giá phương pháp, bao gồm HMDB51, UCF101 Bộ liệu HMDB51 UCF101 hành động thực tế, thu thập từ phim, YouTube Đầu tiên, HMDB51Dataset bao gồm 51 lớp hoạt động video thực tế, ghi lại từ nhiều loại hoạt động tập thể dục, thể thao, nhạc cụ hoạt động sinh hoạt hàng ngày khác Tổng cộng, có 6.766 video 51 danh mục hành động Video chuẩn hóa thành tốc độ khung hình 25fps độ phân giải video 320 × 240 pixel Thứ hai, tập liệu UCF101 bao gồm 101 lớp hành động từ video hành động thực tế, truy xuất từ YouTube Tập liệu 101 danh mục hành động bao gồm 13.320 video Các video với xuất đối tượng đa dạng tư thế, quy mô đối tượng, quan điểm, lộn xộn, điều kiện chiếu sáng, chuyển động máy ảnh Video làm đồng với tốc độ khung hình 25 khung hình / giây độ phân giải video 320 × 240 pixel Một vài hành động video hình 3.1, 3.2 Trong phần huấn luyện, có nhiều cách tiếp cận để xây dựng mạng nơ-ron học sâu để nhận dạng hành động Một vài mô hình tiền huấn luyện (pretrain) sử dụng số tình đặc biệt để dự đốn hành động cách sử dụng mơ hình huấn luyện lại Căn liệu hành động, sử dụng kiến trúc khối inception lựa chọn phù hợp cho việc xây dựng mạng DNN Kích thước frame đưa vào lớp input 240x320 pixels với 15 frame liên tục theo trục thời gian 20 Hình 3.3 Trọng số mặt nạ lọc lớp tích chập Các trọng số loc kernel phép tích chập minh họa hình 3.3 Lớp bao gồm 64 kernels (7x7) kết nối với 15 khung hình tham số đầu vào, hình 3.3.a hình 3.3.b minh họa cho 15 kernel tích chập theo chiều thời gian 15 frame liên tiếp 16 kernels 64 kernels tích chập độc lập tương ứng Kết vài lớp minh họa hình 3.4, kết trả lại từ mẫu hình ảnh vào Kết cho thấy lớp ReLu có ý nghĩa đáng kể so với sử dụng số lớp tích chập 21 Hình 3.4 Kết kích hoạt số lớp DNN Kết kiểm tra chéo cho thấy độ xác hệ thống đạt tỷ lệ xác trung bình đến 90,6% Kết cho thấy cách tiếp cận dựa kết hợp cho kết tốt tốt so với học máy truyền thống SVM Cách tiếp cận thích hợp cho ứng dụng điều kiện chung tiền giấy thực tế Kết cuối minh họa Bảng 3-1 STT HMD Phương pháp UCF101 Stream CNN [16] 88.0 59.4 ResNeXt [17] 90.7 63.8 TDDs [18] 90.3 63.2 Sử dụng CNN 86.5 59.8 Kết hợp CNN+SVM 90.6 65.2 B51 Bảng so sánh độ xác tập UCF101 HMDB51 phương pháp 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với kiến thức nghiên cứu vấn đề kỹ thuật xử lý ảnh, máy học, trí tuệ nhân tạo đặc biệt tìm hiểm sâu mạng tích chập 3D-CNN xử lý nhận dạng hành động đáng ngờ hệ thống giám sát an ninh, rong luận văn ứng dụng kết hợp mạng DNN SVM truyền thống việc dự đoán nhận dạng hành động đáng ngờ hệ thống camera giám sát an ninh Với kết nghiên cứu thực nghiệm so sánh kết khác tập liệu huấn luyên UCF101 HMDB51 để nhận dạng hành động đáng ngờ cho thấy Việc sử dụng phép kết hợp mạng DNN SVM mang lại kết tốt so với số phương pháp khác hệ thống SVM độc lập, hay sử dụng CNN tất trường hợp Trong hệ thống này, có tiếp cận khác biệt với truyền thống liên kết tích chập CNN xử lý frame liên tục sử dụng trích xuất đặc trưng thay phân lớp Các mẫu video phân loại thành lớp hành động sử dụng kỹ thuật phân lớp SVM Về chương thực nghiệm minh họa, dùng phương pháp khác để so sánh độ xác hệ sở liệu huấn luyện kiểm thử mẩu test Tuy nhiên để áp dụng vào hệ thống giám sát thực tế cần phải tiếp tục nghiên cứu giảm chi phí tính tốn để mang tính khả thi cao nhận dạng hành động theo thời gian thực Ngồi ra, để đánh giá xác khách quan xây dựng tập video hành động từ thực tế để đánh giá độ xác tốt ... thuyết học máy, mạng neural tích chập, kỹ thuật học sâu mạng 3D-CNN nhận dạng hành động người để phân loại, nhận dạng - Phương pháp thực nghiệm: Đánh giá số kỹ thuật thị giác máy tính nhận dạng hành. .. dạng hành động người, tập trung vào hành động bất thường dựa kỹ thuật học sâu mạng tích chập 3D-CNN lĩnh vực thị giác máy tính, nguyên lý hệ thống tương tác người máy Thực nghiệm áp dụng kỹ thuật. .. thuyết sử dụng kỹ thuật mạng học sâu 3D CNN vào việc giải toán nhận diện hành động người tương tác người máy, tập trung hướng đến hành động bất thường người lĩnh vực xác định hành động đáng ngờ

Định dạng
Số trang	24
Dung lượng	639,13 KB