Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

20 658 3
Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - LÊ THỊ LỆ DUYÊN MẠNG NƠ-RON TÍCH CHẬP ỨNG DỤNG GIẢI BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG MỘT ĐOẠN VIDEO NGẮN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2017 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Ngƣời hƣớng dẫn khoa học: TS NGUYỄN VĂN THỦY Phản biện 1: …………………………………………………………… Phản biện 2: …………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông PHẦN MỞ ĐẦU Đa phương tiện Internet phát triển nhanh chóng dẫn đến số lượng video chia sẻ phút ngày tăng Bản chất video thông tin phương thức truyền thông đặc biệt với nhiều loại tin tức có can nhiễu phức tạp, ví dụ chuyển động máy ảnh, hình hỗn độn, điều kiện chiếu sáng khác v.v Với bùng nổ thông tin, việc hiểu phân tích đoạn video cho mục đích khác tìm kiếm, giới thiệu, xếp hạng v.v cần thiết Bài toán nhận dạng hành động video toán thị giác máy tính với nhiều ứng dụng khác giám sát, lập mối quan hệ, phục hồi, đến tương tác người máy tính Những năm gần đây, chứng kiến nhiều thành tựu vượt bậc ngành Thị giác máy tính (Computer Vision) Các hệ thống xử lý ảnh lớn Facebook, Google hay Amazon đưa vào sản phẩm chức thông minh nhận diện khuôn mặt người dùng, phát triển xe tự lái hay drone giao hàng tự động Bài toán nhận dạng hoạt động video toán khó nghiên cứu từ lâu, gần có nhiều kết khả quan phát triển mạnh mẽ công nghệ Đặc biệt, thao tác video quy mô lớn vấn đề mang tính cấp thiết Có nhiều phương pháp sử dụng để nhận dạng hành động video, Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) mô hình Deep Learning tiên tiến giúp cho xây dựng hệ thống thông minh với độ xác cao Được hướng dẫn tận tình thầy giáo TS Nguyễn Văn Thủy với mong muốn học công nghệ nhận dạng hành động mới, đồng thời có ứng dụng thực tiễn nghành công tác thân Em mạnh dạn chọn đề tài “Mạng nơ-ron tích chập ứng dụng giải toán nhận dạng hành động đoạn video ngắn” để nghiên cứu Với phương pháp này, kỳ vọng đạt kết tốt nghiên cứu trước Nội dung luận văn bao gồm chương: Chƣơng 1: Nghiên cứu mạng nơ-ron mạng nơ-ron tích chập Chƣơng 2: Bài toán nhận dạng hành động video Chƣơng 3: Ứng dụng toán nơ-ron tích chập cho nhận dạng hành động 3 CHƢƠNG NGHIÊN CỨU MẠNG NƠ-RON MẠNG NƠ-RON TÍCH CHẬP 1.1 Mạng nơ-ron 1.1.1 Giới thiệu Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN), gọi tắt mạng nơ-ron, mô hình xử lý thông tin theo cách thức xử lý thông tin hệ nơ-ron sinh học Nó tạo lên từ số lượng lớn phần tử (gọi nơ-ron) kết nối với thông qua liên kết (trọng số liên kết) làm việc thể thống để giải vấn đề cụ thể Một mạng nơ-ron nhân tạo cấu hình cho ứng dụng cụ thể (nhận dạng mẫu, phân loại liệu, ) thông qua trình học từ tập mẫu huấn luyện Về chất học trình hiệu chỉnh trọng số liên kết nơ-ron cho giá trị hàm lỗi nhỏ 1.1.2 Kiến trúc mạng nơ-ron Mạng nơ-ron tập hợp nơ-ron kết nối đồ thị không tuần hoàn Các đầu số nơ-ron trở thành đầu vào nơ-ron khác Mô hình mạng nơ-ron thường tổ chức thành lớp riêng biệt nơ-ron Kiến trúc chung ANN gồm thành phần lớp đầu vào (Input Layer), lớp ẩn (Hidden Layer) lớp đầu (Output Layer) (xem hình 1-1) Trong đó, lớp ẩn (Hidden Layer) gồm nơ-ron, nhận liệu input từ nơ-ron lớp trước chuyển đổi input cho lớp xử lý tiếp theo, ANN có nhiều Hidden Layer Hình 1-1 Hai mạng nơ-ron hình học 1.1.3 Các tham số Inputs: Là tín hiệu vào nơ-ron, đầu vào tương ứng với thuộc tính (attribute) liệu (patterns) Output: Là tín hiệu đầu nơ-ron, với nơ-ron có tối đa đầu 4 Connection Weights (Trọng số liên kết) : Đây thành phần quan trọng ANN, thể mức độ quan trọng (độ mạnh) liệu đầu vào trình xử lý thông tin (quá trình chuyển đổi liệu từ Layer sang layer khác) Summation Function (Hàm tổng): Tính tổng trọng số tất input đưa vào nơ-ron (phần tử xử lý PE) Transformation (Transfer) Function (Hàm chuyển đổi): dùng để giới hạn phạm vi đầu nơ-ron Nó nhận đầu vào kết hàm tổng ngưỡng 1.2 Mạng nơ-ron tích chập Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) mô hình Deep Learning tiên tiến giúp cho xây dựng hệ thống thông minh với độ xác cao Mạng nơ-ron tích chập tương tự mạng nơ-ron giới thiệu phần trước, chúng tạo thành từ nơ-ron có trọng số sai số Mỗi nơ-ron nhận số đầu vào, thực nhân chập tùy chọn sau với hàm phi tuyến tính Mạng nơron tích chập áp dụng nhiều toán nhận dạng nhận dạng vật thể ảnh, nhận dạng chữ viết tay (chuyển đổi chữ viết hình ảnh thành văn thô máy tính), nhận dạng vật thể 3D, xử lý tiếng nói, xử lý ngôn ngữ tự nhiên, … với độ xác cao 1.2.1 Kiến trúc chung mạng nơ-ron tích chập Mô hình kiến trúc mạng nơ-ron tích chập đời áp dụng nhiều toán nhận dạng khác nhau, với kiến trúc khác so mạng truyền thống Thay toàn ảnh nối với node có phần cục ảnh nối đến node lớp Dữ liệu hình ảnh thông qua lớp mô hình “học” đặc trưng để tiến hành phân lớp cách hiệu Về bản, mô hình kiến trúc mạng nơ-ron tích chập bao gồm lớp sau: lớp Convolutional, lớp chuyển đổi (RELU- Rectified Linear Unit), lớp Pooling, lớp Fully Connected Sự xếp số lượng thứ tự lớp tạo mô hình khác phù hợp cho toán khác 5 Hình 1-2: Kiến trúc hoạt động mạng nơ-ron tích chập 1.2.2 Các phân lớp - Lớp Convolutional Lớp nơi thể tư tưởng ban đầu mạng nơ-ron tích chập Thay kết nối toàn điểm ảnh, lớp sử dụng lọc (filters) có kích thước nhỏ so với ảnh (thường 3×3 5×5) áp vào vùng ảnh tiến hành tính tích chập filter giá trị điểm ảnh vùng cục Bộ filter dịch chuyển theo bước trượt (stride) chạy dọc theo ảnh quét toàn ảnh - Lớp chuyển đổi RELU – Rectified Linear Unit Lớp thường cài đặt sau lớp Convolutional Lớp sử dụng hàm kích hoạt giá trị cực tiểu f(x) = max(0,x) Nói cách đơn giản, lớp có nhiệm vụ chuyển toàn giá trị âm kết lấy từ lớp Convolutional thành giá trị - Lớp Pooling Lớp sử dụng cửa sổ trượt quét qua toàn ảnh liệu, lần trượt theo bước trượt (stride) cho trước Khác với lớp Convolutional, lớp Pooling không tính tích chập mà tiến hành lấy mẫu (subsampling) Khi cửa sổ trượt ảnh, có giá trị xem giá trị đại diện cho thông tin ảnh vùng (giá trị mẫu) giữ lại Các phương thức lấy phổ biến lớp Pooling MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) - Lớp FC – Fully Connected: lớp đóng vai trò mô hình phân lớp tiến hành dựa liệu xử lý lớp trước 1.2.3 Nguyên lý hoạt động mạng nơ-ron tích chập điển hình Hình 1-3: Nguyên lý hoạt động mạng nơ-ron tích chập Hình ảnh đưa vào lớp Conv1 (Convolutional kết hợp RELU) với lọc (filter) có kích thước 5x5, áp dụng bước trượt 2, filter dùng để tính tích chập với ảnh cho ảnh kết tương ứng C1 có kích thước 28x28 Mỗi ảnh có kích thước tương ứng 28x28 Sau đó, 28 ảnh cho qua lớp Pooling, sử dụng lọc kích thước 2x2, bước trượt ta kết đầu S2 ảnh có kích thước 14x14 Tiếp tục liệu vào lớp Conv2 Tương tự Conv1, ảnh tính tích chập với filter trả kết ảnh đầu C2 có kích thước 10x10 Lớp Pooling tiếp tục giảm kích thước ảnh xuống 5x5 Với kích thước đủ nhỏ vậy, lớp Fullyconnected xử lý đưa kết phân lớp hay kết nhận dạng 7 CHƢƠNG NGHIÊN CỨU VỀ BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG VIDEO Trong nhiều thập kỷ qua, video nghiên cứu cộng đồng dùng máy tính với nhiều vấn đề khác nhận dạng hành động, phục hồi video, phát bất thường… Nhận dạng hành động video vấn đề thị giác máy tính diện ứng dụng rộng, xếp loại từ giám sát, lập mối quan hệ phục hồi, đến tương tác người máy tính Bài toán nhận dạng hành động video toán khó, thu hút ý nghiên cứu sâu Có nhiều phương pháp nhận dạng hành động video, chương này, tìm hiểu số khái niệm cấu trúc video, phân đoạn ảnh video… phương pháp nhận dạng hành động video tiêu biểu phương pháp Space-time Interest Points (STIP) 2.1 Một số khái niệm Cấu trúc Video Cấu trúc chuỗi video bao gồm thành phần sau: • Frame - khung hình thành phần chuỗi video Mỗi khung hình tương ứng với ảnh giới thực thời điểm xác định • Shot dãy khung hình liên tiếp camera ghi nhận ngắt quãng xảy Shot đơn vị để xây dựng phân tích nội dung video • Các shot liên tiếp kết hợp lại thành cảnh (scene) dựa nội dung • Tất scene tạo thành chuỗi video Hình - 1: Mô hình cấu trúc video Key - frame Key - frame đặc trưng tóm tắt dùng để mô tả nội dung bật, yếu chuỗi video, xem đại diện chuỗi khung hình liên tục thời gian video Phân đoạn ảnh video Phân đoạn video trình chia chuỗi khung hình thành vùng ngữ nghĩa cho vùng xem đối tượng ngữ nghĩa độc lập Có hai hình thức phân đoạn video phân đoạn theo thời gian phân đoạn theo không gian Mục đích phân đoạn theo thời gian để xác định vùng khung hình mà xảy di chuyển đối tượng Phân đoạn theo không gian mục đích để chia khung hình thành vùng ngữ nghĩa theo tiêu chuẩn cho trước Hình - 2: Minh họa kết phân đoạn video Một vài đặc trưng thông dụng sử dụng để đưa tiêu chuẩn phân đoạn theo không gian di chuyển, màu sắc, kết cấu, tính chất hình học Các đặc trưng khác chuẩn đồng khác dẫn đến kết khác liệu Chẳng hạn, phân đoạn dựa màu, phân đoạn dựa cấu trúc, phân đoạn dựa di chuyển thường có kết đồ phân đoạn khác 2.2 Các phƣơng pháp xử lý liệu cho toán nhận dạng Có ba hình thức phổ biến trình tiền xử lý liệu gồm: - Trừ giá trị trung bình Là hình thức phổ biến trình tiền xử lý liệu Nó bao gồm việc trừ giá trị trung bình qua tính đơn lẻ liệu, có trình bày hình học định tâm đám liệu xung quanh bình phương thứ nguyên Gọi X giá trị trung bình ma trận ảnh, theo kênh màu Ta có: X = X - X cho phép chuyển tâm liệu xung quanh giá trị - Tiêu chuẩn hóa liệu Quy vào việc bình thường hóa thứ nguyên liệu để chúng có kích thước tương đối tương đương Có hai cách phổ biến để đạt bình thường hóa Một chia thứ nguyên cho giá trị phương sai nó, lấy làm trung tâm: X = X – X, X= Hình thức khác trình tiền xử lý bình thường hóa thứ nguyên để giá trị cực tiểu giá trị cực đại qua thứ nguyên tương ứng -1 Hình - 3: Kênh tiền xử lý liệu phổ biến Bên trái: Dữ liệu gốc, liệu đầu vào chiều Ở giữa: Dữ liệu lấy làm trung tâm cách trừ giá trị trung bình thứ nguyên Đám liệu lấy trung tâm quanh bình phương Bên phải: Mỗi thứ nguyên tiêu chuẩn hóa cách chia thứ nguyên theo phương sai Đường màu đỏ mở rộng liệu, chúng độ dài giữa, có độ dài bên phải - Phân tích thành phần (PCA) trình làm trắng (whitening) liệu Principal Component Analysis - PCA hình thức trình tiền xử lý liệu Trong trình này, liệu trước tiên lấy trung tâm miêu tả Sau đó, tính toán ma trận hiệp phương sai (covariance) để xác định cấu trúc tương quan liệu Ma trận tính toán sử dụng thư viện Numpy Python sau: # Assume input data matrix X of size [N x D] X -= np.mean(X, axis = 0) # zero-center the data (important) XX = Cov(X,X) = np.dot(XT, X) / X.shape[0] # get the data covariance matrix 10 Thành phần (i,j) ma trận giá trị hiệp phương sai chiều i chiều j liệu Đặc biệt, đường chéo ma trận phương sai liệu dạng ma trận X Ma trận hiệp phương sai XX ma trận đối xứng xác định dương (positive semi-definite) Sau đó, tính thừa số phân mảnh SVD (SVD factorization) ma trận dự liệu hiệp tương quan U,S,V = np.linalg.svd(cov) Trong cột U véc-tơ riêng (eigenvector) S dãy chiều giá trị riêng Để tách liệu, chiếu liệu gốc (nhưng lấy không làm trung tâm) vào hệ trục có sở vector riêng U: Xrot = np.dot(X, U) # decorrelate the data Các cột U tập véc-tơ trực chuẩn (độ dài véc-tơ 1, trực giao nhau), nên chúng xem hệ véc-tơ sở Do đó, việc ánh xạ lên hệ trục tương ứng với quay liệu ma trận X sang hệ trục toạ độ véc-tơ riêng Một thuộc tính hay câu lệnh np.linalg.svd cho giá trị đầu U, với cột véc-tơ riêng xếp theo giá trị riêng chúng Chúng ta sử dụng đặc tính để giảm kích thước liệu cách sử dụng số véc-tơ riêng đầu tiên, loại bỏ cột sau có giá trị riêng nhỏ, tương ứng với việc loại bỏ chiều không chứa liệu Phương pháp gọi phương pháp giảm kích thước liệu dựa phân tích thành phần PCA Ví dụ sau ta tính toán vector riêng U, ta cần tập trung vào 100 chiều liệu, ta dùng câu lệnh sau: Xrot_reduced = np.dot(X, U[:,:100]) # Xrot_reduced becomes [N x 100] Sau câu lệnh này, giảm kích thước [N x D] liệu gốc thành kích thước [N x 100] chứa 100 thành phần liệu chứa nhiều dao động Thông thường, để tiết kiệm thời gian không gian tính toán, ta tiến hành huấn luyện phân lớp hay mạng nổn tập liệu tối giản dùng phương pháp PCA, mà đảm bảo hiệu tốt Bài toán biến đổi cuối thường áp dụng thực tiễn làm trắng liệu Quá trình làm trắng thực trục toạ độ sở vector riêng, cách chia chiều liệu cho giá trị riêng để tiêu chuẩn hoá chiều liệu Về mặt hình học trình làm trắng liệu chuyển liệu đầu vào dạng hàm Gauss đa biến chuyển 11 thành trình Gauss có giá trị trung bình ma trận hiệp phương sai ma trận đơn vị Bước làm trắng thực thực tế dùng hàm sau: # whiten the data: # divide by the eigenvalues (which are square roots of the singular values S) Xwhite = Xrot / np.sqrt(S + 1e-5) Công thức thêm 1e-5 (hoặc thành phần nhỏ) để tránh trường hợp chia không Có điểm hạn chế phép biến đổi cường điệu hóa đáng kể hỗn loạn liệu, kéo mở rộng tất chiều liệu (bao gồm chiều có giá trị phương sai nhỏ mà hầu hết nhiễu) Trong thực tiễn điều giảm nhẹ cách tăng 1e-5 thành số lớn Hình 2-4: PCA/Làm trắng [22] Bên trái: Dữ liệu gốc, liệu đầu vào chiều Ở giữa: Sau thực PCA Dữ liệu lấy không làm trung tâm bị xoay tới hệ trục dựa vecto sở riêng ma trận liệu hiệp phương sai Bên phải: Mỗi chiều liệu chia tỷ lệ trị riêng, biến ma trận liệu hiệp phương sai thành ma trận đơn vị Từ khía cạnh hình học, điều tương ứng với mở rộng nén liệu thành Gauss đẳng hướng 2.3 Phƣơng pháp Space-time Interest Points (STIP) Phân tích diễn tả video ngày quan tâm Thị giác máy tính ứng dụng Các cách tiếp cận truyền thống việc phân tích chuyển động video chủ yếu bao gồm phương pháp: tính toán luồng quang [10] theo dõi chức [2, 14] Cả hai phương pháp hiệu nhiều thao tác có hạn chế chuyển động có thay đổi đột xuất Cách tiếp cận hữu ích hiệu trích xuất đặc điểm cục điểm quan tâm không gian - thời gian mã hoá thông tin thời gian trực tiếp vào đặc điểm cục Tương tự trường hợp 2D, cấu trúc điểm quan tâm tìm kiếm để 12 ổn định theo xoay, quan điểm, quy mô thay đổi độ sáng Bộ phát điểm điểm không gian - thời gian phần mở rộng phát quan tâm 2D kết hợp thông tin thời gian Điểm quan tâm không gian - thời gian (STIP) đề xuất I Laptev năm 2005 Chúng dựa việc phát góc không gian-thời gian Các góc không gian thời gian nằm khu vực có cường độ hình ảnh cao ba hướng (x, y, t) Điều đòi hỏi góc không gian - thời gian định vị góc không gian, mà họ đảo ngược chuyển động hai khung liên tiếp (gradient độ dốc cao) Phát điểm quan tâm: - Phát điểm quan tâm miền không gian miền không gian – thời gian: Phát điểm quan tâm miền không gian phát vị trí hình ảnh không gian, giá trị hình ảnh có biến đổi đáng kể hai hướng hình ảnh Ý tưởng điểm quan tâm miền không gian mở rộng thành miền không gian - thời gian cách yêu cầu giá trị hình ảnh không gian - thời gian có biến đổi lớn chiều không gian thời gian Các điểm với thuộc tính điểm quan tâm không gian với vị trí khác biệt thời gian tương ứng với chuyển động không liên tục hình ảnh miền không gian - thời gian nội vùng lân cận - Phát điểm quan tâm thích nghi tỷ lệ: Để minh họa thực phát điểm quan tâm không gian - thời gian thích nghi tỷ lệ, ta quan tâm đến dãy với người hình ảnh gia tốc thay đổi chuyển động dao động chân Như thấy hình 2-2, mẫu tiến lên điểm quan tâm Các điểm phát định hóa tốt không gian thời gian tương ứng với kiện điểm dừng bắt đầu bước chân Từ biểu đồ không gian – thời gian hình 2-2(a), theo dõi tỷ lệ không gian thời gian thuộc tính phát tương hợp tương mở rộng không gian thời gian cấu trúc hình ảnh tương ứng 13 Hình - 5: Điểm quan tâm không gian – thời gian chuyển động chân ngƣời (a) biểu đồ chiều với mặt ngưỡng mẫu chân (từ xuống dưới) điểm quan tâm phát hiện; (b) điểm quan tâm phủ lên khung hình đơn dãy Phân lớp kiện Các điểm quan tâm phát có biến đổi đáng kể giá trị hình ảnh láng giềng không gian - thời gian nội vùng Để phân biệt kiện từ kiện khác từ tiếng ồn, cách tiếp cận so sánh láng giềng nội vùng gán điểm với láng giềng tương đương nhóm kiện Cách tiếp cận tương tự chứng minh thành công miền không gian thao tác trình bày hình ảnh [11] đánh số [4] nhận diện [5, 16] Để phát kiện giống liệu, áp dụng cụm cluster k-mean không gian toán tử điểm phát nhóm điểm với láng giềng không gian – thời gian giống Cụm cluster láng giềng không gian – thời gian sử dụng để miêu tả hình ảnh phát phận đối tượng cho nhận diện không gian [13] Ứng dụng vào diễn tả video Các điểm quan tâm không gian - thời gian phân lớp sử dụng cho diễn tả video, vấn đề việc phát người ước tính tư nhìn thấy từ trường bên Thao tác phức tạp, biến thiên xuất người với biến thiên dẫn đến diễn dịch mơ hồ Chuyển 14 động người tín hiệu mạnh sử dụng để giải mơ hồ số công việc trước Những cách tiếp cận khác sử dụng tín hiệu hình ảnh không gian – thời gian luồng quang [2] hay mô hình chuyển động Ý tưởng cách tiếp cận trình bày mẫu liệu cách sử dụng chức không gian – thời gian nội vùng tách bạch phối chọn mô hình cách phối chọn chức với chức tương ứng liệu bên cửa sổ không gian – thời gian (xem hình 2-3) Hình - 6: Sự phối chọn chức liệu không gian – thời gian với chức mô hình (a) Các chức phát từ dãy liệu khoảng đoạn thời gian tương ứng với ba giai đoạn chu kỳ dáng đi; (b) Các chức mô hình cực tiểu hóa khoảng cách đến chức (a); (c) Các chức mô hình chức liệu phủ lên Bóng hình ước tính phủ lên khung hình xác nhận xác phương pháp 15 CHƢƠNG ỨNG DỤNG BÀI TOÁN NƠ-RON TÍCH CHẬP CHO NHẬN DẠNG HÀNH ĐỘNG 3.1 Giới thiệu tập liệu Tập liệu UCF101 tập liệu lớn hành động người Nó bao gồm 101 lớp hành động, 13k clip 27 liệu video Cơ sở liệu bao gồm đoạn video người dùng tải lên thực tế có chứa chuyển động camera lộn xộn Theo nghiên cứu nay, UCF101 tập liệu hành động đầy thử thách số lượng lớn lớp học, số lượng lớn clip tính chất không hạn chế clip Tập liệu UCF101 chia thành loại: tương tác Con người-Đối tượng, Chỉ Động cơ, Tương tác Con người Con người, Chơi Nhạc cụ, Thể thao Các đoạn lớp hành động chia thành 25 nhóm có chứa 4-7 clip Tên clip có dạng sau: v X gY cZ.avi X, Y Z đại diện cho nhãn lớp học, nhóm số clip tương ứng Ví dụ, v_ApplyEyeMakeup_g03_c04.avi tương ứng với clip nhóm lớp hành động ApplyEyeMakeup 3.2 Mạng nơ-ron tích chập nghiên cứu Hình - 1: Kiến trúc mạng nơ-ron tích chập nghiên cứu 3.2.1 Nguyên lý hoạt động Mạng thiết lập để nhận hành động có đầu vào đoạn video dự đoán lớp nhãn thuộc 101 hành động khác Tất khung hình video thay đổi sang kích thước 128x171 Kích thước khoảng nửa độ phân giải khung tập UCF101 Video chia thành đoạn (16 khung hình) không chồng lấn, sau sử dụng làm đầu vào cho mạng nghiên cứu Các kích thước đầu vào 3x16x128x171 Tiếp theo khung cắt ngẫu nhiên, cho kích thước 3x16x112x112 clip đầu vào trình huấn luyện Cấu trúc mạng có lớp tích chập lớp pooling (sau lớp tích chập lớp pooling), lớp kết nối đầy đủ lớp softmax để dự đoán nhãn hành động Số lượng lọc cho lớp tích chập tương ứng từ đến 64, 128, 256, 512, 512 16 Hình - 2: Cấu trúc mạng nơ-ron tích chập chiều (CNN-3D) Tất lớp tích chập ứng dụng với lớp đệm thích hợp (cả không gian thời gian) khoảng cách bước trượt (stride) Tất lớp pooling tổng hợp tối đa với kích thước 2x2x2 (trừ lớp đầu tiên) với khoảng cách bước trượt Lớp pooling có kích thước thời gian 1x2x2 cho phép không ảnh hưởng đến chiều thời gian sớm (không làm giảm số chiều miền thời gian) Mỗi lớp kết nối đầy đủ có 4096 kết đầu 3.2.2 Tham số tối ưu Để tìm kiếm cấu trúc mạng nơ-ron tích chập chiều (CNN- 3D) tốt, thay đổi tham số thời gian di lớp tích chập giữ tất cài đặt phổ biến cố định thảo luận phần 3.2.1, thử nghiệm với hai loại cấu trúc: 1) Thời gian sâu đồng nhất: tất lớp tích chập có tham số thời gian giống nhau; 2) Thời gian sâu khác nhau: tham số thời gian thay đổi lớp Đối với thiết lập đồng nhất, thử nghiệm với mạng có tham số thời gian d 1, 3, 7, đặt tên cho mạng độ sâu d, d chiều sâu thời gian đồng chúng, mạng có d = tương đương với việc ứng dụng tích chập chiều (CNN-2D) khung hình riêng biệt Để thiết lập tham số thời gian khác nhau, thử nghiệm hai mạng với tham số thời gian lớp tăng dần: 3-3-5-5-7 giảm dần: 7-5-53-3 từ lớp tích chập đến lớp thứ năm tương ứng Tất mạng có kích thước tín hiệu đầu lớp pooling cuối cùng, chúng có số lượng tham số lớp kết nối đầy đủ Số lượng thông số chúng khác lớp tích chập tham số thời gian khác Những khác biệt nhỏ so với hàng triệu tham số lớp kết nối đầy đủ Ví dụ, hai lớp với tham số thời gian khác biệt 2, có 17K tham số nhiều Sự khác biệt lớn tham số mạng có d = mạng có d = 7, với d = mạng có 51K nhiều tham số hơn, nhiên chiếm 0,3 % tổng số 17,5 triệu tham số mạng Điều rằng, cấu hình mạng có khả học khác biệt nhỏ số lượng tham số không ảnh hưởng đến kết học máy 17 Hình - Tìm kiếm tham số thời gian cho mạng nơ-ron tích chập chiều Clip nhận dạng hành động xác thử nghiệm UCF101 split-1 thiết lập tham số thời gian khác Mạng nơ-ron tích chập chiều thực mạng nơ-ron tích chập chiều với kích thước lọc 3x3x3 thực tốt số mạng lưới thử nghiệm Hình 3-3 trình bày tính xác clip cấu trúc khác thử nghiệm UCF101 split Biểu đồ bên trái cho thấy kết mạng lưới với tham số thời gian đồng biểu đồ bên phải trình bày kết tham số thay đổi Tham số d = thực tốt số mạng lưới đồng Tham số d = so với mạng lưới khác mô hình chuyển động So với trường hợp tham số thời gian thay đổi, d = thực tốt nhất, khoảng cách nhỏ Các trường hợp với kích thước 3x3 Chúng thử với kích thước lớn 5x5 với độ phân giải ảnh đầu vào lớn (240x320), nhiên kết đạt tương tự Điều cho thấy 3x3x3 lựa chọn tốt cho kích thước lọc mạng nơ-ron tích chập chiều (theo tập liệu nghiên cứu) mạng nơ-ron tích chập chiều tốt so với mạng nơ-ron tích chập chiều để phân loại video Chúng xác nhận mạng nơ-ron tích chập chiều thực tốt so với mạng nơ-ron tích chập chiều tập liệu nội quy mô lớn, cụ thể I380K 3.3 Kết nhận dạng Bộ liệu: Đánh giá tính mạng nơ-ron tích chập chiều (CNN-3D) liệu UCF101 Bộ liệu bao gồm 13,320 video 101 loại hành động người, sử dụng cung bậc phân chia thiết lập cung cấp với số liệu Bộ liệu chia làm phần: phần cho huấn luyện, phần dành kiểm tra hiệu hệ thống nhận dạng CNN ba chiều (3D) Hệ thống nhận dạng huấn luyện từ đầu, với kích thước mini-batch (số lượng clips xử lý iteration) 10 clips Tỉ lệ học máy ban đầu thiết lập giá trị 18 0.003, sau chia cho 10 sau vào hết lần số lượng video clips cho trình huấn luyện Quá trình huấn luyện dựng lại sau lặp quay vòng 16 lần kích thước liệu Sau trình huấn luyện, hệ thống kiểm tra tập liệu video clips tests Kết nhận dạng hành động xác 78,3% Chi tiết so sánh với thuật toán có giới thể bảng sau: Phương pháp Mạng sâu Dòng mạng không gian LRCN LSTM mô hình hỗn hợp CNN-3D Độ xác (%) 65.4 72.6 71.1 75.8 78,3 Bảng 3-1 Nhận dạng hành động UCF101 Bảng 3-2 trình bày kết CNN-3D so phương pháp đại Từ kết xác so với phương pháp khác, hệ thống nhận dạng hành động CNN3D có khả phát xác thông tin khuôn dạng chuyển động 3.4 Chƣơng trình ứng dụng cho toán nhận dạng hành động 3.4.1 Lựa chọn tảng phát triển Ý tưởng chương trình ứng dụng xây dựng website tin tức nghành công tác, sau tích hợp chương trình nhận dạng hành động website Sau tìm hiểu, xây dựng kiến trúc hệ thống, ta cài đặt hệ thống ngôn ngữ lập trình cụ thể Ngôn ngữ lập trình lựa chọn để xây dựng chương trình ứng dụng PHP Python 3.4.2 Thành phần giao diện chương trình ứng dụng Các lệnh thực thi: - Mở Terminal hệ hiều hành Ubuntu, để gõ lệnh: + Khởi động phần mềm Xampp: sudo /opt /lampp /lampp start + Chạy chương trình nhận dạng hành động video: ls cd C3D-master cd examples cd duyen_web_ActReg python run_web.py 19 + Sau vào đường dẫn: localhost/addvideo/leduyen.html để truy nhập vào giao diện chương trình demo ứng dụng tiến hành nhận dạng hành động KẾT LUẬN HƢỚNG PHÁT TRIỂN Chương trình thực nghiệm nhận dạng hành động đoạn video ngắn với phương pháp trình bày luận văn đạt số điểm: - Học phương pháp nhận dạng với độ xác cao - Nắm đặc điểm toán nhận dạng nói chung nhận dạng hành động video nói riêng - Tìm hiểu số phương pháp nhận dạng hành động video, nắm ưu nhược điểm phương pháp - Demo thử nghiệm thành công liệu mẫu với tỉ lệ nhận dạng xác 78,3% Hướng phát triển toán: - Nhận dạng nhiều hành động video - Ứng dụng vào toán nhận dạng hành động video thu nhận từ liệu camera điều tra tội phạm, giám sát an ninh giao thông… ... Nghiên cứu mạng nơ-ron mạng nơ-ron tích chập Chƣơng 2: Bài toán nhận dạng hành động video Chƣơng 3: Ứng dụng toán nơ-ron tích chập cho nhận dạng hành động 3 CHƢƠNG NGHIÊN CỨU MẠNG NƠ-RON VÀ MẠNG NƠ-RON... công nghệ nhận dạng hành động mới, đồng thời có ứng dụng thực tiễn nghành công tác thân Em mạnh dạn chọn đề tài Mạng nơ-ron tích chập ứng dụng giải toán nhận dạng hành động đoạn video ngắn để... Demo thử nghiệm thành công liệu mẫu với tỉ lệ nhận dạng xác 78,3% Hướng phát triển toán: - Nhận dạng nhiều hành động video - Ứng dụng vào toán nhận dạng hành động video thu nhận từ liệu camera

Ngày đăng: 30/10/2017, 15:18

Hình ảnh liên quan

lớp ẩn (Hidden Layer) và lớp đầu ra (Output Layer) (xem hình 1-1). Trong đó, lớp ẩn (Hidden Layer) gồm các nơ-ron, nhận dữ liệu input từ các nơ-ron ở lớp trước đó và chuyển  đổi các input này cho các lớp xử lý tiếp theo, trong một ANN có thể có nhiều Hidd - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

l.

ớp ẩn (Hidden Layer) và lớp đầu ra (Output Layer) (xem hình 1-1). Trong đó, lớp ẩn (Hidden Layer) gồm các nơ-ron, nhận dữ liệu input từ các nơ-ron ở lớp trước đó và chuyển đổi các input này cho các lớp xử lý tiếp theo, trong một ANN có thể có nhiều Hidd Xem tại trang 4 của tài liệu.
Mô hình kiến trúc mạng nơ-ron tích chập ra đời đã được áp dụng nhiều trong các bài toán nhận dạng khác nhau, với một kiến trúc khác so mới mạng truyền thống - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

h.

ình kiến trúc mạng nơ-ron tích chập ra đời đã được áp dụng nhiều trong các bài toán nhận dạng khác nhau, với một kiến trúc khác so mới mạng truyền thống Xem tại trang 5 của tài liệu.
Hình 1-2: Kiến trúc hoạt động của mạng nơ-ron tích chập - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 1.

2: Kiến trúc hoạt động của mạng nơ-ron tích chập Xem tại trang 6 của tài liệu.
• Fram e- khung hình là thành phần cơ bản trong chuỗi video. Mỗi khung hình tương ứng với một ảnh trong thế giới thực tại một thời điểm xác định - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

ram.

e- khung hình là thành phần cơ bản trong chuỗi video. Mỗi khung hình tương ứng với một ảnh trong thế giới thực tại một thời điểm xác định Xem tại trang 8 của tài liệu.
Phân đoạn video là một quá trình chia một chuỗi các khung hình thành các vùng ngữ nghĩa sao cho mỗi vùng có thể được xem như một đối tượng ngữ nghĩa độc lập - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

h.

ân đoạn video là một quá trình chia một chuỗi các khung hình thành các vùng ngữ nghĩa sao cho mỗi vùng có thể được xem như một đối tượng ngữ nghĩa độc lập Xem tại trang 9 của tài liệu.
Hình 2- 3: Kênh tiền xử lý dữ liệu phổ biến - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 2.

3: Kênh tiền xử lý dữ liệu phổ biến Xem tại trang 10 của tài liệu.
Hình 2-4: PCA/Làm trắng [22] - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 2.

4: PCA/Làm trắng [22] Xem tại trang 12 của tài liệu.
Hình 2- 5: Điểm quan tâm không gian – thời gian đối với chuyển động của các chân của một ngƣời đi bộ   - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 2.

5: Điểm quan tâm không gian – thời gian đối với chuyển động của các chân của một ngƣời đi bộ Xem tại trang 14 của tài liệu.
Hình 2- 6: Sự phối chọn các chức năng dữ liệu không gian – thời gian với các chức năng mô hình   - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 2.

6: Sự phối chọn các chức năng dữ liệu không gian – thời gian với các chức năng mô hình Xem tại trang 15 của tài liệu.
Hình 3- 3. Tìm kiếm tham số thời gian cho mạng nơ-ron tích chập 3 chiều - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

Hình 3.

3. Tìm kiếm tham số thời gian cho mạng nơ-ron tích chập 3 chiều Xem tại trang 18 của tài liệu.
LSTM mô hình hỗn hợp CNN-3D   65.4 72.6 71.1 75.8  78,3  Bảng 3-1. Nhận dạng hành động trên UCF101 - Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (tt)

m.

ô hình hỗn hợp CNN-3D 65.4 72.6 71.1 75.8 78,3 Bảng 3-1. Nhận dạng hành động trên UCF101 Xem tại trang 19 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan