Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)

66 1.1K 4
Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)Mạng nơron tích chập và ứng dụng giải bài toán nhận dạng hành động trong một đoạn video ngắn (LV thạc sĩ)

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - LÊ THỊ LỆ DUYÊN MẠNG NƠ-RON TÍCH CHẬP ỨNG DỤNG GIẢI BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG MỘT ĐOẠN VIDEO NGẮN LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2017 HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - LÊ THỊ LỆ DUYÊN MẠNG NƠ-RON TÍCH CHẬP ỨNG DỤNG GIẢI BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG MỘT ĐOẠN VIDEO NGẮN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN THỦY HÀ NỘI – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng hướng dẫn tận tình thầy giáo TS Nguyễn Văn Thủy Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí, giảng liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp Hà Nội, tháng năm 2017 Tác giả luận văn Lê Thị Lệ Duyên ii LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp này, cố gắng, nỗ lực thân, em xin gửi lời cảm ơn chân thành tới Thầy giáo hướng dẫn TS Nguyễn Văn Thủy, người trực tiếp hướng dẫn, bảo, định hướng giúp đỡ em tận tình suốt trình làm luận văn tốt nghiệp Em xin chân thành cảm ơn Thầy, Cô Học viện Công nghệ Bưu Viễn thông, đặc biệt Thầy Cô khoa Công nghệ thông tin, khoa Quốc tế & Đào tạo Sau đại học trực tiếp giảng dạy, truyền đạt cho em nhiều kiến thức quý báu cho hoạt động công tác thực tiễn thân đúc kết kiến thức vào luận văn Cuối xin gửi lời cảm ơn chân thành đến Ba Mẹ, Anh Chị Em lớp M15CQIS02-B tất người thân bạn bè, người giành tốt đẹp nguồn động lực giúp em vượt qua khó khăn cố gắng suốt trình học tập thời gian hoàn thiện luận văn tốt nghiệp để em có đến ngày hôm Mặc dù cố gắng hoàn thành luận văn, với thời gian khả có hạn, nên luận văn tránh khỏi thiếu sót, hạn chế Kính mong nhận cảm thông ý kiến góp ý quý Thầy, Cô bạn bè để em khắc phục lỗ hổng kiến thức luận văn tốt nghiệp Em hoàn thiện Em xin chân thành cảm ơn! Hà Nội, tháng năm 2017 Học viên Lê Thị Lệ Duyên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG viii MỞ ĐẦU CHƢƠNG NGHIÊN CỨU MẠNG NƠ-RON MẠNG NƠ-RON TÍCH CHẬP 1.1 Mạng nơ-ron 1.1.1 Giới thiệu 1.1.2 Kiến trúc mạng nơ-ron .2 1.1.3 Các tham số 1.2 Mạng nơ-ron tích chập 1.2.1 Kiến trúc chung mạng nơ-ron tích chập .6 1.2.2 Các phân lớp .8 1.2.3 Nguyên lý hoạt động mạng nơ-ron tích chập điển hình .11 1.3 Kết luận chƣơng 12 CHƢƠNG BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG VIDEO 13 2.1 Giới thiệu toán 13 2.2 Một số khái niệm 13 2.2.1 Cấu trúc Video 13 2.2.2 Key - frame 14 2.2.3 Phân đoạn ảnh video .15 2.3 Các phƣơng pháp tiền xử lý liệu cho toán nhận dạng 16 2.3.1 Trừ giá trị trung bình 17 2.3.2 Tiêu chuẩn hóa liệu .17 2.3.3 Phân tích thành phần (PCA) trình làm trắng (whitening) liệu .18 2.4 Phƣơng pháp Space-time Interest Points (STIP) .21 2.4.1 Phát điểm quan tâm 23 2.4.2 Phân lớp kiện 25 2.4.3 Ứng dụng vào diễn tả video .27 iv 2.4.4 Kết luận phương pháp STIP 28 2.5 Kết luận chƣơng 29 CHƢƠNG ỨNG DỤNG BÀI TOÁN NƠ-RON TÍCH CHẬP CHO NHẬN DẠNG HÀNH ĐỘNG .30 3.1 Giới thiệu tập liệu 30 3.1.1 Tóm tắt 30 3.1.2 Chi tiết liệu 30 3.2 Mạng nơ-ron tích chập nghiên cứu 34 3.2.1 Nguyên lý hoạt động 34 3.2.2 Tham số tối ưu 36 3.3 Kết nhận dạng 37 3.4 Chƣơng trình ứng dụng cho toán nhận dạng hành động 39 3.4.1 Lựa chọn tảng phát triển 39 3.4.2 Thành phần giao diện chương trình ứng dụng 39 3.5 Kết luận chƣơng 45 KẾT LUẬN HƢỚNG PHÁT TRIỂN .46 DANH MỤC TÀI LIỆU THAM KHẢO .47 PHỤ LỤC : GIỚI THIỆU PHẦN MỀM CAFFE .49 PHỤ LỤC 2: HƢỚNG DẪN CÀI ĐẶT PHẦN MỀM CAFFE 51 PHỤ LỤC 3: CÁCH CẤU HÌNH MẠNG NƠ-RON TÍCH CHẬP DÙNG CÔNG CỤ CAFFE 53 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ANN Artificial Neural Network BVLC Berkeley Vision and Learning Center Mạng nơ-ron hay mạng nơ-ron nhân tạo Trung tâm học tập tầm nhìn Berkeley CNNs Convolutional Neural Network Mạng nơ-ron tích chập CNN-3D ConvNets dimensional Mạng nơ-ron tích chập chiều CUDA Compute Unified Device Architecture Central Processing Unit Kiến trúc thiết bị tính toán hợp Bộ xử lý trung tâm Fully Connected Lớp kết nối đầy đủ GPU Graphics Processing Unit Bộ xử lý đồ họa IDT Improving dense trajectories Quỹ đạo dày đặc MBH Motion Boundary Histogram Biểu đồ vùng chuyển động PCA Principal Component Analysis Phân tích thành phần CPU FC Processing Elements Thành phần xử lý (nơ-ron) STIP Space-time Interest Points Điểm quan tâm không gian-thời gian RELU Rectified Linear Unit Lớp chuyển đổi SVM Support vector machine Máy hỗ trợ vecto PE vi DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình vẽ hình vẽ Trang 1-1 Hai mạng nơ-ron hình học 1-2 Kiến trúc tổng quát mạng nơ-ron nhân tạo 1-3 Sơ đồ truyền tín hiệu tham số mạng nơ-ron 1-4 Hàm tổng nơ-ron nhiều nơ-ron 1-5 Kiến trúc hoạt động mạng nơ-ron tích chập 1-6 Tính tích chập với lọc (filter) 1-7 Tính toán với phương pháp Maxpooling 10 1-8 Nguyên lý hoạt động mạng nơ-ron tích chập 11 2-1 Mô hình cấu trúc video 14 2-2 Minh họa kết phân đoạn video 15 2-3 Kênh tiền xử lý liệu phổ biến 17 2-4 PCA/Làm trắng 20 2-5 Minh họa toán biến đổi với hình ảnh CIFAR-10 20 Kết việc phát điểm quan tâm không gian-thời 2-6 gian dãy bóng đá cầu thủ đánh đầu bóng 2-7 2-8 2-9 2-10 2-11 22 Điểm quan tâm không gian-thời gian chuyển động chân người 24 Điểm quan tâm cho dãy với động tác vẫy tay 24 Các điểm quan tâm phát dãy người 26 Các láng giềng không gian – thời gian nội vùng điểm quan tâm tương ứng với bốn cụm cluster cư trú nhiều 26 Sự phối chọn chức liệu không gian – thời gian với chức mô hình 28 vii 3-1 Các khung mẫu cho lớp hành động UCF101 30 3-2 Các lớp hành động UCF101 32 Số lượng clip cho lớp hành động Việc phân phối thời 3-3 lượng clip minh họa màu sắc 33 3-4 Kiến trúc hoạt động mạng nơ-ron tích chập nghiên cứu 34 3-5 Cấu trúc mạng nơ-ron tích chập chiều (CNN-3D) 35 3-6 Tìm kiếm tham số thời gian cho mạng 3D 37 3-7 Giao diện chạy chương trình XAMPP Ubuntu 39 3-8 Giao diện chạy chương trình mạng nơ-ron tích chập 3D 40 3-9 Giao diện chương trình ứng dụng 41 3-10 Giao diện truy nhập vào chương trình nhận dạng 41 3-11 Giao diện ban đầu chương trình nhận dạng hành động 42 3-12 Giao diện chọn tải video hành động Biking để nhận dạng 42 3-13 Giao diện nhận dạng hành động Biking 43 Giao diện chọn tải video hành động ApplyLipstick để nhận 3-14 dạng 43 3-15 Giao diện nhận dạng hành động ApplyLipstick 44 Giao diện chọn tải video hành động BabyCrawing để nhận 3-16 dạng 44 3-17 Giao diện nhận dạng hành động BabyCrawing 45 viii DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 3-1 Tóm tắt đặc tính UCF101 33 3-2 Nhận dạng hành động UCF101 38 42 Hình 3-11: Giao diện ban đầu chƣơng trình nhận dạng hành động Hình 3-12: Giao diện chọn tải video hành động Biking để nhận dạng 43 Hình 3-13: Giao diện nhận dạng hành động Biking Hình 3-14: Giao diện chọn tải video hành động ApplyLipstick để nhận dạng 44 Hình 3-15: Giao diện nhận dạng hành động ApplyLipstick Hình 3-16: Giao diện chọn tải video hành động BabyCrawing để nhận dạng 45 Hình 3-17: Giao diện nhận dạng hành động BabyCrawing 3.5 Kết luận chƣơng Chương trình bày chi tiết liệu sử dụng cho chương trình ứng dụng, kiến trúc nguyên lý hoạt động mạng nơ-ron tích chập nghiên cứu Công cụ để huấn luyện mạng nơ-ron tích chập kết demo chương trình ứng dụng thực nghiệm 46 KẾT LUẬN HƢỚNG PHÁT TRIỂN Chương trình thực nghiệm nhận dạng hành động đoạn video ngắn với phương pháp trình bày luận văn đạt số điểm: - Học phương pháp nhận dạng với độ xác cao - Nắm đặc điểm toán nhận dạng nói chung nhận dạng hành động video nói riêng - Tìm hiểu số phương pháp nhận dạng hành động video, nắm ưu nhược điểm phương pháp - Demo thử nghiệm thành công liệu mẫu với tỉ lệ nhận dạng xác 78,3% Hướng phát triển toán: - Nhận dạng nhiều hành động video - Ứng dụng vào toán nhận dạng hành động video thu nhận từ liệu camera điều tra tội phạm, giám sát an ninh giao thông… 47 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] A Krizhevsky, I Sutskever, and G Hinton Imagenet classification with deep convolutional neural networks In NIPS, 2012 1, [2] A Blake and M Isard Condensation – conditional density propagation for visual tracking IJCV, 29(1):5–28, August 1998 [3] A M Baumberg and D.C Hogg Generating spatiotemporal models from examples Image and Vision Computing, 14(8):525–532, August 1996 [4] C Schmid and R Mohr Local grayvalue invariants for image retrieval IEEEPAMI, 19(5):530–535, May 1997 [5] D Hall, V.C de Verdiere, and J.L Crowley Object recognition using coloured receptive fields In Proc ECCV, volume 1842 of Lecture Notes in Computer Science, pages I:164–177, Dublin, Ireland, 2000 Springer Verlag, Berlin [6] D B Kris M Kitani, Brian D Ziebart and M Hebert Activity forecasting In ECCV, 2012 [7] Du Tran1,2, Lubomir Bourdev1, Rob Fergus1, Lorenzo Torresani2, Manohar Paluri2… Learning Spatiotemporal Features with 3D Convolutional Networks [8] H Wang and C Schmid Action recognition with improved trajectories In ICCV, 2013 2, 5, 7, [9] I Laptev and T Lindeberg Space-time interest points In ICCV, 2003 1, [10] J.L Barron, D.J Fleet, and S.S Beauchemin Performance of optical flow techniques IJCV, 12(1):43–77, February 1994 [11] J Malik, S Belongie, J Shi, and T Leung Textons, contours and regions: Cue integration in image segmentation In Proc ICCV, pages 918–925, Corfu, Greece, 1999 [12] Moez Baccouche1,2, Franck Mamalet1, Christian Wolf2, Christophe Garcia2, and Atilla Baskurt2, Sequential Deep Learning for Human Action Recognition 48 [13] M Weber, M Welling, and P Perona Unsupervised learning of models for visual object class recognition In Proc ECCV, volume 1842 of Lecture Notes in Computer Science, pages I:18–32, Dublin, Ireland, 2000 Springer Verlag, Berlin [14] S.M Smith and J.M Brady ASSET-2: Real-time motion segmentation and shape tracking IEEE-PAMI, 17(8):814–820, 1995 [15] Qing Li1, Zhaofan Qiu1, Ting Yao2, Tao Mei2, Yong Rui2, Jiebo Luo3 Action Recognition by Learning Deep Multi-Granular Spatio-Temporal Video Representation [16] T Leung and J Malik Representing and recognizing the visual appearance of materials using three-dimensional textons IJCV, 43(1):29–44, June 2001 [17] Y Jia, E Shelhamer, J Donahue, S Karayev, J Long, R Girshick, S Guadarrama, and T Darrell Caffe: Convolutional architecture for fast feature embedding arXiv preprint arXiv:1408.5093, 2014 1, Danh mục Website tham khảo [18] Bài toán nhận dạng đối tượng chuyển động video, http://doan.edu.vn/doan/bai-toan-nhan-dang-doi-tuong-chuyen-dong-trong-video-29567/ [19] Ông Xuân Hồng, (2015) Convolutional Neural Networks, https://ongxuanhong.wordpress.com/2015/12/29/convolutional-neural-networks-lagi/ [20] http://nhiethuyettre.me/mang-no-ron-tich-chap-convolutional-neural-network/, truy nhập 01/2017 [21] Tổng quan mạng nơ-ron, http://bis.net.vn/forums/t/482.aspx [22] http://cs231n.github.io/, truy nhập 11/2016 [23] http://cs231n.stanford.edu/syllabus.html, truy nhập 11/2016 [24] https://www.youtube.com/watch?v=I-i1KBuShCc&list=PLlJyeBtNFt6EuMxFYRiNRS07MCWN5UIA&index=14, truy nhập 11/2016 [25] http://crcv.ucf.edu/data/UCF101.php, truy nhập 01/2017 49 PHỤ LỤC : GIỚI THIỆU PHẦN MỀM CAFFE Phần mềm Caffe cung cấp cho nhà khoa học nhà thực hành đa phương tiện, công cụ tốt thay đổi cho thuật toán học máy hàng đầu giới sưu tập mô hình học máy tham khảo Phần mềm viết C ++ kết hợp với Python MATLAB để huấn luyện, triển khai mạng nơ-ron tích chập tổng quát mô hình học máy hiệu kiến trúc chung Caffe đáp ứng với nhu cầu ngành công nghiệp phương tiện truyền thông Internet dựa CUDA GPU, xử lý 40 triệu hình ảnh ngày máy K40 Titan GPU đơn (≈ 2,5 ms hình ảnh) Bằng cách dùng mô hình đại diện, Caffe cho phép thử nghiệm chuyển đổi liền mạch tảng để dễ dàng phát triển triển khai từ dựng mô hình giải pháp đến triển khai môi trường đám mây Caffe trì phát triển Trung tâm học tập tầm nhìn Berkeley (BVLC) với trợ giúp cộng đồng mã nguồn mở, đóng góp tích cực GitHub, cho phép triển khai nhanh dự án nghiên cứu, ứng dụng công nghiệp quy mô lớn, dự án khởi nghiệp lĩnh vực vision (thị giác), speed (tiếng nói) đa phương tiện Một vấn đề quan trọng phân tích liệu đa phương tiện phát biểu tượng giới thiệu hiệu cho đầu vào giác quan-hình ảnh, sóng âm thanh, haptics Trong năm gần tính thủ công cải tiến, phát triển kiến trúc cấu trúc học sâu làm tăng hiệu suất nhận dạng Các mô hình học sâu vượt trội tính kỹ thuật mô tả tay nhiều lĩnh vực làm cho việc học xảy lĩnh vực mà tính thiết kế thiếu hoàn toàn Các mạng nơ-ron tích chập CNNs, huấn luyện qua lớp lọc tích chập hoạt động khác chỉnh lưu pooling Sau thành công ban đầu phân loại số thập niên 90, mô hình gần vượt qua tất phương pháp nhận dạng hình ảnh quy mô lớn công ty lớn Google, Facebook Baidu nghiên cứu tìm hiểu 50 Trong mạng nơ-ron học sâu thu hút quan tâm tầm nhìn máy vi tính xa hơn, việc chép kết công bố liên quan đến công việc hàng tháng nhà nghiên cứu kỹ sư Đôi nhà nghiên cứu cho đáng giá để phát hành mô hình đào tạo với việc quảng cáo báo hiệu suất họ Tuy nhiên, mô hình đào tạo không đủ để nghiên cứu ứng dụng thương mại lên, hộp công cụ thực đưa mô hình đại thực - mô hình thường không hiệu mặt tính toán không phù hợp với triển khai thương mại Để giải vấn đề vậy, phần mềm Caffe - khuôn khổ mã nguồn mở hoàn toàn cho phép truy cập rõ ràng vào kiến trúc sâu Mã viết ngôn ngữ C + + gọn gàng, hiệu quả, với CUDA sử dụng để tính GPU, gần hoàn thành, hỗ trợ kết hợp với Python / Numpy MATLAB Caffe tuân thủ thực tiễn tốt kỹ thuật phần mềm, cung cấp kiểm tra đơn vị tính đắn nghiêm khắc thử nghiệm tốc độ triển khai Caffe phù hợp để sử dụng nghiên cứu, tính mô đun cẩn thận luật, tách biệt rõ ràng mạng lưới (thường phần nghiên cứu sâu) từ thực thực tế Trong Caffe, nhà khoa dụng để tính GPU, gần hoàn thành, hỗ trợ kết hợp với Python / Numpy MATLAB Caffe tuân thủ thực tiễn tốt kỹ thuật phần mềm, cung cấp kiểm tra đơn vị tính đắn nghiêm cầu ngành công nghiệp cách đạt tốc độ xử lý 40 triệu hình ảnh ngày K40 Titan GPU đơn Các mô hình tương taffe, nhà khoa dụng để tính GPU, vàhiều phần cứng khác nhau: Caffe tách biệt biểu khỏi thực tế chuyển đổi liền mạch tảng không đồng thúc đẩy phát triển triển khai Caffe, chí chạy đám mây Mặc dù Caffe thiết kế cho toán thị giác, người sử dụng chấp nhận cải tiến nhận dạng tiếng nói, người máy, thần kinh học thiên văn học Hy vọng xu hướng tiếp tục để ngành khoa học công nghiệp khác tận dụng việc học sâu rộng 51 PHỤ LỤC 2: HƢỚNG DẪN CÀI ĐẶT PHẦN MỀM CAFFE Cài đặt phần mềm Caffe hệ điều hành Ubuntu phiên 14.04: Phụ thuộc chung sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler sudo apt-get install no-install-recommends libboost-all-dev CUDA: Cài đặt apt-get gói NVIDIA run Gói NVIDIA theo phiên trình điều khiển thư viện gần hơn, nhiên trình cài đặt hướng dẫn nhiều Nếu cài đặt từ gói, ta cài đặt riêng thư viện trình điều khiển BLAS: cài đặt ATLAS sudo apt-get cài đặt libatlas-base-dev cài đặt OpenBLAS MKL để có hiệu suất CPU tốt Python (tùy chọn): sử dụng Python mặc định, cần phải sudo apt-get cài đặt gói python-dev có tiêu đề Python để xây dựng giao diện pycaffe Các phụ thuộc lại, 14.04 Mọi thứ đóng gói vào 14.04 sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev Biên dịch Caffe biên dịch với Make CMake Thực thức hỗ trợ CMake cộng đồng hỗ trợ Biên dịch với Make Định cấu hình xây dựng cách chép sửa đổi ví dụ Makefile.config cho thiết lập Mặc định nên làm việc, bỏ ghi dòng liên quan sử dụng Anaconda Python cp Makefile.config.example Makefile.config # Adjust Makefile.config (for example, if using Anaconda Python, or if cuDNN is desired) make all make test make runtest 52 * Đối với CPU & GPU tăng tốc Caffe, không cần thay đổi * Đối với tăng tốc cuDNN phần mềm cuDNN sở hữu NVIDIA, bỏ ghi USE_CUDNN: = vào Makefile.config CuDNN lúc nhanh tốc độ GPU Caffe * Đối với Caffe CPU, bỏ ghi CPU_ONLY: = Makefile.config Để biên dịch gói Python MATLAB làm pycaffe matcaffe tương ứng Đảm bảo thiết lập đường dẫn MATLAB Python Makefile.config trước! Phân phối: chạy tạo phân phối để tạo thư mục phân phối với tất tiêu đề Caffe, thư viện biên soạn, nhị phân, vv cần thiết để phân phối tới máy khác Tốc độ: để xây dựng nhanh hơn, biên dịch song song cách thực tạo tất -j8 số lượng luồng song song để biên dịch (một lựa chọn tốt cho số lượng chủ đề số lõi máy bạn) Xây dựng CMake Thay Makefile.config tự biên tập để cấu hình xây dựng, Caffe cung cấp CMake xây dựng không thức nhờ @ Nerei, @akosiorek, thành viên khác cộng đồng Nó đòi hỏi phiên CMake> = 2.8.7 Các bước sau: mkdir build cd build cmake make all make install make runtest 53 PHỤ LỤC 3: CÁCH CẤU HÌNH MẠNG NƠ-RON TÍCH CHẬP DÙNG CÔNG CỤ CAFFE Mô hình ứng dụng luận văn sử dụng cấu trúc mạng nơ-ron tích chập chiều (3D) gồm có lớp tích chập (Convolution), lớp tổng hợp (pooling), lớp kết nối đầy đủ (full-connect) theo sau lớp đầu (softmax) Tất lọc tích chập 3D 3x3x3 với bước trượt chiều không gian thời gian (xem hình 3-5) Số lọc biểu hộp Các lớp 3D tổng hợp biểu từ pool1 đến pool5 Tất nhân tổng hợp 2x2x2, ngoại trừ pool1 1x2x2 Mỗi lớp kết nối đầy đủ có 4096 kết đầu Mỗi lớp mô hình cấu trúc cấu hình phần mềm Caffe có định dạng trình bày file “cnn_3d_ucf101_deploy.prototxt” (là file text cho phép khai báo tất lớp) sau: # - 1st layer group layers { name: "conv1a" type: CONVOLUTION3D bottom: "data" top: "conv1a" blobs_lr: blobs_lr: weight_decay: weight_decay: convolution_param { num_output: 64 kernel_size: kernel_depth: pad: temporal_pad: weight_filler { type: "gaussian" std: 0.01 } bias_filler { type: "constant" value: } } } layers { name: "relu1a" type: RELU bottom: "conv1a" top: "conv1a" } layers { name: "pool1" type: POOLING3D bottom: "conv1a" top: "pool1" pooling_param { pool: MAX kernel_size: kernel_depth: stride: temporal_stride: } } 54 # - 2nd layer group -layers { name: "conv2a" type: CONVOLUTION3D bottom: "pool1" top: "conv2a" blobs_lr: blobs_lr: weight_decay: weight_decay: convolution_param { num_output: 128 kernel_size: kernel_depth: pad: temporal_pad: weight_filler { type: "gaussian" std: 0.01 } bias_filler { type: "constant" value: } } } layers { name: "relu2a" type: RELU bottom: "conv2a" top: "conv2a" } layers { name: "pool2" type: POOLING3D bottom: "conv2a" top: "pool2" pooling_param { pool: MAX kernel_size: kernel_depth: stride: temporal_stride: } } # - 3rd layer group layers { name: "conv3a" type: CONVOLUTION3D bottom: "pool2" top: "conv3a" blobs_lr: blobs_lr: weight_decay: weight_decay: convolution_param { num_output: 256 kernel_size: kernel_depth: pad: temporal_pad: weight_filler { type: "gaussian" std: 0.01 } bias_filler { type: "constant" value: } } } layers { name: "relu3a" type: RELU bottom: "conv3a" top: "conv3a" } layers { name: "conv3b" type: CONVOLUTION3D bottom: "conv3a" top: "conv3b" blobs_lr: blobs_lr: weight_decay: weight_decay: convolution_param { num_output: 256 kernel_size: kernel_depth: 55 pad: temporal_pad: weight_filler { type: "gaussian" std: 0.01 } bias_filler { type: "constant" value: } } } layers { name: "relu3b" type: RELU bottom: "conv3b" top: "conv3b" } layers { name: "pool3" type: POOLING3D bottom: "conv3b" top: "pool3" pooling_param { pool: MAX kernel_size: kernel_depth: stride: temporal_stride: } } Lớp 4, tương tự Cấu hình tham số lớp Full-connect lớp Softmax: # fc layers layers { name: "fc6" type: INNER_PRODUCT bottom: "pool5" top: "fc6" blobs_lr: blobs_lr: weight_decay: weight_decay: inner_product_param { num_output: 4096 weight_filler { type: "gaussian" std: 0.005 } bias_filler { type: "constant" value: } } } layers { name: "relu6" type: RELU bottom: "fc6" top: "fc6" } layers { name: "drop6" type: DROPOUT bottom: "fc6" top: "fc6" dropout_param { dropout_ratio: 0.5 } } layers { name: "fc7" type: INNER_PRODUCT bottom: "fc6" top: "fc7" blobs_lr: blobs_lr: weight_decay: weight_decay: inner_product_param { num_output: 4096 weight_filler { type: "gaussian" std: 0.005 } bias_filler { type: "constant" value: } } } 56 layers { name: "relu7" type: RELU bottom: "fc7" top: "fc7" } layers { name: "drop7" type: DROPOUT bottom: "fc7" top: "fc7" dropout_param { dropout_ratio: 0.5 } } layers { name: "fc8" type: INNER_PRODUCT bottom: "fc7" top: "fc8" blobs_lr: blobs_lr: weight_decay: weight_decay: inner_product_param { num_output: 101 weight_filler { type: "gaussian" std: 0.01 } bias_filler { type: "constant" value: } } } layers { name: "prob" type: SOFTMAX bottom: "fc8" top: "prob" } ... Nghiên cứu mạng nơ-ron mạng nơ-ron tích chập Chƣơng 2: Bài toán nhận dạng hành động video Chƣơng 3: Ứng dụng toán nơ-ron tích chập cho nhận dạng hành động 2 CHƢƠNG NGHIÊN CỨU MẠNG NƠ-RON VÀ MẠNG NƠ-RON... công nghệ nhận dạng hành động mới, đồng thời có ứng dụng thực tiễn nghành công tác thân Em mạnh dạn chọn đề tài Mạng nơ-ron tích chập ứng dụng giải toán nhận dạng hành động đoạn video ngắn để... - LÊ THỊ LỆ DUYÊN MẠNG NƠ-RON TÍCH CHẬP VÀ ỨNG DỤNG GIẢI BÀI TOÁN NHẬN DẠNG HÀNH ĐỘNG TRONG MỘT ĐOẠN VIDEO NGẮN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI

Ngày đăng: 30/10/2017, 15:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan