1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng học sâu và ứng dụng bài 3 giới thiệu về mạng tích chập conv neural networks

48 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 12,27 MB

Nội dung

Chương Giới thiệu mạng tích chập Conv Neural Networks Lịch sử CNNs • Ý tưởng CNNs xuất phát từ cơng trình Fukushima năm 1980 Lịch sử CNNs • Năm 1998, LeCun áp dụng BackProp huấn luyện mạng CNNs cho toán nhận dạng văn Lịch sử CNNs • Năm 2012, CNNs gây tiếng vang lớn vô địch thi ILSRC 2012, vượt xa phương pháp đứng thứ theo cách tiếp cận thị giác máy tính truyền thống Lịch sử CNNs • Hiện CNNs ứng dụng khắp nơi, ví dụ tốn phân loại ảnh, truy vấn ảnh Lịch sử CNNs • Ứng dụng CNNs toán phát đối tượng, phân đoạn ảnh Lịch sử CNNs • Ứng dụng CNNs nhận dạng dáng người (human pose), trò chơi… Lớp tích chập • Khác với nơ-ron kết nối đầy đủ, nơ-ron tích chập (filter) kết nối cục với liệu đầu vào • Nơ-ron tích chập trượt từ trái sang phải từ xuống khối liệu đầu vào tính tốn để sinh đồ kích hoạt (activation map) • Chiều sâu nơ-ron tích chập chiều sâu khối liệu đầu vào Lớp tích chập … • Bước nhảy stride = • Đầu vào kích thước 7x7, nơ-ron kích thước 3x3 • Đầu kích thước 5x5 10 GoogleNet • 22 lớp • Khối “Inception” • Khơng có lớp kết nối đầy đủ (FC layers) • Chỉ triệu tham số! • Vơ địch tác vụ phân loại ảnh ILSVRC’14 (6.7% top error) [Szegedy et al., 2014] 34 GoogleNet - Nạve Inception Model • Số lượng pháp tích chập: • 1x1 conv, 128: 28x28x128x1x1x256 • 3x3 conv, 192: 28x28x192x3x3x256 • 5x5 conv, 96: 28x28x96x5x5x256 • Tổng cộng: 854M ops ==> Tính tốn nặng! Filter concatenation 1x1 conv 128 3x3 conv 192 5x5 conv 96 3x3 max pooling Previous layer 28x28x256 [Szegedy et al., 2014] 35 GoogleNet • Giải pháp: lớp nút cổ chai “bottleneck” sử dụng conv 1x1 để giảm chiều sâu khối liệu Filter concatenation 1x1 convolution 3x3 convolution 5x5 convolution 1x1 convolution 1x1 convolution 1x1 convolution 3x3 max pooling Previous layer [Szegedy et al., 2014] 36 • Số lượng phép tốn tích chập: 1x1 conv, 64: 28x28x64x1x1x256 1x1 conv, 64: 28x28x64x1x1x256 1x1 conv, 128: 28x28x128x1x1x256 3x3 conv, 192: 28x28x192x3x3x64 5x5 conv, 96: 28x28x96x5x5x264 1x1 conv, 64: 28x28x64x1x1x256 Tổng số: 353M ops Filter concatenation 1x1 conv 128 3x3 conv 192 5x5 conv 96 1x1 conv 64 1x1 conv 64 1x1 conv 64 3x3 max pooling Previous layer 28x28x256 • So với 854M ops với khối inception thường [Szegedy et al., 2014] 37 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 38 ResNet • Deep Residual Learning for Image Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; 2015 • Mạng sâu, tới 152 lớp • Mạng sâu khó huấn luyện • Mạng sâu chịu nhiều ảnh hưởng vấn đề triệt tiêu bùng nổ gradient • ResNet đề xuất phương pháp học phần dư (residual learning) cho phép huấn luyện hiệu mạng sâu nhiều so với mạng xuất trước [He et al., 2015] 39 ResNet • Vơ địch tác vụ phân loại ILSVRC’15 (3.57% top error, sai số người khoảng 5.1%) • Càn quét tất thi phân loại ảnh ILSVRC’15 COCO’15! [He et al., 2015] 40 ResNet • Điều xảy tăng độ sâu mạng nơ-ron? • Mạng 56 lớp làm việc tập huấn luyện lẫn tập test (không phải overfitting gây ra) • Hiện tượng suy biến mạng sâu [He et al., 2015] 41 ResNet • Giả thiết: Vấn đề chỗ toán tối ưu Mạng sâu khó để tối ưu • Giải pháp: Dùng lớp mạng để học biểu diễn phần dư (sự sai khác đầu đầu vào) thay học trực tiếp đầu trước • Học biểu diễn phần dư F(x) = H(x) – x thay học trực tiếp H(x) [He et al., 2015] 42 ResNet • Kiến trúc ResNet đầy đủ: • Chồng khối phần dư residual blocks • Mỗi khối có hai lớp 3x3 conv • Định kỳ tăng gấp đôi số lượng filter giảm độ phân giải conv bước nhảy stride • Lớp conv phụ đầu mạng • Khơng có lớp FC cuối (chỉ có lớp FC 1000 để xuất kết phân loại 1000 lớp) [He et al., 2015] 43 ResNet • Độ sâu mạng tham gia thi ImageNet: 34, 50, 101, 152 • Với mạng sâu (ResNet-50+), tác giả dùng lớp “bottleneck” để tăng hiệu (tương tự GoogLeNet) [He et al., 2015] 44 Recent SOTA Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 45 Recent SOTA 46 Accuracy comparison The best CNN architecture that we currently have and is a great innovation for the idea of residual learning 47 Tài liệu tham khảo Khóa học Intro to DL MIT: http://introtodeeplearning.com/ Khóa học cs231n Stanford: http://cs231n.stanford.edu/ 48 ... 3x3 conv, 64 3x3 conv, 64 Pool 1/2 3x3 conv, 128 3x3 conv, 128 Pool 1/2 3x3 conv, 256 3x3 conv, 256 Pool 1/2 3x3 conv, 512 3x3 conv, 512 3x3 conv, 512 Pool 1/2 3x3 conv, 512 3x3 conv, 512 3x3... 3x3 conv, 128 3x3 conv, 128 Pool 3x3 conv, 256 3x3 conv, 256 3x3 conv, 256 Pool 3x3 conv, 512 3x3 conv, 512 3x3 conv, 512 Pool 3x3 conv, 512 3x3 conv, 512 3x3 conv, 512 Pool FC 4096 FC 4096 FC... Nhưng sâu hơn, nhiều lớp phi tuyến • Và tham số hơn: * (32 C2) vs 72C2 với C số kênh lớp conv [Simonyan and Zisserman, 2014] conv conv 30 Input 3x3 conv, 64 3x3 conv, 64 Pool 3x3 conv, 128 3x3 conv,

Ngày đăng: 16/02/2022, 23:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN