Phân chia một hình ảnh thành nhiều vùng ảnh khác nhau nhằm phát hiện ra vùng ảnh chứa vật thể và gán nhãn dự báo đến từng pixel Input của bài toán là một bức ảnh và output là một ma trận mask mà giá trị của từng pixel đã được gãn nhãn trên đó
DeepLab Sentiment Segmentation Liang-Chieh Chen George Papandreou Florian Schroff Hartwig Adam I Giới thiệu Những kiến trúc Image Segmentation đại kiến trúc SOTA Hệ thống 'DeepLabv3' đề xuất cải thiện đáng kể so với phiên DeepLab trước mà không cần xử lý hậu kỳ DenseCRF đạt biểu diễn với mơ hình đại khác Hãy khám phá DeepLab V1+V2 DeepLab V3, đặc điểm kiến trúc mạng kỹ thuật áp dụng bên Trong cơng trình này, xem xét lại Atrous Convolution, công cụ mạnh mẽ với vùng nhận thức lớn để điều chỉnh tầm nhìn lọc kiểm sốt độ phân giải phản hồi tính tính tốn Deep Convolutional Neural Network , việc áp dụng phân vùng hình ảnh Đây kiến trúc áp dụng cách linh hoạt tích chập Atrous thay phương pháp trước áp dụng Transposed Convolution Bên cạnh tác giả áp dụng phương pháp Conditional Random Field để tinh chỉnh kết dự báo chuẩn xác DeepLabV1 V2 khơng có khác biệt nhiều Khoảng trống tích chập, cịn gọi tích chập giãn, cho phép để sử dụng lại ImageNet [72] mạng đào tạo trước để trích xuất đồ đối tượng vị trí dày đặc cách loại bỏ hoạt động lấy mẫu xuống từ vài lớp cuối lấy mẫu lên hạt nhân lọc tương ứng, tương đương với việc chèn lỗ trọng số lọc Atrous Convolution với kích thước hạt nhân × khác giá Standard Convolution tương ứng với atrous convolution với tỷ lệ = Sử dụng giá trị lớn tỷ lệ bạo lực mở rộng trường nhìn mơ hình, cho phép mã hóa đối tượng nhiều tỷ lệ Cuối cùng, mơ hình đề xuất chúng tơi, ‘DeepLabv3’ cải thiện so với cơng trình trước [10, 11] đạt hiệu suất 85,7% thử nghiệm PASCAL VOC 2012 mà không cần xử lý DenseCRF II DeepLab V1+V2 Kiến trúc chung DeepLab V1+V2 Chúng ta giải thích qua công dụng phần mạng DeepLab: Các thành phần DeepLab model theo hướng mũi tên từ xuống từ trái qua phải bao gồm: Input -> DCNN -> Score Map -> bilinear interpolation -> Fully Connected CRF -> mask output Đầu tiên ảnh đầu vào truyền vào mạng CNN học sâu nhiều tầng (DCNN - Deep Convolutional Neural Network) Nhiệm vụ DCNN tạo feature map biểu diễn không gian đặc trưng ảnh đầu vào Trong DCNN sử dụng tích chập Atrous để trích lọc đặc trưng thay tích chập CNN thơng thường Tích chập Atrous có tác dụng đặc biệt so với tích chập CNN tầm nhìn (field of view) mở rộng hơn, không làm giảm chiều feature map sâu mà giữ số lượng tham số chi phí tính tốn tương đương với tích chập CNN Sau mạng DCNN ta thu feature map đồ đặc trưng ảnh đầu vào Aeroplane Coarse Score map hình vẽ Score map có kích thước nhỏ nhiều so với ảnh gốc Chúng ta sử dụng Bi-linear Interpolation để resize lại score map kích thước gốc Bố cục ảnh sau resize không khác so với ảnh gốc, thay đổi kích thước Để tạo feature map dự báo áp dụng layer kết nối toàn (Fully Connected Layer) kết hợp với phương pháp Conditional Random Field, phương pháp thuộc nhóm mơ hình đồ thị xác suất (Probabilistic Graphical Model) để chuẩn hóa lại nhãn cho pixels Sau chuẩn hóa, từ score map thu final output có đường biên vùng ảnh trở nhên rõ ràng 2 Atrous Convolution Atrous có nghĩa trous từ tiếng Pháp tương ứng với từ hole tiếng anh ám có khoảng trống tích chập Tích chập thường sử dụng tín hiệu sóng Nội dung tương tự Dilation Convolution thuật toán Image Segmentation đại đa phân sử dụng Atrous Convolution thay cho Dilation Convolution, thực tế hai khái niệm tương đương Tích chập atrous cho phép trích lọc đặc trưng mật đồ dày thơng tin bảo tồn tốt cho đối tượng kích thước khác Chúng ta khái quát Atrous Convolution trường hợp tổng quát thông qua công thức: Ý nghĩa công thức là: Với cell output , tích chập atrous tính tốn cách nhân tích chập lọc với feature map Ở atrous rate tương ứng với khoảng cách mà ta giãn cách dòng cột giá trị 0, atrous rate giãn cách dịng cột liên tiếp dịng, cột Tích chập thơng thường (bên trên) tích chập atrous (bên dưới) với ảnh x Các ô màu xám ảnh gốc, màu trắng padding dòng, cột thêm vào màu xanh nước biển vùng nhận thức (receptive field) nhân tích chập Bên phải ngồi mơ tả phép chiếu lát cắt theo width q trình thực tích chập bước Ta thấy tích chập atrous vị trí receptive field giãn cách cell chất tích chập với lọc x thực vùng rộng x Tích chập thơng thường kích thước receptive field với kích thước lọc x Kết output cho thấy tích chập astrous tăng kích thước feature map từ 3x3 lên 5x5 Để thực tích chập atrous hình minh họa giãn cách pixels ảnh gốc cách thêm dịng cột xen kẽ Sau ta thêm padding phía trái, phải, Thực di chuyển tích chập cell theo chiều từ trái qua phải từ xuống vùng receptive field kích thước x giãn cách thành x Cuối ta thu output có kích thước x Như tích chập astrous có tác dụng: Tăng kích thước output so với input Vùng nhận thức lớn giúp mở rộng tầm nhìn lọc phù hợp với bối cảnh rộng Đây chế cho phép kiểm sốt tầm nhìn vùng nhận thức tìm đánh đổi hợp lý độ xác cục (áp dụng với tầm nhìn hẹp) đồng bối cảnh (áp dụng với tầm nhìn rộng) Title Lorem Ipsum Dolor Lorem ipsum dolor sit amet, consectetuer Nunc viverra imperdiet enim Fusce est Vivamus a Lorem ipsum dolor sit amet, consectetuer adipiscing elit tellus adipiscing elit ... Image Segmentation đại kiến trúc SOTA Hệ thống 'DeepLabv3' đề xuất cải thiện đáng kể so với phiên DeepLab trước mà không cần xử lý hậu kỳ DenseCRF đạt biểu diễn với mơ hình đại khác Hãy khám phá DeepLab. .. xuất chúng tơi, ‘DeepLabv3’ cải thiện so với cơng trình trước [10, 11] đạt hiệu suất 85,7% thử nghiệm PASCAL VOC 2012 mà không cần xử lý DenseCRF II DeepLab V1+V2 Kiến trúc chung DeepLab V1+V2... DeepLab V1+V2 Kiến trúc chung DeepLab V1+V2 Chúng ta giải thích qua cơng dụng phần mạng DeepLab: Các thành phần DeepLab model theo hướng mũi tên từ xuống từ trái qua phải bao gồm: Input -> DCNN ->