Slide thuyết trình: Đồ án tốt nghiệp: Bài toán phân vùng ngữ nghĩa trên ảnh_semantic segmentation

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	5,95 MB
File đính kèm	Slide_semantic_segmentation.rar (6 MB)

Nội dung

Slide thuyết trình về bài toán phân vùng ngữ nghĩa trên ảnh_ sematic segmentation. Slide trình bày về một số phương pháp tiên tiến cho bài toàn trên và phương pháp thử nghiệm _ phương pháp Deeplab V3 plus trên tập ảnh mẫu.

ĐỒ ÁN TỐT NGHIỆP Tìm hiểu thử nghiệm phương pháp tiên tiến cho toán phân vùng ngữ nghĩa Sinh viên thực hiện: Nguyễn Thị Phương Hằng Giảng viên hướng dẫn: TS.Nguyễn Thị Oanh NỘI DUNG Tổng quan toán phân vùng ngữ nghĩa Một số phương pháp cho toán Cài đặt thử nghiệm, kết đánh giá Kết luận hướng phát triển Giới thiệu toán phân vùng ngữ nghĩa  Liên kết điểm ảnh với nhãn lớp tương ứng mà thuộc về, khơng quan tâm tới đối tượng  Phân biệt toán phân vùng ngữ nghĩa với số toán xử lý ảnh Ứng dụng toán thực tế Trong y tế Trong thị giác robot Trong giao thông Hỗ trợ giải vấn đề nóng giới thị hóa, nước biển dâng, cháy rừng, Mục tiêu đồ án tốt nghiệp  Tìm hiểu phương pháp tiếp cận tốn sử dụng mạng noron tích chập  Lựa chọn phương pháp cài đặt  Tiến hành cài đặt, thử nghiệm đánh giá NỘI DUNG Tổng quan toán phân vùng ngữ nghĩa Một số phương pháp cho toán Cài đặt thử nghiệm, kết đánh giá Kết luận hướng phát triển Phương pháp dựa mạng noron tích chập • Mơ hình chung: Encoder- decoder • Encoder: Mạng noron tích chập (VGG, Googlenet, Resnet, Xception,…) trích xuất đặc trưng • Decoder: Thực upsample nhằm khơi phục kích thước ảnh, số phương pháp unpooling, deconvolution, nội suy song tuyến tính,… Một số phương pháp upsampling Unpooling Deconvolution Tính nội suy chiều x: Tính theo chiều y: F(x,y) ~ f(x,y1) + f(x,y2) = f(Q11) + f(Q21)) + f(Q12) + f(Q22)) =f(Q11)(x2- x)(y2 -y) + f(Q21)(x-x1)(y2 -y) + f(Q12)(x2 -x)(y-y1) + f(Q22)(x-x1)(y-y1)) = Nội suy song tuyến tính Một số phương pháp cho toán FCN( fully convolutional network) biến đổi mạng VGG, sử dụng deconvolution gồm kiểu: FCN-32s FCN-16s FCN-8s Mơ hình FCN (1) Segnet - Sử dụng 13 tầng mạng VGG - Sử dụng unpooling Mô hình Segnet (2) Một số phương pháp cho tốn PSPnet - Nội suy song tuyến tính - Modun pyramid pooling để tổng hợp thông tin ngữ cảnh với cấp kernel 1x1, 2x2, 3x3, 6x6 Mơ hình PSPnet (3) DeeplabV1 & Deeplab V2 - atrous convolution Nội suy song tuyến tính Fully connected CRF Sự khác biệt mơ hình: Deeplab V2 sử dụng atrous Convolution Mơ hình deeplab V2 (4) 10 Kết tập pascal voc 2012 Mơ hình Kết (mIoU,%) Mạng CNN sử dụng Năm công bố FCN 67,2 VGG 2014 Segnet 59,9 VGG 2015 PSPnet 85,4 Resnet 2016 DeeplabV1 71,6 VGG 2014 DeeplabV2 79,7 Resnet 2016 DeeplabV3 85,7 Resnet 2017 DeeplabV3 plus 89 Xception 2018 12 NỘI DUNG Tổng quan toán phân vùng ngữ nghĩa Một số phương pháp cho toán Cài đặt thử nghiệm, kết đánh giá Kết luận hướng phát triển 13 Mơ hình cài đặt Encoder – Deeplab v3 plus • Dựa DeeplabV3, sử dụng Aligned Xception • Modun ASPP gồm có  (a) conv 1x1, conv 3x3 với rate = (6, 12, 18) Output Stride = 16  (b) global average pooling, conv 1x1 14 Mơ hình cài đặt Decoder - Deeplab v3 plus  conv 1x1 làm giảm số kênh đồ tính cấp thấp (channels=48) từ modun encoder  conv 3x3 dùng để có kết phân đoạn sắc nét  Sử dụng nội suy tuyến tính để upsampling Mơ hình deeplab V3 plus (5) 15 Mơi trường thử nghiệm  GPU KDE lab: GeForce GTX (11177MiB), NVIDIA-SMI 390.48  Google Colab: GPU Tesla K80 (11.17GiB), giới hạn 12 h 16 Dữ liệu thử nghiệm • Tập liệu ADE20K gồm 150 lớp lớp nền:  Training (20210 ảnh) wall building sky floor tree  ceiling road bed window grass ground door table mountain plant chair car water painting sofa Validation (2000 ảnh) 17 Quá trình huấn luyện • Chuyển ảnh gốc sang Tfrecord hỗ trợ Tensorflow để tăng tốc trình huấn luyện 18 Kết thu ADE20K: mIoU 29,03% 19 Kết thu 20 Kết thu 21 Đánh giá  Kết đạt tương đối thấp, thực tăng số lần huấn luyện song điều kiện phần cứng hạn chế  Một số nguyên nhân có sai khác:  Đối tượng ảnh kiểm tra khác với đối tượng, khơng có ảnh huấn luyện  Đối tượng mờ, không rõ ràng  Thời gian, số lần huấn luyện mơ hình chưa đủ để đạt kết tốt 22 NỘI DUNG Tổng quan toán phân vùng ngữ nghĩa Một số phương pháp cho toán Cài đặt thử nghiệm, kết đánh giá Kết luận hướng phát triển 23 Kết luận hướng phát triển  Ưu điểm: • Tìm hiểu mạng noron tích chập, tìm hiểu đánh giá số phương pháp cho toán phân vùng ngữ nghĩa • Tiến hành cài đặt đạt kết tập liệu ADE20K  Nhược điểm: Kết cần cải thiện thêm  Khó khăn: Điều kiện tài nguyên phần cứng hạn chế  Hướng phát triển: • Hướng tới xây dựng ứng dụng phân vùng ăn, thực trích 17 class tập food101, chuyển đổi liệu, tiến hành huấn luyện • Nghiên cứu cải thiện hướng tới mơ hình hiệu 24 Tài liệu tham khảo (1) Fully Convolutional Networks for Semantic Segmentation, Jonathan Long, Evan Shelhamer, Trevor Darrell (2) SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla (3) Pyramid Scene Parsing Network, Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia, 2017 (4) Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille (5) Rethinking Atrous Convolution for Semantic Image Segmentation, Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam,2017 Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam,2018 25 Cảm ơn thầy cô bạn lắng nghe! Thank you for listening 26

Ngày đăng: 03/07/2020, 22:39