Microsoft Word DATN NguyenDuyThang 5951071100 docx TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI ỨNG DỤNG PHÂN VÙNG ẢNH VÀ L[.]
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ THƠNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: ỨNG DỤNG PHÂN VÙNG ẢNH VÀ LẤP ĐẦY ẢNH TRONG BÀI TOÁN XÓA VẬT THỂ TỰ ĐỘNG Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH HIỂN Sinh viên thực hiện: NGUYỄN DUY THẮNG Lớp: CƠNG NGHỆ THƠNG TIN Khố: 59 Tp Hồ Chí Minh, năm 2022 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI TP HỒ CHÍ MINH BỘ MƠN CƠNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: ỨNG DỤNG PHÂN VÙNG ẢNH VÀ LẤP ĐẦY ẢNH TRONG BÀI TỐN XĨA VẬT THỂ TỰ ĐỘNG Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH HIỂN Sinh viên thực hiện: NGUYỄN DUY THẮNG Lớp: CƠNG NGHỆ THƠNG TIN Khố: 59 Tp Hồ Chí Minh, năm 2022 i Nguyễn Duy Thắng – K59 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH Độc lập – Tự – Hạnh phúc NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP BỘ MÔN: CÔNG NGHỆ THÔNG TIN *** Mã sinh viên: 5951071100 Họ tên SV: Nguyễn Duy Thắng Khóa: 59 Lớp: CQ.59.CNTT Tên đề tài: Ứng dụng phân vùng ảnh lấp đầy ảnh toán xoá vật thể tự động Mục đích, yêu cầu a Mục đích: Xây dựng tốn xóa vật thể tự động sử dụng mơ hình Phân vùng đối tượng mơ hình sinh ảnh Deep Learning b Yêu cầu: - Nghiên cứu tốn xóa vật thể tự động, ứng dụng thách thức thực tiễn Đồng thời, nghiên cứu cơng trình liên quan đến tốn, từ xây dựng pipeline cho tốn - Tìm hiểu kiến thức cần sử dụng tốn, áp dụng mơ hình tìm hiểu từ toán Phân vùng đối tượng sinh ảnh vào toán lớn - Thiết kế xây dựng tốn Xóa vật thể tự động Thực nghiệm, đánh giá kết hướng nghiên cứu tương lai Nội dung phạm vi đề tài a Nội dung đề tài - Giới thiệu toán xóa vật thể tự động, nêu thách thức ứng dụng toán thực tiễn Ngồi ra, tìm hiểu cơng trình liên quan đưa giải pháp tiếp cận hướng giải cho toán ii Nguyễn Duy Thắng – K59 - Tìm hiểu kiến thức Deep Learning Tìm hiểu tốn mơ hình áp dụng việc xây dựng toán lớn - Ứng dụng kiến thức tìm hiểu áp dụng vào thiết kế, xây dựng toán Tiến hành thực nghiệm đánh giá kết Từ đó, nêu hướng phát triển toán tương lai b Phạm vi đề tài: - Hình ảnh dạng png, jpg,… có kích thước Hình ảnh chứa đối tượng người, xe,… Đó đối tượng mà cần xóa - Phân vùng đối tượng sử dụng mơ hình segmentation DeepLab, FCN - Bài tốn sinh ảnh sử dụng mơ hình đề xuất EdgeConnect Công nghệ, công cụ ngôn ngữ lập trình a Cơng nghệ sử dụng - Python - Anaconda - Jupyter iii Nguyễn Duy Thắng – K59 b Công cụ - IDE: Visual Studio Code - Môi trường: Anaconda, jupyter c Ngơn ngữ lập trình - Python Các kết dự kiến đạt ứng dụng - Hoàn chỉnh báo cáo đề tài - Thiết kế xây dựng tốn Xóa vật thể tự động - Thực nghiệm, đánh giá kết hướng phát triển tương lai Giảng viên hướng dẫn: - Họ tên: Nguyễn Đình Hiển - Đơn vị công tác: Trường Đại học Công nghệ Thông tin - ĐHQG TP.HCM Điện thoại: 0918735299 Email: loveyou238us@gmail.com Ngày….tháng….năm 2021 Đã giao nhiệm vụ TKTN Trưởng BM Công nghệ Thông tin Giảng viên hướng dẫn ThS Trần Phong Nhã TS Nguyễn Đình Hiển Đã nhận nhiệm vụ TKTN Sinh viên: Nguyễn Duy Thắng Ký tên: Nguyễn Duy Thắng Điện thoại: 0853030531 Email: 5951071100@st.utc2.edu.vn iv Nguyễn Duy Thắng – K59 LỜI CẢM ƠN năm chặn đường! Bốn năm, khoảng thời gian không dài đời sinh viên, năm tháng nhiều kỉ niệm, có tự hào, vinh dự, có thành cơng có khơng khó khăn, thách thức, nhiều niềm vui có nhiều nỗi buồn Sau bốn năm, thời gian để em nhìn lại q trình gắn bó, nỗ lực trưởng thành UTC2 Thành phố Hồ Chí Minh mùa thu năm 2018, bầu trời hôm thật đẹp, khơng biết có phải niềm vui lịng khiến bầu trời thêm xanh hay không Đến phút này, sinh viên năm cuối, em cảm thấy thật may mắn trở thành sinh viên Khoa Cơng Nghệ Thơng Tin Khóa 59, làm việc người bạn, thầy cô mái trường thân yêu Đặc biệt, để có đồ án ngày hôm nay, em xin chân thành cảm ơn thầy Nguyễn Đình Hiển thầy giáo mơn tận tình hướng dẫn, dạy, góp ý; chia sẻ kiến thức, kinh nghiệm; giúp đỡ em suốt trình thực báo cáo chương trình, để đồ án tốt nghiệp em hồn thiện Em xin gửi lời cảm ơn sâu sắc đến người bạn, người anh chị hỗ trợ kiến thức chun mơn để em có đồ án ngày hôm Sự tận tâm nhiệt huyết người giúp em ngày trưởng thành hồn thiện Q trình thực đồ án em khơng tránh khỏi thiếu sót, mong nhận lời góp ý thầy để đồ án em cải thiện phát triển tương lai Em xin chân thành cảm ơn! TP Hồ Chí Minh, ngày … tháng … năm 2022 Sinh viên thực Nguyễn Duy Thắng v Nguyễn Duy Thắng – K59 TĨM TẮT ĐỒ ÁN Đồ án có cấu trúc nội dung sau: Chương 1: Giới thiệu – trình bày toán Xoá vật thể tự động, thách thức toán nay, đưa hướng tiếp cận cơng trình liên quan Chương 2: Nêu số lý thuyết sở, tổng quan toán với số đánh giá chúng Đề xuất giới thiệu mơ hình sử dụng Chương 3: Ứng dụng Phân vùng ảnh Lấp đầy ảnh toán Xoá vật thể tự động Thiết kế, xây dựng, thử nghiệm đánh giá kết (những vấn đề gặt hái vấn đề chưa giải được) Từ đó, đề xuất hướng phát triển đồ án Chương 4: Kết luận – trình bày tóm tắt đồ án vi Nguyễn Duy Thắng – K59 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Tp Hồ Chí Minh, ngày ….… tháng ….… năm 2021 Giảng viên hướng dẫn TS Nguyễn Đình Hiển vii Nguyễn Duy Thắng – K59 MỤC LỤC MỞ ĐẦU 11 CHƯƠNG BÀI TỐN XĨA VẬT THỂ TỰ ĐỘNG 12 1.1 Tổng quan 12 1.2 Các cơng trình liên quan 16 1.3 Phương pháp tiếp cận hướng giải 22 1.1.1 1.1.2 1.1.3 Giới thiệu toán 12 Thách thức toán 14 Ứng dụng 14 1.2.1 1.2.2 Phương pháp Adversarial Scene Editing: Automatic Object Removal from Weak Supervision[9] 17 Ứng dụng Person Remover: People removal in images using Pix2Pix and YOLO[3] 18 CHƯƠNG KIẾN THỨC CƠ BẢN 23 2.1 Các kiến thức liên quan 23 2.2 Phân vùng ảnh 29 2.3 Lấp đầy ảnh 42 2.2.1 2.2.2 2.2.3 2.2.4 Tổng quan Phân vùng ảnh 29 Fully Convolutional Networks[11] 30 DeepLabV3[7] 31 Các số đánh giá toán Phân vùng ảnh 40 2.3.1 2.3.2 2.3.3 Tổng quan lấp đầy ảnh 42 Mơ hình EdgeConnect[6] 46 Các số đánh giá toán Lấp đầy ảnh 55 CHƯƠNG ỨNG DỤNG PHÂN VÙNG ẢNH VÀ LẤP ĐẦY ẢNH TRONG BÀI TOÁN XOÁ VẬT THỂ TỰ ĐỘNG 63 3.1 Đặt vấn đề 63 3.2 Dữ liệu mơ hình sử dụng 65 3.3 Thiết kế xây dựng ứng dụng 70 3.4 Testing 72 3.5 Đánh giá kết mở rộng: 75 3.2.1 3.2.2 3.5.1 3.5.2 Dữ liệu 65 Mơ hình 66 Đánh giá kết 75 Hướng mở rộng 76 CHƯƠNG KẾT LUẬN 79 TÀI LIỆU THAM KHẢO 80 viii Nguyễn Duy Thắng – K59 DANH MỤC HÌNH ẢNH Hình Bức ảnh thực tế - ô vuông đỏ vùng muốn xoá 12 Hình Input Output tốn 13 Hình Content-Aware Fill Photoshop 15 Hình Remove Objects from Photos Online with TheInpaint 16 Hình Remove Objects from Photos Online with Ease | PicsArt 16 Hình Mơ hình chung giải toán Tự động xoá đối tượng 17 Hình Mask Prior/Generated – trình tạo mask 18 Hình Kiến trúc phương pháp Adversarial Scene Editing 18 Hình Input Output toán Person Remover 19 Hình 10 Kiến trúc mơ hình YOLOv3 20 Hình 11 Kiến trúc Generator Networks GAN 21 Hình 12 Kiến trúc Discriminator Networks GAN 22 Hình 13 Convolution network Deconvolution network kết hợp toán Image segmentation 23 Hình 14 Minh hoạ tích chập chuyển vị (Transposed Convolution) 24 Hình 15 Minh hoạ Upsampling 2D 25 Hình 16 Minh hoạ Dilation Convolution 26 Hình 17 Kiến trúc PatchGAN 27 Hình 18 Instance Normalization 27 Hình 19 Biểu diễn khác Spectral Normalization Weight Normalization 29 Hình 20 Semantic segmentation (bên phải) Instance segmentation (bên trái) 30 Hình 21 Kiến trúc khái quát mạng FCN 31 Hình 22 Kiến trúc chung mơ hình DeepLab 32 Hình 23 Minh hoạ áp dụng tích chập thơng thường, áp dụng Atrous convolution 34 Hình 24 (a) Kiến trúc DeepLab sử dụng lọc atrous, (b) Kiến trúc DeepLab sử dụng ASPP nhiều lọc 35 Hình 25 Minh hoạ áp dụng liên tiếp trình CRF 38 Nguyễn Duy Thắng – K59 • Đã đào tạo phần COCO train2017 với 21 class có liệu Pascal VOC Các class mà mơ hình đào tạo trước xuất sau, theo thứ tự: ['0_background', '1_aeroplane', '2_bicycle', 3'_bird', '4_boat', '5_bottle', '6_bus', '7_car', '8_cat', '9_chair', '10_cow', '11_diningtable', '12_dog', '13_horse', '14_motorbike', '15_person', 16_'pottedplant', '17_sheep', '18_sofa', '19_train', '20_tvmonitor'] • Độ xác tốt liệu train phù hợp nên thích hợp để tích hợp cho ứng dụng Dưới đây, độ xác mơ hình (đã đào tạo trước) (bảng 4.1) đánh giá tập COCO val2017 Pytorch đưa sau: Network Mean IoU Global pixelw FCN ResNet50 60.5 91.4 FCN ResNet101 63.7 91.9 DeepLabV3 ResNet50 66.4 92.4 DeepLabV3 ResNet101 67.4 92.4 60.3 91.2 57.9 91.2 DeepLabV3 MobileNetV3Large LR-ASPP MobileNetV3Large Bảng 3.1 Bảng đánh giá mơ hình Semantic Segmentation Pytorch cơng bố Ở đây, ta thấy Pytorch thử mơ hình với nhiều backbone khác Trong đó, việc sử dụng ResNet101 cho kết tốt áp dụng ResNet50 hay MobileNetV3-Large Chính điều này, tốn Object Removal, sử dụng model FCN ResNet101 DeepLabV3 ResNet101 làm phần tạo ảnh mask cho ảnh 67 Nguyễn Duy Thắng – K59 EdgeConnect (2019)[6] Đây mơ hình giới thiệu nhiều phần Nó phần quan trọng ứng dụng, đảm nhận nhiệm vụ tạo ảnh xố vật thể Mình chọn mơ hình EdgeConnect[6] lí sau: • Mơ hình EdgeConnect[6] mơ hình bao gồm giai đoạn Mong muốn EdgeConnect tốt đồng nghĩa với việc mong muốn giai đoạn tốt, điều tạo nên nhược điểm ưu điểm trường hợp sau: o Khi train model mà kết xấu, biết kết xấu nằm giai đoạn hay hai Từ đó, có phương án cách khách để cải thiện trình train o Khi implement model, dễ dàng cải thiện kết với phần kết tốt • Mơ hình EdgeConnect[6] mơ hình công bố thời gian gần đây, với DeepFillV2[13] cho kết vượt trội so với mô hình trước (bảng 4.2) SSIM PSNR Mask CA GLCIC PConv* EdgeConnect 10-20% 0.893 0.862 0.920 0.920 20-30% 0.815 0.771 0.777 0.861 30-40% 0.739 0.686 0.685 0.799 40-50% 0.662 0.603 0.589 0.731 10-20% 24.36 23.49 28.02 27.95 20-30% 21.19 20.45 24.90 24.92 30-40% 19.13 18.50 22.45 22.84 40-50% 17.75 17.17 20.86 21.16 68 Nguyễn Duy Thắng – K59 FID 10-20% 6.16 11.84 - 2.32 20-30% 14.17 25.11 - 4.19 30-40% 24.16 39.88 - 8.91 40-50% 35.78 54.30 - 14.98 Bảng 3.2 So sánh kết EdgeConnect mô hình khác tập liệu Places2 Trong đó: • CA: mơ hình Contextual Attention • GLCIC: mơ hình Globally and Locally Consistent Image Completion • PConv*: mơ hình Partial Convolution (PConv) • Mask: Với loại kích thước khác • Độ xác cải thiện đáng kể sử dụng Edge (bảng 4.3), tác giả báo đưa kết thử nghiệm 10,000 ảnh với tạo ngẫu nhiên mask kích thước 4050% No Edges Yes Edges SSIM 0.682 0.731 PSNR 19.59 21.16 FID 32.18 14.98 Bảng 3.3 So sánh kết EdgeConnect có khơng sử dụng Edges • Ngồi ra, tác giả EdgeConnect[6] công khai mã nguồn mơ hình cộng kèm với weights tốt mà tác giả train Điều này, vơ có ý nghĩ với mình, train mơ hình dạng Discriminator/Gennerator khó, chưa kể đến việc sử dụng 10 triệu ảnh để train 69 Nguyễn Duy Thắng – K59 điều khơng thể với (vì hạn chế máy móc thời gian) 3.3 Thiết kế xây dựng ứng dụng Trong phần trình bày này, xin đưa chi tiết cụ thể cách thực tốn Đầu tiên, cần nhìn lại input output mà cần đạt được: • Với input, toán yêu cầu đưa ảnh mà cần xố đối tượng • Với output, cho ảnh xố đối tượng có kích thước giống ảnh đầu vào Từ đây, cộng với input-output mơ hình EdgeConnect[6] input-output mơ hình Semantic Segmentation, xin đưa trình thực sau: Ta kí hiệu sau: • 𝑖𝑚𝑔: Ảnh màu chứa mặt nạ cạnh • 𝑖𝑚𝑔_𝑔𝑟𝑎𝑦: Ảnh xám 𝑖𝑚𝑔 • e𝑑𝑔e: Là hình ảnh cạnh ảnh xám 𝑖𝑚𝑔_𝑔𝑟𝑎𝑦 • 𝑚𝑎𝑠𝑘: Là mặt nạ sau tiền xử lý lại đối tượng cần xố • e𝑑𝑔e_𝑟e𝑠𝑢𝑙𝑡: Là hình ảnh cạnh chạy qua Edges Generator • 𝑖𝑚𝑔_𝑟e𝑠𝑢𝑙𝑡: Là hình ảnh output sau xố đối tượng Bước 1: Đầu tiên, ta cho ảnh với kích thước mà cần xố đối tượng Bước 2: Cho ảnh đầu vào chạy qua mạng FCN[11] DeepLabV3[7], input mạng ảnh mặt nạ với pixel thuộc 21 class Bước 3: Tính 𝑚𝑎𝑠𝑘, 𝑖𝑚𝑔 cách: tiền xử lý ảnh mặt nạ vừa nhận ảnh ban đầu • Với ảnh 𝑚𝑎𝑠𝑘, pixel thuộc class ta cần xoá, ta gán giá trị 255 (màu trắng), pixel khơng thuộc class ta cần xố, gán giá trị (màu đen) Như vậy, ảnh mask ảnh đen 70 Nguyễn Duy Thắng – K59 trắng • Với ảnh 𝑖𝑚𝑔, ta gộp ảnh 𝑚𝑎𝑠𝑘 ảnh đầu vào Bước 4: Resize 𝑚𝑎𝑠𝑘,𝑖𝑚𝑔 kích thước 256x256 cho phù hợp với mơ hình EdgeConnect Bước 5: Tiếp theo, tính 𝑖𝑚𝑔_𝑔𝑟𝑎𝑦, cách chuyển hệ màu RGB 𝑖𝑚𝑔 sang hệ màu gray Bước 6: Cuối cùng, tính e𝑑𝑔e, cách sử dụng Canny Edge Detection với 𝜎 = áp dụng cho ảnh 𝑖𝑚𝑔_𝑔𝑟𝑎𝑦 Lí sử dụng 𝜎 = tác giả mơ hình EdgeConnect thực nghiệm Cụ thể tác giả sử dụng 𝜎 khác nhau, sau tính tốn số PSNR FID tập liệu CelebA, Places2 Paris StreetView Tác giả thấy, 𝜎 = cho kết PSNR cao FID thấp Hình 47 Kết PSNR FID áp dụng Canny với 𝜎 khác Bước 7: Cho 𝑖𝑚𝑔_𝑔𝑟𝑎𝑦, e𝑑𝑔e, 𝑚𝑎𝑠𝑘 làm input cho mơ hình Edges Generator Kết ta nhận e𝑑𝑔e_𝑟e𝑠𝑢𝑙𝑡 Bước 8: Cho 𝑖𝑚𝑔, e𝑑𝑔e_𝑟e𝑠𝑢𝑙𝑡 làm input cho mơ hình Image Completion Kết ta nhận 𝑖𝑚𝑔_𝑟e𝑠𝑢𝑙𝑡 Ảnh cuối ảnh mà xoá object Để dễ hình dung, ta xem hình đây: 71 Nguyễn Duy Thắng – K59 Hình 48 Thiết kế xây dựng toán Object Removal 3.4 Testing Ta thử nghiệm ứng dụng tập test bao gồm ảnh lấy mạng ảnh chụp (a) input (a) input (a) output (b) input (b) input (b) output 72 Nguyễn Duy Thắng – K59 (c) input (c) input (c) output (d) input (d) input (d) output (e) input (e) input (e) output (f) input (f) input (f) output 73 Nguyễn Duy Thắng – K59 (g) input (g) input (g) output (h) input (h) input (h) output (i) input (i) input (i) output (j) input (j) input (j) output Nhận xét: • Với đối tượng có kích thước nhỏ vừa (như hình a, b, e) cho kết tốt 74 Nguyễn Duy Thắng – K59 • Với đối tượng có kích thước to vừa có chi tiết xung quanh đối tượng đơn giản (như hình c, d) cho kết tốt • Với f, g, h cho kết mức chấp nhận được, điều xác định phân vùng đối tượng chưa che hết toàn yếu tố ngoại (như hình f bóng người đổ (yếu tố ngoại cảnh), hình h cặp giầy khơng phân vùng, hình g phân vùng chưa tốt) • Với đối tượng có kích thước lớn hình I kết khơng tốt hạn chế tốn Lấp đầy ảnh • Với hình j, cho kết mặt cấu trúc ảnh tốt, xong mặt tự nhiên sai Điều này, Phân vùng ảnh nhận diện 21 class, khơng có class hoa 3.5 Đánh giá kết mở rộng: 3.5.1 Đánh giá kết Ưu điểm: • Ứng dụng tự động toàn phần, người dùng cần cung cấp ảnh đầu vào tên đối tượng mà người dùng muốn xố • Tiết kiệm thời gian so với ứng dụng có thị trường (thường 3-5 phút để tạo thủ cơng vùng muốn xố) • Phương pháp sử dụng mơ hình với kết khả quan, nên kết hợp lại cho kết tốt Nhược điểm: 75 Nguyễn Duy Thắng – K59 • Tốc độ xử lý ảnh lâu, trung bình khoảng 25-35s Lý tốn kết hợp phương pháp, mã sử dụng báo cáo tác giả phương pháp cung cấp, kế thừa, chỉnh sửa kết hợp lại nên chưa thể tối ưu mã: lần chạy chạy qua mơ hình, chưa kể tiền xử lý để kết hợp mơ hình • Vì yếu tố khác nhau, nên kết Phân vùng ảnh nhiều trường hợp chưa chuẩn xác (có thể xem ảnh tạo mặt nạ phần 4.4) Điều này, kéo theo kết Lấp đầy ảnh bị giảm chất lượng • Các class Phân vùng ảnh không đa dạng, số lương có 21 nên áp dụng cho ảnh chứa class • Có trường hợp sau sinh ảnh, ảnh chưa tự nhiên, bị nhoè, để lại bóng mờ • Bài tốn xố đối tượng ảnh, cịn cụ thể đối tượng chưa xố (ví dụ ảnh có người, tốn giải vấn đề xố người, cịn chưa giải vấn đề xoá người) 3.5.2 Hướng mở rộng Từ đánh giá kết trên, xin đưa số hướng giải hạn chế gặp phải: • Với nhược điểm đầu tiên, tiến hành tối ưu lại code, để mô hình pretrain đồng thời từ lúc bắt đầu chạy • Với nhược điểm thứ hai ba, tiến hành hai thứ 76 Nguyễn Duy Thắng – K59 sau đây: o Tăng số lượng class train với mơ hình Phân vùng ảnh (với liệu COCO liệu khác) o Có thể thử với mơ hình Bilateral Segmentation Network (BiSeNet), Hierarchical Multi-Scale Attention (HRNet-OCR), SINet Các mơ hình cho thời gian chạy nhanh độ xác tốt • Với nhược điểm cuối cùng, xin đề xuất sử dụng thêm mơ hình Mơ hình có nhiệm vụ Nhận diện đối tượng bật (Salient Object Detection) o Tức là, tìm vùng bật ảnh, sau tiến hành processing để loại bỏ vùng bật mặt nạ VD: Ta mong muốn xoá đối tượng background, ảnh mong muốn tập trung vào nam Hình 49 Kết áp dụng Nhận diện đối tượng bật o Các mơ hình thử nghiệm PoolNet, 77 Nguyễn Duy Thắng – K59 BasNet, 78 Nguyễn Duy Thắng – K59 CHƯƠNG KẾT LUẬN Tự động xoá vật thể chủ đề mẻ lĩnh vực AI nói chung Computer Vision nói riêng Nhưng khơng thể phủ nhận, lợi ích mà mang lại tương đối lớn Dù vậy, cịn nhiều thách thức khó khăn xử lý toán này, đặc biệt áp dụng muốn áp dụng vào thực tế Trong đồ án này, với mục đích tìm hiểu xây dựng tốn, giúp cho người dùng có ảnh chất lượng mà khơng tốn nhiều thời gian Mình tiến hành trình bày giải nội dung sau: • Trình tổng quan tốn Tự động xố vật thể ảnh: Đầu tiên, giới thiệu toán, thách thức ứng dụng tốn thực tế Một vài cơng trình liên quan cơng bố tốn Cùng với đó, đề xuất phương pháp tiếp cận hướng giải vấn đề • Tìm hiểu toán thứ – Phân vùng ảnh Giới thiệu sở lý thuyết giới thiệu mơ hình áp dụng FCN[11] DeepLabV3[7] • Tìm hiểu tốn thứ hai – Lấp đầy ảnh Giới thiệu sơ qua toán số mơ hình nghiên cứu cơng bố Từ đó, đề xuất sử dụng mơ hình EdgeConnect[6] làm phần sinh ảnh Ngồi ra, cịn đưa số số dùng để đánh giá tốn lấp đầy • Xây dựng ứng dụng kết hợp từ hai toán bên Đánh giá dựa kết hai toán trực quan kết cuối Những ưu điểm nhược điểm gặp phả áp dụng phương pháp Những cải tiến nêu ra, dự kiến thực thử nghiệm thời gian sớm Các hướng cải thiện tập trung vào việc nâng cao chất lượng mơ hình Phân vùng ảnh hay tối ưu code để tăng tốc độ xử lý tính toán 79 Nguyễn Duy Thắng – K59 TÀI LIỆU THAM KHẢO [1] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros, “Context Encoders: Feature Learning by Inpainting,” Proc International Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [2] Ian J Goodfellow et al “Generative Adversarial Networks” In: ArXiv abs/1406.2661 (2014) [3] Javier Gamazo “Person Remover: People removal in images using Pix2Pix and YOLO” In: 2019 URL: https://github.com/javirk/Person_remover [4] Justin Johnson, Alexandre Alahi, and Li Fei-Fei “Perceptual Losses for Real- Time Style Transfer and Super-Resolution” In: ArXiv abs/1603.08155 (2016) [5] Joseph Redmon et al “You Only Look Once: Unified, Real-Time Object Detection” In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016), pp 779–788 [6] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z Qureshi, Mehran Ebrahimi, “EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning,” Proc International Conference on Computer Vision (ICCV), 2019 [7] L.-C Chen, G Papandreou, I Kokkinos, K Murphy, and A L Yuille Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs arXiv:1606.00915, 2016 [8] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” Proc Computer Vision and Pattern Recognition (CVPR), 21–26 Jul 2017 [9] Rakshith Shetty, Mario Fritz, and Bernt Schiele “Adversarial Scene Editing: Automatic Object Removal from Weak Supervision” In: NeurIPS 2018 [10] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa, “Globally and Locally Consistent Image Completion,” ACM Trans on Graphics, Vol 36, No4, Article 107, Publication date: July 2017 80 Nguyễn Duy Thắng – K59 [11] Evan Shelhamer, Jonathan Long, and Trevor Darrell, Member, IEEE, “Fully Convolutional Networks for Semantic Segmentation” [CVPR], 2015 [12] Ugur Demir, and Gozde Unal, “Patch-Based Image Inpainting with Generative Adversarial Networks,” https://arxiv.org/pdf/1803.07422.pdf [13] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas Huang, “FreeForm Image Inpainting with Gated Convolution,” Proc International Conference on Computer Vision (ICCV), 2019 [14] Takeru Miyato et al “Spectral Normalization for Generative Adversarial Networks” In: ArXiv abs/1802.05957 (2018) 81 Nguyễn Duy Thắng – K59