Hoàn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và nhân chập từng phần

8 43 0
Hoàn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và nhân chập từng phần

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong nghiên cứu này, bắt nguồn từ giải thuật học thặng dư được dùng để dự đoán các thông tin bị mất trong vùng bị phá hủy, thuận lợi cho tích hợp các đặc trưng và dự đoán kết cấu, chúng tôi đề xuất mạng nhân chập từng phần thặng dư cải tiến dựa trên kiến trúc mã hóa và giải mã U-net để lấp đầy vùng bị phá hủy bảo toàn kết cấu không chỉ với các hình dạng phổ dụng mà còn cho các hình dạng bất kỳ.

ISSN: 1859-2171 e-ISSN: 2615-9562 TNU Journal of Science and Technology 208(15): 19 - 26 HOÀN THIỆN CÁC VÙNG PHÁ HỦY HÌNH DẠNG BẤT KỲ TRONG ẢNH SỬ DỤNG KIẾN TRÚC MẠNG THẶNG DƯ VÀ NHÂN CHẬP TỪNG PHẦN Lê Đình Nghiệp1, Phạm Việt Bình2, Đỗ Năng Tồn3, Hồng Văn Thi4 Trường Đại học Hồng Đức, Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên, Viện Công nghệ thông tin – ĐH Quốc gia Hà Nội, 4Sở giáo dục Đào tạo Thanh Hóa TÓM TẮT Ngày nay, giải thuật dựa học sâu cho tốn hồn thiện ảnh (image inpainting) thu kết tốt xử lý vùng mát thơng tin có hình dạng vng hình phổ dụng Tuy nhiên, thất bại việc tạo kết cấu hợp lý bên vùng bị phá hủy thiếu thông tin xung quanh Trong nghiên cứu này, bắt nguồn từ giải thuật học thặng dư dùng để dự đốn thơng tin bị vùng bị phá hủy, thuận lợi cho tích hợp đặc trưng dự đốn kết cấu, đề xuất mạng nhân chập phần thặng dư cải tiến dựa kiến trúc mã hóa giải mã U-net để lấp đầy vùng bị phá hủy bảo tồn kết cấu khơng với hình dạng phổ dụng mà cho hình dạng Các thí nghiệm dựa định tính định lượng cho thấy mơ hình đề xuất giải vùng bị phá hủy có hình dạng đạt hiệu suất thực thi tốt phương pháp inpainting trước Từ khóa: inpainting ảnh; mặt nạ không phổ dụng; mặt nạ bất kỳ; mạng thặng dư; thị giác máy tính; nhân chập phần; Ngày nhận bài: 11/9/2019; Ngày hoàn thiện: 18/9/2019; Ngày đăng: 03/10/2019 IMAGE INPAINTING FOR ARBITRARY HOLES USING CUSTUMIZED RESIDUAL BLOCK ARCHITECTURE WITH PARTIAL CONVOLUTIONS Le Dinh Nghiep1, Pham Viet Binh2, Do Nang Toan3, Hoang Van Thi4 Hong Duc University, University of Information and Communication Technology - TNU, Institute of Information Technology - VNU, 4Thanh Hoa Department of Education and Training ABSTRACT Recently, learning-based algorithms for image inpainting achieve remarkable progress dealing with squared or regular holes However, they still fail to generate plausible textures inside damaged area because there lacks surrounding information In this paper, motivated by the residual learning algorithm which aims to learn the missing information in corrupted regions, thus facilitating feature integration and texture prediction we propose Residual Partial Convolution network (RBPConv) based on encoder and decoder U-net architecture to maintain texture while filling not only regular regions but also random holes Both qualitative and quantitative experimental demonstrate that our model can deal with the corrupted regions of arbitrary shapes and performs favorably against previous state-of-the-art methods Keywords: generative image inpainting; irregular mask; residual network; computer vision; arbitrary mask; partial convolution Received: 11/9/2019; Revised: 18/9/2019; Published: 03/10/2019 * Corresponding author Email: ledinhnghiep@hdu.edu.vn http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn 19 Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN Giới thiệu Inpainting ảnh tiến trình lấp đầy hay khơi phục lại vùng bị mát thông tin hay vùng bị phá hủy (gọi vùng đích) ảnh cách tổng hợp từ vùng không bị phá hủy hay ảnh gốc khác (gọi vùng nguồn) Inpainting sử dụng nhiều ứng dụng thực tế như: loại bỏ đối tượng không mong muốn khỏi ảnh, khơi phục vùng ảnh bị phá hủy, hồn thiện vùng bị che khuất, khử nhiễu Mặc dù nghiên cứu nhiều thập niên qua, inpainting ảnh tốn mở khó lĩnh vực đồ họa thị giác máy tính tính mơ hồ khơng rõ ràng độ phức tạp ảnh tự nhiên Nói chung, kết ảnh inpainting phải thỏa mãn yêu cầu bảo toàn cấu trúc ngữ nghĩa tổng thể kết cấu chi tiết Các phương pháp inpainting cổ điển dựa khuyếch tán [1] [2] hay lấy mẫu [3] [4] [5] [6] sử dụng ý tưởng thẩm thấu thông tin cấu trúc kết cấu từ vùng nguồn vào vùng đích Với cách tiếp cận tiến trình inpainting ảnh thực theo bước từ rìa vùng đích vào Vì vậy, kết bước sau phục thuộc nhiều vào độ xác bước trước đó, lỗi thẩm thấu xuất việc khôi phục thất bại bước kết cấu tổng thể chi tiết bị sai lệch (hình 1b) (a) (b) (c) (d) Hình Một số kỹ thuật inpainting (a) ảnh với vùng cần hoàn thiện (b) Ảnh hoàn thiện dựa lấy mẫu PathMach [6] (c) Ảnh hoàn thiện dựa mạng Context Encoder [7] (d) Ảnh gốc Bên cạnh q trình tìm kiếm lân cận gần có chi phí thời gian lớn Cách tiếp cận hiệu tìm thấy mẫu ảnh với đầy đủ tương quan mặt trực quan 20 208(15): 19 - 26 nhiên thất bại khơng tìm thấy mẫu ảnh tương tự sở liệu Hơn nữa, phương pháp cần đến sở liệu mẫu bên làm giảm phạm vi ảnh cần hoàn thiện Ngược lại với phương pháp truyền thống dựa lấy mẫu sử dụng đặc trưng xung quanh vùng trống ảnh từ tập mẫu chọn trước, giải thuật dựa mạng nhân chập học sâu (Deep Convolution Neural Network (DCNN)) đề xuất để học đặc trưng dùng cho dự đoán phần mát thông tin dựa tập liệu huấn luyện Lợi ích từ liệu huấn luyện lớn, phương pháp dựa DCNN đưa kết inpainting với ngữ nghĩa hợp lý Tuy nhiên, số phương pháp dựa DCNN thường hoàn thiện vùng mát thông tin cách thẩm thấu đặc trưng nhân chập vùng xung quanh thông qua tầng kết nối đầy đủ, làm cho kết inpainting thiếu chi tiết kết cấu tốt có vết mờ (hình 1c) Một giới hạn khác kỹ thuật inpainting trước tập trung vùng trống hình chữ nhật giả thiết thường đặt xung quanh trung tâm ảnh [7] [8] [9] Những giới hạn dẫn đến tình trạng khớp vùng trống hình chữ nhật giới hạn ứng dụng mô hình thực tế Một vài nghiên cứu [10] [11] gần mở rộng hình dạng mặt nạ vùng trống với khuôn dạng phổ dụng hình chữ nhật, hình thoi, hình elip… đặt chúng vị trí ngẫu nhiên ảnh Tuy nhiên nghiên cứu chưa thu kết tốt tập mặt nạ Dựa tập mặt nạ với hình dáng đường kẻ đa dạng có từ nghiên cứu [12], kết hợp với phép nhân chập phần nghiên cứu [13] cho kết inpainting tương đối tốt tập mặt nạ không phổ dụng Để gia tăng tốc độ, hiệu suất thực thi kết inpainting, chúng tơi đề xuất mơ hình kiến trúc mạng DCNN sử dụng khối residual kết hợp với nhân chập phần giới thiệu lần đầu [13] nhằm http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ ĐHTN gia tăng khả trừu tượng hóa đặc trưng tạo ảnh hoàn tiện tốt Các thực nghiệm thực tập liệu chuẩn cho thấy phương pháp đề xuất thu hiệu suất cao thời gian xử lý nhanh, bền vững với thể loại mặt nạ khác với hình dạng thông dụng, không thông dụng, mặt nạ so sánh với phương pháp trước Các phần viết tổ chức sau: trước hết nghiên cứu liên quan trình bày phần 2; kiến trúc mơ hình đề xuất với khối Residual cải tiến kết hợp với nhân chập phần giới thiệu phần 3; mơi trường thực nghiệm kết trình bày phần 4; cuối cùng, kết luận đưa phần Các nghiên cứu liên quan Các cách tiếp cận không dựa mạng học sâu thường chia thành hai loại: phương pháp dựa khuyếch tán [14] [1] [2] phương pháp dựa lấy mẫu [6] [15] [16] [17] [18] Các phương pháp dựa khuyếch tán thường lấp đầy vùng đích dựa việc thẩm thấu thông tin bề mặt từ vùng xung quanh chúng Phương pháp 208(15): 19 - 26 xử lý vùng trống hẹp ảnh có biến thiên kết cấu màu sắc nhỏ Chúng thất bại việc tổng hợp nội dung ngữ nghĩa thơng tin đến từ lân cận giải trường hợp vùng trống kích thước lớn Các phương pháp dựa lấy mẫu chia nhỏ vùng đích thành vùng trống nhỏ nỗ lực tìm vùng tương tự có liên quan đến vùng sau lắp ghép chúng vào vùng trống nhỏ tương ứng Các phương pháp tổng hợp cho kết tương đối mượt chấp nhận giải thuật tham lam dùng để xác định ưu tiên mảnh ghép tốt, chi phí tính tốn lớn Khắc phục nhược điểm PatchMatch [6] đề xuất giải thuật tìm kiếm mẫu xấp xỉ nhanh cho kết tốt, nhiên việc hoàn thiện ảnh thất bại khơng tìm thấy mẫu ghép có độ so khớp cao chưa đủ nhanh cho ứng dụng thời gian thực Một giới hạn khác cách tiếp cận không tạo cấu trúc chi tiết chúng xử lý bề mặt cục mức thấp thu nhận thơng tin ngữ nghĩa mức cao Hình Kiến trúc mơ hình đề xuất Gần đây, cách tiếp cận dựa mạng DCNN thu nhiều kết vượt trội lĩnh vực inpainting ảnh với vùng đích có kích thước lớn [7] [19] [10] [9] [20] Các phương pháp cách tiếp cận cải thiện kết inpainting cách sử dụng thông tin ngữ nghĩa ảnh Một nghiên cứu dựa DCNN cho toán inpainting Context Encoder [7], sử dụng kiến trúc mã hóa – giải mã (encoder-decoder) để lấp đầy vùng trống, đồng thời bổ sung thêm hàm loss đối kháng (adversarial loss) pha huấn luyện để nâng cao chất lượng trực quan ảnh hoàn thiện Mặc dù Context Encoder hiệu việc đạt cấu trúc tổng thể ngữ nghĩa ảnh, với kiến trúc mạng chuyển tiếp đơn kết cấu chi tiết tốt không sinh Sau mạng đối kháng sinh (generative adversarial networks (GAN)) giới thiệu nghiên cứu [21], nghiên cứu sau dựa GAN [22] [23] [24] [20] [11] hoàn thiện vùng đích dựa lớp ngữ nghĩa vùng nguồn đưa kết hợp lý mặt trực quan Nghiên cứu [25] bổ sung thêm hàm loss cấu trúc nhằm http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn 21 Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ ĐHTN trì tái cấu trúc cạnh Zhang cộng [26] chia tiến trình lấp đầy vùng trống thành nhiều pha, qua pha kích thước vùng trống giảm dần tạo kết tốt Tuy nhiên kích thước vùng trống bị giới hạn vùng hình vng oval Chúng khơng thể xử lý với vùng trống khác mặt nạ với kích thước đa dạng Lui cộng [13] sử dụng phép nhân chập phần (partial convolution) phép nhân chập dựa điểm ảnh chắn nhằm giảm thiểu tác động gây khác biệt phân bố vùng mặt nạ vùng mặt nạ Phương pháp việc sử dụng mặt nạ hình dạng phổ dụng áp dụng cho mặt nạ khơng phổ dụng sinh nghiên cứu [12] dựa ước lượng ảnh mặt nạ hai khung ảnh liên tiếp video Hiện nay, mạng DCNN đạt hiệu suất thực thi cao nhận dạng phân loại ảnh Đặc biệt mạng ResNet [27] có tác động to lớn đến phát triển mạng nhân chập học sâu Với khối cấu trúc thiết kế hiệu tạo mạng có kiến trúc sâu hơn, khắc phục vấn đề mát gradient pha huấn huyện [27] Ngồi khối residual chứa kết nối nhanh (short-cut) cho kết tốt với hiệu suất thời gian thực thi Các ưu điểm kiến trúc residual nghiên cứu cải tiến đưa vào mơ hình đề xuất nhằm gia tăng kết inpainting ảnh Mơ hình đề xuất Mơ hình đề xuất RBPconv chúng tơi cho toán inpainting kiến trúc U-net kết hợp với khối Residual cải tiến phép nhân chập phần Sơ đồ tổng qt mơ hình minh họa hình 3.1 Khối Residual Kiến trúc khối residual cải tiến minh họa hình Khối chia thành khối Đầu tiên lọc nhân chập kích thước 1x1 áp dụng cho khối kiến trúc hình tháp với mục đích 22 208(15): 19 - 26 làm giảm số chiều đồ đặc trưng trước áp dụng lọc thông dụng 3x3 Điều giúp cho số chiều đồ đặc trưng, giảm chi phí tính tốn Ví dụ đầu tầng trước (là đầu vào tầng tại) 100x100x128 qua tầng nhân chập cho đầu 100x100x256 sau nhân chập với mặt nạ 3x3 với 256 kênh (stride =1, pad=2), tham số 128x3x3x256 = 294912 Nếu đầu tầng trước qua tầng nhân chập kích thước 1x1 với 64 kênh trước sau nhân chập với mặt nạ 3x3, 256 kênh kết 100x100x256, tham số nhân chập giảm xuống 128x1x1x64 + 64x3x3x256=155648, tức giảm gần lần Hình Kiến trúc khối residual cải tiến Một khối chứa tầng nhân chập 3x3 khối lại chứa hai tầng 3x3 (hình 3) Các đặc trưng cục hai khối với kích thước khác tập hợp nối lại với Kết nối short-cut áp dụng trực tiếp đầu vào đầu ngăn chặn gradient mạng học sâu Các kết nối short-cut chứng minh nghiên cứu [27] không làm gia tăng thêm tham số độ phức tạp chi phí tính tốn 3.2 Partial Convolution Khái niệm nhân chập phần đề xuất lần đầu nghiên cứu [13] áp dụng cho toán inpainting với vùng trống http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ ĐHTN khơng phổ dụng thu kết khả quan Nhân chập phần suy mặt nạ có tái chuẩn hóa dựa điểm ảnh hợp lệ Gọi W trọng số lọc nhân chập b độ lệch chuẩn tương ứng X giá trị đặc trưng cửa sổ trượt tại, M mặt nạ nhị phân tương ứng Nhân chập phần vị trí biểu diễn sau: (1) Trong ⊙ biểu diễn phép nhân phần tử tương ứng hai ma trận Có thể thấy rằng, giá trị tính phụ thuộc vào vùng ngồi mặt nạ Nhân chập phần có ảnh hưởng tốt nhân chập chuẩn xử lý xác với mặt nạ kích thước Khác với tốn phân loại ảnh hay dò tìm đối tượng tất điểm ảnh ảnh đầu vào hợp lệ, tốn inpainting lại có nhiều điểm ảnh khơng hợp lệ bị rơi vào vùng bị phá hủy hay vùng mặt nạ Các giá trị điểm ảnh vùng mặt nạ thông thường đặt Tận dụng ưu điểm phép nhân chập phần này, mơ hình đề xuất thay phép nhân chập chuẩn tất tầng nhân chập phép nhân chập phần Ngoài ra, theo sau phép nhân chập phần chế phát sinh cập nhật mặt nạ tự động cho tầng nhân chập phần mạng chuyển tiếp Nếu phép nhân chập ước định đầu giá trị đầu vào hợp lệ vị trí đánh dấu hợp lệ Điều biểu diễn cơng thức: (2) 3.3 Kiến trúc mơ hình Nghiên cứu chúng tơi bắt nguồn từ mơ hình kiến trúc mạng encoder-decoder Tuy nhiên để tăng tốc độ huấn luyện, đề xuất sử dụng khối residual thay tầng nhân chập thông thường cho lớp mạng Tại mức đặc trưng thấp, http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn 208(15): 19 - 26 tầng nhân chập đơn giản tầng nhân chập phức tạp cho kết tương tự [28] Do tầng nhân chập thứ nhất, mặt nạ 3x3x64 sử dụng để thu đồ đặc trưng mức thấp 64 chiều Sau khối residual thiết lập cho tầng nhân chập Sự thay làm gia tăng nhiều hiệu suất thực thi mạng Trong mơ hình kiến trúc mạng chúng tôi, tương tự kiến trúc mạng sử dụng [13] sử dụng kiến trúc mạng encoder-decoder với tổng cộng 16 tầng tầng phần encoder tầng phần decoder tương ứng Phần encoder dùng để học đặc trưng ảnh, tiến trình mơ tả đặc tính ảnh Phần Decoder tiến trình khơi phục giải mã đặc trưng học tạo ảnh thực Trong nhiều trường hợp, thông tin cung cấp điểm ảnh xung quanh điểm ảnh xem xét U-net [29] sử dụng kiến trúc mạng gồm phần giảm mẫu (down-sampling) tăng mẫu (up-sampling) Down-sampling sử dụng để lấy dần thơng tin mơi trường tiến trình upsampling trộn đặc trưng học thông tin môi trường down-sampling để khôi phục chi tiết Trong mơ hình đề xuất tầng nhân chập nguyên U-net thay khối residual cải tiến có kiến trúc hình Trong cải tiến tầng nhân chập theo sau chuẩn hóa batch hàm kích hoạt Hàm kích hoạt ReLU sử dụng cho tầng encoder LeakyReLU với alpha=0.2 sử dụng tầng decoder Bên cạnh đó, tất tầng nhân chập thay nhân chập phần Zero padding với kích thước sử dụng để làm cho tất đồ đặc trưng có kích thước 3.4 Hàm loss Ký hiệu Iin ảnh đầu vào chứa vùng trống cần hoàn thiện, Irec ảnh khơi phục qua mơ hình mạng, Igt ảnh chuẩn (grounth 23 Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN truth) Gọi M mặt nạ nhị phân khởi tạo tương ứng với vùng ảnh bị xóa Các phần tử M có giá trị điểm ảnh bị phá hủy 255 cho điểm ảnh lại Khi để so sánh khác biệt hai cấu trúc ảnh khôi phục ảnh gốc hàm Loss cấu trúc sử dụng chuẩn L1 định nghĩa sau: (3) Hàm loss trực quan (perceptual loss) dùng để đo khác biệt trực quan ngữ nghĩa hai ảnh định nghĩa tương tự [30]: (4) Trong đồ đặc trưng kích hoạt đầu tầng thứ j mạng xử lý ảnh ; đồ đặc trưng có kích thước Cj x Hj x Wj Perceptual loss lần áp dụng cho toán inpainting ảnh nghiên cứu [9] Bên cạnh đó, hàm loss hình dạng (style loss) sử dụng để loại bỏ thành phần lạ hình bàn cờ [23], tương tự perceptual loss, ma trận tương quan (ma trận Gram) đồ đặc trưng sử dụng định nghĩa sau: (5) Trong đó, đồ đặc trưng mức cao có hình dạng Cj x Hj x Wj, đưa ma trận gram 208(15): 19 - 26 kích thước Cj x Cj hệ số chuẩn hóa cho tầng thứ j Qua thí nghiệm, chúng tơi thiết lập trọng số dựa kinh nghiệm thu hàm loss tổng thể sau: (6) Thực nghiệm kết Trong nghiên cứu này, sử dụng tập mặt nạ tạo nghiên cứu [13] để kiểm thử mơ hình đề xuất so sánh kết với mơ hình khác Tập mặt nạ huấn luyện gồm 55.116 mặt nạ tập kiểm thử gồm 24.886 mặt nạ Tất mặt nạ ảnh dùng cho pha huấn luyện kiểm thử có kích thước 256x256 Một số mặt nạ minh họa hình Hình Một số mặt nạ Để tiện so sánh kết thực nghiệm mơ hình đề xuất với kết thực nghiệm nghiên cứu gần nhất, nghiên cứu thực nghiệm tiến hành với tập mặt nạ sinh bên cho tập liệu Places2 [31] Tiến trình huấn luyện thực máy chủ Nvidia Tesla V100 GPU (16GB) Mơ hình đề xuất tối ưu hóa sử dụng giải thuật Adam [32] với tỷ lệ học 0.0002, kích thước batch 16 Ảnh cần hoàn thiện GLCIC [10] CA [11] PIC [33] RBPConv Hình So sánh kết RBPconv với phương pháp trước 24 http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ ĐHTN So sánh định tính Hình biểu diễn kết trực quan RBPconv so với vài phương pháp phát triển gần GLCIC (Global and Local Consistent Image Completion) [10], CA(Contextual Attention) [11], PIC (Pluralistic Image Completion) [33] Những kết minh chứng khơng có mạng tách biệt cho phát sinh cạnh nghiên cứu [33] ảnh khơi phục bảo tồn cấu trúc hợp lý Mơ hình đề xuất tận dụng kiến trúc residual cập nhật mặt nạ bước cho phép lọc nhân chập tự hoàn thiện đường bao Hơn ảnh hồn thiện vết mờ xuất Các ảnh tạo mơ hình RBPConv gần với ground truth ảnh sinh từ phương pháp khác Mặc dù số trường hợp xuất vết mờ, lại thích hợp với vùng xung quanh So sánh định lượng Trong nghiên cứu này, sử dụng độ đo chất lượng ảnh SSIM (Structural Similarity Index) [34] PSNR (Peak Signalto-Noise Ratio) [35] cài đặt Matlab R2017a để đo chất lượng phương pháp đề xuất với phương pháp inpainting khác Các phương pháp so sánh phát triển trước gồm CA(Contextual Attention) [11], PConv (Partial Convolution Unet) [13] EC (EdgeConnect) [26] Các giá trị cụ thể thể bảng Để có số liệu sử dụng trọng số mạng huấn luyện tương ứng có sẵn Kết PConv lấy từ viết [13] mã nguồn chưa nhóm tác giả cơng bố Các số liệu thống kê có sau tính tốn 1.000 ảnh ngẫu nhiên lấy từ tập kiểm thử Kết cho thấy mơ hình RBPcov cho hiệu suất thực thi tốt phương pháp khác Bảng Kết định tính (PSNR, SSIM) tập liệu Places2 với phương pháp: CA [11], PConv [13] and EC [23], * nghĩa giá trị lấy từ báo [13] PSNR SSIM CA 21.34 0.806 PConv* 24.90 0.777 EC 24.65 0.857 RBPConv 25.29 0.868 http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn 208(15): 19 - 26 Kết luận Trong nghiên cứu này, phát triển mạng RBPConv cho toán inpainting dựa khối residual cải tiến, phép nhân chập phần kiến trúc U-net Các khối residual cải tiến, thành phần mạng RBPconv trì biểu diễn ảnh độ phân giải cao thích hợp cho tái cấu trúc kết cấu hội tụ mạng Mơ hình RBPconv đề xuất đặc biệt hiệu cho việc lấp đầy vùng trống với hình dạng kích thước khơng lớn phù hợp với mặt nạ sinh xóa bỏ đối tượng ảnh thay đối tượng khác tương ứng mặt kích thước TÀI LIỆU THAM KHẢO [1] Bertalmio, M., Vese, L., Sapiro, G and Osher, S., "Simultaneous structure and texture image inpainting," IEEE transactions on image processing, Vol 12, No 8, pp 882-889, 2003 [2] Liu, D., Sun, X., Wu, F., Li, S., and Zhang, Y., "Image compression with edge-based inpainting," IEEE Transactions on Circuits and Systems for Video Technology, Vol 17, No 10, pp 1273-1287, 2007 [3] Criminisi, A., Perez, P., and Toyama, K., "Object removal by exemplar-based inpainting," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vol 2, pp 721-728, 2003 [4] Drori, I., Cohen-Or, D., and Yeshurun, H., "Fragment-based image completion," TOG, Vol 22, No 3, pp 303-312, 2003 [5] N Komodakis, "Image completion using global optimization," CVPR, pp 442–452, 2006 [6] Barnes, C., Shechtman, E., Finkelstein, A., Goldman, D B., "Patchmatch: A randomized correspondence algorithm for structural image editing," ACM Transactions on Graphics-TOG, Vol 28, No 3, 2009 [7] Pathak, D., Krahenbuhl, P., Donahue, J., Darrell, T., Efros, A.A., "Context encoders: Feature learning by inpainting," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 2536–2544, 2016 [8] Yan, Z., Li, X., Li, M., Zuo, W., and Shan, S., "Shift-net: Image inpainting via deep feature rearrangement.," arXiv preprint arXiv:1801.09392, 2018 [9] Yang, C., Lu, X., Lin, Z., Shechtman, E., Wang, O., Li, H, "High-resolution image 25 Lê Đình Nghiệp Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ ĐHTN inpainting using multi-scale neural patch synthesis," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vol 1, pp 3, 2017 [10] Iizuka, S., Simo-Serra, E., Ishikawa, H., "Globally and locally consistent image completion," ACM Transactions on Graphics (TOG), Vol 36, No 4, 2017 [11] Yu, J., Lin, Z., Yang, J., Shen, X., Lu, X., Huang, T.S., "Generative image inpainting with contextual attention," arXiv preprint arXiv:1801.07892, 2018 [12] Sundaram, N., Brox, T., and Keutzer, K., "Dense point trajectories by gpu-accelerated large displacement optical flow," European conference on computer vision, pp 438-451, 2010 [13] Liu, G., Reda, F A., Shih, K J., Wang, T.C., Tao, A., and Catanzaro, B., "Image inpainting for irregular holes using partial convolutions," arXiv preprint arXiv:1804.07723, 2018 [14] Bertalmio, M., Sapiro, G., Caselles, V., and Ballester, C., "Image inpainting," Proceedings of the 27th annual conference on Computer graphics and interactive techniques ACM Press/AddisonWesley Publishing Co, p 417–424, 2000 [15] Darabi, S., Shechtman, E., Barnes,C., Goldman, D B., and Sen, P., "Image melding: Combining inconsistent images using patch-based synthesis," ACM Trans Graph, 2012 [16] Huang, J., Kang, S B., Ahuja, N and Kopf, J., "Image completion using planar structure guidance," ACM Transactions on graphics (TOG), 2014 [17] Sun, J., Yuan, L., Jia, J., Shum, H., "Image completion with structure propagation," ACM Transactions on Graphics (ToG), pp 861–868, 2005 [18] Xu, Z., and Sun, J., "Image inpainting by patch propagation using patch sparsity," IEEE transactions on image processing, pp 1153–1165, 2010 [19] Liu, P., Qi, X., He, P., Li, Y., Lyu, M R., and King, I., "Semantically consistent image completion with fine-grained details," arXiv preprint arXiv:1711.09345, 2017 [20] Yeh, R A., Chen, C., Lim, T Y., Schwing, A G., HasegawaJohnson, M., and Do,M N., "Semantic image inpainting with deep generative models," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 5485–5493, 2017 [21] Radford, A., Metz, L., and Chintala, S., "Unsupervised representation learning with deep convolutional generative adversarial networks," arXiv preprint arXiv:1511.06434, 2015 26 208(15): 19 - 26 [22] Isola, P., Zhu, J., Zhou, T., and Efros, A A., "Image-to-Image Translation with Conditional Adversarial Networks," Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1125-1134, 2017 [23] Nazeri, K., Eric, Ng., Joseph, T., Qureshi, F., and Ebrahimi, M., "EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning," arXiv preprint arXiv:1901.00212, 2019 [24] Xiong, W., Lin, Z., Yang, J., Lu, X., Barnes, C., and Luo, J., "Foreground-aware Image Inpainting," arXiv preprint arXiv:1901.05945, 2019 [25] Huy V V., Ngoc Q K D., and Pérez,P., "Structural Inpainting," Proceedings of the 26th ACM International Conference on Multimedia (MM ’18), pp 1948–1956, 2018 [26] Zhang, H., Hu, Z., Luo, C., Zuo, W., and Wang, M., "Semantic Image Inpainting with Progressive Generative Networks," ACM Multimedia Conference on Multimedia Conference, pp 1939–1947, 2018 [27] He, K., Zhang, X., Ren,S., and Sun, J., "Deep residual learning for image recognition," Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770-778, 2016 [28] Zeiler, M D., and Fergus, R., "Visualizing and understanding convolutional networks," arXiv:1311.2901, 2013 [29] Ronneberger, O., Fischer, P., and Brox, T., "U-net: Convolutional networks for biomedical image segmentation," International Conference on Medical image computing and computer-assisted intervention, pp 234–241, 2015 [30] Johnson, J., Alahi, A., and Fei-Fei, L., "Perceptual losses for real-time style transfer and super-resolution," European Conference on Computer Vision, p 694–711, 2016 [31] Mahajan, K S., Vaidya, M B., "Image in Painting Techniques: A survey," IOSR Journal of Computer Engineering, vol 5, no 4, pp 45-49, 2012 [32] Kingma, D P., Ba, J L.: Adam, "A method for stochastic optimization," international conference on learning representations , 2015 [33] Zheng, C., Cham,T., and Cai, J., "Pluralistic Image Completion," CoRR abs/1903.04227, 2019 [34] Zhou, W., Bovik, A C., Sheikh, H R., and Simoncelli E P., "Image Qualifty Assessment: From Error Visibility to Structural Similarity.," IEEE Transactions on Image Processing, vol 13, no 4, p 600–612, 2004 [35] Gonzalez, R., and Wood, R , "Digital Image Processing," Pearson Edn, 2009 http://jst.tnu.edu.vn; Email: jst@tnu.edu.vn ... thiết lập cho tầng nhân chập Sự thay làm gia tăng nhiều hiệu suất thực thi mạng Trong mơ hình kiến trúc mạng chúng tôi, tương tự kiến trúc mạng sử dụng [13] sử dụng kiến trúc mạng encoder-decoder... thường đặt Tận dụng ưu điểm phép nhân chập phần này, mơ hình đề xuất thay phép nhân chập chuẩn tất tầng nhân chập phép nhân chập phần Ngoài ra, theo sau phép nhân chập phần chế phát sinh cập nhật... ảnh tiến trình lấp đầy hay khơi phục lại vùng bị mát thông tin hay vùng bị phá hủy (gọi vùng đích) ảnh cách tổng hợp từ vùng không bị phá hủy hay ảnh gốc khác (gọi vùng nguồn) Inpainting sử dụng

Ngày đăng: 13/01/2020, 02:44

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan