Nghiên cứu ứng dụng deep learning trong xử lý khử nhiễu hình ảnh

MỤC LỤC

Tiềm năng của deep learning: Deep learning mở ra cơ hội mới để giải quyết vấn đề nhiễu ảnh. Với khả năng học từ dữ liệu lớn và khả năng

Mục tiêu

    - Tìm hiểu các phương pháp khử nhiễu hiện đại: Đánh giá các kỹ thuật khử nhiễu hiện nay, đặc biệt là các phương pháp dựa trên học sâu, như mạng nơ-ron tích chập, mạng nơ-ron đối xứng (GANs), và các kỹ thuật. Trong nghiên cứu này, chúng em đặt mục tiêu nâng cao khả năng tổng quát hóa của mô hình khử nhiễu sâu, qua đó xác định khả năng tổng quát hóa là hiệu suất của mô hình với các loại nhiễu khác so với trong quá trình huấn luyện. Chiến lược huấn luyện hiện tại, tập trung vào việc tối ưu hóa sự tương đồng giữa hình ảnh khử nhiễuvà hình ảnh gốc, thường bỏ qua rằng mô hình có thể giảm thiểu lỗi bằng cách học mẫu nhiễu, thay vì nội dung hình ảnh.

    Mặt nạ chú ý, được tích hợp trong từng lớp tự chú ý của Transformer, cho phép mô hình học cách hoàn thiện các đặc trưng bị mặt nạ một cách linh hoạt, giảm thiểu sự chênh lệch phân phối giữa huấn luyện và kiểm tra. Dù sử dụng nhiễu Gaussian trong huấn luyện, phương pháp của chúng em đã thể hiện cải thiện hiệu suất đáng kể trên nhiều loại nhiễu khác nhau, từ nhiễu speckle, Poisson, salt and pepper, đến nhiễu Gaussian không gian, nhiễu hình ảnh được render bằng Monte Carlo, nhiễu ISP, và các hỗn hợp phức tạp của nhiều nguồn nhiễu.

    CHƯƠNG 19. Hình 2.1 Chúng em minh hoạ tổng quát hoá của các mạng khử  nhiễu: huấn luyện mô hình SwinIR trên nhiễu Gaussian với σ = 15
    CHƯƠNG 19. Hình 2.1 Chúng em minh hoạ tổng quát hoá của các mạng khử nhiễu: huấn luyện mô hình SwinIR trên nhiễu Gaussian với σ = 15

    Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu

    Kể từ năm 2020, thiết kế mạng thị giác đã chuyển hướng từ mạng CNN sang Transformer1.Các Transformer thị giác xem xét các pixel đầu vào như token và áp dụng thao tác tự chú ý để xử lý tương tác giữa chúng. Vấn đề tổng quát hóa trong thị giác cấp thấp thường nảy sinh khi có sự không phù hợp giữa suy thoái trong kiểm tra và suy thoái trong quá trỡnh huấn luyện, vớ dụ như trong siờu phõn giải với cỏc lừi giảm mẫu khỏc nhau. Các mô hình khử nhiễu sâu thường được phát triển dựa trên nhiễu Gaussian trong môi trường phòng thí nghiệm, nhưng nhiễu trong thực tế thường không phải là Gaussian.

    Phương pháp đầu tiên là phát triển bộ dữ liệu huấn luyện sao cho mô hình nhiễu càng gần với thực tế càng tốt, bao gồm tổng hợp nhiễu theo mô hình hệ thống vật lý, học cách tạo ra nhiễu thực, và thu thập cặp nhiễu thực – hình ảnh sạch cho huấn luyện. Tuy nhiên, đã có ít nỗ lực thành công trong việc áp dụng mô hình hóa hình ảnh với dữ liệu bị mặt nạ cho thị giác cấp thấp, mặc dù phương pháp tiền huấn luyện này phù hợp với các nhiệm vụ thị giác cấp thấp.

    Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ

      Chúng em tổng hợp dữ liệu huấn luyện dưới dạng cặp sử dụng nhiễu Gaussian, sau đó đánh giá hiệu suất của mô hình trên hình ảnh tự nhiên với nhiễu Gaussian. Theo giả thuyết của chúng em, nếu mô hình học nội dung và tái tạo ngữ nghĩa của hình ảnh từ bộ dữ liệu huấn luyện, nó không nên hoạt động tốt trên hình ảnh tự nhiên, vì nó không được tiếp xúc với bất kỳ hình ảnh tự nhiên nào. Nếu mô hình chỉ đơn thuần quá khớp với nhiễu, nó có thể loại bỏ nhiễu ngay cả khi hình ảnh khác biệt, vì mô hình chủ yếu dựa vào việc phát hiện nhiễu để giảm nhiễu.

      Ngược lại, phương pháp của chúng em nhấn mạnh vào việc tái tạo kết cấu và cạnh của hình ảnh tự nhiên nhìn thấy trong bộ dữ liệu huấn luyện, thay vì dựa vào quá khớp nhiễu để giảm nhiễu. Kết quả được trình bày trong Hình 2.2 Như quan sát, SwinIR huấn luyện trên hình ảnh miễn dịch hóa học vẫn có thể giảm nhiễu và tái tạo hình ảnh tự nhiên. Điều này hỗ trợ giả thuyết của chúng em về khả năng tổng quát hóa, cho thấy hầu hết các phương pháp hiện tại thực hiện giảm nhiễu bằng cách quá khớp với nhiễu huấn luyện.

      Trong quá trình huấn luyện, chúng em che một phần của các pixel đầu vào và sau đó huấn luyện mạng sâu để hoàn thiện chúng, như được minh họa trong Hình 2.3. Rừ ràng là cỏch tiếp cận của chúng em tìm cách tái tạo kết cấu hình ảnh miễn dịch hóa học từ bộ dữ liệu huấn luyện trên hình ảnh kiểm tra tự nhiên, thay vì dựa vào quá khớp với nhiễu để giảm nhiễu. Trong phương pháp của chúng em, một lớp tích chập với kích thước nhân tử là 1 được sử dụng như một mô-đun nhúng đặc trưng để chiếu các giá trị pixel 3 kênh vào các token đặc trưng C-chiều.

      Mặt Nạ Đầu Vào (The Input Mask) ngẫu nhiên che giấu các token đặc trưng được nhúng bởi lớp tích chập đầu tiên và khuyến khích mạng lưới hoàn thiện thông tin bị che giấu trong quá trình huấn luyện. Do cơ chế của Transformer là dựa vào thao tác chú ý để xử lý thông tin không gian, chúng em có thể giảm bớt sự khác biệt giữa huấn luyện và kiểm tra bằng cách áp dụng thao tác mặt nạ tương tự trong quá trình chú ý. Khi một số token không còn đáng tin cậy do bị mặt nạ trong quá trình chú ý, thao tác chú ý sẽ điều chỉnh để tập trung vào các token không bị mặt nạ và bổ sung thông tin cho những phần bị mặt nạ.

      CHƯƠNG 31. Hình 2.2 SwinIR, khi chỉ được huấn luyện trên hình ảnh miễn
      CHƯƠNG 31. Hình 2.2 SwinIR, khi chỉ được huấn luyện trên hình ảnh miễn

      THỰC NGHIỆM VÀ ĐÁNH GIÁ 58.1. Cài đặt huấn luyện

      • Kết quả và Đánh giá
        • Phân tích Tổng quát hóa
          • Cài đặt

            Do quá trình huấn luyện sử dụng nhiễu Gaussian, chúng em đánh giá khả năng tổng quát hóa của các mô hình trên sáu loại nhiễu tổng hợp khác: (1) Nhiễu Speckle, một loại nhiễu xuất hiện trong quá trình thu thập hình ảnh y tế hoặc hình ảnh cắt lớp. Qua quan sát, chúng em nhận thấy rằng thiếu vắng mặt nạ đầu vào làm giảm đáng kể khả năng tổng quát hóa của mô hình, dẫn đến việc không thể loại bỏ hiệu quả nhiễu không nằm trong bộ dữ liệu huấn luyện. Mặt khác, việc không sử dụng mặt nạ chú ý lại dẫn đến sự không nhất quán giữa quá trình huấn luyện và kiểm tra, ảnh hưởng tiêu cực đến hiệu suất lượng tính và gây ra sự thay đổi không mong muốn về độ sáng trong hình ảnh đầu ra.

            Tuy nhiên, điều đáng chú ý là ngay cả khi không áp dụng mặt nạ chú ý, khả năng tổng quát hóa của mô hình vẫn không bị ảnh hưởng nghiêm trọng, và mô hình vẫn có khả năng loại bỏ hầu hết nhiễu một cách hiệu quả. Gaussian duy nhất, nhưng chúng em đã mở rộng phạm vi kiểm tra bằng cách áp dụng nhiều loại nhiễu không Gaussian, nhằm cung cấp một đánh giá toàn diện về khả năng ứng dụng thực tế của mô hình. Điều này chứng tỏ rằng mô hình của chúng em có khả năng thích ứng tốt hơn với sự biến đổi của nhiễu, giữ vững hiệu suất trong khi các mô hình khác lại gặp phải sự suy giảm hiệu suất đáng kể.

            Mặc dù mô hình của chúng en chỉ được huấn luyện trên nhiễu Gaussian với một độ lệch chuẩn cố định, nhưng nó vẫn đạt được kết quả giảm nhiễu ấn tượng, thậm chí cả trong các trường hợp nhiễu chưa từng xuất hiện trong quá trình huấn luyện. Những kết quả chi tiết hơn và so sánh trực quan được trình bày trong tài liệu bổ sung, cung cấp cái nhìn sâu sắc hơn về hiệu suất và khả năng ứng dụng của phương pháp giảm nhiễu này. Để tìm ra sự khác biệt của cách huấn luyện mặt nạ so với chiến lược huấn luyện thông thường, chúng em sử dụng phương pháp căn chỉnh nhân tâm (centered kernel alignment - CKA) để phân tích sự khác biệt giữa các biểu diễn mạng thu được từ hai phương pháp huấn luyện này.

            Để khám phá cách các mô hình hoạt động trên các loại nhiễu khác nhau, Hình 3.8.b cho thấy so sánh chéo giữa nhiễu trong phân phối và nhiễu nằm ngoài phân phối, như nhiễu Gaussian và Poisson. Đối với mô hình cơ bản, chúng em quan sát thấy mối tương quan thấp giữa các loại nhiễu khác nhau ở các lớp sâu, cho thấy mạng xử lý hai loại nhiễu này theo các cách khác nhau ở các lớp sâu. Hiện tượng này có thể là do phương pháp cơ bản khiến các lớp sâu của mô hình quá khớp với các mẫu của bộ dữ liệu huấn luyện, từ đó hạn chế khả năng tổng quát hóa của chúng để xử lý các loại nhiễu khác nhau.

            Phương pháp huấn luyện che giấu buộc mạng học phân phối cơ bản của chính hình ảnh, làm cho mô hình mạnh mẽ hơn đối với các loại nhiễu khác nhau và tăng cường khả năng tổng quát hóa của nó. Quá trình khử nhiễu được thực hiện tự động sử dụng mô hình được huấn luyện với chiến lược huấn luyện mặt nạ tiên tiến của chúng em, mang lại kết quả đáng chú ý ngay cả trên những hình ảnh phức tạp nhất.

            Bảng 3.1 Tầm quan trọng của việc  Bảng 3.2 Nghiên cứu sâu về tỷ lệ  sử dụng các thao tác mặt nạ khác nhau mặt nạ chú ý.
            Bảng 3.1 Tầm quan trọng của việc Bảng 3.2 Nghiên cứu sâu về tỷ lệ sử dụng các thao tác mặt nạ khác nhau mặt nạ chú ý.