đồ án 2 tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh

52 4 0
Tài liệu đã được kiểm tra trùng lặp
đồ án 2 tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

D8ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHẦN MỀM

ĐỒ ÁN MÔN HỌCĐỒ ÁN 2

TÌM HIỂU VÀ XÂY DỰNG ỨNG DỤNG VỀ KHỬNHIỄU HÌNH ẢNH

Giảng viên hướng dẫn :ThS Huỳnh Tuấn Anh Sinh viên thực hiện 1 :Châu Đức Hiệp

Mã sinh viên 1: 20520499

Sinh viên thực hiện 2 :Trần Nam Khánh Mã sinh viên 2: 20520577

Trang 2

Bên cạnh đó, chúng em xin cảm ơn các bạn bè trong lớp đã động viên, thảo luận vàgóp ý cho nhóm đồng thời đã khơi thêm nguồn động lực cho nhóm trong suốt quátrình đầy khó khăn.

Mặc dù đã cố gắng hoàn thành báo cáo với tất cả nỗ lực song báo cáo của nhómchúng em chắc chắn không tránh khỏi những thiếu sót, em rất mong nhận được sựthông cảm và góp ý chân thành từ thầy Nhóm em xin chân thành cảm ơn.

Nhóm sinh viên thực hiện:

Châu Đức HiệpTrần Nam Khánh

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

Trang 4

TÓM TẮT

Đồ án với đề tài "Tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh" nhằm giải quyết một trong những thách thức cố hữu trong lĩnh vực xử lý hình ảnh: nhiễu Khi chụp và lưu trữ hình ảnh, các thiết bị không tránh khỏi việc giới thiệu nhiễu vào hình ảnh, làm giảm chất lượng hình ảnh Việc giảm thiểu nhiễu, haykhử nhiễu, trở thành một nhiệm vụ quan trọng.

Trong đồ án này, chúng em áp dụng phương pháp học sâu, được công nhận rộng rãi như một phương pháp tiêu chuẩn cho nhiệm vụ khử nhiễu Đặc biệt, với sự phát triển của các mô hình dựa trên Transformer, đã có những bước tiến đáng kể trong lĩnh vực này, đạt được kết quả nổi bật trên nhiều tác vụ liên quan đến hình ảnh Tuy nhiên, một hạn chế lớn của các phương pháp này là khả năng tổng quát hóa Ví dụ, mô hình được huấn luyện để xử lý nhiễu Gaussian có thể không hiệu quả khi áp dụng cho các loại nhiễu khác.

Để giải quyết vấn đề này, chúng em giới thiệu một cách tiếp cận mới: huấn luyện che mặt nạ Cách tiếp cận này bao gồm việc che mặt nạ các điểm ảnh ngẫu nhiên trong hình ảnh đầu vào và sau đó tái tạo các thông tin thiếu trong quá trình huấn luyện Bằng cách này, mô hình có thể học cách xử lý nhiễu mà không bị ảnh hưởng bởi sự không nhất quán giữa dữ liệu huấn luyện và thực tế Điều này cải thiện đáng kể khả năng tổng quát hóa của mô hình Chúng em cũng thực hiện che mặt nạ các tính năng trong các lớp tự chú ý, giúp mô hình tránh khỏi ảnh hưởng củasự không nhất quán giữa huấn luyện và thử nghiệm.

Kết quả thử nghiệm cho thấy, phương pháp của chúng em không chỉ thể hiệnkhả năng tổng quát hóa tốt hơn so với các mô hình học sâu khác mà còn có khả năng áp dụng trực tiếp trong các tình huống thực tế Phân tích khả năng giải thích của chúng em cũng chứng minh sự vượt trội của phương pháp này so với các phương pháp truyền thống.

Trang 5

Đồ án này cung cấp một cái nhìn sâu sắc về cách tiếp cận khử nhiễu hình ảnhmới và hiệu quả, cung cấp một hướng đi mới mẻ cho việc xử lý nhiễu trong các tác vụ xử lý hình ảnh Cuối cùng, báo cáo chi tiết các kết quả đã đạt được và đề xuất hướng phát triển cho hệ thống và phương pháp trong tương lai.

Nội dung đồ án được trình bày trong 5 chương:- Chương 01: Tổng quan

Trình bày sơ bộ về thực trạng, nhu cầu thực tế Xác định mục tiêu và phạm viđề tài.

- Chương 02: Cơ sở lý thuyết, tổng quan công nghệ

Giớ thiệu về giải thuật, những công nghệ, nền tảng được sử dụng trong đồ án.

- Chương 03: Thực nghiệm và đánh giáThiết kế, hiện thực và triển khai ứng dụng.- Chương 04: Kết luận

Những kết quả đạt được sau khi kết thúc đồ án Những hạn chế, khó khăn trong quá trình phát triển đồ án và nêu ra hướng phát triển trong tương lai.

Trang 6

2.2 Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu 8

2.3 Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ 10

2.3.1 Động lực 10

2.3.2 Kiến trúc Transformer 13

2.3.3 Đào tạo mặt nạ 14

Chương 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 17

3.1 Cài đặt huấn luyện 17

3.1.1 Cấu hình huấn luyện 17

3.1.2 Nhiễu khi kiễm tra 19

Trang 7

3.2.1 Nghiên cứu sâu 22

3.2.2 Hiệu suất Tổng quát hóa 24

3.2.3 Đánh giá nhiễu ISP 26

3.2.4 Đánh giá trên nhiễu Render Monte Carlo 27

3.3 Phân tích Tổng quát hóa 29

3.3.1 Đường cong huấn luyện 29

Trang 8

DANH MỤC TỪ VIẾT TẮT

6 LPIS Learned Perceptual Image Patch Similarity

Trang 9

CHƯƠNG 1 TỔNG QUAN1.1.Khảo sát hiện trạng

1.1.1.Nhu cầu thực tế đề tài

CHƯƠNG 2. Tầm quan trọng của việc xử lý nhiễu ảnh: Nhiễu ảnh làmột vấn đề phổ biến trong nhiều lĩnh vực, từ y tế (chẳng hạn trong chẩn đoán hìnhảnh) đến an ninh (nhận dạng khuôn mặt, giám sát video) Nhiễu có thể xuất hiện donhiều nguyên nhân khác nhau, bao gồm điều kiện ánh sáng không lý tưởng, chấtlượng cảm biến thấp, hoặc thậm chí do quá trình truyền và lưu trữ dữ liệu Điều nàylàm suy giảm chất lượng hình ảnh, ảnh hưởng đến việc phân tích và xử lý thông tin.

CHƯƠNG 3. Các phương pháp hiện hành và giới hạn của chúng: Cácphương pháp truyền thống như bộ lọc Gaussian, Median, và Wiener đã được sửdụng rộng rãi để giảm nhiễu, nhưng chúng thường không hiệu quả với nhiễu phứctạp hoặc trong trường hợp cần bảo toàn chi tiết hình ảnh Mặt khác, các phươngpháp dựa trên học sâu, mặc dù hiệu quả hơn, vẫn cần sự cải thiện về khả năng tổngquát hóa để xử lý đa dạng các loại nhiễu.

3.1.1.Khảo sát một số ứng dụng hiện có3.1.1.1.Denoise it – AI Photo Enhancer (Android)

1 Tổng quan

CHƯƠNG 4. Một ứng dụng mạnh mẽ cho phép người dùng loại bỏ nhiễu và cải thiện chất lượng ảnh một cách tự động Nó sử dụng công nghệ AI để phân tích và xử lý ảnh, loại bỏ nhiễu mà không làm mất đi chi tiết quan trọng Đặc biệt, ứng dụng này cho phép người dùng chọn lựa các khu vực cụ thể trong ảnh để loại bỏ nhiễu thông qua "Denoise Brush".

Trang 10

2 Chức năng

CHƯƠNG 5.

CHƯƠNG 6. Hình 1.1: Chức năng chính của Denoise it(Khử nhiễu )

6.1.1.1.Adobe Photoshop1 Tổng quan

CHƯƠNG 7. Adobe Photoshop là phần mềm chỉnh sửa ảnh hàng đầu được phát triển bởi Adobe Systems Nổi tiếng với khả năng chỉnh sửa mạnh mẽ, nó cung cấp các công cụ cho cắt, ghép và điều chỉnh màu sắc Trong lĩnh vực xóa nhiễu ảnh,Photoshop sở hữu tính năng "Reduce Noise" hiệu quả, giúp loại bỏ nhiễu mà không làm mất chi tiết Phần mềm này còn tích hợp với các sản phẩm khác của Adobe, tạo quy trình làm việc liền mạch Cập nhật liên tục và tích hợp đám mây thông qua Adobe Creative Cloud làm tăng tính tiện lợi và linh hoạt.

Trang 11

CHƯƠNG 8.

CHƯƠNG 9. Hình 1.2: Chức năng khử nhiễu của photoshop

9.1.Lí do thực hiện đề tài

CHƯƠNG 10. Nhu cầu cải thiện: Trong thời đại số hóa, việc cải thiện chất

lượng hình ảnh trở nên quan trọng hơn bao giờ hết Nhiễu ảnh không chỉ ảnh hưởng đến thẩm mỹ mà còn làm giảm độ chính xác của các phân tích và ứng dụng dựa trên hình ảnh Các phương pháp truyền thống không còn đáp ứng hiệu

Trang 12

quả nhu cầu này, đặc biệt trong các tình huống phức tạp Nghiên cứu mới về phương pháp huấn luyện mặt nạ (masked training) đã chứng minh tiềm năng trong việc tăng cường khả năng tổng quát hóa của các mạng giảm nhiễu, đưa ra giải pháp hiệu quả hơn cho vấn đề nhiễu ảnh trong môi trường đa dạng và khôngxác định.

CHƯƠNG 11. Tiềm năng của deep learning: Deep learning mở ra cơ hội

mới để giải quyết vấn đề nhiễu ảnh Với khả năng học từ dữ liệu lớn và khả năngmô phỏng các tình huống phức tạp, Deep learning có tiềm năng cải thiện đáng kể hiệu suất và độ chính xác trong việc loại bỏ nhiễu Điều này không chỉ giúp cải thiện chất lượng hình ảnh mà còn mở rộng ứng dụng của công nghệ xử lý ảnh Cụ thể, kết quả thực nghiệm từ báo cáo chỉ ra rằng phương pháp mới có thểvượt trội hơn các phương pháp hiện đại khác trong việc xử lý các loại nhiễu khác nhau, từ Gaussian đến speckle và Poisson, mở ra khả năng áp dụng trong nhiều lĩnh vực khác nhau từ y tế đến an ninh.

CHƯƠNG 12.

12.1.Mục tiêu

- Hiểu rõ về vấn đề nhiễu trong ảnh: Nghiên cứu và phân tích các loại

nhiễu thường gặp trong hình ảnh, từ nguồn gốc đến cách thức ảnh hưởng tới chất lượng hình ảnh Điều này bao gồm nhiễu do thiết bị (như nhiễu ISO cao trong máy ảnh), nhiễu do môi trường (như nhiễu do ánh sáng yếu), và nhiễu trong quá trình xử lý hoặc truyền dữ liệu Chủ hệ thống có thể phát triển dễ dàng với chi phí thấp.

- Tìm hiểu các phương pháp khử nhiễu hiện đại: Đánh giá các kỹ thuật

khử nhiễu hiện nay, đặc biệt là các phương pháp dựa trên học sâu, như mạng nơ-ron tích chập, mạng nơ-ron đối xứng (GANs), và các kỹ thuật

Trang 13

xử lý ảnh tiên tiến khác Phân tích ưu nhược điểm của từng phương pháp trong việc xử lý các loại nhiễu khác nhau

- Xây dựng một ứng dụng demo: Phát triển một ứng dụng demo có khả

năng khử nhiễu hình ảnh dựa trên một hoặc nhiều kỹ thuật được nghiên cứu Mục tiêu là tạo ra một ứng dụng thân thiện với người dùng, có thể hiển thị trực quan sự khác biệt trước và sau khi xử lý nhiễu.

12.1.1.Đối tượng sử dụngCHƯƠNG 13. Phân loại đối tượng:

- Nhà nghiên cứu và học giả: Đối tượng này quan tâm đến việc khám phá và áp dụng các công nghệ mới nhằm cải thiện các phương pháp xử lý ảnh hiện tại.

- Nhà phát triển công nghệ: Các nhà phát triển công nghệ có thể tận dụng nghiên cứu này để tích hợp vào các sản phẩm và dịch vụ của họ, từ ứng dụngdi động đến hệ thống an ninh và y tế.

- Ngành công nghiệp yêu cầu chất lượng hình ảnh cao: Như trong y tế (chẩn đoán hình ảnh), an ninh (nhận diện khuôn mặt, giám sát video), và nhiếp ảnh,nơi chất lượng hình ảnh là yếu tố then chốt.

CHƯƠNG 14.CHƯƠNG 15.

Trang 14

CHƯƠNG 16.CƠ SỞ LÝ THUYẾT, TỔNG QUAN CÔNG NGHỆ16.1.Khử nhiễu hình ảnh

CHƯƠNG 17. Khử nhiễu ảnh đóng vai trò trọng yếu trong ngành nghiên cứu ảnh số, nhằm mục tiêu chính là khôi phục hình ảnh sạch từ những hình ảnh chứa nhiễu Với bước tiến vượt bậc của học sâu, ngành công nghiệp đã chứng kiến sự ra đời của nhiều mô hình khử nhiễuảnh hứa hẹn Các mô hình này, thường được huấn luyện bằng hình ảnh tổng hợp dựa trên phân phối nhiễu cố định, đã thể hiện khả năng loại bỏ nhiễu một cách ấn tượng Tuy nhiên, khi áp dụng vào thực tế, khả năng tổng quát hóa của chúng lại trở thành một thách thức lớn Phân phối nhiễutrong môi trường thực tế có thể rất khác so với dữ liệu huấn luyện, gây khó khăn cho các mô hình trong việc thích nghi với những tình huống như vậy.

-CHƯƠNG 19. Hình 2.1 Chúng em minh hoạ tổng quát hoá của các mạng khử nhiễu: huấn luyện mô hình SwinIR trên nhiễu Gaussian với σ = 15 Khi kiểm tratrên cùng loại nhiễu, SwinIR đạt hiệu suất đáng kể Tuy nhiên, khi áp dụng cho

Trang 15

nhiễu nằm ngoài phạm vi huấn luyện, ví dụ như hỗn hợp của các loại nhiễu khácnhau, SwinIR gặp phải sự giảm hiệu suất đáng kể Mô hình được huấn luyện bằng theo phương pháp mặt nạ mà chúng em phát triển vẫn giữ nguyên khả nănggiảm nhiễu ổn định, ngay cả khi nó cũng được huấn luyện trên nền của nhiễu Gaussian

CHƯƠNG 20. Các nghiên cứu khử nhiễu hiện tại chủ yếu tập trung vàoviệc huấn luyện và đánh giá mô hình trên dữ liệu bị ảnh hưởng bởi nhiễu Gaussian, hạn chế khả năng xử lý các loại nhiễu khác Khi những mô hình này được áp dụng

cho việc loại bỏ nhiễu từ các nguồn khác nhau, hiệu suất giảm đáng kể (ví dụ Hình

2.1) Cộng đồng nghiên cứu ngày càng nhận thức về vấn đề tổng quát hóa của mô

hình học sâu Một số phương pháp đã được đề xuất, chẳng hạn như giả định mức độnhiễu không xác định hoặc cố gắng cải thiện hiệu suất trong thực tế bằng cách huấn luyện trên dữ liệu gần hơn với nhiễu mục tiêu Tuy nhiên, những phương pháp này chưa thể cải thiện đáng kể hiệu suất tổng quát hóa của các mạng giảm nhiễu, đặc biệt khi phân phối nhiễu không phù hợp.

CHƯƠNG 21. Trong nghiên cứu này, chúng em đặt mục tiêu nâng cao khả năng tổng quát hóa của mô hình khử nhiễu sâu, qua đó xác định khả năng tổng quát hóa là hiệu suất của mô hình với các loại nhiễu khác so với trong quá trình huấn luyện Chúng em nhận định rằng vấn đề tổng quát hóa này xuất phát từ việc mô hình quá khớp với nhiễu trong quá trình huấn luyện Chiến lược huấn luyện hiệntại, tập trung vào việc tối ưu hóa sự tương đồng giữa hình ảnh khử nhiễuvà hình ảnhgốc, thường bỏ qua rằng mô hình có thể giảm thiểu lỗi bằng cách học mẫu nhiễu, thay vì nội dung hình ảnh Điều này trở thành nguyên nhân chính gây ra vấn đề tổngquát hóa Để giải quyết điều này, chúng em áp dụng chiến lược huấn luyện mặt nạ, lấy cảm hứng từ các phương pháp mô hình hóa mặt nạ mới, nhằm tập trung vào việchọc cách tái tạo nội dung hình ảnh thay vì nhiễu Sử dụng đặc tính của Transformer

Trang 16

trong xử lý hình ảnh, chúng em giới thiệu hai cơ chế mặt nạ: mặt nạ đầu vào và mặt nạ chú ý Trong quá trình huấn luyện, mặt nạ đầu vào loại bỏ ngẫu nhiên các pixel, và mạng lưới tái tạo những pixel bị loại bỏ Mặt nạ chú ý, được tích hợp trong từng lớp tự chú ý của Transformer, cho phép mô hình học cách hoàn thiện các đặc trưng bị mặt nạ một cách linh hoạt, giảm thiểu sự chênh lệch phân phối giữa huấn luyện và kiểm tra Dù sử dụng nhiễu Gaussian trong huấn luyện, phương pháp của chúng em đã thể hiện cải thiện hiệu suất đáng kể trên nhiều loại nhiễu khác nhau, từ nhiễu speckle, Poisson, salt and pepper, đến nhiễu Gaussian không gian, nhiễu hình ảnh được render bằng Monte Carlo, nhiễu ISP, và các hỗn hợp phức tạp của nhiều nguồn nhiễu Các phương pháp và mô hình hiện tại chưa thể loại bỏ hiệu quả và chính xác tất cả các mẫu nhiễu đa dạng này.

21.1.Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu

CHƯƠNG 22. Các kỹ thuật khử nhiễu ảnh chủ yếu rơi vào hai nhóm lớn: các phương pháp truyền thống dựa trên mô hình và phương pháp học sâu dựa trên dữ liệu Phương pháp truyền thống tập trung vào mô hình hóa các nguyên tắc cơ bản của hình ảnh để khôi phục nội dung từ hình ảnh bị ảnh hưởng bởi nhiễu Những phương pháp này linh hoạt trong việc xử lý các loại nhiễu khác nhau và đã chứng minh hiệu quả trong việc tổng quát hóa Tuy nhiên, chúng lại không đáp ứng đủ yêu cầu về tái tạo nội dung hình ảnh Gần đây, xu hướng giảm nhiễu đã chuyển dần sang sử dụng các phương pháp dựa trên dữ liệu trong học sâu, với nhiều kỹ thuật được phát triển nhằm cải thiện khả năng của các mạng giảm nhiễu Các phương pháp này bao gồm sử dụng mạng dư, mạng dày đặc, mạng đệ quy, kỹ thuật đa quy mô, cấu trúc mã hóa-giải mã, thao tác chú ý, tự tương đồng, và thao tác không gian.

Trang 17

CHƯƠNG 23. Kể từ năm 2020, thiết kế mạng thị giác đã chuyển hướng từ mạng CNN sang Transformer1.Các Transformer thị giác xem xét các pixelđầu vào như token và áp dụng thao tác tự chú ý để xử lý tương tác giữa chúng Lấy cảm hứng từ thành công của các Transformer thị giác, đã có nhiều nỗ lực nhằm áp dụng chúng cho các nhiệm vụ thị giác cấp thấp Trong quá trình phát triển các mô hình này, loại nhiễu được sử dụng cho huấn luyện thường tương đồng với nhiễu trong kiểm tra Điều quyết định hiệu suất giảm nhiễu chính là khả năng của mạng lưới trong việc tập trung vào nhiễu huấn luyện Tuy nhiên, một mạng hiệu quả hơn không nhất thiết có nghĩa là có khả năng tổng quát hóa tốt hơn Nghiên cứu sẽ cho thấy, một mạng hiệu quả hơn có thể chỉ ra hiệu suất tổng quát hóa kém hơn.

CHƯƠNG 24. Vấn đề tổng quát hóa trong thị giác cấp thấp thường nảysinh khi có sự không phù hợp giữa suy thoái trong kiểm tra và suy thoái trong quá trình huấn luyện, ví dụ như trong siêu phân giải với các lõi giảm mẫu khác nhau Các mô hình khử nhiễu sâu thường được phát triển dựa trên nhiễu Gaussian trong môi trường phòng thí nghiệm, nhưng nhiễu trong thực tế thường không phải là Gaussian Mô hình huấn luyện trên nhiễu Gaussian không hiệu quả trong các tình huống nhiễu không Gaussian Có hai phương pháp chính để giải quyết vấn đề này Phương pháp đầu tiên là phát triển bộ dữ liệu huấn luyện sao cho mô hình nhiễu càng gần với thực tế càng tốt, bao gồm tổng hợp nhiễu theo mô hình hệ thống vật lý, học cách tạo ra nhiễu thực, và thu thập cặp nhiễu thực – hình ảnh sạch cho huấn luyện Mặc dù các mô hình thu được từ các phương pháp này có thể cải thiện hiệu suất trên nhiễu mục tiêu, chúng vẫn không thể tổng quát hóa cho nhiễu nằm ngoài phân phối Phương pháp thứ hai là phát triển các mô hình giảm nhiễu "mù", có khả năng xử lý nhiễu không xác định, dựa trên giả định rằng mức độ nhiễu không biết

Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, et al An image is worth16x16 words: Trans- formers for image recognition at scale arXiv preprint arXiv:2010.11929, 2020.

Trang 18

trước hoặc huấn luyện trên nhiều loại nhiễu khác nhau Những nỗ lực này cũng không thể tổng quát hóa cho nhiễu không có trong bộ dữ liệu huấn luyện.

CHƯƠNG 25.

CHƯƠNG 26. Các mô hình hóa mặt nạ trong ngôn ngữ đã thành công trong việc học các biểu diễn tiền huấn luyện, tổng quát hóa tốt cho nhiều nhiệm vụ xuôi dòng Các phương pháp này che một phần của chuỗi đầu vào và huấn luyện mô hình để dự đoán nội dung bị thiếu Cách tiếp cận tương tự có thể áp dụng cho tiền huấn luyện mô hình thị giác Các mô hình hình ảnh với dữ liệu bị mặt nạ học các biểu diễn từ hình ảnh bị hỏng Những nỗ lực đầu tiên trong lĩnh vực này có thể truy cứu từ bộ mã hóa-giải mã giảm nhiễu Kể từ đó, nhiều công trình đã sử dụng việc dự đoán các phần còn thiếu của hình ảnh để học các biểu diễn hình ảnh hiệu quả Tuy nhiên, đã có ít nỗ lực thành công trong việc áp dụng mô hình hóa hình ảnhvới dữ liệu bị mặt nạ cho thị giác cấp thấp, mặc dù phương pháp tiền huấn luyện này phù hợp với các nhiệm vụ thị giác cấp thấp.

26.1.Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ

CHƯƠNG 27. Mục tiêu chính của chúng em là tạo ra các mô hình khử nhiễu có khả năng tổng quát hóa với nhiễu không gặp trong bộ dữ liệu huấn luyện Trong phần này, trước khi đi sâu vào chi tiết phương pháp huấn luyện mặt nạ của chúng em, chúng em sẽ thảo luận về động lực đằng sau nghiên cứu.

27.1.1.Động lực

CHƯƠNG 28. Khi huấn luyện mạng sâu trên một lượng lớn hình ảnh, kỳ vọng là mạng sẽ học được cách phân biệt sự phong phú về ngữ nghĩa của hình ảnh tự nhiên từ những trường hợp kiểm tra bị nhiễm nhiễu Tuy nhiên, một số nghiên cứu đã chỉ ra rằng ngữ nghĩa và kiến thức mà mạng thị giác cấp thấp thu được khác biệt đáng kể so với kỳ vọng của chúng ta Chúng em lập luận rằng khả năng tổng quát hóa kém của các mô hình giảm nhiễu là do phương pháp huấn luyện

Trang 19

của chúng em, khiến mô hình tập trung vào việc quá khớp với nhiễu huấn luyện hơnlà học tái tạo hình ảnh

CHƯƠNG 29. Chúng em dựa trên huấn luyện một mạng giảm nhiễu SwinIR sử dụng hình ảnh rất khác biệt so với hình ảnh tự nhiên (hình ảnh miễn dịchhóa học) Chúng em tổng hợp dữ liệu huấn luyện dưới dạng cặp sử dụng nhiễu Gaussian, sau đó đánh giá hiệu suất của mô hình trên hình ảnh tự nhiên với nhiễu Gaussian Theo giả thuyết của chúng em, nếu mô hình học nội dung và tái tạo ngữ nghĩa của hình ảnh từ bộ dữ liệu huấn luyện, nó không nên hoạt động tốt trên hình ảnh tự nhiên, vì nó không được tiếp xúc với bất kỳ hình ảnh tự nhiên nào Nếu mô hình chỉ đơn thuần quá khớp với nhiễu, nó có thể loại bỏ nhiễu ngay cả khi hình ảnhkhác biệt, vì mô hình chủ yếu dựa vào việc phát hiện nhiễu để giảm nhiễu.

CHƯƠNG 30.

CHƯƠNG 31. Hình 2.2 SwinIR, khi chỉ được huấn luyện trên hình ảnh miễn

dịch hóa học với nhiễu Gaussian, vẫn có khả năng giảm nhiễu cho hình ảnh tự nhiên Quan sát này củng cố nhận định rằng hầu hết các phương pháp hiện tại

Ground truthDenoised by SwinIR

Trang 20

thực hiện việc giảm nhiễu chủ yếu bằng cách quá khớp với nhiễu trong quá trình huấn luyện Ngược lại, phương pháp của chúng em nhấn mạnh vào việc táitạo kết cấu và cạnh của hình ảnh tự nhiên nhìn thấy trong bộ dữ liệu huấn luyện, thay vì dựa vào quá khớp nhiễu để giảm nhiễu Sự khác biệt này làm nổi bật điểm cơ bản phân biệt phương pháp của chúng em với các cách tiếp cận trước đây.

CHƯƠNG 32. Kết quả được trình bày trong Hình 2.2 Như quan sát, SwinIR huấn luyện trên hình ảnh miễn dịch hóa học vẫn có thể giảm nhiễu và tái tạo hình ảnh tự nhiên Điều này hỗ trợ giả thuyết của chúng em về khả năng tổng quát hóa, cho thấy hầu hết các phương pháp hiện tại thực hiện giảm nhiễu bằng cáchquá khớp với nhiễu huấn luyện Do đó, khi nhiễu lệch khỏi điều kiện huấn luyện, hiệu suất giảm nhiễu của các mô hình này giảm đáng kể.

CHƯƠNG 33. Kết quả này cũng truyền cảm hứng cho cách tiếp cận của chúng em trong việc phát triển các mô hình giảm nhiễu sâu với khả năng tổng quát hóa cao hơn Mục tiêu của chúng em là mô hình học cách tái tạo kết cấu và cấutrúc hình ảnh, thay vì chỉ tập trung vào nhiễu Trong bài nghiên cứu này, chúng em đề xuất một chiến lược huấn luyện mặt nạ mới cho các mạng giảm nhiễu Trong quátrình huấn luyện, chúng em che một phần của các pixel đầu vào và sau đó huấn luyện mạng sâu để hoàn thiện chúng, như được minh họa trong Hình 2.3 Cách tiếp cận của chúng em nhấn mạnh việc tái tạo kết cấu hình ảnh tự nhiên và các cạnh quan sát được trong hình ảnh, thay vì quá khớp với nhiễu Trong Hình 2.3, chúng em cũng trình bày kết quả của phương pháp của mình Rõ ràng là cách tiếp cận của chúng em tìm cách tái tạo kết cấu hình ảnh miễn dịch hóa học từ bộ dữ liệu huấn luyện trên hình ảnh kiểm tra tự nhiên, thay vì dựa vào quá khớp với nhiễu để giảm nhiễu Điều này chứng minh tiềm năng của ý tưởng này trong việc cải thiện hiệu suất tổng quát hóa Bằng cách huấn luyện phương pháp của chúng em trên hình ảnh

Trang 21

tự nhiên, nó sẽ tập trung vào việc tái tạo nội dung của hình ảnh tự nhiên, phù hợp với khái niệm cốt lõi của chúng em về việc sử dụng học sâu cho các nhiệm vụ thị giác cấp thấp.

CHƯƠNG 34.

CHƯƠNG 35. Hình 2.3 Minh họa chiến lược huấn luyện mặt nạ và hoàn

thiện được đề xuất Ngay cả khi một lượng lớn pixel bị mặt nạ, mô hình vẫn có khả năng tái tạo đầu vào đến một mức độ nào đó.

35.1.1.Kiến trúc TransformerCHƯƠNG 36.

CHƯƠNG 37.CHƯƠNG 38.CHƯƠNG 39.CHƯƠNG 40.CHƯƠNG 41.CHƯƠNG 42.CHƯƠNG 43.

CHƯƠNG 44. Hình 2.4 Kiến trúc Transformer trong phương pháp huấn

luyện mặt nạ mà chúng em đề xuất Chúng em chỉ thay đổi tối thiểu so với kiến

Trang 22

trúc SwinIR gốc – thao tác đặt mặt nạ đầu vào và các mặt nạ chú ý Các thiết kếvi mô khác không cơ bản khác biệt so với các Transformer khác.

CHƯƠNG 45. Phương pháp của chúng em tận dụng những đặc tính xuất sắc của thị giác Transformer (ViT), vì vậy chúng em sẽ mô tả kiến trúc

Transformer cơ bản được sử dụng trong nghiên cứu này Cơ chế cửa sổ dịch chuyển(Shifted windows) đã được chứng minh là linh hoạt và hiệu quả cho các nhiệm vụ xử lý hình ảnh – đây là cơ chế sử dụng các "cửa số trượt" sẽ giúp các patch ảnh không bị "bó cứng" khi phải seft attention trong 1 cửa sổ cục bộ mà sẽ có "cơ hội" được gặp và tính self attention cùng với các path khác trong 1 cửa sổ mới Chúng em chỉ thực hiện những thay đổi tối thiểu khi áp dụng nó vào phương pháp huấn luyện mặt nạ được đề xuất mà không mất đi tính tổng quát Mô hình này được minhhọa trong Hình 2.4 Transformer chia tín hiệu đầu vào thành các token và xử lý thông tin không gian sử dụng các lớp tự chú ý Trong phương pháp của chúng em, một lớp tích chập với kích thước nhân tử là 1 được sử dụng như một mô-đun nhúng đặc trưng để chiếu các giá trị pixel 3 kênh vào các token đặc trưng C-chiều Lớp tích chập này đảm bảo các pixel không tác động lẫn nhau trong quá trình nhúng đặc trưng, hỗ trợ cho việc mặt nạ sau này Các token đặc trưng này được tổ chức với kích thước H x W x C, với H, W và C lần lượt là chiều cao, chiều rộng và kích thước của đặc trưng Mô hình của chúng em sử dụng cơ chế cửa sổ dịch chuyển để tái cấu trúc bản đồ đặc trưng của mỗi khung thành HW

M2 × M2 ×C bằng cách phân

chia đầu vào thành các cửa sổ địa phương M x M không chồng chéo, nơi HW

M2 ×

M2×C là tổng số cửa sổ Chúng em thực hiện tự chú ý trên các token đặc trưng

cùng cửa sổ đó Vì vậy, M2 token được tham gia vào mỗi thao tác tự chú ý chuẩn, và từ đó tạo ra đặc trưng cửa sổ địa phương X ∈ RM X C Trong mỗi lớp tự chú ý, các thành phần truy vấn Q, khóa K và giá trị V được tính toán từ Q = XWQ, K = XWK,

Trang 23

V = XWV, nơi WQ, WK, WV ∈ RCxD là các ma trận trọng số và D là kích thước của các vector được chiếu Chúng em sau đó sử dụng Q để truy vấn K nhằm sinh ra bản đồ chú ý A = softmax(QKT/√D + B) ∈ RM×M , với B là mã hóa vị trí tương đối có thể học được Bản đồ chú ý A sau đó được sử dụng để tổng hợp có trọng số của M2 vector trong V Cài đặt đa đầu được điều chỉnh để phù hợp với SwinIR và ViT.

45.1.1.Đào tạo mặt nạ

CHƯƠNG 46. Huấn luyện mặt nạ: Quá trình huấn luyện mặt nạ của chúng emchủ yếu bao gồm hai phần: mặt nạ đầu vào và mặt nạ chú ý Mặc dù cả hai đều là các thao tác mặt nạ, mục đích của hai loại mặt nạ này là khác nhau Chúng emsẽ mô tả chúng một cách riêng biệt.

CHƯƠNG 47. Mặt Nạ Đầu Vào (The Input Mask) ngẫu nhiên che giấu các token đặc trưng được nhúng bởi lớp tích chập đầu tiên và khuyến khích mạng lưới hoàn thiện thông tin bị che giấu trong quá trình huấn luyện Mặt nạ đầu vào cụ thể tạo ra một vấn đề tô màu lại rất thách thức, như được minh họa trong

mạng lưới vẫn có khả năng tái tạo hình ảnh mục tiêu đến một mức độ nào đó Phương pháp này rất đơn giản Cho tensor token đặc trưng f ∈ RM X H X C, chúng em ngẫu nhiên thay thế token bằng [mask token] ∈ RC với xác suất pIM, nơi pIM

được gọi là tỷ lệ mặt nạ đầu vào Mạng lưới được huấn luyện dưới sự giám sát của norm-l của hình ảnh tái tạo và hình ảnh gốc [Mask token] có thể được học và khởi tạo với vector 0 Nhưng chúng em thực sự phát hiện ra rằng chính vector0 đã là một lựa chọn phù hợp Sự tồn tại của mặt nạ đầu vào buộc mạng lưới phải học cách nhận biết và tái tạo nội dung của hình ảnh từ thông tin rất hạn chế.

CHƯƠNG 48. Mặt Nạ Chú Ý: để xây dựng một mạng lưới xử lý hình ảnh có khả năng ứng dụng thực tế, việc chỉ dựa vào thao tác mặt nạ đầu vào là không

Trang 24

đủ Bởi trong quá trình kiểm tra, chúng em cần nhập hình ảnh không bị hỏng để bảo toàn thông tin cần thiết Sự không nhất quán giữa quá trình huấn luyện và

kiểm tra có thể khiến mạng lưới tăng độ sáng của hình ảnh đầu ra, như ví dụ được minh họa trong Hình 2.5 Do cơ chế của Transformer là dựa vào thao tác chú ý để xử lý thông tin không gian, chúng em có thể giảm bớt sự khác biệt giữahuấn luyện và kiểm tra bằng cách áp dụng thao tác mặt nạ tương tự trong quá trình chú ý Cách thức áp dụng mặt nạ này giống như với mặt nạ đầu vào, nhưngsử dụng một tỷ lệ mặt nạ chú ý pAM và [mask token] khác Khi một số token không còn đáng tin cậy do bị mặt nạ trong quá trình chú ý, thao tác chú ý sẽ điềuchỉnh để tập trung vào các token không bị mặt nạ và bổ sung thông tin cho những phần bị mặt nạ Thực hiện điều này trên mạng tích chập không phải là dễ dàng Hình 2.5 cho thấy tác động của mặt nạ chú ý, minh họa rằng nó giúp mạnglưới được huấn luyện với mặt nạ phát huy hiệu quả trên hình ảnh đầu vào không bị che mặt nạ.

CHƯƠNG 49. Orginal w/o attention mask w/ attention mask

CHƯƠNG 50. Hình 2.5 Ảnh hưởng lượng tính của mặt nạ chú ý Sự khác biệt

về biểu đồ cũng được thể hiện phía trên.

Trang 25

CHƯƠNG 51.CHƯƠNG 52.CHƯƠNG 53.CHƯƠNG 54.CHƯƠNG 55.CHƯƠNG 56.CHƯƠNG 57.

58.1.Cài đặt huấn luyện

58.1.1.Cấu hình huấn luyện

CHƯƠNG 59. Để tổng hợp dữ liệu huấn luyện, chúng em lấy các hình ảnh sạch từ DIV2K, Flickr2K, BSD500 và WED trong quá trình huấn luyện Trong công việc của mình, tất cả các mạng đều được huấn luyện sử dụng nhiễu

Gaussian với độ lệch chuẩn σ = 15 Mỗi hình ảnh đầu vào được cắt ngẫu nhiên thành độ phân giải không gian 64x64, và tổng số vòng lặp huấn luyện là 200K Chúng em sử dụng bộ tối ưu hóa Adam với β1 = 0.9 và β2 = 0.99 để giảm thiểu lỗi pixel L1 Tốc độ học ban đầu được thiết lập là 1x10−4 và giảm một nửa tại các cột mốc lặp 100K và 150K Kích thước lô được thiết lập là 64

Trang 26

CHƯƠNG 60.

Ngày đăng: 15/05/2024, 09:24