Kết quả thử nghiệm cho thấy, phương pháp của chúng em không chỉ thể hiệnkhả năng tổng quát hóa tốt hơn so với các mô hình học sâu khác mà còn có khả năng áp dụng trực tiếp trong các tình
Trang 1D8ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
ĐỒ ÁN MÔN HỌC
ĐỒ ÁN 2 TÌM HIỂU VÀ XÂY DỰNG ỨNG DỤNG VỀ KHỬ
NHIỄU HÌNH ẢNH
Giảng viên hướng dẫn : ThS Huỳnh Tuấn Anh
Sinh viên thực hiện 1 : Châu Đức Hiệp
Mã sinh viên 1 : 20520499
Sinh viên thực hiện 2 : Trần Nam Khánh
Mã sinh viên 2 : 20520577
Trang 2có thể làm được một đồ án hoàn chỉnh Trong khoảng thời gian thực hiện đồ án, em
đã học hỏi thêm được nhiều kiến thức, kinh nghiệm, biết được quy trình để tạo ramột sản phẩm phần mềm
Bên cạnh đó, chúng em xin cảm ơn các bạn bè trong lớp đã động viên, thảo luận vàgóp ý cho nhóm đồng thời đã khơi thêm nguồn động lực cho nhóm trong suốt quátrình đầy khó khăn
Mặc dù đã cố gắng hoàn thành báo cáo với tất cả nỗ lực song báo cáo của nhómchúng em chắc chắn không tránh khỏi những thiếu sót, em rất mong nhận được sựthông cảm và góp ý chân thành từ thầy Nhóm em xin chân thành cảm ơn
Nhóm sinh viên thực hiện:
Châu Đức Hiệp Trần Nam Khánh
Trang 3NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
Tp.HCM, ngày 29 tháng 12 năm 2023
GVHD
ThS Huỳnh Tuấn Anh
Trang 4TÓM TẮT
Đồ án với đề tài "Tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh" nhằm giải quyết một trong những thách thức cố hữu trong lĩnh vực xử lý hình ảnh: nhiễu Khi chụp và lưu trữ hình ảnh, các thiết bị không tránh khỏi việc giới thiệu nhiễu vào hình ảnh, làm giảm chất lượng hình ảnh Việc giảm thiểu nhiễu, haykhử nhiễu, trở thành một nhiệm vụ quan trọng
Trong đồ án này, chúng em áp dụng phương pháp học sâu, được công nhận rộng rãi như một phương pháp tiêu chuẩn cho nhiệm vụ khử nhiễu Đặc biệt, với sự phát triển của các mô hình dựa trên Transformer, đã có những bước tiến đáng kể trong lĩnh vực này, đạt được kết quả nổi bật trên nhiều tác vụ liên quan đến hình ảnh Tuy nhiên, một hạn chế lớn của các phương pháp này là khả năng tổng quát hóa Ví dụ, mô hình được huấn luyện để xử lý nhiễu Gaussian có thể không hiệu quả khi áp dụng cho các loại nhiễu khác
Để giải quyết vấn đề này, chúng em giới thiệu một cách tiếp cận mới: huấn luyện che mặt nạ Cách tiếp cận này bao gồm việc che mặt nạ các điểm ảnh ngẫu nhiên trong hình ảnh đầu vào và sau đó tái tạo các thông tin thiếu trong quá trình huấn luyện Bằng cách này, mô hình có thể học cách xử lý nhiễu mà không bị ảnh hưởng bởi sự không nhất quán giữa dữ liệu huấn luyện và thực tế Điều này cải thiện đáng kể khả năng tổng quát hóa của mô hình Chúng em cũng thực hiện che mặt nạ các tính năng trong các lớp tự chú ý, giúp mô hình tránh khỏi ảnh hưởng của
sự không nhất quán giữa huấn luyện và thử nghiệm
Kết quả thử nghiệm cho thấy, phương pháp của chúng em không chỉ thể hiệnkhả năng tổng quát hóa tốt hơn so với các mô hình học sâu khác mà còn có khả năng áp dụng trực tiếp trong các tình huống thực tế Phân tích khả năng giải thích của chúng em cũng chứng minh sự vượt trội của phương pháp này so với các
phương pháp truyền thống
Trang 5Đồ án này cung cấp một cái nhìn sâu sắc về cách tiếp cận khử nhiễu hình ảnhmới và hiệu quả, cung cấp một hướng đi mới mẻ cho việc xử lý nhiễu trong các tác
vụ xử lý hình ảnh Cuối cùng, báo cáo chi tiết các kết quả đã đạt được và đề xuất hướng phát triển cho hệ thống và phương pháp trong tương lai
Nội dung đồ án được trình bày trong 5 chương:
- Chương 01: Tổng quan
Trình bày sơ bộ về thực trạng, nhu cầu thực tế Xác định mục tiêu và phạm vi
đề tài
- Chương 02: Cơ sở lý thuyết, tổng quan công nghệ
Giớ thiệu về giải thuật, những công nghệ, nền tảng được sử dụng trong đồ án
- Chương 03: Thực nghiệm và đánh giá
Thiết kế, hiện thực và triển khai ứng dụng
- Chương 04: Kết luận
Những kết quả đạt được sau khi kết thúc đồ án Những hạn chế, khó khăn trong quá trình phát triển đồ án và nêu ra hướng phát triển trong tương lai
Trang 6MỤC LỤC
LỜI CẢM ƠN 2
TÓM TẮT 4
MỤC LỤC 6
DANH MỤC TỪ VIẾT TẮT 27
Chương 1 TỔNG QUAN 1
1.1 Khảo sát hiện trạng 1
1.1.1 Nhu cầu thực tế đề tài 1
1.1.2 Khảo sát một số ứng dụng hiện có 1
1.2 Lí do thực hiện đề tài 3
1.3 Mục tiêu 4
1.3.1 Đối tượng sử dụng 4
Chương 2 CƠ SỞ LÝ THUYẾT, TỔNG QUAN CÔNG NGHỆ 6
2.1 Khử nhiễu hình ảnh 6
2.2 Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu 8
2.3 Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ 10
2.3.1 Động lực 10
2.3.2 Kiến trúc Transformer 13
2.3.3 Đào tạo mặt nạ 14
Chương 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 17
3.1 Cài đặt huấn luyện 17
3.1.1 Cấu hình huấn luyện 17
3.1.2 Nhiễu khi kiễm tra 19
Trang 73.2.1 Nghiên cứu sâu 22
3.2.2 Hiệu suất Tổng quát hóa 24
3.2.3 Đánh giá nhiễu ISP 26
3.2.4 Đánh giá trên nhiễu Render Monte Carlo 27
3.3 Phân tích Tổng quát hóa 29
3.3.1 Đường cong huấn luyện 29
3.3.2 Phân tích CKA 30
3.3.3 Định lượng hiệu suất Tổng quát hóa 31
3.4 Cài đặt 32
3.4.1 Giao diện 33
Chương 4 KẾT LUẬN 36
4.1 Kết quả đạt được 36
4.2 Những ưu điểm và hạn chế 38
4.2.1 Ưu điểm 38
4.2.2 Hạn chế 38
4.3 Hướng phát triển 38
TÀI LIỆU THAM KHẢO 39
Trang 8DANH MỤC TỪ VIẾT TẮT
6 LPIS Learned Perceptual Image Patch Similarity
Trang 9CHƯƠNG 1 TỔNG QUAN
1.1 Khảo sát hiện trạng
1.1.1 Nhu cầu thực tế đề tàiCHƯƠNG 2. Tầm quan trọng của việc xử lý nhiễu ảnh: Nhiễu ảnh làmột vấn đề phổ biến trong nhiều lĩnh vực, từ y tế (chẳng hạn trong chẩn đoán hìnhảnh) đến an ninh (nhận dạng khuôn mặt, giám sát video) Nhiễu có thể xuất hiện donhiều nguyên nhân khác nhau, bao gồm điều kiện ánh sáng không lý tưởng, chấtlượng cảm biến thấp, hoặc thậm chí do quá trình truyền và lưu trữ dữ liệu Điều nàylàm suy giảm chất lượng hình ảnh, ảnh hưởng đến việc phân tích và xử lý thông tin
CHƯƠNG 3. Các phương pháp hiện hành và giới hạn của chúng: Cácphương pháp truyền thống như bộ lọc Gaussian, Median, và Wiener đã được sửdụng rộng rãi để giảm nhiễu, nhưng chúng thường không hiệu quả với nhiễu phứctạp hoặc trong trường hợp cần bảo toàn chi tiết hình ảnh Mặt khác, các phươngpháp dựa trên học sâu, mặc dù hiệu quả hơn, vẫn cần sự cải thiện về khả năng tổngquát hóa để xử lý đa dạng các loại nhiễu
3.1.1 Khảo sát một số ứng dụng hiện có 3.1.1.1 Denoise it – AI Photo Enhancer (Android)
1 Tổng quanCHƯƠNG 4. Một ứng dụng mạnh mẽ cho phép người dùng loại bỏ nhiễu và cải thiện chất lượng ảnh một cách tự động Nó sử dụng công nghệ AI để phân tích và xử lý ảnh, loại bỏ nhiễu mà không làm mất đi chi tiết quan trọng Đặc biệt, ứng dụng này cho phép người dùng chọn lựa các khu vực cụ thể trong ảnh để loại bỏ nhiễu thông qua "Denoise Brush"
Trang 11CHƯƠNG 8.
CHƯƠNG 9. Hình 1.2: Chức năng khử nhiễu của photoshop
9.1 Lí do thực hiện đề tài
CHƯƠNG 10. Nhu cầu cải thiện: Trong thời đại số hóa, việc cải thiện chất
lượng hình ảnh trở nên quan trọng hơn bao giờ hết Nhiễu ảnh không chỉ ảnh hưởng đến thẩm mỹ mà còn làm giảm độ chính xác của các phân tích và ứng dụng dựa trên hình ảnh Các phương pháp truyền thống không còn đáp ứng hiệu
Trang 12quả nhu cầu này, đặc biệt trong các tình huống phức tạp Nghiên cứu mới về phương pháp huấn luyện mặt nạ (masked training) đã chứng minh tiềm năng trong việc tăng cường khả năng tổng quát hóa của các mạng giảm nhiễu, đưa ra giải pháp hiệu quả hơn cho vấn đề nhiễu ảnh trong môi trường đa dạng và khôngxác định.
CHƯƠNG 11. Tiềm năng của deep learning: Deep learning mở ra cơ hội
mới để giải quyết vấn đề nhiễu ảnh Với khả năng học từ dữ liệu lớn và khả năng
mô phỏng các tình huống phức tạp, Deep learning có tiềm năng cải thiện đáng
kể hiệu suất và độ chính xác trong việc loại bỏ nhiễu Điều này không chỉ giúp cải thiện chất lượng hình ảnh mà còn mở rộng ứng dụng của công nghệ xử lý ảnh Cụ thể, kết quả thực nghiệm từ báo cáo chỉ ra rằng phương pháp mới có thểvượt trội hơn các phương pháp hiện đại khác trong việc xử lý các loại nhiễu khác nhau, từ Gaussian đến speckle và Poisson, mở ra khả năng áp dụng trong nhiều lĩnh vực khác nhau từ y tế đến an ninh
CHƯƠNG 12.
12.1 Mục tiêu
- Hiểu rõ về vấn đề nhiễu trong ảnh: Nghiên cứu và phân tích các loại
nhiễu thường gặp trong hình ảnh, từ nguồn gốc đến cách thức ảnh hưởng tới chất lượng hình ảnh Điều này bao gồm nhiễu do thiết bị (như nhiễu ISO cao trong máy ảnh), nhiễu do môi trường (như nhiễu do ánh sáng yếu), và nhiễu trong quá trình xử lý hoặc truyền dữ liệu Chủ hệ thống có thể phát triển dễ dàng với chi phí thấp
- Tìm hiểu các phương pháp khử nhiễu hiện đại: Đánh giá các kỹ thuật
khử nhiễu hiện nay, đặc biệt là các phương pháp dựa trên học sâu, như mạng nơ-ron tích chập, mạng nơ-ron đối xứng (GANs), và các kỹ thuật
Trang 13xử lý ảnh tiên tiến khác Phân tích ưu nhược điểm của từng phương pháp trong việc xử lý các loại nhiễu khác nhau
- Xây dựng một ứng dụng demo: Phát triển một ứng dụng demo có khả
năng khử nhiễu hình ảnh dựa trên một hoặc nhiều kỹ thuật được nghiên cứu Mục tiêu là tạo ra một ứng dụng thân thiện với người dùng, có thể hiển thị trực quan sự khác biệt trước và sau khi xử lý nhiễu
12.1.1 Đối tượng sử dụngCHƯƠNG 13. Phân loại đối tượng:
- Nhà nghiên cứu và học giả: Đối tượng này quan tâm đến việc khám phá và
áp dụng các công nghệ mới nhằm cải thiện các phương pháp xử lý ảnh hiện tại
- Nhà phát triển công nghệ: Các nhà phát triển công nghệ có thể tận dụng nghiên cứu này để tích hợp vào các sản phẩm và dịch vụ của họ, từ ứng dụng
di động đến hệ thống an ninh và y tế
- Ngành công nghiệp yêu cầu chất lượng hình ảnh cao: Như trong y tế (chẩn đoán hình ảnh), an ninh (nhận diện khuôn mặt, giám sát video), và nhiếp ảnh,nơi chất lượng hình ảnh là yếu tố then chốt
CHƯƠNG 14.
CHƯƠNG 15.
Trang 14CHƯƠNG 16.CƠ SỞ LÝ THUYẾT, TỔNG QUAN CÔNG NGHỆ
16.1 Khử nhiễu hình ảnh
CHƯƠNG 17. Khử nhiễu ảnh đóng vai trò trọng yếu trong ngành nghiên cứu ảnh số, nhằm mục tiêu chính là khôi phục hình ảnh sạch từ những hình ảnh chứa nhiễu Với bước tiến vượt bậc của học sâu, ngành công nghiệp đã chứng kiến sự ra đời của nhiều mô hình khử nhiễuảnh hứa hẹn Các mô hình này, thường được huấn luyện bằng hình ảnh tổng hợp dựa trên phân phối nhiễu cố định, đã thể hiện khả năng loại bỏ nhiễu một cách ấn tượng Tuy nhiên, khi áp dụng vào thực tế, khả năng tổng quát hóa của chúng lại trở thành một thách thức lớn Phân phối nhiễutrong môi trường thực tế có thể rất khác so với dữ liệu huấn luyện, gây khó khăn cho các mô hình trong việc thích nghi với những tình huống như vậy
-CHƯƠNG 19. Hình 2.1 Chúng em minh hoạ tổng quát hoá của các mạng khử nhiễu: huấn luyện mô hình SwinIR trên nhiễu Gaussian với σ = 15 Khi kiểm tratrên cùng loại nhiễu, SwinIR đạt hiệu suất đáng kể Tuy nhiên, khi áp dụng cho
Trang 15nhiễu nằm ngoài phạm vi huấn luyện, ví dụ như hỗn hợp của các loại nhiễu khácnhau, SwinIR gặp phải sự giảm hiệu suất đáng kể Mô hình được huấn luyện bằng theo phương pháp mặt nạ mà chúng em phát triển vẫn giữ nguyên khả nănggiảm nhiễu ổn định, ngay cả khi nó cũng được huấn luyện trên nền của nhiễu Gaussian
CHƯƠNG 20. Các nghiên cứu khử nhiễu hiện tại chủ yếu tập trung vàoviệc huấn luyện và đánh giá mô hình trên dữ liệu bị ảnh hưởng bởi nhiễu Gaussian, hạn chế khả năng xử lý các loại nhiễu khác Khi những mô hình này được áp dụng
cho việc loại bỏ nhiễu từ các nguồn khác nhau, hiệu suất giảm đáng kể (ví dụ Hình
2.1) Cộng đồng nghiên cứu ngày càng nhận thức về vấn đề tổng quát hóa của mô
hình học sâu Một số phương pháp đã được đề xuất, chẳng hạn như giả định mức độnhiễu không xác định hoặc cố gắng cải thiện hiệu suất trong thực tế bằng cách huấn luyện trên dữ liệu gần hơn với nhiễu mục tiêu Tuy nhiên, những phương pháp này chưa thể cải thiện đáng kể hiệu suất tổng quát hóa của các mạng giảm nhiễu, đặc biệt khi phân phối nhiễu không phù hợp
CHƯƠNG 21. Trong nghiên cứu này, chúng em đặt mục tiêu nâng cao khả năng tổng quát hóa của mô hình khử nhiễu sâu, qua đó xác định khả năng tổng quát hóa là hiệu suất của mô hình với các loại nhiễu khác so với trong quá trình huấn luyện Chúng em nhận định rằng vấn đề tổng quát hóa này xuất phát từ việc
mô hình quá khớp với nhiễu trong quá trình huấn luyện Chiến lược huấn luyện hiệntại, tập trung vào việc tối ưu hóa sự tương đồng giữa hình ảnh khử nhiễuvà hình ảnhgốc, thường bỏ qua rằng mô hình có thể giảm thiểu lỗi bằng cách học mẫu nhiễu, thay vì nội dung hình ảnh Điều này trở thành nguyên nhân chính gây ra vấn đề tổngquát hóa Để giải quyết điều này, chúng em áp dụng chiến lược huấn luyện mặt nạ, lấy cảm hứng từ các phương pháp mô hình hóa mặt nạ mới, nhằm tập trung vào việchọc cách tái tạo nội dung hình ảnh thay vì nhiễu Sử dụng đặc tính của Transformer
Trang 16trong xử lý hình ảnh, chúng em giới thiệu hai cơ chế mặt nạ: mặt nạ đầu vào và mặt
nạ chú ý Trong quá trình huấn luyện, mặt nạ đầu vào loại bỏ ngẫu nhiên các pixel,
và mạng lưới tái tạo những pixel bị loại bỏ Mặt nạ chú ý, được tích hợp trong từng lớp tự chú ý của Transformer, cho phép mô hình học cách hoàn thiện các đặc trưng
bị mặt nạ một cách linh hoạt, giảm thiểu sự chênh lệch phân phối giữa huấn luyện
và kiểm tra Dù sử dụng nhiễu Gaussian trong huấn luyện, phương pháp của chúng
em đã thể hiện cải thiện hiệu suất đáng kể trên nhiều loại nhiễu khác nhau, từ nhiễu speckle, Poisson, salt and pepper, đến nhiễu Gaussian không gian, nhiễu hình ảnh được render bằng Monte Carlo, nhiễu ISP, và các hỗn hợp phức tạp của nhiều nguồn nhiễu Các phương pháp và mô hình hiện tại chưa thể loại bỏ hiệu quả và chính xác tất cả các mẫu nhiễu đa dạng này
21.1 Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu
CHƯƠNG 22. Các kỹ thuật khử nhiễu ảnh chủ yếu rơi vào hai nhóm lớn: các phương pháp truyền thống dựa trên mô hình và phương pháp học sâu dựa trên dữ liệu Phương pháp truyền thống tập trung vào mô hình hóa các nguyên tắc
cơ bản của hình ảnh để khôi phục nội dung từ hình ảnh bị ảnh hưởng bởi nhiễu Những phương pháp này linh hoạt trong việc xử lý các loại nhiễu khác nhau và đã chứng minh hiệu quả trong việc tổng quát hóa Tuy nhiên, chúng lại không đáp ứng
đủ yêu cầu về tái tạo nội dung hình ảnh Gần đây, xu hướng giảm nhiễu đã chuyển dần sang sử dụng các phương pháp dựa trên dữ liệu trong học sâu, với nhiều kỹ thuật được phát triển nhằm cải thiện khả năng của các mạng giảm nhiễu Các
phương pháp này bao gồm sử dụng mạng dư, mạng dày đặc, mạng đệ quy, kỹ thuật
đa quy mô, cấu trúc mã hóa-giải mã, thao tác chú ý, tự tương đồng, và thao tác không gian
Trang 17CHƯƠNG 23. Kể từ năm 2020, thiết kế mạng thị giác đã chuyển hướng từ mạng CNN sang Transformer1.Các Transformer thị giác xem xét các pixelđầu vào như token và áp dụng thao tác tự chú ý để xử lý tương tác giữa chúng Lấy cảm hứng từ thành công của các Transformer thị giác, đã có nhiều nỗ lực nhằm áp dụng chúng cho các nhiệm vụ thị giác cấp thấp Trong quá trình phát triển các mô hình này, loại nhiễu được sử dụng cho huấn luyện thường tương đồng với nhiễu trong kiểm tra Điều quyết định hiệu suất giảm nhiễu chính là khả năng của mạng lưới trong việc tập trung vào nhiễu huấn luyện Tuy nhiên, một mạng hiệu quả hơn không nhất thiết có nghĩa là có khả năng tổng quát hóa tốt hơn Nghiên cứu sẽ cho thấy, một mạng hiệu quả hơn có thể chỉ ra hiệu suất tổng quát hóa kém hơn.
CHƯƠNG 24. Vấn đề tổng quát hóa trong thị giác cấp thấp thường nảysinh khi có sự không phù hợp giữa suy thoái trong kiểm tra và suy thoái trong quá trình huấn luyện, ví dụ như trong siêu phân giải với các lõi giảm mẫu khác nhau Các mô hình khử nhiễu sâu thường được phát triển dựa trên nhiễu Gaussian trong môi trường phòng thí nghiệm, nhưng nhiễu trong thực tế thường không phải là Gaussian Mô hình huấn luyện trên nhiễu Gaussian không hiệu quả trong các tình huống nhiễu không Gaussian Có hai phương pháp chính để giải quyết vấn đề này Phương pháp đầu tiên là phát triển bộ dữ liệu huấn luyện sao cho mô hình nhiễu càng gần với thực tế càng tốt, bao gồm tổng hợp nhiễu theo mô hình hệ thống vật
lý, học cách tạo ra nhiễu thực, và thu thập cặp nhiễu thực – hình ảnh sạch cho huấn luyện Mặc dù các mô hình thu được từ các phương pháp này có thể cải thiện hiệu suất trên nhiễu mục tiêu, chúng vẫn không thể tổng quát hóa cho nhiễu nằm ngoài phân phối Phương pháp thứ hai là phát triển các mô hình giảm nhiễu "mù", có khả năng xử lý nhiễu không xác định, dựa trên giả định rằng mức độ nhiễu không biết
Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, et al An image is worth 16x16 words: Trans- formers for image recognition at scale arXiv preprint arXiv:2010.11929, 2020.
Trang 18trước hoặc huấn luyện trên nhiều loại nhiễu khác nhau Những nỗ lực này cũng không thể tổng quát hóa cho nhiễu không có trong bộ dữ liệu huấn luyện.
CHƯƠNG 25.
CHƯƠNG 26. Các mô hình hóa mặt nạ trong ngôn ngữ đã thành công trong việc học các biểu diễn tiền huấn luyện, tổng quát hóa tốt cho nhiều nhiệm vụ xuôi dòng Các phương pháp này che một phần của chuỗi đầu vào và huấn luyện
mô hình để dự đoán nội dung bị thiếu Cách tiếp cận tương tự có thể áp dụng cho tiền huấn luyện mô hình thị giác Các mô hình hình ảnh với dữ liệu bị mặt nạ học các biểu diễn từ hình ảnh bị hỏng Những nỗ lực đầu tiên trong lĩnh vực này có thể truy cứu từ bộ mã hóa-giải mã giảm nhiễu Kể từ đó, nhiều công trình đã sử dụng việc dự đoán các phần còn thiếu của hình ảnh để học các biểu diễn hình ảnh hiệu quả Tuy nhiên, đã có ít nỗ lực thành công trong việc áp dụng mô hình hóa hình ảnhvới dữ liệu bị mặt nạ cho thị giác cấp thấp, mặc dù phương pháp tiền huấn luyện này phù hợp với các nhiệm vụ thị giác cấp thấp
26.1 Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ
CHƯƠNG 27. Mục tiêu chính của chúng em là tạo ra các mô hình khử nhiễu
có khả năng tổng quát hóa với nhiễu không gặp trong bộ dữ liệu huấn luyện Trong phần này, trước khi đi sâu vào chi tiết phương pháp huấn luyện mặt nạ của chúng
em, chúng em sẽ thảo luận về động lực đằng sau nghiên cứu
27.1.1 Động lựcCHƯƠNG 28. Khi huấn luyện mạng sâu trên một lượng lớn hình ảnh,
kỳ vọng là mạng sẽ học được cách phân biệt sự phong phú về ngữ nghĩa của hình ảnh tự nhiên từ những trường hợp kiểm tra bị nhiễm nhiễu Tuy nhiên, một số nghiên cứu đã chỉ ra rằng ngữ nghĩa và kiến thức mà mạng thị giác cấp thấp thu được khác biệt đáng kể so với kỳ vọng của chúng ta Chúng em lập luận rằng khả năng tổng quát hóa kém của các mô hình giảm nhiễu là do phương pháp huấn luyện
Trang 19của chúng em, khiến mô hình tập trung vào việc quá khớp với nhiễu huấn luyện hơn
là học tái tạo hình ảnh
CHƯƠNG 29. Chúng em dựa trên huấn luyện một mạng giảm nhiễu SwinIR sử dụng hình ảnh rất khác biệt so với hình ảnh tự nhiên (hình ảnh miễn dịchhóa học) Chúng em tổng hợp dữ liệu huấn luyện dưới dạng cặp sử dụng nhiễu Gaussian, sau đó đánh giá hiệu suất của mô hình trên hình ảnh tự nhiên với nhiễu Gaussian Theo giả thuyết của chúng em, nếu mô hình học nội dung và tái tạo ngữ nghĩa của hình ảnh từ bộ dữ liệu huấn luyện, nó không nên hoạt động tốt trên hình ảnh tự nhiên, vì nó không được tiếp xúc với bất kỳ hình ảnh tự nhiên nào Nếu mô hình chỉ đơn thuần quá khớp với nhiễu, nó có thể loại bỏ nhiễu ngay cả khi hình ảnhkhác biệt, vì mô hình chủ yếu dựa vào việc phát hiện nhiễu để giảm nhiễu
CHƯƠNG 30.
CHƯƠNG 31. Hình 2.2 SwinIR, khi chỉ được huấn luyện trên hình ảnh miễn
dịch hóa học với nhiễu Gaussian, vẫn có khả năng giảm nhiễu cho hình ảnh tự nhiên Quan sát này củng cố nhận định rằng hầu hết các phương pháp hiện tại
Ground truth Denoised by SwinIR
Trang 20thực hiện việc giảm nhiễu chủ yếu bằng cách quá khớp với nhiễu trong quá trình huấn luyện Ngược lại, phương pháp của chúng em nhấn mạnh vào việc tái tạo kết cấu và cạnh của hình ảnh tự nhiên nhìn thấy trong bộ dữ liệu huấn luyện, thay vì dựa vào quá khớp nhiễu để giảm nhiễu Sự khác biệt này làm nổi bật điểm cơ bản phân biệt phương pháp của chúng em với các cách tiếp cận trước đây.
CHƯƠNG 32. Kết quả được trình bày trong Hình 2.2 Như quan sát, SwinIR huấn luyện trên hình ảnh miễn dịch hóa học vẫn có thể giảm nhiễu và tái tạo hình ảnh tự nhiên Điều này hỗ trợ giả thuyết của chúng em về khả năng tổng quát hóa, cho thấy hầu hết các phương pháp hiện tại thực hiện giảm nhiễu bằng cáchquá khớp với nhiễu huấn luyện Do đó, khi nhiễu lệch khỏi điều kiện huấn luyện, hiệu suất giảm nhiễu của các mô hình này giảm đáng kể
CHƯƠNG 33. Kết quả này cũng truyền cảm hứng cho cách tiếp cận của chúng em trong việc phát triển các mô hình giảm nhiễu sâu với khả năng tổng quát hóa cao hơn Mục tiêu của chúng em là mô hình học cách tái tạo kết cấu và cấutrúc hình ảnh, thay vì chỉ tập trung vào nhiễu Trong bài nghiên cứu này, chúng em
đề xuất một chiến lược huấn luyện mặt nạ mới cho các mạng giảm nhiễu Trong quátrình huấn luyện, chúng em che một phần của các pixel đầu vào và sau đó huấn luyện mạng sâu để hoàn thiện chúng, như được minh họa trong Hình 2.3 Cách tiếp cận của chúng em nhấn mạnh việc tái tạo kết cấu hình ảnh tự nhiên và các cạnh quan sát được trong hình ảnh, thay vì quá khớp với nhiễu Trong Hình 2.3, chúng
em cũng trình bày kết quả của phương pháp của mình Rõ ràng là cách tiếp cận của chúng em tìm cách tái tạo kết cấu hình ảnh miễn dịch hóa học từ bộ dữ liệu huấn luyện trên hình ảnh kiểm tra tự nhiên, thay vì dựa vào quá khớp với nhiễu để giảm nhiễu Điều này chứng minh tiềm năng của ý tưởng này trong việc cải thiện hiệu suất tổng quát hóa Bằng cách huấn luyện phương pháp của chúng em trên hình ảnh
Trang 21tự nhiên, nó sẽ tập trung vào việc tái tạo nội dung của hình ảnh tự nhiên, phù hợp với khái niệm cốt lõi của chúng em về việc sử dụng học sâu cho các nhiệm vụ thị giác cấp thấp.
CHƯƠNG 34.
CHƯƠNG 35. Hình 2.3 Minh họa chiến lược huấn luyện mặt nạ và hoàn
thiện được đề xuất Ngay cả khi một lượng lớn pixel bị mặt nạ, mô hình vẫn có khả năng tái tạo đầu vào đến một mức độ nào đó.
35.1.1 Kiến trúc TransformerCHƯƠNG 36.
CHƯƠNG 44. Hình 2.4 Kiến trúc Transformer trong phương pháp huấn
luyện mặt nạ mà chúng em đề xuất Chúng em chỉ thay đổi tối thiểu so với kiến
Trang 22trúc SwinIR gốc – thao tác đặt mặt nạ đầu vào và các mặt nạ chú ý Các thiết kế
vi mô khác không cơ bản khác biệt so với các Transformer khác.
CHƯƠNG 45. Phương pháp của chúng em tận dụng những đặc tính xuất sắc của thị giác Transformer (ViT), vì vậy chúng em sẽ mô tả kiến trúc
Transformer cơ bản được sử dụng trong nghiên cứu này Cơ chế cửa sổ dịch chuyển(Shifted windows) đã được chứng minh là linh hoạt và hiệu quả cho các nhiệm vụ
xử lý hình ảnh – đây là cơ chế sử dụng các "cửa số trượt" sẽ giúp các patch ảnh không bị "bó cứng" khi phải seft attention trong 1 cửa sổ cục bộ mà sẽ có "cơ hội" được gặp và tính self attention cùng với các path khác trong 1 cửa sổ mới Chúng
em chỉ thực hiện những thay đổi tối thiểu khi áp dụng nó vào phương pháp huấn luyện mặt nạ được đề xuất mà không mất đi tính tổng quát Mô hình này được minhhọa trong Hình 2.4 Transformer chia tín hiệu đầu vào thành các token và xử lý thông tin không gian sử dụng các lớp tự chú ý Trong phương pháp của chúng em, một lớp tích chập với kích thước nhân tử là 1 được sử dụng như một mô-đun nhúng đặc trưng để chiếu các giá trị pixel 3 kênh vào các token đặc trưng C-chiều Lớp tích chập này đảm bảo các pixel không tác động lẫn nhau trong quá trình nhúng đặc trưng, hỗ trợ cho việc mặt nạ sau này Các token đặc trưng này được tổ chức với kích thước H x W x C, với H, W và C lần lượt là chiều cao, chiều rộng và kích thước của đặc trưng Mô hình của chúng em sử dụng cơ chế cửa sổ dịch chuyển để
tái cấu trúc bản đồ đặc trưng của mỗi khung thành HW
M2 × M2 ×C bằng cách phân
chia đầu vào thành các cửa sổ địa phương M x M không chồng chéo, nơi HW
M2 ×
M2×C là tổng số cửa sổ Chúng em thực hiện tự chú ý trên các token đặc trưng
cùng cửa sổ đó Vì vậy, M2 token được tham gia vào mỗi thao tác tự chú ý chuẩn,
và từ đó tạo ra đặc trưng cửa sổ địa phương X ∈ RM X C Trong mỗi lớp tự chú ý, các thành phần truy vấn Q, khóa K và giá trị V được tính toán từ Q = XWQ, K = XWK,
Trang 23V = XWV, nơi WQ, WK, WV ∈ RCxD là các ma trận trọng số và D là kích thước của các vector được chiếu Chúng em sau đó sử dụng Q để truy vấn K nhằm sinh ra bản
đồ chú ý A = softmax(QKT/ √ D + B) ∈ R M ×M , với B là mã hóa vị trí tương đối
có thể học được Bản đồ chú ý A sau đó được sử dụng để tổng hợp có trọng số của
M2 vector trong V Cài đặt đa đầu được điều chỉnh để phù hợp với SwinIR và ViT
45.1.1 Đào tạo mặt nạCHƯƠNG 46. Huấn luyện mặt nạ: Quá trình huấn luyện mặt nạ của chúng emchủ yếu bao gồm hai phần: mặt nạ đầu vào và mặt nạ chú ý Mặc dù cả hai đều
là các thao tác mặt nạ, mục đích của hai loại mặt nạ này là khác nhau Chúng em
sẽ mô tả chúng một cách riêng biệt
CHƯƠNG 47. Mặt Nạ Đầu Vào (The Input Mask) ngẫu nhiên che giấu các token đặc trưng được nhúng bởi lớp tích chập đầu tiên và khuyến khích mạng lưới hoàn thiện thông tin bị che giấu trong quá trình huấn luyện Mặt nạ đầu vào
cụ thể tạo ra một vấn đề tô màu lại rất thách thức, như được minh họa trong
mạng lưới vẫn có khả năng tái tạo hình ảnh mục tiêu đến một mức độ nào đó Phương pháp này rất đơn giản Cho tensor token đặc trưng f ∈ RM X H X C, chúng
em ngẫu nhiên thay thế token bằng [mask token] ∈ RC với xác suất pIM, nơi pIM
được gọi là tỷ lệ mặt nạ đầu vào Mạng lưới được huấn luyện dưới sự giám sát của norm-l của hình ảnh tái tạo và hình ảnh gốc [Mask token] có thể được học
và khởi tạo với vector 0 Nhưng chúng em thực sự phát hiện ra rằng chính vector
0 đã là một lựa chọn phù hợp Sự tồn tại của mặt nạ đầu vào buộc mạng lưới phải học cách nhận biết và tái tạo nội dung của hình ảnh từ thông tin rất hạn chế
CHƯƠNG 48. Mặt Nạ Chú Ý: để xây dựng một mạng lưới xử lý hình ảnh có khả năng ứng dụng thực tế, việc chỉ dựa vào thao tác mặt nạ đầu vào là không
Trang 24đủ Bởi trong quá trình kiểm tra, chúng em cần nhập hình ảnh không bị hỏng để bảo toàn thông tin cần thiết Sự không nhất quán giữa quá trình huấn luyện và
kiểm tra có thể khiến mạng lưới tăng độ sáng của hình ảnh đầu ra, như ví dụ được minh họa trong Hình 2.5 Do cơ chế của Transformer là dựa vào thao tác chú ý để xử lý thông tin không gian, chúng em có thể giảm bớt sự khác biệt giữahuấn luyện và kiểm tra bằng cách áp dụng thao tác mặt nạ tương tự trong quá trình chú ý Cách thức áp dụng mặt nạ này giống như với mặt nạ đầu vào, nhưng
sử dụng một tỷ lệ mặt nạ chú ý pAM và [mask token] khác Khi một số token không còn đáng tin cậy do bị mặt nạ trong quá trình chú ý, thao tác chú ý sẽ điềuchỉnh để tập trung vào các token không bị mặt nạ và bổ sung thông tin cho những phần bị mặt nạ Thực hiện điều này trên mạng tích chập không phải là dễ dàng Hình 2.5 cho thấy tác động của mặt nạ chú ý, minh họa rằng nó giúp mạnglưới được huấn luyện với mặt nạ phát huy hiệu quả trên hình ảnh đầu vào không
bị che mặt nạ
CHƯƠNG 49. Orginal w/o attention mask w/ attention mask
CHƯƠNG 50. Hình 2.5 Ảnh hưởng lượng tính của mặt nạ chú ý Sự khác biệt
về biểu đồ cũng được thể hiện phía trên.
Trang 2558.1 Cài đặt huấn luyện
58.1.1 Cấu hình huấn luyệnCHƯƠNG 59. Để tổng hợp dữ liệu huấn luyện, chúng em lấy các hình ảnh sạch từ DIV2K, Flickr2K, BSD500 và WED trong quá trình huấn luyện Trong công việc của mình, tất cả các mạng đều được huấn luyện sử dụng nhiễu
Gaussian với độ lệch chuẩn σ = 15 Mỗi hình ảnh đầu vào được cắt ngẫu nhiên thành độ phân giải không gian 64x64, và tổng số vòng lặp huấn luyện là 200K Chúng em sử dụng bộ tối ưu hóa Adam với β1 = 0.9 và β2 = 0.99 để giảm thiểu lỗi pixel L1 Tốc độ học ban đầu được thiết lập là 1x10−4 và giảm một nửa tại các cột mốc lặp 100K và 150K Kích thước lô được thiết lập là 64
Trang 26CHƯƠNG 60.