Giới thiệu bài toán siêu phân giải ảnh
Siêu phân giải ảnh (image super resolution, SR) là việc tăng độ phân giải của một ảnh đầu vào bằng cách tạo ra một ảnh đầu ra có độ phân giải cao hơn, trong khi vẫn giữ gìn được những nội dung và đặc tính cấu trúc của ảnh đầu vào (như hình 1.1).
Hình 1.1: Ví dụ về việc siêu phân giải lên 4 lần [5].
Siêu phân giải ảnh là một bài toán rất phổ biến trong đời sống, khoa học và sản xuất Đối tượng của bài toán này rất đa dạng, ví dụ như: ảnh chụp, ảnh chiều sâu, ảnh cảm biến nhiệt, ảnh y khoa, v.v Do mang tính phổ biến trong đời sống, siêu phân giải ảnh đã trở thành một mảng khá sôi động của lĩnh vực thị giác máy tính (computer vision, CV), với rất nhiều công trình liên quan được xuất bản trong vòng
10 năm qua Các công trình này phong phú đa dạng cả về loại ảnh cần siêu phân giải, hướng tiếp cận và cả các tính chất mong muốn của đầu ra.
Dựa theo số lượng ảnh mà mô hình siêu phân giải cần xử lý trong từng lần, có thể chia các bài toán siêu phân giải ảnh thành 2 loại Chúng lần lượt là: bài toán siêu phân giải một ảnh (single-image super resolution, SISR) và bài toán siêu phân giải nhiều ảnh cùng lúc (multiple-image super resolution, MISR).
Dựa trên nội dung của ảnh đầu vào, bài toán siêu phân giải ảnh có thể được chia thành các bài toán con như: siêu phân giải ảnh thường, siêu phân giải ảnh y khoa, siêu phân giải ảnh vệ tinh, siêu phân giải ảnh nhiệt, v.v Mỗi bài toán con như vậy sẽ có thêm những yêu cầu riêng đối với ảnh sinh ra Ví dụ, siêu phân giải ảnh y khoa đòi hỏi sự trung thành cao về mặt nội dung với ảnh gốc, để đảm bảo các chuyên gia y tế có thể đưa ra các chẩn đoán chính xác.
Tiếp cận giải bài toán siêu phân giải ảnh trải qua nhiều giai đoạn phát triển, tuân theo xu hướng chung của khoa học máy tính và thị giác máy tính Ban đầu, các thuật toán được thiết kế thủ công được sử dụng Sau đó, học máy dần thay thế các thuật toán này Học sâu xuất hiện và bùng nổ, trở thành cách tiếp cận thống trị trong siêu phân giải ảnh Khi đánh giá chất lượng ảnh đầu ra của mô hình siêu phân giải, hai tiêu chí chính được cân nhắc:
− Độ chính xác so với ảnh đầu vào: Tiêu chí này phản ánh mức độ sai khác về thông tin có trong ảnh được tạo ra và ảnh đầu vào Nó thường được đo đạc bằng cách so sánh trực tiếp từng điểm ảnh hoặc một số đặc trưng được trích xuất ra từ mỗi ảnh.
− Độ chân thật: Tiêu chí này đánh giá xem ảnh đầu ra có giống với một ảnh thực hay không Hay nói cách khác, độ chân thật liên quan tới khả năng con người không thể nhận diện được đâu là ảnh độ phân giải cao có sẵn, đâu là ảnh do một mô hình siêu phân giải tạo ra.
Hiện nay, các công trình siêu phân giải ảnh dễ bị rơi vào một trong hai thái cực sau:
− Một số mô hình có độ chính xác rất cao, bảo toàn rất tốt những chi tiết từ ảnh đầu vào Tuy nhiên, ảnh do chúng tạo ra không hề thân thiện với nhận thức của con người.
− Ngược lại, một số mô hình sinh ra ảnh vô cùng chân thật Thế nhưng, vài chi tiết trong ảnh đầu ra lại bị sai lệch so với ảnh đầu vào.
Đề tài và động lực chọn đề tài
Nhóm quyết định chọn siêu phân giải ảnh làm đề tài luận văn vì vai trò quan trọng của bài toán này trong thực tiễn Thứ nhất, siêu phân giải ảnh giúp cải thiện chất lượng hình ảnh, cho phép người dùng nhìn rõ hơn các chi tiết Thứ hai, siêu phân giải ảnh mở ra khả năng xử lý hình ảnh với độ phân giải cao hơn, mở rộng phạm vi ứng dụng trong các lĩnh vực như y tế, an ninh và giải trí Cuối cùng, siêu phân giải ảnh là một bài toán thách thức, đòi hỏi các thuật toán và phương pháp tiên tiến, tạo cơ hội phát triển các kỹ thuật xử lý ảnh mới.
Nhu cầu về dữ liệu với độ phân giải cao đang tăng mạnh do những cải tiến đáng kể trong chất lượng hình ảnh Điều này có tác động to lớn đến các lĩnh vực như chẩn đoán y khoa, nhận diện vật thể và hiển thị hình ảnh trên màn hình Độ phân giải cao cho phép quan sát rõ hơn các chi tiết, nâng cao độ chính xác và hiệu quả trong các ứng dụng quan trọng.
− Không phải lúc nào các dữ liệu độ phân giải cao cũng có thể thu thập trực tiếp được bởi sự hạn chế về công nghệ: Lấy ví dụ trong y khoa, các thiết bị chụp cộng hưởng từ (magnetic resonance imaging, MRI) hay chụp cắt lớp vi tính (computerized tomography, CT) có giới hạn nhất định về độ phân giải. Theo [12], mỗi khối ảnh (voxel) trong các ảnh MRI hay CT chỉ tương ứng với 1mm 3 mô trong trường hợp tốt nhất Ngoài ra, để chụp ảnh với độ phân giải cao hơn, người bệnh cần phải nằm im lâu hơn Điều này có thể gây khó chịu cho bệnh nhân Hơn nữa, khi bệnh nhân nằm lâu, cơ thể có khả năng cử động nhẹ làm ảnh hưởng tới chất lượng ảnh chụp Do đó, các giải thuật siêu phân giải ảnh được áp dụng lên các dữ liệu chất lượng thấp hiện có để tạo ra các dữ liệu chất lượng cao hơn.
− Ứng dụng trong việc nén và giải nén các dữ liệu khi lưu trữ hoặc truyền tải:
Hình ảnh hay video có thể được thu nhỏ lại để truyền đi nhanh hơn và dùng một giải thuật siêu phân giải phù hợp để phóng to trở lại ở đích đến.
Phạm vi và mục tiêu của luận văn
Trong luận văn này, nhóm chỉ tập trung vào cách tiếp cận học sâu cho bài toán siêu phân giải cho một ảnh (SISR) Các ảnh đầu vào sẽ là ảnh thường, với nội dung phong phú đa dạng, bao quát các đối tượng thực thường gặp trong đời sống như con người, động vật, cây cỏ, cảnh quan, v.v Về mặt kiến trúc mô hình, chúng tôi tập trung vào các mô hình siêu phân giải dựa trên học sâu.
Nhóm đặt ra mục tiêu là phát triển một mô hình học sâu mới cho bài toán siêu phân giải ảnh với độ chân thực cao và tính chính xác được duy trì ổn định ở mức tốt.
Đóng góp của luận văn này
Nhóm xin tổng kết những đóng góp của nhóm cho học thuật và thực tiễn trong luận văn này như sau:
− Đề xuất hệ mạng tạo sinh đối nghịch đặt lại tham số được dựa trên phép tính tập trung hiệu quả cho bài toán siêu phân giải (reparameterizable efficient attention-based super-resolution generative adversarial networks, REASR- GAN) dựa trên cơ sở của SwiftSRGAN [1], một mô hình học sâu nhỏ gọn cho bài toán siêu phân giải.
− Tích hợp cơ chế đặt lại tham số [2] (reparameterization) vào mạng tạo sinh của REASRGAN (REASRGAN generator, REAGen) để cải thiện kết quả của quá trình huấn luyện, trong khi vẫn giữ nguyên kích thước mô hình khi kiểm thử.
− Tích hợp cơ chế tập trung hiệu quả [3] (efficient attention, EA) vào REAGen dưới dạng các khối tập trung hiệu quả kèm theo kết nối dư thừa (residual EA blocks, res-EA) nhằm mở rộng vùng tiếp thu (receptive field) ra toàn bộ ảnh,trong khi vẫn giữ được độ phức tạp tính toán ở mức tuyến tính.
− Đề xuất phát triển mạng phân biệt của REASRGAN (REASRGAN discrimi- nator, READis) dựa trên kiến trúc của StairIQA [4], và khởi tạo READis với bộ trọng số huấn luyện sẵn do nhóm tác giả gốc công bố, nhằm tận dụng khả năng đánh giá độ chân thật ảnh của StairIQA để hướng dẫn REAGen sinh ra ảnh gần gũi với cảm quan con người hơn.
Bài viết đề xuất quy trình huấn luyện 3 giai đoạn cân bằng giữa độ chính xác và thực tế của ảnh đầu ra Giai đoạn đầu tập trung vào sức mạnh của REAGen, ưu tiên độ chính xác dựa trên dữ liệu tập lớn Giai đoạn thứ hai sử dụng READis để nâng cao độ chân thực, bằng cách thêm các chi tiết và sắp xếp lại các đối tượng Cuối cùng, giai đoạn thứ ba tinh chỉnh mô hình bằng cả hai REAGen và READis, đảm bảo độ cân bằng giữa độ chính xác và độ chân thực.
Cấu trúc căn bản của luận văn này
Luận văn này theo cấu trúc năm chương Chương 1 là phần giới thiệu Chương 2 khảo sát nghiên cứu trước để chọn mô hình cơ sở và các độ đo không tham khảo dựa trên học sâu Chương 3 trình bày các đề xuất cải tiến mô hình cơ sở Chương 4 thực nghiệm kiểm tra đề xuất và phân tích đóng góp của từng bước cải tiến Chương 5 tổng kết thành quả và đề xuất hướng nghiên cứu tiếp theo.
Khảo sát các nghiên cứu về siêu phân giải ảnh
Theo kiến trúc mô hình
Dựa vào kiến trúc của mô hình, chúng tôi phân loại các giải thuật siêu phân giải ảnh thành các nhóm sau: học máy đơn giản và học sâu.
Các giải thuật siêu phân giải ảnh sớm nhất là các giải thuật học máy đơn giản, chưa phải học sâu Trong bài báo [13], Freeman và các đồng tác giả đã dựa trên mạng Markov và sự lan truyền Bayes Sau đó vài năm, nhóm của Chang trong bài báo [14] đã tận dụng các giải thuật học đa tạp (manifold learning) Trong khi đó, Yang và các cộng sự trong bài báo [15] dựa vào các kỹ thuật mã hóa thưa (sparse encoding) và lấy mẫu thưa (sparse sampling) Nhìn chung, các công trình này dựa vào các giải thuật đã được định nghĩa rõ ràng và tốn nhiều tài nguyên tính toán Bên cạnh đó, chúng không khôi phục được tốt các thông tin tần số cao (high-frequency information) và không tận dụng được các bộ dữ liệu huấn luyện ngày càng phong phú và đồ sộ.
Các giải thuật siêu phân giải dựa trên học sâu bắt đầu xuất hiện từ sau sự thành công của học sâu trong lĩnh vực thị giác máy tính Trong số đó, các mạng học sâu chỉ đơn thuần dựa trên các lớp tích chập (convolution layers) được đề xuất sớm nhất và vẫn còn sức ảnh hưởng mạnh mẽ đến tận bây giờ Một trong những mô hình đầu tiên như vậy là SRCNN được đề xuất bởi Dong và các đồng sự trong [16] SRCNN phóng to ảnh trước rồi mới dùng các lớp tích chập để biến đổi ảnh thô này thành ảnh đầu ra có chất lượng tốt hơn Nhóm nghiên cứu của Shi qua bài báo [6] đã đề xuất mô hình ESPCN (như hình 2.1) Cách tiếp cận của ESPCN là trích xuất đặc trưng trên ảnh độ phân giải thấp trước, rồi mới phóng to sau Nhóm tác giả này đề xuất sử dụng lớp xáo trộn điểm ảnh (pixel shuffle layer, PS) để phóng to ảnh ESPCN là một cột mốc quan trọng, vì nó đủ nhanh để siêu phân giải được trong thời gian thực, và truyền cảm hứng cho rất nhiều mô hình khác về sau trong việc dùng các lớp PS để tăng độ phân giải ở cuối mạng học sâu Sau đó, vào năm 2018, Zhang và các đồng tác giả trong [17] đã đề xuất kiến trúc RCAN Trong công trình này, nhóm tác giả nhận xét rằng biểu hiện (performance) của mô hình không phải luôn tăng theo số lớp, vì mô hình càng sâu thì càng khó huấn luyện Nhóm tác giả đề xuất dùng các kết nối dư thừa (residual connection) ngắn và dài, và các lớp tập trung theo kênh (channel-attention layer, CA) để ổn định quá trình huấn luyện, từ đó xây dựng một mô hình rất sâu cho bài toán siêu phân giải.
Gần đây, bên cạnh việc tăng chất lượng ảnh đầu ra, một số nhóm nghiên cứu còn cố gắng phát triển các mô hình gọn nhẹ hơn để dễ dàng ứng dụng trong cuộc sống như: SR-ILLNN và SR-SLNN ([18]), NCNet ([19]) và ShuffleMixer ([20]). Một xu hướng nghiên cứu khác là xây dựng các khối đơn vị (block) phức tạp gồm nhiều nhánh tích chập song song nhau cũng được quan tâm đến gần đây Một số công trình tiêu biểu là: DSRCNN ([21]), ESRGCNN ([22]) và HGSRCNN ([23]). Lấy ý tưởng từ sự thành công của các kiến trúc dạng transformer trong lĩnh vực thị giác máy tính nói chung, các nhóm nghiên cứu dần tìm cách áp dụng kiểu kiến trúc này vào bài toán siêu phân giải ảnh và đã đạt được nhiều kết quả tốt Swin Transformer, được đề xuất bởi nhóm của Liu trong bài báo([24]), không phải là một mô hình dành cho bài toán siêu phân giải ảnh, nhưng những điểm cải tiến của nó đã được rất nhiều mô hình siêu phân giải khác tham khảo Swin Transformer bao gồm các khối tự tập trung nhiều đầu dựa trên cửa sổ thường (window multi-head
Hình 2.1: Kiến trúc của mô hình ESPCN, hình này lấy ra từ [6]. self attention module, W-MSA) và các khối tự tập trung nhiều đầu dựa trên cửa sổ dịch chuyển (shifted window multi-head self attention module, SW-MSA) để tính toán tập trung (attention) trên từng cửa sổ (chính là các vùng nhỏ có kích thước bằng nhau trong ảnh) Việc này là nhằm tránh bùng nổ số phép toán khi thực hiện phép tính tập trung trên cả ảnh Các cửa sổ của các khối W-MSA và SW-MSA lệch nhau và mở rộng dần về cuối của mô hình, nhằm mở rộng vùng tiếp thu (receptive field) Sau đó, Liang và đồng sự đã đề xuất kiến trúc SwinIR cho các bài toán khôi phục ảnh (trong đó có bài toán siêu phân giải ảnh) qua bài báo [25] SwinIR dựa trên các khối W-MSA và SW-MSA của SwinTransformer Tuy nhiên, khác với Swin Transformer, kích thước cửa sổ được giữ cố định trong SwinIR Tiếp nối SwinIR, Chen và các đồng tác giả qua công trình [7] đã đề xuất kiến trúc HAT cho bài toán siêu phân giải ảnh Nhìn chung, kiến trúc tổng quát của HAT (như hình 2.2) dựa trên RCAN với nhiều kiểu kết nối dư thừa và các lớp tập trung theo kênh (CA) Tuy nhiên, các khối đơn vị cơ bản của HAT còn có cả các lớp W-MSA và SW-MSA như SwinIR Ngoài ra, nhóm tác giả còn đề xuất thêm các khối tập trung chéo trùng lắp (overlapping cross-attention block, OCAB) tính toán tập trung với ma trận đáp án (key matrix,K) và ma trận giá trị (value matrix,V) được tính ra từ một cửa sổ rộng hơn cửa sổ của ma trận câu hỏi (query matrix,Q) Từ đó, OCAB mở rộng vùng tiếp thu ra xa hơn nữa.
Bên cạnh các mô hình chủ yếu chỉ dựa vào transformer hay tích chập nêu trên, một số nghiên cứu đã tích hợp thành công cả hai loại kiến trúc này trong một mô hình, ví dụ như: HNCT ([26]), LBNet ([27]) và CTCNet ([28]).
Hệ mạng tạo sinh đối nghịch (generative adversarial networks, GAN) cũng là
Hình 2.2: Kiến trúc của framework HAT [7]. một dạng kiến trúc phổ biến cho các mô hình học sâu giải quyết bài toán siêu phân giải ảnh Ledig và các đồng sự đã đề xuất SRGAN trong bài báo [29] Theo nhóm tác giả, đây là một trong những mô hình học sâu đầu tiên có khả năng sinh ra ảnh siêu phân giải với độ chân thật cao Điều đó là nhờ sử dụng hàm mất mát về cảm quan (perceptual loss) khi huấn luyện Hàm này được kết hợp từ hàm mất mát nội dung (content loss) và hàm mất nát đối nghịch (adversarial Loss) Trong đó, hàm mất mát về nội dung được tính bằng trung bình bình phương sai số (mean square error, MSE) giữa các đặc trưng, được trích xuất nhờ một mô hình học sâu đã huấn luyện từ trước, của ảnh siêu phân giải đầu ra và ảnh gốc chất lượng cao (ground truth) Giá trị của hàm mất này này phản ánh mức độ sai khác về mặt nội dung giữa hai ảnh này Hàm mất mát đối nghịch chính là kết quả của mạng phân biệt (discriminator) Việc dùng các hàm này khi huấn luyện nhằm dẫn dắt đầu ra của mạng tạo sinh hướng tới vùng phân bố của các ảnh thật Những cải tiến này của SRGAN đã được các công trình sau đó tiếp thu và vận dụng.
ESRGAN dựa trên SRGAN, loại bỏ chuẩn hóa theo lô và thêm các kết nối dư thừa Nó cải tiến phần tử phân biệt bằng cách dự đoán độ chân thực tương đối của ảnh đầu ra Phần tử phân biệt gán điểm số cho mỗi ảnh, trong khi phần tử tạo sinh cố gắng làm cho ảnh siêu phân giải có điểm số cao hơn điểm số trung bình của ảnh thật Ngược lại, phần tử phân biệt cố gắng chấm điểm chính xác hơn, sao cho ảnh thật có điểm số cao hơn điểm số trung bình của ảnh giả, giúp ESRGAN trở thành mô hình siêu phân giải chất lượng cao.
Một cải tiến đáng chú ý khác của SRGAN là tính gọn nhẹ, như mô hình SwiftSRGAN của nhóm Krishnan [1] SwiftSRGAN dựa trên kiến trúc SRGAN nhưng cải tiến chính là thay thế các lớp tích chập thông thường bằng các lớp tích chập phân tách được theo chiều sâu (DSC) Bên cạnh đó, mô hình huấn luyện sẵn trong hàm mất mát nội dung (content loss) được thay bằng mạng MobileNetV2 nhỏ gọn hơn so với VGG19 trong SRGAN Nhờ những cải tiến này, SwiftSRGAN đủ nhanh để chạy thời gian thực, thậm chí còn xử lý được video.
Nhìn chung, các mô hình chỉ đơn thuần dựa trên tích chập hay có thêm trans- former có thể đạt được độ chính xác rất cao về các chi tiết trong ảnh đầu ra Tuy nhiên, không phải các ảnh này lúc nào cũng thân thiện với mắt người Ở chiều ngược
Hình 2.3: Cách Real-ESRGAN mô phỏng những loại suy giảm chất lưởng ảnh đa dạng trong thực tế [8].
Hình 2.4: Kiến trúc của framework MMHCA [9]. lại, các mô hình dựa trên GAN dễ dàng tạo ra các ảnh cực kỳ chân thực, nhưng điều này đi kèm với khả năng một số chi tiết trong ảnh đầu ra không trung thành tuyệt đối nội dung gốc trong ảnh đầu vào.
Bên cạnh các mô hình cụ thể như trên, một số bài báo còn đề xuất các khung(framework) để cải tiến chất lượng của các mô hình có sẵn Georgescu và nhóm nghiên cứu đã đề xuất framework MMHCA (như hình 2.4) qua bài báo [9] MMHCA kết hợp các đặc trưng trích xuất từ những ảnh thuộc các chế độ (mode) khác nhau của cùng một lần chụp MRI hay CT, để sinh ra ảnh siêu phân giải Việc trích xuất đặc trưng được thực hiện nhờ một mô hình siêu phân giải có sẵn bất kì Việc kết hợp
Hình 2.5: Kiến trúc của framework PD, hình này lấy ra từ [10]. được thực hiện nhờ cơ chế tập trung theo không gian và theo kênh (spatial-channel attention).
Các kỹ thuật đảo ngược GAN (GAN inversion) cũng có thể được xem là những framework Với bài toán siêu phân giải, các kỹ thuật đảo ngược GAN giả định ảnh siêu phân giải cần tìm được sinh ra từ một mô hình GAN nhất định Các kỹ thuật này đi tìm một giá trị trong không gian thưa (latent space) của mạng tạo sinh trong hệ GAN đó, sao cho từ giá trị này, khi qua mạng tạo sinh và tiếp theo là các phép biến đổi suy giảm chất lượng, sẽ tạo ra ảnh chất lượng thấp đầu vào Wang và các cộng sự trong bài báo [32] đã đề xuất framework CRI Framework này tiến hành đảo ngược GAN trên hệ StyleGAN-XL [33] Vector cần tìm được khởi tạo gần một trọng tâm (centroid) của không gian thưa và bị ràng buộc về khoảng cách (không được quá xa) so với trọng tâm này.
Một cách tiếp cận khác với GAN là nâng cao độ chính xác của nội dung ảnh đầu ra so với ảnh đầu vào Wang và nhóm nghiên cứu đã đề xuất framework PD(như hình 2.5) trong công trình [10] Framework này phân tích các ảnh thành không gian vô hiệu (null space) và không gian giá trị (range space) PD khi áp dụng lên một mô hình GAN sẽ kết hợp không gian vô hiệu của đầu ra từ mô hình GAN đó với không gian giá trị của ảnh đầu vào để tạo thành ảnh siêu phân giải sau cùng.Theo nhóm tác giả, không gian giá trị chứa các thông tin tần số thấp (low-frequency information) và việc kết hợp như trên sẽ giúp truyền tải thẳng các thông tin này từ ảnh gốc sang ảnh siêu phân giải Từ đó, framework này giúp tăng tính chính xác của kết quả, mà không cần phải đánh đổi với độ chân thực.
Theo số lượng đầu vào được xử lý
Theo số lượng ảnh đầu vào được xử lý, có 2 loại bài toán siêu phân giải: siêu phân giải một đầu vào (single-image super resolution, SISR) và siêu phân giải nhiều đầu vào (multiple-image super resolution, MISR) Từ đó, các loại giải thuật tương ứng cho từng bài toán lần lượt ra đời.
Các giải thuật SISR khá phổ biến và được nghiên cứu rộng rãi Phần lớn các công trình được chúng tôi khảo sát (ví dụ như [6], [17], [8]) thuộc về nhóm này. Các giải thuật MISR dựa vào nhiều ảnh có quan hệ gần gũi với nhau để tạo ra ảnh siêu phân giải Tuy nhiên, không phải lúc nào các ảnh như vậy cũng có sẵn.
Do đó, các thuật toán MISR dường như ít được biết đến hơn Framework MMHCA [9] là một ví dụ về MISR Framework này tận dụng sức mạnh của các mô hình SISR khác để thực hiện siêu phân giải nhiều ảnh cùng một lúc.
Theo hiểu biết về loại suy giảm chất lượng trong ảnh đầu vào
vào Ảnh đầu vào của mô hình siêu phân giải ảnh có thể bị suy giảm chất lượng theo nhiều cách khác nhau, bao gồm cả việc giảm độ phân giải Nhìn chung, các mô hình đều cố gắng loại bỏ những suy giảm này và đảm bảo ảnh sinh ra sẽ có chất lượng cao hơn, bao gồm cả việc có độ phân giải cao hơn.
Các mô hình suy luận siêu phân giải thông thường được huấn luyện trên một tập giới hạn các kiểu suy giảm chất lượng cố định, chẳng hạn như giảm độ phân giải bicubic Do đó, chúng bị hạn chế trong việc xử lý các ảnh đầu vào bị suy giảm theo những cách mà chúng chưa được học trong quá trình đào tạo Các ví dụ về các mô hình này bao gồm ESPCN, SRGAN và ESRGAN.
Trong khi đó, một số mô hình cố gắng mở rộng miền suy giảm mà chúng xử lý được rộng nhất có thể Chúng được gọi là các mô hình siêu phân giải không biết trước loại suy giảm trong ảnh đầu vào (blind super resolution, BSR) Real-ESRGAN
[8] tổng quát hóa nhờ cố gắng đa dạng hóa các kiểu suy giảm bắt gặp trên ảnh đầu vào khi huấn luyện, đưa chúng tiệm cận với những suy giảm ngẫu nhiên và không rõ nguồn gốc trong thực tế Một hướng tiếp cận khác là huấn luyện mô hình theo hướng có thể phóng to với nhiều mức khác nhau, ví dụ như ESRGCNN [22] vàHGSRCNN [23].
Kỹ thuật đặt lại tham số
Đặt lại tham số (reparameterization, Rep) là một kỹ thuật thường thấy để giúp mô hình hội tụ tốt hơn khi huấn luyện, nhưng vẫn đảm bảo tính gọn nhẹ khi kiểm thử.
Kỹ thuật này được đề xuất lần đầu trong bài báo [2] bởi Ding và các đồng sự. Theo nhóm tác giả này, các mô hình học sâu có thể chia làm 2 dạng chính là:
− Phẳng: các mô hình dạng này gồm nhiều lớp nối tiếp nhau một cách tuần tự, không phân nhánh, ví dụ như mô hình VGG.
− Phân nhánh phức tạp: các mô hình dạng này chứa nhiều nhánh song song nhau, ví dụ như GoogLeNet [34], ResNet [35], DenseNet [36], v.v.
Về mặt kết quả, các mô hình phân nhánh phức tạp tốt hơn Theo [37], một mô hình phân nhánh phức tạp có thể được xem như một phép lấy mẫu của rất nhiều mô hình cạn hơn Ví dụ, với một mô hình gồm n khối liên tiếp, mỗi khối có 2 nhánh song song nhau, mô hình đó có thể được diễn giải như là việc lấy mẫu của 2 n mô hình con Do đó, việc huấn luyện tránh được việc độ dốc bị triệt tiêu (gradient vanishing). Tuy nhiên, về mặt hiệu năng, các mô hình phẳng tốt hơn Điều này được giải thích qua 2 yếu tố sau đây:
− Kích thước mô hình: Việc có nhiều nhánh đòi hỏi phải tính toán nhiều hơn. Điều đó sẽ khiến mô hình khó được tinh chỉnh hơn và chạy chậm hơn khi kiểm thử.
− Sử dụng bộ nhớ: Với nhiều nhánh tồn tại song song, thông tin ở các nhánh cần được giữ trong bộ nhớ cho tới khi các nhánh gặp lại nhau Trong khi đó,
Do kết nối dư thừa, mô hình phân nhánh phải lưu trữ thông tin ban đầu cho đến khi nhánh chính và nhánh dư thừa gặp lại, dẫn đến nhu cầu bộ nhớ tăng gấp đôi trong khoảng thời gian đó Ngược lại, trong mô hình phẳng, vùng nhớ lưu trữ thông tin của tác vụ tính toán được thu hồi ngay khi tính toán xong, giải quyết vấn đề chiếm bộ nhớ.
Từ những ưu - nhược điểm của mỗi loại kiến trúc mô hình đã được phân tích như trên, Ding và các đồng sự đề xuất tách biệt kiến trúc mô hình giữa giai đoạn huấn luyện và giai đoạn kiểm thử Đây chính là kỹ thuật đặt lại tham số Cụ thể như sau:
− Khi huấn luyện: Sử dụng một kiến trúc phân nhánh để giúp mô hình hội tụ tốt hơn.
Trong quá trình thử nghiệm, mô hình sử dụng kiến trúc phẳng thay thế cho kiến trúc phân nhánh được áp dụng trong giai đoạn huấn luyện để tối ưu hóa tốc độ xử lý và giảm thiểu tài nguyên sử dụng.
Việc đặt lại các tham số của kiến trúc phân nhánh trong giai đoạn huấn luyện để tạo thành kiến trúc phẳng trong giai đoạn kiểm thử được nhóm của Ding đề xuất dựa trên các phép toán đại số tuyến tính đơn giản, song vẫn đảm bảo rằng với cùng đầu vào, cả hai phiên bản của mô hình trước và sau biến đổi đều sẽ cho ra cùng một kết quả.
Hình 2.7: Cách áp dụng kỹ thuật đặt lại tham số vào mô hình RepVGG [2] Hình a) là một phần của mô hình ResNet cho thấy việc dùng chung 1 kiến trúc khi huấn luyện và khi kiểm thử Hình b) là kiến trúc của RepVGG khi đang huấn luyện, với
3 nhánh Hình c) là kiến trúc của RepVGG khi đang kiểm thử với chỉ 1 nhánh duy nhất. Để minh họa cho ý tưởng này, Ding và các đồng sự đã dựa trên mô hình ResNet [35] và áp dụng kỹ thuật này nhằm xây dựng nên mô hình RepVGG (xem hình 2.7). RepVGG được tạo thành từ nhiều khối đơn vị Khi huấn luyện, mỗi khối như vậy bao gồm 3 nhánh:
− Nhánh3×3gồm một lớp tích chập với nhân (kernel)3×3và một lớp chuẩn hóa theo lô (batch normalization, BN);
− Nhánh 1×1gồm một lớp tích chập với nhân1×1và một lớp BN;
− Nhánh kết nối dư thừa (residual connection, Res) chỉ bao gồm duy nhất một lớp BN.
Trước khi sang giai đoạn kiểm thử, việc đặt lại tham số của khối đơn vị được thực hiện qua 2 bước như hình 2.8 Cụ thể như sau:
1 Quy đổi các nhánh về cùng dạng lớp tích chập nhân 3×3 Mỗi nhánh sẽ có những bước quy đổi khác nhau:
− Với nhánh3×3: Vì lớp tích chập ở nhánh này đã có nhân3×3sẵn, nên nhánh này chỉ cần hợp nhất lớp tích chập này với lớp BN liền sau nó.
− Với nhánh 1×1: Đầu tiên, nhân của lớp tích chập trong nhánh này sẽ được mở rộng thành kích thước 3×3bằng cách đệm vào 8 vị trí xung quanh các giá trị0 Sau đó, nó sẽ được hợp nhất với lớp BN liền sau.
− Với nhánh Res: Có thể xem Res là một lớp tích chập với nhân là 1×1 và số nhóm (group) là số kênh đầu ra Do đó, nhánh Res trước tiên được thể hiện bằng một lớp tích chập nhân 1×1, với các trọng số biến đổi kênhi ở đầu vào thành kênhi ở đầu ra là1và các trọng số còn lại là0. Sau đó, nhân của lớp tích chập này cũng sẽ được đệm vào 8 giá trị 0 ở xung quanh và hợp nhất với lớp BN phía sau để tạo thành một lớp tích chập quy đổi với nhân3×3.
2 Cộng bộ trọng số của các lớp tích chập ở các nhánh lại với nhau, từ đó tạo thành một lớp tích chập nhân 3×3duy nhất.
Việc hợp nhất một lớp tích chập với một lớp BN được thực hiện qua công thức sau:
Trong đó,W ∈R C 2 ×C 1 ×3×3 vàblần lượt là trọng số và độ lệch của lớp tích chập với số kờnh đầu vào và đầu ra lần lượt là C 1 vàC 2 ; à, σ,γ và β lần lượt là giỏ trị kỳ vọng tích lũy, độ lệch chuẩn tích lũy, hệ số mở rộng học được và độ lêch học được của lớp BN;W ′ vàb ′ lần lượt là trọng số và độ lệch của lớp tích chập kết quả.Nhờ kỹ thuật đặt lại tham số, Ding và các đồng sự đã huấn luyện mô hìnhRepVGG thành công, trong khi vẫn đảm bảo được hiệu năng khi kiểm thử.
Hình 2.8: Cách đặt lại tham số của phiên bản huấn luyện để tạo thành phiên bản kiểm thử ở một khối đơn vị trong mô hình RepVGG [2], khi đầu vào và đầu ra của khối này đều có 2 kênh Hình a) là dưới góc nhìn cấu trúc Hình b) là dưới góc nhìn của các tham số.
Khảo sát một số loại phép tính tập trung
Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ
Phép tính tập trung dựa trên tích vô hướng có chia tỷ lệ [38] (scaled dot-product attention, SDPA) cho một điểm dữ liệu đầu vàoX vớinđiểm ảnh bao gồm các bước sau:
1 Tính ma trận câu hỏi, ma trận đáp án và ma trận giá trị: Ma trận câu hỏi (query matrix, Q∈R n×d k ) thể hiên những thông tin mà từng điểm trên X đang tìm kiếm Ma trận đáp án (key matrix, K ∈R n×d k ) trả lời cho những câu hỏi đó.
Ma trận giá trị (value matrix,V ∈R n×d v ) là những thông tin trên từng điểm ảnh mà mô hình học sâu quan tâm đến SDPA tính toán các ma trận này như sau:
Trong mô hình này, ba hàm f q , f k và f v có thể được tùy chỉnh theo nhu cầu cụ thể Thường gặp nhất, chúng là các lớp tích chập (convolution layer) hoặc các lớp kết nối đầy đủ (dense layer), cho phép mô hình trích xuất các đặc trưng quan trọng từ dữ liệu đầu vào và thực hiện các phép biến đổi phức tạp.
2 Tính ma trận độ giống nhau giữa từng cặp điểm: Sự giống nhau giữa điểm u và điểmvđược đo lường bằng tích vô hướng của vector câu hỏi tạiuvà vector đáp án tại v Tích này càng lớn, chứng tỏvcàng có khả năng cao đang chứa những thông tin mà uđang tìm kiếm Trên quy mô toàn bộ ảnhX, các giá trị độ giống nhau giữa một điểm với tất cả các điểm còn lại tạo thành ma trận độ giống nhau giữa từng cặp điểm (pair-wise similarity matrix, S∈R n×n ). SDPA tính toán Stừ QvàK như sau:
Phép tính này có độ phức tạp làO(n 2 ).
3 Tổng hợp kết quả: Ma trận Sđược chuẩn hóa nhờ một hàm chuẩn hóa ρ nào đó để đảm bảo quá trình huấn luyện được ổn định Sau đó, phiên bản chuẩn hóa của S sẽ được nhân với ma trận giá trịV để thu được kết quả sau cùng (E ∈R n×d v ), như công thức sau:
Thông thường,ρ được chọn như sau: ρ(x) =so f tmax x
(2.8) Độ phức tạp tổng cộng của các phép tính trong bước này làO(n).
Như vậy, phép tính SDPA mở rộng vùng tiếp thu của một pixel ra toàn ảnh, giúp tổng hợp thông tin phạm vi toàn cục và phát hiện mối quan hệ giữa những pixel xa nhau Tuy nhiên, phép tính phức tạp O(n^2) trong SDPA khiến hiệu năng bị ảnh hưởng nghiêm trọng khi xử lý ảnh lớn Điều này hạn chế ứng dụng trực tiếp của SDPA trong thị giác máy tính, nơi dữ liệu đầu vào thường có số lượng pixel rất lớn.
Phép tính tập trung hiệu quả
Phép tính tập trung hiệu quả (efficient attention, EA) được Shen và các đồng sự đề xuất trong [3] như một cách để xấp xỉ giải thuật SDPA với độ phức tạp tuyến tính Phép tính EA gồm các bước sau:
1 Tính ma trận câu hỏi, ma trận đáp án và ma trận giá trị: Ở bước này, EA giữ lại cách tính các ma trậnQ,K vàV từ SDPA.
2 Tính ma trận toàn cảnh: Ma trận đáp ánK được chuẩn hóa nhờ một hàmρk nào đó Sau đó phiên bản đã chuẩn hóa của K được chuyển vị rồi nhân với
Hệ thống do Shen và cộng sự đề xuất trong [3] hoạt động dựa trên nguyên tắc phép tính tập trung hiệu quả Theo đó, ma trận giá trị V được cộng vào ma trận giá trị toàn cảnh G nhằm đưa ra kết quả, theo công thức: G = V + G.
Phép tính này có độ phức tạp là O(n) với nlà số điểm ảnh (pixel) có trong ảnh.
3 Tổng hợp kết quả: Ma trận câu hỏiQcũng được chuẩn hóa bởi một hàm chuẩn hóaρqnào đó Sau đó, phiên bản chuẩn hóa này củaQđược nhân với ma trận toàn cảnhGđể tổng hợp giá trị tập trung hiệu quảE, như công thức sau:
Phép tính này cũng có độ phức tạp là O(n), với nlà số điểm ảnh (pixel) có trong ảnh.
Như vậy, nguyên lý hoạt động của EA chính phép xấp xỉ (2.11) trong chuỗi suy luận toán học sau: ρ QK T
Chính nhờ phép xấp xỉ này, giá trị tập trung dựa trên tích vô hướng có chia tỷ lệ (D) được phân rã (một cách gần đúng) thành chuỗi phép nhân ma trận của ρq(Q),ρk(K) T và V (như công thức (2.14)) Như đã trình bày ở tiểu mục 2.3.1, phép nhân ma trận giữa QvàK T có độ phức tạp làO(n 2 ) Doρq(Q)vàρk(K) T có cùng kích thước với Q và K T , phép nhân giữa 2 ma trận này cũng sẽ có độ phức tạp là O(n 2 ) Shen và các đồng sự đã tránh được phép toán nặng nề này bằng cách dựa vào tính chất kết hợp của phép nhân ma trận (như công thức (2.15)) Cụ thể, họ thực hiện phép nhân giữa ρk(K) T vàV trước tạo ra giá trịG(phép toán (2.9)) Sau đó, họ thực hiện tiếp phép nhân giữaρq(Q)vàGđể tạo raE (phép toán (2.10)) Do cả hai phép toán này đều có độ phức tạp tính toán là O(n), EA có thể xấp xỉ được SDPA chỉ với độ phức tạp tuyến tính Nguyên lý này được tổng kết qua hình 2.9. Theo nhóm của Shen, tùy thuộc vào cách chọnρ trong SDPA, cùng vớiρq vàρk trong EA, hai phép tính tập trung này có thể xấp xỉ nhau hay thậm chí tương đương nhau Cụ thể như sau:
− Khi ρ,ρq và ρk đều là hàm chia tỷ lệ, SPDA và EA có thể hoàn toàn tương đương, như các công thức sau:
− Khiρ,ρq vàρk đều cùng là các hàm softmax và chia tỷ lệ, EA chỉ có thể xấp xỉ SPDA, như các công thức sau:
Mặc dù không thể hoàn toàn tương với SDPA, hàm chuẩn hóa softmax được nhóm tác giả gốc khuyên dùng cho EA, do nó sẽ cho kết quả tốt hơn.
Trong luận văn này, nhóm sẽ áp dụng phép tính tập trung hiệu quả vào mô hình đề xuất để tăng sức mạnh cho mô hình, trong khi vẫn giữ được độ phức tạp tính toán ở mức tuyến tính.
Các độ đo của bài toán siêu phân giải ảnh
Phân loại các độ đo đánh giá chất lượng ảnh
Dựa vào lượng thông tin cần được cung cấp khi tiến hành đánh giá một ảnh, các độ đo IQA có thể được chia thành 3 loại như sau:
− Độ đo chất lượng ảnh tham khảo đầy đủ (full-reference IQA, FRIQA): Các độ đo này đánh giá chất lượng một ảnh dựa trên một ảnh khác được xem là gốc, là chất lượng cao Điểm số gán cho ảnh cần đánh giá phản ánh mức độ biến dạng của ảnh này so với ảnh gốc.
− Độ đo chất lượng ảnh tham khảo hạn chế (reduced-reference IQA, RRIQA):
Các độ đo này vẫn đặt giả định về sự tồn tại của một ảnh gốc mà từ đó biến dạng thành ảnh cần đánh giá, như với FRIQA Tuy nhiên, thay vì dùng toàn bộ ảnh gốc, RRIQA chỉ sử dụng một cách hạn chế một số thông tin, đặc trưng được lấy ra từ ảnh gốc cho mục đích chấm điểm.
− Độ đo chất lượng ảnh không tham khảo (blind IQA, BIQA): Khác với FRIQA và RRIQA, các độ đo BIQA không quan tâm đến sự tồn tại của một phiên bản gốc mà từ đó biến dạng thành ảnh cần đánh giá Thay vào đó, chúng trực tiếp đánh giá một ảnh dựa trên các thuộc tính tự nhiên có trong ảnh như màu sắc, sự tương phản, sự đồng đều, v.v Vì không cần tham chiếu đến ảnh gốc,các độ đo BIQA có ý nghĩa to lớn trong thực tiễn, nơi những ảnh gốc nhưFRIQA và RRIQA giả định rất khó hoặc không thể đạt được.
Khảo sát các độ đo BIQA
Theo bài khảo sát [11] của Yang và các đồng sự, dựa theo mức độ ứng dụng học sâu, các giải thuật BIQA có thể được chia thành 3 loại như sau:
− Không dùng học sâu: Các giải thuật BIQA này thường gồm 2 giai đoạn là trích xuất đặc trưng từ ảnh và hồi quy giá trị điểm số cho ảnh Trong đó, các đặc trưng được định nghĩa rõ ràng từ trước Các độ đo này dựa trên giả định rằng những đặc trưng này trong các ảnh chất lượng cao sẽ tuân theo một số quy luật thống kê nào đó, và các biến dạng trong ảnh sẽ làm các đặc trưng trích xuất được xa rời các quy luật thống kê này Do đó, mức độ thiên lệch, ly tâm về mặt thống kê được xem như một dự đoán về chất lượng ảnh (càng cao thì ảnh càng tệ) Một số độ đo thuộc dạng này như: BIQI [39] , DIIVINE [40], BRISQUE [41], BLIINDS-II [42], NRSL [43], NR-GLBP [44], v.v.
Các thuật toán BIQA sử dụng học sâu vẫn bao gồm hai giai đoạn: trích xuất đặc trưng và chấm điểm ảnh dựa trên đặc trưng Tuy nhiên, thay vì dựa vào các đặc trưng được thiết kế sẵn, các thuật toán này tận dụng sức mạnh của mạng nơ-ron học sâu để học gần như mọi loại mẫu hình Nhờ đó, chúng vừa khai thác tối đa khả năng biểu diễn của mạng nơ-ron vừa tránh được vấn đề thiếu dữ liệu để huấn luyện một mạng nơ-ron hoàn chỉnh Một số thuật toán BIQA điển hình thuộc dạng này bao gồm: FRIQUEE + DBN, SFA và CONTRIQUE.
− Dùng học sâu để dự đoán trực tiếp điểm số cho ảnh: Các giải thuật BIQA dạng này mới xuất hiện gần đây Bằng một số thủ thuật (như sinh thêm dữ liệu, chia nhỏ ảnh thành các mảnh, v.v), các nhóm tác giả đã vượt qua được vấn đề khan hiếm dữ liệu huấn luyện và đã huấn luyện thành công các mô hình học sâu từ đầu tới cuối (end-to-end) cho bài toán BIQA Cụ thể hơn, các mô hình này nhận trực tiếp ảnh cần đánh giá ở đầu vào, và cho ra một giá trị điểm số dự đoán ở đầu ra Một số độ đo BIQA thuộc dạng này như: CNN [48], BIECON [49], MEON [50], DB-CNN [51], HyperIQA [52], TReS [53], RAN4IQA [54], CYCLEIQA [55], HFF [56], FOSD-IQA [57], CVC-T [58], StairIQA [4], v.v.
Các độ đo BIQA đều được xây dựng trên cơ sở của các bộ dữ liệu có nguồn gốc từ việc khảo sát ý kiến con người Các ảnh trong bộ dữ liệu này có một mức độ biến dạng nhất định Nhãn của chúng là một con số, phản ánh cảm nhận trung bình của những người được khảo sát về chất lượng (độ biến dạng) ảnh (mean opinion score,MOS) Dựa theo loại suy giảm, có thể chia các bộ dữ liệu thành 2 loại là tổng hợp
(synthetic distortion) và tự nhiên (authentic distortion) Sự biến dạng tổng hợp được sinh ra nhờ các giải thuật và do đó, không thể bao quát toàn bộ các loại biến dạng ảnh có ngoài thực tế Do đó, trong luận văn này, chúng tôi tập trung vào các độ đo hoạt động tốt trên các bộ dữ liệu với biến dạng tự nhiên Một số bộ dữ liệu với biến dạng trong tự nhiên sau được khảo sát bởi Yang và các đồng sự trong [11]:
Mặc dù được đặt ra để đánh giá ảnh, bản thân các độ đo BIQA cũng có các tiêu chí riêng để đánh giá độ chính xác của chúng Hệ số tương quan thứ bậc Spearman (Spearman rank-order correlation coefficient, SRCC) và hệ số tương quan tuyến tính Pearson (Pearson’s linear correlation coefficient, PLCC) là những độ đo thường được dùng để đánh giá hiệu quả của một độ đo BIQA Cả 2 độ đo này đều cố gắng đo lường mối tương quan giữa điểm số dự doán bởi các giải thuật BIQA và điểm số thực được thu thập từ việc khảo sát ý kiến Do đó, giá trị SRCC và PLCC càng lớn, giải thuật BIQA càng phản ánh chính xác cảm quan của con người Công thức của SRCC và PLCC như sau:
− di là sự khác nhau về thứ hạng giữa kết quả khảo sát thực tế và kết quả dự đoán của giải thuật BIQA tại ảnh thứi;
− q i vàq¯ i lần lượt là điểm số thực tế qua khảo sát và điểm số do giải thuật BIQA dự đoán của ảnh thứi;
− qm và q¯m lần lượt là điểm số trung bình thực tế và dự đoán của toàn bộ ảnh trong bộ dữ liệu.
Dựa trên các bộ dữ liệu LIVEC, BID và KonIQ-10k, Yang và các đồng sự trong[11] đã đối chiếu một số công trình nổi bật nhất theo các tiêu chí SRCC và PLCC như trong bảng 2.1 Ngoài ra, chúng tôi còn bổ sung vào đó thông tin về độ đoStairIQA [4].
Một số độ đo được sử dụng trong luận văn này
2.4.3.1 Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu
Tỉ lệ giữa tín hiệu cực đại và tín hiệu nhiễu (peak signal to noise ratio, PSNR) là một độ đo FRIQA thường được dùng cho bài toán siêu phân giải PSNR đo lường mức độ nhiễu trong ảnh siêu phân giải so với hình ảnh gốc PSNR được tính theo công thức sau:
PSNR(I SR ,I HR ) ×log 10 max(I SR ) 2 MSE(I SR ,I HR )
Trong đó,I SR vàI HR lần lượt là ảnh siêu phân giải và ảnh chất lượng cao cho sẵn để đối chiếu; max(I HR )là giá trị lớn nhất có thể có của các điểm ảnh (pixel) trong ảnh và MSE là trung bình bình phương khác biệt (mean square error) theo từng pixel của 2 ảnh.
Do được tính theo đơn vị đề-xi-ben (dB), một sự gia tăng nhỏ trong chỉ số PSNR cũng có ý nghĩa lớn đối với chất lượng ảnh đầu ra.
2.4.3.2 Chỉ số tương đồng về cấu trúc
Chỉ số tương đồng về cấu trúc (structural similarity index measure, SSIM) là một độ đo FRIQA phổ biến khác cho bài toán siêu phân giải, bên cạnh PSNR.SSIM so sánh ảnh gốc và ảnh siêu phân giải dựa trên những hình mẫu cục bộ (local pattern) được chuẩn hóa theo độ sáng, độ tương phản và cấu trúc SSIM có thể được biểu diễn qua dãy các công thức sau: c 1 = (k 1 L) 2 (2.28) c 2 = (k 2 L) 2 (2.29) c 3 = c 2
− k 1 mặc định là 0.01 và k 2 mặc định là 0.03;
− Llà tỉ số giữa giá trị lớn nhất và nhỏ nhất mà 1 pixel có thể có;
− x và y là 2 cửa sổ trên ảnh;
− àx vàày lần lượt là trung bỡnh của cỏc pixel trờn cỏc cửa sổxvày;
− σ x 2 vàσ y 2 lần lượt là phương sai của các pixel trên các cửa sổ xvày;
− l(x,y), c(x,y), và s(x,y) lần lượt là các hàm so sánh về độ sáng, độ tương phản và cấu trúc.
Bên cạnh các độ đo tham khảo phổ biến như PSNR và SSIM, nghiên cứu này còn áp dụng thêm độ đo không tham khảo StairIQA do Sun cùng các cộng sự công bố trong công trình [4].
StairIQA có cấu tạo gồm 2 phần: mạng trích xuất đặc trưng dạng bậc thang(staircase network) và bộ hồi quy chất lượng ảnh (image quality regressors), như hình 2.10.
Hình 2.10: Kiến trúc mạng nơ-ron của giải thuật StairIQA ([4]).
Mạng trích xuất đặc trưng của StairIQA dựa trên mô hình ResNet [35] Sun và các đồng sự chia ResNet thành 5 giai đoạn, mỗi giai đoạn gồm nhiều lớp tích chập nối tiếp nhau Mỗi giai đoạn như vậy trích xuất ra những loại đặc trưng khác nhau Các đặc trưng đến từ những giai đoạn đầu biểu diễn những thông tin bậc thấp trong ảnh như nét cạnh, độ tương phản, v.v Các đặc trưng đến từ những giai đoạn sau biểu diễn những thông tin bậc cao hơn, phản ánh ý nghĩa (semantic) hàm chứa trong ảnh Theo Sun, sự cảm nhận của hệ thống thị giác con người (human vision system, HVF) đối với một ảnh bị ảnh hưởng bởi tất cả các loại đặc trưng trên, cả bậc thấp và bậc cao Do đó, một độ đo BIQA muốn mô phỏng tốt hành vi của HVF cần quan tâm đến nhiều cấp độ khác nhau của các đặc trưng trích xuất từ ảnh và cần có một cách hợp lý để tổng hợp chúng lại với nhau Từ đó, Sun và các đồng sự đã xây dựng một kiến trúc dạng bậc thang bao bọc lấy 5 giai đoạn của ResNet Kiến trúc này tổng hợp các đặc trưng từ mỗi giai đoạn theo thứ bậc Cụ thể như sau:
− Ns=5là số giai đoạn;
− F i là đặc trưng trích xuất ra được sau giai đoạn thứi;
− W là các cụm 3 lớp tích chập liên tiếp với kích thước nhân lần lượt là1×1,
3×3và 1×1, có nhiệm vụ biến đổi và đảm bảo các đặc trưng có cùng kích thước để thực hiện phép cộng;
− Fe i j là phiên bản đã biến đổi củaF i để chuẩn bị cộng vàoF j+1 ;
− F là đặc trưng tổng hợp, đại diện cho cả ảnh và sẽ được dùng để ước lượng số điểm cho ảnh.
Sau giai đoạn trích xuất đặc trưng dựa trên ResNet, đặc trưngF sẽ được chuyển đến bộ hồi quy chất lượng ảnh Bộ này gồm một lớp tổng hợp trung bình toàn cục (global average pooling, GAP) và theo sau là 2 lớp kết nối dày đặc (dense layer) với số nơ-ron lần lượt là 128 và 1 Hai lớp kết nối dày đặt này sẽ dự đoán điểm số cho ảnh. Để giải quyết vấn đề thiếu dữ liệu huấn luyện, Sun và các đồng sự đã huấn luyện StairIQA đồng thời trên nhiều bộ dữ liệu Theo đó, phần trích xuất đặc trưng sẽ được dùng chung và mỗi bộ dữ liệu sẽ có một bộ hồi quy chất lượng ảnh riêng. Như vậy, StairIQA cố gắng trích xuất những dạng đặc trưng phổ quát nhất, sử dụng được cho toàn bộ các bộ dữ liệu.
Nhờ những cải tiến như trên, StairIQA đạt được kết quả mô phỏng HVF khá tốt so vơi các độ đo BIQA khác gần đây (xem thêm ở bảng 2.1) Do vậy, chúng tôi quyết định sử dụng StairIQA để giám sát quá trình huấn luyện mô hình siêu phân giải ảnh của nhóm.
Bảng 2.1 so sánh hiệu suất của các biện pháp đánh giá chất lượng ảnh (BIQA) trên các bộ dữ liệu chứa các nhiễu loạn tự nhiên Dữ liệu được tổng hợp từ các nghiên cứu trước đây Các ô trống biểu thị thiếu dữ liệu từ các tác giả của các thuật toán BIQA tương ứng.
SRCC PLCC SRCC PLCC SRCC PLCC
2 giai đoạn với đặc trưng được thiết kế cụ thể
2 giai đoạn với đặc trưng được học từ mạng nơ-ron
Trong chương này, chúng tôi sẽ giới thiệu mô hình mà nhóm chọn làm cơ sở cho luận văn này (xem mục 3.1) Từ đó, chúng tôi đề xuất một mô hình mới cải tiến từ mô hình cơ sở (xem mục 3.2) Bên cạnh đó, chúng tôi còn đề xuất một chiến lược huấn luyện mới (xem mục 3.3) để đạt được những mục tiêu đã đạt ra.
Mô hình cơ sở
Sau khi xem xét các công trình nghiên cứu liên quan đến siêu phân giải ảnh, nhóm nghiên cứu đã lựa chọn mô hình SwiftSRGAN phù hợp với phạm vi luận văn Mô hình này có kích thước nhỏ gọn, tốc độ xử lý nhanh và chất lượng đầu ra tốt so với các phương pháp SISR khác.
Kiến trúc của SwiftSRGAN dựa trên nền tảng của SRGAN [29] và thay các lớp tích chập thông thường (convolution layer) bằng các lớp tích phân tách được theo chiều sâu (depth-wise seperable convolution layer, DSC) Cũng như SRGAN, SwiftSRGAN gồm hai thành phần chính là mạng tạo sinh (generator) và mạng phân biệt (discriminator), như trong hình 3.2.
Mạng tạo sinh (generator) của SwiftSRGAN có trọng tâm là 16 khối đơn vị kết nối dư thừa (residual unit block, res-Unit) liên tiếp nhau Mỗi khối đều có các thành phần theo thứ tự sau: lớp DSC thứ nhất, lớp chuẩn hóa theo lô (batch normalization, BN) thứ nhất, lớp hàm kích hoạt, lớp DSC thứ hai và sau cùng là lớp BN thứ hai. Bên cạnh đó, có một kết nối dư thừa tầm gần đi vòng qua toàn bộ các thành phần trong khối res-Unit Ngoài ra, mạng tạo sinh còn có một đường nối dư thừa tầm xa đi vòng qua toàn bộ 16 khối res-Unit này Việc phóng to ảnh được thực hiện nhờ các khối lấy mẫu lên (upsample block) ở gần cuối mạng tạo sinh Bên trong mỗi khối
Hình 3.1: So sánh kết quả của SwiftSRGAN (ảnh giữa) với Bicubic (ảnh trên cùng) và ảnh gốc (ảnh dưới cùng), hình này lấy ra từ [1]. này, có chứa 1 lớp xáo trộn điểm ảnh (pixel shuffle layer, PS) với hệ số mở rộng (scaling factor) là 2 Như vậy, nếu phóng to lên 2 lần, sẽ chỉ cần 1 khối phóng to. Còn khi phóng to lên 4 lần, sẽ cần tới 2 khối phóng to liên tục Tất cả các hàm kích hoạt của các lớp DSC trong mạng tạo sinh đều là hàm đơn vị tuyến tính đã chỉnh sửa với tham số (parametric rectified linear unit, PReLU).
Mạng phân biệt (discriminator) của SwiftSRGAN gồm 8 khối DSC (DSC block,DSCB) Mỗi khối DSCB đều bao gồm 1 lớp DSC, 1 lớp BN (khối DSC đầu tiên không có BN) và 1 lớp hàm kích hoạt Số kênh của các lớp DSC này tăng dần theo lũy thừa của 2 Tất cả các lớp DSC đều dùng hàm kích hoạt là hàm đơn vị tuyến tính đã chỉnh sửa và cho phép rò rỉ (leaky rectified linear unit, LeakyReLU) Phía sau 8 khối DSCB là 1 lớp tổng hợp trung bình thích nghi (adaptive average pooling) với đầu ra có kích thước 6×6 Đầu ra của lớp này sẽ được làm phẳng và đưa vào một mạng dày đặt (dense network) gồm hai lớp kết nối dày đặt (dense layer) với số
Hình 3.2: Kiến trúc mạng tạo sinh (generator) và mạng phân biệt (discriminator) của mô hình SwiftSRGAN [1] Trong đó,klà kích thước nhân (kernel),nlà số kênh ở đầu ra vàslà bước trượt (stride) của các lớp DSC."SR Image"là ảnh độ phân giải cao tạo ra bởi mô hình (ảnh giả) và "HR Image" là ảnh gốc với độ phân giải cao
(ảnh thật). nơ-ron lần lượt là 1024 và 1 Mục tiêu của mạng phân biệt là nhận biết những ảnh nó nhận được là ảnh thật hay ảnh sinh ra bởi mạng tạo sinh.
Một điểm cải tiến khác của mô hình SwiftSRGAN so với mô hình SRGAN là việc dùng mô hình MobileNetV2 huấn luyện sẵn để trích xuất đặc trưng, khi tính toán hàm mất mát nội dung (content loss) Từ đó, quy trình huấn luyện của SwiftSRGAN trở nên nhanh chóng và tiết kiệm bộ nhớ hơn Quy trình này chỉ bao gồm duy nhất một giai đoạn, với các hàm mục tiêu như sau:
L Gen =L pixel +0.006×L content +0.001×L Gen adv +2×10 −8 ×L TV (3.1)
Trong đó, L pixel ,L content ,L adv và L TV lần lượt là hàm mất mát ở mức điểm ảnh(pixel-wise loss), hàm mất mát nội dung (content loss), hàm mất mát đối nghịch(adversarial loss) và hàm mất mát biến động tổng cộng (total variation loss) Các hàm mất mát này có công thức như sau:
Lpixel =EI SR ∥I SR −I HR ∥ 2 2 (3.3)
L MobileNet content =EI SR ∥f i MobileNetV 2 I SR
L Gen adv =1−EI SR f Dis I SR
L Dis adv =1−EI HR f Dis I SR
− I HR là ảnh gốc, được dùng để so sánh;
− I SR là ảnh siêu phân giải do SwiftSRGAN tạo ra;
− f i MobileNetV 2 là đặc trưng được trích xuất ra từ lớp thứ i của mô hình Mo- bileNetV2.
− H vàW lần lượt là chiều cao và chiều rộng của ảnh đầu ra;
− f Dis (.)là đầu ra của mạng phân biệt.
Hàm mất mát ở mức điểm ảnh đóng góp trực tiếp vào độ chính xác của ảnh. Việc tối ưu hóa hàm này dẫn đến các giá trị PSNR và SSIM được nâng cao Hàm mất mát nội dung đóng góp vào độ chân thực của ảnh Nhờ hàm này, SwiftSRGAN nắm bắt được nội dung của ảnh tốt hơn Từ đó, mô hình này tái hiện được một cách đầy đủ các thông tin bậc cao chứa trong ảnh, tránh được tình trạng trung bình cộng của các đáp án khả dĩ Hàm mất mát đối nghịch đóng góp vào độ chân thực bằng cách hướng dẫn mạng tạo sinh dịch chuyển miền trị tới vùng tập trung các ảnh thực. Ngoài ra, hàm mất mát biến động tổng cộng làm cho độ lớn giữa 2 điểm ảnh liền kề trong ảnh đầu ra không thay đổi quá đột ngột Từ đó, nó lọc bớt nhiễu khỏi ảnh đầu ra.
Với những thiết lập như trên, SwiftSRGAN có thể tạo ra ảnh siêu phân giải có chất lượng tương đối tốt với tốc độ rất cao Xét ví dụ như hình 3.1, SwiftSRGAN đã tái hiện thành công phần phản quang trong mắt và các chi tiết lông vũ ở đầu chú chim.
Nhóm chọn SwiftSRGAN làm mô hình cơ sở vì mô hình này phù hợp với mục tiêu của luận văn và còn nhiều không gian để tiến hành cải tiến Cụ thể như sau:
− Ít áp lực về mức tài nguyên tiêu thụ: SwiftSRGAN là một mô hình gọn nhẹ với lượng tham số mô hình rất ít (chỉ khoảng 200 nghìn tham số) Do đó, nhóm sẽ cần tiêu thụ ít tài nguyên tính toán hơn khi thực hiện các thí nghiệm trên cơ sở của SwiftSRGAN.
Nhận thấy rằng mạng tạo sinh là thành phần chủ chốt trong ứng dụng thực tế, nhóm nghiên cứu đề xuất sử dụng mạng phân biệt và xương sống phức tạp hơn để tăng hiệu quả huấn luyện Nhờ phương pháp đặt lại tham số, mạng tạo sinh có thể trở nên đồ sộ hơn khi huấn luyện, giảm kích thước khi kiểm thử Ngoài ra, nhóm đề xuất cải tiến phép tính tập trung hiệu quả để mở rộng vùng tiếp thu cho toàn bộ ảnh.
− Tiềm năng đạt được điểm cân bằng tốt hơn giữa độ chính xác và độ chân thực: Chiến lược huấn luyện của SwiftSRGAN chỉ gồm 1 giai đoạn, trong khi các mô hình mạnh hơn như ESRGAN [30] và Real-ESRGAN [8] lại có nhiều giai đoạn Nhóm cho rằng điều này khiến các hàm mất mát bị đụng độ, dẫn tới mô hình sau huấn luyện không có sự cân bằng tốt giữa tính chính xác và tính chân thực Trong luận văn này, chúng tôi sẽ giải quyết vấn đề này bằng một chiến lược huấn luyện mới, hợp lý hơn.
Mô hình đề xuất
Các thành phần cơ bản của REAGen
Trong tiểu mục này, chúng tôi xin lần lượt trình bày các thành phần cơ bản, mà từ đó sẽ được dùng để lắp ráp nên mạng tạo sinh của REASRGAN.
3.2.1.1 Lớp tích chập đặt lại tham số được
Áp dụng kỹ thuật đặt lại tham số từ mô hình RepVGG [2], chúng tôi đề xuất lớp tích chập đặt lại tham số (reparameterizable convolution layer, rep-Conv) có nhiều nhánh song song trong quá trình huấn luyện nhưng có thể rút gọn thành một lớp tích chập đơn khi triển khai Tuy nhiên, khác với khối đơn vị của RepVGG (được trình bày ở phần 2.2), lớp rep-Conv này không chứa lớp chuẩn hóa theo lô (batch normalization, BN) để tăng tính linh hoạt khi phát triển mô hình.
Lớp rep-Conv do chúng tôi đề xuất có 1 siêu tham số quan trọng là kích thước nhân (kernel size,k) Khi huấn luyện, mỗi lớp rep-Conv với nhânk×ksẽ như hình 3.3a Cụ thể, lớp rep-Conv ấy sẽ có:
− Nhánh chính với một lớp tích chập nhân k×k;
− Nhánh phụ với một lớp tích chập nhân 1×1.
− Nhánh kết nối dư thừa.
Các lớp tích chập ở nhánh chính và nhánh phụ có cùng số kênh đầu vào (dI), số kênh đầu ra (dO) và số nhóm (g) Các nhánh này sẽ cùng nhận giá trị đầu vào và tính tích chập trên đó Sau đó, kết quả của chúng sẽ được cộng lại để trở thành đầu ra duy nhất của lớp rep-Conv.
Lớp rep-Conv là nền tảng của REAGen Tất cả các thành phần khác của REAGen đều dựa trên rep-Conv Nhờ đó, việc thu giảm phiên bản huấn luyện của REAGen thành phiên bản kiểm thử của REAGen được thực hiện một cách dễ dàng và đồng bộ bằng cách thu giảm toàn bộ các lớp rep-Conv trong mô hình Quy trình thu giảm này của lớp rep-Conv gần như tương tự với quy trình được đề xuất bới nhóm tác giả
(a) Khi huấn luyện (b) Khi kiểm thử
Hình 3.3: Cấu trúc của một lớp tích chập đặt lại tham số được (reparameterizable convolution layer, rep-Conv) vớik=3. gốc của kỹ thuật đặt lại tham số (xem mục 2.2) Điểm khác biệt là chúng tôi sẽ bỏ qua các phép tính liên quan đến BN, do BN không nằm trong rep-Conv.
3.2.1.2 Lớp tích chập theo từng kênh và đặt lại tham số được
Lớp tích chập theo từng kênh và đặt lại tham số được (reparameterizable depth- wise convolution layer, rep-DConv) là một trường hợp đặc biệt của lớp rep-Conv, với số nhóm (group, g) được chọn bằng với số kênh đầu ra.
Trong mạng rep-DConv, các điểm ảnh trên ma trận đặc trưng ở đầu ra chỉ được tính toán từ các điểm ảnh trên ma trận đặc trưng tương ứng ở đầu vào Ví dụ, với lớp rep-DConv có số kênh đầu vào và đầu ra đều là 3, các điểm ảnh trên ma trận đặc trưng thứ 2 ở đầu ra sẽ chỉ được tính toán từ các điểm ảnh trên ma trận đặc trưng thứ 2 ở đầu vào.
3.2.1.3 Lớp tích chập theo từng điểm và đặt lại tham số được
Lớp tích chập theo từng điểm và đặt lại tham số (reparameterizable point-wise convolution layer, rep-PConv) là một trường hợp đặc biệt của lớp rep-Conv với nhân là 1×1 và tổng hợp dữ liệu trên tất cả các kênh (g=1).
Ví dụ như trong hình 3.4c, với một lớp rep-PConv có số kênh đầu vào là 3 và số kênh đầu ra là 4, mỗi điểm ảnh ở đầu ra sẽ được tính toán từ 3 điểm ảnh ở cùng vị trí nhưng thuộc những kênh khác nhau trong ma trận đặc trưng đầu vào.
3.2.1.4 Lớp tích chập tách ra được theo chiều sâu và đặt lại tham số được
Chúng tôi đề xuất lớp tích chập tách ra được theo chiều sâu và đặt lại tham số được (reparameterizable depthwise-separable convolution layer, rep-DSConv) gồm
1 lớp rep-DConv và 1 lớp rep-PConv nối tiếp nhau (như hình 3.4a) Đây là dạng cải tiến của lớp tích chập phân tách ra từng kênh (depthwise-separable convolution, DSC), nhờ vào kỹ thuật đặt lại tham số (reparameterization).
Trong giai đoạn huấn luyện, lớp rep-DSConv có nhiều tham số hơn lớp DSC và có cấu trúc phức tạp hơn Điều đó cho phép lớp rep-DSConv hội tụ tốt hơn.
Trong khi kiểm thử, mô hình rep-DSConv có cùng số lượng tham số với mô hình DSC Tuy nhiên, khi cùng có số lượng kênh đầu vào (I), số lượng kênh đầu ra (O) và kích thước nhân (K), mô hình rep-DSConv có số lượng tham số ít hơn đáng kể so với mô hình tích chập truyền thống (Conv).
− Lớp Conv có khoảng(K×K×I×O)tham số;
− Lớp rep-DSConv có khoảng(K×K×I+1×1×I×O)tham số.
Tuy nhiên, chúng tôi nhận thấy lớp rep-DSC cũng gặp phải một bất lợi tương tự lớp DSC, đó chính là việc suy giảm khả năng trích xuất đặc trưng Điều này là do việc giảm số tham số đã khiến các lớp này không đủ phức tạp để học và biểu diễn các đặc trưng trong ảnh ở mức độ như các lớp tích chập thông thường.
Như vậy, lớp rep-DSC vừa kế thừa những ưu và nhược điểm của lớp DSC thông thường, vừa nhận được những thế mạnh do kỹ thuật đặt lại tham số mang đến.
3.2.1.5 Khối tích chập cơ bản
Mạng tạo sinh đề xuất
Trong luận văn này, chúng tôi xin đề xuất mạng tạo sinh của REASRGAN (REASRGAN generator, REAGen) với 3 phần chính như trong hình 3.9 Chúng lần lượt là:
1 Phần đầu (gen-Head): Nhiệm vụ là trích xuất các đặc trưng cạn (shallow features) từ ảnh đầu vào Phần đầu chỉ bao gồm 1 khối basic-Conv với nhân (kernel size,k)9×9, bước trượt (stride,s) là1, phần đệm thêm (padding, p) là4và bỏ qua BN.
2 Phần thân (gen-Body): Nhiệm vụ là trích xuất các đặc trưng sâu (deep fea- tures) Phần thân gồm 16 khối res-EA và 1 khối basic-Conv ở cuối (k= 3, s= p=1) Có 1 đường kết nối dư thừa dài (long residual net) chạy từ điểm khởi đầu đến điểm kết thúc của phần thân để đảm bảo đạo hàm được lan truyền ngược suôn sẻ hơn.
3 Phần đuôi (gen-Tail): Nhiệm vụ là phóng to ảnh tới kích thước mong muốn. Phần đuôi gồm một vài khối Upsample và một lớp rep-DSConv ở sau cùng (k=9,s=1,=4) Các khối Upsample làm tăng số kênh trong bộ đặc trưng và đặt chúng lại thành ảnh mới có kích thước mong muốn Lớp rep-DSConv ổn định quá trình học.
Các lớp tích chập trong 3 phần trên (trừ bên trong các khối Upsample) đều có chung số kênh đầu ra là64.
Hình 3.9: Cấu tạo mạng tao sinh của REASRGAN với hệ số mở rộng là4.
Quá trình siêu phân giải hình ảnh có thể được tóm gọn bằng công thức sau: I SR = f(I LR ), trong đó I SR là ảnh có độ phân giải cao được tạo ra từ ảnh có độ phân giải thấp I LR , và f là một hàm phức tạp thường sử dụng các kỹ thuật học máy để nâng cao chất lượng hình ảnh.
Trong đó, f head , f body và f tail lần lượt là các hàm đại diện cho phần đầu, phần thân và phần đuôi của REAGen; F shallow và F deep lần lượt là các đặc trưng cạn và đặc trưng sâu trích xuất được từI LR
Mạng phân biệt đề xuất
Chúng tôi đề xuất dùng StairIQA [4] làm mạng phân biệt cho REASRGAN (REASRGAN disciminator, READis) Các dữ kiện sau về StairIQA đã gợi ý chúng tôi đi đến quyết định này:
− StairIQA là một mô hình BIQA: Các mô hình BIQA nhận vào một ảnh đầu vào và trả về một số thực phản ánh mức độ hoàn hảo, chân thực của ảnh đó.Như vậy, về mặt mục tiêu, các mô hình BIQA có cùng mục tiêu với các mạng phân biệt trong những hệ GAN siêu phân giải Từ đó, nhóm cho rằng, dùng một mô hình BIQA có sẵn làm mạng phân biệt trong hệ REASRGAN là hoàn toàn hợp lý.
− StairIQA là một mô hình BIQA 1 giai đoạn: Như đã trình bày trong mục 2.4.2, các mô hình BIQA 1 giai đoạn có bản chất là một mạng nơ-ron học sâu duy nhất và được huấn luyện trực tiếp từ đầu tới đuôi (end-to-end training) Các mô hình này dựa vào một phần của mạng nơ-ron để trích xuất đặc trưng và dựa vào phần còn lại của mạng để tính toán điểm số cho ảnh Do đó, StairIQA hoàn toàn có thể được đưa vào một hệ GAN siêu phân giải và hoạt động như một mạng phân biệt bình thường Các giải thuật huấn luyện sẽ không cần phải thay đổi nhiều.
− StairIQA được huấn luyện trên những bộ dữ liệu lớn với các loại biến dạng tự nhiên (natural distortion): Do được huấn luyện trên các bộ dữ liệu lớn, StairIQA có độ chính xác cao khi cố gắng mô phỏng hệ thống nhận thức của con người Từ đó, chúng tôi có thể tận dụng bộ trọng số huấn luyện sẵn của StairIQA để khởi tạo READis, nhằm giúp READis đưa ra những chỉ dẫn chính xác cho REAGen ngay từ những vòng lặp đầu tiên Ngoài ra, vì chúng tôi không thể biết trước được miền phân bố của các loại biến dạng trong ảnh đầu ra của REAGen, nên việc dùng một mô hình BIQA được huấn luyện trên các loại biến dạng phong phú ngoài thực tế như StairIQA để làm mạng phân biệt là hoàn toàn có cơ sở Theo đó, miền các loại biến dạng mà READis xử lý được sẽ rộng hơn, và có khả năng bao chứa được nhiều loại biến dạng tạo ra bởi REAGen hơn.
− Mã nguồn và bộ trọng số huấn luyện sẵn của StairIQA được nhóm tác giả gốc công bố: Đây là dữ kiện quan trọng nhất, khiến nhóm chọn StairIQA chứ không phải một mô hình BIQA 1 giai đoạn dựa trên các bộ dữ liệu với biến dạng tự nhiên nào khác Trong những năm gần đây, có nhiều công trình tương tự StairIQA được xuất bản Tuy nhiên, chỉ có số ít trong nhóm này được các nhóm tác giả công khai mã nguồn hiện thực và các bộ trọng số huấn luyện sẵn Việc tự hiện thực lại mô hình có khả năng sẽ có sai sót dẫn tới không phản ánh đúng ý tưởng của tác giả ban đầu Việc tự huấn luyện lại các độ đo BIQA, theo nhóm, là bất khả thi trong phạm vi của luận văn này Trong khi đó, mã nguồn và bộ trọng số huấn luyện sẵn của StairIQA đã được công bố đầy đủ [59] Do vậy, mô hình này là lựa chọn thích hợp.
Tuy nhiên, kiến trúc nguyên bản của StairIQA cần có sự chỉnh sửa nhỏ để phù hợp với nhiệm vụ của mạng tạo sinh Do StairIQA vốn được huấn luyện trên nhiều bộ dữ liệu cùng lúc, mô hình này có nhiều đầu ra tương ứng với các bộ dữ liệu đầu vào Trong khi đó, mạng phân biệt chỉ cần một đầu ra là đủ Do vậy, nhóm đề xuất chỉ giữ lại một đầu ra trong kiến trúc của StairIQA.
Trong công bố của Sun và các đồng sự, có 6 bộ trọng số huấn luyện sẵn của StairIQA, ứng với các bộ dữ liệu huấn luyện là BID, LIVE_challenge, KonIQ-10k, SPAQ, FLIVE và FLIVE_patch Nhóm tác giả này khuyến cáo nên dùng trung bình cộng của kết quả từ 6 phiên bản này Tuy nhiên, chúng tôi đo đạc được số tham số của StairIQA lên đến khoảng 33 triệu Con số này là không phải quá lớn với một mô hình học sâu Khi kết hợp cả 6 phiên bản lại, chúng tương đương một mô hình có
198 triệu tham số Đây là một con số quá lớn Với lượng tham số này, việc đánh giá mô hình khi kiểm thử với StairIQA (dùng StairIQA như một độ đo) sẽ trở nên vô cùng tốn kém Chưa dừng lại ở đó, việc huấn luyện mạng phân biệt sẽ càng tốn kém hơn nữa (dùng StairIQA như mạng phân biệt), do phải lan truyền xuôi và ngược qua từng ấy tham số rất nhiều lần Từ đó, chúng tôi đề xuất một cách tiếp cận khác, đó là chỉ dùng duy nhất một phiên bản của StairIQA, được huấn luyện từ bộ dữ liệu gần gũi với mục tiêu của luận văn này nhất Cụ thể, chúng tôi sẽ khởi tạo mạng phân biệt với phiên bản được chọn Chúng tôi đề xuất phiên bản KonIQ-10k Điều này là do bộ dữ liệu KonIQ-10k chứa số lượng lớn ảnh (10073) với nội dung và mức độ biến dạng cực kỳ phong phú Do đó, KonIQ-10k gần gũi với các đặc điểm REASRGAN là: siêu phân giải trên ảnh thường với nội dung đa dạng và không biết trước được loại biến dạng trong ảnh đầu ra.
Quy trình huấn luyện đề xuất
Giai đoạn 1
Trong giai đoạn này, nhóm đặt mục tiêu là giúp mạng tạo sinh (REAGen) vượt qua các cực tiểu cục bộ khi huấn luyện và đạt được độ chính xác cao (thể hiện qua các độ đo PSNR và SSIM) Chúng tôi chỉ huấn luyện mạng tạo sinh với hàm mục tiêu (L Gen 1 ) là tổng trọng số của hàm mất mát ở mức điểm ảnh (pixel-wise loss,
Hàm mất mát nội dung dựa trên mô hình MobileNetV2 đã được huấn luyện sẵn (MobileNet content loss, L MobileNetV content 2 ) giúp đo lường sự khác biệt giữa hình ảnh tạo ra và hình ảnh đích về mặt nội dung, trong khi hàm mất mát biến động tổng cộng (total variation loss, LTV) đo lường sự thay đổi cường độ điểm ảnh giữa các điểm ảnh liền kề, đảm bảo hình ảnh tạo ra có độ mịn.
Hàm mục tiêu và các thành phần của nó có thể được biểu diễn qua các công thức sau:
L Gen 1 =φ1×Lpixel+γ1×L MobileNetV content 2 +τ1×LTV (3.18)
L pixel =EI SR ∥I SR −I HR ∥ 1 (3.19)
L MobileNetV content 2 =EI SR ∥f i MobileNetV 2 I SR
− I HR là ảnh gốc, được dùng để so sánh;
− I SR là ảnh siêu phân giải do REASRGAN tạo ra;
− f i MobileNet là đặc trưng được trích xuất ra từ lớp thứ i của mô hình Mo- bileNetV2.
− H vàW lần lượt là chiều cao và chiều rộng của ảnh đầu ra;
− φ1,γ1 vàτ1 là các trọng số điều chỉnh mức độ ảnh hưởng của từng thành phần trong hàm mục tiêu tổng hợp.
Giai đoạn 2
Mục tiêu của giai đoạn 2 là làm cho mạng tạo sinh hiểu sâu sắc hơn nội dung trong ảnh và đủ mạnh để không bị mạng phân biệt đánh bại quá sớm giai đoạn 3. Giống như giai đoạn 1, nhóm cũng chỉ huấn luyện mạng tạo sinh với hàm mục tiêu (L 2 Gen ) là tổng trọng số hàm mất mát ở mức điểm ảnh (pixel-wise loss,Lpixel), hàm mất mát nội dung dựa trên đầu ra của 5 lớp khác nhau từ mô hình VGG19 đã huấn luyện sẵn (VGG19 content loss,L V GG19 content ) và hàm mất mát biến động tổng cộng (total variation loss,LTV).
Hàm mục tiêu và các thành phần của nó có thể được biểu diễn qua các công thức sau:
L 2 Gen =φ2×Lpixel+γ2×L V GG19 content +τ2×LTV (3.22)
L V GG19 content =EI SR ∑ i ωi× ∥f i V GG19 I SR
Nội dung L VGG19 được tính toán từ giá trị trung bình có trọng số các đặc điểm trích xuất từ nhiều lớp khác nhau trong mô hình VGG19, nên có độ sâu hơn đáng kể so với chỉ từ một lớp tích chập trong L MobileNetV2 giai đoạn 1.
− f i V GG19 là đặc trưng trích xuất ra từ lớp thứ i của mô hình VGG19 và ωi là trọng số gán cho đặc trưng này.
− φ2,γ2 vàτ2 là các trọng số điều chỉnh mức độ ảnh hưởng của từng thành phần trong hàm mục tiêu tổng hợp.
Cách tínhL V GG19 content như trên được chúng tôi tiếp thu từ ESRGAN [30].
Giai đoạn 3
Mục tiêu của giai đoạn này là gia tăng hơn nữa tính chân thực ảnh đầu ra của mạng tạo sinh Nhóm đề xuất huấn luyện đồng thời cả mạng tạo sinh và mạng phân biệt của REASRGAN Mạng tạo sinh được huấn luyện với hàm mục tiêu (L 3 Gen ) là tổng trọng số của hàm mất mát ở mức điểm ảnh (Lpixel), hàm mất mát nội dung trên đầu ra của 5 lớp khác nhau từ mô hình VGG19 đã huấn luyện sẵn (VGG19 content loss, L V GG19 content ) và hàm mất mát đối nghịch tương đối (relativistic adversarial loss of generator, L Gen RA ) Trong khi đó, mạng phân biệt được huấn luyện với hàm mục tiêu (L 3 Dis ) chỉ bao gồm duy nhất hàm mất mát đối nghịch tương đối (relativistic adversarial loss of discriminator,L Dis RA ).
Chúng tôi tiếp thu ý tưởng về hàm mất mát đối nghịch tương đối từ công trình Relativistic GAN [31] Cụ thể hơn, thay vì dự đoán xác suất ảnh đang xử lý là ảnh thật, mạng phân biệt của REASRGAN sẽ gán một giá trị điểm số cho mỗi ảnh Sau đó, hàm mất mát đối nghịch tương đối sẽ so sánh điểm số của mỗi ảnh do REAGen tạo ra (ảnh giả) với điểm số trung bình của các ảnh gốc chất lượng cao (ảnh thật), và ngược lại, giữa điểm số của mỗi ảnh thật với điểm số trung bình của các ảnh giả. Như vậy, mạng tạo sinh sẽ cố gắng khiến cho mỗi ảnh giả đều có điểm số cao hơn điểm số trung bình của các ảnh thật Ngược lại, mạng phân biệt sẽ cố gắng chấm điểm chính xác hơn, sao cho mỗi ảnh thật đều có điểm số cao hơn điểm số trung bình của các ảnh giả.
Chúng tôi biểu diễn các hàm mục tiêu và các hàm mất mát trong giai đoạn này qua các công thức sau:
L 3 Gen =φ3×Lpixel+γ3×L V GG19 content +α3×L Gen RA (3.24)
L Gen RA =−EI SR ln P I SR
L Dis RA =−EI HR ln P I HR
− f Dis là điểm số được chấm cho ảnh bởi mạng phân biệt;
− P I SR là xác suất ảnh giả đang xử lý có điểm số cao hơn điểm số trung bình của toàn bộ ảnh thật (xác suất ảnh giả trông thật hơn ảnh thật);
P I HR là xác suất ảnh thật xử lý có điểm số p cao hơn giá trị trung bình điểm số của tất cả ảnh giả, tức thể hiện xác suất ảnh thật sau khi xử lý trông thật hơn so với ảnh giả.
− f sigmoid là hàm sigmoid, có tác dụng thu giảm miền đầu vào (−∞,∞)thành miền đầu ra (0,1);
− φ3,γ3 vàα3là các trọng số điều chỉnh mức độ ảnh hưởng của từng thành phần trong hàm mục tiêu tổng hợp của REAGen.
Như các công thức trên, khi lan truyền ngược, mạng tạo sinh sẽ nhận được thêm cả thông tin từ các ảnh thật nhờ vào hàm mất mát đối nghịch tương đối.
Thực nghiệm và thảo luận
Trong chương này, các thực nghiệm được tiến hành để kiểm chứng hiệu quả của các đề xuất đã trình bày trong Chương 3 Bên cạnh đó, một số thực nghiệm khác cũng được thực hiện để đánh giá tác động của một số quyết định thiết kế đối với hiệu suất của mô hình.
Cấu trúc của chương này gồm 3 mục chính Mục 4.1 trình bày cách để tiến hành các thực nghiệm Trong mục 4.2, nhóm tổng hợp các kết quả huấn luyện củaREASRGAN và nhận xét chúng Trong mục 4.3, chúng tôi tiến hành một số phân tích khác về thiết kế của mô hình đề xuất.
Chi tiết quá trình thực nghiệm
Điều kiện phần cứng
Nhóm thực hiện các thực nghiệm trên môi trường Google Colaboratory với các loại GPU là A100, V100 và T4 Trong đó, A100 là loại GPU có khả năng tính toán tốt nhất Với các thực nghiệm liên quan đến đo đạc thời gian, chúng tôi đều tiến hành trên loại GPU này Các thực nghiệm khác có thể dùng đến loại V100 và T4,nếu loại A100 ở phía máy chủ của Google Colaboratory không có sẵn.
Các bộ dữ liệu
Để huấn luyện REASRGAN, chúng tôi kết hợp 2 bộ dữ liệu phổ biến cho bài toán siêu phân giải ảnh: DIV2K [60] [61] và Flick2k [62] Một số thông tin về các bộ dữ liệu này như sau:
− DIV2K: DIV2K là một bộ dữ liệu phổ biến cho bài toán siêu giải 1 ảnh (single-image super resolution, SISR) Bộ dữ liệu này bao gồm 1,000 ảnh chứa các nội dung đa dạng với độ phân giải 2K Số ảnh này được phân chia như sau: 800 ảnh dành cho việc huấn luyện (training), 100 ảnh dành cho việc xác thực (validating), và 100 ảnh sau cùng dành cho việc kiểm thử (testing). Các ảnh trong bộ dữ liệu DIV2K được thu thập để phục vụ cho các cuộc thi NTIRE2017 và NTIRE2018 Những cuộc thi này liên quan tới bài toán siêu phân giải các ảnh chịu những loại suy giảm chất lượng có trong thực tế (realistic degradation).
− Flickr2K: Flickr2K là một bộ dữ liệu lớn với 2650 ảnh có độ phân giải 2K. Các ảnh này có nội dung đa dạng, từ phong cảnh thiên nhiên, đường phố, cho đến ảnh chân dung Chúng được thu thập từ nền tảng chia sẻ ảnh trực tuyến Flickr Về mặt chất lượng ảnh, các ảnh trong bộ dữ liệu Flickr2K không đồng nhất Một số ảnh thì sắc nét, trong khi một số khác bị suy giảm chất lượng như mờ, nhiễu, v.v Flickr2K này thường được sử dụng để huấn luyện các giải thuật siêu phân giải ảnh. Để kiểm thử chất lượng của mô hình sau khi huấn luyện, chúng tôi sử dụng 5 bộ dữ liệu thường dùng cho mục đích đánh giá mô hình thị giác máy tính: Set5 [63], Set14 [64], BSDS100 [65], Urban100 [66], Manga109 [67] Một số thông tin về các bộ dữ liệu này như sau:
− Set5: Bộ dữ liệu Set5 bao gồm 5 hình ảnh với nội dung khác nhau ("baby",
− Set14: Bộ dữ liệu Set14 bao gồm 14 hình ảnh thuộc các chủ đề khác nhau ("baboon", "barbara", "bridge", "coastguard", "comic", "face", "flowers", "fore- man", "lenna", "man", "monarch", "pepper", "ppt3", "zebra").
− BSDS100: Bộ dữ liệu BSDS100 gồm 100 hình ảnh với nội dung phong phú đa dạng, từ phong cảnh cho đến ảnh chụp cận cảnh một số đối tượng cụ thể như thực vật, con người, thức ăn, v.v.
Bộ dữ liệu Urban100 bao gồm 100 hình ảnh phong cảnh đô thị, được coi là khó xử lý đối với các mô hình siêu phân giải do sự hiện diện của nhiều hình thoi, lưới và đường song song Những đặc điểm này có thể gây nhầm lẫn cho các mô hình máy học, dẫn đến kết quả kém chính xác hơn trong quá trình siêu phân giải.
− Manga109: Bộ dữ liệu Manga109 chứa 109 ảnh bìa truyện tranh Nhật Bản.Khác với các bộ dữ liệu trước, phần nhiều các ảnh trong Manga109 ở dạng 2 chiều (2 dimensions, 2D).
Tiền xử lý dữ liệu
Quy trình tiền xử lý dữ liệu của REASRGAN dựa trên quy trình của SwiftSR- GAN được nhóm tác giả gốc hiện thực trên mã nguồn Github công khai [68]. Khi huấn luyện, các ảnh lấy ra từ tập huấn luyện trải qua quá trình tiền xử lý như sau để tạo thành ảnh thật chất lượng cao (high resolution image, I HR ):
1 Cắt ngẫu nhiên lấy một vùng với kích thước96×96trong ảnh;
2 Lật ngược ảnh với xác suất0.3;
3 Xoay ngang ảnh với xác suất0.4;
Các ảnh chất lượng thấp (low resolution image, I LR ) được tạo thành từ việc thu nhỏ các ảnh chất lượng cao (I HR ) bằng giải thuật nội suy song tuyến (bicubic interpolation) Các ảnhI LR này sẽ được dùng làm đầu vào của mô hình, và các ảnh
I HR tương ứng sẽ được dùng để đối chiếu với đầu ra của mô hình.
Các siêu tham số của quá trình huấn luyện mô hình
Với giai đoạn 1, chúng tôi chọn các siêu tham số như sau:
− Trọng số hàm mất mát ở mức điểm ảnh: φ1 =1;
− Trọng số hàm mất mát nội dung:γ1 =0.006;
− Trọng số hàm mất mát biến động tổng cộng:τ1 =2×10 −8 ;
− Số lần lặp qua toàn bộ dữ liệu huấn luyện: epochP0;
− Số điểm dữ liệu trong mỗi lô xử lý:batch;
− Tốc độ huấn luyện là5×10 −4 và giảm phân nửa sau mỗi 100 epoch.
Tiếp đến, chúng tôi thiết lập các siêu tham số cho giai đoạn 2 như sau:
− Trọng số hàm mất mát ở mức điểm ảnh: φ2 =0.01;
− Trọng số hàm mất mát nội dung:γ2 =1;
− Trọng số hàm mất mát biến động tổng cộng:τ2 =2×10 −8 ;
− Số lần lặp qua toàn bộ dữ liệu huấn luyện: epochP0;
− Số điểm dữ liệu trong mỗi lô xử lý:batch;
− Tốc độ huấn luyện là5×10 −4 và giảm phân nửa sau mỗi 50 epoch.
Các siêu tham số của giai đoạn 3 như sau:
− Trọng số hàm mất mát ở mức điểm ảnh: φ3 =0.01;
− Trọng số hàm mất mát nội dung γ 3 =1;
− Trọng số hàm mất mát đối nghịch tương đối: α3=0.1;
− Số lần lặp qua toàn bộ dữ liệu huấn luyện: epoch0;
− Số điểm dữ liệu trong mỗi lô xử lý:batch;
− Tốc độ huấn luyện của REAGen là 5×10 −4 và giảm phân nửa sau mỗi 50 epoch.
− Tốc độ huấn luyện của READis là 5×10 −8 và giảm phân nửa sau mỗi 50 epoch.
Cách đo thời gian xử lý
Chúng tôi dựa vào giải thuật đo thời gian xử lý được ban tổ chức cuộc thi NTIRE2023 công bố [69] Theo đó, để đo thời gian xử lý của một mô hình siêu phân giải, chúng tôi thực hiện các bước sau:
1 Giảm độ chính xác của các trọng số (quantization): Chúng tôi chuyển đổi các trọng số trong các mô hình được kiểm tra từ dạng số thực dấu chấm động
nhằm tiết kiệm tài nguyên khi đo đạc thời gian xử lý trên các ảnh đầu vào có kích thước quá lớn (ví dụ như 1920×1080) Để công bằng, chúng tôi thực hiện kỹ thuật này trên tất cả các mô hình cần đo đạc.
2 Sinh ảnh ngẫu nhiên: Do các mô hình được xem xét đều có thời gian thực thi không phụ thuộc vào nội dung ảnh, chúng tôi sinh ngẫu nhiên các ma trận với kích thước mong muốn và dùng chúng làm đầu vào cho các mô hình này.
3 Với mỗi kích thước mong muốn, chúng tôi thực hiện các bước sau:
(a) Khởi động: Cho mô hình xử lý đầu ra 50 lần.
(b) Đo đạc: Chúng tôi cho mô hình xử lý đầu vào nhiều lần và ghi nhận lại thời điểm bắt đầu và kết thúc của mỗi lần xử lý Khoảng thời gian giữa những cặp thời điểm này sẽ được tính trung bình cộng để cho ra thời gian trung bình mô hình cần để xử lý ảnh với kích thước hiện tại. Để đảm bảo tính chính xác, chúng tôi luôn chọn đo đạc 224 lần cho mỗi kích thước mong muốn Ngoài ra, chúng tôi cố gắng duy trì phần cứng với GPU A100 nhằm loại trừ sự sai khác do các loại GPU khác nhau có sức mạnh tính toán khác nhau.
Có 5 kích thước đầu vào mà chúng tôi quan tâm:256×144,640×360,854×
480,1280×720 và1920×1080 Chúng có điểm chung là có cùng tỷ số 16:9 Đây là một tỷ số phổ biến cho các loại màn hình.
Cách thiết lập đo đạc thời gian xử lý như trên sẽ được dùng chung cho tất cả các thực nghiệm trong chương này.
Kết quả huấn luyện
Đánh giá qua các độ đo chất lượng ảnh
Chúng tôi so sánh giá trị các độ đo khi chạy trên 5 bộ dữ liệu kiểm thử của SwiftSRGAN và 3 phiên bản REASRGAN ở 3 giai đoạn huấn luyện Các kết quả được tổng kết trong bảng 4.1.
Bảng 4.1: Bảng tổng kết kết quả huấn luyện qua 3 giai đoạn của mô hình REASR- GAN Trong đó, REASRGAN 1 , REASRGAN 2 và REASRGAN 3 lần lượt là kết quả của các giai đoạn 1,2 và 3; ×2và ×4 là các hệ số mở rộng Mỗi ô gồm 3 giá trị, theo thứ tự từ trên xuống dưới lần lượt là: PSNR( đơn vị dB, trên kênh Y), SSIM (trên kênh Y) và StairIQA Các giá trị tốt nhất được tô màuđỏ, trong khi các giá trị tệ hơn mô hình cơ sở được tô màutím.
Mô hình Set5 Set14 BSD100 Urban100 Manga109
Theo số liệu trong bảng, chúng tôi nhận thấy rằng, với hệ số mở rộng là 4, quá trình huấn luyện có những quy luật sau:
− Các giá trị PSNR và SSIM đạt mức cao nhất ở giai đoạn 1.
− Các giá trị PSNR và SSIM giảm dần ở khi sang giai đoạn 2 và 3, trong khi giá trị StairIQA lại tăng đáng kể.
− Giai đoạn 3 có giá trị StairIQA cao nhất.
Với hệ số mở rộng là 4, chúng tôi nhận thấy giai đoạn 1 đã thành công trong việc nâng cao giá trị của các độ đo tham khảo như PSNR và SSIM REASRGAN 1 nhìn chung có giá trị PSNR cao hơn từ 1 đến 2 dB và giá trị SSIM cao hơn từ 0.02 đến 0.05 Đó là một mức cải thiện rất tốt khi đối với các độ đo này Ngoài ra, giá trị độ đo StairIQA cũng được cải thiện đáng kể (từ 3 đến 8) Đặc biệt, bước tăng StairIQA lớn nhất xảy ra với bộ dữ liệu Urban100, một bộ dữ liệu khó Như vậy, sức mạnh của kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả đã mang lại những tiến bộ rõ rệt khi huấn luyện REASRGAN.
Ở giai đoạn 2, cùng với hệ số mở rộng 4, mạng lưới chuyển đổi giữa độ chính xác từng điểm ảnh và tính thân thiện trực quan Cụ thể, so với giai đoạn 1, độ đo PSNR và SSIM giảm, trong khi độ đo StairIQA tăng cao hơn nữa Tuy nhiên, REASRGAN 2 vẫn vượt qua SwiftSRGAN về các chỉ số PSNR và SSIM trong hầu hết các tập dữ liệu, ngoại trừ BSD100 Điều này được lý giải là do mạng sử dụng đầu ra của 5 lớp tích chập trong mô hình VGG19 để đánh giá sự sai lệch về nội dung giữa ảnh sinh ra và ảnh gốc, sâu hơn so với MobileNetV2.
Từ đó, mô hình có thể hiểu được sâu sắc hơn nội dung trong ảnh và tạo ra những ảnh được độ đo StairIQA đánh giá cao hơn Bên cạnh đó, việc nâng trọng sốγ của hàm mất mát nội dung từ 0.006 ở giai đoạn 1 lên 1 đã tăng tính ưu tiên cho việc học cải thiện sự mất mát nội dung Chính điều này cũng đã dẫn tới sự giảm sút củaPSNR và SSIM Chúng tôi sẽ trình bày sâu hơn về mối tương quan giữaφ (trọng số của hàm mất mát ở mức điểm ảnh) vàγ (trọng số của hàm mất mát nội dung) trong tiểu mục 4.3.3 Tuy nhiên, so với giai đoạn 3 phía sau, các giá trị StairIQA ở giai đoạn 2 vẫn nhỏ hơn Như vậy, tiến trình chuyển đổi giữa hai thái cực là tính chính xác và tính chân thực vẫn chưa hoàn tất ở giai đoạn này.
Trong giai đoạn 3, với hệ số mở rộng 4, tiến trình chuyển đổi bắt đầu từ giai đoạn 2 được hoàn tất: đạt được giá trị StairIQA cao nhất trong 3 giai đoạn Chúng tôi nhận thấy mức độ cải thiện của độ đo StairIQA từ giai đoạn 2 sang giai đoạn 3 nhiều hơn so với mức độ cải thiện từ giai đoạn 1 sang giai đoạn 2 Cụ thể, các ảnh đầu ra trên những bộ dữ liệu kiểm tra có giá trị StairIQA trung bình tăng từ 5 đến
8 đơn vị Ngoài ra, khi xét riêng từng bộ dữ liệu kiểm thử, mức chênh lệch giữa các giai đoạn 3 và 2 luôn nhiều hơn mức chênh lệch giữa 2 giai đoạn đầu Theo chúng tôi, những kết quả này đã chứng minh tính hiệu quả của giai đoạn huấn luyện 3 Việc dùng StairIQA [4] làm mạng phân biệt đã giúp các ảnh đầu ra của REASRGAN 3 trở nên chân thật hơn Cụ thể, StairIQA có phần trích xuất đặc trưng dựa trên ResNet với chiều sâu là 50 lớp, từ đó mạng phân biệt mạnh hơn và trích xuất được nhiều tầng lớp thông tin hơn Bên cạnh đó, cấu trúc bậc thang được thiết kế kỹ càng của StairIQA bao trùm lên khung xương ResNet đã giúp mạng phân biệt này tổng hợp các thông tin trích xuất được một cách hợp lý hơn Ngoài ra, mạng phân biệt này còn được khởi tạo với bộ trọng số huấn luyện sẵn trên bộ dữ liệu KonIQ-10K do Sun và các đồng sự công bố Từ đó, ngay từ epoch đầu tiên, mạng tạo sinh đã nhận được những chỉ dẫn có giá trị hơn từ một mạng phân biệt vốn đã hoạt động tốt. Tuy nhiên, ở hệ số phóng to là 4, trái ngược với độ đo StairIQA, các giá trị PSNR của giai đoạn 3 giảm xuống thấp nhất trong 3 giai đoạn ở cả 5 bộ dữ liệu Mặc dù vậy, khi so sánh với 2 giai đoạn trước đó, giá trị độ đo PSNR từ giai đoạn 2 sang giai đoạn 3 nhìn chung giảm ít hơn so với từ giai đoạn 1 sang giai đoạn 2 Bên cạnh đó, đối với độ đo SSIM, 3 bộ dữ liệu Set5, Set14 và BSD100 chứng kiến sự tăng nhẹ, trong khi độ đo này giảm nhẹ ở 2 bộ dữ liệu kiểm thử còn lại Ngoài ra, chúng tôi nhận thấy rằng, dù có sự suy giảm PSNR và SSIM so với các giai đoạn trước,REASRGAN 3 vẫn tốt hơn mô hình cơ sở SwiftSRGAN ở những chỉ số này trên hầu hết các bộ dữ liệu (trừ BSD100) Theo chúng tôi, điều này là nhờ cách huấn luyện qua 3 giai đoạn do nhóm đề xuất Cụ thể hơn, giai đoạn 2 đã giúp mạng tạo sinh trở nên đủ mạnh, để khi sang giai đoạn 3, chúng tôi có thể tăng trọng số cho hàm mất mát đối nghịch lên tận mức 0.1mà không làm suy giảm quá nhiều tính chính xác của mạng tạo sinh (thể hiện qua các độ đo PSNR và SSIM) Nhờ đó, mạng tạo sinh có thể tập trung học để tăng nhanh giá trị độ đo StairIQA, trong khi chỉ bị giảm nhẹ giá trị các độ đo PSNR và SSIM (thậm chí SSIM tăng lại ở 3 trên 5 bộ dữ liệu). Khi xem xét đến hệ số mở rộng 2, chỉ tính riêng các phiên bản của REASRGAN, chúng tôi nhận thấy kết quả trên mỗi bộ dữ liệu biến đổi theo những cách khác nhau.
− Set5, Urban100 và Manga109: Các độ đo PSNR, SSIM và StairIQA tăng liên tục qua 3 giai đoạn.
− Set14 và BSD100: Các độ đo PSNR và SSIM giảm mạnh khi từ giai đoạn 1 sang giai đoạn 2 và tăng trở lại khi sang giai đoạn 3 Tuy nhiên, REASRGAN 3 vẫn có các giá trị PSNR và SSIM thấp hơn REASRGAN 1 Trong khi đó, các kết quả của độ đo StairIQA tăng liên tục qua 3 giai đoạn Như vậy, biểu hiện của REASRGAN(×2) trên 2 bộ dữ liệu này giống với REARSGAN(×4).
Từ đó, chúng tôi nhận thấy quá trình huấn luyện mô hình REASRGAN với hệ số mở rộng 2 có một số quy luật như sau:
− Giá trị StairIQA tăng liên tục: Điều này giống với các phiên bản của REAS- RGAN trên hệ số mở rộng 4 Chúng tôi cho rằng, điều này là nhờ chiến thuật huấn luyện hợp lý với giai đoạn 2 tập trung vào hàm mất mát nội dungL V GG19 content và giai đoạn 3 có sự hỗ trợ của trên mạng phân biệt theo mô hình StairIQA. Trong đó, giai đoạn 2 đã làm tăng giá trị StairIQA nhờ giúp mô hình hiểu sâu hơn nội dung của ảnh, từ đó thoát khỏi tình trạng ảnh đầu ra có độ chính xác cao nhưng bị mờ Ngoài ra, khi kết thúc giai đoạn 2, mạng tạo sinh đã đủ mạnh để có thể được huấn luyện chung với một mạng phân biệt vốn đã được tiền huấn luyện (pretrained) Bên cạnh đó, do mạng phân biệt ở giai đoạn 3 có cùng cấu trúc và xuất phát điểm với độ đo StairIQA, mạng tạo sinh được huấn luyện theo hướng trực tiếp nâng cao giá trị StairIQA.
− Không có sự chuyển đổi rõ ràng giữa tính chính xác (thể hiện qua PSNR vàSSIM) với tính chân thực (thể hiện qua StairIQA): Tất cả các bộ dữ liệu đều chứng kiến sự gia tăng của giá trị PSNR và SSIM khi sang giai đoạn 3 Thậm chí, Set5, Urban100 và Manga109 đều có các giá trị PSNR và SSIM cao nhất (chỉ tính riêng các phiên bản REASRGAN) ở giai đoạn 3, với mức tăng so với giai đoạn 1 lần lượt lần lượt là từ 1 đến 3 dB cho PSNR và từ 0.04 đến 0.14 đơn vị cho SSIM Trong khi đó, với hệ số mở rộng 4, các giá trị PSNR và SSIM tốt nhất đều tập trung ở giai đoạn 1 Chúng tôi cho rằng, điều này là do chiến lược huấn luyện tuy hợp lý, nhưng chưa được tận dụng tối đa khi huấn luyện REASRGAN với hệ số mở rộng 2 Cụ thể, giai đoạn 1 chưa đẩy được các giá trị độ đo PSNR và SSIM lên mức cao nhất có thể Do đó, các giá trị này vẫn còn không gian để cải thiện và bị vượt qua ở giai đoạn 3 (ở Set5, Urban100 và Manga109).
Khi đưa thêm mô hình cơ sở SwiftSRGAN vào so sánh, chúng tôi nhận thấy REASRGAN (×2) chưa hoàn toàn vượt trội so với SwiftSRGAN (×2) Trên 2 bộ dữ liệu Set14 và BSD100, REARSGAN (×2) vượt trội hơn, với vị trí các giá trị tốt nhất hoàn toàn tương tự như ở hệ số mở rộng 4 Với bộ dữ liệu Set5, REASRGAN 3 đạt giá trị tốt nhất ở cả 3 độ đo Trong khi đó, trên bộ dữ liệu Urban100, chỉ duy nhất giai đoạn 3 của REASRGAN là vượt trội hơi SwiftSRGAN ở độ đo StairIQA. Với bộ dữ liệu Manga109, chỉ duy nhất REASRGAN 3 là vượt trội so với mô hình cơ sở, nhưng là ở độ đo PSNR Như vậy, trên 2 bộ dữ liệu Urban100 và Manga109, một số giá trị tốt nhất đã thuộc về SwiftSRGAN Ngoài ra, trong 45 giá trị độ đo của các giai đoạn huấn luyện REASRGAN, có tới 29 giá trị không tốt hơn so với SwiftSRGAN Từ đó, chúng tôi kết luận rằng mô hình đề xuất không hoàn toàn vượt trội hơn SwiftSRGAN trên hệ số mở rộng 2 Chúng tôi cho rằng kết quả này là do 2 nguyên nhân sau:
− Siêu phân giải lên 2 lần (SR×2) là một bài toán dễ hơn siêu phân giải lên
4 lần (SR×4): Khi hai bài toán này có cùng kích thước đầu ra, đầu vào củaSR×2sẽ có kích thước gấp 4 lần (hay mỗi cạnh đều dài hơn 2 lần) so với đầu vào của SR×4 Như vậy, các giải thuật SR×2sẽ nhận được nhiều thông tin hơn và dễ cho ra ra kết quả tốt hơn Điều đó dẫn đến việc các mô hình đơn giản hơn như SwiftSRGAN có thể dễ dàng đạt kết quả cao và việc trở nên vượt trội chúng trở nên khó khăn hơn Ngược lại, ở bài toán SR×4, sự thiếu thốn về thông tin đã buộc các mô hình phải có cơ chế để tổng hợp thông tin rộng rãi hơn và hiểu sâu sắc hơn nội dung trong ảnh Do đó, REASRGAN (×4) vượt trội hoàn toàn so với SwiftSRGAN (×4).
− Quá trình huấn luyện REASRGAN (×2) chưa tối ưu: Hiện tại, nhóm đang sử dụng cùng một bộ siêu tham số để huấn luyện REASRGAN ở cả 2 hệ số mở rộng Tuy nhiên, điều này có thể chưa được hợp lý, vì ở các hệ số mở rộng khác nhau, các hàm mất mát sẽ rơi vào các khoảng giá trị khác nhau, dẫn tới tương quan độ lớn của chúng không giống nhau Từ đó, việc dùng lại những trọng số trong các hàm mục tiêu của REASRGAN (×4) để huấn luyện REASRGAN (×2) có thể khiến REASRGAN (×2) không được hội tụ về trạng thái tốt nhất Đây là một vấn đề cần cải thiện của phương pháp đề xuất Tuy nhiên, do thời gian của luận văn, nhóm xin được xếp việc cải thiện này vào các công việc tương lai.
Tóm lại, về mặt số liệu, REASRGAN vượt trội hoàn toàn mô hình cơ sở ở hệ số mở rộng 4 và cần cải thiện thêm ở hệ số mở rộng 2.
Đánh giá trực tiếp qua các ảnh đầu ra
Với mỗi bộ dữ liệu kiểm thử, chúng tôi chọn từ 1 đến 2 ảnh đầu ra khi siêu phân giải lên 4 lần, cắt một phần nhỏ của chúng và tổng hợp lại trong hình 4.1.
Dựa trên các ảnh này, chúng tôi nhận thấy mô hình cơ sở SwiftSRGAN tạo ra ảnh siêu phân giải bảo toàn khá tốt các chi tiết từ ảnh gốc Tuy nhiên, các ảnh đầu ra vẫn chưa được sắc nét và còn bị mờ. Đối với REASRGAN 1 , nhìn chung, REASRGAN 1 tạo ra ảnh ít bị mờ hơn Tuy nhiên, với những khu vực có quá nhiều chi tiết trong ảnh đầu vào (ví dụ như phần bọng mắt trong ảnh thứ 2 và bãi cỏ trong ảnh thứ 4), đầu ra của REASRGAN 1 có xu hướng bị làm mịn quá mức (oversmooth) Điều này gần giống với hành vi của các mô hình siêu phân giải được huấn luyện theo kiểu hướng PSNR (PSNR-oriented).Các mô hình này chỉ dựa vào hàm mất mát ở mức điểm ảnh (Lpixel) để huấn luyện.Theo [29], với mỗi ảnh đầu vào, các mô hình như vậy có xu hướng tạo ra ảnh đầu ra là trung bình cộng của các đáp án khả dĩ trên không gian nghiệm Chính điều này đã dẫn đến tình trạng ảnh đầu ra bị mịn quá mức Mặc dù giai đoạn 1 của REASRGAN có sự tham gia của hàm mất mát nội dung dựa trên MobileNet (L MobileNetV content 2 ), chúng tôi cho rằng mô hình xương sống (backbone model) của hàm mất mát này quá cạn và không đủ khả năng để trích xuất đầy đủ được các đặc trưng sâu trong ảnh Bên cạnh đó, kế thừa từ SwiftSRGAN, chúng tôi chỉ gán trọng số cho LMobileNetV2 content là 0.006 Do đó, ảnh hưởng của hàm mất mát nội dung lại càng bị hạn chế Ngoài ra, so với SwiftSRGAN, REAGen trong giai đoạn 1 không được chỉ dẫn bởi mạng phân biệt Như vậy, tổng hợp các yếu tố trên đã khiến REASRGAN 1 biểu hiện như một mô hình PSNR-oriented.
Xét đến REASRGAN 2 , chúng tôi nhận thấy ảnh do REASRGAN 2 sắc nét nhất khi so với mô hình cơ sở và các giai đoạn huấn luyện của REASRGAN trước cũng như sau nó Ví dụ trong ảnh 6, các ô cửa ở phía xa của tòa nhà được tái hiện một cách mờ nhạt trong đầu ra của REASRGAN 2 trong khi chúng hoàn toàn không thể nhìn thấy trong đầu ra của SwiftSRGAN và REASRGAN 1 Điều này đã chứng minh cho tác dụng của việc dùng một hàm mất mát nội dung sâu sắc hơn (L V GG19 content ) Tuy nhiên, với những khu vực dày đặc chi tiết, REASRGAN lại gặp phải tình trạng ảnh bị vỡ thành các mảnh dạng vảy cá (cũng lấy ví dụ với phần bọng mắt trong ảnh thứ
Nhìn chung, REASRGAN 3 vẫn gặp vấn đề vỡ ảnh nhẹ dạng vảy cá, có thể do mạng phân biệt dựa trên mô hình StairIQA nhận biết được hiệu ứng này và hướng dẫn mạng tạo sinh làm dịu chúng Tuy nhiên, REASRGAN 3 lại tạo ra nhiều ảnh có sai lệch nội dung hơn so với REASRGAN 2, như các đường thẳng song song trong ảnh gốc bị méo ở ảnh sinh ra, đặc biệt rõ hơn trong giai đoạn 3 Sai lệch này là đặc điểm thường gặp ở các hệ GAN, khi mạng phân biệt chỉ tập trung phân biệt ảnh thật - giả, dẫn đến mạng tạo sinh cố gắng tạo ảnh thật hơn bất chấp độ chính xác so với ảnh đầu vào Điều này không quá ảnh hưởng đến các ảnh chụp thông thường, nhưng sẽ gây ra nhiều hệ lụy trong các lĩnh vực đòi hỏi ảnh có độ chính xác cao.
Hình 4.1: Một số ảnh đầu ra của các mô hình siêu phân giải khi phóng to ảnh lên
4 lần Các cột theo thứ tự từ trái sang phải lần lượt là đầu ra của SwiftSRGAN, REASRGAN 1 , REASRGAN 2 , REASRGAN 3 và ảnh gốc Các ảnh được lấy ra từ 5 bộ dữ liệu kiểm thử.
Bảng 4.2: Bảng đối chiếu kích thước mô hình và tốc độ xử lý ảnh của mô hình cơ sở SwiftSRGAN và REASRGAN (ký hiệu là REA-) Trong đó, ×2và×4là các hệ số mở rộng Các ảnh có tỉ lệ là 16:9, ví dụ 360p là ảnh có kích thước 640×360. Các dòng ứng với REASRGAN có 2 giá trị: thời gian xử lý và số lần tăng lên so với
Số tham số (nghìn) Thời gian xử lý (ms)
Đánh giá qua thời gian xử lý
Chúng tôi tiến hành đo đạc thời gian xử lý của SwiftSRGAN và REASRGAN ở
2 hệ số mở rộng là 2 và 4 Các kết quả được tổng kết lại trong bảng 4.2 Do mạng tạo sinh ở cả 3 giai đoạn chỉ khác nhau về bộ trọng số, chúng tôi chỉ tiến hành đo đạc thời gian ở giai đoạn 1.
Theo bảng 4.2, ở cả hai hệ số mở rộng, thời gian xử lý ảnh của REASRGAN đều nhiều hơn so với mô hình cơ sở SwiftSRGAN Điều này phù hợp với việc REASRGAN có chứa các khối res-EA với nhiều phép tính hơn Tuy nhiên, mức độ tăng của thời gian xử lý cho thấy một tín hiệu tích cực Ngoại trừ kích thước đầu vào 144p, các kích thước đầu vào khác đều chứng kiến mức tăng vừa phải và ổn định. Với hệ số mở rộng 2, mức tăng chỉ dao động trong khoảng từ 3.76 đến 3.90 lần Với hệ số mở rộng là 4, mức tăng thậm chí còn ít hơn: chỉ dao động trong khoảng từ2.53 đến 2.62 lần Điều này cho thấy rằng thay vì ngày càng mở rộng, số lần chênh lệch trong thời gian tính toán giữa SwiftSRGAN và REASRGAN có xu hướng ổn định xung quanh một hằng số Hay nói cách khác, chúng có cùng độ phức tạp về thời gian Như vậy, phép tính tập trung hiệu quả thực sự có thể mở rộng vùng tiếp thu (receptive field) ra toàn bộ ảnh chỉ với độ phức tạp tuyến tính.
Phân tích
Tác động của chuẩn hóa theo lô và chuẩn hóa theo lớp
Chuẩn hóa là một loại kỹ thuật quan trọng được dùng để đảm bảo các mô hình học sâu hội tụ tốt hơn khi huấn luyện Có 2 kỹ thuật chuẩn hóa thường thấy là chuẩn hóa theo lô (batch normalization, BN) và chuẩn hóa theo lớp (layer normalization, LN) Sự khác nhau giữa 2 kỹ thuật này chủ yếu đến từ phạm vi tính trung bình các điểm ảnh trên ma trận đặc trưng Cụ thể như sau:
− Chuẩn hóa theo lô (BN): Khi huấn luyện, việc chuẩn hóa diễn ra giữa toàn bộ các ma trận đặc trưng thứ i trong 1 lô (batch) Tuy nhiên, giữa ma trận thứi và thứ j từ cùng 1 ảnh thì không có bất cứ phép toán nào diễn ra Khi kiểm thử, việc chuẩn hóa diễn ra riêng lẻ trên từng ma trận của từng ảnh.
− Chuẩn hóa theo lớp (LN): Trong cả khi huấn luyện và khi kiểm thử, việc tính kỳ vọng và phương sai diễn ra trên toàn bộ các ma trận đặc trưng của từng ảnh trong lô Do đó, không có phép toán nào diễn ra giữa 2 ma trận thứicủa
2 ảnhavàbbất kỳ trong mỗi lô.
Ban đầu, BN là một phần không thể thiếu của các mô hình học sâu thị giác máy tính (computer vision, CV) Trong khi đó, LN được sử dụng một cách rộng rãi để ổn định quá trình huấn luyện các mô hình xử lý ngôn ngữ tự nhiên (natural language processing, NLP) Tuy nhiên, có 2 dữ kiện sau đã khiến chúng tôi cân nhắc việc thay thế BN bằng LN trong mô hình REASRGAN:
− LN thường được sử dụng kèm theo cơ chế tập trung: Các cơ chế tập trung có xuất phát điểm là ở lĩnh vực NLP Với sự thành công của Transformer [38],nhiều nhóm nghiên cứu đã tích hợp thành công cơ chế này kèm theo LN vào
Bảng 4.3: Bảng đối chiếu khả năng siêu phân giải lên 4 lần của các phiên bản thử nghiệm khác nhau với những hàm chuẩn hóa khác nhau Trong đó, LN là thí nghiệm thay thế toàn bộ các lớp chuẩn hóa theo lô (batch normalization, BN) bằng các lớp chuẩn hóa theo lớp (layer normalization, LN); BN là mô hình REAGen ban đầu với các lớp BN Mỗi ô gồm 3 giá trị, lần lượt từ trên xuống dưới là: PSNR (kênh Y),
SSIM (kênh Y) và StairIQA Các giá trị tốt nhất được tô màuđỏ.
Thí nghiệm Set5 Set14 BSD100 Urban100 Manga109
29.635061 0.892358 54.565823 lĩnh vực CV, ví dụ như SwinTransformer [24] Do REASRGAN cũng dựa trên cơ chế tập trung, nên việc thay thế BN thành LN trong REASRGAN là một thử nghiệm đáng để thực hiện.
− BN bị báo cáo là gây ra một số hiệu ứng xấu trong ảnh siêu phân giải: Theo nhóm tác giả của ESRGAN [30], BN có thể gây ra một số hiệu ứng không mong muốn trong ảnh đầu ra nếu mô hình quá sâu Điều này được giải thích là do BN cố gắng ước lượng giá trị kỳ vọng và phương sai của dữ liệu tự nhiên chỉ dựa trên một phần nhỏ của chúng (trong phạm vi từng lô), dẫn tới sự ước lượng này đôi khi không chính xác và gây cản trở cho quá trình siêu phân giải ảnh Trong khi đó, LN không hề ước lượng dựa trên các ảnh khác.
Do đó, thay thế BN với LN có khả năng cải thiện chất lượng mô hình. Để kiểm tra biểu hiện của mô hình khi thay BN với LN, chúng tôi tiến hành huấn luyện thêm một phiên bản REASRGAN mới chỉ dụng LN Quá trình huấn luyện dựa trên các thông số của giai đoạn 1 Kết quả thu được như bảng 4.3 và bảng 4.4.
Dựa vào các số liệu thu được, chúng tôi nhận thấy rằng việc thay BN thành
Trong mô hình REASRGAN, phiên bản sử dụng chuẩn hóa nhóm (BN) vượt trội so với phiên bản sử dụng chuẩn hóa lớp (LN) về hầu hết các chỉ số Cụ thể, phiên bản BN đạt chất lượng tái tạo cao hơn và thời gian siêu phân giải ngắn hơn so với phiên bản LN.
Bảng 4.4: Bảng đối chiếu kích thước mô hình và tốc độ siêu phân giải ảnh lên 4 lần của phiên bản thử nghiệm thay BN trong REAGen với LN và mô hình REAGen gốc Các ảnh có tỉ lệ là 16:9, ví dụ 360p là ảnh có kích thước640×360.
Số tham số (nghìn) Thời gian xử lý (ms)
BN 787 418 34.41 143.90 250.03 574.12 1296.44 tôi, điều này là do trong lúc kiểm thử, các lớp BN chỉ tính toán trên từng ma trận đặc trưng riêng lẻ của mỗi ảnh, trong khi các lớp LN phải tính kỳ vọng và phương sai trên toàn bộ ma trận đặc trưng của ảnh đó.
Như vậy, chúng tôi kết luận rằng BN mới là sự lựa chọn tối ưu cho REASRGAN.
Tác động của các kết nối dư thừa skip-EA-res trong khối res-EA
Khối tập trung hiệu quả được tinh chỉnh bổ sung các kết nối dư thừa có tên "skip-EA-res", từ truy vấn (Q), khóa (K) và giá trị (V) tới ngõ sau của công đoạn tính toán giá trị tập trung hiệu quả (E), qua đó cải tiến so với khối tập trung hiệu quả ban đầu do Shen và cộng sự đề xuất trong [3].
Thiết kế này đến từ vấn đề huấn luyện mô hình Chúng tôi nhận thấy rằng khi đưa cấu trúc EA trực tiếp vào mô hình của nhóm, việc hội tụ trở nên khó khăn hơn. Để minh họa cho sự khó khăn khi huấn luyện này, cũng như để chứng minh tính hiệu quả của giải pháp thêm vào các kết nối dư thừa skip-EA-res, chúng tôi thực hiện các thí nghiệm với những thiết lập như sau:
− Tiến hành huấn luyện 2 phiên bản của REASRGAN Trong đó, có một phiên bản không có kết nối dư thừa loại skip-EA-res (wo-res); phiên bản còn lại
Bảng 4.5 so sánh chất lượng ảnh tăng 4 lần được tạo ra từ các mô hình thử nghiệm Trong đó, wo-res là phiên bản REASRGAN đã loại bỏ các kết nối dư thừa từ Q, K và V sau khối lõi EA, trong khi w-res là phiên bản REASRGAN gốc Mỗi ô có 3 giá trị, bao gồm PSNR (kênh Y), SSIM (kênh Y) và StairIQA Giá trị tốt nhất được tô màu đỏ, còn giá trị tệ hơn so với mô hình cơ sở SwiftSRGAN được tô màu tím.
Mô hình Set5 Set14 BSD100 Urban100 Manga109
29.214560 0.886232 53.182837 chính là mô hình REASRGAN tiêu chuẩn với đầy đủ các kết nối dư thừa loại skip-EA-res (w-res).
− Việc huấn luyện kéo dài 200 epoch và batch, dựa trên các thông số và hàm mục tiêu của giai đoạn 1.
Kết quả thu được được chúng tôi ghi nhận trong bảng 4.5 Trong đó, các giá trị tốt nhất được tô màu đỏ và các giá trị tệ hơn mô hình cơ sở được tô màu tím Theo kết quả này, phiên bản wo-res tệ hơn SwiftSRGAN ở gần như mọi chỉ số Đặc biệt, các giá trị StairIQA trên các bộ dữ liệu Urban100 và Manga109 giảm sâu Trong khi đó, phiên bản w-res chiến thắng cách biệt SwiftSRGAN ở toàn bộ các chỉ số, với mức tăng từ 0.7 đến 2 dB cho độ đo PSNR, từ 0.02 đến 0.04 đơn vị cho độ đo SSIM, và từ 2 đến 6 dơn vị cho độ đo StairIQA Như vậy, việc lắp ráp trực tiếp khối
EA vào mô hình gây khó khăn cho việc huấn luyện (như hình 4.3a) và các kết nối dư thừa giữaQ,K,V vớiE là giải pháp cho vấn đề này.
Theo chúng tôi, vấn đề hội tụ khó khăn do các nguyên nhân sau kết hợp: hàm giá trị lớn nhất mềm (softmax), nhân ma trận và tích chập phân tách được theo chiều sâu (depth-wise separable convolution, DSC). Đầu tiên, chúng tôi cho rằng việc dùng nhiều phép tính giá trị lớn nhất mềm (softmax) trong thân mô hình đã gây cản trở quá trình lan truyền ngược độ dốc. Softmax là một phần quen thuộc các mạng nơ-ron học sâu Tuy nhiên, softmax được khuyến cáo chỉ nên xuất hiện ở cuối mạng nhằm mục đích phân loại, thay vì đóng vai trò như một hàm kích hoạt phi tuyến ở giữa mạng Điều đó là do các lý do sau:
− Bản chất phi tuyến tính mạnh: Hàm softmax là một hàm phi tuyến tính mạnh. Điều đó khiến cho bề mặt của hàm mất mát phức tạp, dẫn tới việc lan truyền ngược độ dốc khó khăn hơn, dễ gặp các cực trị địa phương.
− Bản chất dựa trên hàm lũy thừa: Hàm softmax liên quan đến việc lấy lũy thừa thực của các đầu vào Do đó, nó có thể gây ra tình trạng mất ổn định về mặt tính toán số học, đặc biệt là khi xử lý các số lớn hoặc rất nhỏ Sự mất ổn định này có thể dẫn đến các vấn đề như giá trị trung gian tiến về vô cùng (tràn số, overflow) hoặc tiến về 0 (thiếu số, underflow) trong quá trình tính toán.
Kết quả của hàm softmax phụ thuộc lẫn nhau, tức là giá trị của một phần tử ảnh hưởng đến giá trị của các phần tử còn lại trong vector đầu vào Sự phụ thuộc này gây khó khăn cho quá trình lan truyền ngược độ dốc, làm ảnh hưởng đến hiệu suất đào tạo của mạng nơ-ron.
− Độ dốc bị tiêu biến: Trong một số trường hợp, đạo hàm tính được trong quá trình lan truyền ngược có thể trở nên rất nhỏ, đặc biệt là khi giá trị đầu vào của hàm softmax chênh lệch nhiều Điều này có thể làm chậm quá trình học hoặc làm cho mô hình khó cập nhật một số tham số một cách hiệu quả.
Như vậy, softmax không hề thân thiện với việc lan truyền ngược độ dốc khi huấn luyện Tuy nhiên, trong khối EA, hàm softmax được sử dụng dày đặc để chuẩn hóa
Q và K Điều đó đã khiến cho khối EA trở thành một điểm nút cổ chai trên con đường lan truyền ngược độ dốc.
Tiếp đến, chúng tôi cân nhắc tác động của việc nhân ma trận giữa diễn ra thường xuyên Chúng tôi cho rằng điều này gây mất ổn định về mặt phân phối Việc thực hiện các phép nhân G=ρK(K) T V và E =ρQ(Q)G lặp đi lặp lại ở nhiều khối EA liên tiếp có khả năng khiến phân phối của các giá trị trung gian bị lệch đi, theo hướng hoặc bị tràn số, hoặc bị thiếu số Điều này đã khiến cho việc huấn luyện trở nên khó khăn.
Ngoài ra, việc dùng các lớp tích chập phân tách được theo chiều sâu (depth-wise separable convolution, DSC) thay cho các lớp tích chập thông thường cũng là một nguyên do, bởi DSC có thể khiến mô hình bị suy yếu Kế thừa từ SwiftSRGAN, chúng tôi dùng DSC cho REASRGAN Mặc dù có tác dụng đáng kể trong việc giảm kích thước mô hình, nhưng DSC cũng khiến cho khả năng trích xuất thông tin của mô hình bị hạn chế rất nhiều Do vậy, có thể các ma trậnQ,K,V không chứa đủ thông tin cần thiết để tiến hành tổng hợp giá trị tập trung hiệu quảE Trong khi đó, nhóm của Shen chỉ sử dụng các lớp tích chập thông thường, và nhờ vậy đã không gặp phải vấn đề hội tụ khó khăn này.
Trong khối EA ban đầu, kết nối dư thừa skip-block-res (4.2) không thể giải quyết bài toán nghẽn mạng ngược Tác giả chỉ ra rằng kết nối này khiến mô hình dễ dàng bỏ qua các phép tính bên trong EA khi huấn luyện Do đó, cần một giải pháp thay thế để khắc phục vấn đề này.
Việc đề xuất thêm các kết nối dư thừa skip-EA-res từQ,K,V đếnE của nhóm dựa trên một số ý tưởng sau:
− Giúp độ dốc của hàm mục tiêu có thể lan truyền ngược vòng qua các điểm nút cổ chai của phép tính tập trung hiệu quả (các khối core-EA): Khác với kết nối dư thừa skip-block-res đi vòng qua toàn bộ khối EA (có sẵn trong mô hình do Shen và các đồng sự đề xuất), 3 kết nối dư thừa thuộc loại skip-EA-res do chúng tôi đề xuất chỉ đi vòng qua duy nhất khối core-EA bên trong khối res-EA Chúng tôi nhận thấy rằng các lớp tích chập tính toán Q,K,V không gây ra tình trạng khó hội tụ, mà chính khối core-EA mới là thủ phạm Do đó,
Tác động của việc chọn các trọng số φ và γ
Trong khi huấn luyện REASRGAN ở giai đoạn 2, trọng số φ ảnh hưởng đến hàm mất mát ở mức điểm ảnh (Lpixel), trong khi trọng số γ tác động đến hàm mất mát nội dung (L VGG19 content ) Để đánh giá tác động của chúng, chúng tôi tiến hành ba thí nghiệm dựa trên các chi tiết huấn luyện của giai đoạn 2, trong đó epoch và batch được giữ không đổi.
(a) Quá trình lan truyền ngược độ dốc ở phiên bản wo-res Do bị tắc nghẽn ở core-EA, các lớp tích chập phía trước nhận được rất ít thông tin và không được cập nhật một cách hiệu quả.
(b) Quá trình lan truyền ngược độ dốc ở phiên bản w-res Dù bị tắc nghẽn ở core-EA, các lớp tích chập Q,K và V vẫn nhận được thông tin từ phía sau, nhờ những đường kết nối dư thừa skip-EA-res.
Hình 4.3: So sánh quá trình lan truyền ngược độ dốc giữa phiên bản wo-res và w-res
Bảng 4.7: Bảng đối chiếu chất lượng của ảnh siêu phân giải lên 4 lần sinh ra từ các mô hình thí nghiệm với các cách chọn trọng số φ2 và γ2 khác nhau Mỗi ô gồm 3 giá trị, từ trên xuống lần lượt là: PSNR (kênh Y), SSIM (kênh Y) và StairIQA.
Thí nghiệm Set5 Set14 BSD100 Urban100 Manga109 φ2 =0.05 γ2 =1
Kết quả của các thí nghiệm này được trình bày trong bảng 4.7 Theo đó, việc chọnφ =0.05vàφ =0.01đều dẫn đến những kết quả khá tốt và gần như tương tự nhau Trong khi đó, việc chọnφ =0.005dẫn đến kết quả tệ hơn ở cả 3 độ đo PSNR, SSIM và StairIQA, mặc dù cách chọn trọng số này có vẻ như là đang ưu tiên nhiều hơn cho L V GG19 content
Do mục tiêu của giai đoạn 2 là giúp mô hình REASRGAN học các đặc trưng sâu tốt hơn qua hàm mất mát nội dung, chúng tôi đã trực quan hóa sự thay đổi của hàm mất mát này qua 200 epoch huấn luyện (xem hình 4.4) Theo hình này, với cách chọn φ =0.01(đường màu cam), L V GG19 content có biểu hiện hội tụ rõ ràng với giá trị giảm dần và càng về sau càng ít dao động mạnh Cách chọn φ = 0.05 (đường màu lam) không có sự hội tụ rõ ràng với việc L V GG19 content giảm sâu ở khoảng epoch
100 đến epoch 150 và có dấu hiệu phân kỳ sau khoảng đó Trong khi đó, cách chọn φ =0.001 (đường màu lục) không hề dẫn đến sự hội tụ khi huấn luyện, với giá trị
L V GG19 content dao động dữ dội và thường xuyên đạt mức cao.
Như vậy, việc chọn trọng số có vai trò quan trọng đối với quá trình huấn luyện mô hình Khi trọng số của hàm mất mát Lpixel quá nhỏ, mô hình bị mất ổn định và không thể hội tụ được Khi trọng số này quá lớn, mô hình hội tụ chậm Khi trọng số này được chọn phù hợp, mô hình REASRGAN hội tụ nhanh và ổn định.
Hình 4.4: Sự thay đổi của L V GG19 content qua 200 epoch đầu tiên khi huấn luyện giai đoạn
2 với trọng sốφ2 được chọn là 0.05 (màu lam), 0.01 (màu cam) và 0.005 (màu lục).
Trong chương này, nhóm sẽ tổng kết lại những điều mà nhóm đã làm được và chưa làm được trong luận văn này, cùng với các dự định tương lai của nhóm.
Kết quả đạt được
Qua quá trình thực hiện luận văn tốt nghiệp này, nhóm đã đạt được những kết quả sau đây:
− Đề xuất được mô hình REASRGAN dựa trên mô hình cơ sở: Nhóm đã đề xuất áp dụng kỹ thuật đặt lại tham số và phép tính tập trung hiệu quả để cải tạo mạng tạo sinh của mô hình cơ sở thành mạng tạo sinh của REASRGAN. Đối với mạng phân biệt REASRGAN, chúng tôi đã đề xuất được cách để tái sử dụng kiến trúc của mô hình độ đo StairIQA.
− Đề xuất được chiến lược huấn luyện phù hợp cho mô hình REASRGAN: Ngoài nâng cấp kiến trúc mô hình, nhóm còn đề xuất được một chiến lược huấn luyện mới, chi tiết hơn và cần bằng hơn.
− Thực hiện được các thí nghiệm để đánh giá và phân tích các đề xuất đã nêu ra.
Hạn chế
Bên cạnh những kết quả đã gặt hái được, luận văn tốt nghiệp này vẫn còn một số hạn chế như:
Mô hình REASRGAN vẫn cần được cải thiện thêm Thời gian xử lý của mô hình này chậm hơn đáng kể so với mô hình cơ sở Ngoài ra, chất lượng ảnh đầu ra của REASRGAN cũng cần được cải thiện thêm trong nhiều trường hợp.
− Chỉ mới so sánh REASRGAN và SwiftSRGAN: Trong luận văn này, nhóm chỉ mới so sánh giữa SwiftSRGAN và kết quả của 3 giai đoạn huấn luyện của REASRGAN Các mô hình khác chưa góp mặt trong các so sánh này Do đó, nhóm chưa tổng kết được vị trí của mô hình đề xuất so với các công trình khác về bài toán siêu phân giải ảnh.
− REASRGAN chưa tiếp xúc với nhiều loại suy giảm chất lượng trong ảnh đầu vào: Hiện tại, nguồn suy giảm chất lượng mà REASRGAN tiếp xúc khi huấn luyện chủ yếu đến từ các bộ dữ liệu (vốn chất lượng ảnh đã cao sẵn) Do đó, nhóm chưa tự tin về khả năng xử lý của mô hình này khi gặp các loại suy giảm chất lượng lạ, vốn rất phong phú đa dạng ngoài tự nhiên.
− Chưa kịp huấn luyện REASRGAN trên các bộ dữ liệu lớn hơn: Hiện tại REASRGAN chỉ được huấn luyện trên 3450 ảnh Do sự giới hạn về thời gian và nguồn lực của nhóm khi thực hiện luận văn này, chúng tôi chưa thể huấn luyện mô hình đề xuất trên những bộ dữ liệu lớn hơn, để đánh giá tiềm năng của mô hình này.
Kế hoạch phát triển
Dựa vào các hạn chế hiện tại, trong tương lai, nhóm dự định sẽ phát triển tiếp công trình trong luận văn tốt nghiệp này theo những hướng sau:
− Cải thiện thêm REASRGAN: Nhóm sẽ xem xét lại cả mô hình và quy trình huấn luyện, để giúp mô hình xử lý nhanh hơn và có chất lượng ảnh đầu ra tốt hơn nữa.
Nhóm nghiên cứu dự định sẽ tiến hành so sánh toàn diện REASRGAN với các mô hình tốt nhất hiện nay để xác định những điểm cần cải tiến và nâng cao hiệu suất của REASRGAN.
− Huấn luyện REASRGAN theo hướng xử lý được đa dạng các loại suy giảm chất lượng trong ảnh đầu vào: Nhóm dự định sẽ mở rộng các loại suy giảm chất lượng ảnh mà REASRGAN giải quyết được Nhờ đó, khả năng ứng dụng vào thực tế sẽ được mở rộng hơn.
− Huấn luyện REASRGAN trên các bộ dữ liệu lớn hơn: Việc huấn luyện trên các bộ dữ liệu lớn sẽ giúp mô hình có hiểu biết về nhiều dạng nội dung và kiểu suy giảm chất lượng có trong ảnh đầu vào hơn Như vậy, mô hình sẽ xử lý ảnh tốt hơn, từ đó khả năng ứng dụng vào thực tế tăng lên.
[1] K S Krishnan and K S Krishnan, “SwiftSRGAN-Rethinking Super- Resolution for Efficient and Real-time Inference,” in2021 International Con- ference on Intelligent Cybernetics Technology & Applications (ICICyTA), pp 46–51, IEEE, 2021.
[2] X Ding, X Zhang, N Ma, J Han, G Ding, and J Sun, “Repvgg: Making vgg-style convnets great again,” inProceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp 13733–13742, IEEE, 2021.
[3] Z Shen, M Zhang, H Zhao, S Yi, and H Li, “Efficient Attention: Attention With Linear Complexities,” inProceedings of the IEEE/CVF Winter Confer- ence on Applications of Computer Vision (WACV), pp 3531–3539, IEEE, Jan- uary 2021.
[4] W Sun, X Min, D Tu, S Ma, and G Zhai, “Blind Quality Assessment for in-the-Wild Images via Hierarchical Feature Fusion and Iterative Mixed Database Training,” IEEE Journal of Selected Topics in Signal Processing, vol 17, p 1178–1192, Nov 2023.
[5] C Saharia, J Ho, W Chan, T Salimans, D J Fleet, and M Norouzi, “Im- age Super-Resolution via Iterative Refinement,”IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 45, no 4, pp 4713–4726, 2023.
[6] W Shi, J Caballero, F Huszár, J Totz, A P Aitken, R Bishop, D Rueckert, and Z Wang, “Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network,” inProceedings of the IEEE conference on computer vision and pattern recognition, pp 1874–1883, IEEE,
[7] X Chen, X Wang, J Zhou, Y Qiao, and C Dong, “Activating More Pixels in Image Super-Resolution Transformer,” in 2023 IEEE/CVF Conference on
Computer Vision and Pattern Recognition (CVPR), pp 22367–22377, IEEE,
[8] X Wang, L Xie, C Dong, and Y Shan, “Real-esrgan: Training real- world blind super-resolution with pure synthetic data,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp 1905–1914,
[9] M.-I Georgescu, R T Ionescu, A.-I Miron, O Savencu, N.-C Ristea,
N Verga, and F S Khan, “Multimodal Multi-Head Convolutional Atten- tion with Various Kernel Sizes for Medical Image Super-Resolution,” in2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp 2194–2204, IEEE, 2023.
[10] Y Wang, Y Hu, J Yu, and J Zhang, “Gan prior based null-space learning for consistent super-resolution,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol 37, pp 2724–2732, AAAI, 2023.
[11] P Yang, J Sturtz, and L Qingge, “Progress in Blind Image Quality Assess- ment: A Brief Review,”Mathematics, vol 11, no 12, p 2766, 2023.
[12] M.-I Georgescu, R T Ionescu, and N Verga, “Convolutional neural networks with intermediate loss for 3D super-resolution of CT and MRI scans,” IEEE Access, vol 8, pp 49112–49124, 2020.
[13] W T Freeman and E C Pasztor, “Learning low-level vision,” in Proceed- ings of the seventh IEEE international conference on computer vision, vol 2, pp 1182–1189, IEEE, 1999.
[14] H Chang, D.-Y Yeung, and Y Xiong, “Super-resolution through neighbor embedding,” in Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004 CVPR 2004., vol 1, pp I–
[15] J Yang, J Wright, T S Huang, and Y Ma, “Image super-resolution via sparse representation,” IEEE transactions on image processing, vol 19, no 11, pp 2861–2873, 2010.
[16] C Dong, C C Loy, K He, and X Tang, “Image super-resolution using deep convolutional networks,”IEEE transactions on pattern analysis and machine intelligence, vol 38, no 2, pp 295–307, 2015.
[17] Y Zhang, K Li, K Li, L Wang, B Zhong, and Y Fu, “Image super-resolution using very deep residual channel attention networks,” in Proceedings of the European conference on computer vision (ECCV), pp 286–301, Springer,
[18] S Kim, D Jun, B.-G Kim, H Lee, and E Rhee, “Single image super- resolution method using cnn-based lightweight neural networks,”Applied Sci- ences, vol 11, no 3, p 1092, 2021.
Z Luo et al (2022) introduced the Fast Nearest Convolution (FNC) method for efficient real-time image super-resolution Presented in the proceedings of Computer Vision - ECCV 2022 Workshops, FNC outperforms existing approaches by significantly reducing computational costs while maintaining high-quality super-resolved images.
[20] L Sun, J Pan, and J Tang, “Shufflemixer: An efficient convnet for im- age super-resolution,” Advances in Neural Information Processing Systems, vol 35, pp 17314–17326, 2022.
[21] J Song, J Xiao, C Tian, Y Hu, L You, and S Zhang, “A Dual CNN for Image Super-Resolution,”Electronics, vol 11, no 5, p 757, 2022.
[22] C Tian, Y Yuan, S Zhang, C.-W Lin, W Zuo, and D Zhang, “Image super- resolution with an enhanced group convolutional neural network,”Neural Net- works, vol 153, pp 373–385, 2022.
[23] C Tian, Y Zhang, W Zuo, C.-W Lin, D Zhang, and Y Yuan, “A Heteroge- neous Group CNN for Image Super-Resolution,”IEEE Transactions on NeuralNetworks and Learning Systems, pp 1–13, 2022.
[24] Z Liu, Y Lin, Y Cao, H Hu, Y Wei, Z Zhang, S Lin, and B Guo,
“Swin transformer: Hierarchical vision transformer using shifted windows,” inProceedings of the IEEE/CVF international conference on computer vision, pp 10012–10022, IEEE, 2021.
[25] J Liang, J Cao, G Sun, K Zhang, L Van Gool, and R Timofte, “Swinir: Image restoration using swin transformer,” in Proceedings of the IEEE/CVF international conference on computer vision, pp 1833–1844, IEEE, 2021.
[26] J Fang, H Lin, X Chen, and K Zeng, “A hybrid network of cnn and transformer for lightweight image super-resolution,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 1103–1112, IEEE, 2022.
[27] G Gao, Z Wang, J Li, W Li, Y Yu, and T Zeng, “Lightweight bimodal network for single-image super-resolution via symmetric cnn and recursive transformer,”arXiv preprint arXiv:2204.13286, 2022.
[28] G Gao, Z Xu, J Li, J Yang, T Zeng, and G.-J Qi, “CTCNet: A CNN- transformer cooperation network for face image super-resolution,” IEEE Transactions on Image Processing, vol 32, pp 1978–1991, 2023.
[29] C Ledig, L Theis, F Huszár, J Caballero, A Cunningham, A Acosta,
A Aitken, A Tejani, J Totz, Z Wang, et al., “Photo-realistic single image super-resolution using a generative adversarial network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4681–
[30] X Wang, K Yu, S Wu, J Gu, Y Liu, C Dong, Y Qiao, and C C Loy,
“ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks,” in
Computer Vision – ECCV 2018 Workshops(L Leal-Taixé and S Roth, eds.), (Cham), pp 63–79, Springer International Publishing, 2019.
[31] A Jolicoeur-Martineau, “The relativistic discriminator: a key element missing from standard GAN,”arXiv preprint arXiv:1807.00734, 2018.
[32] Y Wang, C Lin, D Luo, Y Tai, Z Zhang, and Y Xie, “High-resolution GAN inversion for degraded images in large diverse datasets,” in Proceed- ings of the Thirty-Seventh AAAI Conference on Artificial Intelligence and Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence,
[33] A Sauer, K Schwarz, and A Geiger, “Stylegan-xl: Scaling stylegan to large diverse datasets,” in ACM SIGGRAPH 2022 conference proceedings, pp 1–
[34] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan,
V Vanhoucke, and A Rabinovich, “Going deeper with convolutions,” inPro- ceedings of the IEEE conference on computer vision and pattern recognition, pp 1–9, IEEE, 2015.
[35] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recog- nition,” inProceedings of the IEEE conference on computer vision and pattern recognition, pp 770–778, IEEE, 2016.
[36] G Huang, Z Liu, L Van Der Maaten, and K Q Weinberger, “Densely con- nected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4700–4708, IEEE, 2017.
[37] A Veit, M J Wilber, and S Belongie, “Residual networks behave like en- sembles of relatively shallow networks,”Advances in neural information pro- cessing systems, vol 29, 2016.
[38] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, Ł Kaiser, and I Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol 30, 2017.
[39] A K Moorthy and A C Bovik, “A two-step framework for constructing blind image quality indices,”IEEE Signal processing letters, vol 17, no 5, pp 513–
[40] A K Moorthy and A C Bovik, “Blind image quality assessment: From nat- ural scene statistics to perceptual quality,” IEEE transactions on Image Pro- cessing, vol 20, no 12, pp 3350–3364, 2011.
[41] A Mittal, A K Moorthy, and A C Bovik, “No-reference image quality assessment in the spatial domain,” IEEE Transactions on image processing, vol 21, no 12, pp 4695–4708, 2012.
[42] M A Saad, A C Bovik, and C Charrier, “Blind image quality assessment:
A natural scene statistics approach in the DCT domain,”IEEE transactions on Image Processing, vol 21, no 8, pp 3339–3352, 2012.
[43] Q Li, W Lin, J Xu, and Y Fang, “Blind image quality assessment using sta- tistical structural and luminance features,”IEEE Transactions on Multimedia, vol 18, no 12, pp 2457–2469, 2016.
[44] M Zhang, C Muramatsu, X Zhou, T Hara, and H Fujita, “Blind image qual- ity assessment using the joint statistics of generalized local binary pattern,”
IEEE Signal Processing Letters, vol 22, no 2, pp 207–210, 2014.
[45] D Ghadiyaram and A C Bovik, “Blind image quality assessment on real distorted images using deep belief nets,” in2014 IEEE global conference on signal and information processing (GlobalSIP), pp 946–950, IEEE, 2014.
[46] D Li, T Jiang, W Lin, and M Jiang, “Which has better visual quality: The clear blue sky or a blurry animal?,”IEEE Transactions on Multimedia, vol 21, no 5, pp 1221–1234, 2018.
[47] P C Madhusudana, N Birkbeck, Y Wang, B Adsumilli, and A C Bovik,
“Image quality assessment using contrastive learning,”IEEE Transactions on Image Processing, vol 31, pp 4149–4161, 2022.
[48] L Kang, P Ye, Y Li, and D Doermann, “Convolutional neural networks for no-reference image quality assessment,” in Proceedings of the IEEE confer- ence on computer vision and pattern recognition, pp 1733–1740, IEEE, 2014.
[49] J Kim and S Lee, “Fully deep blind image quality predictor,” IEEE Journal of selected topics in signal processing, vol 11, no 1, pp 206–220, 2016.
[50] K Ma, W Liu, K Zhang, Z Duanmu, Z Wang, and W Zuo, “End-to-end blind image quality assessment using deep neural networks,” IEEE Transac- tions on Image Processing, vol 27, no 3, pp 1202–1213, 2017.
[51] W Zhang, K Ma, J Yan, D Deng, and Z Wang, “Blind Image Quality As- sessment Using a Deep Bilinear Convolutional Neural Network,”IEEE Trans- actions on Circuits and Systems for Video Technology, vol 30, no 1, pp 36–
[52] S Su, Q Yan, Y Zhu, C Zhang, X Ge, J Sun, and Y Zhang, “Blindly As- sess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 3664–3673, IEEE, 2020.
[53] S A Golestaneh, S Dadsetan, and K M Kitani, “No-Reference Image Qual- ity Assessment via Transformers, Relative Ranking, and Self-Consistency,” in 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp 3989–3999, IEEE, 2022.
[54] H Ren, D Chen, and Y Wang, “RAN4IQA: Restorative adversarial nets for no-reference image quality assessment,” in Proceedings of the AAAI confer- ence on artificial intelligence, vol 32, AAAI, 2018.
[55] P Zhang, X Shao, and Z Li, “Cycleiqa: Blind image quality assessment via cycle-consistent adversarial networks,” in 2022 IEEE International Confer- ence on Multimedia and Expo (ICME), pp 1–6, IEEE, 2022.
[56] W Sun, H Duan, X Min, L Chen, and G Zhai, “Blind quality assessment for in-the-wild images via hierarchical feature fusion strategy,” in 2022 IEEE In- ternational Symposium on Broadband Multimedia Systems and Broadcasting(BMSB), pp 01–06, IEEE, 2022.