Luận án tiến sĩ Kỹ thuật điện tử: Siêu phân giải Video

Trên cơ sở khảo sát cho thấy, yếu điểm của các phương pháp siêu phân giải đơn frame hiện tại là gây suy biến tại những vùng cạnh đường biên của ảnh video được khôi phục.. So sánh hình ản

GIỚ I THI Ệ U T Ổ NG QUAN

Các khái ni ệ m v ề siêu phân gi ả i ả nh và video

Siêu phân giải ảnh là hình thức sử dụng các thuật toán bằng phần mềm, tái tạo ra ảnh HR từ ảnh LR ngõ vào Nói rõ nghĩa hơn, siêu phân giải ảnh là hình thức khôi phục gia tăng độ phân giải và độ rõ nét chi tiết của hình ảnh LR ngõ vào Siêu phân giải video, về bản chất, cũng là hình thức siêu phân giải ảnh, nhưng thực hiện cho tất cả các frame của video ngõ vào.

Các y ế u t ố ảnh hưởng đế n ch ất lượ ng c ủ a các h ệ th ố ng camera s ố

Hình 1 1 Minh họa các yếu tố gây suy biến ảnh của hệ thống camera số [1]

Do sự tồn tại các yếu tố khách quan lẫn chủ quan làm cho chất lượng, độ phân giải hay độ nét ảnh của camera kỹ thuật số luôn bị hạn chế về chất lượng Có bốn yếu tố gây suy biến ảnh Chúng là sự mờ ảnh do hiệu ứng quang học của thấu kính, chuyển động tương đối giữa máy quay và cảnh vật, giới hạn độ phân giải của camera, như được minh họa ở Hình 1.1

1.2.1 Ảnh bị mờ do hi ệu ứng quang h ọc

Các nguyên nhân ảnh bị mờ do quang học là:

 Quay video ngược sáng, gây ra hiện tượng chóa mờ ảnh chụp được.

 Vật liệu làm thấu kính có chiết suất không đều, gây ra hiện tượng một phần tia khúc xạ không hội tụ đúng tiêu điểm

 Cấu trúc hình học của thấu kính chưa chuẩn làm cho độ rộng của tiêu điểm chưa đủ nhỏ (độ focus của hình chưa tốt)

 Khoảng cách đối tượng ảnh nằm ngoài vùng thấy rõ (vùng focus), như Hình 1.2

1.2.2 Ảnh bị mờ do chuyển động máy quay a) b)

Hình 1 3 Minh họa ảnh chụp chiếc ô tô chạy trên phố, a) ảnh chụp với tốc độ lấy mẫu trung bình và b) ảnh chụp với tốc độ lấy mẫu cao

Khi chuyển động giữa máy quay và cảnh lớn so với tốc độ lấy mẫu nên gây ra hiện tượng mờ cho cả frame ảnh Cũng tương tự, khi chuyển động của vật (chi tiết) trong ảnh tương đối so với tốc độ lấy mẫu ta sẽ thấy có hiện tượng nhòe hình theo chiều chuyển động Hiện tượng này gây ra các hàng điểm ảnh được lấy mẫu liên tiếp

Mặt phẳng hội tụ Mặt phẳng ảnh

Hình 1 2 Minh họa một dạng mờ ảnh do hiệu ứng quang học trên đối tượng trong ảnh bị dịch đi với độ dịch chuyển nhiều pixel theo chiều chuyển động, như Hình 1.3 Hình này minh họa ảnh chụp chiếc ô tô đang chạy trên phố Ta dễ thấy, phần cảnh nền có chi tiết rõ Phần ảnh chiếc ô tô bị nhòe khi được chụp với máy quay camera tốc độ trung bình và rõ hơn khi được chụp với camera có tốc độ cao.

1.2.3 Ảnh bị mờ do nhiễu

Hình 1 4 Minh họa ảnh hưởng của nhiễu trên ảnh thu được, a) ảnh video bị nhiễu, b) ảnh video sau khi được giải nhiễu

Nhiễu xuất hiện trong ảnh thu được có thể do nhiều nguyên nhân, như: nhiễu của bộ lấy mẫu (lỗi sensor), nhiễu phần cứng và nhiễu ngoài Nếu hệ thống bị nhiễu thì tác động của nhiễu sẽ làm mờ và giảm chất lượng của ảnh, như minh họa ở Hình 1.4

1.2.4 Ảnh bị suy biến do độ phân giải thấp

Hình 1 5 Minh họa sự suy biến của ảnh được lấy mẫu có độ phân giải thấp, a) ảnh Barbara gốc HR và b) ảnh Barbara được lấy mẫu xuống theo tỷ lệ 2x2 rồi được khôi phục siêu phân giải theo tỷ lệ 2x2 bằng nội suy Bicubic.

Do đặc điểm, ảnh số được lấy mẫu về không gian trên một ma trận điểm ảnh là các photosensor, nên luôn bị giới hạn về tần số lấy mẫu Chính điều này gây ra sự mất mát thông tin Dẫn đến kết quả, nội dung của ảnh thu được suy biến sai lệch so với ảnh gốc HR Hình 1.5 minh họa so sánh giữa ảnh Barbara được lấy mẫu có độ phân giải thấp (giảm mẫu theo tỷ lệ 2x2) và ảnh Barbara gốc HR Quan sát kĩ chi tiết của chiếc khăn, ta dễ thấy ở hai vùng được khoanh tròn, đường kẻ in bị biến dạng, sai dạng hoàn toàn so với ảnh gốc.

1.2.5 Các y ếu tố ảnh hưởng đến chất lượng của ảnh video siêu phân giải

Từ các phân tích trên ta thấy, khi ảnh video LR thu được bị mờ do hiệu ứng quang học, mờ do hiệu ứng chuyển động và mờ do nhiễu chắc chắn sẽ làm ảnh hưởng rất lớn đến chất lượng của video HR được khôi phục siêu phân giải.

Gi ớ i thi ệ u v ề siêu phân gi ả i video

Hình 1 6 Minh họa mô hình hệ thống thu nhận ảnh video của một camera số Quá trình lấy mẫu được thể hiện bằng việc đặt lưới ảnh HR gốc (màu xanh) vào lưới ma trận photo-sensor có độ phân giải thấp (màu đỏ). Ảnh HR gốc

K ế t qu ả : ảnh video có độ phân giải thấp và bị mờ

Phần ảnh HR gốc Phần ảnh LR thu được

Ma trận photo-sensors Độ phân giải về không gian của hình ảnh thực là vô cùng lớn, trong khi camera luôn có độ phân giải ở một giá trị giới hạn nhất định Do vậy ảnh video thu được từ camera luôn không thể rõ nét các chi tiết ảnh bằng hình ảnh thực tế được Siêu phân giải video là hình thức làm tái tạo lại hình ảnh gần giống với hình ảnh thực, có độ phân giải cao hơn và rõ nét các chi tiết ảnh hơn.

Ta có thể mô hình hóa tổng quan hệ thống thu nhận ảnh của camera như Hình 1.6 Ảnh video HR gốc, thể hiện ở khung lưới màu xanh Ma trận photo-sensor ảnh thể hiện ở vùng lưới màu đỏ Do đó, về mặt vật lý, giá trị mức xám của mỗi pixel độ phân giải thấp thu được là trung bình cộng giá trị mức xám của các pixel độ phân giải cao trong nội vùng của nó Kết quả, với cảnh thực khi được quay camera, thì ảnh thu được bao giờ cũng có độ phân giải thấp và luôn bị mờ đi so với ảnh thực tế.

Giải thiết, ta gọi chuỗi ảnh video LR thu được là 𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 , với i = {1 N} là đơn vị thời gian của frame được chụp Chuỗi ảnh HR gốc là 𝑓𝑓𝐻𝐻𝐿𝐿𝐿𝐿 Ta gọi U là toán hạng lấy mẫu không gian của camera, K là lõi mờ của camera, 𝑤𝑤𝐿𝐿 là nhiễu nội của hệ thống camera và 𝑠𝑠 =𝑠𝑠(𝑥𝑥,𝑦𝑦) biến tọa độ không gian ảnh 2 chiều Ta gọi frame video thu được thứ i là 𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 , là ma trận của các pixel điểm ảnh 2 chiều Mô hình toán học đơn giản của hệ thống thu nhận ảnh video, cho frame thứ i, được thể hiện như sau:

𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 (𝑠𝑠) = 𝑈𝑈𝑈𝑈𝑓𝑓 𝐻𝐻𝐿𝐿𝐿𝐿 (𝑠𝑠) +𝑤𝑤𝐿𝐿 (1.1) Ảnh được lấy mẫu LR (4x4) pixel 4x4

Hình 1 7 Minh họa thuật toán lấy mẫu xuống U theo tỷ lệ (4x4) trong không gian ảnh

Trong đó U là toán hạng lấy mẫu xuống trong không gian ảnh, được minh họa như Hình 1.7 Lõi mờ K là thuật toán nhân chập ma trận lõi mờ K với ma trận điểm ảnh 𝑓𝑓 𝐻𝐻𝐿𝐿𝐿𝐿 Nó được thể hiện ởphương trình (1.2), với 𝑛𝑛×𝑛𝑛là kích thước của lõi mờ K

Trong thực tế, một cách tổng quát, luôn có sự chuyển động của camera và cảnh quay hay các chi tiết, đối tượng trong cảnh Sự chuyển động này là sự chuyển dịch theo phương ngang, phương thẳng đứng và xoay một cách tùy ý giữa các frame.

Ta gọi ∆𝑠𝑠𝐿𝐿 thông số dịch (theo phương ngang và phương thẳng đứng) với toán hạng dịch là ∆𝑠𝑠 𝐿𝐿 , và 𝜃𝜃 𝐿𝐿 là thông số góc xoay với toán hạng xoay là 𝐿𝐿 𝜃𝜃 𝐿𝐿 của frame 𝑓𝑓 𝐻𝐻𝐿𝐿𝐿𝐿 so với frame gốc 𝑓𝑓 𝐻𝐻𝐿𝐿1 Vậy ta có phương trình quan hệ giữa frame 𝑓𝑓 𝐻𝐻𝐿𝐿𝐿𝐿 so với frame gốc 𝑓𝑓 𝐻𝐻𝐿𝐿1 là:

Từ pt (1.1) và pt (1.3) ta rút ra được mô tả toán học tổng quát cho quan hệ giữa các ảnh video thu được là:

Do đó, ta thấy rằng siêu phân giải video là giải bài toán ngược của pt (1.4), tìm ảnh gốc HR, 𝑓𝑓 𝐻𝐻𝐿𝐿1 , từ tập các ảnh video LR thu được 𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 Vậy có thể nói, siêu phân giải video là hình thức sử dụng các thuật toán bằng phần mềm, khôi phục tạo ra ảnh HR từ ảnh ngõ vào video LR với mục tiêu gia tăng độ rõ nét của chi tiết ảnh

1.3.1 Phân loại các kỹ thuật siêu phân giải video

Siêu phân giải video có hai dạng phương pháp: siêu phân giải video đơn frame và siêu phân giải video đa frame Siêu phân giải đơn frame là hình thức xử lý nâng cao độ phân giải của một frame ảnh LR từ một frame ảnh LR ngõ vào Siêu phân giải đa frame là hình thức xử lý nâng cao độ phân giải cho một frame ảnh LR, từ nhiều frame LR ngõ vào Do đặc điểm của thông tin hình ảnh video, người ta có thể kết hợp các thông tin chi tiết từ nhiều frame LR ngõ vào để khôi phục tạo ra một frame HR Do đó siêu phân giải video đa frame có chất lượng tốt hơn siêu phân giải video đơn frame.

1.3.2 Siêu phân giải video đơn frame

Khôi phục siêu phân giải videođơn frame thường được thực hiện ba bước: i Giảm nhiễu (denoising) bằng cách dùng các bộ lọc Gaussian, Wiener, và Median ii Nội suy ảnh (interpolation) bằng cách kỹ thuật nội suy: Nearest neighbor, Linear, Cubic, và Cubic spline, v.v iii Làm sắc nét ảnh (sharpening) bằng cách khuếch đại các chi tiết ảnh.

1.3.2 Siêu phân giải video đa frame

Phương pháp này lợi dụng chính sự rung động của camera khi chụp (quay), gây ra sự xê dịch giữa các frame ảnh, như minh họa ở Hình 1.8 Chính nhờ sự xê dịch này sẽ cung cấp lượng thông tin bổ khuyết ở phần không được lấy mẫu giữa các frame với nhau để có thể khôi phục tái tạo lại ảnh video HR với các chi tiết rõ nét hơn Do đó, kỹ thuật siêu phân giải video đa frame về mặt logic có thể đạt được kết quả tốt hơn nhiều so với siêu phân giải video đơn frame Trong khi đó với phương pháp siêu phân giải đơn frame thì ta không thể có điều này.

Hình 1 8 Minh họa quá trình siêu phân giải đa frame. Đặc điểm chung của phương pháp siêu phân giải đa frame

Nhìn chung các phương pháp siêu phân giải đa frame đều thực hiện 2 bước chính, xác nhận ảnh (registration) và khôi phục ảnh (reconstruction) , như minh họa ở Hình 1.8

 Xác nhận ảnh: xác định các thông số dịch (Δx, Δy ) và góc xoay (φ) giữa các frame tham khảo so với frame chính xét trên cùng một hệ trục tọa độ

 Khôi phục ảnh: dựa vào tập các thông số chuyển động (Δx, Δy, φ), các frame

LR ngõ vào được sắp xếp trên cùng một hệ trục tọa độ Sau đó, các kỹ thuật nội suy không gian được sử dụng để khôi phục tạo ra frame HR chính.

T ổ ng quan v ề hi ệ n tr ạ ng nghiên c ứ u

1.4.1 Các nghiên c ứu trong nướ c

1.4.1.1 Nghiên cứu theo hướng siêu phân giải ảnh đơn frame

Trong nước hiện nay chưa có nhiều nghiên cứu liên quan đến vấn đề này Điển hình là phương pháp đư ợc đề xuất bởi Nguyễn Lê Hồng Sinh [2], năm 2007 Phương pháp này sử dụng nội suy không đồng dạng và băng bộ lọc để khôi phục ảnh HR ở các hướng nội suy khác nhau Một phương pháp siêu phân giải ảnh đơn frame khác, dùng băng bộ lọc trong miền wavelets, đã được đề xuất bởi Lê Tiến Thường [3], năm 2009.

1.4.1.2 Nghiên cứu theo hướng siêu phân giải ảnh đa frame

Tiêu biểu, kể đến nghiên cứu của Lê Xuân Hiển [4] năm 2007 Ứng dụng tính chất tương quan pha trong miền tần sốđể xác nhận cho chuỗi ảnh chập Giải thuật của đề tài chỉ thực hiện cho xác nhận chuyển dịch phẳng theo phương ngang và phương thẳng đứng Do đó, khi có sự chuyển động xoay giữa các ảnh, thì kết quả cho sai số lớn Nguyễn Hồng Thịnh [5], năm 2009, thể hiện một báo cáo so sánh và đánh giá chất lượng của một số giải thuật siêu phân giải đa frame tiêu biểu Một nghiên cứu khác, ứng dụng siêu phân giải cho thăm dò khai thác khoáng sản của Nguyễn Quang Minh [6] năm 2009 Tác giảđã đề xuất phương pháp khôi phục siêu phân giải cho ảnh đa phổ cảm nhận từxa Tuy nhiên phương pháp này chỉ thích hợp với đặc thù của thiết bị thu nhận ảnh cấu trúc của khoáng sản Gần đây nhất, Nguyễn Cao Thái [7] năm 2010, đã thực nghiệm phương pháp siêu phân giải đơn ảnh trên miền Wavelets và xử lý nhúng trên kít ARM LM322965 Kết quả cũng đã đạt được những tiến bộđáng kể

1.4.2 Các nghiên c ứu nướ c ngoài 1.4.2.1 Nghiên cứu theo hướng siêu phân giải ảnh đơn frame

Với phương pháp đơn ảnh, về cơ bản sử dụng các kỹ thuật nội suy không gian:

Bicubic, Bilinear hay nearest kết hợp với các kỹ thuật lọc, làm trơn và làm nét, để tăng độ phân giải ảnh Ta có thể thấy ở các nghiên cứu gần đây, phương pháp siêu phân giải của Takeda [8] năm 2007, sử dụng đệ qui lõi hai chiều (Multi-Dimension Kernel

Regression Interpolation - KRI) Với phương pháp này, mỗi pixel trong frame video được xấp xỉ với khai triển Taylor 2-D cục bộ, để giải bài toán nội suy ảnh HR

Predergast [9] năm 2008 sử dụng phương pháp tối thiểu hóa sai số bình phương trung bình (Minimum Mean-Squared Error - MMSE), dựa trên tương quan cục bộ để khôi phục ảnh HR Nghiên cứu gần đây nhất của Mallat [10] năm 2010, xây dựng các bộ ước lượng dư thừa kết hợp (Sparse Mixing Estimators - SME), thực hiện trên các block pixel đểxác định độ dư thừa về không gian của chúng, từđó tính ra các hệ số nội suy wavelets theo các hướng khác nhau cho các chi tiết ảnh Đặc biệt là Dong [11] năm 2011 đã xây dựng phương pháp ước lượng lựa chọn miền không gian dư thừa thích nghi và qui tắc hoá thích nghi (Adaptive Sparse Domain Selection and Adaptive Regularization - ASDS) để nội suy không gian ảnh HR

1.4.2.2 Nghiên cứu theo hướng siêu phân giải ảnh đa frame Ở nước ngoài đã có rất nhiều nghiên cứu về siêu phân giải theo hướng đa frame, như được thể hiện ở báo cáo tổng quan của Park [1] năm 2003 Về kỹ thuật, tổng quát có hai hướng tiếp cận cho bài toán siêu phân giải ảnh đa farme: tiếp cận trong miền tần số và tiếp cận trong miền không gian

Với phương pháp đa frame, việc khôi phục thường được thực hiện qua hai giai đoạn Đầu tiên, việc xác nhận hay ước lượng chuyển động được thực hiện để xác định các thông số dịch của từng pixel, giữa các frame Sau đó dựa vào các thông số xác nhận, các ảnh được sắp xếp trong cùng một hệ trục tọa độ, sử dụng các kỹ thuật nội suy để khôi phục ảnh HR Xác nhận chuyển động đóng vai trò quyết định đến chất lượng ảnh được khôi phục, chỉ với sai số nhỏ của phép ước lượng sẽ gây ra sự suy biến đáng kể đến ảnh HR được khôi phục Kết quả chất lượng có thể kém hơn so với ảnh được siêu phân giải đơn frame Do đó phương pháp siêu phân giải đa frame có nhiều tiềm năng, cho ảnh HR được khôi phục có chất lượng tốt hơn so với phương pháp siêu phân giải đơn frame Tuy nhiên nó cũng s ẽ có nhiều bất lợi nếu giải thuật xác nhận có độ chính xác không cao, sẽ gây suy biến ảnh HR được khôi phục Dựa trên đặc thù tính chất ảnh video, kỹ thuật siêu phân giải ảnh video đa frame được chia ra hai loại: siêu phân giải ảnh video tĩnh đa frame và siêu phân giải ảnh video động đa frame a) Nghiên cứu theo hướng siêu phân giải ảnh video tĩnh đa frame

Các kỹ thuật này khai thác sự đồng bộ của chuyển động của các frame ảnh để thực hiện xác nhận toàn cục Giải thuật xác nhận điển hình như nghiên cứu của Tsai và Huang [12] Tác giả đã thể hiện giải thuật xác nhận các frame ảnh tích hợp, đồng thời dùng giải thuật tối thiểu hoá phi tuyến trong miền tần số để khôi phục ảnh Việc xác nhận các ảnh tích hợp bị chồng phổ dựa trên quan niệm rằng, hình ảnh nguồn có băng thông giới hạn Trên thực tế thì không phải vậy, nên đó là điểm hạn chế và làm giảm khảnăng hội tụ của giải thuật Keren [13] năm 1988, sử dụng khai triển Taylor đến bậc hai cho vi phân hàm mức xám của các ma trận ảnh, từđó sử dụng phép lặp để giải bài toán xác nhận Lucchese [14] năm 2000, đã đề xuất một kỹ thuật xử lý miền tần số cho ước luợng chuyển động xoay phẳng Vandewalle [15] năm 2006, dựa trên đặc điểm là hai ảnh khác nhau bởi sự chuyển dịch trong miền không gian, thì tươn g ứng với sự khác nhau về pha trong miền tần số Do đó việc xác nhận cho chuyển dịch phẳng, theo phương ngang và phương thẳng đứng, được thực hiện bằng cách giải bài toán tương quan pha giữa các ảnh trong miền tần số Ở nghiên cứu này, tác giải đã đề xuất phương pháp ước lượng góc xoay bằng cách sử dụng tương quan phổ công suất các segment của các ảnh Những segment ảnh này được chia theo từng bước góc nhỏ tính từ tâm ảnh Tuy nhiên, do luôn tồn tại đồng thời chuyển dịch và xoay giữa các frame ảnh nên giải thuật xác nhận của phương pháp này có độ chính xác không cao b) Nghiên cứu theo hướng siêu phân giải ảnh video động đa frame

Với các kỹ thuật siêu phân giải đa frame động, các thuật toán xác nhận thực hiện trên từng block của các pixel, để thích nghi với chuyển động của các chi tiết ảnh Các kỹ thuật siêu phân giải đa frame điển hình như của Liu [16] năm 2008 Tác giả sử dụng bộ lọc bilateral không-thời gian đểước lượng xác nhận và khôi phục ảnh HR, đồng thời kết hợp giảm nhiễu Để tăng chất lượng ảnh HR được khôi phục, thuật toán tối ưu hoá được thực hiện bằng cách kết hợp các điều kiện về khôi phục chất lượng chi tiết và làm trơnảnh Takeda [17] năm 2009, sử dụng nội suy đệ qui lõi ba chiều (Multi-Dimension

Kernel Regression Interpolation - KRI) Với phương pháp này, mỗi pixel trong frame video được xấp xỉ với khai triển Taylor 3-D cục bộ không-thời gian, để giải bài toán nội suy ảnh HR Protter [18] năm 2009, đã sử dụng bộ giảm nhiễu trung bình không cục bộ (Non-local-mean denoising filter - NLMDF), để phát triển một giải thuật siêu phân giải, mà không cần xác định trước chuyển động của các pixel Mitzel [19] năm 2009, sử dụng ước lượng quang với qui tắc tối thiểu hoá total varational trên chuẩn L 1

1.4.3 Đánh giá hiệ n tr ạ ng v ề các nghiên c ứ u siêu phân gi ả i ả nh video để khôi phục siêu phân giải ảnh video Giải thuật này cho phép kết hợp giải mờ, giải xoắn và giảm nhiễu Gần đây có nghiên cứu của Hsieh [20] năm 2011 Tác giả đã đ ề nghị phương pháp nội suy bất đồng bộ cho siêu phân giải chuỗi video Đầu tiên phương pháp ước lượng không gian phụ, block matching, được sử dụng cho ước lượng thô Sau đó giải thuật chiếu lùi lặp, iterative back-projection, được sử dụng cho ước lượng tinh, để gia tăng chất lượng ảnh HR được khôi phục Lui [21], năm 2011, cũng đã đạt được những kết quả tiến bộ đáng kể Tác giả đã đề xuất tiếp cận theo hướng Bayesian cho siêu phân giải thích nghi ảnh video Giải thuật đề nghị thực hiện ước lượng đồng thời chuyển động của các chi tiết, kernel nhiễu và mức nhiễu trong khi khôi phục ảnh HR

Keller [22] cũng tiếp cận theo hướng Bayesian MAP nhưng kết hợp với trường chuyển động để giải bài toán siêu phân giải video Giải thuật này cho phép đồng thời ước lượng siêu phân giải và trường chuyển động bằng việc tối thiểu hoá hàm biến thiên năng lượng Hướng siêu phân giải video khác được đề xuất bởi Song [23] và Hung [24] năm

2011 Giải pháp kết hợp các key frame HR đan xen các frame LR tạo ra chuỗi video kép Sau đó sử dụng kỹ thuật siêu phân giải thích nghi chọn lựa ảnh nền và đối tượng động Phần ảnh nền được ước lượng chuyển động từ các LR frame kết hợp với các key frame HR để khôi phục Phần đối tượng động sử dụng thư viện phân mảng được trích rút từ các key frame HR để khôi phục trực tiếp Phương pháp của Song cho phép khôi phục được chuỗi video có chất lượng rất cao, nhưng dung lượng, tốc độ bít, của luồng dữ liệu video kép này cũng tăng lên nhiều lần so với luồng dữ liệu video LR thuần tuý

Các nghiên cứu đã cho thấy tập trung ở hai hướng, siêu phân giải ảnh video đơn frame và siêu phân giải ảnh video đa frame, như được phân loại ở Hình 1.9 Về bản chất, các kỹ thuật siêu phân giải đơn frame chỉ là hình thức phóng đại không gian hình ảnh, chứ không nâng cao nội hàm giá trị thông tin chi tiết ảnh Các kỹ thuật siêu phân giải đơn frame tập trung ởhai hướng tiếp cận: trong miền không gian và trong miền tần số Trong miền không gian, các tác giả sử dụng các phương pháp số học như: linear, cubic, hay các phương pháp thống kê xác suất để nội suy không gian Trong miền tần số, về bản chất các tác giả sử dụng các hàm lọc theo hướng để nội suy trong miền

Fourier hay Wavelets các ảnh thành phần Sau đó kết hợp chúng với các trọng số thích nghi theo hướng để tạo ra ảnh HR

Hình 1 9 Phân loại các kỹ thuật siêu phân giải ảnh

Các kỹ thuật siêu phân giải video đa frame khai thác thông tin bổ khuyết giữa các frame trong quá trình lấy mẫu để khôi phục tái tạo ra frame ảnh có độ phân giải cao hơn Do đó, siêu phân giải video đa frame cho phép nâng cao hơn giá trị nội hàm lượng thông tin so với các kỹ thuật siêu phân giải video đơn frame

Trong kỹ thuật siêu phân giải video đa frame, được phân ra hai loại, siêu phân giải video tĩnh đa frame và siêu phân giải video động đa frame Với kỹ thuật siêu phân giải video tĩnh đa frame, khai thác sự chuyển động đồng bộ của các frame để giải bài toán xác nhận Trong khi đó với video động, chuyển động giữa các frame bao gồm: chuyển động toàn cục và chuyển động tùy ý của các chi tiết ảnh (gây ra chuyển động không đồng bộ của toàn ảnh) Vì thế các kỹ thuật siêu phân giải video động đa frame chỉ thực hiện xác nhận cho từng block điểm ảnh Do đó, về logic, siêu phân giải đa frame tĩnh có khối lượng dữ liệu đầu vào xác nhận lớn và đồng bộ, nên việc giải bài toán xác nhận sẽ cho kết quảchính xác hơn so với phương pháp siêu phân giải video động đa frame Hay nói cách khác, các kỹ thuật siêu phân giải video tĩnh đa frame có nhiều tiềm năng khôi phục ra các frame ảnh HR với chất lượng tốt hơn so với các kỹ thuật siêu phân giải video động đa frame

Nhu c ầ u th ự c t ế v ề siêu phân gi ả i video

Nhu cầu của thị hiếu con người về cảm nhận độ rõ nét của hình ảnh là rất cao Ta có thể thấy qua thông tin truyền hình video, đây là một hoạt động thông tin thị hiếu hằng ngày của con người Khi nhìn các hình ảnh càng lớn, rõ nét thì hệ cơ của mắt càng ít phải điều tiết và độ cảm nhận thông tin hình ảnh càng nhiều Ngược lại nếu phải nhìn các hình ảnh mờ thì mắt càng phải điều tiết nhiều Nhìn càng lâu sẽ dẫn đến chứng mỏi mắt và gây ra các bệnh lý về mắt như: giảm thị lực, cận thị, loạn thị

Bên cạnh đó nhu cầu về quan sát rõ nét chi tiết ảnh cũng là vấn đề rất cần thiết cho nhiều lĩnh vực ngành nghề khác Ví dụ: trong quân sự, cần nhìn rõ chi tiết các mục tiêu; trong y khoa, cần nhìn rõ chi tiết vùng bệnh lý của ảnh y khoa; trong công nghiệp, cần nhìn rõ để kiểm tra độ hoàn hảo của sản phẩm, v.v…

Do đó, nhu cầu ứng dụng thực tế của siêu phân giải video là rất lớn và đây là hướng nghiên cứu đã được chú trọng nhiều trong thập kỷ gần đây Mặc dù đã có nhiều nghiên cứu trong thập kỷ gần đây, với những kết quả tiến bộ đáng kể, nhưng việc áp dụng các nghiên cứu này vào thực tế cho đến nay còn chưa phát triển mạnh Đó là do những hạn chế nhất định về chất lượng và hiệu quả áp dụng.

M ục đích nghiên cứ u c ủ a lu ậ n án

Từ những đánh giá ở trên, luận án này tập trung vào nghiên cứu toàn diện các loại hình phương pháp siêu phân giải ảnh video Dựa trên cơ sở đó, tác giả sẽ xây dựng các phương pháp và giải thuật để nâng cao chất lượng cho các các kỹ thuật siêu phân giải videođặc thù Từ đó hướng tới phát triển giải thuật siêu phân giải video đa frame hiệu quả về chất lượng và hiệu quả ứng dụng, góp phần nâng cao chất lượng cho thông tin hình ảnh video.

Các n ộ i dung nghiên c ứ u c ủ a lu ậ n án

Xuất phát từ những đánh giá trên, cũng như đ ể Luận án nghiên cứu có chiều sâu và toàn diện, tác giảđã đề ra các nội dung nghiên cứu như sau:

1) Xây dựng phương pháp siêu phân giải video tĩnh đa frame trong miền tần số bằng phương pháp ước lượng toàn cục PSEFD

2) Xây dựng phương pháp siêu phân giải video đa frame trong miền không gian bằng phương pháp ước lượng toàn cục MMAD

3) Xây dựng phương pháp siêu phân giải video đa frame trong miền không gian bằng phương pháp ước lượng cục bộ Bayesian MAP.

4) Xây dựng phương pháp siêu phân giải video đơn frame bằng phương pháp nội suy không gian kết hợp CSI.

Ph ạ m vi nghiên c ứ u c ủ a lu ậ n án

Như đã được đề cập trong phần 1.2, chất lượng ảnh video HR được khôi phục phụ thuộc rất lớn vào các yếu tố như: chất lượng của thấu kính, chuyển động của ảnh và nhiễu Vì khi ảnh video ngõ vào có chất lượng kém thì không cách gì tạo ra được ảnh video HR ngõ ra có chất lượng cao

Mặt khác ta thấy chất lượng của thấu kính phụ thuộc vào yếu tố phần cứng

Chuyển động nhanh của camera cũng như chi ti ết ảnh sẽ gây ra hiệu ứng mờ chuyển động Việc giải mờ cho chuyển động (còn có một cách gọi khác là giải mù chuyển động) của ảnh là một hướng nghiên cứu lớn với rất nhiều công trình đã công bố của thế giới Nhưng cho đến nay vẫn chưa thấy có phần mềm nào xử lý giải mờ hiệu quảđược sử dụng phổ biến trên thịtrường, kể cả trong Matlab

Do đó, trong đề tài này chúng tôi thực hiện trong phạm vi giả thuyết thấu kính có chất lượng cao, camera và chi tiết ảnh chuyển động chậm để không gây ra hiệu ứng mờ

1.9 Ý nghĩa khoa học và ứng dụng thực tiễn của đề tài

Các nghiên cứu của đề tài nếu đạt kết quả tốt thì sản phẩm của đề tài có thể được ứng dụng phát triển chế tạo ra thiết bị hệ thống camera số HR, cũng như giúp nâng cao độ phân giải hình ảnh của tivi truyền hình số đầu cuối Các ứng dụng trong nhiều lĩnh vực thông tin hình ảnh video, như:

 Trong thương mại: giúp cải thiện nhu cầu về cảm nhận thị hiếu của người xem

 Trong quân sự: giúp nhìn rõ mục tiêu, tăng độ chính xác của thiết bị giám sát.

 Trong y tế: giúp cho bác sĩ có thể quan sát rõ hơn chi tiết của vùng bệnh.

 Trong thiên văn học: giúp ta thấy rõ hơn chi tiết của các đối tượng quan sát.

1.10 Cấu trúc của luận án Chương 1 Giới thiệu vắn tắt về luận án, bao gồm các vấn đề: các khái niệm về siêu phân giải ảnh và video, tổng quan về tình hình nghiên cứu Từ đó đưa ra mục đích, các nội dung nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài

Chương 2 Trình bày nghiên cứu đề xuất về siêu phân giải video tĩnh đa frame bằng ước lượng PSEFD

Chương 3 Trình bày nghiên cứu đề xuất về siêu phân giải video động đa frame bằng ước lượng MMAD

Chương 4 Trình bày nghiên cứu đề xuất về siêu phân giải video động đa frame bằng ước lượng Bayesian MAP

Chương 5 Trình bày nghiên cứu đề xuất về siêu phân giải video đơn frame bằng phương pháp nội suy không gian kết hợp CSI

Chương 6 Hệ thống hóa các kết quả thực nghiệm của các phương pháp đề xuất Từ đó so sánh đánh giá sự tiến bộ của các phương pháp đề xuất với các phương pháp siêu phân giải video hiện trạng.

Chương 7 Thể hiện tóm tắt nội dung luận án, kết luận và hướng phát triển.

C ấ u trúc c ủ a lu ậ n án

siêu phân giải ảnh và video, tổng quan về tình hình nghiên cứu Từ đó đưa ra mục đích, các nội dung nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài

Chương 2 Trình bày nghiên cứu đề xuất về siêu phân giải video tĩnh đa frame bằng ước lượng PSEFD

Chương 3 Trình bày nghiên cứu đề xuất về siêu phân giải video động đa frame bằng ước lượng MMAD

Chương 4 Trình bày nghiên cứu đề xuất về siêu phân giải video động đa frame bằng ước lượng Bayesian MAP

Chương 5 Trình bày nghiên cứu đề xuất về siêu phân giải video đơn frame bằng phương pháp nội suy không gian kết hợp CSI

Chương 6 Hệ thống hóa các kết quả thực nghiệm của các phương pháp đề xuất Từ đó so sánh đánh giá sự tiến bộ của các phương pháp đề xuất với các phương pháp siêu phân giải video hiện trạng.

Chương 7 Thể hiện tóm tắt nội dung luận án, kết luận và hướng phát triển.

SIÊU PHÂN GI ẢI VIDEO ĐƠN FRAME BẰ NG N Ộ I SUY KHÔNG

Gi ớ i thi ệu phương pháp siêu phân giả i CSI

Phương pháp siêu phân giải video đa frame MB đã cho th ấy nhiều tiềm năng và hiệu quả trong việc khôi phục siêu phân giải ảnh video Tuy nhiên, tại những vùng block ảnh giữa các frame có sự chuyển động của các chi tiết là bất đồng bộ, khi đó thuật toán khôi phục sẽ loại bỏ vùng block này, và xem như chúng không được sử dụng để khôi phục vùng block ảnh HR ban đầu Lúc đó, bắt buộc ta phải dùng kỹ thuật siêu phân giải video đơn frame để khôi phục ảnh HR cho những vùng bị lỗi chi tiết chuyển động này Do đó việc nghiên cứu phát triển phương pháp siêu phân giải đơn frame cũng là việc rất thiết để góp phần nâng cao chất lượng cho siêu phân giải video

Trước hết ta khảo sát chất lượng của các kỹ thuật nội suy tiêu biểu, như: NEDI [25], Bicubic [26], KRI [8] và SME [10] Quá trình được thực hiện như sau: Đầu tiên, các chuỗi video chuẩn được lấy mẫu xuống với tỷ lệ 2x2, để tạo ra chuỗi video LR;

Sau đó các chuỗi LR video này được siêu phân giải, với tỷ lệ 2x2, bởi các kỹ thuật nội suy khác nhau; Cuối cùng, phép đo PSNR được sử dụng để đánh giá chất lượng của các phương pháp nội suy

Bảng 2 1 So sánh kết quả thực nghiệm, giá trị trung bình PSNR (dB) của các giải thuật khác nhau, áp dụng cho các chuỗi video chuẩn

Flower-Garden (1-10) 18.27 18.21 18.84 19.66 Ảnh LR được khôi phục bằng Bicubic

Một phần của ảnh Bicubic Ảnh LR được khôi phục bằng KRI, 27.50 dB

Một phần của ảnh KRI Ảnh LR được khôi phục bằng SME, 32.02 dB

Hình 2 1 Minh họa ảnh HR được khôi phục bằng các giải thuật nội suy tiêu biểu

Chất lượng của các giải thuật tiến bộ, thể hiện ở Bảng 2.1, không cao hơn nhiều so với chất lượng của giải thuật Bicubic Ta có thểđánh giá thêm qua việc quan sát trực quan chất lượng ảnh HR được khôi phục bằng các giải thuật khác nhau, ở Hình 2.1 Ảnh HR được khôi phục bởi giải thuật KRI, SME và ASDS tốt hơn của giải thuật Bicubic ở chỗ vùng cạnh kết cấu Tuy nhiên, thời gian xử lý của các giải thuật này thì lớn hơn rất nhiều lần so với của giải thuật Bicubic Thời gian trung bình nội suy cho chuỗi 10 LR frame, kích thước 144x176 pixel, bằng máy tính co CPU Core 3i,

2.53GHz, tốn khoảng: 190 giây cho KRI, 2700 giây cho SME và 380 giây cho ASDS

Trong khi đó với giải thuật Bicubic ta tốn khoảng 3 giây cho xử lý trên Matlab 2011

Qua phân tích khảo sát đặc điểm từ các kết quả số liệu thống kê và ảnh HR được khôi phục siêu phân giải bằng các giải thuật tiêu biểu, cho thấy rằng:

 Ảnh HR được nội suy bằng các giải thuật siêu phân giải đơn frame thường bị suy biến (artifac or outlier) ở vùng cạnh kết cấu của chi tiết ảnh

 Hầu hết các giải thuật có chất lượng cao, như SME và ADSD, giải quyết tốt vấn đề chống suy biến ở vùng cạnh kết cấu, thì thời gian xử lý lại càng lớn Với tốc độ xử lý của các giải thuật này thì khó để ứng dụng cho xử lý siêu phân giải video thời gian thực

 Giải thuật Bicubic có chất lượng cao, khả thi về mặt thời gian thực, nhưng lại có nhược điểm là ảnh HR được khôi phục suy biến ở vùng cạnh kết cấu Sự suy biến này sẽ trở nên càng rõ khi ảnh video được siêu phân giải với kích thước càng lớn Điều này sẽlàm cho người xem không hài lòng về chất lượng hình ảnh thu được

Dựa trên các nhận xét này, chúng tôi đề nghị một phương pháp nội suy không gian kết hợp (Combination Spatial Interpolation - CSI), dựa trên nền tảng cải tiến nội suy Cubic Giải thuật đề nghị CSI được xây dựng bằng cách kết hợp nội suy không gian trong các vùng kết cấu khác nhau và nội suy bồi hoàn lấy mẫu.

N ộ i suy không gian trong các vùng k ế t c ấ u khác nhau (Spatial Interpolation of

Hình 2 2 Minh họa khả năng khôi phục làm trơn (smoothing) của các giải thuật nội suy:

Linear interpolation, Pchip (Bicubic) và Cubic spline interpolation

Hình 2 3 Minh họa sai số của đường biên khi nội suy bằng các giải thuật nội suy khác nhau:

Linear interpolation, Pchip (Bicubic) và Cubic spline interpolation

Nội suy cubic ứng dụng trong xử lý ảnh là nội suy Bicubic (hay Pchip) và Cubic spline, như được trình bày trong [26] Nội suy Cubic spline có ưu điểm tốt hơn nội suy Bicubic trong việc khôi phục siêu phân giải làm trơn (smoothing) ảnh, như được minh họa ở Hình 2.2 Hay nói cách khác, phương pháp Cubic spline cho phép khôi phục thành phần tần số cao của ảnh tốt hơn nội suy Bicubic Tuy nhiên, tại vùng đường biên hay cạnh kết cấu của chi tiết ảnh, nơi có sự biến thiên đột biến về mức xám thì nội suy Cubic spline lại gây ra suy biến ảnh nhiều hơn so với nội suy Bicubic, như ở Hình 2.3

Hình 2 4 Giải thuật nội suy không gian trong các vùng kết cấu khác nhau (SIDTR)

Dựa trên những phân tích ở trên, tác giả đề nghị phương pháp nội suy không gian trong các vùng có kết cấu khác nhau (gọi tắt là phương pháp nội suy kết cấu)) để khôi phục siêu phân giải ảnh video Phương pháp này được phát triển trên nền tảng của nội suy Cubic spline, sử dụng bộ lọc lowpass filter để tách ảnh thành hai phần Với mỗi thành phần ảnh ta sử dụng phương pháp nội suy thích hợp để khôi phục Giải thuật nội suy kết cấuđược minh họa ở Hình 2.4 và được giải thích chi tiết như sau:

 Đầu tiên, chuỗi video ngõvào LR được đi qua bộ lọc Gaussian Lowpass filter, lọc trong miền tần số Chúng tôi chọn bộ lọc Gaussain với hệ số lọc tối ưu là 𝛼𝛼 0.25, như được trình bày ở mục 4.2.3 Ảnh ngõ ra của bộ Lowpass là ảnh mức xám tần số thấp𝑓𝑓 𝐿𝐿𝐿𝐿 𝐿𝐿 Đây là phần ảnh nền liền hay được gọi là ảnh không kết cấu.

 Tiếp đến, lấy hiệu của ảnh gốc và ảnh tần số thấp 𝑓𝑓 𝐿𝐿𝐿𝐿 𝐿𝐿 ta được ảnh tần số cao 𝑓𝑓 𝐿𝐿𝐿𝐿 𝐻𝐻 Ảnh tần số cao chứa chủ yếu là thành phần ảnh kết cấu của chi tiết ảnh

 Tiếp tục, ảnh tần số cao chứa các chi tiết có kết cấu, 𝑓𝑓 𝐿𝐿𝐿𝐿 𝐻𝐻 , được nội suy tuyến tính Bilinear và ảnh không kết cấu, 𝑓𝑓 𝐿𝐿𝐿𝐿 𝐿𝐿 , được nội suy đa thức Cubic spline, với tỷ lệ 2x2, sử dụng hàm nội suy Interp2 của Matlab

 Cuối cùng, tổng hợp các ảnh nội suy để tạo ra ảnh HR mong muốn.

N ộ i suy b ồ i hoàn l ấ y m ẫ u (Sampling Compensation Interpolation - SCI)

Hình 2 5 Minh họa thông tin bị mất trong quá trình lấy mẫu a) ảnh được lấy mẫu ở các vị trí màu đỏ, b) thông tin bị mất tại các điểm màu xanh Ảnh được lấy mẫu thường sẽ bị mất thông tin chi tiết ở các vùng pixel đường biên, như được minh họa ở Hình 2.5 Hình 2.5.a) thể hiện hình ảnh thực và vị trí các pixel được lấy mẫu có mầu đỏ Hình 2.5.b) thể hiện ảnh sau khi được lấy mẫu, với các pixel phụ màu xanh là những pixel bị mất thông tin tại vùng đường biên Ta dễ thấy, nếu ảnh lấy mẫu được zoom lớn lên, thì tại vị trí pixel phụ này ảnh sẽ bị suy biến Vậy để tăng chất lượng ảnh HR được khôi phục từ ảnh LR, ta phải nội suy bồi hoàn lấy mẫu ở vùng đường biên chi tiết ảnh. a) b)

Hình 2 6 Minh họa nội suy cho dạng đường biên I, a) thể hiện các hướng nội suy, b) thể hiện vị trí các pixel phụ được nội suy.

Qua thống kê thực nghiệm, chúng tôi đề xuất 4 dạng bồi hoàn lấy mẫu cho đường biên Như được thể hiện ở Hình 5.6, minh họa dạng đường biên thứ I Trong đó frame LR ngõ, 𝒇𝒇 𝑳𝑳𝑳𝑳 ,vào hình lưới đậm Nội suy, theo tỷ lệ 2x2, cho frame này ta được frame

HR, 𝒇𝒇𝑯𝑯𝑳𝑳, hình lưới mờ Các pixel đường biên trên có màu xanh nhạt, các pixel đường biên dưới có màu xanh đậm Hướng nội suy tại hai điểm gốc 1 and 2, là các vector màu cam Tại điểm gốc 1,vùng các pixel đường biên bên dưới, có các hướng nội suy:

45 0 , 26.5 0 , 18.4 0 , 14 0 , và 11.3 0 Tại điểm gốc 2, vùng các pixel đường biên trên, có các hướng nội suy: 225 0 , 206.5 0 , 198.4 0 , 194 0 , và 191.3 0

Các pixel được định nghĩa là pixel của cùng một đường biên khi, chúng có giá trị mức xám gần bằng nhau và khác so với mức xám của các pixel đối diện Vị trí 1 và 2 là các điểm gốc, base-point pixel, để tính toán nội suy. Điều kiện để xuất hiện đường biên cơ sở giữa 2 gốc P1 và P2 là:

Trong đó, x là tọa độ theo phương thẳng đứng và y là tọa độ theo phương ngang, ngưỡng Threshold1 được tính bằng tổng giá trị trung bình vi phân tuyệt đối giá trị mức xám giữa các pixel lân cận và giá trị phương sai của chúng.

Giá trị C được chọn là 0.05 (với phạm vi của giá trị mức xám từ 0->1) Giá trị C này được chọn dựa trên điều kiện phân biệt sự tương đồng về màu sắc giữa các block pixel, được sử dụng trong các phương pháp nén ảnh video [27]

Như được thể hiện ở Hình 2.7, giải thuật nội suy bồi hoàn lấy mẫu cho các pixel phụởđường biên dưới, tính tại vị trí gốc P1 Các pixel phụđược nội suy theo hướng,có màu cam, 45 0 , 26.5 0 , 18.4 0 , 14 0 , 11.3 0 , tương ứng theo sựgia tăng của thông số p

Hình 2 7 Minh họa giải thuật nội suy bồi hoàn lấy mẫu SCI cho điểm gốc P1 a) b) Hình 2 8 Minh họa các dạng đường biên nội suy khác, a) dạng II và b) dạng III & IV

Tương tự, Hình 2.8 thể hiện các dạng nội suy còn lại Các điểm gốc để tính nội suy là điểm 3 và 4 trong Hình 2.8 a), thể hiện các hướng nội suy của dạng đường biên thứ II, là các vector màu cam Tại điểm gốc 3, vùng đường biên dưới, có các hướng nội suy: 135 0 , 153.5 0 , 161.6 0 , 166 0 , và 168.7 0 Tại điểm gốc 4, vùng đường biên trên, có các hướng nội suy: -45 0 , -26.5 0 , -18.4 0 , -14 0 và -11.3 0

Gi ả i thu ậ t siêu phân gi ả i t ổ ng quát CSI

.Điểm 5, 6, 7 và 8 trong Hình 2.8 b), thể hiện các hướng nội suy của dạng đường biên thứ III và IV Vậy tổng quát ta có 40 hướng nội suy cạnh đường biên chi tiết, để bồi hoàn thông tin cho quá trình lấy mẫu

Từ pt (1.1), bỏ qua yếu tố nhiễu (do nội suy đơn frame) ta có:

Kết hợp giữa phương pháp nội suy kết cấu và phương pháp nội suy bồi hoàn lấy mẫu, ta được giải thuật nội suy không gian kết hợp, như Hình 2.9

Giải thuật CSI được giải thích theo các bước sau:

P(x,y) i Từ các frame LR ngõ vào được nội suy kết cấu, với tỷ lệ 2x2, theo giải thuật ở

Hình 2.4 Theo pt (2.4), frame HR thu được là ảnh mờ gần với, 𝑈𝑈𝑓𝑓𝐻𝐻𝐿𝐿𝐿𝐿(𝑠𝑠) Trong bước này ta nội suy khôi phục tăng chất lượng thông tin vùng đường biên ii Với mỗi pixel 𝑓𝑓 𝐿𝐿𝐿𝐿 (𝑥𝑥,𝑦𝑦), kiểm tra xem nó thoả mãn điều kiện đường biên cơ sở

(base point P) không? Nếu có, thực hiện nội suy bồi lấy mẫu cho các pixel đường biên của frame mờ, 𝑈𝑈𝑓𝑓 𝐻𝐻𝐿𝐿𝐿𝐿 (𝑠𝑠), theo giải thuật Hình 2.7 iii Từ pt (2.5) ta thấy để khôi phục ảnh HR gần với frame ảnh HR gốc ban đầu, ta phải giải mờ cho ảnh HR đã được nội suy bồi hoàn ởbước ii

Hình 2 9 Giải thuật siêu phân giải CSI

Th ự c nghi ệ m trên các chu ỗ i video chu ẩ n

Thực nghiệm đầu tiên, trên các chuỗi video chuẩn, không bị nén Chúng tôi thực hiện các thí nghiệm trên 8 chuỗi chuẩn từ nguồn [28], Foreman (352x288), Husky

(352x240), Paris (352x288), Stefan (352x240), Soccer (352x288) ,Flower-garden (352x240),

Mobile (352x288) và Pamplet (352x240), như Hình 2.10 Đầu tiên, các chuỗi gốc HR frame được lấy mẫu xuống, với tỷ lệ 2x2, tạo ra các chuỗi các LR frame ngõ vào Sau đó các frame LR được áp dụng các kỹ thuật siêu phân giải đơn frame khác nhau Chúng tôi dùng phép đo PSNR và SSIM để đánh giá chất lượng của các frame HR được khôi phục bằng các giải thuật khác nhau với các frame gốc ban đầu

Soccer Flower-garden Mobile Pamphlet

Hình 2 10 Minh họa các chuỗi video thực từ nguồn [31] được sử dụng cho thực nghiệm

Với kết quảđược thể hiện ở Bảng 2.2 Ta có thể thấy giá trị trung bình PSNR của phương pháp đề nghị CSI lớn hơn giá trị kết quả của các giải thuật: Bicubic (của

Matlab 2013), KRI [8], SME [10] và ASDS [11] Thống kê giá trị trung bình PSNR của phương pháp đề nghị CSI lớn hơn 1.4 dB so với Bicubic, lớn hơn 2.8 dB so với KRI, lớn hơn 1.3 dB so với SME và 0.8 dB so với ASDS

Bảng 2 2 So sánh kết quả thực nghiệm, giá trị trung bình PSNR (dB) của các giải thuật khác nhau và giải thuật đề nghị CSI, áp dụng trên các chuỗi video chuẩn không nén, tính trên cả khung ảnh (bỏ đi 4 pixel đường bao khung ảnh)

Frame (1-10) Bicubic KRI [8] SME [10] ASDS [11] CSI

Bảng 2 3 So sánh kết quả thực nghiệm, giá trị trung bình MSSIM (dB) của các giải thuật khác nhau và giải thuật đề nghị CSI, áp dụng trên các chuỗi video chuẩn không nén, tính trên cả khung ảnh (bỏ đi 4 pixel đường bao khung ảnh)

Từ thống kê ở Bảng 2.3, giá trị trung bình độtương đồng SSIM của các giải thuật khác nhau Nó cho thấy chất lượng của giải thuật đề nghị tốt hơn của những giải thuật khác Hơn nữa, ta có thể đánh giá bằng trực quan, chất lượng của ảnh HR được khôi phục bằng các giải thuật khác nhau Như Hình 2.11 minh họa sự so sánh chất lượng ảnh

HR Formen được khôi phục bằng các giải thuật khác nhau Quan sát kỹ ta thấy ảnh HR được khôi phục bằng phương pháp đề nghị có các chi tiết rõ nét hơn ảnh HR được khôi phục bằng các giải thuật khác ở phần cạnh viền Ngoài ra ảnh kết quả của giải thuật ASDS có các chi tiết bị mờ đi do ảnh hưởng của thuật toán lọc nhiễu trong giải thuật trong khi với ảnh CSI thì chi tiết rõ nét hơn Tương tự như vậy, với kết quả ảnh HR được khôi phục từ chuỗi Soccer và Paris, tại frame 1, như Hình 2.12 và Hình 2.13 Ta thấy ảnh HR được khôi phục bằng giải thuật CSI rõ nét và ít bị suy biến hơn ảnh HR được khôi phục bằng các giải thuật khác, đặc biệt tại các vùng cạnh viền Ảnh HR gốc Một phần của ảnh gốc Ảnh được khôi phục bằng Bicubic Một phần của ảnh Bicubic Ảnh được khôi phục bằng SME, 32.56 dB Một phần của ảnh SME Ảnhđược khôi phục bằng CSI, 34.80 dB Một phần ảnh CSI

Hình 2 11 Minh họa hình ảnh kết quả thực nghiệm trên chuỗi Foreman Từ trên xuống, ảnh gốc HR và ảnh LR được khôi phục bằng các giải thuật nội suy khác nhau: Bicubic, SME và CSI Bên trái thể hiện một phần của ảnh được khôi phục tương ứng. Ảnh HR gốc Một phần ảnh gốc Ảnh được khôi phục bằng Bicubic, 28.24dB Một phần ảnh Bicubic Ảnh được khôi phục bằng ASDS, 28.32 dB Một phần ảnh ASDS Ảnh được khôi phục bằng CSI, 29.01 dB Một phần ảnh CSI

Hình 2 12 Minh họa hình ảnh kết quả thực nghiệm trên chuỗi Soccer Từ trên xuống, ảnh gốc HR và ảnh LR được khôi phục bằng các giải thuật nội suy khác nhau: Bicubic, ASDS và CSI Bên trái thể hiện một phần của ảnh được khôi phục tương ứng Ảnh Paris gốc HR Một phần của ảnh gốc Ảnh được khôi phục bằng Bicubic Một phần của ảnh Bicubic Ảnh được khôi phục bằng ASDS, 21.72 dB Một phần của ảnh ASDS Ảnh được khôi phục bằng CSI, 23.15 dB Một phần của ảnh CSI

Hình 2 13 Minh họa kết quả thực nghiệm trên chuỗi Paris Từ trên xuống, ảnh gốc và ảnh HR được khôi phục bằng các giải thuật nội suy khác nhau, Bicubic, ASDS và CSI Bên trái thể hiện một phần của ảnh được khôi phục tương ứng.

Bên cạnh đó, giải thuật đề nghị có thời gian xử lý khá nhanh so với các giải thuật tiến bộ ở hiện trạng Thời gian trung bình cho xử lý khôi phục siêu phân giải với tỷ lệ 2x2 cho một frame, kích thước 144x176, với bộ vi xử lý Intel Core i3, tốn khoảng 0.3s cho giải thuật Bicubic, 19s cho giải thuật KRI, 243s cho giải thuật SME, 39s cho giải thuật ASDS, và khoảng 5.6s cho giải thuật đề nghị.

Th ả o lu ậ n v ề phương pháp CSI

Qua kết quả của thực nghiệm trên ta thấy rằng, chất lượng của các giải thuật tiến bộ, như SME và ASDS, chỉ cao hơn từ 0.2 đến 0.6 dB so với giải thuật Bicubic Trong khi giải thuật Bicubic có thời gian xử lý rất ngắn, và hiện đang được ứng dụng phổ biến trong thực tế cho xử lý siêu phân giải ảnh video với thời gian thực

Vậy tại sao nhiều tác giả tốn nhiều công sức, nghiên cứu đưa ra các giải thuật tiến bộ, với thuật toán phức tạp, tốn nhiều thời gian xử lý, để rồi kết quả, chất lượng ảnh HR được khôi phục bằng các giải thuật của họ không tỏ ra vượt trội hơn nhiều so với giải thuật Bicubic? Vấn đề nằm ở chỗ các giải thuật tiến bộ này giải quyết bài toán nội suy hiệu quả ở các vùng cạnh kết cấu (texture), giúp cho ảnh HR được khôi phục không bị suy biến ở vùng cạnh kết cấu chi tiết ảnh

Trong khi đó với phương pháp CSI, bài toán đã được giải quyết một cách hiệu quả về việc chống suy biến và nâng cao chất lượng nội suy ở vùng cạnh kết cấu Đặc biệt, thời gian xử lý của thuật giải CSI rất ngắn so với thời gian xử lý của các giải thuật tiến bộ Giải thuật CSI được phát triển dựa trên nền tảng của nội suy Bicubic Do đó, giải thuật đề nghị hoàn toàn có tính khả thi khi ứng dụng cho xử lý siêu phân giải video với thời gian thực, bằng cách tích hợp việc xử lý song song trên các chip FPGA và các bộ vi xử lý Multi-cores.

K ế t lu ậ n v ề phương pháp CSI

Ở nghiên cứu này, chúng tôi đã xây dựng một phương pháp rất hiệu quả cho siêu phân giải ảnh video đơn frame Phương pháp đề nghị tách các frame thành hai phần , phần ảnh nền không có kết cấu và phần ảnh của các vùng đường biên, hay phần có kết cấu Từ đó kết hợp phương pháp nội suy không gian trong các vùng kết cấu khác nhau và phương pháp nội suy bồi hoàn lấy mẫu để gia tăng chất lượng ảnh HR được khôi phục Phương pháp đề nghị có khả năng nâng cao chất lượng thông tin ảnh HR được khôi phục một đáng kể so với các phương pháp hiện trạng Điểm đặc biệt, giải thuật CSI khá đơn giản, nên thời gian xử lý của phương pháp này rất nhanh Nó có thể đáp ứng cho các ứng dụng xử lý video thời gian thực, nếu giải thuật CSI được phát triển theo hướng xử lý song song trên bộ vi xử lý multicore

Phương pháp CSI này đã được công bố ở 02 bài báo,

Cao Bui-Thu, Thuong Le-Tien, Tuan Do-Hong, Hoang Nguyen-Duc, “Video Super-Resolution by Combinating Spatial Interpolation Methods,” in proceeding of

The 2011 International Technical Conference of IEEE Region 10 (TENCON2011),

Cao Bui-Thu, Thuong Le-Tien, Tuan Do-Hong, Hoang Nguyen-Duc, “A Robust Combination Interpolation Method for Video Super-Resolution,” Journal of Science &

Technology Development, Vietnam National University, Vol 16, pp.41-57, 2013.

SIÊU PHÂN GIẢ I VIDEO T ĨNH ĐA FRAME BẰNG PHƯƠNG PHÁP PSEFD

Lý thuy ế t v ề siêu phân gi ải video đa frame

Ta gọi chuỗi ảnh video LR thu được từ camera là {𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 }, với i = {1 N} là đơn vị thời gian, hay thứ tự của frame được chụp Giả sử frame ảnh chính có độ phân cao cần được khôi phục là 𝑓𝑓𝐻𝐻𝐿𝐿1 Mô hình toán học đơn giản của hệ thống thu nhận ảnh video, cho frame thứ i, được thể hiện như pt (1.3):

Trong đó, ta gọi U là toán hạng lấy mẫu xuống K là lõi mờ của camera Lõi mờ

K này được tạo ra bởi hai yếu tố: mờ do chuyển động và mờ do lấy mẫu 𝐿𝐿 𝜃𝜃 𝐿𝐿 là thuật toán xoay ảnh một góc 𝜃𝜃 𝐿𝐿 𝑤𝑤 𝐿𝐿 là nhiễu Trong đề tài này, chúng tôi bỏ qua ảnh hưởng của yếu tố mờ do chuyển động Vì đây là một vấn đề rất phức tạp Để giải quyết nó cần phải có nhiều nghiên cứu chuyên sâu và phát triển sau luận án

Từ Hình 3.1 ta nhận thấy, ảnh thu được từ camera luôn là ảnh có độ phân giải thấp so với độ phân giải của ảnh thực Mỗi pixel điểm ảnh LR (trong ma trận ảnh LR màu hồng) có giá trị mức xám chính là giá trị trung bình mức xám của 04 pixel điểm Ảnh HR (16x16) pixel Ảnh video LR (4x4) pixel

Hình 3 1 Minh họa ảnh HR trước khi lấy mẫu và ảnh LR thu được sau lấy mẫu ảnh HR (trong ma trận ảnh HR màu xanh) Vậy nếu lấy mẫu xuống với tỷ lệ𝑛𝑛×𝑛𝑛, thì phương trình lõi mờ là:

Khai triển ta pt (3.1), ta được,

Trong đó, U + là toán hạng lấy mẫu lên không gian ma trận ảnh camera, hay U + chính là thuật toán nội suy không gian ra ảnh HR từ ảnh LR ngõ vào 𝑈𝑈 − chính là thuật toán giải xoắn từ ma trận lõi mờ K

Hình 3 2 Minh họa sự dịch chuyển giữa các frames được chụp từ một camera [1]

Mặt khác, với cùng một máy quay đặt tại một vị trí nhưng ảnh chụp được tại các thời điểm khác nhau sẽ có phần khác nhau Đó là do luôn có sự chuyển động nhỏ, sự rung động của tay cầm, sự trượt của giá đỡ khi máy quay Cho dù những sự rung động này rất nhỏ, nhưng khi ảnh chụp với khoảng cách tương đối xa so với khoảng cách tiêu cự của camera sẽ làm gia tăng đáng kể độ chuyển dịch giữa các frame ảnh, n hư được minh họa ở Hình 3.3 Lợi dụng khả năng này, ta có thể phát triển pt (3.6) dưới dạng phương trình tổng quát của ảnh HR được khôi phục siêu phân giải từ một chuỗi ảnh LR ngõ vào,

Vậy từ pt (3.7) cho thấy, quá trình siêu phân giải ảnh video có thể được thực hiện qua các hai bước chính, xác nhận ảnh và khôi phục ảnh

Xác nh ận ảnh , hay còn được gọi là ước lượng chuyển động Trong bước này, ta xác định các thông số chuyển động giữa frame chính 𝑓𝑓 𝐿𝐿𝐿𝐿1 và các frame LR còn lại Ta được tập thông số chuyển động của chúng,{∆𝑠𝑠 𝐿𝐿 } và {𝜃𝜃 𝐿𝐿 }

Khôi ph ục ảnh Từ pt (3.7) ta thấy, 𝑈𝑈 + �(𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 − 𝑤𝑤𝐿𝐿)(𝐿𝐿−𝜃𝜃 𝐿𝐿 (𝑠𝑠 − ∆𝑠𝑠 𝐿𝐿 )� 𝐿𝐿=1 𝑁𝑁 là ảnh HR được nội suy từ tập ảnh LR ngõ vào với tập thông số chuyển động đã được ước lượng Sau đó, giải mờ (bằng thuật toán giải xoắn 𝑈𝑈 − ) cho ảnh HR vừa được nội suy, ta được ảnh HR chính, 𝑓𝑓 𝐻𝐻𝐿𝐿1

Xác nhận ảnh là bước đầu tiên và cũng là bước xử lí quan trọng nhất cho việc khôi phục siêu phân giải đa ảnh Mục tiêu của quá trình này là xác nhận một cách chính xác các thông số chuyển động giữa các frame của tập ảnh, bao gồm: độ dịch theo phương ngang, phương thẳng đứng và góc xoay Chuyển động này là chuyển động toàn cục của cả frame và chuyển động tùy ý của các chi tiết ảnh. Ở phần nghiên cứu này có mục tiêu là xây dựng giải thuật siêu phân giải video tĩnh đa frame chúng tôi đề xuất phương pháp ước lượng toàn cục, theo hướng cải tiến giải thuật Vandewalle Giải thuật đề nghị sử dụng phương pháp ước lượng dịch pha trong miền tần số (Phase Shift Estimation in Frequency Domanin - PSEFD) để xác định góc xoay, độ chuyển dịch theo phương ngang và phương thẳng đứng của tập ảnh.

Phương pháp xác nhậ n ả nh

Giả thiết thấu kính của camera đặt song song với mặt phẳng ảnh Trong tập ảnh thu được sẽ có sự dịch chuyển nhỏ của các pixel giữa các frame ảnh Một cách tổng quát mối liên hệ của ảnh 𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 so với ảnh đầu 𝑓𝑓 𝐿𝐿𝐿𝐿1 được thể hiện như một hàm ba biến, như được mô tả trong [15], độ dịch Δx, Δy và góc xoay 𝜃𝜃,

𝑦𝑦�, ∆𝑠𝑠 =�∆𝑥𝑥∆𝑦𝑦�, 𝐿𝐿𝜃𝜃 =�𝑐𝑐𝑜𝑜𝑠𝑠𝜃𝜃 −𝑠𝑠𝐿𝐿𝑛𝑛𝜃𝜃𝑠𝑠𝐿𝐿𝑛𝑛𝜃𝜃 𝑐𝑐𝑜𝑜𝑠𝑠𝜃𝜃 � Biến đổi Fourier của 𝑓𝑓 𝐿𝐿𝐿𝐿𝐿𝐿 là,

= 𝑟𝑟 𝑗𝑗 2𝜋𝜋𝑢𝑢 𝑇𝑇 ∆𝑠𝑠 ∬ 𝑓𝑓 𝑠𝑠 𝐿𝐿𝐿𝐿1(𝐿𝐿 𝜃𝜃 (𝑠𝑠+∆𝑠𝑠))𝑟𝑟 −𝑗𝑗 2𝜋𝜋𝑢𝑢 𝑇𝑇 𝑠𝑠 ′ 𝑜𝑜𝑠𝑠 ′ (3.9) Với 𝑢𝑢 = � 𝑚𝑚 𝑛𝑛 � là toạ độ tần số trong miền Fourier và hàm truyền kết hợp s'= s+∆s Đặt 𝑠𝑠 ′′ =𝐿𝐿𝑠𝑠 ′ ta được một dạng khác của hàm truyền Fourier,

 Từ pt (3.10) ta nhận thấy nếu chỉ tồn tại chuyển dịch giữa các frame thì việc tính toán đơn giản rất nhiều vì:

𝐹𝐹 𝐿𝐿 = 𝑟𝑟 𝑗𝑗 2𝜋𝜋𝑢𝑢 𝑇𝑇 ∆𝑠𝑠 𝐹𝐹 1 (𝑢𝑢) (3.11) Vậy góc lệch pha giữa F 1 (u) và F 2

 Nếu chỉ tồn tại chuyển động xoay thì cũng rất khó để xác định chính xác góc xoay 𝜃𝜃, vì đặc điểm của hàm Fourier rời rạc là được tính trên các thành phần tần số

(u) chính là độ dịch chuyển Δs. nguyên dương Vậy không thể dùng một phép khai triển Fourier thông thường để xác định góc xoay

 Nhưng trên thực tế tồn tại đồng thời cả hai, sự dịch chuyển và góc xoay 𝜃𝜃 giữa các frame Do đó sẽ vô cùng khó khăn để xác định đồng thời các thông số này

 Tuy nhiên, thực tế là camera thường được đặt song song với mặt phẳng ảnh và chuyển dịch giữa các frame kề cậntương đối nhỏ, trong phạm vị (-2 o , 2 o

 Ngoài ra, tại những vùng ảnh có nhiều chi tiết và nhiễu, tần số tín hiệu hình ảnh cao, vượt quá khoảng tần số Nyquist (𝑤𝑤 𝑚𝑚𝑚𝑚𝑥𝑥 >𝑤𝑤𝑠𝑠𝑚𝑚𝑚𝑚𝑠𝑠𝑜𝑜𝐿𝐿𝑛𝑛𝑠𝑠 /2) Điều này gây ra sự chồng chập (aliasing) của phổ Fourier của tín hiệu được lấy mẫu Vùng chồng chập tần số là 𝑤𝑤𝑠𝑠𝑚𝑚𝑚𝑚𝑠𝑠𝑜𝑜𝐿𝐿𝑠𝑠 − 𝑤𝑤 𝑚𝑚𝑚𝑚𝑥𝑥

Tiêu đề	Siêu phân giải Video
Tác giả	Bùi Thư Cao
Người hướng dẫn	PGS. TS. Lê Tiến Thường, TS. Đỗ Hồng Tuấn
Trường học	Trường Đại học Bách khoa
Chuyên ngành	Kỹ thuật điện tử
Thể loại	Luận án Tiến sĩ
Năm xuất bản	2015
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	153
Dung lượng	3,44 MB