Phương pháp đề nghị đã khai thác tính chất tương quan phổ, của các frame ảnh của camera khi quay, để xây dựng giải thuật xác nhận toàn cục trong miền tần số. Giải thuật đề nghị đã thể hiện hai ý tưởng chủ đạo. Thứ nhất, sử dụng chính phương pháp ước lượng dịch pha trong miền tần số để xác nhận góc xoay, bằng cách chuyển không gian ảnh sang tọa độ cực rời rạc. Phương pháp này đã giúp cho phép ước lượng xoay trở nên đơn giản và có độ chính xác rất cao. Thứ hai, để xác nhận toàn cục cho đồng thời hai loại chuyển động dịch và xoay, giải thuật đề nghị thực hiện từng bước cho xác nhận dịch và xoay. Sau đó sử dụng vòng lặp để gia tăng độ chính xác của giải thuật xác nhận. Kết quả thí nghiệm cho thấy giải thuật đề nghị có đặc điểm áp dụng tốt cho siêu phân giải video tĩnh.
Nghiên cứu này đã được công bố qua bài báo,
Cao Bui-Thu, Thuong Le-Tien, Tuan Do-Hong, Hoang Nguyen-Duc, “An Efficiently Phase-Shift Frequency Domain Method for Super-Resolution Image Processing,” in The 2009 International Conference on Advanced Technologies for Communications (ATC2009), IEEE-REV, Hai Phong city, Vietnam.
CHƯƠNG 4. SIÊU PHÂN GIẢI VIDEO ĐA FRAME BẰNG PHƯƠNG PHÁP MMAD 4.1 Giớithiệuphương pháp MMAD
Phương pháp ước lượng PSEFD thực hiện trên toàn frame ảnh hay ước lượng toàn cục, nên với ảnh video động thì sẽ gây ra sai số cho phép ước lượng chuyển động. Dẫn đến chất lượng thông tin chi tiết chuyển động được khôi phục sẽ bị hạn chế. Vậy làm thế nào để có thể thực hiện ước lượng chuyển động toàn cục cho video động mà vẫn đảm bảo độ chính xác của phép ước lượng chuyển động. Đó chính là bài toán cho phương pháp đề nghị này.
Một số thuật toán ước lượng chuyển động hiệu quả, như ước lượng tổng của vi phân tuyệt đối (Sum of Absolute Difference - SAD) được sử dụng trong [20], ước lượng cực đại hoá phần tử đến sau (Maximum a Posteriori - MAP) được sử dụng trong [22], [21], ước lượng trung bình phi cục bộ (Non-local Mean - NLM) trong [18], [32]. Mỗi thuật toán ước lượng có thế mạnh nhất định, và được sử dụng phụ thuộc vào phương pháp xác nhận của người dùng. SAD là dạng thống kê trung bình sai số, MAP là dạng thống kê xác suất và NLM là dạng thống kê trung bình trọng số mũ. Trong đó, chúng tôi thấy rằng, SAD là phương đơn giản nhưng có thể đáp ứng yêu cầu của bài toán đề nghị. Với phương pháp SAD bỏ qua yếu tố góc xoay của hai ảnh, điều kiện tối ưu cho ước lượng chuyển dịch tại các vị trí tìm kiếm q trong không gian ảnh giữa frame chính và frame thứ i là,
ᵄᵃᵃ(∆ᵆ)= min ᵅ=1..ᵄ{∑
ᵆ
|ᵅᵃᵄ1(ᵆ)‒ᵅᵃᵄᵅ(ᵆ+∆ᵆᵅᵅ)|} (4.1)
Với, ∆ᵆᵅᵅ là độ chuyển dịch tại vị trí thứ q của frame thứ i và Q là số vị trí tìm kiếm cho sự tương đồng (matching) của hai ảnh.
Vậy từ pt (4.1) ta thấy, hai frame ảnh giống nhau phần cảnh nền sẽ luôn tồn tại một vị trí tìm kiếm trong không gian cho phép 2 ảnh trùng khớp nhau ở phần cảnh nền. Vậy về bản chất phương pháp SAD ước lượng chuyển động toàn cục dựa trên phần cảnh nền. Tuy nhiên phần chi tiết chuyển động sẽ gây ra sai số cho phép ước lượng.
Bên cạnh đó thuật toán SAD bỏ qua yếu tố góc xoay giữa hai ảnh, nên sai số của phép ước lượng càng lớn khi có chuyển động xoay của camera khi quay.
Đề giải quyết yếu điểm của phương pháp SAD, chúng tôi đề xuất thuật toán cực thiểu hoá trung bình tuyệt đối giá trị vi phân mức xám (Minimum Mean Absolute
Different - MMAD) cho ước lượng chuyển động như sau. Thuật toán MMAD được phát biểu như sau:
Các thông số chuyển động được ước lượng tại các giá trị tối ưu khi,
ᵄᵄᵃᵃ(∆ᵆ,θᵅᵅ)= min ᵅ=1..ᵄ{ 1 ᵃᵆ,ᵆ∑ ᵆ |ᵅᵃᵄ1(ᵆ)‒ᵅᵃᵄᵅ(ᵄθ ᵅᵅ(ᵆ+∆ᵆᵅᵅ))|ᵆ=ᵆ∗} (4.2)
Với, ᵄθᵅᵅlà thuật toán xoay frame thứ i một góc θᵅᵅ, ᵃᵆ,ᵆ là số pixel không bị Suy biến, và ᵆ∗ là những pixel không bị suy biến. Pixel suy biến là những pixel chi tiết chuyển động và nhiễu. Chúng được định nghĩa bởi (3,3), với ᵄℎᵅᵅᵆℎᵅᵅᵅ là ngưỡng nhiễu được xác định dựa trên phương pháp được trình bày bởi nghiên cứu [29].
|ᵅᵃᵄ1(ᵆ)‒ᵅᵃᵄᵅ(ᵄθ
ᵅᵅ(ᵆ+∆ᵆᵅᵅ))|≥ᵄℎᵅᵅᵆℎᵅᵅᵅ
(4.3) Vậy về bản chất, thuật toán MMAD, tách rời phần chuyển động đồng bộ của các pixel cảnh nền ra khỏi frame ảnh, và thực hiện ước lượng chuyển động cho phần cảnh nền này. Do đó việc giải bài toán xác nhận sẽ cho giá trị chính xác hơn phương pháp SAD và PSEFD. Từ đó, trên cơ sở của phương pháp siêu phân giải video PSEFD, chúng tôi đề xuất phương pháp siêu phân giải video đa frame MMAD bằng cách thay lõi thuật toán xác nhận PSEFD bằng thuật toán MMAD.
4.2 Giảithuật xác nhận toàn cục MMAD
Từ chuỗi các frame video ngõ vào LR, ta lần lượt thực hiện xác nhận hay ước lượng chuyển động giữa các frame mức xám của chúng. Frame mức xám chính được khôi phục là ᵅᵃᵄ1và các frame liền sau nó, được gọi là frame tham khảo (được sử dụng để cung cấp thông tin bổ khuyết cho frame chính), ᵅᵃᵄᵅ. Với i = {1..N}.
Do có hai dạng chuyển động toàn cục kết hợp trong các frame, chuyển dịch theo phương x, y và chuyển động xoay của camera khi quay. Chúng ta không thể giải bài
toán xác nhận một cách đồng thời để tìm ra tất cả các thông số chuyển động của pt (4.7). Do vậy chúng tôi cũng sử dụng giải thuật xác nhận tổng quát theo hướng từng bước như phương pháp của Hsieh [20]. Giải thuật xác nhận tổng quát như Hình 4.1.
Giải thích chi tiết các bước như sau:
Bước 1, ước lượng chuyển động thô, như được thể hiện ở Hình 4.2. Điều kiện để ghi nhận vector chuyển động của một block là sai số trung bình vi phân tuyệtđốimức
xám (Mean absolute different - MAD) của block đó nhỏ hơn giá trị ngưỡng. Ngưỡng, Threshold, được chọn là 0.05, dựa trên nghiên cứu của Ezhilarasan [27] về dò tìm sự tương đồng khối (block matching search). Với máy quay video thông thường tốc độ lấy mẫu là 30 frame/s và chuyển động xoay của camera (khi đang quay phim) phải càng nhỏ thì chất lượng ảnh thu được càng rõ nét. Do đó chúng tôi lựa chọn phạm vi ước lượng của góc xoay từ -2o đến 2o. Ở bước này, sai số phép ước lượng thô trong phạm vi ±0.2o cho góc xoay và ±1 pixel cho chuyển dịch.
Bước 2, bồi hoàn thô cho frame tham khảo để loại bỏ chuyển dịch lớn, giữa frame
hiện tại và frame tham khảo. Vậy sau khi được bồi hoàn, chỉ tồn tại phạm vi sai số nhỏ giữa các frame. Điều này làm cho quá trình xác nhận kế tiếp sẽ chính xác hơn.
Bước 3, ước lượng xoay tinh. Với mỗi bước 0.1o, xoay frame được bồi hoàn thô, trong phạm vi từ -0.5o to 0.5o. Sau đó xác định giá trị MAD giữa frame hiện tại và frame bồi hoàn thô được xoay. Giá trị của góc xoay ∆θᵅ mà tại đó có sai số MAD nhỏ nhất, chính là thông số ước lượng xoay tinh trong bước này. Độ chính xác của Bước 3 là +/-0.1o.
Bước 4, bồi hoàn xoay tinh. Ta bồi hoàn xoay cho frame tham khảo. Ta được frame bồi hoàn ᵅᵃᵄᵅ_(θᵅ+∆θᵅ)_ᵄᵅ=ᵅᵃᵄᵅ(ᵄθ
ᵅ+∆θᵅ(ᵆ+ᵄᵅ))
.
Bước 5, ước lượng dịch tinh. Với bước dịch 0.2 pixels, dịch frame được bồi hoàn,
trong phạm vi từ (-1, +1) pixel. Sau đó xác định MAD (trong đó có loại bỏ pixel nhiễu và suy biến) giữa frame hiện tại và frame được dịch. Thông số ước lượng dịch là giá trị ∆ᵄᵅ mà tại đó có MAD nhỏ nhất. Độ chính xác của bước này là +/-0.2 pixels.
Bước 6, bồi hoàn chuyển động toàn cục ở Bước 1, Bước 3 và Bước 5 cho frame tham khảo, ta được frame ᵅᵃᵄᵅ_(θᵅ+∆θᵅ)_(∆ᵄᵅ+ᵄᵅ) =ᵅᵃᵄᵅ(ᵄθ
Bước 7, lập lại từ Bước 3 đến Bước 6 để tăng độ chính xác của giải thuật. Trong đó, phạm vi của góc xoay là (-0.2o, +0.2o) với bước góc là 0.01o và phạm vi dịch là (-0.2, +0.2) pixel, với bước dịch 0.01 pixels.
Cuối cùng, chuyển động toàn cục của frame tham khảo so với frame hiện tại được tính bằng cách tổng hợp các thông số chuyển động ở các bước trên.
4.3 Giảithuật khôi phụcảnh
1). Xoay frame tham khảo, ᵅᵃᵄᵅ, một góc θᵅ, với bước xoay 0.1o, trong phạm vi (-2o, 2o). Ta được frame ᵅᵃᵄᵅ_θᵅ
.
2). Xác định vector chuyển động của các block pixel của ᵅᵃᵄᵅ_θᵅvới frame chính, ᵅᵃᵄ1 ,
bằng phương pháp Block matching search [27]. Ta được tập vector dịch thô {ᵄᵄᵅ}. Điều kiệnđể ghi nhận vector chuyển độngcủa bock tham khảoᵃᵃᵄᵅ_θᵅ là giá trị trung bình vi phân tuyệtđốimức xám của block đóphảithoả,
ᵄᵃᵃ(ᵃᵃᵄᵅ_θ ᵅ)< Threshold (4.4) Với: ᵄᵃᵃ(ᵃᵃᵄᵅ_θ ᵅ)=ᵅ×ᵅ∑1 ᵆ,ᵆ |ᵃᵃᵄ1(ᵆ,ᵆ)‒ᵃᵃᵄᵅ_θ ᵅ(ᵆ,ᵆ)| (4.5) Trong đó giá trị pxp là kích thức của các block, được chọn tốt nhất là 8x8 hoặc
4x4. Ngưỡng Thresholdđược tính dựa trên ướclượng variant củanhiễu, nhưđược
trình bày ở nghiên cứu [29].
3). Ướclượngdịch thô toàn cụcgiữaᵅᵃᵄ1và ᵅᵃᵄᵅ_θᵅlà: {ᵄᵅ=argᵅᵄᵆᵆᵄ(ᵆ)
ᵄᵅ=argᵅᵄᵆᵆᵄ(ᵆ) (4.6)
Với P(x) và P(y) là xác suấtcủa x và y, với(ᵆ,ᵆ)∈{ᵄᵄᵅ}
4). Bồi hoàn dịch cho frame ᵅᵃᵄᵅ_θᵅ, ta đượcᵅᵃᵄᵅ_θᵅ_(ᵄᵅ,ᵄᵅ), frame đượcbồi hoàn chuyển động thô.
5). Tính MAD(ᵅᵃᵄᵅ_θᵅ_(ᵄᵅ,ᵄᵅ))
cho cả frame.
6). LậplạitừBước 1 đếnBước 5, khi θtừ -2ođến 2o. Thông sốướclượng thô toàn cục là các giá trịcủaθᵅ và (ᵄᵅ, ᵄᵅ), mà tạiđó giá trịcủa MAD nhỏnhất.
Ta sử dụng giải thuật khôi phục đã được trình bày ở Chương 3, Hình 3.8. Giải thuật này cho phép loại bỏ những pixel của chi tiết chuyển động trong các frame tham khảo ᵅᵃᵄᵅ giữ lại các pixel cảnh nền để sử dụng cho phép nội suy khôi phục ảnh.
4.4 Thựcnghiệm trên các chuỗi video chuẩn
a) b) c)
Hình 4. 3. Thểhiện ba chuỗi video thực (không nén), có kích thước 352x288, được dùng thực nghiệmtừnguồn [30], a) Foreman, b) Coastguard, c) Caltrain.
Thực nghiệm đầu tiên. Chúng tôi thực hiện trên chuỗi Foreman và Coastguard,
như Hình 4.3. a). Chuỗi 30 frame HR ngõ vào được chọn làm chuỗi gốc. Chuỗi gốc này được lấy mẫu xuống, với tỷ lệ 2x2, tạo ra các chuỗi video LR. Lần lượt tập gồm 07 LR frame liên tiếp, 03 frame liền trước và 03 frame liền sau frame chính, được chọn cho quá trình xác nhận và khôi phục ảnh. Để đánh giá chất lượng của giải thuật đề nghị, chúng tôi so sánh kết quả của giải thuật đề nghị với kết quả giải thuật của các tác giả khác, như nội suy Bicubic [26], giải thuật KRI [8], giải thuật của Vandewalle [15], của SME [10] và gần đây nhất là giải thuật của ASDS [11]. Kết quả giá trị trung bình PSNR của toàn ảnh cũng được thể hiện ở Bảng 4.1. Kết quả cho thấy giải thuật MMAD đã có chất lượng ảnh HR được khôi phục tương đối tốt hơn so với các giải thuật khác. Giá trị trung bình PSNR của giải thuật MMAD lớn hơn 1.1 dB so giải thuật SME [10] và 1.2 dB so với giải thuật ASDS [11].
Bảng 4. 1. So sánh kếtquả giá trị trung bình PSNR (dB) cho toàn frame ảnhcủagiảithuậtđề nghị MMAD với các giảithuật khác nhau
Giảithuật/
Chuỗi video KRI [8] Bicubic
SME
[10] ASDS [11] MMAD
Foreman (1..30) 30.2 29.1 32.6 32.0 32.6
Caltrain (1..30) 28.2 29.5 29.2 29.7 31.9
Độlợi trung bình 3.0 2.2 1.1 1.2 0
Để thấy được điểm mạnh của giải thuật MMAD là khôi phục tốt ở vùng cảnh nền, phép đo PSNR và MSSIM cho vùng cảnh nền được chọn có toạ độ (20:80, 20:80). Kết quả thể hiện ở Bảng 4.2. Giải thuật đề nghị đã cho thấy chất lượng tốt nổi trội hơn kết quả của các giải thuật khác ở vùng cảnh nền từ 3 đến 4dB. Hình 4.4, Hình 4.5, Hình 4.6 và Hình 4.7 cho thấy các chi tiết phần cảnh nền được khôi phục có chất lượng được duy trì với độ ỗn định cao.
Ngoài ra, ta còn có thể đánh giá được chất lượng, qua việc quan sát trực quan ảnh HR thu được từ các giải thuật khác nhau, như thể hiện ở Hình 4.8 và Hình 4.9. Ảnh HR được khôi phục bằng giải thuật MMAD có chi tiết rõ nét, chính xác và gần giống với frame ảnh gốc HR hơn ảnh HR được khôi phục bằng các giải thuật khác, đặc biệt ở vùng cảnh nền. Quan sát kỹ vùng tọa độ (20:80, 20:80) ta có thể thấy ảnh HR được khôi phục bằng giải thuật MMAD trông rõ nét và gần giống nhất với ảnh HR gốc.
Bảng 4. 2. So sánh kếtquả giá trị trung bình PSNR (dB) tính tại vùng có tọađộ (20:80, 20:80), củagiảithuậtđềnghị MMAD với các giảithuật khác.
Giảithuật/
Chuỗi video KRI [8] Bicubic
SME [10] ASDS [11] MMAD Foreman (1..30) 27.4 28.7 32.3 29.7 32.9 Coastguard (110..139) 24.9 26.9 26.9 27.5 33.1 Caltrain (1..30) 29.6 31.44 31.5 31.7 34.8 Độlợi trung bình 6.3 4.6 3.4 4.0 0
Hình 4. 4. So sánh kếtquả PSNR (dB) củagiảithuậtđềnghị MMAD và các giảithuật tiếnbộ khác, áp dụng cho chuỗi Foreman, tính cho vùng ảnh có toạđộ (20:80,20:80).
Hình 4. 5. So sánh kếtquả SSIM củagiảithuậtđềnghị MMAD và các giảithuậttiến bộ khác, áp dụng cho chuỗi Foreman, tính cho vùng ảnh có toạđộ (20:80,20:80)
Hình 4. 6. So sánh kếtquả PSNR củagiảithuậtđềnghị MMAD và các giảithuậttiến bộ khác, áp dụng cho chuỗi Coastguard, tính cho vùng ảnh có toạđộ (20:80,20:80).
Hình 4. 7. So sánh kếtquả SSIM củagiảithuậtđềnghị MMAD và các giảithuậttiến bộ khác, áp dụng cho chuỗi Coastguard, tính cho vùng ảnh có toạđộ (20:80,20:80).
Ảnh HR được khôi phụcbằng SME Ảnh HR được khôi phụcbằng MMAD
Mộtphầncủaảnh Bicubic Mộtphầncủaảnh ASDS
Mộtphầncủaảnh SME Mộtphầncủaảnh MMAD
Hình 4. 8. So sánh kếtquảthựcnghiệm khôi phục siêu phân giải trên chuỗi Coastguard của giảithuậtđềnghị MMAD và các giảithuậttiếnbộ khác.
Ảnhđược khôi phụcbằng SME Ảnhđược khôi phụcbằng MMAD
Mộtphầnảnh Bicubic Mộtphầnảnh ASDS
Mộtphầnảnhgốc HR
Mộtphầnảnh SME Mộtphầnảnh MMAD Hình 4. 9. So sánh hình ảnhkếtquảđược khôi phục siêu phân giải trên chuỗi Foreman của
Calendar Cheerleader City Flowergarden
Football Harbour Susie Walk
Hình 4. 10. Minh họa các chuỗi video chuẩnđượcsửdụng cho thựcnghiệm.
Thực nghiệm thứ 2. Chúng tôi thực nghiệm trên 08 chuỗi video thực, tham khảo từ nguồn cơ sở dữ liệu CVDL [30]. Đây là những chuỗi video thực, lưu dưới dạng không nén. Như minh họa ở Hình 3.10, các chuỗi Calendar (720x576), Cheerleader
(720x480), City (768x576), Flowergarden (720x576), Football (720x480), Harbour
(768x576), Susie (720x576) và Walk (720x480). Với mỗi chuỗi video ngõ vào được lấy mẫu xuống theo tỷ lệ 2x2, tạo ra các chuỗi video LR. Sau đó chúng tôi thực hiện siêu phân giải với tỷ lệ 2x2 trở lại. Mỗi frame HR được khôi phục từ chuỗi 3 frame LR liên tiếp. Giá trị thống kê PSNR và SSIM cho 10 frame video LR liên tiếp được thể hiện như Bảng 3.3. Kết quả giá trị PSNR và SSIM của giải thuật MMAD cao hơn kết quả của các tác giả khác. Quan sát kỹ, ta thấy với những chuỗi video càng có ít chi tiết chuyển động thì chất lượng ảnh HR được khôi phục càng cao, nên giá trị PSNR càng lớn. Bên cạnh đó, quan sát trực quan các ảnh HR được khôi phục, ở Hình 3.11, ta thấy giải thuật đề nghị MMAD cho ảnh rõ nét hơn các giải thuật khác ở các chi tiết ảnh.
Thực nghiệm thứ 3. Cũng giống như thực nghiệm 2, nhưng chúng tôi lấy mẫu xuống với tỷ lệ 4x4 cho các chuỗi video nguồn để được các chuỗi LR. Sau đó thực hiện siêu phân giải cho các chuỗi LR này trở lại với tỷ lệ 4x4. Chúng tôi sử dụng 3 frame liên tiếp, 01 frame liền trước và 01 frame liền sau, để khôi phục cho một frame chính. Giá trị thống kê PSNR và SSIM được thể hiện như Bảng 3.4. Kết quả giá trị PSNR và SSIM của giải thuật MMAD cao hơn kết quả của các tác giả khác.
Bảng 4. 3. Kếtquả giá trị trung bình PSNR và SSIM của các chuỗi video được khôi phục siêu phân giảivớitỷlệ 2x2 bằng các giảithuật khác nhau. Mỗichuỗiđượcthựchiện 10 frame.