Ngưỡng phù hợp với nhiều độ phân giải

Một phần của tài liệu Luận văn - Xử lí âm thanh và hình ảnh hoàn chỉnh (Trang 65 - 73)

Với kỹ thuật đa phân giải (multi-resolution) thảo luận ở trên các vectơ chuyển động tính toán ở bất cứ cấp kim tự tháp interme - diate được dự báo mức độ phân giải cao hơn kế tiếp. Trong thực tế, một số vectơ chuyển động tính toán ở cấp độ phân giải thấp hơn có thể là không chính xác và có được tinh chế hơn nữa, trong khi những người khác có thể là tương đối chính xác và có thể cung cấp chuyển động bồi thường thỏa đáng cho các khối tương ứng. Từ một quan điểm tính toán tiết kiệm xem, cho các lớp học sau này nó có thể không có giá trị tuyên truyền các vectơ chuyển động với độ phân giải cao hơn kế tiếp để chế biến tiếp.

Thúc đẩy bởi sự quan sát trên, một khối multiresolution mới phù hợp với phương pháp với một kỹ thuật ngưỡng được phát triển bởi Shi và Xia ( 1997 ). Các ngưỡng kỹ thuật ngăn chặn các khối, có ước tính vectơ chuyển động cung cấp bồi thường chuyển động đạt yêu cầu, từ chế biến tiếp, do đó tiết kiệm rất nhiều tính toán. Trong những gì sau, kỹ thuật này được trình bày chi tiết để cung cấp cho độc giả với một cái nhìn sâu sắc cho cả hai khối đa phân giải phù hợp và ngưỡng khối đa phân giải kỹ thuật phù hợp.

Thuật toán - Hãy fn ( x , y ) là khung của một chuỗi hình ảnh tại n thời điểm hiện tại. Đầu tiên, hai kim tự tháp Gaussian được hình thành, kim tự tháp n và n - 1, từ hình ảnh khung fn ( x , y ) và fn - 1 ( x , y ), tương ứng. Hãy để các cấp độ của các kim tự tháp được ký hiệu là l, l = 0, 1, ... , L , trong đó 0 là mức độ phân giải thấp nhất ( cấp cao nhất ), L là mức độ phân giải đầy đủ (dưới cấp ), và L +1 là tổng số lớp trong các kim tự tháp. Nếu ( i , j ) là tọa độ góc trên bên trái của một khối tại l cấp của kim tự tháp n, khối được gọi là chặn ( i , j )1

n. Các kích thước ngang và dọc của một khối l mức độ được biểu hiện bằng b1

x và b1

y, tương ứng. Giống như phương pháp thay đổi kích thước khối ( xem Phương pháp 1 trong Tzovaras et al [1994 ] ), Kích thước của khối trong công việc này thay đổi với mức kim tự tháp . Đó là, nếu kích thước của một khối l cấp b1

x, sau đó kích thước của khối ở mức l + 1 trở thành 2 b1

x x 2 b1

y. Các khối kích thước thay đổi phương pháp được sử dụng bởi vì nó cung cấp cho dự toán chuyển động hiệu quả hơn so với phương pháp cố định kích thước khối. Ở đây, các tiêu chí phù hợp với sử dụng cho dự toán chuyển động là MAD bởi vì nó không đòi hỏi nhân và thực hiện tương tự như để MSE. MAD giữa khối (i , j ) 1b1

n của khung hình hiện tại và khối ( i + vx , j + vy ) 1b1

n-1 của khung trước đó ở mức độ l có thể được tính như

V1 = ( v1 x , v1

y ) là một trong những ứng cử viên của vector chuyển động của khối (i , j )1

n, vl x , vl

y là hai thành phần của vector chuyển động dọc theo sơ đồ x và y hướng dẫn , khối tương ứng. Một thuật toán được thể hiện trong hình 11.8. Ngưỡng vềnhu cầu MAD được xác định trước theo yêu cầu độ chính xác của dự toán chuyển động. Xác định ngưỡng được thảo luận dưới đây trong Phần B của tiểu mục này. Kim tự tháp của Gaussian đang hình thành hai khung hình liên tiếp của một chuỗi hình ảnh mà từ đó ước lượng chuyển động được mong muốn. Phù hợp với khối sau đó được thực hiện ở cấp cao nhất với các đề án tìm kiếm đầy đủ . Các vector chuyển động ước tính được kiểm tra để xem nếu họ cung cấp bồi thường chuyển động đạt yêu cầu. Nếu yêu cầu độ chính xác được đáp ứng , sau đó các vectơ chuyển động sẽ được trực tiếp chuyển đến cấp độ dưới cùng của kim tự tháp. Nếu không, các vectơ chuyển động sẽ được lan truyền đến các cấp độ phân giải cao hơn kế tiếp để nâng cao hơn nữa. Quá trình này ngưỡng được thảo luận dưới đây tại Phần C của tiểu mục này. Thuật toán tiếp tục theo cách này cho đến khi một trong hai ngưỡng đã được thỏa mãn hoặc cấp

kiệm tính toán. Làm việc với các thực nghiệm phức tạp chuyển động khá khác nhau cho thấy rằng các thuật toán đề xuất làm giảm thời gian xử lý từ 14 đến 20 % , trong khi vẫn duy trì gần như cùng một chất lượng hình ảnh tái tạo so với các thuật toán nhanh nhất đa phân giải hiện có kết hợp khối ( Tzovaras et al , 1994) .

Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải

Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này

Các tham số ở các mức độ Mức độ giải thấp Mức độ giải đầy đủ

Chuỗi tìm kiếm 3 x 3 1 x 1

Kích thước khối 4 x 4 8 x 8

Ngưỡng giá trị 2 Không (ko áp dụng)

Tàu hỏa

Chuỗi tìm kiếm 4 x 4 1 x 1

Kích thước khối 4 x 4 8 x 8

Ngưỡng giá trị 3 Không (ko áp dụng)

Bóng đá

Chuỗi tìm kiếm 4 x 4 1 x 1

Kích thước khối 4 x 4 8 x 8

Ngưỡng giá trị 4 Không (ko áp dụng)

Xác định ngưỡng- Tiêu chuẩn chính xác MAD được sử dụng để tiết kiệm việc tính

toán. Ngưỡng giá trị này có một ảnh hưởng trực tiếp đối với thuật toán đã nêu. Một ngưỡng giá trị nhỏ có thể cải thiện chất lượng hình ảnh được dựng lại với mức nỗ lực tính toán lớn. Mặt khác, 1 ngưỡng giá trị lớn có thể làm giảm mức độ tính toán phức tạp nhưng chất lượng của bức ảnh được dựng lại này có thể bị giảm. Có khả năng xác định 1 ngưỡng giá trị mà Shi và Xia đã sử dụng trong nhiều thí nghiệm (1997) như sau:

Tỷ lệ tín hiệu-nhiễu tột đỉnh (PSNR) được sử dụng chủ yếu trong việc đo lường các hình ảnh được dựng lại. Như đã trình bày trong chương 1, nó được xác định như sau:

PSNR = 10log10 MSE

2

255

(11.6)

Từ PSNR yêu cầu cho trước, ta có thể tìm đc MSE cần thiết. Có thể dùng bình phương của giá trị MSE để làm ngưỡng giá trị áp dụng cho 2 hình ảnh đầu tiên trong chuỗi. Nếu thỏa mãn kết quả PSNR và thời gian xử lý yêu cầu thì có thể áp dụng nó cho phần còn lại của chuỗi. Mặt khác, ngưỡng này có thể được điều chỉnh 1 cách phù

Một loạt các thí nghiệm khác cho thấy ngưỡng giá trị được điều chỉnh này là đủ chính xác và không cần phải điều chỉnh thêm. Như đã trình bày ở bảng 11.1, các ngưỡng giá trị được sử dụng với các chuỗi Hoa hậu Mỹ, Tàu hỏa và chuỗi Bóng đá (3 chuỗi có độ phức tạp về chuyển động rất khác nhau) theo thứ tự là 2, 3 và 4. Tất cả ngưỡng giá trị đều được xác định trong mốt này và đều cho kết quả tốt như được trình bảy trong 3 dòng được đánh dấu tương ứng là “Phương pháp mới (TH=2), “Phương pháp mới (TH=3), “Phương pháp mới (TH=4) trong bảng 11.2. Đó là, những kinh nghiệm PSNR chỉ mất khoảng 0,1 dB và thời gian xử lý giảm 1 cách đáng kể. Trong những thí nghiệm này người ta cũng thử đối với ngưỡng giá trị 3, là giá trị trung bình của 2,3 và 4. Tham khảo 3 dòng đánh dấu “Phương pháp mới (TH=3) trong bảng 11.2. Chú ý rằng ngưỡng giá trị trung bình bằng 3 này thỏa mãn cả 3 chuỗi. Đặc biệt, đối với chuỗi Hoa hậu Mỹ, do tiêu chuẩn này tăng từ 2 lên 3, độ hụt của PSNR tăng lên từ 0.12 lên 0.48 dB và thời gian xử lý tiết kiệm được tăng lên từ 20 tới 38%. Đối với chuỗi bóng đá, do tiêu chuẩn giảm từ 4 xuống 3, độ hụt của PSNR giảm xuống từ 0.08 còn 0.05 dB và thời gian xử lý giảm từ 14% xuống 9%. Rõ ràng là đối với chuỗi “Tàu hỏa”, tiêu chuẩn và công năng là như nhau. Do đó, ta có thể kết luận rằng việc xác định ngưỡng có thể không yêu cầu tính toán gì nhiều.

NGƯỠNG- Các vector chuyển động được ước lượng tại mỗi mức kim tự tháp sẽ được

kiểm tra để làm sáng tỏ liệu chúng có cho ta mức bù chuyển động thỏa đáng hay không. Gỉa định rằng Vt (i,j)= (vt

x , vt

y ) là vecto chuyển động ước lượng cho khối (i,j)1 n

ở mức l của kim tự tháp n. Với việc tạo ngưỡng, Vt (i,j) sẽ được chiếu trực tiếp tới mức đáy của L. Vecto chuyển động tương ứng đối với cùng 1 khối ở đáy kim tự tháp n sẽ là: VL (2(L-t) i,2(L-t) j), và cho ta:

VL (2(L-t) i,2(L-t) j) = 2(L-t) Vt(i,j)

Độ lệch trung bình tuyệt đối (MAD giữa khối ở mức chân kim tự tháp của ảnh hiện tại và bản sao trong ảnh trước có thể được xác định theo Phương trình 11.5, tại vecto chuyển động VL = VL (2(L-t) i,2(L-t) j). Gía trị MAD đã tính có thể được so sánh với ngưỡng đã xác định trước. Nếu giá trị MAD này nhỏ hơn ngưỡng giá trị thì vecto chuyển động được ước tính VL (2(L-t) i,2(L-t) j) sẽ được phân bổ tới khối (2(L-t) i,2(L-t) j)L

nở mức L trong hình hiện tại và ước lượng chuyển động cho khối này sẽ bị dừng. Nếu không, vecto chuyển động ước lượng Vt (i,j) ở mức l sẽ được truyền đến mức l + 1 để làm cho sáng đẹp hơn. Hình 11.9 minh họa quá trình tạo ngưỡng bên trên.

THÍ NGHIỆM- Để làm sáng tỏ hiệu quả của thuật toán đã đề xuất, một loạt thí

thuật toán ở Phương pháp 1, một trong những phương pháp khớp khối (Tzovaras et al., 1994) về PSNR, entrôpi lỗi ảnh, entropi vecto chuyển động, rất nhiều khối đứng ở đỉnh so với tổng số khối và thời gian xử lý. Số lượng khối đứng ở đỉnh là số lượng khối được giữ lại từ quá trình xử lý thêm trong khi tổng số khối là số lượng khối tồn tại ở đỉnh. Chú ý tổng số khối ở mỗi mức trong hình kim tự tháp này là như nhau. Thời gian xử lý là tổng số phần thêm vào liên quan đến việc đánh giá MAD và tính toán ngưỡng.

Trong những thí nghiệm này, các kim tự tháp 2 bậc được sử dụng vì nó có thể cho kết quả ước lượng chuyển động tốt hơn (Tzovara et al., 1994). Các thuật toán được kiểm tra thử nghiệm trên 3 chuỗi video với các mức độ phức tạp về chuyển động khác nhau, VD: chuỗi “Hoa hậu Mỹ’, chuỗi “Tàu hỏa” và chuỗi “Bóng đá”. Chuỗi “Hoa hậu Mỹ” có 1 hình MC đặt trên 1 nền tĩnh và có ít chuyển động hơn. Chuỗi “Tàu hỏa” có nhiều chi tiết hơn và bao gồm 1 vật thể chuyển động nhanh (đó là tàu hỏa). Hình 11.10 chỉ ra ảnh thứ 20 của chuỗi này. Chuỗi “Bóng đá” có những chuyển động phức tạp nhất so với 2 chuỗi kia. Khung thứ 20 được trình bày trong Hình 11.11. Bảng 11.1 là danh sách các tham số thực thi được sử dụng trong các thí nghiệm. Bảng 11.2 và 11.3 đưa ra đặc trưng của thuật toán đã đề xuất so với Phương pháp 1. Trong cả 3 trường hợp này, việc ước tính chuyển động có độ chính xác lên tới nửa điểm ảnh, điều này sẽ được giải thích rõ ở phần tiếp theo. Việc đo lường công năng được liệt kê ở đây là trung bình của 25 bức ảnh đầu tiên của chuỗi thử nghiệm.

Kim tự tháp Kim tự tháp Mức Kim tháp

n-1 n

Ước lượng vectơ chuyển động Hình chiếu 1

của 1 khối ở mức 1 của khối và

vecto chuyển

động ước lượng của nó tại mức L

Tính toán MAD của khối ở mức L

L

Hình 11.9: Qúa trình xác định ngưỡng

Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá”

Mỗi ảnh của chuỗi Hoa Hậu Mỹ là 360x288 pixel. Để dễ dàng hơn, ta xử lý tỷ lệ chung chung 320x256 pixel. Sử dụng các tham số toán tử được liệt kê trong bảng 11.1 (với giá trị chuẩn là 2), 38% trong tổng số khối ở đỉnh thỏa mãn tiêu chuẩn cho trước và không truyền đến đáy. Thời gian xử lý cần thiết dùng trong thuật toán được đề xuất đã tiết kiệm 20% so với phương pháp 1, trong khi PSNR, entropi lỗi ảnh và entropi vecto là gần như bằng nhau. So với phương pháp 1, tổng lượng tính toán (khoảng 0,16 x 106) được tiến hành về hoạt động ngưỡng, nhưng tiết kiệm tính toán lớn (bổ sung khoảng 2,16x106) đạt được bằng cách khấu trừ từ quá trình xử lý những khối mà có giá trị thời gian trễ quản lý trung bình ở cấp độ phân giải đầy đủ là ít hơn so với tiêu chuẩn chính xác được xác định trước.

Bảng 11.2: Kết quả thí nghiệm Tỉ số tín hiệu đỉnh trên nhiễu (dB) Lỗi dữ liệu ảnh (bit trênmỗi điểm ảnh) vector dữ liệu (bit / vector) Khối Ngưng tại Cấp cao nhất / Tổng số Khối Điều chế thời gian (Tổng số Bổ sung, 106) Chuỗi hoa hậu Mỹ

Phương pháp 1 (Tzovaras et al, 1994.) 38.91 3.311 6.02 0/1280 10.02 Phương pháp mới (TH = 2) 38.79 3.319 5.65 487/1280 8.02 Phương pháp mới (TH = 3) 38.43 3.340 5.45 679/1280 6.17

Chuỗi đào tạo

Phương pháp 1 (Tzovaras et al, 1994.) 27.37 4.692 6.04 0/2560 22.58 Phương pháp mới (TH = 3) 27.27 4.788 5.65 1333/2560 18.68 Chuỗi bóng đá Phương pháp 1 24.26 5.379 7.68 0/3840 30.06

et al, 1994.) Phương pháp mới (TH = 4) 24.18 5.483 7.57 1464/3840 25.90 Phương pháp mới (TH = 3) 24.21 5.483 7.58 1128/3840 27.10

Các khung hình của chuỗi "đào tạo" là 720x288 pixels, và chỉ phần trung tâm, 640x256 pixel, được xử lý.Sử dụng các thông số hoạt động được liệt kê trong Bảng 11.1 (với tiêu chí giá trị 3), khoảng 52% tổng số các khối được dừng lại ở cấp cao nhất. Thời gian xử lý giảm khoảng 17% bằng các thuật toán mới, so với Phương pháp 1 thời gian trễ quản lý trung bình, dữ liệu, hình ảnh lỗi và dữ liệu của vector là gần như giống nhau.

Khung hình của chuỗi "Bóng đá" là 720x480 pixels, và chỉ có phần trung tâm, 640x384 pixel, được xử lý. Sử dụng các thông số hoạt động được liệt kê trong Bảng 11.1 (với tiêu chí giá trị 4), khoảng 38% tổng số các khối được dừng lại ở cấp cao nhất. Thời gian xử lý khoảng 14% ít hơn so với yêu cầu của Phương pháp 1, trong khi thời gian trễ quản lý trung bình, dữ liệu, hình ảnh lỗi và dữ liệu của vector là gần như giống nhau.

Như đã thảo luận, các thí nghiệm với một tiêu chuẩn độ chính xác duy nhất của 3 cũng sản xuất hiệu suất tương tự như vậy tốt cho ba chuỗi hình ảnh khác nhau. Tóm lại, nó là rõ ràng rằng với ba trình tự kiểm tra khác nhau, khối đa phân giải ngưỡng phù hợp với thuật toán hoạt động nhanh hơn so với khối đa phân giải nhanh nhất hiện có trên xuống kết hợp thuật toán trong khi đạt được gần như cùng một chất lượng hình ảnh tái tạo.

Một phần của tài liệu Luận văn - Xử lí âm thanh và hình ảnh hoàn chỉnh (Trang 65 - 73)

Tải bản đầy đủ (DOC)

(100 trang)
w