trình bày về xử lý ảnh đa phân giải
Trang 1NGUYỄN NGỌC HẢI
XỬ LÝ ẢNH ĐA PHÂN GIẢI
Chuyên ngành: Kỹ thuật điện tử Mã số ngành: 02 07 01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 7 năm 2005
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS TSKH NGUYỄN KIM SÁCH
Cán bộ chấm nhận xét 1 : PGS TS VŨ ĐÌNH THÀNH
Cán bộ chấm nhận xét 2 : TS PHAN HỒNG PHƯƠNG
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày 22 tháng 07 năm 2005
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN NGỌC HẢI Phái: Nam
Ngày, tháng, năm sinh: 28/04/1980 Nơi sinh: Quảng Nam Chuyên ngành: Kỹ thuật điện tử MSHV: 01403314
I TÊN ĐỀ TÀI: Xử lý ảnh đa phân giải
II NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu lý thuyết về cơ sở xử lý đa phân giải, biễu diễn Gaussian pyramid, Laplacian pyramid, wavelet và các ứng dụng Nghiên cứu, viết chương trình ứng dụng cụ thể của đa phân giải trong phân đoạn ảnh màu theo trực quan
III NGÀY GIAO NHIỆM VỤ:
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 06/07/2005
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS TSKH NGUYỄN KIM SÁCH CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN Đ.T–V.THÔNG
PGS.TSKH NGUYỄN KIM SÁCH PGS TS VŨ ĐÌNH THÀNH TS PHẠM HỒNG LIÊN Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
Ngày tháng năm 2005 PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH
Trang 4Chân thành cảm ơn tất cả các thầy cô đã dạy chúng em Được sự chỉ bảo, truyền đạt kiến thức, kinh nghiệm của các thầy cô; chúng em đã học được nhiều cách tiếp cận các vấn đề mới, các giải quyết các vấn đề kỹ thuật, tự tin hơn và hiệu quả hơn trong công tác
Trân trọng cảm ơn Thầy PGS TSKH Nguyễn Kim Sách đã rất quan tâm, đưa ra các định hướng, các yêu cầu và nhiều bài báo đăng trên tạp chí IEEE trong quá trình em thực hiện luận văn này
Cảm ơn gia đình (ba, mẹ và em) đã nuôi dưỡng và tạo mọi điều kiện cho con học tập tốt
Sẽ nhớ mãi các anh, chị và các bạn cùng lớp sau hai năm học tập, gắn bó với nhau
Trang 5xét thông tin ở nhiều cấp độ Trong những năm gần đây, phân tích đa phân giải được áp dụng rất nhiều trong các vấn đề của xử lý tín hiệu và xử lý ảnh Tuy nhiên, ý tưởng phân tích ảnh tại các độ phân giải khác nhau không phải là mới Các nghiên cứu trong nhiều lĩnh vực như toán học, vật lý học, xử lý tín hiệu và phân tích dữ liệu về địa chấn đã đặt nền móng cho sự phát triển của phân tích đa phân giải So với biến đổi Fourier, đa phân giải có ưu điểm vượt trội, cung cấp một mô hình hiệu quả cho việc tách thông tin từ ảnh, cho phép hiểu rõ sự phân bố thông tin trong ảnh tốt hơn và có thể khử nhiễu rất tốt Hiện tại, có rất nhiều ứng dụng của đa phân giải liên tục được đăng trên tạp chí IEEE [21], [22], [23]
Nội dung chính của luận văn là tìm hiểu, nghiên cứu cơ sở, những đặc điểm chính và ứng dụng của các biến đổi đa phân giải Sau đó, vận dụng viết chương trình ứng dụng thực tế Hướng ứng dụng được chọn là phân đoạn ảnh theo trực quan Phân đoạn ảnh là cơ sở phát triển cho nhiều hướng ứng dụng trong xử lý ảnh như nhận dạng, đánh giá chuyển động, phân tích cảnh vật… Các kết quả chương trình được xem xét, rút ra các kết luận và so sánh với kết quả của giải thuật phân đoạn khác
Cụ thể, nội dung của luận án bao gồm:
Cơ sở, tiên đề của một biểu diễn đa phân giải Từ đó, có thể xây dựng các phép biến đổi đa phân giải Liên hệ phân tích đa phân giải với quá trình xử lý trong hệ thống thị giác con người
Cơ sở toán học, sơ đồ thực hiện và các ứng dụng của biễu diễn Gaussian pyramid, Laplacian pyramid và wavelet So sánh các biễu diễn này Đây là
ba biễu diễn đa phân giải có vai trò quan trọng
Trang 6xem các tài liệu [1], [3], [4], [5]
Về ứng dụng cụ thể, nội dung của luận văn bao gồm:
Cơ sở để đánh giá một kết quả phân đoạn là tốt hay xấu Trình bày tổng hợp, phân loại các cách tiếp cận phân đoạn bao gồm phân đoạn theo histogram, theo vùng lân cận và theo tính chất vật lý
Trình bày giải thuật phân đoạn ảnh màu theo trực quan Qua tham khảo nhiều giải thuật phân đoạn, giải thuật này được chọn bởi phạm vi ứng dụng rộng rãi, không hạn chế trên một số loại ảnh Vì vậy, đây cũng là giải thuật phân đoạn phức tạp nhất trong các kiểu phân đoạn, đối tượng phân đoạn là ảnh tự nhiên Cách tiếp cận của giải thuật này có nhiều điểm mới mẻ, nổi bật, áp dụng những kết quả đạt được trong lĩnh vực nghiên cứu về hệ thống thị giác con người Đó là áp dụng bộ lọc do Zhang và Wandell [6]
đo đạc được từ thực nghiệm và cơ chế giãn nỡ theo xác suất mới do Petrou và Mirmehdi [15] đưa ra
Vận dụng viết chương trình ứng dụng trên MATLAB và C Chương trình thử nghiệm trên nhiều loại ảnh và với nhiều cấp độ phân giải, số lượng cluster khởi tạo khác nhau Từ các kết quả đạt được, trả lời câu hỏi “Tham số nào có vai trò quyết định trong kết quả phân đoạn?” và rút ra các kết luận
Cuối cùng, luận văn phân tích các hạn chế của giải thuật và đề nghị giải pháp khắc phục Hạn chế này xuất phát từ đối tượng xử lý của giải thuật là ảnh tự nhiên, có đặc tính ngẫu nhiên Do đó, để có được kết quả phân đoạn
Trang 7khoảng cách giữa các pixel lân cận trong không gian màu đồng nhất LUV nhỏ hơn mức ngưỡng cho phép thì chúng ta nhóm các pixel này thành một cluster Về khía cạnh tính toán, giải pháp đề nghị này sẽ cải thiện tốc độ chạy chương trình
Hiện nay, phân tích đa phân giải đang thu hút sự nghiên cứu phát triển về mặt lý thuyết toán học phức tạp cũng như các ứng dụng phong phú, đa dạng của chúng Trong xử lý ảnh, phân tích đa phân giải là một giải pháp đem lại nhiều triển vọng để giải quyết các bài toán đặt ra
Trang 8Chương 1:
BIỂU DIỄN ẢNH ĐA PHÂN GIẢI 1
1.1 Tổng quan 2
1.2 Các ký hiệu, định nghĩa 2
1.3 Các tiên đề của phân tích đa phân giải 5
1.4 Biểu diễn pyramid 8
1.4.1 Cơ sở toán học 8
1.4.2 Loại trừ và nội suy 11
1.4.3 Gaussian pyramid 13
1.4.4 Laplacian pyramid 15
1.5 Biểu diễn wavelet 16
1.5.1 Cơ sở toán học 16
1.5.2 Các băng lọc 29
1.5.3 Phân rã wavelet 31
1.5.4 Ma trận biến đổi wavelet rời rạc 34
1.5.5 Liên hệ với hệ thống thị giác con người 36
1.5.6 Aùp dụng 37
1.6 Những đa phân giải khác 37
1.6.1 Biến đổi wavelet không giảm tốc độ lấy mẫu 37
1.6.2 Wavelet packet 37
Chương 2: PHÂN ĐOẠN ẢNH MÀU ĐA PHÂN GIẢI THEO TRỰC QUAN 39
2.1 Các tiêu chuẩn đánh giá kết quả của phân đoạn ảnh 40
2.2 Phân loại các cách phân đoạn ảnh màu 40
2.2.1 Phân đoạn dựa vào histogram 41
2.2.2 Phân đoạn dựa vào vùng lân cận 41
2.2.3 Phân đoạn theo tính chất vật lý 42
2.3 Phân đoạn ảnh màu đa phân giải theo trực quan 43
2.3.1 Các cách tiếp cận 43
Trang 92.3.7 Từ điển thành phần hàm Q 56
Chương 3: ĐÁNH GIÁ CÁC KẾT QUẢ ĐẠT ĐƯỢC VÀ GIẢI PHÁP ĐỀ XUẤT 58
3.1 Chương trình MATLAB 59
3.2 Lưu đồ thực hiện giải thuật 60
3.3 Các kết quả 76
3.4 So sánh với kết quả của giải thuật phân đoạn Edge Flow 78
3.5 Nhận xét, giải pháp đề xuất 79
KẾT LUẬN 85
HƯỚNG PHÁT TRIỂN 87
TÀI LIỆU THAM KHẢO 89
Trang 10CHƯƠNG 1:
BIỄU DIỄN ẢNH ĐA PHÂN GIẢI
Trang 11Trong phần này, chỉ trình bày một cách tóm tắt về các biễu diễn đa phân giải và wavelet Nếu cần quan tâm, hiểu kỹ hơn, chúng ta có thể xem các tài liệu tham khảo [1], [3], [4], [5]
1.1 Tổng quan
Một người đang quan sát một cảnh, cảm nhận các đối tượng trong cảnh đó theo một độ phân giải nào đó là phụ thuộc vào khoảng cách từ người đó đến đối tượng Ví dụ, khi quan sát một tòa nhà từ xa, đầu tiên chúng ta thấy những đường nét sơ khởi của tòa nhà Cổng chính của tòa nhà sẽ được nhìn thấy khi chúng ta tiến gần đến tòa nhà Cuối cùng, khi tiến gần hơn nữa, chúng ta có thể thấy cái chuông treo trên cửa chính Trong ví dụ trên, khái niệm độ phân giải gần như tương ứng với kích thước của các chi tiết mà người quan sát có thể thấy được Dĩ nhiên có thể công thức hóa những khái niệm trực quan trên và lý thuyết xử lý tín hiệu đã đưa ra những khái niệm rất rõ ràng về độ phân giải
Những khái niệm này rất có ích trong lĩnh vực xử lý ảnh và video Nhiều giải thuật xử lý ảnh số, phân rã ảnh đang phân tích thành nhiều thành phần Mỗi thành phần chứa những thông tin ở một độ phân giải
Có rất nhiều các phương pháp phân rã ảnh đa phân giải, chúng ta xem xét
ba phương pháp chính là Gaussian pyramid, Laplacian pyramid và wavelet
1.2 Các ký hiệu, định nghĩa
Tập hợp các số nguyên, số nguyên dương, số thực và số thực dương được ký hiệu lần lượt là Z, Z+, R và R+
L2(R) là không gian của các hàm một biến có tích phân bình phương xác định Cho hai hàm f, g ∈ L2(R), tích trong của f(x) và g(x) được cho bởi
Trang 12Giá trị chuẩn của f(x) ∈ L2(R) được cho bởi
dxf(x)
f , ff
-2 2
∞
−
∧
= f(x)e dx )
ω (
∧
2) F f(x-τ) = ej τ ω f∧( ω)
3) F f’(x) = jω∧(ω)
4) F xf(x) = f∧' (ω)
I2(Z) là không gian vector của các chuỗi có tổng bình phương xác định:
L2(R2) là không gian các hàm hai biến f(x,y) có tích phân bình phương xác định Một ảnh là một mảng hai chiều có kích thước xác định Vì vậy, có thể xem nó thuộc không gian L2(R2) Cho hai hàm f(x,y) ∈ L2(R2) và g(x,y) ∈ L2(R2), tích trong của f(x,y) và g(x,y) là:
2 i Z
i i
2( Z ) ( ) :
Trang 13Giá trị chuẩn của f(x,y) ∈ L2(R2) tương tự như giá trị chuẩn trong không gian của các hàm một chiều và được cho bởi
dxdyy)f(x,
y)f(x, )
,(
-) y ω x j(ω - y
x
y x
∫ ∫+∞
Biến đổi cửa sổ Fourier
đo các biên độ của các thành phần sin của hàm f với tần số ω xung quanh điểm u trong miền thời gian Bằng cách dịch chuyển hàm cửa sổ g, toàn bộ không gian thực R được bao phủ Nói cách khác, tập hợp các hàm
Ru dxf(x)u) -g(x e
-x j
2 ) - (x -
e2
Trang 14được chọn là hàm cửa sổ, biển đổi cửa sổ Fourier trở thành biến đổi nổi tiếng Gabor Vì vậy, biến đổi cửa sổ Fourier là dạng tổng quát của biến đổi Gabor [1] Trong biễu diễn phase-space, biến đổi cửa sổ Fourier tương đương với lấy mẫu đều trong cả miền tần số và miền thời gian Vì vậy, tại những tần số cao, độ phân giải của biến đổi là không hiệu quả để có thể phân biệt những biến đổi nhỏ trong tín hiệu
Một hàm g(x) được gọi là hàm trơn nếu nó hội tụ đều về 0 tại ±∞ và
x f(
cứu giãn nở nhị phân của các hàm là rất có ích Hệ số tỉ lệ của hàm trơn quyết định phạm vi mà tại đó các tính chất của tín hiệu được xem xét
1.3 Các tiên đề của phân tích đa phân giải ([4], [5])
Giả sử A2j là phép toán xấp xỉ một tín hiệu ở độ phân giải 2j Chúng ta giả sử tín hiệu ban đầu f(x) là đo được và có năng lượng xác định: f(x) ∈ L2(R) Sau đây là những tính chất mà chúng ta mong muốn phép toán A2jphải thỏa mãn: 1) A2jlà phép toán tuyến tính Nếu A2j f(x) là xấp xỉ của hàm f(x) tại độ phân giải 2j thì A2j f(x) sẽ không thay đổi nếu ta xấp xỉ nó một lần nữa
Trang 15vậy, phép toán A2j là phép chiếu trên không gian vector V2j ⊂ L (R) Có thể xem không gian vector V2j là tập hợp tất cả những xấp xỉ có thể có của các hàm trong L2(R) ở độ phân giải 2j
2) Trong tất cả các hàm được xấp xỉ tại độ phân giải 2j, A2j f(x) là hàm giống với f(x) nhất
f(x) -x(Af(x) -g(x) ,V
∀j∈ Z, V2j ⊂ V2(j+1) (1.14) 4) Một phép toán xấp xỉ giống nhau tại tất cả các độ phân giải Các không gian của các hàm xấp xỉ có thể xuất phát từ không gian của các hàm xấp xỉ khác bằng cách giãn nở các hàm xấp xỉ theo tỷ lệ độ phân giải của chúng
1 j
V f(x) Z,
Đặc điểm rời rạc:
Tồn tại một phép đẳng cấu I từ V1 vào I2(Z) (1.16)
Trang 16Dịch chuyển của xấp xỉ:
k) - f(x ) x ( f ), k x ( A ) x ( f A Z,
Dịch chuyển các mẫu:
Z i k i k
l Z
i i
6) Khi tính toán một xấp xỉ của f(x) tại độ phân giải 2j, một số thông tin về f(x) bị mất Tuy nhiên, khi độ phân giải tăng đến +∞, tín hiệu xấp xỉ sẽ hội tụ về tín hiệu ban đầu Ngược lại, khi độ phân giải giảm xuống đến
0, tín hiệu xấp xỉ càng lúc càng bị mất thông tin và hội tụ về 0
Bởi vì các tín hiệu xấp xỉ tại độ phân giải 2j là các hình chiếu vuông góc trên không gian V2j, tính chất trên có thể được viết:
và
{ }0 V Vlim 2 j j - 2 j
∞
=
∞ +
Ta gọi một tập hợp bất kỳ các không gian vector (V2j)j∈Z thõa mãn các tính
chất (1.14)-(1.20) là một xấp xỉ đa phân giải của L 2 (R) Phép toán A2j thõa mãn các tính chất (1.13)-(1.18) tạo ra một xấp xỉ của một hàm bất kỳ thuộc L2(R) ở độ phân giải 2j Chúng ta xem xét ví dụ một xấp xỉ đa phân giải đơn giản của L2(R)
Ví dụ: Giả sử V1 là không gian vector tất cả các hàm thuộc L2(R) bằng hằng
số trong mỗi khoảng [k, k+1], với mọi k ∈ Z Từ phương trình (1.15), ta lấy V2j là không gian vector tất cả các hàm thuộc L2(R) bằng hằng số trong mỗi khoảng [ k2-j, (k+1)2-j ], với mọi k ∈ Z Điều kiện (1.14) dễ dàng được thõa Ta định nghĩa
một phép đẳng cấu I thõa mãn các tính chất (1.16), (1.17) và (1.18) bằng cách kết hợp mỗi hàm f(x) ∈ V1 một chuỗi (αk)k∈Z sao cho αk bằng giá trị của f(x) trong
Trang 171.4 Biểu diễn pyramid ([1], [3], [4])
1.4.1 Cơ sở toán học
Chúng ta biết rằng phép toán xấp xỉ A2j là một phép chiếu vuông góc trên không gian vector V2j Để mô tả về mặt tính toán phép toán này, chúng ta phải tìm một cơ sở trực chuẩn của V2j Các định lý sau đã được GS Stephane G Mallat chứng minh trong một bài báo đăng trên tạp chí IEEE [4], cho thấy một cơ sở trực chuẩn có thể được tạo ra bằng cách giãn nở và dịch chuyển một hàm φ(x)
Định lý 1 [4]: Giả sử (V2j)j∈Z là một xấp xỉ đa phân giải của L2(R) Tồn tại duy nhất một hàm φ(x) ∈ L2(R), được gọi là hàm giãn nở, sao cho nếu ta đặt
)x(2
là một cơ sở trực chuẩn của V2j
Phép chiếu trực giao trên V2j bây giờ có thể được tính bằng cách phân rã tín hiệu f(x) trên cơ sở trực chuẩn trong định lý trên Cụ thể là
j 2
j 2
j - 2
Trang 18u(
j 2
φ là một cơ sở trực giao của V2 j + 1 Với mọi n ∈ Z, hàm ( x - 2 -j n)
1 - 2
j 2
1 - - j
Bằng cách đổi biến bên trong tích phân tính tích trong, ta có:
2n)) -(k -(u u),(k)
2 -
u (n),2 -(u
1 - - 2
j - 2 1
Trang 19
k)2 -
u (f(u),2n))
(k -(u (u),n)
-2 -(u
2 2
Z,
- 2n(h~
n)2 -u(
2 -
k
j -
Phương trình (1.27) cho thấy A d f
2 j được tính bằng cách chập A d f
2 j+ 1 với H~ và giảm tốc độ lấy mẫu đi 2 lần Tất cả các xấp xỉ rời rạc khác A d f
2 j , với j<0, có thể tính được từ A d f
1 bằng cách lặp lại giải thuật này Thuật toán này gọi là biến đổi
pyramid Giải thuật được mô tả trong sơ đồ khối hình 1.7
Định lý 1 [4] cho thấy một xấp xỉ đa phân giải (V2j ) j∈ Zhoàn toàn có thể mô tả thông qua hàm giãn nở φ(x) Một hàm giãn nở được định nghĩa là một hàm φ(x)
∈ L2(R) sao cho với mọi j ∈ Z, ( )n Z
j 2
φĐịnh lý sau đây mô tả những đặc điểm của biến đổi Fourier của một hàm giãn nỡ
Định lý 2 [4]: Giả sử φ(x) là một hàm giãn nở và H là một bộ lọc rời rạc với
đáp ứng xung h(n) = φ2 - 1 (u),φ(u - n) H(ω) là biến đổi Fourier
Trang 20=
- n
n j
eh(n)
)
H(ω) thõa mãn hai tính chất sau:
|H(0)| = 1 và h(n) = O(n-2) tại vô cùng (1.29a)
|H(ω)|2 + |H(ω + π)|2 = 1 (1.29b) Ngược lại, nếu H(ω) là chuỗi Fourier thõa mãn hai tính chất trên và thõa
|H(ω)| ≠ 0 với ω ∈ [0, π/2] (1.29c) Hàm được xác định bởi
∏+∞=
=
1 p
p
- ) H(2 ) (
~
ωω
là biến đổi Fourier của hàm giãn nở
Các bộ lọc thõa mãn tính chất (1.29b) được gọi là các bộ lọc liên hợp
1.4.2 Loại trừ và nội suy
Để tạo ra một pyramid, dựa vào cơ sở toán học trên, người ta xây dựng hai công cụ cơ bản là phép toán loại trừ và nội suy Phép toán loại trừ thường gây mất mát thông tin Vì vậy người ta mong muốn tín hiệu đã được loại trừ càng giữ được độ trung thực, chính xác so với tín hiệu ban đầu càng tốt Các phép toán cơ bản trong loại trừ là lọc thông thấp (sử dụng các bộ lọc số anti-aliasing) và giảm tốc độ lấy mẫu như hình vẽ
Hình 1.1 Tín hiệu được đưa qua bộ lọc thông thấp h(n)
Trang 21Đáp ứng xung của bộ lọc thông thấp được ký hiệu là h(n) và biến đổi Fourier rời rạc theo thời gian là H(ejw) Mối quan hệ giữa tín hiệu đầu vào x(n) và đầu ra y(n) của bộ lọc được viết thông qua phương trình chập:
y(n) = x(n) * h(n) = ∑ −
k
k n x k
h( ) ( )
Giảm tốc độ lấy mẫu sẽ loại bỏ bớt các mẫu tại ngõ vào y(n) Ngõ ra của nó là
z(n) = y(2n) Kết hợp cả hai phương trình trên ta có:
k
k n x k
Giảm tốc độ lấy mẫu thường mất mát thông tin vì tín hiệu gốc x(n) không thể được khôi phục chính xác từ tín hiệu đã được loại trừ z(n) Giải pháp kinh điển để giảm sự mất mát thông tin này là sử dụng các bộ lọc số anti-aliasing lý tưởng h(n) với tần số cắt là wc = π/2 Tuy nhiên các bộ lọc như vậy có chiều dài không xác định Trong xử lý ảnh, các bộ lọc có đáp ứng xung hữu hạn (FIR) thường được sử dụng vì những lý do tính toán như trên Các bộ lọc FIR sử dụng trong xử lý ảnh thường đối xứng, có chiều dài từ 3 đến 20 bước (tap) Hai ví dụ thông dụng nhất là bộ lọc FIR ba bước h(n) = ( ¼, ½, ¼) và bộ lọc xén Gaussian có chiều dài (2L +1), h(n) = Ce−n2/(2σ2), | n| ≤ L, trong đó
1 σ Tổng các hệ số của bộ lọc được cộng lại là 1:
∑n h(n) = 1, điều này có nghĩa là đáp ứng DC của các bộ lọc này là đơn vị
Một phép toán xử lý ảnh thông dụng khác là nội suy Nội suy làm tăng tốc độ lấy mẫu của tín hiệu Phép nội suy có thể thực hiện bằng hai phép toán cơ bản liên tiếp: tăng tốc độ lấy mẫu và lọc thông thấp
Trang 22Tăng tốc độ lấy mẫu sẽ chèn một giá trị 0 vào giữa mỗi mẫu của tín hiệu x(n):
Tín hiệu sau khi tăng tốc độ lấy mẫu sẽ được lọc bởi bộ lọc thông thấp h(n) Tín hiệu đã nội suy là
Các bộ lọc nội suy lý tưởng đều có chiều dài của đáp ứng xung là vô hạn
Vì vậy, trong thực tế, các bộ lọc FIR có chiều dài ngắn được sử dụng
1.4.3 Gaussian pyramid ([1], [3])
Việc xây dựng Gaussian pyramid có liên quan đến các phép toán lọc thông thấp 2-D và giảm tốc độ lấy mẫu Các bộ lọc 2-D được sử dụng trong thực tế là có thể “tách ra được”, nghĩa là chúng có thể thực hiện bằng các thực hiện liên tiếp các phép toán lọc 1-D theo các hàng và cột của ảnh Điều này rất thuận lợi trong nhiều trường hợp Cơ chế loại trừ 2-D cũng có thể “tách ra được” Nói cụ thể, phép loại trừ 2-D có thể thực hiện bằng cách áp dụng phép loại trừ 1-D vào
Hình 1.2 Tín hiệu được tăng tốc độ lấy mẫu cho 2 và
đưa qua bộ lọc thông thấp h(n)
y(n) =
x(n/2) , n chẳn
Trang 23đã được loại trừ theo hàng Có thể đạt được kết quả giống như vậy bằng cách xử lý cột trước và sau đó mới đến hàng Tương tự, phép nội suy 2-D cũng có thể thực
hiện bằng cách áp dụng phương trình (1.32) cho mỗi hàng của ảnh và sau đó áp
dụng tiếp cho mỗi cột của ảnh đã nội suy theo hàng, hoặc có thể thực hiện theo thứ tự ngược lại
Trong biểu diễn Gaussian pyramid của một ảnh trong hình 1.3, ảnh gốc (ở trên cùng) được lọc thông thấp và giảm tốc độ lấy mẫu cho 2 theo cả hai chiều Aûnh kết quả N/2 x M/2 là ảnh ở mức hai của pyramid Tiến trình như vậy có thể
được lặp lại nhiều lần Trong Gaussian pyramid hình 1.3, pyramid có ba mức độ
phân giải Bộ lọc thông thấp thường được sử dụng là bộ lọc Gaussian, vì vậy chúng ta thường gọi pyramid này là Gaussian pyramid Thuật ngữ này vẫn được sử dụng ngay cả khi bộ lọc thông thấp không phải là bộ lọc Gaussian Một thuật ngữ khác được sử dụng trong trường hợp này là pyramid thông thấp (low-pass pyramid) Tổng số pixel trong một biễu diễn pyramid là NM + NM/4 + NM/16 + ≈ 4/3 NM Như vậy là số pixel trong biễu diễn pyramid vượt quá số pixel biễu diễn ảnh gốc
Gaussian pyramid được ứng dụng rất nhiều trong các vấn đề lưu trữ ảnh Giả sử một người sử dụng từ xa truy cập vào cơ sở dữ liệu ảnh (ví dụ Internet) nhưng có những yêu cầu khác nhau về độ phân giải của ảnh Việc trình bày ảnh dưới dạng pyramid cho phép mỗi người sử dụng có thể trực tiếp lấy ra ảnh ở độ phân giải mong muốn Mặc dù kỹ thuật lưu trữ này có dư thừa về pixel nhưng ảnh mong muốn được lấy ra trực tiếp và ở dạng không yêu cầu phải xử lý thêm gì nữa Kỹ thuật này đã được sử dụng trong Kodak CD-I, trong đó ảnh được truyền từ CD-ROM và hiển thị trên màn hình với độ phân giải do người sử dụng lựa chọn Một ứng dụng khác của Gaussian pyramid là trong ước lượng chuyển động của video: ở bước đầu tiên, các ước lượng chuyển động thô được tính toán dựa
Trang 24vào dữ liệu ảnh độ phân giải thấp và trong các bước tiếp theo, những ước lượng ban đầu được cải tiến dựa vào dữ liệu ảnh ở độ phân giải cao hơn Ưu điểm của cách tiếp cận ước lượng chuyển động theo đa phân giải này là giảm đáng kể tính toán trong các giải thuật phức tạp (các bước chủ yếu được thực hiện ở ảnh đã giảm kích thước) Kết quả ước lượng chuyển động cũng rất tốt bởi vì những ước lượng ban đầu (ở mức thô) được coi là khá gần giống với kết quả ước lượng lý tưởng
1.4.4 Laplacian pyramid ([1], [3])
Biểu diễn Laplacian pyramid của ảnh cũng gần tương tự như biễu diễn Gaussian pyramid, nhưng ở đây sự khác biệt giữa hai ảnh liên tiếp trong Gaussian pyramid được tính toán và được trình bày Aûnh được trình bày trên Laplacian pyramid biểu diễn cho các chi tiết có ý nghĩa của ảnh tại mỗi độ phân giải Một cách để tạo ảnh ở độ phân giải nào đó là áp dụng sự khác biệt giữa hai bộ lọc Gaussian vào ảnh gốc Đây là cách tương đương với lọc ảnh bởi bộ lọc Laplacian, một kỹ thuật phổ biến ứng dụng trong phát hiện biên Bộ lọc Laplacian là bộ lọc thông dải; vì vậy Laplacian pyramid còn gọi là pyramid thông dải
Chúng ta định nghĩa một ảnh chi tiết (detail image) là ảnh khác biệt giữa một ảnh và xấp xỉ của nó ở độ phân giải thô hơn kế tiếp Gaussian pyramid tạo ra các ảnh tại nhiều lớp nhưng các ảnh này có kích thước khác nhau Để tính sự khác biệt giữa một ảnh N x M và xấp xỉ của nó tại độ phân giải N/2 x M/2, ta cần nội suy ảnh nhỏ thành ảnh có độ phân giải N x M trước khi thực hiện phép trừ Biễu diễn Laplacian thường là “thưa thớt” khi hầu hết giá trị của các pixel
Trang 25biên Cũng giống như biễu diễn Gaussian pyramid, biễu diễn Laplacian cũng
“overcomplete” nghĩa là tổng số pixel của Laplacian pyramid lớn hơn khoảng 33% so với biễu diễn của ảnh gốc
Biễu diễn Laplacian pyramid có rất nhiều ứng dụng trong xử lý ảnh nói chung và trong phân đoạn, phân tích cấu trúc ảnh nói riêng Những ứng dụng sớm nhất của Laplacian pyramid là trong nén ảnh, nhưng sự xuất hiện của các kỹ thuật nén wavelet đã làm cho cách tiếp cận này trở nên kém hấp dẫn Tuy nhiên, kỹ thuật nén theo kiểu Laplacian đã được thực hiện trong tiêu chuẩn nén ảnh có tổn hao JPEG
1.5 Biểu diễn wavelet ([1], [3], [4], [5])
Mặc dù biễu diễn Laplacian pyramid rất hữu ích trong nhiều ứng dụng nhưng tổng số pixel trong biễu diễn Laplacian pyramid lớn hơn số pixel của ảnh gốc là một bất lợi lớn trong các ứng dụng như nén ảnh Biến đổi wavelet đưa ra hai thuận lợi là có thể biễu diễn ảnh theo nhiều thành phần và tổng số pixel bằng số pixel của ảnh gốc Việc phát triển phép biến đổi này và lý thuyết của nó có ảnh hưởng sâu sắc đến nhiều ứng dụng Mục này sẽ trình bày những cơ sở toán học và các công cụ cơ bản cần thiết để xây dựng một biễu diễn wavelet của một ảnh
1.5.1 Cơ sở toán học
1.5.1.1 Tín hiệu chi tiết
Thông tin khác nhau giữa hai xấp xỉ của hàm f(x) tại hai độ phân giải 2j+1 và
2j được gọi là tín hiệu chi tiết tại độ phân giải 2j Xấp xỉ tại độ phân giải 2j+1 và 2j
Trang 26của một tín hiệu lần lượt là phép chiếu vuông góc của tín hiệu này lên V 2 j + 1và
j
2
V Từ định lý về phép chiếu vuông góc, chúng ta dễ dàng chứng minh được tín hiệu chi tiết tại độ phân giải 2j được cho bởi phép chiếu vuông góc của tín hiệu gốc lên phần bù trực giao của V 2 j trong V 2 j + 1 Đặt O 2 jlà phần bù trực giao của
Trang 27Để tính toán phép chiếu vuông góc của hàm f(x) lên O 2 j, chúng ta cần tìm một cơ sở trực chuẩn của O 2 j Giống như định lý 1, định lý 3 chứng minh một cơ
sở như vậy được xây dựng bằng cách giãn nở và dịch chuyển hàm ψ(x)
Định lý 3 [4]: Gọi ( )V 2 j j Z
∈ là một chuỗi không gian vector đa phân giải, φ(x) là hàm giãn nở, và H là bộ lọc liên hợp tương ứng Gọi ψ(x) là một hàm có biến đổi Fourier như sau:
) 2 (
~ ) 2 ( ) (
2 ψ là một cơ sở trực chuẩn của L2(R)
ψ(x) được gọi là một wavelet trực chuẩn
Để tạo ra một wavelet, chúng ta tìm một hàm H(ω) thõa mãn các điều kiện (1.29a) – (1.29c) của định lý 2, sau đó tính toán hàm giãn nở φ(x) theo phương
trình (1.30), và wavelet ψ(x) theo phương trình (1.33)
Một đặc điểm quan trọng của các hàm wavelet là chúng biễu diễn tín hiệu trong cả miền thời gian và miền tần số Tùy theo lựa chọn H(ω) mà hàm giãn nở φ(x) và wavelet ψ(x) có thể định vị tốt trong cả miền thời gian và miền tần số Việc xác định vị trí của một hàm wavelet có thể mô tả bằng một hộp Heisenberg [1] trong miền thời gian – tần số
Đây là giới hạn về vị trí chính xác mà một hàm wavelet có thể thực hiện được Giới hạn này được xác định bởi nguyên lý bất định Heisenberg (tương tự
Trang 28như giới hạn về đo đạc chính xác vị trí và vận tốc chuyển động mà chúng ta đã biết trong vật lý được cho bởi:
σωσt ≥ ½ ) , trong đó σω, σt lần lượt là những độ rộng của hộp Heisenberg theo tần số và thời gian Một cách trực quan, wavelet và các kiểu biễu diễn đa phân giải khác có thể xem như là những lớp mặt phẳng kết hợp thời gian-tần số với hộp Heisenberg Các hộp Heisenberg lợp trên mặt phẳng với sự hỗ trợ hiệu quả của tập hợp các hàm wavelet được tạo ra bằng cách kết hợp dịch chuyển và giãn nở hàm wavelet
mẹ Trong phương trình (1.21), j là hệ số giãn nở và biểu diễn cho sự co lại hoặc
giãn ra của hàm wavelet Nói chi tiết hơn, giãn nở thay đổi tần số trung tâm của wavelet, co lại hoặc giãn nó ra từ [π, 2π] đến [2jπ, 2j+1π] Trong phương trình
(1.21), dịch chuyển được thực hiện bởi hệ số n và có thể xem là sự xác định vị trí
tín hiệu trong miền thời gian với t = 2-jn
ω
t0
Trang 29Hình 1.5 trình bày một số họ wavelet phổ biến 1-D Chú ý là hình dạng của các wavelet thay đổi bất thường Sử dụng các wavelet này, chúng ta hoàn toàn có thể xem xét tín hiệu trên miền thời gian- tần số đồng thời
Hình 1.5 Những ví dụ về hàm wavelet mẹ và hàm scaling Hàng thứ nhất: Haar Hàng thứ hai: Daubechie 6 Hàng thứ ba: trực giao 2.8 Hàng thứ tư: Meyer 8
Trang 30Hình 1.6 cho thấy các biễu diễn tín hiệu của phép lấy mẫu trong miền thời
gian, phép biến đổi Fourier, phép biến đổi cửa sổ Fourier và phép biến đổi wavelet
Hình 1.6 A) biễu diễn tín hiệu lấy mẫu trong miền thời gian
B) biễu diễn theo biến đổi Fourier C) biễu diễn theo cửa sổ Fourier
D) Biểu diễn theo wavelet
Như ta thấy, biễu diễn tín hiệu lấy mẫu trong miền thời gian chỉ cho ta biết thông tin trong miền thời gian, biễu diễn theo biến đổi Fourier chỉ cho ta thông tin về tín hiệu trong miền tần số Biễu diễn theo cửa số Fourier như là lấy mẫu đều tín hiệu trong cả miền thời gian và tần số và sẽ không hiệu quả khi xem xét tín
Trang 31hiệu ở vùng tần số cao Đối với biễu diễn wavelet, nếu ta lấy mẫu mịn trong miền tần số thì tương ứng với lấy mẫu thô trong miền thời gian và ngược lại Gọi P O j
2 là phép chiếu vuông góc trên không gian vector O2j Theo định lý
3, phép toán này có thể được viết như sau:
)2()2(),(2
)
2
n x n
u u
f x
f P
n
j j
()(()2(),
u f f
Với mọi J > 0, tín hiệu rời rạc ban đầu A d f
1 có thể được biểu diễn bởi:
( 2− , ( 2 )−J≤j −1)
d f D f
Tập hợp tín hiệu rời rạc này được gọi là biễu diễn wavelet trực giao và bao
gồm một tín hiệu xấp xỉ d
J
A2 − và các tín hiệu chi tiết tại các độ phân giải 2j với –J
≤ j ≤ -1 Biễu diễn này có thể xem như là phân rã tín hiệu trên một tập hợp những kênh tần số độc lập Sự độc lập này là do tính chất trực giao của các hàm wavelet
Trang 321.5.1.2 Thực hiện biễu diễn wavelet trực giao
Với mọi n ∈ Z, hàm 2 (x 2 j n)
j − −
ψ là một thành phần của O2j ⊂V2j+ 1 Hàm này có thể được mở rộng trong cơ sở trực chuẩn V2j+ 1:
)2()
2(),2(2
)2
2
1 2
j j
j j
)) 2 ( ( ), ( )
2 ( ), 2 (
1 2
2 (
),
2 2
~ )
2 ( ),
2
2 u n g n k f u 1 u k u
Phương trình (1.33) của định lý 3 cho biết đáp ứng xung của bộ lọc G quan
hệ với đáp ứng xung của bộ lọc H như sau:
Trang 33G là bộ lọc phản xạ (mirror filter) của bộ lọc H và là bộ lọc thông cao Trong xử
lý tín hiệu, G và H được gọi là các bộ lọc phản xạ cầu phương (quadrature mirror filter)
1.5.1.3 Tái tạo từ biễu diễn wavelet trực giao
Bởi vì O2j là phần bù trực giao của V2j trong V2j+ 1,
j j
) 2
2 2
1
k
j j
j j
j j
j
j j
) 2 (
),
2 2
j j
j j
Hình 1.7 Phân rã một xấp xỉ rời rạc A d f
2 j+ 1 thành một xấp xỉ ở độ phân giải thô A d f
2 j và tín hiệu chi tiết D2 jf Bằng cách lặp lại giải thuật này với -1≥ j ≥ -J, chúng ta tính được biểu diễn wavelet của tín hiệu A d f
1 ở độ phân giải mức J
Trang 34f k n
1 , chúng ta có thể khôi phục tại tín hiệu xấp xỉ liên tục A1f(x)
1, chúng ta có thể tái tạo A d f
1 từ biểu diễn wavelet của nó
Trang 351.5.1.4 Biểu diễn wavelet trực giao đối với ảnh
Aûnh là một hàm f(x,y) có năng lượng xác định, f(x,y) ∈ L2(R2) Một xấp xỉ
đa phân giải của L2(R2) là một chuỗi các không gian con của L2(R2) thỏa mãn các tính chất (1.14) đến (1.20) Gọi (V2j)j∈Z là một xấp xỉ đa phân giải của L2(R2) Một xấp xỉ của tín hiệu f(x,y) ở độ phân giải 2j là các hình chiếu của nó trên không gian vector V2j Định lý 1 vẫn đúng với tín hiệu hai chiều: tồn tại duy nhất
một hàm giãn nở φ(x,y) sao cho giãn nỡ và dịch chuyển của hàm này tạo ra một
cơ sở trực chuẩn của không gian V2j Đặt ( , ) 2 2 ( 2 , 2 )
tạo nên một cơ sở trực chuẩn của V2j Đối với mỗi xấp xỉ đa phân giải của
L2(R2), hàm φ(x,y) là duy nhất
GS Meyer [1] đã nghiên cứu về xấp xỉ đa phân giải có thể tách rời của
L2(R2) Với mỗi xấp xỉ đa phân giải như vậy, mỗi không gian vector V2j có thể phân rã thành hai không gian con giống nhau của L2(R)
1 2
1 2
2j V j V j
Chuỗi các không gian vector ( )V2j j∈Z thành lập một xấp xỉ đa phân giải của
L2(R2) khi và chỉ khi ( )V1j j∈Z
2 là một xấp xỉ đa phân giải của L2(R) Lúc này, hàm φ(x,y) có thể viết lại như sau:
φ(x,y) = φ(x).φ(y) trong đó φ(x) là hàm giãn nỡ một chiều của xấp xỉ đa phân giải ( )V1j j∈Z
2 Cơ sở trực giao của V2j là:
Z m n j j
Trang 36Xấp xỉ của tín hiệu f(x,y) tại độ phân giải 2 được mô tả bởi tập hợp các tích trong:
Z m n j j
Định lý 4 [4]: Gọi ( )V2j j∈Z là một xấp xỉ đa phân giải có thể tách được của
L2(R2), φ(x,y) = φ(x).φ(y) là hàm giãn nở hai chiều và Ψ(x) là hàm wavelet một chiều tương ứng với hàm giãn nở φ(x) thì ba wavelet sau
) ( ) ( ) , ( ), ( ) ( ) , ( ), ( ) ( ) ,
3 2
2 2
1 2
))2,2(2
),2,2(2
),2,2(2(
Z m n j j
j
j j
j
j j
j
m y
n x
m y
n x
m y
n x
j j j
3 2
2 2
1 2
))2,2(2
),2,2(2
),2,2(2(
Z m n j j j
j
j j
j
j j
j
m y
n x
m y
n x
m y
n x
j j j
ψ
(1.49)
là một cơ sở trực chuẩn của L2(R2)
Thông tin khác biệt giữa A d f
Trang 37( )( , ) 2
2 2
2
Z m n j
j n y m x
y x f f
3
Z m n j
j n y m x
y x f f
Z m n j j
j n m y
x y
x f f
Phân rã wavelet được xem như là một phân rã tín hiệu thành một tập hợp các kênh tần số độc lập, có hướng Giả sử ảnh A d f
tương ứng với thành phần tần số cao theo chiều đứng, D j f
2
2 tương ứng với thành phần tần số cao theo chiều ngang, và D j f
3
2 theo đường chéo
Với mọi J > 0, một ảnh A d f
1 hoàn toàn có thể được biểu diễn bởi 3J+1 các ảnh rời rạc:
3 2 1
2 2 1
1 2
Trang 38độ phân giải và các hướng khác nhau Nếu ảnh gốc có N pixel thì mỗi ảnh A d f
1.5.2 Các băng lọc
Hình 1.9 trên mô tả một băng lọc phân tích với một ngõ vào x(n) và hai ngõ
ra x0(n) và x1(n) Tín hiệu ngõ vào x(n) được xử lý theo hai nhánh Ở nhánh trên, x(n) đi qua bộ lọc thông thấp H0(ejw) và giảm tốc độ lấy mẫu cho 2 Ở nhánh dưới, x(n) đi qua bộ lọc thông cao H1(ejw) và cũng giảm tốc độ lấy mẫu cho 2 Giả sử tín hiệu x(n) có số mẫu N là số chẳn và x(n) là tín hiệu tuần hoàn Lúc đó, tín hiệu ở mỗi ngõ ra cùng tuần hoàn và có chu kỳ là N/2 mẫu Vì vậy, băng lọc phân tích được xem như là phép biến đổi ánh xạ tập hợp N mẫu tín hiệu ban đầu {x(n)} vào một tập hợp mới N mẫu {x0(n), x1(n)}
Hình 1.10 biểu diễn một băng lọc tổng hợp Ơû đây có hai ngõ vào y0(n) và
y1(n), và một ngõ ra y(n) Ngõ vào y0(n) được tăng tốc độ lấy mẫu và đưa qua bộ lọc thông thấp G (ejw) Ngõ vào y (n) cũng được xử lý tương tự nhưng được đưa
↓2
H0(ejw)x(n)
x0(n)
Hình 1.9 Băng lọc phân tích, với bộ lọc thông thấp
H0(ejw) và bộ lọc thông cao H1(ejw)
↓2
Trang 39ra y(n) Giả sử hai tín hiệu y0(n) và y1(n) đều là hai tín hiệu tuần hoàn có chu kỳ N/2 Tín hiệu ngõ ra y(n) cũng sẽ là tín hiệu tuần hoàn nhưng có chu kỳ là N Vì vậy, băng lọc tổng hợp được xem như là phép biến đổi ánh xạ tập hợp N mẫu ban đầu {y0(n), y1(n)} vào một tập hợp mới N mẫu {y(n)}
Khi ta đưa các ngõ ra x0(n), x1(n) của băng lọc phân tích vào các ngõ vào của băng lọc tổng hợp, với một số điều kiện xác định cụ thể của bốn bộ lọc
H0(ejw), H1(ejw), G0(ejw), G1(ejw) thì ngõ ra y(n) của hệ thống phân tích/tổng hợp
trên giống với ngõ vào x(n) của nó Điều kiện này gọi là điều kiện khôi phục lý
tưởng Ví dụ: h0(n) và g1(n) là các xung đơn vị và h1(n) và g0(n) là bộ trễ 1 đơn vị Trong trường hợp này, dễ dàng chứng minh được ngõ ra là y(n) = x(n-1)
Với thêm một số điều kiện của các bộ lọc, phép biến đổi phân tích và tổng hợp của các băng lọc là trực chuẩn Trực chuẩn có ý nghĩa bao hàm năng lượng của các mẫu được bão toàn Nếu những điều kiện trên được thõa mãn, các bộ lọc sẽ có đặc điểm nổi bật như sau: các bộ lọc tổng hợp là đảo thời gian (time-reversed) của các bộ lọc phân tích, các bộ lọc thông cao là phiên bản được điều chỉnh từ những bộ lọc thông thấp, g0(n) = (-1)nh1(n), g1(n) = (-1)n+1h0(n) và h1(n) = (-1)-nh0(K-n), với K là một số tự nhiên Các bộ lọc này được biết như là các bộ
y(n)
y0(n)
Hình 1.10 Băng lọc tổng hợp, với bộ lọc thông thấp
G0(ejw) và bộ lọc thông cao G1(ejw)
y1(n)
Trang 40lọc phản chiếu vuông góc QMF (quadrature mirror filter) hay là các bộ lọc liên hợp vuông góc CQF (conjugate quadrature filters), hay là các bộ lọc bù công suất PCF (power-complementary filters) bởi vì cả hai bộ lọc thông thấp (hoặc tương tự là thông cao) đều có đáp tuyến tần số giống nhau và đáp tuyến tần số của các bộ lọc thông thấp và thông cao liên hệ nhau theo đặc điểm bù công suất | H0(ejw) |2 +
| H1(ejw) |2 = 2 Bộ lọc h0(n) được xem là bộ lọc mẫu bởi vì nó tự quyết định ba bộ lọc còn lại
Nếu bộ lọc mẫu H0(ejw) bằng 0 tại tần số w = π, các bộ lọc này được gọi là các bộ lọc wavelet hay các bộ lọc chính quy Ví dụ, ta có bộ lọc mẫu bốn bước do
GS Daubechies [3] đưa ra:
h0(n) = ( 1 3 , 3 3 , 3 3 , 1 3 )
2 4
1
−
− + +
1.5.3 Phân rã wavelet
Lọc theo chiều ngang Lọc theo chiều dọc