Biến đổi Wavelet liên tục( CWT)

Gọi f(x) là tín hiệu 1-D, phép biến đổi Wavelet liên tục của f(x) sử dụng hàm Wavelet được biểu diễn bởi:

W(s,b)=

√ ∫ ( ) . / (3.1)

Trong đó:

W(s,b) là hệ số biến đổi Wavelet liên tục của f(x), với s là tỉ lệ(nghịch đảo của tần số) và b là dịch chuyển đặc trưng vị trí.

là liên hiệp phức của Wavelet được gọi là hàm Wavelet phân tích.

Phương trình (2.1) cho thấy phép biến đổi Wavelet là một ánh xạ chuyển từ hàm 1 biến f(x) thành hàm W(s,b) phụ thuộc hai biến số là biến tỉ lệ s và biến dịch chuyển b. Hệ số chuẩn hóa 1/√ trong (3.1) đảm bảo cho sự chuẩn hóa sóng Wavelet sao cho || ( )||= || ||.

3.1.1.2 Biểu diễn các hệ số Wavelet

Có hai cách biểu diễn các hệ số wavelet. Thứ nhất, biểu diễn các hệ số wavelet W(s, b) trong hệ tọa độ ba trục vuông góc( x, y, z) với trục x biểu diễn tham số dịch chuyển( vị trí) b, trục y biểu diễn tham số tỉ lệ( là nghịch đảo tần số) s, và trục thẳng đứng z biểu diễn hệ số wavelet W. Thứ hai, biểu diễn các hệ số W(s, b) trong mặt phẳng không gian- tỉ lệ (x,s) ở dạng các đường đẳng trị hay dạng ảnh,cách biểu diển này thông dụng trong xử lý ảnh.

3.1.1.3 Phép biến đổi Wavelet nghịch

Nếu phép biến đổi Wavelet thuận có dạng (2.1) thì phép biến đổi Wavelet nghịch có dạng:

( ) ∫ ∫ ( ) ( ) (3.2) Trong đó:

là hằng số phụ thuộc vào hàm Wavelet được sử dụng

Công thức (3.2) cho phép khôi phục lại tín hiệu nguyên thủy từ các hệ số biến đổi Wavelet bằng phép tính tích phân theo toàn bộ các tham số tỉ lệ s và dịch chuyển b.

3.1.1.4 Phép biến đổi Wavelet liên tục hai chiều và nhiều chiều

Phép biến đổi 2-D được cho bởi phương trình:

( ) ∫ ( ) ( ) (3.3)

Trong đó: R( x1,x2) là vector tọa độ gồm hai thành phần x1 và x2 thỏa mãn hệ thức:

B( b1,b2) là vector vị trí có hai thành phần thỏa hệ thức:

Hệ số 1/s để chuẩn hóa năng lượng của sóng Wavelet 2-D, được suy ra từ trường hợp 1-D. Tín hiệu f(R) là hàm hai biến không gian theo x1 và x2.

Phép biến đổi Wavelet nghịch 2-D được viết dưới dạng:

( ) ∫ ∫ ( ) . / (3.4)

Phép biến đổi Wavelet n chiều(n>2) có thể xây dựng đơn giản bằng cách mở rộng số phần tử trong các vector R và B đến n giá trị theo cách biểu diễn:

R(x1,x2,…,xn) và B(b1,b2,…,bn) (3.5) Hàm Wavelet ( )(R) trong không gian n-D được viết ở dạng:

( )(R) = (

) ( ) (3.6) Nên phép biến đổi Wavelet n-D được viết ở dạng:

( ) (

)∫ ( ) ( ) (3.7)

Và phép biến đổi Wavelet nghịch n-D có dạng:

Chương 3: Kỹ thuật truy vấn ảnh dựa trên Wavelet

3.1.1.5 Rời rạc hóa phép viến đổi Wavelet liên tục

Để tính các hệ số của phép biến đổi Wavelet liên tục trên máy tính, hai tham số tỉ lệ và tịnh tiến không thể nhận các giá trị liên tục mà nó phải là các giá trị rời rạc.

3.1.1.6 Hiệu ứng biên

Khi lấy biến đổi Wavelet của tín hiệu hữu hạn và rời rạc, do ảnh hưởng bởi tích trong của hàm Wavelet với các giá trị lân cận trên các biên của tín hiệu nên giá trị của hệ số Wavelet bị biến đổi khá mạnh, hiện tượng này gọi là hiệu ứng biên. Sự biến dạng do hiệu ứng biên càng lớn khi thực hiện phép biến đổi Wavelet với các tỉ lệ lớn.

3.1.2 Biến đổi Wavelet rời rạc( DWT)

3.1.2.1 Phép biến đổi Wavelet rời rạc và phân tích đa phân giải

Mối quan hệ giữa hàm tỉ lệ và hàm Wavelet được cho bởi:

( ) ∑

( ) (3.9)

(x) = = ∑ ( )

( ) (3.10)

Các phép lọc được tiến hành với nhiều tầng khác nhau và để khối lượng tính toán không tăng, khi qua mối bộ lọc tín hiệu được lấy mẫu xuống 2.

Ứng với mỗi tầng, tín hiệu có độ phân giải khác nhau. Do đó phép biến đổi Wavelet rời rạc được gọi là phân tích đa giải( MRA).

Tại mỗi tầng lọc, biểu thức của phép lọc được cho bởi công thức:

( ) ∑ ( ) ( ) (3.11)

( ) ∑ ( ) ( ) (3.12)

Trong đó: S(n) là tín hiệu, h(n) là đáp ứng xung của các bộ lọc tương ứng với hàm tỉ lệ 𝟇(n) và g(n) là đáp ứng xung của các bộ lọc thông cao tương ứng với hàm Wavelet (n). Hai bộ lọc này liên hệ nhau theo hệ thức:

H(N-1-n)=( ) g(n) (3.13) Trong đó: N là số mẫu của tín hiệu

Hình 3.1: Phân tích đa phân giải sử dụng biến đổi Wavelet rời rạc

Tín hiệu S(n) có thể được tái tạo theo các bước ngược lại gọi là phép biên đổi Wavelet rời rạc nghịch( IDWT) được cho bởi:

S(n) = ∑ ( ( ) ( )) ( ( ) ( )) (3.14) Trong đó: ( ) ( ) lần lượt là tín hiệu ngõ ra sau khi qua các bộ lọc thông cao và thông thấp.

3.1.2.2 Phép biến đổi Wavelet rời rạc hai chiều:

Gọi x, y là hai trục tọa độ của tín hiệu 2-D, L là phép lọc thông thấp, H là phép lọc thông cao, phép biến đổi Wavelet rời rạc 2-D được tính cụ thể như sau:

( )( ) ( ) ( ) :LL (3.15) ( )( ) ( ) ( ) :LH (3.16)

( )( ) ( ) ( ) :HL (3.17) ( )( ) ( ) ( ) :HH (3.18)

Chương 3: Kỹ thuật truy vấn ảnh dựa trên Wavelet

Hình 3.2: Phép biến đổi Wavelet rời rạc 2-D

3.2 Kỹ thuật truy vấn ảnh dựa trên Wavelets

3.2.1 Giới thiệu về kỹ thuật truy vấn ảnh dựa trên Wavelets

Truy vấn ảnh dựa trên Wavelet sử dụng phép biến đổi Wavelet để trích các đặc trưng cục bộ của ảnh, bao gồm đặc trưng màu và đặc trưng cấu trúc. Khi một bức ảnh được đưa vào phân tích, ta biến đổi ảnh thành 4 ảnh băng tần con bằng việc sử dụng biến đổi Wavelet. 4 ảnh con đó bao gồm: ảnh chứa tần số thấp-gần giống với ảnh gốc nhất, gọi là gần đúng(LL); ảnh chứa tần số cao gọi là chi tiết ngang( LH); ảnh chứa tần số cao gọi là chi tiết dọc( HL); và ảnh bao gồm cả chi tiết dọc và chi tiết ngang(HH).

Để nâng cao cấu trúc và độ mạnh của các cạnh, ta kết hợp chi tiết dọc và chi tiết ngang vào một ma trận khác. Bước tiếp theo, ta ước lượng các điểm quan trọng bằng một ngưỡng giá trị cao. Sau đó tọa độ điểm quan trọng sẽ được trích từ ảnh, tọa độ các điểm quan trọng sẽ được sử dụng để biết các thông tin quan trọng nhất của bức ảnh và chuyển sang một vùng nhỏ hơn. Dựa vào tọa độ các điểm quan trọng này, chúng ta sẽ trích các đặc trưng màu và đặc trưng cấu trúc của ảnh một cách cục bộ.

Hình 3.3 sơ đồ khối của kỹ thuật truy vấn ảnh dựa trên Wavelets.

3.2.2 Bộ lọc Gabor

Hàm 1-D Gabor được định nghĩa bởi Gabor(1946) và sau đó được mở rộng ra 2-D bởi Daugman(1985). Bộ lọc Gabor 2-D là một lưới sóng sine phức có hướng được cho bởi công thức:

Hình 3.2: Sơ đồ khối kỹ thuật truy vần ảnh dựa trên Wavelet Trong đó: , ( ) (3.20) là tần số của hàm sin là tỉ lệ của bộ lọc là hướng của bộ lọc

(x,y) là hàm Gaussian với thông số tỉ lệ

Hàm của bộ lọc Gabor (x,y) có dạng phức. Phân tích hàm Gabor

(x,y) thành phần thực và phần ảo ta được:

(x,y)= (x,y) + (x,y) (3.21) Trong đó: (x,y) = ( ) , ( )- (3.22) (x,y) = ( ) , ( )- (3.23) Ảnh đầu vào Các ảnh ngõ ra gần giống nhất với ảnh ngõ vào Tiền xử lý ảnh Lọc Gabor Biến đổi Wavelet So sánh với cơ sở dữ liệu ảnh Trích chi tiết dọc và ngang Các đặc trưng cục bộ của ảnh Trích đặc trưng màu Đặc trưng cấu trúc Đặc trưng màu

Chương 3: Kỹ thuật truy vấn ảnh dựa trên Wavelet

Ngõ ra bộ lọc Gabor của ảnh f(x,y) đạt được bằng cách chập ảnh với hàm Gabor

(x,y):

( | ) ∑ ∑ ( ) ( ) (3.24)

( | ) ∑ ∑ ( ) ( ) (3.25) Với cửa sổ của bộ lọc có kích thước WxW, trong đó W=2k+1

Năng lượng của bộ lọc được tính như sau:

( | ) ( | ) ( | ) (3.26)

3.2.3 Đặc trưng cấu trúc và đặc trưng màu

3.2.3.1 Đặc trưng cấu trúc

Cấu trúc bao gồm sự lặp lại mô hình của sự biến đổi cục bộ cường độ ảnh. Cấu trúc là đặc tính quan trọng trong nhận dạng bề mặt và vật thể. Thông tin cấu trúc được trích từ ảnh là đặc trưng điển hình trong truy vấn ảnh.

Cấu trúc là đặc tính được phân phối thống kê cường độ ảnh sử dụng năng lượng của bộ lọc Gabor 7x7 pixel.

3.2.3.2 Đặc trưng màu

Màu được tạo ra bởi phổ ánh sáng được hấp thụ hoặc phản xạ, sau đó được tiếp nhận bởi mắt người, và được xử lý bởi não. Để trích đặc trưng màu, moment thống kê thứ nhất và moment thống kê thứ hai được sử dụng. Không gian màu HSV tương tự như hệ thống nhận thức màu của người, vì vậy ta sử dụng nó để trích đặc trưng màu trong không gian màu HSV ở lân cận các điểm quan trọng với kích thước 3x3 pixel.

Moment thống kê thứ nhất được biểu diễn:

𝜇 =

∑ ∑ ( ) (3.27)

Trong đó:

p(i,j): giá trị của pixel

MxN: kích thước của điểm quan trọng và lân cận của nó Moment thống kê thứ hai được biểu diễn như sau:

= √ ∑ ∑ ( ( ) 𝜇) (3.28) Trong đó:

p(i,j): giá trị của pixel

𝜇: giá trị của moment thống kê thứ nhất

MxN: kích thước của điểm quan trọng và lân cận của nó

3.2.4 Thuật toán truy vấn ảnh

Bước 1: Đọc ảnh yêu cầu(ảnh ngõ vào) và chuyển từ ảnh RGB sang ảnh gray và ảnh HSV. Sau đó phân tích sử dụng biến đổi Wavelet.

Bước 2: Lấy trị tuyệt đối tất cả các hệ số Wavelet: Wcnew= |WCold|

Bước 3: Kết hợp chi tiết dọc và chi tiết ngang: CVdHd(i,j) = max(Vd(I,j),Hd(I,j))

Bước 4: Chọn các điểm quan trọng trên ma trận CVdHd(i,j) bởi ngưỡng giá trị cao.

Bước 5: Chọn các điểm trong ảnh HSV và lân cận của nó( 3x3 pixel) dựa vào tọa độ điểm quan trọng trong ma trận CVdHd(i,j), sau đó hình thành vector đặc trưng màu bằng cách sử dụng moment thống kê thứ nhất và moment thống kê thứ hai.

Bước 6: Hình thành vector đặc trưng cấu trúc bằng việc sử dụng bộ lọc Gabor 7x7 pixel lân cận điểm quan trọng. Và tiến hành chuẩn hóa tất cả các vector đặc trưng.

Bước 7: Đo khoảng cách giữa vector đặc trưng của ảnh yêu cầu và vector đặc trưng của các ảnh trong cơ sở dữ liệu bằng cách sử dụng khoảng cách Eclic sau đó hiển thị kết quả là danh sách các ảnh gần giống ảnh yêu cầu nhất có trong cơ sở dữ liệu.

3.2.5 So sánh độ tương đồng của ảnh và đánh giá hiệu suất của hệ thống

Kết quả truy vấn không chỉ là một ảnh đơn mà là danh sách các ảnh được sắp xếp theo mức độ tương đồng với ảnh yêu cầu. Độ tương đồng được tính toán bằng cách sử dụng khoảng cách Eclic giữa vector đặc trưng của ảnh yêu cầu và vector đặc trưng của ảnh trong cơ sở dữ liệu.

FQ( Q1,Q2,…,Qn)

Chương 3: Kỹ thuật truy vấn ảnh dựa trên Wavelet

Dis(FQ,FD) = √∑ ( ) (3.29) Trong đó:

FQ: vector đặc trưng của ảnh yêu cầu

FD: vector đặc trưng của ảnh trong cơ sở dữ liệu n: số phần tử của vector đặc trưng

Nếu khoảng cách giữa vector đặc trưng của ảnh yêu cầu và vector đặc trưng ảnh trong cơ sở dữ liệu là nhỏ, thì chúng được xem là tương đồng nhau.

Hiệu suất của hệ thống CBIR được đánh giá bằng việc xem xét hai hệ số: độ chính xác(precision) và độ truy hồi( recall).

Precision =

(3.30) Trong đó:

NNRI: số ảnh được truy vấn thỏa mãn(giống với ảnh yêu cầu)

XR: tổng số ảnh được truy vấn

Recall=

(3.31) Trong đó:

NNRI: số ảnh được truy vấn thỏa mãn(giống với ảnh yêu cầu)

Chương 4

MÔ PHỎNG KỸ THUẬT TRUY VẤN ẢNH DỰA TRÊN WAVELET

4.1 Đặt vấn đề mô phỏng trên matlab

4.1.1 Cơ sở dữ liệu ảnh

Cơ sở dữ liệu ảnh dùng trong đề tài để mô phỏng sử dụng cơ sở dữ liệu ảnh của Wang [1] gồm 1000 với 10 chủ đề khác nhau. Ảnh có định dạng JPG, kích thước 256x384 pixel và 384x256 pixel.

4.1.2 Ảnh đầu vào và các tác nhân gây ảnh hưởng

Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (như loại CCD – Charge Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều. Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh, có thể quét từ ảnh chụp bằng máy quét ảnh.

Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh).

4.1.2.1 Sự mờ ảnh

Sự làm mờ hay sự phai nhạt của một ảnh có thể gây ra bởi nhiều tác nhân :

- Chuyển động trong khi chụp ảnh (gây ra bởi camera) hoặc khi thời gian lộ sáng nhiều được sử dụng (gây ra bởi vật).

- Ngoài vùng tiêu cự của ống kính , sử dụng một ống kính có góc mở rộng , sự hỗn loạn của môi trường , thời gian lộ sáng ngắn … sẽ làm giảm số lượng phôtôn được bắt giữ (captured).

Thuật ngữ Point spread function (PSF): Trong miền không gian , PSF diễn tả cấp bậc mà một hệ thống quang học làm mờ một điểm sáng.

Một ảnh bị mờ hay bị phai nhạt có thể được mô tả vắn tắt bởi phương trình g=Hf+n trong đó :

Chương 4: Mô phỏng kỹ thuật truy vấn ảnh dựa trên Wavelet

- g : Ảnh bị mờ

- H : Tác nhân làm méo cũng được gọi là PSF .

- f : Ảnh gốc

- n : Nhiễu phụ , được tạo ra trong quá trình nhận ảnh , nó làm hỏng ảnh

Chú ý : Ảnh f thực tế không tồn tại . Ảnh này đại diện cho bức ảnh mà ta có nếu tình trạng thu nhận ảnh là hoàn hảo.

4.1.2.2 Sự mở rộng nhiễu

Sự mở rộng nhiễu là một vấn đề thường gặp của phương pháp giống cực đại (maximum likelihood ) cố gắng lấp đầy dữ liệu gần nhất có thể . Sau một số vòng lặp , ảnh được khôi phục có thể có hình lốm đốm , đặc biệt với một đối tượng phẳng được quan sát tại tỉ số tín hiệu / nhiễu nhỏ . Những đốm này không đại diện cho bất kì một cấu trúc nào trong ảnh thực nhưng là giả tạo của việc làm khớp nhiễu trong ảnh quá gần .

4.1.3 Tiền xử lý ảnh

Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn.

4.1.3.1 Khôi phục ảnh mờ

Toolbox xử lý ảnh của Matlab gồm có 4 hàm khôi phục ảnh mờ bao gồm :

- deconvwnr : Sử dụng bộ lọc Wiener

- deconvreg : Sử dụng bộ lọc được quy tắc hoá

- deconvlucy : Sử dụng giải thuật Lucy-Richardson

- deconvblind : Sử dụng giải thuật blind deconvolution

Tất cả những hàm này chấp nhận một PSF và một ảnh bị mờ như là các tham số chính của nó .Với hai hàm deconvwnr và deconvreg, ta cung cấp một số thông tin về nhiễu để giảm sự khuếch đại nhiễu đến mức có thể trong quá trình khôi phục .

Hàm deconvlucy thi hành một cách nhanh chóng giải thuật Lucy-Richardson . Hàm này thực hiện nhiều vòng lặp , sử dụng kĩ thuật tối ưu và thống kê Poisson . Với hàm này, ta không cần phải cung cấp thông tin về nhiễu phụ trong ảnh bị “bẩn”. Hàm này

có thể được sử dụng hiệu quả khi biết được hàm PSF nhưng biết ít về nhiễu tác động phụ lên ảnh.

Hàm deconvblind thi hành giải thuật blind deconvolution mà không cần nhận ra PSF . Khi ta gọi hàm deconvblind , ta truyền một tham số như là giá trị đoán biết ban đầu ở PSF . Hàm deconvblind trả lại một PSF đã được khôi phục để khôi phục ảnh . Sự thi hành sử dụng cùng chế độ suy giảm và lặp như hàm deconvlucy . Hàm này được sử dụng hiệu quả khi không có thông tin về mờ hoặc nhiễu.

Từ các nhận xét phía trên, có thể thấy hàm deconvblind là thích hợp cho việc lựa chọn giải thuật xử lý ảnh mờ trong việc truy vấn ảnh khi ta không có thông tin nào về mờ hoặc nhiễu đối với 1 bức ảnh được đưa vào truy vấn.

Các bước khử mờ dùng hàm deconvblind:

- Đọc một ảnh vào không gian làm việc

- Tạo hàm PSF để làm mờ ảnh

- Tạo mờ trên ảnh

- Khử mờ ảnh, tạo một sự ước lượng ban đầu cho kích thước của PSF

4.1.3.2 Giảm nhiễu

Để điều khiển sự mở rộng nhiễu , hàm deconvlucy sử dụng một tham số gọi là DAMPAR . Tham số này chỉ ra mức ngưỡng cho độ lệch của ảnh kết quả so với ảnh gốc . Với các pixel mà lệch khỏi vùng lân cận của các giá trị gốc của chúng , vòng lặp bị treo .

Damping cũng được sử dụng để giảm rung ( ringing ) – hình dạng của cấu trúc tần số cao trong ảnh khôi phục . Ringing không cần thiết đến kết quả của mở rộng nhiễu .

Chương 4: Mô phỏng kỹ thuật truy vấn ảnh dựa trên Wavelet

Làm trơn nhiễu bằng lọc phi tuyến

Truy vấn ảnh theo ngữ nghĩa