Mô tả hình dạng (Shape Descriptor)

Mô tả hình dạng là một tập các sốđược sinh ra nhằm miêu tả các đặc trưng hình dạng (shape feature). Rút trích đặc trưng hình dạng (shape feature extraction) và biểu diễn chúng đóng một vai trò quan trọng trong việc truy xuất hình dạng, nhận dạng và phân loại, xấp xỉ và đơn giản hóa hình dạng,…

Rất nhiều phương pháp miêu tả shape và đo độ tương đồng đã được phát triển trước đây, gần đây cũng có một số phương pháp mới được giới thiệu. Có ba phương pháp phân loại chính như sau:

• Phương pháp dựa trên đường viền (contour-based) và dựa trên miền (region- based). Đây là những phương pháp phân loại quen thuộc và phổ biến được đề xuất bởi MPEG-7. Mỗi phương pháp lại được xếp vào một trong hai cách tiếp cận: tiếp cận có cấu trúc hoặc là tiếp cận tổng thể tùy thuộc vào việc nó miêu tả shape như là một khối tổng thể hay là những phần/vùng con.

• Phương pháp miền không gian và miền biến đổi. Các phương pháp trong miền không gian so khớp các shape dựa vào các điểm (hoặc đặc trưng điểm) cơ sở, trong miền đặc trưng thì dựa trên các đặc trưng (vectơ) cơ sở.

• Information Preserving (IP) và Non-information Preserving (NIP). Các phương pháp IP giúp dựng lại shape chính xác từ descriptor của nó, trong khi NIP chỉ có thể tái tạo lại một cách không chắc chắn.

Không giống như các phương pháp phân loại truyền thống, các tiếp cận của việc rút trích đặc trưng và miêu tả dựa trên hình dạng được phân ra theo cách tiếp cận xử lý của chúng. Hình minh họa dưới đây biểu diễn hệ thống bộ phân loại của các phương pháp tiếp cận rút trích đặc trưng hình dạng:

Hình 2.1-22: Hệ thống phân loại của các phương pháp tiếp cận trong rút trích đặc trưng hình dạng.

2.1.5.a Biểu diễn hình dạng bằng hàm một chiều

Hàm một chiều thu được từ các tọa độ biên của shape thường được gọi là shape signature. Hệ tọa độ phức (Complex coordinates), hàm khoảng cách trung tâm (Centroid distance function) , Tangent angle, hàm độ cong (Curvature function), hàm diện tích (Area function), Triangle-area và hàm độ dài Chord thường được dùng làm shape signature.

Các shape signature hay được sử dụng như là phần tiền xử lý của các thuật toán rút trích đặc trưng khác, ví dụ mô tả Fourier, Wavelet…

Một số hàm shape signature thông dụng:

Hệ tọa độ phức

Hàm hệ tọa độ phức chính là số phức được sinh ra từ các tọa độ biên, Pn(x(n), y(n)), n=1,…,N

zE_I = {8E_I − l| + [{}E_I − l~|

Với (gx, gy) là trung điểm của shape.

Centroid Distance Function

Hàm khoảng cách trung tâm biểu diễn khoảng cách từ các điểm biên so với điểm trung tâm (gx, gy) của shape.

YE_I = {E8E_I − lI)+ E}E_I − l~I)|3/)

Do trừ với điểm trung tâm nên hàm hệ tọa độ phức và hàm khoảng cách trung tâm đều bất biến với phép tịnh tiến.

2.1.5.b Phương pháp mô tả Fourier một chiều

Fourier descriptor (FD) thu được bằng cách áp dụng biến đổi Fourier vào Shape Signature. Shape signature là hàm một chiều thu được từ các tọa độ biên. Các hệ số biến đổi Fourier đã được chuẩn hóa được gọi là Fourier descriptor của shape. Vậy ta thấy rằng, FD của các signature khác nhau sẽ thực thi khác nhau trong việc truy xuất shape. Theo một số bài báo thì FD từ hàm khoảng cách trung tâm (centroid distance function) r(t) thường thực thi tốt hơn các FD của các shape signature khác nói chung. Biến đổi Fourier rời rạc của hàm r(t) như sau:

6 =P Y1 EGI exp −2_GP , _ = 0, 1, … , P − 1

3 S

Vì centroid distance function r(t) chỉ bất biến với phép tịnh tiến và phép quay, các hệ số Fourier thu được cần phải được chuẩn hóa để mô tả không phụ thuộc vào điểm bắt đầu và phép dãn.

Phương pháp mô tả Fourier một chiều đã được ứng dụng thành công trong nhiều ứng dụng biểu diễn hình dạng. 1-D FD trở nên phổ biến nhờ tính đơn giản, chuẩn hóa dễ, quá trình so khớp đơn giản, hiệu quả với nhiễu. Tuy nhiên phương pháp 1-D FD này cũng có hạn chế trong nhiều trường hợp như hình minh họa bên dưới.

Hình 2.1-23: (a) Shape không có biên bao. (b) (c) 2 shape cùng biên nhưng nội dung bên trong khác nhau.

Những giới hạn này làm cho phương pháp mô tả Fourier một chiều khó trở thành một phương pháp mô tả tổng quát được.

2.1.5.c Biến đổi Polar Fourier (Polar Fourier Transform)

Biến đổi Fourier hai chiều liên tục và rời rạc của một ảnh shape f(x,y) (0 ≤ x ≤ M, 0 ≤ y ≤ N, M và N là chiều rộng và cao của ảnh) như sau:

E7, +I = DE8, }I exp{−2E78 + +}I| Z8Z}

(1.1)

E7, +I = DE8, }Iexp {−2E78 ++}P I|

3 ~ 3

(1.2) u và v trong công thức trên chính là tần số lan truyền không gian (spatial frequency) thứ u và v theo chiều ngang và dọc. Ta có thể áp dụng 2-D FT trực tiếp lên ảnh shape mà không cần có các thông tin vềđường biên của nó. Tuy nhiên, sử dụng 2-D FT lên ảnh shape trong không gian Cartesian để có được FD là không có lợi trong thực tiễn bởi vì các đặc trưng rút trích được không bất biến với phép quay. Việc bất biến với

phép quay là quan trọng bởi vì những shape giống nhau có thể quay về các hướng khác nhau.

Ví dụ, trong hình minh họa dưới đây, hai mẫu có cùng shape, tuy nhiên phân phối phổ Fourier trên mặt phẳng tần số lại khác nhau gây khó khăn cho việc so khớp hai shape.

Hình 2.1-24: (a) mẫu (b) mẫu (a) quay đi 90 độ; (c), (d) là phổ Fourier của (a) và (b).

Do vậy, ta chuyển ảnh về hệ tọa độ cực và sau đó áp dụng biến đổi Polar Fourier (PFT). Lúc này dữ liệu đầu ra của PFT sẽ bất biến với phép quay.

Để áp dụng PFT, cả f(x,y) và phổ F(u,v) phải được chuyển về không gian tọa độ cực: x = r.cosθ, y = r.sinθ u = p.cosψ, v= p.sinψ (1.3) (r, θ) là tọa độ cực trong mặt phẳng ảnh và (p, ψ) là tọa độ cực trong mặt phẳng tần số. Vi phân của x và y là: dx = cosθdr - rsinθdθ dy = sinθdr + rcosθdθ (1.4)

Ta có, Jacobian là r. Thay (1.3), (1.4) vào (1.1) ta có biến đổi Fourier cực (PFT1):

3E,ψI = ∬ YDEY, WIexp {−2Ysin EW + ψI|ZYZW (1.5) Biến đổi Polar Fourier rời rạc PFT1 sẽ là:

3=g,ψ,@ = ∑ ∑ D=Y N , WN@. r. exp {−2YgV[_EWN+ψ,I| (1.6) Với rp = p/R, θi = i(2π/T) (0 ≤ i ≤ T), ρl = l (0 ≤ l ≤ R) và ψm = mθi. R và T là giải của tần số bán kính (radial frequency) và tần số góc (angular frequency).

Các hệ số Polar Fourier thu được từ PF1(ρl,ψm) được dùng để tìm FD đã chuẩn hóa của mô tả shape.

PFT1 là kết quả trực tiếp thu được từ biến đổi cực của (1.5). Tuy nhiên, vì sự hiện diện của ψm trong hàm sin(θi + ψm), ψm không phải là tần số góc thứ m theo ý nghĩa vật lý. Các đặc trưng thu được bởi PFT1 mất đi ý nghĩa vật lý về hướng tròn. Để giải quyết vấn đề này, biến đổi Fourier cực được chỉnh lại (PFT2) bằng cách xem ảnh trong không gian tọa độ cực như là một ảnh chữ nhật hai chiều thông thường trong không gian Cartesian. Hình bên dưới minh họa rõ hơn về các ảnh tọa độ cực hình chữ nhật.

Hình 2.1-25: (a), (c), (d) là các ảnh shape gốc trong không gian tọa độ cực. (b) ảnh tọa độ cực của (a) được vẽ trong tọa độ Cartesian.

Ảnh tọa độ cực (b) trong hình minh họa trên chính là một ảnh chữ nhật chuẩn. Vì vậy, nếu áp dụng 2-D FT vào ảnh chữ nhật này, PFT sẽ có dạng giống biến đổi Fourier 2 chiều chuẩn trong không gian Cartesian.

Với 0 ≤ r < R và θi = i(2π/T) (0 ≤ i < T); 0 ≤ρ < R; 0 ≤Φ < T. T và T là giải của tần số bán kính (radial frequency) và tần số góc (angular frequency). Ý nghĩa vật lý của ρ, Φ tương tự như u, v trong (1.1) và (1.2). ρ, Φ chính là tần số bán kính và tần số góc.

Hình 2.1-26: (a), (b) là ảnh tọa độ cực của hai mẫu trong hình minh họa 6.2 (a), (b); (c), (d) là phổ Fourier của (a) và (b).

2.1.5.d Generic Fourier Descriptor

Cho một ảnh shape I = {f(x,y); 0 ≤ x < M, ; 0 ≤ y < N }. Để áp dụng PFT, ảnh shape được chuyển từ không gian Cartesian sang không gian cực Ip = {f(r, θ); 0 ≤ r < R; 0 ≤ θ < 2π}, R là bán kính lớn nhất của shape. Gốc tọa độ cực chính là trọng tâm của shape, vì vậy shape bất biến với phép tịnh tiến. Trọng tâm (xc, yc) tính như sau:

8 = 81 3 } =P }1 3 (1.8) Với (r, θ) bằng: Y = ]E8 − 8I)+ E} − }I) W = 6YTG6_8 − 8} − } (1.9) Sau đó áp dụng PFT vào Ip. Các hệ số thu được là bất biến với phép tịnh tiến vì ta dùng trọng tâm làm gốc tọa độ của không gian cực. Đểđược bất biến với phép quay ta bỏ qua thông tin pha trong hệ số. Bất biến tỉ lệ bằng cách chuẩn hóa biên độ đầu tiên cho diện tích hình tròn (area) bao quanh shape hoặc khối lượng của shape (mass) và tất

cả những biên độ còn lại được chuẩn hóa bởi biên độ đầu tiên. Các hệ số PFT đã chuẩn hóa tịnh tiến, quay và tỉ lệđược dùng làm shape descriptor.

1 = |3E0,0I|

^6VV ,|3E0,1I|

|3E0,0I| , … ,||33E0, _I|E0,0I| , … ,||33E^, 1I|E0,0I| , …||33E^, _I|E0,0I| 2 = |)E0,0I|

6Ye6 ,|)E0,1I|

|)E0,0I| , … ,||))E0, _I|E0,0I| , … ,||))E^, 1I|E0,0I| , …||))E^, _I|E0,0I|

m, n là tần số bán kính cực đại và tần số góc cực đại.

Thuật toán GFD được tóm tắt trong 4 bước chính sau: chuẩn hóa tịnh tiến, biến đổi Polar Fourier, chuẩn hóa quay và chuẩn hóa tỉ lệ.

1. Dữ liệu ảnh shape đầu vào f(x, y); 2. Tìm trọng tâm của shape là (xc, yc);

3. Đặt trọng tâm làm gốc tọa độ; /* chuẩn hóa tịnh tiến */ 4. Tìm bán kính lớn nhất của ảnh shape. 5. Biến đổi Polar Fourier Lặp tần số bán kính (rad) từ 0 đến tần số bán kính cực đại (m) Lặp tần số góc (ang) từ 0 đến tần số góc cực đại (n) Lặp x từ 0 đến chiều rộng của ảnh Lặp y từ 0 đến độ cao của ảnh { radius = sqrt[(x-xc)2+(y-yc)2];

theta = arctan2[(y-yc)/(x-xc)]; /* theta trong khoảng [-pi, +pi]*/ nếu (theta < 0) theta += 2*pi, /* chuyển theta về [0, 2pi] */

FR[rad][ang] += f(x,y)*cos[2pi*rad*(radius/maxRad)+ang*theta]; /* phần thực */ FI[rad][ang] -= f(x,y)*sin[2pi*rad*(radius/maxRad)+ang*theta]; /* phần ảo */ } 6. Tính GFD Lặp rad từ 0 đến m Lặp ang từ 0 đến n {

/* chuẩn hóa quay và tỉ lệ */ Nếu rad=0 và ang=0 thì

DC = sqrt[FR2[0][0] + FR2[0][0]]; GFD[0] = DC / (pi*maxRad2); Ngược lại

GFD[rad*n+ang] = sqrt[(FR2[rad][ang] + FI2[rad][ang])]/DC; }

Phương pháp nhận dạng Support Vector Machine (SVM)

Nhận dạng dáng điệu của tay (hand-gesture)