Trích chọn điểm bất biến tỉ lệ

5. Ý nghĩa khoa học và thực tiễn

2.1.2. Trích chọn điểm bất biến tỉ lệ

Nhƣ đã nêu ở trên, bƣớc đầu tiên sẽ tìm các điểm tiềm năng có thể trở thành điểm đặc trƣng bằng phƣơng pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc Gaussian. Trong bƣớc này, ta cần dò tìm các vị trí và các số đo (kích cỡ) mà chúng bất biến trong các khung hình khác nhau của cùng một đối tƣợng. Các vị trí đó bất biến về số đo có thể đƣợc dò tìm bằng cách tìm kiếm các đặc trƣng ổn định trên toàn bộ các số đo có thể, sử dụng một hàm liên tục về số đo vốn rất nổi tiếng có tên là hàm không gian đo (Witkin 1983).

Theo các công bố của Koenderink (1984) và indeberg (1994) thì hàm Gaussian là hàm tốt nhất để biểu diễn không gian đo của ảnh 2 chiều. Vì vậy, không gian đo của một ảnh sẽ đƣợc định nghĩa nhƣ là một hàm L x y( , , )

đƣợc tạo ra bằng cách nhân chập ảnh gốc I(x,y) với một hàm Gaussian

( , , )

( , , ) ( , , ) * ( , )

L x y  G x y  I x y (2.16) Trong đó toán hạng * là phép nhân chập các ma trận 2 chiều x,y. Và

( , , ) G x y  hàm Gaussian:  2 2/ 2 2 1 ( , , ) 2 x y G x y  e      (2.17)

Để tìm những điểm đặc trƣng có tính bất biến cao, thuật toán đƣợc sử dụng là tìm cực trị cục bộ của hàm sai khác DoG, kí hiệu là D x y( , , ) . Hàm

này đƣợc tính toán từ sự sai khác giữa 2 không gian đo cạnh nhau của một ảnh với tham số đo lệch nhau một hằng số k.

( , , ) ( , , ) ( , , ) ( , , ) ( , , )* ( , )

D x y  L x y k L x y  G x y k G x y  I x y (2.18)

Các lý do lựa chọn hàm Gaussian không chỉ vì nó là kỹ thuật rất hiệu quả để tính toán (cũng nhƣ làm tăng độ mịn của ảnh), mà thì luôn phải đƣợc tính rất nhiều để mô tả đặc trƣng trong không gian đo, và sau đó, D sẽ đƣợc tính một cách đơn giản chỉ với phép trừ ma trận điểm ảnh với chi phí thực hiện thấp.

Hơn nữa, hàm sai khác DoG có thể đƣợc sử dụng để tạo ra một sự xấp xỉ gần với đạo hàm bậc hai aplace có kích thƣớc chuẩn của hàm Gaussian (2G) do tác giả indeberg đề xuất năm 1994. Ông đã chỉ ra rằng việc chuẩn hóa đạo hàm bậc hai với hệ số 2

là cần thiết cho bất biến đo trở nên đúng. Cụ thể, ông đã công bố rằng các giá trị cực đại và cực tiểu của 2



chính là những giá trị có tính ổn định nhất (bất biến cao) so với một loạt các hàm đánh giá khác nhƣ: gradient, Hessian hay Harris.

Mối quan hệ giữa D và 2G đƣợc biễu diễn nhƣ sau: 2

G G

 



   (2.19)

Nhƣ vậy, 2G có thể đƣợc tính thông qua việc xấp xỉ sự sai khác hữu hạn G tại các tham số đo gần nhau k và  :

2 G G x y k( , , ) G x y( , , ) G k              (2.20) Do đó: 2 2 ( , , ) ( , , ) ( 1) G x y k G x y   k    G (2.21)

Từ công thức này, ta thấy khi mà hàm sai khác DoG đƣợc tính toán tại các tham số đo lệch nhau một hằng số k, thì ta có thể sử dụng DoG để xấp xỉ đạo hàm bậc hai aplace của Gaussian. Vì hệ số (k-1) trong phƣơng trình trên là hằng số trong mọi không gian đo nên nó sẽ không ảnh hƣởng đến việc tìm các vị trí cực trị. Sai số trong việc xấp xỉ đạo hàm bậc 2 tiến về 0 khi k gần với 1. Tuy nhiên, các kết quả thử nghiệm của tác giả cho thấy quá trình xấp xỉ đạo hàm không ảnh hƣởng đến việc dò tìm các vị trí cực trị thậm chí ngay cả khi chọn k khá xa, ví dụ k = .

Sau khi áp dụng hàm DoG ta thu đƣợc các lớp kết quả khác nhau (scale) từ ảnh gốc, bƣớc tiếp theo là tìm các cực trị trong các lớp kết quả theo từng miền cục bộ. Cụ thể là tại mỗi điểm trên các lớp kết quả sẽ đƣợc so sánh với 8

điểm lân cận trên cùng lớp và 9 điểm lân cận trên mỗi lớp khác (hình dƣới).

Hình 2. 6. Quá trình tìm điểm cực trị trong các hàm sai khác DoG

Trong hình trên: điểm đánh dấu x sẽ đƣợc so sánh với 26 điểm lân cận (đánh dấu vòng tròn xanh). Điểm này sẽ đƣợc lấy làm điểm tiềm năng (điểm có thể làm điểm đặc biệt – candidate keypoint) nếu nó có giá trị lớn nhất hoặc nhỏ nhất so với 26 điểm lân cận nhƣ trên. Giải pháp cho việc tìm các điểm tiềm năng này là sử dụng thuật toán blob detection (dò tìm điểm) do indeberg đề xuất.

Vì số lƣợng các cực trị là rất lớn, vì vậy để tăng sự hiệu quả khi dò tìm các điểm cực trị (dò các điểm cực trị tốt nhất thay vì phải dò hết), ta cần xác định tần số lấy mẫu trong không gian đo và tần số lấy mẫu trong không gian quan sát (không gian ảnh). Thật không may là ta không thể xác định cả 2 loại tần số này một cách động trong mỗi tiến trình dò tìm. Thay vì vậy, các tần số này sẽ đƣợc xác định offline thông qua phƣơng pháp thử nghiệm. Sau khi thử nghiệm với nhiều nguồn dữ liệu ảnh khác nhau, tác giả đã chỉ ra tần số lấy mẫu trong không gian đo tốt nhất là 3 (giữ lại 3 lớp trong mỗi bộ 8 lớp), và tần số lấy mẫu  = 1.6.

2.1.2.1. Phát hiện keypoint

Sau bƣớc trên sẽ thu đƣợc rất nhiều điểm tiềm năng có thể làm điểm đặc biệt, tuy nhiên một số trong chúng là không cần thiết, ở bƣớc tiếp theo này sẽ

loại bỏ các điểm có độ tƣơng phản kém (nhạy cảm với nhiễu) hoặc tính đặc trƣng cục bộ ít hơn các điểm khác hoặc có xu hƣớng là đƣờng biên đối tƣợng. Bƣớc thực hiện này gồm 3 công đoạn:

a. Phép nội suy lân cận cho vị trí đúng của điểm tiềm năng:

Phép nội suy lân cận sử dụng mở rộng Taylor (Taylor expansion) cho hàm DoG D x y( , , ) : 2 2 1 ( ) 2 T T D D D x D x x x x x        (2.22)

Trong đó: D và đạo hàm của nó đƣợc tính tại một điểm tiềm năng và X= (x,y,) là khoảng cách từ điểm đó. Vị trí của điểm cực trị ˆxđƣợc xác định bằng cách lấy đạo hàm của hàm trên với đối số x và tiến dần đến 0:

2 1 2 ˆx D D x x        (2.23)

Nếu ˆx > 0.5 theo một chiều nào đó thì nó có chỉ số cực trị không gần với các điểm tiềm năng khác, nó sẽ bị thay đổi và phép nội suy sẽ thay thế vai trò của nó bằng điểm khác gần nó. Hình 2.5 thể hiện các bƣớc trích chọn keypoint.

Hình 2. 7. Minh họa quá trình lựa chọn các điểm keypoints

Trong hình 2.5, (a) là ảnh gốc.

(b) mô tả 832 điểm keypoints tìm đƣợc, các điểm keypoints đƣợc vẽ ở dạng một vector thể hiện 3 thông tin: vị trí, hƣớng và độ dài.

(c) sau khi đặt ngƣỡng tƣơng phản tối thiểu, ta giữ lại đƣợc 729 điểm. (d) giữ lại 536 điểm sau khi áp một ngƣỡng nữa về hệ số độ cong.

b. Loại trừ các điểm có tính tương phản kém:

Các điểm nhạy cảm với độ sáng và nhiễu thì không đƣợc trở thành điểm đặc biệt và cần loại bỏ khỏi danh sách điểm tiềm năng. Trong khai triển Taylor mở rộng ở trên, nếu điểm tiềm năng nào có giá trị ˆx< 0.03 thì điểm đó sẽ bị loại, ngƣợc lại thì nó đƣợc giữ lại theo vị trí mới (y+ ˆx) và tùy biến  , với y là vị trí cũ của nó cùng giá trị biến  .

c. Loại bỏ các điểm dư thừa theo biên:

Sử dụng hàm DoG sẽ cho tác động mạnh đến biên khi vị trí của biên là khó xác định và vì vậy các điểm tiềm năng trên biên sẽ không bất biến và bị nhiễu. Và để tăng sự ổn định cho các điểm sẽ đƣợc chọn làm điểm đặc biệt ta

sẽ loại trừ các điểm tiềm năng khó định vị (tức là vị trí dễ thay đổi khi có nhiễu do nằm ở biên).

Sau khi áp dụng hàm DoG sẽ làm đƣờng biên ảnh không rõ ràng và độ cong chính sẽ có giá trị lớn hơn nhiều so với độ cong dọc theo biên vì vậy cần loại bỏ bớt các điểm đặc biệt dọc theo cùng một biên. Giải pháp cho việc này là sử dụng giá trị của ma trận Hessian cấp 2:

(2.24) Các giá trị riêng của H tỉ lệ thuận với độ cong của D. Các phần tử của H là Dxx và Dyy

2.1.2.2. Gán hướng cho các keypoint

Bằng việc gán một hƣớng cho mỗi điểm đặc trƣng keypoint dựa vào các thuộc tính ảnh cục bộ, bộ mô tả keypoint có thể đƣợc biểu diễn tƣơng đối so với hƣớng này và do đó đặt đƣợc tính bất biến đối với các hiện tƣợng quay ảnh. Cách tiếp cận này ngƣợc lại với các bộ mô tả bất biến hƣớng của Schmid (1997) ở chỗ mỗi thuộc tính ảnh sẽ dựa vào một độ đo bất biến về hƣớng. Nhƣợc điểm của cách tiếp cận này đó là nó giới hạn số lƣợng các bộ mô tả đƣợc sử dụng và bỏ qua các thông tin về ảnh bởi vì nó không yêu cầu mọi độ đo đều phải dựa trên một hƣớng nhất quán.

Kỹ thuật gán hướng cục bộ cho các điểm đặc trưng: độ đo của các điểm

đặc trƣng đƣợc sử dụng để tìm ra một ảnh đã lọc Gaussian với kích thƣớc gần nhất sao cho mọi tính toán sẽ đƣợc thực hiện trong cùng một cách bất biến về độ đo. Với mỗi mẫu ảnh L(x,y) này, gọi m(x,y) là biên độ gradient,  (x,y) là hƣớng.

Hai giá trị cuối đƣợc tính toán nhƣ sau:

2 2

( , ) ( ( 1, ) ( 1, )) ( ( , 1) ( , 1))

( , ) tan (( ( ,x y L x y 1) L x y( , 1)) / ( (L x 1, )y L x( 1, )))y

         (2.26)

2.1.2.3. Tạo bộ mô tả keypoint

Các phép xử lý trên đây đã thực hiện dò tìm và gán tọa độ, kích thƣớc, và hƣớng cho mỗi điểm đặc trƣng keypoint. Các tham số đó yêu cầu một hệ thống tọa độ địa phƣơng 2D có thể lặp lại đƣợc để mô tả vùng ảnh địa phƣơng và nhờ vậy tạo ra sự bất biến đối với các tham số đó. Bƣớc tiếp theo sẽ tính toán một bộ mô tả cho môt vùng ảnh lân cận mà có tính đặc trƣng cao (bất biến với các thay đổi khác nhau về độ sáng, thu – phóng, xoay ảnh).

ấy mẫu mật độ ảnh cục bộ lân cận điểm đặc trƣng ở một độ đo thích hợp, và đối sánh các mật độ này sử dụng độ đo tƣơng quan chuẩn. Tuy nhiên, hệ số tƣơng quan đơn giản thì lại rất nhạy cảm với sự thay đổi mà gây ra sự đăng ký nhầm các mẫu, chẳng hạn nhƣ các biến đổi Affine, phối cảnh 3D, hoặc bóp méo mềm. Cách tiếp cận tốt hơn nhiều đƣợc đƣa ra bởi Edelman, Intrator và Poggio (1997). Cách tiếp cận này dựa trên một mô hình thị giác sinh học, cụ thể là mô hình nơron phức tạp trong hệ thống não bộ. Các nơron sẽ tƣơng ứng với một gradient tại một hƣớng và tần số không gian cụ thể, nhƣng vị trí của gradient trên võng mạc đƣợc phép trƣợt trên một phạm vi nhỏ của khung nhìn. Dựa trên cách tiếp cận này cài đặt bộ mô tả mới trong đó cho phép việc trƣợt vị trí sử dụng một cách tính toán khác.

Hình sau mô phỏng quá trình tính toán của các bộ mô tả theo cách tiếp cận mới.

Hình 2. 8. Tạo bộ mô tả cục bộ [2]

Ảnh trái là mô phỏng biên độ gradient và hƣớng tại mỗi mẫu ảnh trong một vùng lân cận với điểm keypoint. Các giá trị đó tập trung trong một cửa sổ Gaussian (nằm bên trong vòng tròn). Các mẫu này sau đó đƣợc gom lại thành một lƣợc đồ hƣớng mô tả vắn tắt nội dung trong 4x4 vùng con nhƣ đƣợc mô tả ở bên phải với độ dài của mỗi hàng tƣơng ứng với tổng biên độ gradient gần hƣớng đó bên trong một vùng.

Tiếp cận dựa trên Template matching

Tiếp cận dựa trên Keypoint