832 vị trí điểm khóa ban đầu ở các điểm cực đại và cực tiểu của hàm Difference-of-
Gaussian. Các điểm khóa đƣợc thể hiện nhƣ các vectơ cho biết tỷ lệ, hƣớng và vị trí. (c) Sau
khi áp dụng một ngƣỡng lên độ tƣơng phản tối thiểu, còn lại 729 điểm khóa. (d) 536 điểm khóa cuối cùng đƣợc giữ lại sau khi lấy ngƣỡng cho tỷ lệ của các độ cong chủ yếu.
Ma trận Hessian và đạo hàm của D được xấp xỉ bằng việc sử dụng các độ chênh lệch giữa các điểm mẫu lân cận. Nếu offset x
lớn hơn 0.5 ở bất kỳ chiều nào, thì có nghĩa là cực trị đó nằm gần với một điểm mẫu khác hơn. Trong trường hợp này, điểm mẫu được thay đổi và thực hiện phép nội suy thay cho điểm đó. Offset cuối cùng x
được cộng thêm về hướng vị trí điểm mẫu của nó để có được sự ước lượng nội suy cho vị trí của cực trị đó.
Giá trị hàm ở cực trị, D( x), có ích cho việc loại bỏ các cực trị không ổn định có độ tương phản thấp. Dể thu được giá trị của hàm ở vị trí cực trị này ta thế phương trình (2.18) vào (2.17), được:
1 (x) x 2 x T D D D
Thông qua các thí nghiệm người ta nhận thấy rằng, tất cả các cực trị có giá trị |D( x)| nhỏ hơn 0.03 đều được loại bỏ.
Hình 2.11 cho thấy hiệu quả của việc lựa chọn điểm khóa trên một ảnh tự nhiên. Để tránh quá nhiều sự lộn xộn, sử dụng một ảnh có độ phân giải thấp với 233189 điểm ảnh và các điểm khóa được thể hiện như các vectơ cho biết vị trí, tỷ lệ, và hướng của mỗi điểm khóa (việc gán hướng được miêu tả ở mục sau). Hình 2.11(a) thể hiện ảnh gốc, ảnh này được thể hiện với độ tương phản thấp dần ở các hình tiếp theo. Hình 2.11(b) chỉ ra 832 điểm khóa ở tất cả các điểm cực đại và cực tiểu được phát hiện bởi hàm Difference-of-Gaussian, trong khi đó Hình 2.11(c) chỉ ra 729 điểm khóa còn lại sau khi loại bỏ các điểm có |D( x
)| nhỏ hơn 0.03. Phần (d) sẽ được giải thích trong mục tiếp theo.
* Loại bỏ các đáp ứng biên
Tính ổn định không đủ để loại bỏ các điểm khóa có độ tương phản thấp. Dù vị trí dọc theo biên được xác định tồi nhưng hàm Difference-of-Gaussian vẫn có một đáp ứng mạnh dọc theo các biên và vì vậy không ổn định khi có các lượng nhỏ tạp nhiễu.
Đỉnh được xác định tồi trong hàm Difference-of-Gaussian sẽ có một độ cong lớn chủ yếu ngang qua biên ngoại trừ độ cong nhỏ ở hướng trực giao. Các độ cong chủ yếu có thể được tính từ ma trận Hessian 22, H, ma trận này được tính ở vị trí và tỷ lệ của điểm khóa:
xx xy xy yy D D D D H (2.19)
Các đạo hàm này được ước lượng bằng việc lấy các độ chênh lệch giữa các điểm mẫu láng giềng.
Các giá trị riêng của ma trận H tương ứng với các độ cong chủ yếu của D. Lấy là giá trị riêng với cường độ lớn nhất và là giá trị riêng với cường độ nhỏ hơn. Khi đó, ta có thể tính tổng các giá trị riêng từ dấu vết của H và tích của chúng được tính từ giá trị của định thức:
Tr(H) = Dxx + Dyy = + , Det(H) = DxxDyy – (Dxy)2 = .
Trong trường hợp không chắc xảy ra đó là định thức có giá trị âm, các độ cong có các dấu hiệu khác nhau vì vậy điểm bị loại bỏ không phải là một cực trị. Lấy r là tỷ lệ giữa giá trị riêng có cường độ lớn nhất và giá trị riêng có cường độ nhỏ hơn, để = r. Khi đó, 2 2 2 2 2 Tr( ) ( ) ( ) ( 1) Det( ) r r r r H H
Biểu thức (r+1)2/r nhận giá trị cực tiểu khi hai giá trị riêngbằng nhau và nó tăng cùng với r. Vì vậy, để kiểm tra xem tỷ lệ của các độ cong chủ yếu có ở dưới một ngưỡng r nào đó không, ta chỉ cần kiểm tra:
2 2 Tr( ) ( 1) Det( ) r r H H
Các thí nghiệm cho thấy sử dụng giá trị r = 10, sẽ loại bỏ được các điểm khóa có tỷ lệ giữa các độ cong chủ yếu lớn hơn 10. Sự chuyển tiếp từ Hình 2.11(c) sang Hình 2.11(d) thể hiện các tác động của thao tác này.
2.4.3 Gán hƣớng cho các điểm khóa
Bằng việc gán một hướng thích hợp cho mỗi điểm khóa dựa trên các đặc tính ảnh cục bộ, bộ mô tả điểm khóa được trình bày ở phần sau có liên quan tới hướng được gán này và vì vậy đạt được sự bất biến đối với phép quay ảnh.
Để gán một hướng cục bộ cho mỗi điểm khóa ta sử dụng hướng gradient của ảnh. Tỷ lệ của điểm khóa được dùng để lựa chọn ảnh được làm trơn Gaussian, L, với tỷ lệ gần nhất, để thực hiện tất cả các tính toán theo kiểu bất biến tỷ lệ. Đối với mỗi mẫu ảnh, L(x,y), ở tỷ lệ này, cường độ gradient, m(x,y), và hướng, (x,y), được tính toán trước sử dụng độ chênh lệch điểm ảnh:
2 2 ( , ) ( ( 1, ) ( 1, )) ( ( , 1) ( , 1)) m x y L x y L x y L x y L x y 1 ( , )x y tan (( ( ,L x y 1) L x y( , 1)) /( (L x 1, )y L x( 1, )))y
bin bao phủ 360 độ của tất cả các hướng. Mỗi mẫu được thêm vào biểu đồ được gán trọng số bởi độ lớn gradient của nó và bởi một cửa sổ hình tròn Gaussian với gấp 1.5 lần tỷ lệ của điểm khóa đó.
Các đỉnh trong biểu đồ hướng tương ứng với các hướng bao quát các gradient cục bộ. Dựa vào biểu đồ hướng ta có thể xác định được đỉnh cao nhất trong biểu đồ và khi đó bất kỳ đỉnh cục bộ nào khác nằm trong phạm vi 80% so với đỉnh cao nhất đều được dùng để tạo ra một điểm khóa với cùng hướng đó. Vì vậy, đối với các vị trí có nhiều đỉnh có cường độ tương tự nhau, thì sẽ có nhiều điểm khóa được tạo ra ở cùng vị trí và tỷ lệ đó nhưng các hướng thì khác nhau. Chỉ có khoảng 15% điểm khóa được gán nhiều hướng, nhưng những điểm này góp phần đáng kể cho tính ổn định của việc so khớp. Cuối cùng, một đường parabol được làm phù hợp với 3 giá trị của biểu đồ gần với mỗi đỉnh nhất để nội suy vị trí của đỉnh đó nhằm mang lại độ chính xác tốt hơn.
2.4.4 Bộ mô tả ảnh cục bộ
Các thao tác ở trên đã gán vị trí, tỷ lệ và hướng cho mỗi điểm khóa. Các tham số này áp đặt cho hệ tọa độ 2D cục bộ để mô tả một vùng ảnh cục bộ. Bước tiếp theo là tính toán một bộ mô tả cho vùng ảnh xung quanh điểm đó để có thể bất biến đối với các thay đổi còn lại như thay đổi độ sáng hoặc điểm nhìn 3D.