x k x k U k (xwk xwk )
ở đó xw là một điểm trong các tọa độ của ảnh bị biến đổi bởi phép biến đổi U.
Tiêu chuẩn hội tụ.Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận được tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ C = 0.05.
min max ( ) 1 ( ) C (2.14)
Một khả năng khác là phân tích ma trận U RT D R thành phép quay R
và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi R và D liên tiếp đủ giống nhau. Cả hai tiêu chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trường hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trường hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vô cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên được loại bỏ nếu tỷ lệ được cho ở công thức (2.15) quá lớn (tức l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định.
max min ( ) ( ) l D D (2.15)
Các đặc tính hội tụ của thuật toán thích nghi hình dạng đã được nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trường hợp đặc biệt còn trong các trường hợp khác thì điểm hội tụ luôn là duy nhất. Nhìn chung, sự hội tụ của thủ tục đưa đến một điều là sự ước lượng ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân được lựa chọn chính xác đối với kích thước của cấu trúc ảnh cục bộ.
Thuật toán phát hiện. Người ta đã đề xuất một thủ tục lặp cho phép các điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm được trích chọn bởi phương pháp phát hiện Harris đa tỷ lệ. Các điểm này không được phát hiện theo cách bất biến affine do nhân Gaussian không thích nghi (non-adapted Gaussian kernel), nhưng các điểm này lại cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trước x(0) ta áp dụng thủ tục sau:
1. Khởi tạo U(0) là ma trận đồng nhất.
2. Chuẩn hóa cửa sổ W(xw) = I(x) được đặt ở trung tâm của điểm x(k-1) với ( 1) ( -1) ( 1)
x x
k k k
w
U
3. Chọn tỷ lệ tích phân Itại điểm x( -1)wk
min max ( ) ( ) , với s [0.5,…, 0.75] và (x(wk1), I, D)
5. Phát hiện vị trí không gian ( ) w
x k của giá trị cực đại của phép đo Harris (công thức (2.4)) gần với ( -1)
w
x k nhất và tính toán vị trí cho điểm quan tâm x(k) 6. Tính 1 ( ) 2 ( ) (x , , ) k k w i I D 7. Ghép phép biến đổi ( )k ( )k (k 1) i
U U và chuẩn hóa U(k) để λmax(U(k)) = 1 8. Quay lại bước 2 nếu 1 min( ( )k ) / max( ( )k ) ε
i i C
Mặc dù sự tính toán dường như tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính toán Lx và Ly, điều này được thực hiện chỉ một lần ở mỗi bước nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu như bền vững đối với các sai số định vị nhỏ của điểm quan tâm. Tuy nhiên, tỷ lệ I
sẽ thay đổi nếu hình dạng của mảnh ảnh bị biến đổi. Cho trước một giải pháp xấp xỉ ban đầu, thuật toán đã được trình bày ở trên sẽ sửa đổi một cách lặp đi lặp lại hình dạng, tỷ lệ và vị trí không gian của một điểm và hội tụ tới một cấu trúc cục bộ.
Hình 2.7 chỉ ra các điểm affine được phát hiện ở các bước liên tiếp của thủ tục lặp. Cột đầu tiên thể hiện các điểm được dùng cho việc khởi tạo. Các cột tiếp theo thể hiện các điểm và các vùng sau các lần lặp thứ 1, 2, 3 và 4. Sau lần lặp thứ 4 thì vị trí, tỷ lệ và hình dạng của điểm đó không thay đổi nữa. Có thể thấy rằng các hình elip cuối cùng bao phủ cùng một vùng ảnh mặc dù có sự biến dạng affine mạnh.
Hình 2.7. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của phép biến đổi affine (dòng ở trên và dƣới).
Sự lựa chọn các điểm affine tương tự nhau. Ta có thể giả sử rằng các đặc trưng là ổn định nếu chúng ở trong một dãy tỷ lệ. Các đặc trưng này được hình thành từ các điểm mà các điểm này hội tụ tới cùng một cấu trúc. Với điều kiện vùng được chuẩn hóa là đẳng hướng, thì sẽ có một giá trị cực đại không gian của phép đo Harris và một tỷ lệ đặc trưng cho cấu trúc cục bộ đang được xem xét. Vì vậy, vài điểm ban đầu tương ứng với cùng một đặc trưng nhưng lại được phát hiện ở các mức tỷ lệ khác nhau sẽ hội tụ về vị trí và tỷ lệ của một điểm. Không phức tạp để nhận ra các điểm này bằng việc so sánh vị trí (x,y), tỷ lệ I, giá trị
λmin(U)/λmax(U) và mặt nghiêng (skew). Mặt nghiêng này được khôi phục từ ma trận của phép quay R, ở đó U RT D R. Chúng ta xác định một điểm tương tự nếu mỗi tham số trong các tham số này nằm trong phạm vi một ngưỡng đối với các tham số của điểm tham chiếu. Cuối cùng, ta tính toán các tham số trung bình và lựa chọn điểm tương tự nhất từ tập các điểm đã xác định. Kết quả là, đối với một ảnh cho trước ta thu được một tập các điểm mà ở đó mỗi một điểm thể hiện một vị trí và cấu trúc ảnh khác nhau.
Ví dụ về các điểm bất biến affine. Hình 2.8 minh họa cho việc phát hiện các điểm bất biến affine. Cột (a) biểu diễn các điểm được dùng cho việc khởi tạo, các điểm này được phát hiện bởi phương pháp Harris đa tỷ lệ. Các vòng tròn thể hiện các tỷ lệ được phát hiện, ở đó các bán kính của vòng tròn là 3I. Các vòng tròn màu đen thể hiện các điểm được chọn bởi phương pháp Harris- Laplace. Chú ý rằng có sự dịch chuyển đáng kể giữa các điểm được phát hiện ở
các tỷ lệ khác nhau và các vòng tròn trong các ảnh tương ứng (dòng đầu và dòng cuối) không bao phủ cùng một bộ phận của ảnh. Ở cột (b) thể hiện các điểm Harris-Laplace với các vùng affine được ước lượng (màu đen). Tỷ lệ và vị trí của các điểm không thay đổi trong suốt các lần lặp. Các vùng được chiếu tương ứng được thể hiện bởi màu trắng và cho thấy sự khác biệt rõ ràng về vị trí và hình dạng của vùng. Tỷ lệ ban đầu được phát hiện không đúng do sử dụng toán tử Laplacian vòng tròn (không thích nghi affine). Tương tự, các vị trí của các điểm khác nhau 3 đến 4 điểm ảnh. Các điểm ở cột (a), tương ứng với cùng một cấu trúc vật lý, nhưng được phát hiện ở các vị trí khác nhau do tỷ lệ, hội tụ về cùng một vị trí và cùng một vùng và được trình bày ở cột (c). Chúng ta có thể thấy rằng phương pháp này hội tụ chính xác thậm chí ngay cả khi vị trí và tỷ lệ của điểm ban đầu ở tương đối xa điểm hội tụ.
Nhìn chung để đạt đến sự hội tụ chỉ cần ít hơn 10 lần lặp. Điển hình, khoảng 40% các điểm ban đầu không hội tụ do không có các tỷ lệ đặc trưng hoặc do sự chênh lệch lớn giữa các giá trị riêng của ma trận U (λmax(U)/λmin(U) > 6). Khoảng 30% các điểm còn lại được lựa chọn bởi phép đo tính tương tự. Khoảng 20-30% các điểm Harris đa tỷ lệ ban đầu được dùng để thể hiện một ảnh. Cột (d) biểu diễn các điểm được chọn (màu đen) và các điểm được chiếu từ ảnh tương ứng (màu trắng). Sự khác biệt chủ yếu giữa các vùng trong cột (d) là do tính không chính xác của việc ước lượng tỷ lệ và sai số C. Cột (e) biểu diễn các điểm được chọn được chuẩn hóa với các ma trận ước lượng để loại bỏ sự kéo dãn và độ nghiêng. Chúng ta có thể thấy rằng các vùng này tương ứng giữa hai ảnh (dòng trên và dòng dưới).
2.4 Phƣơng pháp “Phép biến đổi đặc trƣng bất biến tỷ lệ”
Đây là một trong những phương pháp hiệu quả để trích chọn các điểm bất biến từ các ảnh được dùng để thực hiện so khớp tin cậy giữa các tầm nhìn khác nhau của cùng một đối tượng hoặc quang cảnh. Phương pháp này được gọi là “Phép biến đổi đặc trưng bất biến tỷ lệ” (Scale Invariant Feature Transform – SIFT) [8] vì nó biến đổi dữ liệu ảnh thành các tọa độ bất biến tỷ lệ có liên quan tới các đặc trưng cục bộ. Thuật toán này gồm 4 giai đoạn chính: phát hiện các cực trị trong không gian tỷ lệ, định vị chính xác điểm khóa, gán hướng cho các điểm khóa, tạo bộ mô tả điểm khóa.
2.4.1 Phát hiện cực trị không gian tỷ lệ
Giai đoạn đầu tiên của phát hiện điểm khóa là tìm ra các vị trí và các tỷ lệ có thể được gán lặp đi lặp lại dưới các tầm nhìn khác nhau của cùng một đối tượng. Việc phát hiện các vị trí bất biến khi có sự thay đổi tỷ lệ của ảnh có thể được thực hiện bằng việc tìm kiếm các đặc trưng ổn định qua tất cả các tỷ lệ có thể, sử dụng một hàm liên tục tỷ lệ được hiểu như không gian tỷ lệ.
Dùng hàm Gaussian làm hàm nhân của không gian tỷ lệ. Vì vậy, không gian tỷ lệ của một ảnh được xác định bởi hàm L(x,y,), hàm này được tạo ra từ phép cuộn Gaussian biến thiên tỷ lệ, G(x,y,), với ảnh đầu vào I(x,y):
( , , ) ( , , ) ( , )
L x y G x y I x y
trong đó * là phép toán cuộn theo x và y, và
2 2 2 ( ) / 2 2 1 ( , , ) 2 x y G x y e
Để phát hiện hiệu quả các vị trí điểm khóa ổn định trong không gian tỷ lệ, ta sử dụng các cực trị không gian tỷ lệ trong hàm Difference-of-Gaussian được cuộn với ảnh đó, D(x,y,), hàm này có thể được tính từ sự chênh lệch giữa hai tỷ lệ lân cận được phân biệt bởi thừa số k:
( , , ) ( ( , , ) ( , , )) ( , ) ( , , ) ( , , ) D x y G x y k G x y I x y L x y k L x y (2.16)
Hình 2.9. Xây dựng một thể hiện không gian tỷ lệ
Hình 2.9 thể hiện một phương pháp hiệu quả cho việc xây dựng hàm
D(x,y,). Ảnh ban đầu được cuộn theo kiểu gia tăng với các hàm Gaussian để tạo ra các ảnh được phân biệt bởi thừa số k trong không gian tỷ lệ, được xếp thành chồng ở cột bên trái. Ta chia mỗi quãng của không gian tỷ lệ (nghĩa là gấp đôi ) thành s khoảng (s là số nguyên), vì vậy k = 21/s. Chúng ta phải tạo ra s+3 ảnh trong chồng các ảnh bị làm mờ cho mỗi quãng, để việc phát hiện cực trị cuối cùng bao phủ trọn vẹn một quãng. Các tỷ lệ ảnh gần kề được trừ với nhau để tạo ra các ảnh Difference-of-Gaussian được thể hiện ở hình bên phải. Một khi một quãng trọn vẹn được xử lý, chúng ta tái lấy mẫu ảnh Gaussian gấp đôi giá trị ban đầu và việc xử lý được lặp lại.
Hình 2.10. Các giá trị cực đại và cực tiểu của các ảnh DoG đƣợc tìm thấy bằng việc so sánh một điểm ảnh (đánh dấu X) với 26 láng giềng trong 33 vùng ở các mức hiện thời và các mức gần kề (đƣợc đánh dấu O).
Để tìm giá trị cực đại và cực tiểu địa phương của hàm D(x,y,), mỗi điểm mẫu được so sánh với 8 láng giềng trong ảnh hiện thời và 9 láng giềng trong các ảnh ở các tỷ lệ ở trên và ở dưới (Hình 2.10). Nó được chọn chỉ khi lớn hơn tất cả các láng giềng này hoặc nhỏ hơn tất cả chúng. Chi phí của sự kiểm tra này khá nhỏ vì thực tế hầu hết các điểm mẫu sẽ bị loại bỏ sau vài lần kiểm tra đầu tiên.
2.4.1.1 Tần số lấy mẫu theo tỷ lệ
Sự xác định thực nghiệm của tần số lấy mẫu làm tăng tối đa tính ổn định của các cực trị. Để xác định tần số lấy mẫu người ta sử dụng một bộ sư tập gồm 32 ảnh thực gồm nhiều loại khác nhau, bao gồm các cảnh ngoài trời, các mặt người, các bức ảnh trên không và các ảnh kỹ nghệ. Sau đó mỗi ảnh phải chịu một dãy các phép biến đổi, bao gồm phép quay, thay đổi tỷ lệ, thay đổi độ sáng và độ tương phản, và thêm tạp nhiễu ảnh. Bởi vì các thay đổi này là không tự nhiên, nên có thể dự đoán chính xác nơi mà mỗi đặc trưng trong ảnh gốc sẽ xuất hiện trong ảnh đã biến đổi, chú ý đến phép đo tính lặp lại và độ chính xác của vị trí đối với mỗi đặc trưng. Kết quả là, khả năng lặp lại cao nhất được đạt đến khi lấy mẫu 3 tỷ lệ cho mỗi quãng.
Thực nghiệm cho thấy khả năng lặp lại của các điểm khóa không tăng khi nhiều tỷ lệ hơn được lấy mẫu. Lý do là vì có nhiều cực trị địa phương hơn được phát hiện, nhưng tính trung bình các cực trị này ít ổn định và vì vậy ít có khả năng được phát hiện trong ảnh đã bị biến đổi. Số lượng các điểm khóa tăng lên cùng với việc lấy mẫu tăng của các tỷ lệ và tổng số lượng các so khớp chính xác cũng tăng. Vì sự thành công của việc nhận dạng đối tượng thường phụ thuộc nhiều vào số lượng các điểm khóa được so khớp chính xác, chứ không phải tỷ lệ phần trăm so khớp chính xác của chúng, nên đối với nhiều ứng dụng, sẽ tối ưu hơn khi sử dụng một lượng lớn các mẫu tỷ lệ. Tuy nhiên, chi phí tính toán cũng tăng cùng với số lượng này, vì vậy qua thực nghiệm chúng ta chỉ cần chọn 3 mẫu tỷ lệ trên mỗi quãng.
Tóm lại, hàm Difference-of-Gaussian của không gian tỷ lệ có một lượng lớn các cực trị và sẽ tốn nhiều chi phí để phát hiện tất cả chúng. May thay, chúng ta có thể phát hiện được một tập con ổn định và hữu ích nhất thậm chí khi việc lấy mẫu tỷ lệ trở nên tồi.
2.4.1.2 Tần số lấy mẫu trong một vùng không gian
Vì chúng ta đã xác định tần số lấy mẫu trên mỗi quãng của không gian tỷ lệ, cho nên phải xác định tần số lấy mẫu trong một vùng ảnh liên quan tới tỷ lệ của việc làm trơn. Biết rằng cực trị có thể gần nhau một cách tùy ý, nên sẽ có một sự cân bằng tương đối giữa tần số lấy mẫu và tỷ lệ phát hiện.
Dĩ nhiên, nếu ta làm trơn ảnh trước khi phát hiện cực trị thì sẽ loại bỏ một cách hiệu quả các tần số không gian cao nhất. Bởi vậy, để làm tăng tính hữu ích của dữ liệu vào thì ảnh có thể được mở rộng để tạo ra nhiều điểm mẫu hơn chúng có mặt trong ảnh gốc. Ta tăng gấp đôi kích thước của ảnh đầu vào sử dụng phép nội suy tuyến tính trước khi xây dựng mức đầu tiên của hình chóp. Khi phép toán tương đương có thể được thực thi một cách hiệu quả bằng việc sử dụng các bộ lọc khoảng trống subpixel trên ảnh gốc, thì việc gấp đôi ảnh dẫn đến sự thực thi có hiệu quả hơn. Giả sử ảnh gốc có một vết mờ tối thiểu 0.5 vì vậy, ảnh được gấp đôi có 1.0 liên quan tới khoảng cách điểm ảnh mới của nó. Điều này có nghĩa là cần làm trơn một chút trước khi tạo ra quãng đầu tiên