Tiếp theo ta mô tả về hƣớng tiếp cận bất biến affine. Khởi tạo cho thuật toán phát hiện điểm quan tâm bất biến affine với các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Để xác định vị trí không gian của các điểm quan tâm ta sử dụng phƣơng pháp phát hiện Harris, phƣơng pháp này cũng dựa vào ma trận moment cấp hai, nên nó phù hợp một cách tự nhiên với framework này. Để thu đƣợc ma trận hình dạng (shape matrix) cho mỗi điểm quan tâm ta cần tính toán bộ mô tả moment cấp hai (second moment descriptor) với các tỷ lệ tích phân và vi phân đƣợc lựa chọn một cách tự động. Ở hƣớng tiếp cận này các ma trận tích phân và vi phân đƣợc thuật lại bởi một đại lƣợng vô hƣớng D s I để giới hạn không gian tìm kiếm. Phác thảo của phƣơng pháp phát hiện này đƣợc mô tả nhƣ sau:
Vị trí không gian của một điểm quan tâm ở một tỷ lệ và hình dạng cho trƣớc đƣợc xác định bởi giá trị cực đại địa phƣơng của hàm Harris.
Tỷ lệ tích phân đƣợc chọn ở cực trị trên tỷ lệ của hàm Laplacian đƣợc chuẩn hóa.
Tỷ lệ vi phân đƣợc chọn tại giá trị cực đại của tính đẳng hƣớng đã đƣợc chuẩn hóa.
Ma trận thích nghi hình dạng đƣợc ƣớc lƣợng với ma trận moment cấp hai và đƣợc dùng để chuẩn hóa vùng lân cận của điểm đó.
Sau đây ta sẽ trình bày chi tiết mỗi bƣớc của thuật toán.
Ma trận thích nghi hình dạng (Shape Adaptation Matrix). Phƣơng pháp thích nghi hình dạng lặp này làm việc trong vùng ảnh đã bị biến đổi. Chúng ta biến đổi một ảnh và áp dụng nhân vòng tròn (circular kernel) thay vì áp dụng nhân affine Gaussian. Điều này cho phép sử dụng sự thực thi đệ
quy của các bộ lọc Gaussian cho việc tính toán Lx và Ly. Ma trận moment cấp hai đƣợc tính dựa theo công thức (2.7). Một cửa sổ cục bộ W đƣợc đặt ở vị trí trung tâm của điểm quan tâm x và đƣợc biến đổi bởi ma trận:
1 ( ) (0) 2 ( )k k U U (2.17)
ở bƣớc (k) của thuật toán lặp. Tiếp theo ta xem thao tác này nhƣ là phép biến đổi
U. Chú ý rằng một ma trận mới đƣợc tính ở mỗi lần lặp và ma trận U là sự liên kết các căn bậc hai của các ma trận moment cấp hai. Chúng ta bảo đảm rằng ảnh gốc đƣợc lấy mẫu chính xác bằng việc thiết lập giá trị riêng lớn λmax(U) = 1, điều này muốn nói rằng mảnh ảnh đƣợc phóng to theo hƣớng λmin(U). Đối với bất kỳ một điểm cho trƣớc nào, tỷ lệ tích phân và tỷ lệ vi phân sẽ xác định đƣợc ma trận moment cấp hai . Các tham số tỷ lệ này đƣợc chọn tự động ở mỗi lần lặp. Vì vậy, ma trận kết quả không phụ thuộc vào tỷ lệ ban đầu và độ phân giải của ảnh.
Tỷ lệ tích phân (Integration Scale). Đối với bất kỳ điểm không gian cho trƣớc nào chúng ta đều lựa chọn đƣợc tỷ lệ đặc trƣng của nó một cách tự động. Để duy trì sự bất biến đối với các thay đổi về kích thƣớc ta chọn tỷ lệ tích phân I mà ở đó hàm Laplacian chuẩn hóa (công thức 2.9) đạt đƣợc một giá trị cực đại địa phƣơng trên khắp tỷ lệ. Khi có sự hiện diện của các biến dạng affine lớn thì sự thay đổi tỷ lệ sẽ rất khác nhau ở mỗi hƣớng. Vì vậy, tỷ lệ đặc trƣng này đƣợc phát hiện ở ảnh gốc và ở phiên bản biến đổi U của ảnh đó có thể khác nhau đáng kể. Bởi vậy, việc lựa chọn tỷ lệ tích phân ở mỗi lần lặp sau khi áp dụng phép biến đổi U là hết sức cần thiết. Ta sử dụng thủ tục tƣơng tự với thủ tục trong phƣơng pháp Harris-Laplace. Các điểm ban đầu này hội tụ về một điểm mà ở đó tỷ lệ và ma trận moment cấp hai không thay đổi nữa.
Tỷ lệ vi phân (Differentiation Scale). Chúng ta lựa chọn tỷ lệ vi phân cục bộ sử dụng tỷ lệ tích phân và phép đo tính đẳng hƣớng Q. Giải pháp này đƣợc thúc đẩy bởi một thực tế là tỷ lệ cục bộ có ảnh hƣởng quan trọng đến sự hội tụ của ma trận moment cấp hai. Thủ tục lặp này hội tụ về một ma trận có các giá trị riêng bằng nhau. Độ chênh lệch giữa các giá trị riêng (max(),
min()) của ma trận ban đầu càng nhỏ thì giải pháp cuối cùng càng chặt chẽ và sự hội tụ càng nhanh. Chú ý rằng phép đo Harris (công thức (2.8)) lựa chọn các điểm với hai giá trị riêng lớn. Sự chênh lệch giữa các giá trị riêng lớn dẫn đến việc thay đổi tỷ lệ lớn theo một hƣớng bởi phép biến đổi U. Trong trƣờng hợp này điểm đó không hội tụ về một điểm ổn định do tạp nhiễu. Việc lựa chọn tỷ lệ cục bộ cho phép ta tìm đƣợc một tỷ lệ hợp lý giữa các giá trị riêng và các điểm sẽ hội tụ.
Chú ý rằng tỷ lệ vi phân cục bộ có thể đƣợc thiết lập cân xứng với tỷ lệ tích phân D sI, s là một hằng số. Điều này đẩy nhanh đáng kể các lần lặp nhƣng có một số điểm lại không hội tụ do độ chênh lệch lớn giữa các giá trị riêng.
Định vị không gian. Ta đã biết các điểm cực đại cục bộ của phép đo Harris thay đổi vị trí nhƣ thế nào nếu tỷ lệ phát hiện thay đổi (Hình 2.8). Có thể quan sát đƣợc sự ảnh hƣởng này khi thay đổi tỷ lệ khác nhau ở mỗi hƣớng. Ở hƣớng tiếp cận này, việc phát hiện có các tỷ lệ khác nhau ở các hƣớng x và y đƣợc thay thế bằng việc áp dụng cùng một tỷ lệ ở cả hai hƣớng đối với ảnh đã biến đổi. Do đó, chúng ta phát hiện lại điểm cực đại trong cửa sổ chuẩn hóa affine W. Vì vậy, ta thu đƣợc một vectơ của sự dịch chuyển hƣớng tới điểm cực đại gần nhất trong cửa sổ W đƣợc chuẩn hóa - U. Vị trí của điểm ban đầu đƣợc hiệu chỉnh theo vectơ dịch chuyển này sẽ bị biến đổi ngƣợc trở lại về vùng ảnh ban đầu:
( ) ( 1) ( 1) ( ) ( 1)x k x k U k (xwk xwk ) x k x k U k (xwk xwk )
ở đó xw là một điểm trong các tọa độ của ảnh đã biến đổi U.
Tiêu chuẩn hội tụ. Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận đƣợc tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ
C=0.05. min max ( ) 1 ( ) C (2.18)
Một khả năng khác là phân tích ma trận U RT D R thành phép quay R
và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi R và D liên tiếp đủ giống nhau. Cả hai tiêu chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trƣờng hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trƣờng hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vô cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên đƣợc loại bỏ nếu tỷ lệ quá lớn (tức
l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định. max min ( ) ( ) l D D (2.19)
Các đặc tính hội tụ của thuật toán thích nghi hình dạng đã đƣợc nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trƣờng hợp đặc biệt còn trong các trƣờng hợp khác thì điểm hội tụ luôn là duy nhất. Nhìn chung, sự hội tụ của thủ tục đã dẫn đến một điều là sự ƣớc lƣợng
ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân đƣợc lựa chọn chính xác đối với kích thƣớc của cấu trúc ảnh cục bộ.
Thuật toán phát hiện. Ngƣời ta đã đề xuất một thủ tục lặp cho phép các điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Các điểm này không đƣợc phát hiện theo cách bất biến affine do hàm nhân Gaussian không thích nghi (non-adapted Gaussian kernel), nhƣng cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trƣớc x(0) ta áp dụng thủ tục sau:
1. Khởi tạo U(0) là ma trận đồng nhất.
2. Chuẩn hóa cửa sổ W(xw) = I(x) đƣợc đặt ở trung tâm
( 1) ( -1) ( 1)
x x
k k k
w
U
3. Chọn tỷ lệ tích phân Itại điểm x( -1)wk
4. Chọn tỷ lệ vi phân D sI, sao cho việc lựa chọn này làm cực đại
min max ( ) ( ) , với s [0.5,…, 0.75] và (x(wk1), I, D)
5. Phát hiện vị trí không gian x( )wk của một giá trị cực đại của phép đo
Harris (công thức (2.8)) gần với x( -1)wk nhất và tính toán vị trí của điểm quan tâm x(k) 6. Tính 1 ( )k 2(x( )wk , , ) i I D
8. Quay lại bƣớc 2 nếu 1min(i( )k ) /max(i( )k ) ε C
Mặc dù sự tính toán dƣờng nhƣ tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính toán Lx và Ly, điều này đƣợc thực hiện chỉ một lần ở mỗi bƣớc nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu nhƣ mạnh mẽ đối với các sai số định vị nhỏ của điểm quan tâm này. Tuy nhiên, tỷ lệ I sẽ thay đổi nếu hình dạng của mảnh ảnh bị biến đổi. Cho trƣớc một giải pháp xấp xỉ ban đầu, thuật toán đã đƣợc trình bày ở trên sẽ sửa đổi một cách lặp đi lặp lại hình dạng, tỷ lệ và vị trí không gian của một điểm và hội tụ tới một cấu trúc cục bộ. Hình 2.11 chỉ ra các điểm affine đƣợc phát hiện ở các bƣớc liên tiếp của thủ tục lặp. Sau lần lặp thứ 4 thì vị trí, tỷ lệ và hình dạng của điểm đó không thay đổi nữa. Có thể thấy rằng các hình elip cuối cùng bao phủ cùng một vùng ảnh mặc dù có sự biến dạng affine mạnh.
Hình 2.11. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của phép biến đổi affine (dòng ở trên và dưới). Cột đầu tiên thể hiện các điểm được dùng cho việc khởi tạo. Các cột tiếp theo thể hiện các điểm và các vùng sau các lần lặp thứ 1, 2, 3 và 4. Chú ý rằng các điểm này hội tụ sau 4 lần lặp và các hình elip hội tụ tới các vùng ảnh tương ứng.
Sự lựa chọn các điểm affine tương tự nhau. Ta có thể giả sử rằng các đặc trƣng là ổn định nếu chúng ở trong một dãy tỷ lệ. Các đặc trƣng này đƣợc nhận ra bởi vài điểm mà các điểm này hội tụ tới cùng một cấu trúc. Với điều kiện vùng đƣợc chuẩn hóa là đẳng hƣớng, thì sẽ có một giá trị cực đại không gian của phép đo Harris và một tỷ lệ đặc trƣng cho cấu trúc cục bộ đang đƣợc xem xét. Vì vậy, vài điểm ban đầu tƣơng ứng với cùng một đặc trƣng nhƣng lại đƣợc phát hiện ở các mức tỷ lệ khác nhau hội tụ về vị trí và tỷ lệ của một điểm. Không phức tạp để nhận ra các điểm này bằng việc so sánh vị trí (x,y), tỷ lệ I , λmin(U)/λmax(U) và mặt nghiêng (skew). Mặt nghiêng này đƣợc khôi phục từ ma trận của phép quay R, ở đó URT D R. Chúng ta xác định một điểm tƣơng tự nếu mỗi tham số trong các tham số này nằm trong phạm vi một ngƣỡng đối với các tham số của điểm tham chiếu. Cuối cùng, ta tính toán các tham số trung bình và lựa chọn điểm tƣơng tự nhất từ tập các điểm đã xác định. Kết quả là, đối với một ảnh cho trƣớc ta thu đƣợc một tập các điểm mà ở đó mỗi một điểm thể hiện một vị trí và cấu trúc ảnh khác nhau.
Ví dụ về các điểm bất biến Affine. Hình 2.12 minh họa cho việc phát hiện các điểm bất biến affine. Cột (a) biểu diễn các điểm đƣợc dùng cho việc khởi tạo, các điểm này đƣợc phát hiện bởi phƣơng pháp phátt hiện Harris đa tỷ lệ. Các vòng tròn thể hiện các tỷ lệ phát hiện, ở đó các bán kính của vòng tròn là 3I. Các vòng tròn màu đen thể hiện các điểm đƣợc chọn bởi phƣơng pháp Harris-Laplace. Chú ý rằng có sự dịch chuyển đáng kể giữa các điểm đƣợc phát hiện ở các tỷ lệ khác nhau và các vòng tròn trong các ảnh tƣơng ứng (dòng đầu và dòng cuối) không bao phủ cùng một bộ phận của ảnh. Ở cột (b) trình bày các điểm Harris-Laplace với các vùng affine đƣợc ƣớc lƣợng (màu đen). Tỷ lệ và vị trí của các điểm không thay đổi trong suốt các lần lặp. Các vùng đƣợc chiếu tƣơng ứng đƣợc thể hiện bởi màu trắng và cho thấy sự
khác biệt rõ ràng về vị trí và hình dạng của vùng. Tỷ lệ ban đầu đƣợc phát hiện không đúng do sử dụng toán tử Laplacian vòng tròn (không thích nghi affine). Tƣơng tự, các vị trí của các điểm khác nhau 3 đến 4 điểm ảnh. Các điểm ở cột (a), tƣơng ứng với cùng một cấu trúc vật lý, nhƣng đƣợc phát hiện ở các vị trí khác nhau do tỷ lệ, hội tụ về cùng một vị trí và cùng một vùng và đƣợc trình bày ở cột (c). Chúng ta có thể thấy rằng phƣơng pháp này hội tụ chính xác thậm chí ngay cả khi vị trí và tỷ lệ của điểm ban đầu ở tƣơng đối xa điểm hội tụ. Nhìn chung để đạt đến sự hội tụ chỉ cần ít hơn 10 lần lặp. Điển hình, khoảng 40% các điểm ban đầu không hội tụ do không có các tỷ lệ đặc trƣng hoặc do sự chênh lệch lớn giữa các giá trị riêng của ma trận U
(λmax(U)/λmin(U) > 6). Khoảng 30% các điểm còn lại đƣợc lựa chọn bởi phép đo tính tƣơng tự. Khoảng 20-30% các điểm Harris đa tỷ lệ ban đầu đƣợc dùng để thể hiện một ảnh. Cột (d) biểu diễn các điểm đƣợc chọn (màu đen) và các điểm đƣợc chiếu từ ảnh tƣơng ứng (màu trắng). Sự khác biệt chủ yếu giữa các vùng trong cột (d) gây ra bởi tính không chính xác của việc ƣớc lƣợng tỷ lệ và sai số
C. Cột (e) biểu diễn các điểm đã đƣợc chọn đƣợc chuẩn hóa với các ma trận ƣớc lƣợng để loại bỏ sự kéo dãn và độ nghiêng. Chúng ta có thể thấy rằng các vùng này tƣơng ứng giữa hai ảnh (dòng trên và dòng dƣới)
Hình 2.12. Phát hiện điểm quan tâm bất biến affine: (a) Các điểm ban đầu được phát hiện bằng phương pháp Harris đa tỷ lệ và tỷ lệ đặc trưng được lựa chọn bởi đỉnh tỷ lệ Laplacian (màu đen-Harris-Laplace). (b) Các vùng affine
được phát hiện cho các điểm Harris-Laplace (màu đen) và các vùng được chiếu từ các ảnh tương ứng (màu trắng). (c) Các điểm và các vùng affine tương ứng thu được với thuật toán lặp áp dụng cho các điểm Harris đa tỷ lệ ban đầu. (d) Các điểm affine trung bình được chọn (màu đen) và các điểm được chiếu tương ứng của nó (màu trắng). (e) Các vùng lân cận được chuẩn hóa với các ma trận ước lượng để loại bỏ sự kéo dãn và độ nghiêng.
2.5 Phƣơng pháp SURF (Speed Up Robust Feature) [5]
SURF là một phƣơng pháp phát hiện và mô tả hình ảnh mạnh mẽ, do Herbert Bay đƣa ra lần đầu vào năm 2006, có thể đƣợc sử dụng trong các nhiệm vụ tầm nhìn của máy tính nhƣ nhận dạng đối tƣợng, phục hồi 3D. Nó đƣợc lấy cảm hứng từ mô tả SIFT. Phiên bản tiêu chuẩn của SURF nhanh hơn nhiều so với SIFT và nó chống lại sự biến đổi hình ảnh khác nhau tốt hơn SIFT. SURF dựa trên tổng xấp xỉ các đặc trƣng Haar wavelet 2D và sử dụng hiệu quả cho các ảnh tích hợp (integral image).
Phƣơng pháp này dựa trên các ma trận Hessian, nhƣng sử dụng một xấp xỉ cơ bản, cũng giống nhƣ DoG là một phát hiện cơ bản dựa trên Laplacian.