ở các mức tỷ lệ t = 0, 2, 8, 32, 128 và 512 cùng với các hình giọt nƣớc mức xám biểu thị các giá trị cực tiểu cục bộ ở mỗi tỷ lệ.
Hình 2.2 thể hiện một ví dụ ứng với một ảnh hai chiều. Ở đây, để nhấn mạnh các biến đổi cục bộ trong một ảnh cấp xám, các giá trị cực tiểu cục bộ
trong các ảnh cấp xám ở mỗi tỷ lệ được biểu thị bởi các hình giọt nước màu đen. Chúng ta có thể thấy rằng phần lớn các hình giọt nước nhỏ là do tạp nhiễu và kết cấu được phát hiện ở các tỷ lệ nhỏ. Sau khi làm trơn, các nút bấm trên bàn phím hiện ra rõ ràng hơn, trong khi đó ở các tỷ lệ lớn hơn các nút này hợp thành một khối. Hơn nữa, các cấu trúc ảnh tối hơn (như máy tính, dây, và ống nghe điện thoại) xuất hiện như các hình giọt nước đơn ở các tỷ lệ lớn hơn. Ví dụ này minh họa cho các kiểu phân tích hình dạng có thứ bậc mà các phân tích này có thể được đạt đến bằng việc thay đổi tham số tỷ lệ trong thể hiện không gian tỷ lệ đó. Các mối liên hệ giữa các cấu trúc ảnh ở các tỷ lệ khác nhau được tạo ra theo cách này được gọi là các cấu trúc theo độ sâu (deep structures).
2.2.2 Hàm Harris thích nghi tỷ lệ
Phương pháp phát hiện điểm quan tâm Harris dựa trên ma trận moment cấp hai. Ma trận moment cấp hai, còn gọi là ma trận tương quan tự động, thường được dùng cho việc phát hiện đặc trưng hoặc mô tả các cấu trúc ảnh cục bộ. Ma trận này được làm thích nghi với các thay đổi về tỷ lệ, làm cho nó độc lập với độ phân giải của ảnh. Ma trận moment cấp hai thích nghi tỷ lệ (scale-adapted second moment matrix) được định nghĩa như sau:
2 11 12 2 2 21 22 ( , ) ( , ) ( , , ) ( ) ( , ) ( , ) x D x y D I D D I x y D y D L L L g L L L x x x x x (2.3)
ở đây I là tỷ lệ tích phân, D là tỷ lệ vi phân và La là phép đạo hàm được tính theo hướng a. Ma trận này mô tả sự phân bố gradient trên một vùng lân cận cục bộ xung quanh một điểm. Các đạo hàm địa phương được tính với các nhân Gaussian có kích thước được xác định bởi tỷ lệ cục bộ D (tỷ lệ vi phân -
differentiation scale). Sau đó, các đạo hàm này được tính trung bình trong vùng lân cận của điểm đó bằng việc làm trơn với cửa sổ Gaussian có kích thước I (tỷ lệ tích phân - integration scale). Các giá trị riêng của ma trận này mô tả hai sự thay đổi tín hiệu chủ yếu trong vùng lân cận của một điểm. Đặc tính này cho phép trích chọn các điểm, mà đối với chúng cả hai độ cong đều đáng kể, điều này có nghĩa là sự thay đổi tín hiệu là đáng kể ở các hướng trực giao tức là các góc, các mối nối v.v... Các điểm như vậy ổn định trong các điều kiện chiếu sáng tùy ý và đại diện cho một ảnh. Một trong những phương pháp phát hiện điểm quan tâm tin cậy nhất, đó là phương pháp Harris, dựa theo nguyên tắc này. Phép đo Harris kết
hợp dấu vết (trace) và định thức (det) của ma trận moment cấp hai được xác định như sau:
2
det( ( , I, D)) trace ( ( , I, D))
cornerness x x (2.4)
Các giá trị cực đại cục bộ của cornerness xác định vị trí của các điểm quan tâm, ở đó được xác định thông qua thực nghiệm và thường nhận giá trị trong khoảng [0.04,...,0.15].
2.2.3 Sự lựa chọn tỷ lệ tự động
Sự lựa chọn tỷ lệ tự động và các đặc tính của các tỷ lệ được chọn đã được nghiên cứu rộng rãi. Ý tưởng là lựa chọn tỷ lệ đặc trưng của một cấu trúc cục bộ, mà đối với tỷ lệ này một hàm cho trước đạt được một cực trị trên tất cả các tỷ lệ. Liên quan tới việc lựa chọn tỷ lệ tự động, thuật ngữ characteristic trước tiên đề cập đến một vấn đề là tỷ lệ được chọn ước lượng chiều dài đặc trưng (characteristic length) của các cấu trúc ảnh tương ứng, theo cách tương tự như khái niệm về chiều dài đặc trưng được dùng trong Vật lý. Tỷ lệ được chọn là đặc trưng theo nghĩa định lượng, vì nó đo được tỷ lệ mà ở đó có sự giống nhau tối đa giữa toán tử phát hiện đặc trưng và các cấu trúc ảnh cục bộ. Sự ước lượng tỷ lệ này sẽ tuân thủ hoàn toàn với sự bất biến tỷ lệ khi có sự thay đổi tỷ lệ của mẫu ảnh.
Cho một điểm trong một ảnh và một toán tử lựa chọn tỷ lệ chúng ta tính toán các đáp ứng của toán tử đó cho một tập các tỷ lệ n (Hình 2.3). Tỷ lệ đặc trưng tương ứng với cực trị địa phương của các đáp ứng đó. Chú ý rằng có thể có vài cực đại hoặc cực tiểu, đó là các tỷ lệ đặc trưng tương ứng với các cấu trúc ảnh khác nhau được đặt vào giữa điểm này. Tỷ lệ đặc trưng không phụ thuộc nhiều vào độ phân giải của ảnh. Nó liên quan tới cấu trúc và không liên quan tới độ phân giải mà ở đó cấu trúc được miêu tả. Tỷ lệ giữa các scale mà ở đó các cực trị được tìm thấy cho các điểm tương ứng là thừa số tỷ lệ thực sự giữa các vùng lân cận của điểm đó. Nếu có quá ít điểm quan tâm được phát hiện thì nội dung ảnh được miêu tả không tin cậy cho mấy. Hơn nữa, các cuộc thí nghiệm đã cho thấy rằng hàm Laplacian-of-Gaussian tìm được tỷ lệ phần trăm cao nhất của các tỷ lệ đặc trưng chính xác được cho bởi công thức sau:
2 n
Hình 2.3. Ví dụ về các tỷ lệ đặc trƣng.
Hình 2.3 minh họa cho các tỷ lệ đặc trưng. Hàng trên thể hiện hai ảnh được lấy với các chiều dài cục bộ khác nhau. Dòng ở dưới thể hiện các đáp ứng của hàm Fnorm(x,n) trên các tỷ lệ, ở đó Fnorm là hàm LoG chuẩn (công thức (2.5)). Các tỷ lệ đặc trưng này nằm trong khoảng 10.1 và 3.89 đối với ảnh trái và ảnh phải. Tỷ lệ giữa các tỷ lệ tương ứng là thừa số tỷ lệ (2.5) giữa hai ảnh. Bán kính của các vòng tròn bằng 3 lần tỷ lệ đặc trưng.
Khi kích thước của nhân LoG khớp với kích thước của cấu trúc blob-like
thì đáp ứng của hàm đạt được một cực trị. Vì vậy, hàm nhân LoG có thể được giải thích như một bộ lọc so khớp. Hàm LoG thích hợp cho việc phát hiện các cấu trúc hình giọt nước (blob) vì tính đối xứng tròn của nó, nhưng nó cũng cung cấp một sự ước lượng tốt về tỷ lệ đặc trưng cho các cấu trúc cục bộ khác như các góc, các cạnh, các hình chóp và đa mối nối.
2.2.3 Thuật toán phát hiện điểm bất biến Harris-Laplace
Mục này trình bày chi tiết về thuật toán phát hiện các điểm đặc trưng bất biến tỷ lệ. Phương pháp Harris-Laplace [10] dùng hàm Harris thích nghi tỷ lệ (công thức (2.4)) để xác định các điểm trong không gian tỷ lệ. Sau đó, nó lựa chọn các điểm mà đối với chúng hàm Laplacian-of-Gaussian (công thức (2.5)) đạt được một giá trị cực đại trên khắp tỷ lệ. Người ta đề xuất 2 thuật toán. Thuật toán thứ nhất là thuật toán lặp để phát hiện đồng thời vị trí và tỷ lệ của các vùng đặc trưng. Thuật toán thứ hai là một thuật toán đơn giản, ít chính xác nhưng hiệu quả hơn nhiều.
2.2.3.1 Thuật toán Harris-Laplace
Thuật toán này bao gồm hai bước: phát hiện điểm đa tỷ lệ (multi-scale point) và lựa chọn lặp đi lặp lại tỷ lệ và vị trí. Đầu tiên ta xây dựng một thể hiện không gian tỷ lệ với hàm Harris cho các tỷ lệ được chọn trước n = n0, với là thừa số tỷ lệ giữa hai mức liên tiếp ( = 1.4 ). Ở mỗi mức của sự thể hiện này ta trích chọn các điểm quan tâm bằng việc phát hiện các điểm cực đại địa phương trong 8 láng giềng của điểm x. Sử dụng một ngưỡng để loại bỏ các điểm cực đại của cornerness nhỏ, vì chúng ít ổn định dưới các thay đổi trong các điều kiện ảnh. Ma trận (x,n) được tính với tỷ lệ tích phân I nvà tỷ lệ cục bộ
n
D s
, s là một hằng số (thiết lập 0.7 thông qua thực nghiệm). Sau đó đối với mỗi điểm ta áp dụng thuật toán lặp để phát hiện đồng thời vị trí và tỷ lệ của các điểm quan tâm. Các cực trị trên tỷ lệ của hàm LoG được dùng để lựa chọn tỷ lệ cho các điểm quan tâm. Loại bỏ các điểm mà đối với chúng đáp ứng của hàm LoG không đạt được cực trị nào và đáp ứng ở dưới ngưỡng. Cho một điểm x ban đầu với tỷ lệ I, các bước lặp:
1. Tìm cực trị địa phương trên tỷ lệ của hàm LoG cho điểm x(k), mặt khác loại bỏ điểm đó. Một dãy các tỷ lệ được kiểm tra bị giới hạn tới (k 1) ( )k
I t I
với t[0.7,…,1.4].
2. Phát hiện vị trí không gian x(k+1) của giá trị cực đại của phép đo Harris gần với x(k) nhất đối với I(k1) được chọn.
3. Quay về bước 1 nếu I(k1) I( )k hoặc x(k+1) x(k).
Các điểm ban đầu được phát hiện với phương pháp Harris đa tỷ lệ có sự thay đổi lớn giữa hai mức tỷ lệ phát hiện liên tiếp là 1.4. Thực nghiệm cho thấy nếu dùng một tỷ lệ nhỏ hơn (1.1) sẽ mang lại độ chính xác tốt hơn cho vị trí x và tỷ lệ I. Cho trước các điểm ban đầu được phát hiện với khoảng cách tỷ lệ ξ = 1.4, vòng lặp kiểm tra cẩn thận dãy các tỷ lệ tI với t[0.7,...,1.4], điều này tương ứng với khoảng cách giữa hai mức trong không gian tỷ lệ gần với tỷ lệ của điểm ban đầu là I. Chú ý rằng các điểm ban đầu được phát hiện trên cùng cấu trúc cục bộ nhưng ở các tỷ lệ khác nhau sẽ hội tụ đến cùng vị trí và cùng tỷ lệ. Dễ dàng nhận ra các điểm này dựa vào các tọa độ và các tỷ lệ.
2.2.3.2 Thuật toán Harris-Laplace đơn giản
Thuật toán Harris-Laplace có thể được đơn giản hóa để phát hiện nhanh chóng các điểm quan tâm. Như trước đây các điểm ban đầu được phát hiện với phương pháp Harris đa tỷ lệ; ta xây dựng một thể hiện không gian tỷ lệ với hàm Harris và phát hiện các giá trị cực đại địa phương ở mỗi mức tỷ lệ. Sau đó, xác minh cho mỗi điểm trong số các điểm ban đầu này liệu hàm LoG có đạt được một giá trị cực đại ở tỷ lệ của điểm này không. Loại bỏ các điểm mà đối với chúng hàm Laplacian không đạt được cực trị hoặc đáp ứng ở dưới ngưỡng. Theo cách này ta thu được một tập các điểm đặc trưng với các tỷ lệ kết hợp. Đối với một số điểm có thể đỉnh của tỷ lệ không tương ứng với các tỷ lệ phát hiện được chọn của một ảnh. Các điểm này hoặc bị loại bỏ, vì chúng không phải là điểm cực đại, hoặc vị trí và tỷ lệ rất không chính xác. Vì vậy, khoảng cách tỷ lệ giữa hai mức liên tiếp nên nhỏ (khoảng 1.2) để việc xác định vị trí và tỷ lệ của một điểm quan tâm có độ chính xác cao hơn.
Hướng tiếp cận Harris-Laplace cung cấp một tập các điểm súc tích và điển hình đặc trưng cho một ảnh và độ lớn của tỷ lệ. Phương pháp thứ nhất mang lại độ chính xác cao hơn ở vị trí và tỷ lệ của các điểm quan tâm. Phương pháp thứ hai là sự cân bằng giữa độ chính xác và độ phức tạp tính toán.
2.2.3.3 Ví dụ về các điểm bất biến
Hình 2.4 thể hiện 2 ví dụ về các điểm được phát hiện theo phương pháp Harris-Laplace đơn giản. Dòng trên thể hiện các điểm được phát hiện với phương pháp phát hiện Harris đa tỷ lệ được dùng cho việc khởi tạo. Ở đây, ta lựa chọn bằng tay các điểm tương ứng với cùng cấu trúc cục bộ. Tỷ lệ phát hiện được thể hiện bởi một vòng tròn bao quanh điểm đó với bán kính 3I. Chú ý cách thức mà một điểm quan tâm, được phát hiện đối với cùng cấu trúc ảnh đó, thay đổi vị trí của nó liên quan tới tỷ lệ phát hiện ở hướng gradient đó. Người ta có thể xác định một chuỗi các điểm và chỉ chọn một điểm trong chúng để thể hiện cho cấu trúc cục bộ. Ở hướng tiếp cận này, phép đo LoG được dùng để chọn các điểm điển hình cho các cấu trúc như vậy. Hơn nữa, hàm LoG cho phép lựa chọn các điểm đặc trưng tương ứng (dòng dưới) khi có sự biến đổi đáng kể giữa các ảnh. Thỉnh thoảng, hai hoặc nhiều hơn hai điểm được chọn từ một tập đa tỷ lệ, nhưng không cho biết trước về sự thay đổi tỷ lệ giữa các ảnh nên chúng
ta phải giữ lại tất cả các điểm đã chọn. Như vậy, nhìn vào hình chúng ta có thể thấy vị trí và tỷ lệ của các điểm đúng với sự biến đổi giữa các ảnh.
Hình 2.4. Phát hiện điểm quan tâm bất biến tỷ lệ: (Dòng trên) các điểm Harris đa tỷ lệ ban đầu tƣơng ứng với một cấu trúc cục bộ. (Dòng dƣới) các điểm quan tâm đƣợc chọn ban đầu tƣơng ứng với một cấu trúc cục bộ. (Dòng dƣới) các điểm quan tâm đƣợc chọn với phƣơng pháp Harris-Laplace đơn giản.
2.3 Phƣơng pháp xác định điểm bất biến Harris-Affine
Hướng tiếp cận bất biến tỷ lệ có thể được mở rộng để làm cho nó bất biến affine. Phần này trình bày về phương pháp phát hiện điểm bất biến Harris- Laplace trong trường hợp có các phép biến đổi affine của ảnh. Tiếp theo giới thiệu một phương pháp cho việc ước lượng hình dạng affine của một cấu trúc cục bộ. Mỗi bước của thuật toán phát hiện được thảo luận chi tiết và trình bày một phác thảo của thủ tục lặp. Phần này cũng trình bày một ví dụ về các điểm bất biến affine được phát hiện theo phương pháp này.
2.3.1 Động cơ thúc đẩy
Trong trường hợp có các biến đổi affine thì nhìn chung sự thay đổi tỷ lệ là khác nhau ở mỗi hướng. Phương pháp phát hiện Harris-Laplace được thiết kế chỉ để xử lý các thay đổi tỷ lệ đồng dạng nên nó sẽ thất bại trong trường hợp có các biến đổi affine đáng kể. Hình 2.5 trình bày một cặp điểm được phát hiện trong các ảnh khi có phép biến đổi affine giữa chúng. Dòng trên thể hiện các điểm được phát hiện với phương pháp Harris đa tỷ lệ. Tỷ lệ (được chọn với hàm
thể hiện bằng màu đen và các hình elip màu trắng là các vùng tương ứng được chiếu từ ảnh khác với phép biến đổi affine. Chúng ta có thể thấy rằng các vùng được phát hiện theo phương pháp Harris-Laplace không bao phủ cùng một bộ phần của ảnh bị biến dạng affine.
Trong trường hợp có phép biến đổi affine, khi đó sự thay đổi tỷ lệ không nhất thiết phải giống nhau ở mỗi hướng, nên các tỷ lệ được chọn một cách tự động không phản ánh được sự biến đổi thực sự của một điểm. Biết rằng các vị trí không gian của các điểm cực đại Harris làm thay đổi tương đối tỷ lệ phát hiện (Hình 2.4 và 2.5). Nếu các tỷ lệ phát hiện không phù hợp với thừa số tỷ lệ thực giữa các ảnh thì sẽ dẫn đến một lỗi dịch chuyển giữa các điểm tương ứng và các vùng liên đới cũng không phù hợp. Các tỷ lệ phát hiện phải thay đổi độc lập với các hướng trực giao để xử lý bất kỳ tỷ lệ affine nào. Vì vậy, chúng ta gặp phải vấn đề về việc tính toán ma trận moment cấp hai trong không gian tỷ lệ affine Gaussian, ở đó vùng lân cận hình tròn của một điểm được thay thế bằng hình elip. Mục tiếp theo sẽ trình bày cách giải quyết vấn đề này.
Hình 2.5. Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi affine.
2.3.2 Ma trận moment cấp hai affine
Ma trận moment cấp hai có thể được dùng để ước lượng hình dạng không đẳng hướng của một cấu trúc ảnh cục bộ. Đặc tính này được tìm ra bởi