Các thao tác ở trên đã gán vị trí, tỷ lệ và hƣớng cho mối điểm khóa. Các tham số này áp đặt cho hệ tọa độ 2D cục bộ để mô tả một vùng ảnh cục bộ. Bƣớc tiếp theo là tính toán một bộ mô tả cho vùng ảnh cục bộ đó để có thể bất biến đối với các thay đổi còn lại nhƣ thay đổi độ sáng hoặc điểm nhìn 3D.
Hình 2.4. Bộ mô tả điểm khóa đƣợc tạo ra bằng cách: đầu tiên tính toán độ lớn và hƣớng gradient ở mỗi điểm mẫu trong một vùng xung quanh vị trí điểm khóa, nhƣ hình bên trái. Các hƣớng này đƣợc gán trọng số bởi một cửa sổ Gaussian, đƣợc biểu thị bởi đƣờng tròn phủ ngoài. Sau đó các mẫu này đƣợc gom lại thành các biểu đồ hƣớng tóm tắt nội dung trên 44 vùng
con, đƣợc thể hiện ở hình phải, với chiều dài mỗi mũi tên tƣơng đƣơng với tổng các cƣờng độ gradient gần với hƣớng đó trong phạm vi của vùng đó.
Hình 2.4 minh họa cho việc tính toán bộ mô tả điểm khóa. Đầu tiên các độ lớn và hƣớng gradient ảnh đƣợc lấy mẫu quanh vị trí điểm khóa, sử dụng tỷ lệ của điểm khóa để lựa chọn mức mờ Gaussian cho ảnh. Để đạt đến sự bất biến về hƣớng, thì các tọa độ của bộ mô tả và các hƣớng gradient bị quay có liên quan tới hƣớng của điểm khóa. Để thuận tiện trong việc tính toán bộ mô tả, các gradient phải đƣợc tính trƣớc cho tất cả các mức của hình chóp. Các gradient này đƣợc minh họa bởi các mũi tên nhỏ ở mỗi vị trí mẫu ở hình bên trái của
hình 2.4.
Hàm gán trọng số Gaussian với bằng một nửa chiều rộng của cửa sổ bộ mô tả đƣợc dùng để gán một trọng số cho cƣờng độ của mỗi điểm mẫu. Điều này đƣợc minh họa bằng một cửa sổ hình tròn thể hiện ở hình bên trái của hình 2.4. Mục đích của cửa sổ Gaussian này là tránh các thay đổi đột ngột trong bộ mô tả khi có các thay đổi nhỏ ở vị trí của cửa sổ, và ít quan tâm đến các gradient ở xa vị trí trung tâm của bộ mô tả.
Hình bên phải của hình 2.4 thể hiện bộ mô tả điểm khóa. Nó chú ý đến sự thay đổi đáng kể ở các vị trí gradient bằng việc tạo ra các biểu đồ hƣớng trên 44 vùng mẫu. Hình này thể hiện 8 hƣớng cho mỗi biểu đồ, với chiều dài của mỗi mũi tên tƣơng ứng với độ lớn của mỗi mục (entry) của biểu đồ.
Để tránh tất cả các ảnh hƣởng biên là điều thật sự quan trọng, ở đó bộ mô tả thay đổi đột ngột vì một mẫu thay đổi liên tục từ một biểu đồ này sang một biểu đồ khác hoặc từ một hƣớng này sang hƣớng khác. Vì vậy, sử dụng phép nội suy tuyến tính bậc 3 để phân bố giá trị của mỗi mẫu gradient vào các bin biểu đồ gần kề. Mặt khác, mỗi entry trong một bin đƣợc tăng lên nhiều lần bởi trọng số là 1d cho mỗi chiều, trong đó d là khoảng cách của mẫu từ giá
trị trung tâm của bin đó đƣợc đo dƣới dạng các đơn vị của khoảng cách bin biểu đồ.
Bộ mô tả đƣợc tạo nên từ một vectơ chứa các giá trị của tất cả các entry
của biểu đồ hƣớng, tƣơng ứng với các chiều dài của các mũi tên ở hình bên phải của hình 2.4. Hình này thể hiện một mảng 44 các biểu đồ với 8 bin hƣớng. Vì vậy, một vectơ đặc trƣng có 448 =128 phần tử để mô tả cho mỗi điểm khóa.
Cuối cùng, vectơ đặc trƣng đƣợc sửa đổi để giảm các tác động của sự thay đổi về độ sáng. Đầu tiên, vectơ đƣợc chuẩn hóa theo chiều dài đơn vị. Sự thay đổi về độ tƣơng phản của ảnh tức là mỗi giá trị điểm ảnh đƣợc nhân với một hằng số sẽ làm tăng các gradient bởi cùng hằng số đó, cho nên phép chuẩn hóa vectơ sẽ xóa bỏ đƣợc sự thay đổi về độ tƣơng phản. Thay đổi độ sáng tức là một hằng số đƣợc thêm vào mỗi điểm ảnh, điều này sẽ không ảnh hƣởng đến các giá trị gradient, vì giá trị gradient đƣợc tính từ các độ chênh lệch của điểm ảnh. Bởi vậy, bộ mô tả bất biến đối với các thay đổi affine về độ sáng. Tuy nhiên, các thay đổi độ sáng phi tuyến tính cũng có thể xảy ra dựa trên sự bão hòa của camera hoặc dựa trên các thay đổi về sự chiếu sáng mà chúng ảnh hƣởng đến các bề mặt 3D với các hƣớng khác nhau bởi các lƣợng khác nhau. Các ảnh hƣởng này có thể gây nên sự thay đổi lớn ở các cƣờng độ liên quan đối với một số gradient, nhƣng ít có khả năng ảnh hƣởng đến các hƣớng gradient. Vì vậy, giảm đƣợc tác động của các cƣờng độ gradient lớn bằng việc lấy ngƣỡng đối với các giá trị trong vectơ đơn vị đặc trƣng cho mỗi cƣờng độ là không vƣợt quá 0.2, sau đó chuẩn hóa lại chiều dài đơn vị. Điều này có nghĩa là việc so khớp các cƣờng độ đối với các gradient lớn không còn quan trọng nữa, và sự phân bố của các hƣớng có tầm quan trọng rất lớn. Giá trị
0.2 đƣợc xác định bằng thực nghiệm sử dụng các ảnh có các độ chiếu sáng khác nhau cho cùng các đối tƣợng 3D.
2.3 Harris-Laplace[8]
Mục này trình bày một kỹ thuật mới trong việc phát hiện các điểm quan tâm bất biến tỷ lệ, kỹ thuật này kết hợp kỹ thuật Harris[4] tin cậy và sự lựa chọn tỷ lệ tự động[8].
2.3.1 Không gian tỷ lệ
Một đặc tính vốn có của các đối tƣợng thế giới thực là chúng tồn tại nhƣ các thực thể đầy ý nghĩa trên khắp các tỷ lệ khác nhau. Một ví dụ đơn giản là khái niệm một nhánh cây, nó chỉ có nghĩa ở tỷ lệ từ một vài centimet tới nhiều nhất là vài mét, vì vậy thật vô nghĩa khi thảo luận khái niệm “cây” ở mức nanomet hoặc kilomet. Với cơ sở lập luận này, thì các đối tƣợng trong thế giới xuất hiện theo các cách khác nhau tùy thuộc tỷ lệ quan sát nếu ngƣời ta nhằm vào việc mô tả chúng. Vì vậy khái niệm tỷ lệ là cực kỳ quan trọng.
Đặc biệt, sự cần thiết đối với việc thể hiện đa tỷ lệ nảy sinh khi thiết kế các phƣơng pháp phân tích tự động và thu nhận thông tin từ các phép đo thế giới thực. Để có thể trích chọn bất kỳ thông tin nào từ dữ liệu ảnh, rõ ràng ngƣời ta phải tƣơng tác với dữ liệu ảnh bằng cách sử dụng các toán tử nào đó. Kiểu thông tin có thể thu đƣợc phần lớn đƣợc xác định bởi mối quan hệ giữa kích thƣớc của các cấu trúc hiện thực trong dữ liệu đó và kích thƣớc của các toán tử. Vài vấn đề rất cơ bản trong xử lý ảnh tập trung vào toán tử nào đƣợc dùng, nơi áp dụng chúng và chúng ở phạm vi nhƣ thế nào. Nếu các vấn đề này không đƣợc quan tâm thích đáng thì việc giải thích cho sự đáp ứng của toán tử có thể rất khó khăn.
Tuy nhiên, trong các hoàn cảnh khác nhau có thể không là hiển nhiên để xác định trƣớc tỷ lệ nào là thích hợp. Một ví dụ cho trƣờng hợp nhƣ vậy là hệ thống thị giác với nhiệm vụ phân tích các cảnh chƣa biết. Bên cạnh các đặc tính đa tỷ lệ vốn có của các đối tƣợng thế giới thực, thì một hệ thống nhƣ vậy phải đối mặt với các vấn đề nhƣ phép ánh xạ theo luật gần xa đƣa đến các thay đổi về kích thƣớc, tạp nhiễu cũng bị đƣa vào trong quá trình thu nhận ảnh, và dữ liệu sẵn có là các tập dữ liệu hai chiều phản ánh các đặc tính gián tiếp của một thế giới 3 chiều. Để có thể đối phó với các vấn đề này, một công cụ cần thiết là một lý thuyết hình thức cho cách mô tả các cấu trúc ảnh ở các tỷ lệ khác nhau.
* Sự thể hiện không gian tỷ lệ: định nghĩa và các ý tƣởng cơ bản
Hình 2.5. Một thể hiện đa tỷ lệ của một tín hiệu là một tập có thứ tự của các tín hiệu thu nhận được dự định để thể hiện tín hiệu gốc ở các mức tỷ lệ khác nhau.
Lý thuyết không gian tỷ lệ là một nền tảng cho các thao tác thị giác gần đây, lý thuyết này đƣợc phát triển bởi cộng đồng thị giác máy tính để xử lý bản chất đa tỷ lệ đƣợc đề cập ở trên của dữ liệu ảnh. Một vấn đề chính đằng sau cấu trúc của nó là nếu không cho trƣớc thông tin về các tỷ lệ thích hợp đối với một tập dữ liệu cho trƣớc thì chỉ có một phƣơng pháp duy nhất cho hệ
thống thị giác không ràng buộc là thể hiện dữ liệu vào ở nhiều mức tỷ lệ khác nhau. Điều này có nghĩa là tín hiệu gốc nên đƣợc nhúng vào một họ một tham số của các tín hiệu thu nhận, ở đó các cấu trúc có tỷ lệ nhỏ đƣợc nén liên tiếp (Hình 2.5). Một ý tƣởng nhƣ vậy nên đƣợc thực hiện nhƣ thế nào trong thực tế? Một yêu cầu cốt yếu là các cấu trúc ở các tỷ lệ thô trong một thể hiện đa tỷ lệ sẽ là các sự đơn giản hóa của các cấu trúc tƣơng ứng ở các tỷ lệ nhỏ hơn. Tóm lại, đối với bất kỳ tín hiệu n chiều nào f: RNR, thì một thể hiện không gian tỷ lệ của nó L: RNR+ R đƣợc định nghĩa bởi công thức sau:
R ( ; ) N ( ) ( ) L x t f x g d
ở đó g: RNR+ R biểu thị hàm nhân Gaussian.
2 2 1 ( )/ 2 2 / 2 1 ( ; ) (2 ) D x x t D g x t e
Biến t đƣợc xem là tham số tỷ lệ. Tƣơng đƣơng, họ không gian tỷ lệ có thể đƣợc đạt đến nhƣ một giải pháp cho phƣơng trình tuyến tính:
2 1 2
tL L
Với điều kiện ban đầu L(.; t) = f. Khi đó, dựa vào thể hiện này, các đạo hàm không gian tỷ lệ ở bất kỳ tỷ lệ t nào đều đƣợc xác định bởi:
1 1 1 ... 1 ... ( ; ) D ( ; ) ( D ( ; )) D D x x x x x L t L t g t f
Hình 2.6. Các mức khác nhau trong một thể hiện không gian tỷ lệ của một ảnh hai chiều ở các mức tỷ lệ t = 0, 2, 8, 32, 128 và 512 cùng với các hình giọt nước mức xám biểu thị các giá trị cực tiểu cục bộ ở mỗi tỷ lệ.
Hình 2.6 thể hiện một ví dụ ứng với một ảnh hai chiều. Ở đây, để nhấn mạnh các biến đổi cục bộ trong một ảnh cấp xám, các giá trị cực tiểu cục bộ trong các ảnh cấp xám ở mỗi tỷ lệ đƣợc biểu thị bởi các hình giọt nƣớc màu đen. Chúng ta có thể thấy rằng phần lớn các hình giọt nƣớc nhỏ là do tạp nhiễu và kết cấu đƣợc phát hiện ở các tỷ lệ nhỏ. Sau khi làm trơn, các nút bấm trên bàn phím hiện ra rõ ràng hơn, trong khi đó ở các tỷ lệ lớn hơn các nút này hợp thành một khối. Hơn nữa, các cấu trúc ảnh tối hơn (nhƣ máy tính, dây, và ống nghe điện thoại) xuất hiện nhƣ các hình giọt nƣớc đơn ở các tỷ lệ lớn hơn. Ví dụ này minh họa cho các kiểu phân tích hình dạng có thứ bậc mà các phân tích này có thể đƣợc đạt đến bằng việc thay đổi tham số tỷ lệ trong thể hiện không gian tỷ lệ đó. Các mối liên hệ giữa các cấu trúc ảnh ở các tỷ lệ khác nhau đƣợc tạo ra theo cách này đƣợc gọi là các cấu trúc theo độ sâu (deep structures).
2.3.2 Hàm Harris thích nghi tỷ lệ
Phƣơng pháp phát hiện điểm quan tâm Harris dựa trên ma trận moment cấp hai. Ma trận moment cấp hai, còn gọi là ma trận tƣơng quan tự động,
thƣờng đƣợc dùng cho việc phát hiện đặc trƣng hoặc mô tả các cấu trúc ảnh cục bộ. Ma trận này đƣợc làm thích nghi với các thay đổi về tỷ lệ, làm cho nó độc lập với độ phân giải của ảnh. Ma trận moment cấp hai thích nghi tỷ lệ (scale-adapted second moment matrix) đƣợc định nghĩa nhƣ sau:
2 11 12 2 2 21 22 ( , ) ( , ) ( , , ) ( ) ( , ) ( , ) x D x y D I D D I x y D y D L L L g L L L x x x x x (2.7)
ở đây I là tỷ lệ tích phân, D là tỷ lệ vi phân và La là phép đạo hàm đƣợc tính theo hƣớng a. Ma trận này mô tả sự phân bố gradient trên một vùng lân cận cục bộ xung quanh một điểm. Các đạo hàm địa phƣơng đƣợc tính với các hàm nhân Gaussian có kích thƣớc đƣợc xác định bởi tỷ lệ cục bộ D (tỷ lệ vi phân -
differentiation scale). Sau đó, các đạo hàm này đƣợc tính trung bình trong vùng lân cận của điểm đó bằng việc làm trơn với cửa sổ Gaussian có kích thƣớc I
(tỷ lệ tích phân - integration scale). Các giá trị riêng của ma trận này mô tả hai sự thay đổi tín hiệu chủ yếu trong vùng lân cận của một điểm. Đặc tính này cho phép trích chọn các điểm, mà đối với chúng cả hai độ cong đều đáng kể, điều này có nghĩa là sự thay đổi tín hiệu là đáng kể ở các hƣớng trực giao tức là các góc, các mối nối v.v... Các điểm nhƣ vậy ổn định trong các điều kiện chiếu sáng tùy ý và đại diện cho một ảnh. Một trong những phƣơng pháp phát hiện điểm quan tâm tin cậy nhất, đó là phƣơng pháp Harris, dựa theo nguyên tắc này. Phép đo Harris kết hợp dấu vết và định thức của ma trận moment cấp hai đƣợc xác định nhƣ sau:
2
det( ( , I, D)) trace ( ( , I, D))
cornerness x x (2.8) Các giá trị cực đại cục bộ của cornerness xác định vị trí của các điểm quan tâm, ở đó đƣợc xác định thông qua thực nghiệm.
2.3.3 Sự lựa chọn tỷ lệ tự động
Sự lựa chọn tỷ lệ tự động và các đặc tính của các tỷ lệ đƣợc chọn đã đƣợc nghiên cứu rộng rãi. Ý tƣởng là lựa chọn tỷ lệ đặc trƣng của một cấu trúc cục bộ, mà đối với nó một hàm cho trƣớc đạt đƣợc một cực trị trên tất cả các tỷ lệ. Liên quan tới việc lựa chọn tỷ lệ tự động, thuật ngữ characteristic trƣớc tiên đề cập đến một sự việc là tỷ lệ đƣợc chọn ƣớc lƣợng chiều dài đặc trƣng (characteristic length) của các cấu trúc ảnh tƣơng ứng, theo cách tƣơng tự nhƣ khái niệm về chiều dài đặc trƣng đƣợc dùng trong Vật lý. Tỷ lệ đƣợc chọn là đặc trƣng theo nghĩa định lƣợng, vì nó đo đƣợc tỷ lệ mà ở đó có sự giống nhau tối đa giữa toán tử phát hiện đặc trƣng và các cấu trúc ảnh cục bộ. Sự ƣớc lƣợng tỷ lệ này sẽ tuân thủ hoàn toàn với sự bất biến tỷ lệ khi có sự thay đổi tỷ lệ của mẫu ảnh.
Cho một điểm trong một ảnh và một toán tử lựa chọn tỷ lệ chúng ta tính toán các đáp ứng của toán tử đó cho một tập các tỷ lệ n (Hình 2.7). Tỷ lệ đặc trƣng tƣơng ứng với cực trị địa phƣơng của các đáp ứng đó. Chú ý rằng có thể có vài cực đại hoặc cực tiểu, đó là các tỷ lệ đặc trƣng tƣơng ứng với các cấu trúc ảnh khác nhau đƣợc đặt vào giữa điểm này. Tỷ lệ đặc trƣng không phụ thuộc nhiều vào độ phân giải của ảnh. Nó liên quan tới cấu trúc và không liên quan tới độ phân giải mà ở đó cấu trúc đƣợc miêu tả. Tỷ lệ giữa các scale mà ở đó các cực trị đƣợc tìm thấy cho các điểm tƣơng ứng là thừa số tỷ lệ thực sự giữa các vùng lân cận của điểm đó. Nếu có quá ít điểm quan tâm đƣợc phát hiện thì nội dung ảnh đƣợc miêu tả không tin cậy cho mấy. Hơn nữa, các cuộc thí nghiệm đã cho thấy rằng hàm Laplacian-of-Gaussian tìm đƣợc tỷ lệ phần trăm cao nhất của các tỷ lệ đặc trƣng chính xác đƣợc cho bởi công thức sau:
2 n
Hình 2.7. Ví dụ về các tỷ lệ đặc trưng