Xét một điểm xL bị biến đổi bởi phép biến đổi tuyến tính xR = AxL. Ma trận L đƣợc tính ở điểm xL cũng bị biến đổi theo cách sau:
, , , , , , ( , , ) ( , , ) ( , , ) T L I L D L R I R D R T T T L I L D L A A A A A A A A A x x x (2.1)
Nếu ta biểu thị các ma trận tƣơng ứng bởi:
, , , ,
( L, I L, D L) ML ( R, I R, D R) MR
x x
Vậy các ma trận này đƣợc viết lại nhƣ sau:
1
T T
L R R L
M A M A M A M A (2.12)
Trong trƣờng hợp này các nhân vi phân và tích phân đƣợc biến đổi thành:
T R A L A
Giả sử rằng ma trận ML cũng đƣợc tính theo cách nhƣ vậy:
1 1
, ,
I L IML D L DML
(2.13)
Trong đó các đại lƣợng vô hƣớng I và D là các tỷ lệ tích phân và vi phân tƣơng ứng. Vì vậy, ta có thể tìm đƣợc mối quan hệ sau:
1 , , 1 1 1 1 , , 1 1 1 ( ) ( ) ( ) ( ) T T I R I L I L T I L I R T T D R D L D L T D L D R A A AM A A M A M A A AM A A M A M (2.14)
Điều này cho thấy rằng việc lợi dụng các điều kiện, đƣợc định nghĩa ở công thức (2.13) dẫn đến các mối quan hệ ở công thức (2.14), với giả định là các điểm đƣợc thuật lại bởi phép biến đổi affine và các ma trận đƣợc tính toán cho các tỷ lệ tƣơng ứng I và D. Bây giờ chúng ta có thể đảo ngƣợc vấn đề này và giả sử rằng có hai điểm đƣợc thuật lại bởi một phép biến đổi affine nào đó. Nếu ta ƣớc lƣợng đƣợc các ma trận R và L để các ma trận này xác minh cho các điều kiện (2.13) và (2.14), thì quan hệ (2.12) sẽ đúng. Đặc tính này cho phép các tham số của phép biến đổi đƣợc biểu diễn trực tiếp bởi các thành phần của ma trận đó. Khi đó, phép biến đổi affine đó có thể đƣợc định nghĩa nhƣ sau:
1/ 2 1/ 2
R L
AM RM
Trong đó R là ma trận trực giao thể hiện một phép quay bất kỳ hoặc phép biến đổi phản chiếu (đối xứng gƣơng). Mục tiếp theo trình bày về một thuật toán lặp cho việc ƣớc lƣợng các ma trận L và R. Phép biến đổi affine có thể đƣợc ƣớc lƣợng tối đa là một phép quay giữa hai điểm tƣơng ứng mà không biết trƣớc về phép biến đổi này. Hơn nữa, các ma trận ML và MR, đƣợc tính dƣới các điều kiện (2.13) và (2.14), xác định các vùng tƣơng ứng đƣợc định nghĩa bởi công thức xTMx = 1. Nếu vùng lân cận của các điểm xR và xL đƣợc chuẩn hóa bởi các phép biến đổi xRM1/ 2R xRvà xLM1/ 2L xL, thì các vùng đƣợc chuẩn hóa này đƣợc thuật lại bởi một phép quay đơn giản xLRxR
1/ 2 1/ 2 1/ 2 1/ 2 x x x , x x R L R L L R R L L A M RM M RM (2.15)
Các ma trận ML và MR trong các cấu trúc đƣợc chuẩn hóa bằng với ma trận quay thuần túy (Hình 2.10). Mặt khác, các mẫu cƣờng độ trong các cấu trúc đƣợc chuẩn hóa là đẳng hƣớng dƣới dạng ma trận moment cấp hai.
Hình 2.10. Biểu đồ giải thích phép chuẩn hóa affine dựa trên các ma trận moment cấp hai. Tọa độ ảnh được chuyển đổi thành các ma trận ML1/ 2và
1/ 2
R
M . Các ảnh bị biến đổi được thuật lại bởi một phép biến đổi trực giao.
2.4.2.2 Phép đo tính đẳng hướng (Isotropy Measure)
Ma trận moment cấp hai cũng có thể đƣợc chuyển đổi thành phép đo đẳng hƣớng. Không mất tính tổng quát, chúng ta giả sử rằng một cấu trúc không đẳng hƣớng cục bộ là một cấu trúc đẳng hƣớng dƣới phép biến đổi affine. Để bù vào sự biến dạng affine, ta phải tìm ra một phép biến đổi mà phép biến đổi này chiếu mẫu không đẳng hƣớng thành một mẫu đẳng hƣớng. Chú ý rằng phép quay giữ lại tính đẳng hƣớng của một mảnh ảnh, vì vậy, sự biến dạng affine của một cấu trúc đẳng hƣớng có thể đƣợc xác định tối đa là một nhân tố của phép quay. Phép quay này có thể đƣợc khôi phục bởi các phƣơng pháp dựa
vào hƣớng gradient của ảnh. Tính đẳng hƣớng cục bộ có thể đƣợc đo bởi các giá trị riêng của ma trận moment cấp hai (x,I,D). Nếu các các giá trị riêng bằng nhau thì chúng ta xét đến tính đẳng hƣớng của điểm đó. Để đạt đƣợc phép đo chuẩn hóa ta phải sử dụng tỷ lệ giữa các giá trị riêng:
min max ( ) ( ) Q (2.16)
Giá trị của Q thay đổi trong khoảng [0…1] bằng 1 đối với một cấu trúc đẳng hƣớng hoàn toàn. Phép đo này có thể cho một đáp ứng hơi khác đối với các tỷ lệ khác nhau vì ma trận đƣợc tính đối với tỷ lệ tích phân và vi phân cho trƣớc. Các tỷ lệ này nên đƣợc chọn độc lập với độ phân giải của ảnh. Kỹ thuật lựa chọn tỷ lệ cho ta khả năng để xác định tỷ lệ tích phân có liên quan tới cấu trúc ảnh cục bộ. Các tỷ lệ tích phân và vi phân có thể đƣợc thuật lại bởi một hằng số s, D sI. Hiển nhiên là tỷ lệ vi phân nên nhỏ hơn tỷ lệ tích phân. Thừa số s không nên quá nhỏ, mặt khác việc làm trơn cũng không nên quá nhiều đối với phép lấy vi phân. Mặt khác s nên đủ nhỏ để cửa sổ Gaussian với kích thƣớc I có thể tính trung bình ma trận đồng biến (x,D,I) trong vùng lân cận của điểm đó.
Một ý tƣởng đó là khử nhiễu mà không làm mất đi hình dạng không đẳng hƣớng của các cấu trúc ảnh đƣợc quan sát. Giải pháp là chọn tỷ lệ vi phân D
độc lập với tỷ lệ I, điều này có nghĩa là thay đổi thừa số s trong phạm vi [0.5,…,0.75]. Cho trƣớc tỷ lệ tích phân chúng ta phải tìm kiếm tỷ lệ D mà đối với nó đáp ứng của phép đo tính đẳng hƣớng đạt đƣợc một giá trị cực đại địa phƣơng. Vì vậy, hình dạng đƣợc chọn cho cấu trúc đƣợc quan sát gần với một cấu trúc đẳng hƣớng hơn.
2.4.3 Kỹ thuật phát hiện điểm bất động
Tiếp theo ta mô tả về hƣớng tiếp cận bất biến affine. Khởi tạo cho thuật toán phát hiện điểm quan tâm bất biến affine với các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Để xác định vị trí không gian của các điểm quan tâm ta sử dụng phƣơng pháp phát hiện Harris, phƣơng pháp này cũng dựa vào ma trận moment cấp hai, nên nó phù hợp một cách tự nhiên với framework này. Để thu đƣợc ma trận hình dạng (shape matrix) cho mỗi điểm quan tâm ta cần tính toán bộ mô tả moment cấp hai (second moment descriptor) với các tỷ lệ tích phân và vi phân đƣợc lựa chọn một cách tự động. Ở hƣớng tiếp cận này các ma trận tích phân và vi phân đƣợc thuật lại bởi một đại lƣợng vô hƣớng D s I để giới hạn không gian tìm kiếm. Phác thảo của phƣơng pháp phát hiện này đƣợc mô tả nhƣ sau:
Vị trí không gian của một điểm quan tâm ở một tỷ lệ và hình dạng cho trƣớc đƣợc xác định bởi giá trị cực đại địa phƣơng của hàm Harris.
Tỷ lệ tích phân đƣợc chọn ở cực trị trên tỷ lệ của hàm Laplacian đƣợc chuẩn hóa.
Tỷ lệ vi phân đƣợc chọn tại giá trị cực đại của tính đẳng hƣớng đã đƣợc chuẩn hóa.
Ma trận thích nghi hình dạng đƣợc ƣớc lƣợng với ma trận moment cấp hai và đƣợc dùng để chuẩn hóa vùng lân cận của điểm đó.
Sau đây ta sẽ trình bày chi tiết mỗi bƣớc của thuật toán.
Ma trận thích nghi hình dạng (Shape Adaptation Matrix). Phƣơng pháp thích nghi hình dạng lặp này làm việc trong vùng ảnh đã bị biến đổi. Chúng ta biến đổi một ảnh và áp dụng nhân vòng tròn (circular kernel) thay vì áp dụng nhân affine Gaussian. Điều này cho phép sử dụng sự thực thi đệ
quy của các bộ lọc Gaussian cho việc tính toán Lx và Ly. Ma trận moment cấp hai đƣợc tính dựa theo công thức (2.7). Một cửa sổ cục bộ W đƣợc đặt ở vị trí trung tâm của điểm quan tâm x và đƣợc biến đổi bởi ma trận:
1 ( ) (0) 2 ( )k k U U (2.17)
ở bƣớc (k) của thuật toán lặp. Tiếp theo ta xem thao tác này nhƣ là phép biến đổi
U. Chú ý rằng một ma trận mới đƣợc tính ở mỗi lần lặp và ma trận U là sự liên kết các căn bậc hai của các ma trận moment cấp hai. Chúng ta bảo đảm rằng ảnh gốc đƣợc lấy mẫu chính xác bằng việc thiết lập giá trị riêng lớn λmax(U) = 1, điều này muốn nói rằng mảnh ảnh đƣợc phóng to theo hƣớng λmin(U). Đối với bất kỳ một điểm cho trƣớc nào, tỷ lệ tích phân và tỷ lệ vi phân sẽ xác định đƣợc ma trận moment cấp hai . Các tham số tỷ lệ này đƣợc chọn tự động ở mỗi lần lặp. Vì vậy, ma trận kết quả không phụ thuộc vào tỷ lệ ban đầu và độ phân giải của ảnh.
Tỷ lệ tích phân (Integration Scale). Đối với bất kỳ điểm không gian cho trƣớc nào chúng ta đều lựa chọn đƣợc tỷ lệ đặc trƣng của nó một cách tự động. Để duy trì sự bất biến đối với các thay đổi về kích thƣớc ta chọn tỷ lệ tích phân I mà ở đó hàm Laplacian chuẩn hóa (công thức 2.9) đạt đƣợc một giá trị cực đại địa phƣơng trên khắp tỷ lệ. Khi có sự hiện diện của các biến dạng affine lớn thì sự thay đổi tỷ lệ sẽ rất khác nhau ở mỗi hƣớng. Vì vậy, tỷ lệ đặc trƣng này đƣợc phát hiện ở ảnh gốc và ở phiên bản biến đổi U của ảnh đó có thể khác nhau đáng kể. Bởi vậy, việc lựa chọn tỷ lệ tích phân ở mỗi lần lặp sau khi áp dụng phép biến đổi U là hết sức cần thiết. Ta sử dụng thủ tục tƣơng tự với thủ tục trong phƣơng pháp Harris-Laplace. Các điểm ban đầu này hội tụ về một điểm mà ở đó tỷ lệ và ma trận moment cấp hai không thay đổi nữa.
Tỷ lệ vi phân (Differentiation Scale). Chúng ta lựa chọn tỷ lệ vi phân cục bộ sử dụng tỷ lệ tích phân và phép đo tính đẳng hƣớng Q. Giải pháp này đƣợc thúc đẩy bởi một thực tế là tỷ lệ cục bộ có ảnh hƣởng quan trọng đến sự hội tụ của ma trận moment cấp hai. Thủ tục lặp này hội tụ về một ma trận có các giá trị riêng bằng nhau. Độ chênh lệch giữa các giá trị riêng (max(),
min()) của ma trận ban đầu càng nhỏ thì giải pháp cuối cùng càng chặt chẽ và sự hội tụ càng nhanh. Chú ý rằng phép đo Harris (công thức (2.8)) lựa chọn các điểm với hai giá trị riêng lớn. Sự chênh lệch giữa các giá trị riêng lớn dẫn đến việc thay đổi tỷ lệ lớn theo một hƣớng bởi phép biến đổi U. Trong trƣờng hợp này điểm đó không hội tụ về một điểm ổn định do tạp nhiễu. Việc lựa chọn tỷ lệ cục bộ cho phép ta tìm đƣợc một tỷ lệ hợp lý giữa các giá trị riêng và các điểm sẽ hội tụ.
Chú ý rằng tỷ lệ vi phân cục bộ có thể đƣợc thiết lập cân xứng với tỷ lệ tích phân D sI, s là một hằng số. Điều này đẩy nhanh đáng kể các lần lặp nhƣng có một số điểm lại không hội tụ do độ chênh lệch lớn giữa các giá trị riêng.
Định vị không gian. Ta đã biết các điểm cực đại cục bộ của phép đo Harris thay đổi vị trí nhƣ thế nào nếu tỷ lệ phát hiện thay đổi (Hình 2.8). Có thể quan sát đƣợc sự ảnh hƣởng này khi thay đổi tỷ lệ khác nhau ở mỗi hƣớng. Ở hƣớng tiếp cận này, việc phát hiện có các tỷ lệ khác nhau ở các hƣớng x và y đƣợc thay thế bằng việc áp dụng cùng một tỷ lệ ở cả hai hƣớng đối với ảnh đã biến đổi. Do đó, chúng ta phát hiện lại điểm cực đại trong cửa sổ chuẩn hóa affine W. Vì vậy, ta thu đƣợc một vectơ của sự dịch chuyển hƣớng tới điểm cực đại gần nhất trong cửa sổ W đƣợc chuẩn hóa - U. Vị trí của điểm ban đầu đƣợc hiệu chỉnh theo vectơ dịch chuyển này sẽ bị biến đổi ngƣợc trở lại về vùng ảnh ban đầu:
( ) ( 1) ( 1) ( ) ( 1)x k x k U k (xwk xwk ) x k x k U k (xwk xwk )
ở đó xw là một điểm trong các tọa độ của ảnh đã biến đổi U.
Tiêu chuẩn hội tụ. Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận đƣợc tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ
C=0.05. min max ( ) 1 ( ) C (2.18)
Một khả năng khác là phân tích ma trận U RT D R thành phép quay R
và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi R và D liên tiếp đủ giống nhau. Cả hai tiêu chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trƣờng hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trƣờng hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vô cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên đƣợc loại bỏ nếu tỷ lệ quá lớn (tức
l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định. max min ( ) ( ) l D D (2.19)
Các đặc tính hội tụ của thuật toán thích nghi hình dạng đã đƣợc nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trƣờng hợp đặc biệt còn trong các trƣờng hợp khác thì điểm hội tụ luôn là duy nhất. Nhìn chung, sự hội tụ của thủ tục đã dẫn đến một điều là sự ƣớc lƣợng
ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân đƣợc lựa chọn chính xác đối với kích thƣớc của cấu trúc ảnh cục bộ.
Thuật toán phát hiện. Ngƣời ta đã đề xuất một thủ tục lặp cho phép các điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Các điểm này không đƣợc phát hiện theo cách bất biến affine do hàm nhân Gaussian không thích nghi (non-adapted Gaussian kernel), nhƣng cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trƣớc x(0) ta áp dụng thủ tục sau:
1. Khởi tạo U(0) là ma trận đồng nhất.
2. Chuẩn hóa cửa sổ W(xw) = I(x) đƣợc đặt ở trung tâm
( 1) ( -1) ( 1)
x x
k k k
w
U
3. Chọn tỷ lệ tích phân Itại điểm x( -1)wk
4. Chọn tỷ lệ vi phân D sI, sao cho việc lựa chọn này làm cực đại
min max ( ) ( ) , với s [0.5,…, 0.75] và (x(wk1), I, D)
5. Phát hiện vị trí không gian x( )wk của một giá trị cực đại của phép đo
Harris (công thức (2.8)) gần với x( -1)wk nhất và tính toán vị trí của điểm quan tâm x(k) 6. Tính 1 ( )k 2(x( )wk , , ) i I D
8. Quay lại bƣớc 2 nếu 1min(i( )k ) /max(i( )k ) ε C
Mặc dù sự tính toán dƣờng nhƣ tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính toán Lx và Ly, điều này đƣợc thực hiện chỉ một lần ở mỗi bƣớc nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu nhƣ mạnh mẽ đối với các sai số định vị nhỏ của điểm quan tâm