Biểu đồ giải thích phép chuẩn hóa affine

đƣợc thuật lại bởi một phép biến đổi trực giao.

2.3.2.2 Phép đo tính đẳng hƣớng

Ma trận moment cấp hai cũng có thể được chuyển đổi như một phép đo tính đẳng hướng. Không mất tính tổng quát, chúng ta giả sử rằng một cấu trúc không đẳng hướng cục bộ là một cấu trúc đẳng hướng dưới phép biến đổi affine. Để bù vào sự biến dạng affine, ta phải tìm ra một phép biến đổi mà phép biến đổi này chiếu mẫu không đẳng hướng thành một mẫu đẳng hướng. Chú ý rằng phép quay giữ lại tính đẳng hướng của một mảnh ảnh, vì vậy, sự biến dạng affine của một cấu trúc đẳng hướng có thể được xác định tối đa là một nhân tố của phép quay. Phép quay này có thể được khôi phục bởi các phương pháp dựa vào hướng gradient của ảnh. Tính đẳng hướng cục bộ có thể được đo bởi các giá trị riêng của ma trận moment cấp hai (x,I,D). Nếu các giá trị riêng bằng nhau thì chúng ta coi điểm này là đẳng hướng. Để thu được một phép đo chuẩn hóa ta phải sử dụng tỷ lệ giữa các giá trị riêng:

min max ( ) ( ) Q      (2.12)

Giá trị của Q thay đổi trong khoảng [0…1] bằng 1 đối với một cấu trúc đẳng hướng hoàn toàn. Phép đo này có thể cho một đáp ứng hơi khác đối với các tỷ lệ

tỷ lệ này nên được chọn độc lập với độ phân giải của ảnh. Kỹ thuật lựa chọn tỷ lệ cho ta khả năng để xác định tỷ lệ tích phân có liên quan tới cấu trúc ảnh cục bộ. Các tỷ lệ tích phân và vi phân có thể được thuật lại bởi một hằng số s, D sI. Hiển nhiên là tỷ lệ vi phân nên nhỏ hơn tỷ lệ tích phân. Thừa số s không nên quá nhỏ, mặt khác việc làm trơn cũng không nên quá nhiều đối với tỷ lệ vi phân. Mặt khác s nên đủ nhỏ để cửa sổ Gaussian với kích thước I có thể tính trung bình ma trận đồng biến (x,D,I) trong vùng lân cận của điểm đó.

Một ý tưởng đó là khử nhiễu mà không làm mất đi hình dạng không đẳng hướng của các cấu trúc ảnh được quan sát. Giải pháp là chọn tỷ lệ vi phân D độc lập với tỷ lệ I, điều này có nghĩa là thay đổi thừa số s trong phạm vi [0.5,…,0.75]. Cho trước tỷ lệ tích phân, chúng ta phải tìm kiếm tỷ lệ D mà đối với nó đáp ứng của phép đo tính đẳng hướng đạt được một giá trị cực đại địa phương. Vì vậy, hình dạng được chọn cho cấu trúc được quan sát gần với một cấu trúc đẳng hướng hơn.

2.3.3 Phƣơng pháp phát hiện điểm bất biến Harris-Affine

Tiếp theo ta mô tả về hướng tiếp cận bất biến affine. Khởi tạo cho thuật toán phát hiện điểm quan tâm bất biến affine với các điểm được trích chọn bởi phương pháp Harris đa tỷ lệ. Để xác định vị trí không gian của các điểm quan tâm ta sử dụng phương pháp Harris, phương pháp này cũng dựa vào ma trận moment cấp hai, nên nó phù hợp một cách tự nhiên với framework này. Để thu được ma trận hình dạng (shape matrix) cho mỗi điểm quan tâm ta cần tính toán bộ mô tả moment cấp hai (second moment descriptor) với các tỷ lệ tích phân và vi phân được lựa chọn một cách tự động. Ở hướng tiếp cận này các ma trận tích phân và vi phân được thuật lại bởi một đại lượng vô hướng   D s I để giới hạn không gian tìm kiếm. Phác thảo của phương pháp phát hiện này được mô tả như sau:

 Vị trí không gian của một điểm quan tâm ở một tỷ lệ và hình dạng cho trước được xác định bởi giá trị cực đại địa phương của hàm Harris,

 Tỷ lệ tích phân được chọn ở cực trị trên tỷ lệ của hàm Laplacian chuẩn hóa,  Tỷ lệ vi phân được chọn tại giá trị cực đại của phép đo tính đẳng hướng

 Ma trận thích nghi hình dạng được ước lượng với ma trận moment cấp hai và được dùng để chuẩn hóa vùng lân cận của điểm đó.

Sau đây ta sẽ trình bày chi tiết mỗi bước của thuật toán.

Ma trận thích nghi hình dạng (Shape Adaptation Matrix). Phương pháp thích nghi hình dạng lặp này làm việc trong vùng ảnh đã bị biến đổi. Chúng ta biến đổi một ảnh và áp dụng nhân vòng tròn (circular kernel) thay vì áp dụng nhân affine Gaussian. Điều này cho phép sử dụng sự thực thi đệ quy của các bộ lọc Gaussian cho việc tính toán Lx và Ly. Ma trận moment cấp hai được tính dựa theo công thức (2.3). Một cửa sổ cục bộ W được đặt ở vị trí trung tâm của điểm quan tâm x và được biến đổi bởi ma trận:

1 ( ) (0) 2 ( ) k k U   U (2.13)

ở bước (k) của thuật toán lặp. Tiếp theo ta xem thao tác này như là phép biến đổi U. Chú ý rằng một ma trận mới  được tính ở mỗi lần lặp và ma trận U là sự liên kết các căn bậc hai của các ma trận moment cấp hai. Chúng ta bảo đảm rằng ảnh gốc được lấy mẫu chính xác bằng việc thiết lập giá trị riêng lớn λmax(U) = 1, điều này muốn nói rằng mảnh ảnh được phóng to theo hướng λmin(U). Đối với bất kỳ một điểm cho trước nào, tỷ lệ tích phân và tỷ lệ vi phân sẽ xác định được ma trận moment cấp hai . Các tham số tỷ lệ này được chọn tự động ở mỗi lần lặp. Vì vậy, ma trận kết quả không phụ thuộc vào tỷ lệ ban đầu và độ phân giải của ảnh.

Tỷ lệ tích phân (Integration Scale). Đối với bất kỳ điểm không gian cho

trước nào chúng ta đều lựa chọn được tỷ lệ đặc trưng của nó một cách tự động. Để duy trì sự bất biến đối với các thay đổi về kích thước ta chọn tỷ lệ tích phân I mà ở đó hàm Laplacian chuẩn hóa (công thức (2.5)) đạt được một giá trị cực đại địa phương trên khắp tỷ lệ. Khi có sự hiện diện của các biến dạng affine lớn thì sự thay đổi tỷ lệ sẽ rất khác nhau ở mỗi hướng. Vì vậy, tỷ lệ đặc trưng này được phát hiện ở ảnh gốc và ở phiên bản biến đổi U của ảnh đó có thể khác nhau đáng kể. Bởi vậy, việc lựa chọn tỷ lệ tích phân ở mỗi lần lặp sau khi áp dụng phép biến đổi U là hết sức cần thiết. Ta sử dụng thủ tục tương tự với thủ tục trong phương pháp Harris-Laplace. Các điểm ban đầu này hội tụ về một điểm mà ở đó tỷ lệ và ma trận moment cấp hai không thay đổi nữa.

Tỷ lệ vi phân (Differentiation Scale). Chúng ta lựa chọn tỷ lệ vi phân cục bộ sử dụng tỷ lệ tích phân và phép đo tính đẳng hướng Q. Giải pháp này được thúc đẩy bởi một thực tế là tỷ lệ cục bộ có ảnh hưởng quan trọng đến sự hội tụ của ma trận moment cấp hai. Thủ tục lặp này hội tụ về một ma trận có các giá trị riêng bằng nhau. Độ chênh lệch giữa các giá trị riêng (max(), min()) của ma trận ban đầu càng nhỏ thì giải pháp cuối cùng càng chặt chẽ và sự hội tụ càng nhanh. Chú ý rằng phép đo Harris (công thức (2.4)) lựa chọn các điểm với hai giá trị riêng lớn. Sự chênh lệch giữa các giá trị riêng lớn dẫn đến việc thay đổi tỷ lệ lớn theo một hướng bởi phép biến đổi U. Trong trường hợp này điểm đó không hội tụ về một điểm ổn định do tạp nhiễu. Việc lựa chọn tỷ lệ cục bộ cho phép ta tìm được một tỷ lệ hợp lý giữa các giá trị riêng và các điểm sẽ hội tụ.

Chú ý rằng tỷ lệ vi phân cục bộ có thể được thiết lập cân xứng với tỷ lệ tích phân D sI, s là một hằng số. Điều này đẩy nhanh đáng kể các lần lặp nhưng có một số điểm lại không hội tụ do độ chênh lệch lớn giữa các giá trị riêng.

Định vị không gian. Ta đã biết các điểm cực đại cục bộ của phép đo Harris thay đổi vị trí như thế nào nếu tỷ lệ phát hiện thay đổi (Hình 2.4). Có thể quan sát được sự ảnh hưởng này khi thay đổi tỷ lệ khác nhau ở mỗi hướng. Ở hướng tiếp cận này, việc phát hiện có sự khác nhau về tỷ lệ ở các hướng x và y được thay thế bằng việc áp dụng cùng một tỷ lệ cho cả hai hướng đối với ảnh đã biến đổi. Do đó, chúng ta phát hiện lại điểm cực đại trong cửa sổ chuẩn hóa affine W. Vì vậy, ta thu được một vectơ của sự dịch chuyển hướng tới điểm cực đại gần nhất trong cửa sổ

W được chuẩn hóa bởi phép biến đổi U. Vị trí của điểm ban đầu được hiệu chỉnh theo vectơ dịch chuyển này sẽ bị biến đổi ngược trở lại về vùng ảnh ban đầu:

( ) ( 1) ( 1) ( ) ( 1)

x k  x k U k (xwk xwk )

ở đó xw là một điểm trong các tọa độ của ảnh bị biến đổi bởi phép biến đổi U.

Tiêu chuẩn hội tụ.Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận  được tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ C = 0.05.

min max ( ) 1 ( ) C        (2.14)

Một khả năng khác là phân tích ma trận U RT D R thành phép quay R

và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi R và D liên tiếp đủ giống nhau. Cả hai tiêu chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trường hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trường hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vô cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên được loại bỏ nếu tỷ lệ được cho ở công thức (2.15) quá lớn (tức l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định.

max min ( ) ( ) l D D     (2.15)

Các đặc tính hội tụ của thuật toán thích nghi hình dạng đã được nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trường hợp đặc biệt còn trong các trường hợp khác thì điểm hội tụ luôn là duy nhất. Nhìn chung, sự hội tụ của thủ tục đưa đến một điều là sự ước lượng ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân được lựa chọn chính xác đối với kích thước của cấu trúc ảnh cục bộ.

Thuật toán phát hiện. Người ta đã đề xuất một thủ tục lặp cho phép các điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm được trích chọn bởi phương pháp phát hiện Harris đa tỷ lệ. Các điểm này không được phát hiện theo cách bất biến affine do nhân Gaussian không thích nghi (non-adapted Gaussian kernel), nhưng các điểm này lại cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trước x(0) ta áp dụng thủ tục sau:

1. Khởi tạo U(0) là ma trận đồng nhất.

2. Chuẩn hóa cửa sổ W(xw) = I(x) được đặt ở trung tâm của điểm x(k-1) với ( 1) ( -1) ( 1)

x x

k k k

U   

3. Chọn tỷ lệ tích phân Itại điểm x( -1)wk

min max ( ) ( )     , với s  [0.5,…, 0.75] và   (x(wk1), I, D)

5. Phát hiện vị trí không gian ( ) w

x k của giá trị cực đại của phép đo Harris (công thức (2.4)) gần với ( -1)

x k nhất và tính toán vị trí cho điểm quan tâm x(k) 6. Tính 1 ( ) 2 ( ) (x , , ) k k w i I D     7. Ghép phép biến đổi ( )k ( )k (k 1) i

U  U  và chuẩn hóa U(k) để λmax(U(k)) = 1 8. Quay lại bước 2 nếu 1 min( ( )k ) / max( ( )k ) ε

i i C

   

 

Mặc dù sự tính toán dường như tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính toán Lx và Ly, điều này được thực hiện chỉ một lần ở mỗi bước nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu như bền vững đối với các sai số định vị nhỏ của điểm quan tâm. Tuy nhiên, tỷ lệ I

sẽ thay đổi nếu hình dạng của mảnh ảnh bị biến đổi. Cho trước một giải pháp xấp xỉ ban đầu, thuật toán đã được trình bày ở trên sẽ sửa đổi một cách lặp đi lặp lại hình dạng, tỷ lệ và vị trí không gian của một điểm và hội tụ tới một cấu trúc cục bộ.

Hình 2.7 chỉ ra các điểm affine được phát hiện ở các bước liên tiếp của thủ tục lặp. Cột đầu tiên thể hiện các điểm được dùng cho việc khởi tạo. Các cột tiếp theo thể hiện các điểm và các vùng sau các lần lặp thứ 1, 2, 3 và 4. Sau lần lặp thứ 4 thì vị trí, tỷ lệ và hình dạng của điểm đó không thay đổi nữa. Có thể thấy rằng các hình elip cuối cùng bao phủ cùng một vùng ảnh mặc dù có sự biến dạng affine mạnh.

Biểu đồ giải thích phép chuẩn hóa affine

Phát hiện cực trị không gian tỷ lệ

Tần số lấy mẫu theo tỷ lệ