1.1 Tổng quan về nhận dạng đối tƣợng
1.1.1 Không gian biểu diễn đối tƣợng, không gian diễn dịch
ở đó xw là một điểm trong các tọa độ của ảnh đã biến đổi U.
Tiêu chuẩn hội tụ. Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận đƣợc tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ C=0.05. min max ( ) 1 ( ) C (2.18)
Một khả năng khác là phân tích ma trận U RT D R thành phép quay R và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi R và D liên tiếp đủ giống nhau. Cả hai tiêu
chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trƣờng hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trƣờng hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vơ cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên đƣợc loại bỏ nếu tỷ lệ quá lớn (tức
l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định.
max min ( ) ( ) l D D (2.19)
Các đặc tính hội tụ của thuật tốn thích nghi hình dạng đã đƣợc nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trƣờng hợp đặc biệt còn trong các trƣờng hợp khác thì điểm hội tụ ln là duy nhất. Nhìn chung, sự hội tụ của thủ tục đã dẫn đến một điều là sự ƣớc lƣợng
ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân đƣợc lựa chọn chính xác đối với kích thƣớc của cấu trúc ảnh cục bộ.
Thuật toán phát hiện. Ngƣời ta đã đề xuất một thủ tục lặp cho phép các
điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Các điểm này không đƣợc phát hiện theo cách bất biến affine do hàm nhân Gaussian khơng thích nghi (non-adapted Gaussian kernel), nhƣng cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trƣớc x(0) ta áp dụng thủ tục sau:
1. Khởi tạo U(0) là ma trận đồng nhất.
2. Chuẩn hóa cửa sổ W(xw) = I(x) đƣợc đặt ở trung tâm
( 1) ( -1) ( 1)
x x
k k k
w
U
3. Chọn tỷ lệ tích phân I tại điểm ( -1)
xwk
4. Chọn tỷ lệ vi phân D sI, sao cho việc lựa chọn này làm cực đại
min max ( ) ( ) , với s [0.5,…, 0.75] và (x(wk1), I, D)
5. Phát hiện vị trí khơng gian x( )wk của một giá trị cực đại của phép đo
Harris (công thức (2.8)) gần với x( -1)wk nhất và tính tốn vị trí của điểm quan tâm x(k) 6. Tính 1 ( )k 2(x( )wk , , ) i I D
8. Quay lại bƣớc 2 nếu 1min(i( )k ) /max(i( )k ) ε C
Mặc dù sự tính tốn dƣờng nhƣ tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính tốn Lx và Ly, điều này đƣợc thực hiện chỉ một lần ở mỗi
bƣớc nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu nhƣ mạnh mẽ đối với các sai số định vị nhỏ của điểm quan tâm này. Tuy nhiên, tỷ lệ I sẽ thay đổi nếu hình dạng của mảnh ảnh bị biến đổi. Cho trƣớc một giải pháp xấp xỉ ban đầu, thuật tốn đã đƣợc trình bày ở trên sẽ sửa đổi một cách lặp đi lặp lại hình dạng, tỷ lệ và vị trí khơng gian của một điểm và hội tụ tới một cấu trúc cục bộ. Hình 2.11 chỉ ra các điểm affine đƣợc phát hiện ở các bƣớc liên tiếp của thủ tục lặp. Sau lần lặp thứ 4 thì vị trí, tỷ lệ và hình dạng của điểm đó khơng thay đổi nữa. Có thể thấy rằng các hình elip cuối cùng bao phủ cùng một vùng ảnh mặc dù có sự biến dạng affine mạnh.
Hình 2.11. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của phép biến đổi affine (dòng ở trên và dưới). Cột đầu tiên thể hiện các điểm được dùng cho việc khởi tạo. Các cột tiếp theo thể hiện các điểm và các vùng sau các lần lặp thứ 1, 2, 3 và 4. Chú ý rằng các điểm này hội tụ sau 4 lần lặp và các hình elip hội tụ tới các vùng ảnh tương ứng.
Sự lựa chọn các điểm affine tương tự nhau. Ta có thể giả sử rằng các đặc trƣng là ổn định nếu chúng ở trong một dãy tỷ lệ. Các đặc trƣng này đƣợc nhận ra bởi vài điểm mà các điểm này hội tụ tới cùng một cấu trúc. Với điều kiện vùng đƣợc chuẩn hóa là đẳng hƣớng, thì sẽ có một giá trị cực đại khơng gian của phép đo Harris và một tỷ lệ đặc trƣng cho cấu trúc cục bộ đang đƣợc xem xét. Vì vậy, vài điểm ban đầu tƣơng ứng với cùng một đặc trƣng nhƣng lại đƣợc phát hiện ở các mức tỷ lệ khác nhau hội tụ về vị trí và tỷ lệ của một điểm. Không phức tạp để nhận ra các điểm này bằng việc so sánh vị trí (x,y), tỷ lệ I , λmin(U)/λmax(U) và mặt nghiêng (skew). Mặt nghiêng này đƣợc khôi
phục từ ma trận của phép quay R, ở đó URT D R. Chúng ta xác định một điểm tƣơng tự nếu mỗi tham số trong các tham số này nằm trong phạm vi một ngƣỡng đối với các tham số của điểm tham chiếu. Cuối cùng, ta tính tốn các tham số trung bình và lựa chọn điểm tƣơng tự nhất từ tập các điểm đã xác định. Kết quả là, đối với một ảnh cho trƣớc ta thu đƣợc một tập các điểm mà ở đó mỗi một điểm thể hiện một vị trí và cấu trúc ảnh khác nhau.
Ví dụ về các điểm bất biến Affine. Hình 2.12 minh họa cho việc phát
hiện các điểm bất biến affine. Cột (a) biểu diễn các điểm đƣợc dùng cho việc khởi tạo, các điểm này đƣợc phát hiện bởi phƣơng pháp phátt hiện Harris đa tỷ lệ. Các vòng tròn thể hiện các tỷ lệ phát hiện, ở đó các bán kính của vịng trịn là 3I. Các vịng trịn màu đen thể hiện các điểm đƣợc chọn bởi phƣơng pháp Harris-Laplace. Chú ý rằng có sự dịch chuyển đáng kể giữa các điểm đƣợc phát hiện ở các tỷ lệ khác nhau và các vòng tròn trong các ảnh tƣơng ứng (dòng đầu và dịng cuối) khơng bao phủ cùng một bộ phận của ảnh. Ở cột (b) trình bày các điểm Harris-Laplace với các vùng affine đƣợc ƣớc lƣợng (màu đen). Tỷ lệ và vị trí của các điểm khơng thay đổi trong suốt các lần lặp. Các vùng đƣợc chiếu tƣơng ứng đƣợc thể hiện bởi màu trắng và cho thấy sự
khác biệt rõ ràng về vị trí và hình dạng của vùng. Tỷ lệ ban đầu đƣợc phát hiện không đúng do sử dụng toán tử Laplacian vịng trịn (khơng thích nghi affine). Tƣơng tự, các vị trí của các điểm khác nhau 3 đến 4 điểm ảnh. Các điểm ở cột (a), tƣơng ứng với cùng một cấu trúc vật lý, nhƣng đƣợc phát hiện ở các vị trí khác nhau do tỷ lệ, hội tụ về cùng một vị trí và cùng một vùng và đƣợc trình bày ở cột (c). Chúng ta có thể thấy rằng phƣơng pháp này hội tụ chính xác thậm chí ngay cả khi vị trí và tỷ lệ của điểm ban đầu ở tƣơng đối xa điểm hội tụ. Nhìn chung để đạt đến sự hội tụ chỉ cần ít hơn 10 lần lặp. Điển hình, khoảng 40% các điểm ban đầu không hội tụ do khơng có các tỷ lệ đặc trƣng hoặc do sự chênh lệch lớn giữa các giá trị riêng của ma trận U
(λmax(U)/λmin(U) > 6). Khoảng 30% các điểm còn lại đƣợc lựa chọn bởi phép đo
tính tƣơng tự. Khoảng 20-30% các điểm Harris đa tỷ lệ ban đầu đƣợc dùng để thể hiện một ảnh. Cột (d) biểu diễn các điểm đƣợc chọn (màu đen) và các điểm đƣợc chiếu từ ảnh tƣơng ứng (màu trắng). Sự khác biệt chủ yếu giữa các vùng trong cột (d) gây ra bởi tính khơng chính xác của việc ƣớc lƣợng tỷ lệ và sai số
C. Cột (e) biểu diễn các điểm đã đƣợc chọn đƣợc chuẩn hóa với các ma trận
ƣớc lƣợng để loại bỏ sự kéo dãn và độ nghiêng. Chúng ta có thể thấy rằng các vùng này tƣơng ứng giữa hai ảnh (dịng trên và dịng dƣới)
Hình 2.12. Phát hiện điểm quan tâm bất biến affine: (a) Các điểm ban đầu được phát hiện bằng phương pháp Harris đa tỷ lệ và tỷ lệ đặc trưng được lựa chọn bởi đỉnh tỷ lệ Laplacian (màu đen-Harris-Laplace). (b) Các vùng affine
được phát hiện cho các điểm Harris-Laplace (màu đen) và các vùng được chiếu từ các ảnh tương ứng (màu trắng). (c) Các điểm và các vùng affine tương ứng thu được với thuật toán lặp áp dụng cho các điểm Harris đa tỷ lệ ban đầu. (d) Các điểm affine trung bình được chọn (màu đen) và các điểm được chiếu tương ứng của nó (màu trắng). (e) Các vùng lân cận được chuẩn hóa với các ma trận ước lượng để loại bỏ sự kéo dãn và độ nghiêng.
2.5 Phƣơng pháp SURF (Speed Up Robust Feature) [5]
SURF là một phƣơng pháp phát hiện và mơ tả hình ảnh mạnh mẽ, do Herbert Bay đƣa ra lần đầu vào năm 2006, có thể đƣợc sử dụng trong các nhiệm vụ tầm nhìn của máy tính nhƣ nhận dạng đối tƣợng, phục hồi 3D. Nó đƣợc lấy cảm hứng từ mơ tả SIFT. Phiên bản tiêu chuẩn của SURF nhanh hơn nhiều so với SIFT và nó chống lại sự biến đổi hình ảnh khác nhau tốt hơn SIFT. SURF dựa trên tổng xấp xỉ các đặc trƣng Haar wavelet 2D và sử dụng hiệu quả cho các ảnh tích hợp (integral image).
Phƣơng pháp này dựa trên các ma trận Hessian, nhƣng sử dụng một xấp xỉ cơ bản, cũng giống nhƣ DoG là một phát hiện cơ bản dựa trên Laplacian. Nó dựa trên hình ảnh tích hợp để giảm thời gian tính tốn và đƣợc gọi nó là phát hiện 'Fast-Hessian'. Mặt khác, mô tả này mô tả một phân bố các đặc trƣng Haar-wavelet trong các láng giềng của điểm quan tâm. Hơn nữa, chỉ sử dụng kích thƣớc 64, để giảm thời gian tính tốn các đặc trƣng và so khớp, đồng thời tăng sự chắc chắn. Ở đây cũng trình bày một bƣớc lập chỉ mục mới dựa trên các dấu hiệu của hàm Laplacian, đó khơng chỉ làm tăng tốc độ so khớp, mà cịn độ vững mạnh của mơ tả này.
2.5.1 Ảnh tích hợp (integral image)
Ảnh tích hợp, đƣợc đƣa ra bởi Viola và Jones trong “Rapid object detection using a boosted cascade of simple Features” [13], là một mảng 2 chiều với kích thƣớc bằng kích thƣớc của ảnh cần tính các đặc trƣng, với mỗi phần tử của mảng này đƣợc tính bằng cách tính tổng của điểm ảnh phía trên
(dịng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị trí trên, bên trái đến vị trí dƣới, phải của ảnh, việc tính tốn này đơn thuần chỉ đựa trên phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.
IΣ(x) = (2.20) Với IΣ đƣợc tính tốn, chỉ mất bốn phép cộng để tính tốn tổng các
cƣờng độ bất kỳ dạng thẳng đứng, hình chữ nhật diện tích, độc lập với kích thƣớc của nó.
2.5.2 Phát hiện Fast-Hessian:
Phƣơng pháp SURF dựa vào phát hiện về các ma trận Hessian vì hiệu suất tốt của nó về thời gian tính tốn và độ chính xác. Tuy nhiên, thay vì sử dụng một biện pháp khác để lựa chọn vị trí và tỷ lệ (nhƣ đã đƣợc thực hiện trong phát hiện Hessian-Laplace[8]), ở đây dựa trên các định thức Hessian cho cả hai. Với một điểm x=(x, y) trong một ảnh I, các ma trận Hessian H(x,σ) ở x có tỷ lệ σ đƣợc định nghĩa nhƣ sau:
(2.21)
trong đó là tích chập của đạo hàm bậc hai của hàm Gaussian
với ảnh I tại điểm x, và tƣơng tự cho và .
Hàm Gaussians đƣợc tối ƣu cho việc phân tích khơng gian tỷ lệ. Tuy nhiên trong thực tế, hàm Gaussian cần phải đƣợc rời rạc và cắt bỏ (Hình 2.13: nửa bên trái), thậm chí với cả bộ lọc Gaussian thì răng cƣa vẫn còn xảy ra ngay sau khi những hình ảnh kết quả đƣợc lấy mẫu giảm. Ngồi ra, các tính
chất khơng có cấu trúc mới có thể xuất hiện tiến tới độ phân giải thấp hơn có thể đã đƣợc chứng minh trong trƣờng hợp 1D, nhƣng không áp dụng trong trƣờng hợp liên quan đến 2D. Do đó, tầm quan trọng của hàm Gaussian có vẻ nhƣ đã phần nào đƣợc đánh giá quá cao về vấn đề này, và ở đây thử nghiệm một giải pháp thay thế đơn giản hơn. Khi bộ lọc Gaussian là không lý tƣởng trong bất kỳ trƣờng hợp nào, và để Lowe's thành công với xấp xỉ LoG, phƣơng pháp này cho xấp xỉ Hessian với các bộ lọc vng (Hình 2.13: nửa bên phải). Xấp xỉ đạo hàm Gausian bậc hai, có thể đƣợc đánh giá rất nhanh bằng cách sử dụng hình ảnh tích hợp, độc lập với kích thƣớc.
Hình 2.13: Từ trái sang phải: đạo hàm riêng bậc hai của hàm Gaussian ở y hướng (Lyy) và xy hướng (Lxy) tương ứng, và xấp xỉ của nó ở y hướng (Dyy) và xy hướng (Dxy). Vùng xám bằng zero.
Các bộ lọc 9×9 trong hình 2.13 là những xấp xỉ của đạo hàm bậc hai Gaussian với σ = 1.2 và biểu diễn tỷ lệ thấp nhất (nghĩa là độ phân giải không gian cao nhất). Ký hiệu là Dxx, Dyy, và Dxy. Trọng số áp dụng cho các vùng
chữ nhật đƣợc giữ đơn giản cho hiệu quả tính tốn. Điều này mang lại
(2.22)
Các trọng số tƣơng đối w của các bộ lọc đặc trƣng phải đƣợc cân bằng biểu thức cho định thức của Hessian. Điều này là cần thiết cho việc bảo toàn năng lƣợng giữa các nhân Gaussian và gần đúng các nhân Gaussian.
(2.23)
trong đó là chuẩn Frobenius. Hơn nữa, các bộ lọc đặc trƣng đƣợc chuẩn hóa đối với các kích thƣớc mặt nạ. Điều này đảm bảo một chuẩn Frobenius
liên tục cho bất kỳ kích thƣớc bộ lọc nào.
2.5.3 Sự biểu diễn không gian tỷ lệ:
Không gian tỷ lệ thƣờng đƣợc chia thành các octave (một octave đại diện cho một loạt các bản đồ đặc trƣng lọc thu đƣợc bằng cách ghép các ảnh đầu vào tƣơng tự nhau với kích thƣớc lọc tăng dần) và thể hiện nhƣ kim tự tháp ảnh. Các ảnh liên tục đƣợc làm mịn bởi hàm Gaussian, rồi sau đó đƣợc lấy mẫu giảm để đạt đƣợc một mức cao hơn của kim tự tháp. Do việc sử dụng các bộ lọc vng và ảnh tích hợp, chúng ta khơng phải áp dụng lặp đi lặp lại phép lọc tƣơng tự cho đầu ra của một lớp đã đƣợc lọc kề trƣớc đó, nhƣng để thay thế có thể áp dụng những bộ lọc nhƣ vậy của bất kỳ kích thƣớc chính xác cùng tốc độ trực tiếp trên ảnh gốc. Do đó khơng gian tỷ lệ đƣợc phân tích bằng cách mở rộng kích thƣớc bộ lọc thay vì lặp đi lặp lại việc giảm kích thƣớc ảnh. Đầu ra trên bộ lọc 9x9 đƣợc xem là lớp tỷ lệ ban đầu , ở đây sẽ giới thiệu là tỷ lệ s=1.2 (tƣơng ứng với các dẫn suất Gaussian với ).
Các lớp tiếp theo thu đƣợc bằng cách lọc các ảnh với mặt nạ lớn dần, có tính đến tính rời rạc của các ảnh tích hợp và cấu trúc cụ thể của các bộ lọc. Cụ thể điều này đƣa đến các bộ lọc kích thƣớc 9x9, 15x15, 21x21, 27x27,vv… Ở quy mơ lớn hơn, bƣớc giữa kích cỡ bộ lọc liên tục phải phù hợp với tỷ lệ. Do đó, đối với từng octave mới, sự gia tăng kích thƣớc bộ lọc là tăng gấp đơi (từ 6 đến 12 đến 24). Đồng thời, khoảng lấy mẫu để tách các điểm quan tâm có thể đƣợc tăng lên gấp đơi.
tích hợp cho phép tăng tỷ lệ lọc với giá trị không đổi (bên phải).
Khi tỷ lệ thiết kế bộ lọc không thay đổi sau khi mở rộng, các xấp xỉ đạo hàm Gaussian có cùng tỷ lệ phù hợp. Ví dụ, bộ lọc 27x27 tƣơng ứng với
σ=3×1.2=3.6=s. Hơn nữa, khi các chỉ tiêu Frobenius vẫn không đổi cho các
bộ lọc, chúng là tỷ lệ đã đƣợc chuẩn hóa.
2.5.4 Định vị điểm quan tâm