Không gian biểu diễn đối tƣợng, không gian diễn dịch

Một phần của tài liệu Nghiên cứu các kỹ thuật tìm điểm bất động trong ảnh và ứng dụng luận văn thạc sĩ (Trang 59)

ở đó xw là một điểm trong các tọa độ của ảnh đã biến đổi U.

Tiêu chuẩn hội tụ. Một phần quan trọng của thủ tục lặp là tiêu chuẩn dừng. Phép đo tính hội tụ có thể dựa vào ma trận U hoặc ma trận . Nếu tiêu chuẩn này dựa vào ma trận  đƣợc tính ở mỗi lần lặp thì chúng ta dừng lặp khi ma trận này đủ gần với phép quay thuần túy. Điều này muốn nói rằng giá trị max() và min() bằng nhau. Thực tế chúng ta cho phép một sai số nhỏ

C=0.05. min max ( ) 1 ( ) C        (2.18)

Một khả năng khác là phân tích ma trận URT D R thành phép quay R

và chọn thang tỷ lệ D và so sánh các phép biến đổi U liên tiếp nhau. Ta dừng việc lặp khi các phép biến đổi RD liên tiếp đủ giống nhau. Cả hai tiêu chuẩn kết thúc đều cho cùng các kết quả cuối cùng. Một điểm quan trọng khác là dừng trong trƣờng hợp xảy ra sự phân kỳ. Theo lý thuyết, có một trƣờng hợp đặc biệt là khi tỷ lệ giá trị riêng dần tới vô cùng tức là điểm đó ở trên một step-edge. Vì vậy, điểm này nên đƣợc loại bỏ nếu tỷ lệ quá lớn (tức

l = 6), mặt khác nó dẫn đến các cấu trúc bị kéo dài không ổn định. max min ( ) ( ) l D D     (2.19)

Các đặc tính hội tụ của thuật toán thích nghi hình dạng đã đƣợc nghiên cứu rộng rãi bởi Lindeberg và Garding (1997), họ đã chỉ ra rằng ngoại trừ trƣờng hợp đặc biệt còn trong các trƣờng hợp khác thì điểm hội tụ luôn là duy nhất. Nhìn chung, sự hội tụ của thủ tục đã dẫn đến một điều là sự ƣớc lƣợng

ban đầu của phép biến đổi affine đủ dần tới phép biến dạng đích thực, và tỷ lệ tích phân đƣợc lựa chọn chính xác đối với kích thƣớc của cấu trúc ảnh cục bộ.

Thuật toán phát hiện. Ngƣời ta đã đề xuất một thủ tục lặp cho phép các điểm ban đầu hội tụ tới các điểm và các vùng bất biến affine. Để khởi tạo cho thuật toán, ta sử dụng các điểm đƣợc trích chọn bởi phƣơng pháp phát hiện Harris đa tỷ lệ. Các điểm này không đƣợc phát hiện theo cách bất biến affine do hàm nhân Gaussian không thích nghi (non-adapted Gaussian kernel), nhƣng cung cấp một vị trí và tỷ lệ gần đúng cho sự tìm kiếm về sau. Đối với một điểm quan tâm ban đầu cho trƣớc x(0) ta áp dụng thủ tục sau:

1. Khởi tạo U(0) là ma trận đồng nhất.

2. Chuẩn hóa cửa sổ W(xw) = I(x) đƣợc đặt ở trung tâm

( 1) ( -1) ( 1)

x x

k k k

w

U   

3. Chọn tỷ lệ tích phân Itại điểm x( -1)wk

4. Chọn tỷ lệ vi phân DsI, sao cho việc lựa chọn này làm cực đại

min max ( ) ( )     , với s  [0.5,…, 0.75] và   (x(wk1), I, D)

5. Phát hiện vị trí không gian x( )wk của một giá trị cực đại của phép đo

Harris (công thức (2.8)) gần với x( -1)wk nhất và tính toán vị trí của điểm quan tâm x(k) 6. Tính 1 ( )k 2(x( )wk , , ) i I D    

8. Quay lại bƣớc 2 nếu 1min(i( )k ) /max(i( )k ) ε C

Mặc dù sự tính toán dƣờng nhƣ tốn rất nhiều thời gian, chủ yếu tốn thời gian cho việc tính toán LxLy, điều này đƣợc thực hiện chỉ một lần ở mỗi bƣớc nếu mối quan hệ giữa các tỷ lệ tích phân và tỷ lệ cục bộ là hằng số. Vòng lặp bắt đầu với việc lựa chọn tỷ lệ tích phân bởi vì bộ phận này của thuật toán hầu nhƣ mạnh mẽ đối với các sai số định vị nhỏ của điểm quan tâm này. Tuy nhiên, tỷ lệ I sẽ thay đổi nếu hình dạng của mảnh ảnh bị biến đổi. Cho trƣớc một giải pháp xấp xỉ ban đầu, thuật toán đã đƣợc trình bày ở trên sẽ sửa đổi một cách lặp đi lặp lại hình dạng, tỷ lệ và vị trí không gian của một điểm và hội tụ tới một cấu trúc cục bộ. Hình 2.11 chỉ ra các điểm affine đƣợc phát hiện ở các bƣớc liên tiếp của thủ tục lặp. Sau lần lặp thứ 4 thì vị trí, tỷ lệ và hình dạng của điểm đó không thay đổi nữa. Có thể thấy rằng các hình elip cuối cùng bao phủ cùng một vùng ảnh mặc dù có sự biến dạng affine mạnh.

Hình 2.11. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của phép biến đổi affine (dòng ở trên và dưới). Cột đầu tiên thể hiện các điểm được dùng cho việc khởi tạo. Các cột tiếp theo thể hiện các điểm và các vùng sau các lần lặp thứ 1, 2, 3 và 4. Chú ý rằng các điểm này hội tụ sau 4 lần lặp và các hình elip hội tụ tới các vùng ảnh tương ứng.

Sự lựa chọn các điểm affine tương tự nhau. Ta có thể giả sử rằng các đặc trƣng là ổn định nếu chúng ở trong một dãy tỷ lệ. Các đặc trƣng này đƣợc nhận ra bởi vài điểm mà các điểm này hội tụ tới cùng một cấu trúc. Với điều kiện vùng đƣợc chuẩn hóa là đẳng hƣớng, thì sẽ có một giá trị cực đại không gian của phép đo Harris và một tỷ lệ đặc trƣng cho cấu trúc cục bộ đang đƣợc xem xét. Vì vậy, vài điểm ban đầu tƣơng ứng với cùng một đặc trƣng nhƣng lại đƣợc phát hiện ở các mức tỷ lệ khác nhau hội tụ về vị trí và tỷ lệ của một điểm. Không phức tạp để nhận ra các điểm này bằng việc so sánh vị trí (x,y), tỷ lệ I , λmin(U)max(U) và mặt nghiêng (skew). Mặt nghiêng này đƣợc khôi phục từ ma trận của phép quay R, ở đó URT D R. Chúng ta xác định một điểm tƣơng tự nếu mỗi tham số trong các tham số này nằm trong phạm vi một ngƣỡng đối với các tham số của điểm tham chiếu. Cuối cùng, ta tính toán các tham số trung bình và lựa chọn điểm tƣơng tự nhất từ tập các điểm đã xác định. Kết quả là, đối với một ảnh cho trƣớc ta thu đƣợc một tập các điểm mà ở đó mỗi một điểm thể hiện một vị trí và cấu trúc ảnh khác nhau.

Ví dụ về các điểm bất biến Affine. Hình 2.12 minh họa cho việc phát hiện các điểm bất biến affine. Cột (a) biểu diễn các điểm đƣợc dùng cho việc khởi tạo, các điểm này đƣợc phát hiện bởi phƣơng pháp phátt hiện Harris đa tỷ lệ. Các vòng tròn thể hiện các tỷ lệ phát hiện, ở đó các bán kính của vòng tròn là 3I. Các vòng tròn màu đen thể hiện các điểm đƣợc chọn bởi phƣơng pháp Harris-Laplace. Chú ý rằng có sự dịch chuyển đáng kể giữa các điểm đƣợc phát hiện ở các tỷ lệ khác nhau và các vòng tròn trong các ảnh tƣơng ứng (dòng đầu và dòng cuối) không bao phủ cùng một bộ phận của ảnh. Ở cột (b) trình bày các điểm Harris-Laplace với các vùng affine đƣợc ƣớc lƣợng (màu đen). Tỷ lệ và vị trí của các điểm không thay đổi trong suốt các lần lặp. Các vùng đƣợc chiếu tƣơng ứng đƣợc thể hiện bởi màu trắng và cho thấy sự

khác biệt rõ ràng về vị trí và hình dạng của vùng. Tỷ lệ ban đầu đƣợc phát hiện không đúng do sử dụng toán tử Laplacian vòng tròn (không thích nghi affine). Tƣơng tự, các vị trí của các điểm khác nhau 3 đến 4 điểm ảnh. Các điểm ở cột (a), tƣơng ứng với cùng một cấu trúc vật lý, nhƣng đƣợc phát hiện ở các vị trí khác nhau do tỷ lệ, hội tụ về cùng một vị trí và cùng một vùng và đƣợc trình bày ở cột (c). Chúng ta có thể thấy rằng phƣơng pháp này hội tụ chính xác thậm chí ngay cả khi vị trí và tỷ lệ của điểm ban đầu ở tƣơng đối xa điểm hội tụ. Nhìn chung để đạt đến sự hội tụ chỉ cần ít hơn 10 lần lặp. Điển hình, khoảng 40% các điểm ban đầu không hội tụ do không có các tỷ lệ đặc trƣng hoặc do sự chênh lệch lớn giữa các giá trị riêng của ma trận U

(λmax(U)min(U) > 6). Khoảng 30% các điểm còn lại đƣợc lựa chọn bởi phép đo tính tƣơng tự. Khoảng 20-30% các điểm Harris đa tỷ lệ ban đầu đƣợc dùng để thể hiện một ảnh. Cột (d) biểu diễn các điểm đƣợc chọn (màu đen) và các điểm đƣợc chiếu từ ảnh tƣơng ứng (màu trắng). Sự khác biệt chủ yếu giữa các vùng trong cột (d) gây ra bởi tính không chính xác của việc ƣớc lƣợng tỷ lệ và sai số

C. Cột (e) biểu diễn các điểm đã đƣợc chọn đƣợc chuẩn hóa với các ma trận ƣớc lƣợng để loại bỏ sự kéo dãn và độ nghiêng. Chúng ta có thể thấy rằng các vùng này tƣơng ứng giữa hai ảnh (dòng trên và dòng dƣới)

Hình 2.12. Phát hiện điểm quan tâm bất biến affine: (a) Các điểm ban đầu được phát hiện bằng phương pháp Harris đa tỷ lệ và tỷ lệ đặc trưng được lựa chọn bởi đỉnh tỷ lệ Laplacian (màu đen-Harris-Laplace). (b) Các vùng affine

được phát hiện cho các điểm Harris-Laplace (màu đen) và các vùng được chiếu từ các ảnh tương ứng (màu trắng). (c) Các điểm và các vùng affine tương ứng thu được với thuật toán lặp áp dụng cho các điểm Harris đa tỷ lệ ban đầu. (d) Các điểm affine trung bình được chọn (màu đen) và các điểm được chiếu tương ứng của nó (màu trắng). (e) Các vùng lân cận được chuẩn hóa với các ma trận ước lượng để loại bỏ sự kéo dãn và độ nghiêng.

2.5 Phƣơng pháp SURF (Speed Up Robust Feature) [5]

SURF là một phƣơng pháp phát hiện và mô tả hình ảnh mạnh mẽ, do Herbert Bay đƣa ra lần đầu vào năm 2006, có thể đƣợc sử dụng trong các nhiệm vụ tầm nhìn của máy tính nhƣ nhận dạng đối tƣợng, phục hồi 3D. Nó đƣợc lấy cảm hứng từ mô tả SIFT. Phiên bản tiêu chuẩn của SURF nhanh hơn nhiều so với SIFT và nó chống lại sự biến đổi hình ảnh khác nhau tốt hơn SIFT. SURF dựa trên tổng xấp xỉ các đặc trƣng Haar wavelet 2D và sử dụng hiệu quả cho các ảnh tích hợp (integral image).

Phƣơng pháp này dựa trên các ma trận Hessian, nhƣng sử dụng một xấp xỉ cơ bản, cũng giống nhƣ DoG là một phát hiện cơ bản dựa trên Laplacian. Nó dựa trên hình ảnh tích hợp để giảm thời gian tính toán và đƣợc gọi nó là phát hiện 'Fast-Hessian'. Mặt khác, mô tả này mô tả một phân bố các đặc trƣng Haar-wavelet trong các láng giềng của điểm quan tâm. Hơn nữa, chỉ sử dụng kích thƣớc 64, để giảm thời gian tính toán các đặc trƣng và so khớp, đồng thời tăng sự chắc chắn. Ở đây cũng trình bày một bƣớc lập chỉ mục mới dựa trên các dấu hiệu của hàm Laplacian, đó không chỉ làm tăng tốc độ so khớp, mà còn độ vững mạnh của mô tả này.

2.5.1 Ảnh tích hợp (integral image)

Ảnh tích hợp, đƣợc đƣa ra bởi Viola và Jones trong “Rapid object detection using a boosted cascade of simple Features” [13], là một mảng 2 chiều với kích thƣớc bằng kích thƣớc của ảnh cần tính các đặc trƣng, với mỗi phần tử của mảng này đƣợc tính bằng cách tính tổng của điểm ảnh phía trên

(dòng-1) và bên trái (cột-1) của nó. Bắt đầu từ vị trí trên, bên trái đến vị trí dƣới, phải của ảnh, việc tính toán này đơn thuần chỉ đựa trên phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.

IΣ(x) = (2.20) Với đƣợc tính toán, chỉ mất bốn phép cộng để tính toán tổng các cƣờng độ bất kỳ dạng thẳng đứng, hình chữ nhật diện tích, độc lập với kích thƣớc của nó.

2.5.2 Phát hiện Fast-Hessian:

Phƣơng pháp SURF dựa vào phát hiện về các ma trận Hessian vì hiệu suất tốt của nó về thời gian tính toán và độ chính xác. Tuy nhiên, thay vì sử dụng một biện pháp khác để lựa chọn vị trí và tỷ lệ (nhƣ đã đƣợc thực hiện trong phát hiện Hessian-Laplace[8]), ở đây dựa trên các định thức Hessian cho cả hai. Với một điểm x=(x, y) trong một ảnh I, các ma trận Hessian H(x,σ)

ở x có tỷ lệ σ đƣợc định nghĩa nhƣ sau:

(2.21)

trong đó là tích chập của đạo hàm bậc hai của hàm Gaussian

với ảnh I tại điểm x, và tƣơng tự cho và .

Hàm Gaussians đƣợc tối ƣu cho việc phân tích không gian tỷ lệ. Tuy nhiên trong thực tế, hàm Gaussian cần phải đƣợc rời rạc và cắt bỏ (Hình 2.13: nửa bên trái), thậm chí với cả bộ lọc Gaussian thì răng cƣa vẫn còn xảy ra ngay sau khi những hình ảnh kết quả đƣợc lấy mẫu giảm. Ngoài ra, các tính

chất không có cấu trúc mới có thể xuất hiện tiến tới độ phân giải thấp hơn có thể đã đƣợc chứng minh trong trƣờng hợp 1D, nhƣng không áp dụng trong trƣờng hợp liên quan đến 2D. Do đó, tầm quan trọng của hàm Gaussian có vẻ nhƣ đã phần nào đƣợc đánh giá quá cao về vấn đề này, và ở đây thử nghiệm một giải pháp thay thế đơn giản hơn. Khi bộ lọc Gaussian là không lý tƣởng trong bất kỳ trƣờng hợp nào, và để Lowe's thành công với xấp xỉ LoG, phƣơng pháp này cho xấp xỉ Hessian với các bộ lọc vuông (Hình 2.13: nửa bên phải). Xấp xỉ đạo hàm Gausian bậc hai, có thể đƣợc đánh giá rất nhanh bằng cách sử dụng hình ảnh tích hợp, độc lập với kích thƣớc.

Hình 2.13: Từ trái sang phải: đạo hàm riêng bậc hai của hàm Gaussian ở y hướng (Lyy) và xy hướng (Lxy) tương ứng, và xấp xỉ của nó ở y hướng (Dyy) và xy hướng (Dxy). Vùng xám bằng zero.

Các bộ lọc 9×9 trong hình 2.13 là những xấp xỉ của đạo hàm bậc hai Gaussian với σ = 1.2 và biểu diễn tỷ lệ thấp nhất (nghĩa là độ phân giải không gian cao nhất). Ký hiệu là Dxx, Dyy, và Dxy. Trọng số áp dụng cho các vùng chữ nhật đƣợc giữ đơn giản cho hiệu quả tính toán. Điều này mang lại

(2.22)

Các trọng số tƣơng đối w của các bộ lọc đặc trƣng phải đƣợc cân bằng biểu thức cho định thức của Hessian. Điều này là cần thiết cho việc bảo toàn năng lƣợng giữa các nhân Gaussian và gần đúng các nhân Gaussian.

(2.23)

trong đó là chuẩn Frobenius. Hơn nữa, các bộ lọc đặc trƣng đƣợc chuẩn hóa đối với các kích thƣớc mặt nạ. Điều này đảm bảo một chuẩn Frobenius

liên tục cho bất kỳ kích thƣớc bộ lọc nào.

2.5.3 Sự biểu diễn không gian tỷ lệ:

Không gian tỷ lệ thƣờng đƣợc chia thành các octave (một octave đại diện cho một loạt các bản đồ đặc trƣng lọc thu đƣợc bằng cách ghép các ảnh đầu vào tƣơng tự nhau với kích thƣớc lọc tăng dần) và thể hiện nhƣ kim tự tháp ảnh. Các ảnh liên tục đƣợc làm mịn bởi hàm Gaussian, rồi sau đó đƣợc lấy mẫu giảm để đạt đƣợc một mức cao hơn của kim tự tháp. Do việc sử dụng các bộ lọc vuông và ảnh tích hợp, chúng ta không phải áp dụng lặp đi lặp lại phép lọc tƣơng tự cho đầu ra của một lớp đã đƣợc lọc kề trƣớc đó, nhƣng để thay thế có thể áp dụng những bộ lọc nhƣ vậy của bất kỳ kích thƣớc chính xác cùng tốc độ trực tiếp trên ảnh gốc. Do đó không gian tỷ lệ đƣợc phân tích bằng cách mở rộng kích thƣớc bộ lọc thay vì lặp đi lặp lại việc giảm kích thƣớc ảnh. Đầu ra trên bộ lọc 9x9 đƣợc xem là lớp tỷ lệ ban đầu , ở đây sẽ giới thiệu là tỷ lệ s=1.2 (tƣơng ứng với các dẫn suất Gaussian với ). Các lớp tiếp theo thu đƣợc bằng cách lọc các ảnh với mặt nạ lớn dần, có tính đến tính rời rạc của các ảnh tích hợp và cấu trúc cụ thể của các bộ lọc. Cụ thể điều này đƣa đến các bộ lọc kích thƣớc 9x9, 15x15, 21x21, 27x27,vv… Ở quy mô lớn hơn, bƣớc giữa kích cỡ bộ lọc liên tục phải phù hợp với tỷ lệ. Do đó, đối với từng octave mới, sự gia tăng kích thƣớc bộ lọc là tăng gấp đôi (từ 6 đến 12 đến 24). Đồng thời, khoảng lấy mẫu để tách các điểm quan tâm có thể đƣợc tăng lên gấp đôi.

tích hợp cho phép tăng tỷ lệ lọc với giá trị không đổi (bên phải).

Khi tỷ lệ thiết kế bộ lọc không thay đổi sau khi mở rộng, các xấp xỉ đạo hàm Gaussian có cùng tỷ lệ phù hợp. Ví dụ, bộ lọc 27x27 tƣơng ứng với

σ=3×1.2=3.6=s. Hơn nữa, khi các chỉ tiêu Frobenius vẫn không đổi cho các bộ lọc, chúng là tỷ lệ đã đƣợc chuẩn hóa.

2.5.4 Định vị điểm quan tâm

Một phần của tài liệu Nghiên cứu các kỹ thuật tìm điểm bất động trong ảnh và ứng dụng luận văn thạc sĩ (Trang 59)

Tải bản đầy đủ (PDF)

(89 trang)