2.5 SURF (Speed Up Robust Feature)
2.5.5 Bộ mô tả điểm quan tâm và so khớp
Bộ mô tả của phƣơng pháp này mô tả sự phân bố cƣờng độ nội dung bên trong láng giềng của các điểm quan tâm, giống nhƣ thông tin gradient đƣợc rút trích bởi phƣơng pháp SIFT và những biến đổi của nó. Ở đây xây dựng sự phân bố của các đặc trƣng Haar wavelet bậc nhất ở x và y hƣớng hơn là gradient, khai thác ảnh tích hợp cho tốc độ và chỉ sử dụng kích thƣớc 64. Điều này làm giảm thời gian tính tốn đặc trƣng và so khớp, và đồng thời chứng minh sự gia tăng độ chắc chắn. Hơn nữa, ở đây sẽ trình bày bƣớc đánh chỉ mục mới dựa trên dấu hiệu Laplacian, đó khơng chỉ làm tăng độ chắc chắn mà còn tăng tốc độ so khớp. Phƣơng pháp phát hiện-mô tả này đƣợc gọi là SURF (Speed Up Robust Feature).
Bƣớc đầu tiên gồm có cố định hƣớng lặp dựa trên thơng tin từ vùng trịn bao quanh điểm quan tâm. Sau đó, xây dựng một vùng hình vng phù hợp với hƣớng đƣợc chọn và trích xuất mô tả SURF từ nó. Cuối cùng các đặc trƣng đƣợc so khớp giữa hai ảnh.
2.5.5.1 Gán hướng
Để bất biến với phép xoay ảnh, ta định nghĩa một hƣớng lặp cho các điểm quan tâm. Với mục đích đó, đầu tiên ta tính tốn đặc trƣng Haar-wavelet ở hƣớng x và hƣớng y, những đặc trƣng này nằm trong vòng tròn láng giềng bán kính 6s xung quanh điểm quan tâm, với s là tỷ lệ các điểm quan tâm đƣợc
phát hiện. Bƣớc lấy mẫu là phụ thuộc tỷ lệ đƣợc chọn để có s. Để phù hợp với phần cịn lại, cũng có kích thƣớc các wavelet là phụ thuộc tỷ lệ và thiết lập một cạnh dài 4s. Vì vậy ta có thể sử dụng ảnh tích hợp cho việc lọc nhanh. Các phép lọc sử dụng đƣợc chỉ ra trong hình 2.17. Chỉ 6 phép tốn đƣợc sử
Hình 2.17: Phép lọc Haar wavelet để tính tốn đặc trưng ở x (bên trái) và y hướng (bên phải). Vùng đen có trọng số -1 và vùng trắng có trọng số +1
Mỗi một đặc trƣng wavelet đƣợc tính tốn và điều chỉnh với hàm Gaussian ( ) ở tâm điểm của điểm quan tâm, các đặc trƣng đƣợc biểu diễn nhƣ vector trong không gian với độ lớn đặc trƣng theo chiều ngang dọc theo hoành độ và độ lớn đặc trƣng thẳng dọc theo tung độ. Hƣớng chủ đạo đƣợc ƣớc tính bằng cách tính tổng tất cả các đặc trƣng trong một cửa sổ định hƣớng trƣợt bao quanh một góc , xem hình 2.18. Các đặc trƣng ngang và
dọc trong cửa sổ đƣợc tính tổng, hai đặc trƣng đƣợc tổng hợp sinh ra một vector mới. Hƣớng vector dài nhất tƣơng ứng với hƣớng điểm quan tâm. Kích thƣớc cửa sổ trƣợt là một đối số đƣợc chọn cẩn thận.
Hình 2.18: Gán hướng: một cửa sổ dịch hướng của kích thước phát hiện hướng trội của các đặc trưng Haar wavelet có trọng số Gaussian ở mỗi điểm mẫu trong vòng tròn láng giềng quanh điểm quan tâm.
2.5.5.2 Bộ mô tả dựa trên tổng các đặc trưng Haar wavelet.
Để tách mô tả, bƣớc đầu tiên bao gồm việc xây dựng một khu vực trung tâm hình vng bao quanh điểm quan tâm và hƣớng theo hƣớng đã chọn trong phần trƣớc. Kích thƣớc cửa sổ này là 20s. Ví dụ về các vùng vng đƣợc minh họa nhƣ hình 2.19.
Hình 2.19: Chi tiết của ảnh Graffiti thể hiện kích thước của cửa sổ bộ mô tả hướng ở các tỷ lệ khác nhau.
Khu vực này thƣờng đƣợc chia nhỏ thành các vùng con 4x4. Điều này giúp giữ đƣợc các thông tin không gian quan trọng. Đối với từng khu vực con, ta tính tốn những đặc trƣng đơn của các điểm mẫu cách quãng 5x5. Để đơn giản, ta gọi dx là đặc trƣng Haar wavelet theo phƣơng nằm ngang và dy là đặc trƣng Haar wavelet theo phƣơng thẳng đứng (bộ lọc kích thƣớc 2s). “Ngang” và “thẳng đứng” ở đây đƣợc định nghĩa theo hƣớng lựa chọn các điểm quan tâm. Để gia tăng độ chắc chắn đối với biến dạng hình học và các lỗi định vị, các đặc trƣng dx, dy là trọng số đầu tiên với hàm Gaussian( ) có tâm
Hình 2.20: Để xây dựng bộ mô tả, một khung lưới hướng bậc hai với 4x4 vùng con hình vng được đặt trên các điểm quan tâm (bên trái). Ở mỗi hình vng đặc trưng wavelet được tính tốn. Sự chia nhỏ 2x2 của mỗi hình vng tương ứng với các trường thực của bộ mô tả. Những cái này là tổng của dx, dy, |dx| và |dy|, tính tốn tương đối hướng của lưới (bên phải).
Sau đó các đặc trƣng wavelet dx, dy đƣợc tổng hợp qua từng khu vực
con và hình thành một tập chỉ mục vector đặc trƣng đầu tiên. Để mang lại thông tin về sự khác biệt của thay đổi cƣờng độ, ta trích tổng trị tuyệt đối các đặc trƣng |dx|, |dy|. Do đó, một phân miền sẽ có một vector mơ tả 4 chiều v cho cấu trúc cƣờng độ cơ bản của phân miền .
Kết quả là một vector mơ tả cho tất cả 4x4 vùng con có độ dài 64. Bất biến tƣơng phản (một thừa số tỷ lệ) đạt đƣợc bằng cách chuyển mô tả vào trong một vector đơn vị.
Hình 2.21. Các mục mô tả của miền con đại diện cho tính chất của mẫu cường độ cơ bản. Hình trái: trong trường hợp của một miền con đồng nhất, tất cả các giá trị là tương đối thấp. Hình giữa: sự có mặt của tần số trong x
hướng, giá trị của là cao, nhưng tất cả các trường hợp khác vẫn thấp.
Nếu cường độ tăng dần theo x hướng, cả và đều cao.
Hình.2.21 cho thấy các đặc tính của mơ tả trong ba ảnh cƣờng độ mẫu
khác nhau trong một phân miền. Ta có thể hình dung kết quả của việc kết hợp các mẫu cƣờng độ cục bộ là một mô tả đặc biệt.
2.5.5.3 Lập chỉ mục và so khớp
Để lập chỉ mục nhanh chóng trong giai đoạn so khớp, dấu hiệu Laplacian (nghĩa là dấu vết của ma trận Hessian) là bao gồm cho các điểm quan tâm cơ bản. Thơng thƣờng các điểm quan tâm đƣợc tìm thấy ở các cấu trúc kiểu đốm màu (blob-type). Dấu hiệu Laplacian khác biệt các đốm màu sáng trên nền tối từ trạng thái nghịch đảo. Đặc điểm này có giá trị ơi chỗ khơng thêm chi phí tính tốn vì nó đã đƣợc tính tốn trong giai đoạn phát hiện. Ở giai đoạn so khớp, ta chỉ so sánh các đặc trƣng nếu nó có cùng kiểu tƣơng phản, nhƣ ở
hình 2.22. Do đó, thơng tin tối thiểu này cho phép so khớp nhanh hơn, mà
không làm giảm hiệu suất của bộ mô tả. Lƣu ý rằng đây cũng là lợi thế cho các phƣơng pháp lập chỉ mục nâng cao hơn. Ví dụ với k-d tree, thông tin bổ sung này định nghĩa một siêu phẳng có ý nghĩa cho việc tách dữ liệu, trái với việc chọn ngẫu nhiên một phần tử hay thống kê các đặc trƣng.
Hình 2.22: Nếu độ tương phản giữa hai điểm quan tâm khác nhau (tối trên nền sáng với sáng trên nền tối), ứng viên sẽ khơng được xem là so khớp có giá trị.
2.6 So sánh - Kết luận
Nhóm đã tiến hành đánh giá so sánh giữa các kỹ thuật dựa trên tập 216 ảnh gồm 22 đối tƣợng. Các ảnh so sánh dƣới các điều kiện khác nhau về góc nhìn, cƣờng độ sáng, tỷ lệ…
Bảng so sánh số lƣợng đặc trƣng phát hiện và thời gian thực hiện giữa các kỹ thuật(sử dụng ảnh graffity) Detector Số lƣợng điểm Thời gian Fast Hessian (SURF) 1418 120 Harris-Laplace 1664 1850 Hessian-Laplace 1000 650 DoG (SIFT) 1520 400 Cơng thức tính độ lặp lại
repeatablity: lặp lại của các đặc trƣng.
correct-matches: số so khớp chính xác.
ground-truth-matches: số so khớp cơ sở.
So sánh về góc nhìn
Hình 2.24: So sánh về góc nhìn (Bên trái). Ảnh so sánh (bên phải)
So sánh về cƣờng độ sáng
Hình 2.25: So sánh về cường độ sáng (Bên trái). Ảnh so sánh (bên phải)
So sánh về tỷ lệ
Hình 2.26: So sánh về tỷ lệ (Bên trái). Ảnh so sánh (bên phải)
Kết quả so sánh cho ta thấy kỹ thuật SURF đạt đƣợc sự cân bằng về tốc độ cũng nhƣ số điểm đặc trƣng tìm đƣợc so với các kỹ thuật khác.
Trên đây đã trình bày các phƣơng pháp cho việc phát hiện điểm quan tâm bất biến tỷ lệ và bất biến affine trong ảnh. Thuật toán phát hiện điểm bất biến affine đã đƣợc làm thích nghi đồng thời vị trí, tỷ lệ và hình dạng của một vùng lân cận của một điểm để thu đƣợc các điểm bất biến affine. Khơng có phƣơng pháp nào trong các phƣơng pháp trƣớc đây giải quyết đồng thời cho tất cả các tham số này trong một thuật tốn trích chọn đặc trƣng. Các phƣơng pháp bất biến tỷ lệ có thể xử lý tốt cho các thay đổi tỷ lệ lớn hơn phƣơng pháp bất biến affine nhƣng nó lại thất bại đối với các ảnh có các phép biến đổi affine lớn. Các điểm bất biến affine cũng mang lại một sự so khớp tin cậy cho các ảnh có các biến dạng hình phối cảnh đáng kể. Tuy nhiên, tính ổn định và độ hội tụ của các vùng affine là một chủ đề của hƣớng nghiên cứu tƣơng lai cũng nhƣ tính mạnh mẽ của chúng đối với các đƣờng biên cụt (occlusions).
Chƣơng 3: ỨNG DỤNG ĐIỂM BẤT ĐỘNG TRONG NHẬN DẠNG ĐỐI TƢỢNG
Phần này trình bày ứng dụng của phương pháp xác định điểm bất động trong việc trích chọn đặc trưng để giải quyết bài toán nhận dạng đối tượng trong ảnh. Cài đặt thử nghiệm một phương pháp đã trình bày ở chương 2.
3.1 Bài tốn nhận dạng đối tƣợng Phát biểu bài toán Phát biểu bài toán
Cho trƣớc hai bức ảnh, bức ảnh thứ nhất chứa nhiều đối tƣợng, bức ảnh thứ hai chỉ chứa một đối tƣợng duy nhất, yêu cầu xác định xem trong bức ảnh thứ nhất có đối tƣợng nhƣ trong bức ảnh thứ hai khơng, thậm chí là đối tƣợng đó nằm ở tọa độ nào trong bức ảnh thứ nhất.
(a) (b)
Hình 3.1. Ví dụ về bài tốn nhận dạng đối tượng: xác định xem đối tượng trong ảnh (b) có trong ảnh (a) khơng?
Cách giải quyết bài toán
Tƣ tƣởng: Cho trƣớc một ảnh huấn luyện về đối tƣợng cần nhận dạng, ta tìm trong ảnh cần xét (ảnh truy vấn) có đối tƣợng đó hay khơng. Bằng cách đánh giá mức độ giống nhau của đối tƣợng trong ảnh cho trƣớc với các đối tƣợng trong ảnh truy vấn. Do đó cần phải giải quyết bài tốn này theo cách đối sánh các đặc trƣng của ảnh cho trƣớc với các đặc trƣng của ảnh truy vấn. Một cách nơm na thì đây chính là một trƣờng hợp đặc biệt của bài toán tra cứu ảnh dựa trên các đặc trƣng đặc biệt nào đó. Và cũng lƣu ý rằng yếu tố thời gian thực ln đƣợc quan tâm cho mỗi bài tốn, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán.
Nhƣ vậy, bài toán nhận dạng đối tƣợng bằng kỹ thuật Xử lý ảnh gồm ba bƣớc chính:
- Xác định và trích chọn các đặc trƣng của hai ảnh một cách độc lập.
- Đánh giá độ tƣơng tự (độ giống nhau) của đối tƣợng trong hai ảnh dựa vào việc so khớp các đặc trƣng đƣợc trích chọn.
- Phân tích xác suất để thực hiện xác minh cuối cùng.
3.1.1 Mơ hình bài tốn nhận dạng đối tượng
Hình 3.2. Sơ đồ chức năng nhận dạng đối tượng
3.1.2 Thuật toán
Để giải quyết bài toán trên ta sử thuật toán SURF (Speed Up Robust Feature) đã đƣợc mô tả chi tiết ở chƣơng 2. Đây là một trong những phƣơng pháp hiệu quả để trích chọn các điểm bất biến từ các ảnh đƣợc dùng để thực hiện so khớp tin cậy giữa các tầm nhìn khác nhau của cùng một đối tƣợng hoặc quang cảnh. Phƣơng pháp này gồm 3 giai đoạn chính: gán hƣớng cho các điểm quan tâm, mô tả dựa trên tổng các đặc trƣng Haar wavelet và so khớp đặc trƣng. Đƣợc trình bày vắn tắt lại nhƣ sau:
* Gán hƣớng:
Giai đoạn đầu tiên của q trình trích chọn các điểm bất động là tìm kiếm trên tất cả các tỷ lệ và các vị trí ảnh có thể để xác định các điểm quan tâm tiềm tàng mà chúng bất biến khi có sự thay đổi về tỷ lệ và phép quay.
Ảnh đầu vào Trích chọn đặc trưng: Bất biến Ảnh huấn luyện Trích chọn đặc trưng: Bất biến So sánh độ tương tự Ảnh kết quả (ảnh có khoanh vùng đối tượng cần nhận dạng)
Ảnh mẫu ban đầu sẽ đƣợc chuyển về ảnh mức xám vì ảnh mức xám chỉ có một kênh mang thơng tin cƣờng độ. Do đó máy tính sẽ xử lý nhanh hơn nhiều so với việc xử lý ảnh màu. Sau đó, những điểm quan tâm trong ảnh sẽ đƣợc sút trích. Phƣơng pháp rút trích các điểm quan tâm dựa trên phƣơng pháp phát hiện Hessian để tìm ra danh sách các điểm quan tâm bất biến với phép quay và tỷ lệ.
Tính tốn đặc trƣng Haar wavelet ở x hƣớng và y hƣớng, nằm trong vịng trịn láng giềng bán kính 6s xung quanh điểm quan tâm, với s là tỷ lệ
các điểm quan tâm đƣợc phát hiện.
Mỗi một đặc trƣng wavelet đƣợc tính tốn và điều chỉnh với hàm Gaussian ( ) ở tâm điểm của điểm quan tâm, các đặc trƣng đƣợc biểu diễn nhƣ vector trong không gian với độ lớn đặc trƣng theo chiều ngang dọc theo hoành độ và độ lớn đặc trƣng thẳng dọc theo tung độ. Hƣớng chủ đạo đƣợc ƣớc tính bằng cách tính tổng tất cả các đặc trƣng trong một cửa sổ định hƣớng trƣợt bao quanh một góc . Các đặc trƣng ngang và dọc trong cửa sổ đƣợc tính tổng, hai đặc trƣng đƣợc tổng hợp sinh ra một vector mới. Hƣớng vector dài nhất tƣơng ứng với hƣớng điểm quan tâm.
* Mô tả dựa trên tổng các đặc trƣng Haar wavelet
Vùng quan tâm đƣợc chia làm 4 vùng con. Các đặc trƣng wavelet dx, dy đƣợc tổng hợp qua từng vùng con và hình thành một tập chỉ mục vector đặc trƣng đầu tiên. Mỗi vùng con sẽ có một vector mơ tả 4 chiều v cho cấu trúc
cƣờng độ cơ bản của vùng con:
với: dx là ánh xạ Haar wavelet nằm ngang
Kết quả là một vector mô tả cho tất cả 4x4 vùng con có độ dài 64. Các đặc trƣng wavelet bất biến với sự chênh lệch ánh sáng.
* So khớp đặc trƣng
Việc so sánh các điểm quan tâm trở thành so sánh các vector. Sau khi so sánh sẽ nhận đƣợc danh sách các đặc trƣng đã so khớp. Để chính xác hơn, danh sách các đặc trƣng này sẽ đƣợc bầu chọn kích thƣớc và hƣớng để loại bỏ các đặc trƣng đã so khớp mà có tỷ lệ và phép quay không phù hợp với phần lớn trong số chúng. Cuối cùng một ma trận hình chiếu (homography matrix) đƣợc tính tốn từ những điểm đã so khớp này để chiếu ảnh mẫu lên ảnh truy vấn bằng cách sử dụng đồng thuận mẫu ngẫu nhiên (RANDSAC – RANDom Sample Consensus).
3.2 Cài đặt thử nghiệm
3.2.1 Cài đặt chương trình
Các tính năng chính:
Chƣơng trình đƣợc viết bằng ngôn ngữ Visual C# 2008, chạy trên hệ điều hành Window 7, máy tính tốc độ Core 2 Duo 2.00GHz, bộ nhớ 2.00GB RAM. Chƣơng trình có các chức năng sau:
- Cho phép ngƣời sử dụng lựa chọn ảnh truy vấn và ảnh chứa đối tƣợng cần nhận dạng – Khoanh vùng đối tƣợng cần tìm trên ảnh chứa đối tƣợng nhận dạng.
- Hiển thị kết quả nhận dạng.
- Ứng dụng việc trích chọn đặc trƣng vào việc tìm ảnh
3.2.2 Kết quả thực nghiệm
Thực hiện cài đặt thử nghiệm phƣơng pháp SURF để trích chọn đặc trƣng bất biến, sau đó sử dụng RANDSAC để so khớp nhận dạng. Bƣớc đầu với một số kết quả sau:
Hình 3.3 thể hiện kết quả nhận dạng đối tƣợng, ở ảnh (a) các đối tƣợng
đƣợc thu nhận trên một nền tƣơng đối rõ ràng nên việc trích chọn và so khớp đặc trƣng đƣợc tiến hành khơng mấy khó khăn và độ chính xác tƣơng đối cao, hơn nữa góc nhìn của đối tƣợng cần nhận dạng trong cả hai giống nhau chỉ khác nhau về tỷ lệ.
(a) (b)
(c)
Hình 3.3. Kết quả nhận dạng của ảnh chứa nhiều đối tượng được huấn luyện.(a) Ảnh