Nhóm đã tiến hành đánh giá so sánh giữa các kỹ thuật dựa trên tập 216 ảnh gồm 22 đối tƣợng. Các ảnh so sánh dƣới các điều kiện khác nhau về góc nhìn, cƣờng độ sáng, tỷ lệ…
Bảng so sánh số lƣợng đặc trƣng phát hiện và thời gian thực hiện giữa các kỹ thuật(sử dụng ảnh graffity) Detector Số lƣợng điểm Thời gian Fast Hessian (SURF) 1418 120 Harris-Laplace 1664 1850 Hessian-Laplace 1000 650 DoG (SIFT) 1520 400 Công thức tính độ lặp lại
repeatablity: lặp lại của các đặc trƣng. correct-matches: số so khớp chính xác. ground-truth-matches: số so khớp cơ sở.
So sánh về góc nhìn
Hình 2.24: So sánh về góc nhìn (Bên trái). Ảnh so sánh (bên phải)
So sánh về cƣờng độ sáng
So sánh về tỷ lệ
Hình 2.26: So sánh về tỷ lệ (Bên trái). Ảnh so sánh (bên phải)
Kết quả so sánh cho ta thấy kỹ thuật SURF đạt đƣợc sự cân bằng về tốc độ cũng nhƣ số điểm đặc trƣng tìm đƣợc so với các kỹ thuật khác.
Trên đây đã trình bày các phƣơng pháp cho việc phát hiện điểm quan tâm bất biến tỷ lệ và bất biến affine trong ảnh. Thuật toán phát hiện điểm bất biến affine đã đƣợc làm thích nghi đồng thời vị trí, tỷ lệ và hình dạng của một vùng lân cận của một điểm để thu đƣợc các điểm bất biến affine. Không có phƣơng pháp nào trong các phƣơng pháp trƣớc đây giải quyết đồng thời cho tất cả các tham số này trong một thuật toán trích chọn đặc trƣng. Các phƣơng pháp bất biến tỷ lệ có thể xử lý tốt cho các thay đổi tỷ lệ lớn hơn phƣơng pháp bất biến affine nhƣng nó lại thất bại đối với các ảnh có các phép biến đổi affine lớn. Các điểm bất biến affine cũng mang lại một sự so khớp tin cậy cho các ảnh có các biến dạng hình phối cảnh đáng kể. Tuy nhiên, tính ổn định và độ hội tụ của các vùng affine là một chủ đề của hƣớng nghiên cứu tƣơng lai cũng nhƣ tính mạnh mẽ của chúng đối với các đƣờng biên cụt (occlusions).
Chƣơng 3: ỨNG DỤNG ĐIỂM BẤT ĐỘNG TRONG NHẬN DẠNG ĐỐI TƢỢNG
Phần này trình bày ứng dụng của phương pháp xác định điểm bất động trong việc trích chọn đặc trưng để giải quyết bài toán nhận dạng đối tượng trong ảnh. Cài đặt thử nghiệm một phương pháp đã trình bày ở chương 2.
3.1 Bài toán nhận dạng đối tƣợng Phát biểu bài toán Phát biểu bài toán
Cho trƣớc hai bức ảnh, bức ảnh thứ nhất chứa nhiều đối tƣợng, bức ảnh thứ hai chỉ chứa một đối tƣợng duy nhất, yêu cầu xác định xem trong bức ảnh thứ nhất có đối tƣợng nhƣ trong bức ảnh thứ hai không, thậm chí là đối tƣợng đó nằm ở tọa độ nào trong bức ảnh thứ nhất.
(a) (b)
Hình 3.1. Ví dụ về bài toán nhận dạng đối tượng: xác định xem đối tượng trong ảnh (b) có trong ảnh (a) không?
Cách giải quyết bài toán
Tƣ tƣởng: Cho trƣớc một ảnh huấn luyện về đối tƣợng cần nhận dạng, ta tìm trong ảnh cần xét (ảnh truy vấn) có đối tƣợng đó hay không. Bằng cách đánh giá mức độ giống nhau của đối tƣợng trong ảnh cho trƣớc với các đối tƣợng trong ảnh truy vấn. Do đó cần phải giải quyết bài toán này theo cách đối sánh các đặc trƣng của ảnh cho trƣớc với các đặc trƣng của ảnh truy vấn. Một cách nôm na thì đây chính là một trƣờng hợp đặc biệt của bài toán tra cứu ảnh dựa trên các đặc trƣng đặc biệt nào đó. Và cũng lƣu ý rằng yếu tố thời gian thực luôn đƣợc quan tâm cho mỗi bài toán, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán.
Nhƣ vậy, bài toán nhận dạng đối tƣợng bằng kỹ thuật Xử lý ảnh gồm ba bƣớc chính:
- Xác định và trích chọn các đặc trƣng của hai ảnh một cách độc lập.
- Đánh giá độ tƣơng tự (độ giống nhau) của đối tƣợng trong hai ảnh dựa vào việc so khớp các đặc trƣng đƣợc trích chọn.
- Phân tích xác suất để thực hiện xác minh cuối cùng.
3.1.1 Mô hình bài toán nhận dạng đối tượng
Hình 3.2. Sơ đồ chức năng nhận dạng đối tượng
3.1.2 Thuật toán
Để giải quyết bài toán trên ta sử thuật toán SURF (Speed Up Robust Feature) đã đƣợc mô tả chi tiết ở chƣơng 2. Đây là một trong những phƣơng pháp hiệu quả để trích chọn các điểm bất biến từ các ảnh đƣợc dùng để thực hiện so khớp tin cậy giữa các tầm nhìn khác nhau của cùng một đối tƣợng hoặc quang cảnh. Phƣơng pháp này gồm 3 giai đoạn chính: gán hƣớng cho các điểm quan tâm, mô tả dựa trên tổng các đặc trƣng Haar wavelet và so khớp đặc trƣng. Đƣợc trình bày vắn tắt lại nhƣ sau:
* Gán hƣớng:
Giai đoạn đầu tiên của quá trình trích chọn các điểm bất động là tìm kiếm trên tất cả các tỷ lệ và các vị trí ảnh có thể để xác định các điểm quan tâm tiềm tàng mà chúng bất biến khi có sự thay đổi về tỷ lệ và phép quay.
Ảnh đầu vào Trích chọn đặc trưng: Bất biến Ảnh huấn luyện Trích chọn đặc trưng: Bất biến So sánh độ tương tự Ảnh kết quả (ảnh có khoanh vùng đối tượng cần nhận dạng)
Ảnh mẫu ban đầu sẽ đƣợc chuyển về ảnh mức xám vì ảnh mức xám chỉ có một kênh mang thông tin cƣờng độ. Do đó máy tính sẽ xử lý nhanh hơn nhiều so với việc xử lý ảnh màu. Sau đó, những điểm quan tâm trong ảnh sẽ đƣợc sút trích. Phƣơng pháp rút trích các điểm quan tâm dựa trên phƣơng pháp phát hiện Hessian để tìm ra danh sách các điểm quan tâm bất biến với phép quay và tỷ lệ.
Tính toán đặc trƣng Haar wavelet ở x hƣớng và y hƣớng, nằm trong vòng tròn láng giềng bán kính 6s xung quanh điểm quan tâm, với s là tỷ lệ các điểm quan tâm đƣợc phát hiện.
Mỗi một đặc trƣng wavelet đƣợc tính toán và điều chỉnh với hàm Gaussian ( ) ở tâm điểm của điểm quan tâm, các đặc trƣng đƣợc biểu diễn nhƣ vector trong không gian với độ lớn đặc trƣng theo chiều ngang dọc theo hoành độ và độ lớn đặc trƣng thẳng dọc theo tung độ. Hƣớng chủ đạo đƣợc ƣớc tính bằng cách tính tổng tất cả các đặc trƣng trong một cửa sổ định hƣớng trƣợt bao quanh một góc . Các đặc trƣng ngang và dọc trong cửa sổ đƣợc tính tổng, hai đặc trƣng đƣợc tổng hợp sinh ra một vector mới. Hƣớng vector dài nhất tƣơng ứng với hƣớng điểm quan tâm.
* Mô tả dựa trên tổng các đặc trƣng Haar wavelet
Vùng quan tâm đƣợc chia làm 4 vùng con. Các đặc trƣng wavelet dx, dy
đƣợc tổng hợp qua từng vùng con và hình thành một tập chỉ mục vector đặc trƣng đầu tiên. Mỗi vùng con sẽ có một vector mô tả 4 chiều v cho cấu trúc cƣờng độ cơ bản của vùng con:
với: dxlà ánh xạ Haar wavelet nằm ngang
Kết quả là một vector mô tả cho tất cả 4x4 vùng con có độ dài 64. Các đặc trƣng wavelet bất biến với sự chênh lệch ánh sáng.
* So khớp đặc trƣng
Việc so sánh các điểm quan tâm trở thành so sánh các vector. Sau khi so sánh sẽ nhận đƣợc danh sách các đặc trƣng đã so khớp. Để chính xác hơn, danh sách các đặc trƣng này sẽ đƣợc bầu chọn kích thƣớc và hƣớng để loại bỏ các đặc trƣng đã so khớp mà có tỷ lệ và phép quay không phù hợp với phần lớn trong số chúng. Cuối cùng một ma trận hình chiếu (homography matrix) đƣợc tính toán từ những điểm đã so khớp này để chiếu ảnh mẫu lên ảnh truy vấn bằng cách sử dụng đồng thuận mẫu ngẫu nhiên (RANDSAC – RANDom Sample Consensus).
3.2 Cài đặt thử nghiệm
3.2.1 Cài đặt chương trình
Các tính năng chính:
Chƣơng trình đƣợc viết bằng ngôn ngữ Visual C# 2008, chạy trên hệ điều hành Window 7, máy tính tốc độ Core 2 Duo 2.00GHz, bộ nhớ 2.00GB RAM. Chƣơng trình có các chức năng sau:
- Cho phép ngƣời sử dụng lựa chọn ảnh truy vấn và ảnh chứa đối tƣợng cần nhận dạng – Khoanh vùng đối tƣợng cần tìm trên ảnh chứa đối tƣợng nhận dạng.
- Hiển thị kết quả nhận dạng.
- Ứng dụng việc trích chọn đặc trƣng vào việc tìm ảnh
3.2.2 Kết quả thực nghiệm
Thực hiện cài đặt thử nghiệm phƣơng pháp SURF để trích chọn đặc trƣng bất biến, sau đó sử dụng RANDSAC để so khớp nhận dạng. Bƣớc đầu với một số kết quả sau:
Hình 3.3 thể hiện kết quả nhận dạng đối tƣợng, ở ảnh (a) các đối tƣợng đƣợc thu nhận trên một nền tƣơng đối rõ ràng nên việc trích chọn và so khớp đặc trƣng đƣợc tiến hành không mấy khó khăn và độ chính xác tƣơng đối cao, hơn nữa góc nhìn của đối tƣợng cần nhận dạng trong cả hai giống nhau chỉ khác nhau về tỷ lệ.
(a) (b)
(c)
Hình 3.3. Kết quả nhận dạng của ảnh chứa nhiều đối tượng được huấn luyện.(a) Ảnh truy vấn chứa nhiều đối tượng; (b) Ảnh huấn luyện; (c) Kết quả nhận dạng
Hình 3.4 thể hiện một ví dụ khác về nhận dạng đối tƣợng, đối tƣợng cần nhận dạng trong cả hai ảnh có sự khác nhau đôi chút về góc nhìn, hơn nữa ảnh truy vấn lại chứa quá nhiều đối tƣợng, đƣợc thu nhận trên một nền không rõ ràng nền sẽ có rất nhiều đặc trƣng đƣợc tìm thấy ở ảnh (a) vì vậy việc so khớp
đặc trƣng sẽ mất nhiều thời gian hơn và số lƣợng các so khớp không chính xác cũng tăng lên.
(a) (b)
(c)
Hình 3.4. Kết quả nhận dạng đối tượng bị che khuất một phần. (a) Ảnh truy vấn chứa nhiều đối tượng; (b) Ảnh chứa đối tượng cần nhận dạng; (c) Kết quả nhận dạng
Hình 3.5 thể hiện một ví dụ khác về nhận dạng đối tƣợng, đối tƣợng cần nhận dạng ở trong một ảnh lớn. Có thể quét chọn chính xác đối tƣợng để kết quả tìm kiếm đƣợc chính xác hơn.
(a)
(b) (c)
(d) (e)
Hình 3.5. Kết quả nhận dang đối tượng trước và sau khi khoanh vùng chọn đối tượng. (a) Ảnh truy vấn chứa nhiều đối tượng; (b) Ảnh chứa đối tượng cần nhận dạng chưa được khoanh vùng; (c) Kết quả nhận dạng khi chưa khoanh vùng đối tượng; (d) Ảnh chứa đối tượng cần nhận dạng đã được khoanh vùng đối tượng; (e) Kết quả nhận dạngkhi đã khoanh vùng đối tượng
* Nhận xét:
Thuật toán này đƣợc đánh giá là khá hiệu quả trong việc trích chọn đặc trƣng phục vụ cho việc nhận dạng đối tƣợng, đặc biệt khi các ảnh đƣợc thu nhận có tỷ lệ khác nhau hoặc các đối tƣợng trong ảnh đƣợc đặt ở các góc nhìn khác nhau. Tuy nhiên trong quá trình cài đặt thuật toán vẫn chƣa xử lý đƣợc trƣờng hợp đối tƣợng cần nhận dạng bị che khuất một số bộ phận hoặc bị thay đổi góc nhìn, tỷ lệ quá lớn.
KẾT LUẬN
Một trong những hƣớng tiếp cận để nhận dạng đối tƣợng hiệu quả đã và đang đƣợc nhiều nhóm nghiên cứu chú ý gần đây đó là dựa vào các đặc trƣng bất biến của đối tƣợng. Làm sao có thể nhận dạng chính xác đƣợc đối tƣợng trong ảnh cho dù đối tƣợng đó có sự biến đổi đôi chút về hình thức, sự thay đổi về tỷ lệ thu nhận ảnh, đối tƣợng cần nhận dạng bị che khuất một phần bởi các đối tƣợng khác hay các biến đổi khác là một vấn đề rất có ý nghĩa. Xuất phát từ thực tế đó luận văn nhằm tìm hiểu tổng quan về nhận dạng đối tƣợng, các phƣơng pháp phát hiện đặc trƣng bất biến mà nền tảng là dựa vào các điểm bất động và ứng dụng của chúng trong nhận dạng.
Trong quá trình nghiên cứu tài liệu và thực hiện luận văn dƣới sự định hƣớng của thầy hƣớng dẫn, luận văn đã đạt đƣợc một số kết quả nhƣ sau:
Trình bày khái quát về nhận dạng đối tƣợng, các loại bất biến, lý thuyết điểm bất động và ứng dụng của điểm bất động trong nhận dạng đối tƣợng..
Hệ thống hóa các phƣơng pháp phát hiện điểm bất động trong ảnh. Đặc biệt việc phát hiện điểm bất động sử dụng phƣơng pháp SURF đã mang lại kết quả khả quan về độ chính xác cũng nhƣ về tốc độ.
Bằng cách hiểu rõ bản chất của từng phƣơng pháp tôi đã cài đặt và chạy thử nghiệm một kỹ thuật đã đƣợc trình bày trong chƣơng 2: cài đặt phƣơng pháp SURF trong trƣờng hợp các ảnh có sự khác nhau về tỷ lệ, góc nhìn và các đối tƣợng trong ảnh bị che khuất một số bộ phận không đáng kể.
Ngoài ra, trong quá trình nghiên cứu tôi cũng tự tích lũy thêm cho mình các kiến thức về toán học, về kỹ thuật lập trình,…Và quan trọng là rèn luyện kỹ năng để thực hiện một nghiên cứu khoa học. Tuy mới chỉ là bƣớc đầu, nhƣng những kết quả này sẽ giúp ích cho tôi trong những nghiên cứu sau này để thu đƣợc những kết quả tốt hơn.
Một số vấn đề cần tiếp tục giải quyết:
Các ảnh đƣợc thu nhận có sự khác nhau đáng kể về tỷ lệ, góc nhìn, đối tƣợng cần nhận dạng bị che khuất khá nhiều.
Ảnh chứa các đối tƣợng cần nhận dạng bị thay đổi độ sáng, độ tƣơng phản.Các ảnh chịu phép biến đổi affine lớn.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Quang Hoan, “Xử lý ảnh”, Học viện Công nghệ bƣu chính viễn thông.
[2] Đỗ Hồng Tân, Nguyễn Thị Thanh Hà 2003, Các định lý điểm bất động,
Đại học sƣ phạm Hà Nội
[3] Brown M. and Lowe D.G 2002, Invariant features from interest point groups, In The 13th British Machine Vision Conference, Cardiff University, UK.
[4] Harris C. and Stephens M. 1988, A combined corner and edge detector, Proceedings of the Alvey Vision Conference.
[5] Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool 2008,
SURF: Speeded Up Robust Features, Computer Vision and Image Understanding (CVIU)
[6] Lowe D.G. 2004, Distinctive image features from Scale-Invariant keypoints, International Journal of Computer Vision 60.
[7] Mikolajczyk, K. 2002. Detection of local features invariant to affine transformations, Ph.D. thesis, Institut National Polytechnique de Grenoble, France.
[8] Mikolajczyk K. and Schmid C. 2001, Indexing based on scale invariant interest points, In: ICCV, Volume 1.
[9] Mikolajczyk, K., and Schmid, C. 2002. An affine invariant interest point detector. In European Conference on Computer Vision (ECCV), Copenhagen, Denmark.
[10] Mikolajczyk, K., Schmid, C. 2004, Scale and affine invariant interest point detectors. In International Journal of Computer Vision 60.
[11] Mikolajczyk K. and Schmid C. 2005, A performance evaluation of local descriptors, In IEEE Transactions on Pattern Analysis and Machine Intelligence, to appear.
[12] Rothganger, F., S. Lazebnik, C. Schmid, and J. Ponce 2005, Object modeling and recognition using local affine-invariant image descriptors and multi-view spatial consraints, In International Journal of Computer Vision, to appear.
[13] Viola P. and Jones M. 2001, Rapid object detection using a boosted cascade of simple features, In: CVPR (1).
[14] Scovanner Paul, Ali. S, Shah. M 2007. A 3-dimensional sift descriptor and its application to action recognition. Proceedings of the 15th International Conference on Multimedia.
[15] Ryuji Funayama, Hiromichi Yanagihara, Luc Van Gool, Tinne Tuytelaars, Herbert Bay 2009, Robust Interest Point Detector and Descriptor, US 2009238460 (A1)