đề tài : Nhận dạng đối tượng trên hình ảnh
Trang 1ĐẠI HỌC HUẾ ĐẠI HỌC KHOA HỌC
TIỂU LUẬN MÔN HỌC
LÝ THUYẾT NHẬN DẠNG
Đề tài: Nhận dạng đối tượng trên hình ảnh
Giáo viên HD: TS Nguyễn Đăng Bình
HV thực hiện: Nguyễn Mạnh Cường
Lớp Cao học Khoa học Máy tính 2009-2011
Huế, 08/2010
Trang 2MỤC LỤC
Trang 3LỜI NÓI ĐẦU
Do những hạn chế về kiến thức môn học, Anh văn, trong tiểu luận “Nhận dạng đối
tượng trên hình ảnh” được tổng hợp từ hai bài báo: Exploring Features in a Bayesian
Framework for Material Recognition; Face Recognition with Learning-based Descriptor không thể giới thiệu tất cả các kết quả đã nghiên cứu ở trên mà chỉ giới thiệu nội dung cơ bản sau:
Cấu trúc tiểu luận như sau:
Phần 1: Tóm tắt
Phần 2: Giới thiệu lại vài khái niệm cơ bản cần trong bài báo, các thể hiện tổng thể tối thiểu của nhận dạng hình ảnh, hoặc các phương pháp nhận dạng mới với kết quả qua một số thực nghiệm cụ thể
Phần 3: Trình bày một số kết luận dựa trên các kết quả thực nghiệm
Tôi xin chân thành cảm ơn TS Nguyễn Đăng Bình đã giảng dạy và hướng dẫn tận
tình khi phụ trách môn học Lý thuyết nhận dạng Dù đã cố gắng nhưng kiến thức có hạn
tiểu luận không thể tránh khỏi những sai sót, tôi mong nhận được ý kiến đóng góp của Thầy và các anh chị học viên lớp cao học Khoa học Máy tính khóa 2009 để tôi có thể hoàn chỉnh tiểu luận này, đồng thời định hướng nghiên cứu tiếp trong tương lai
Học viên
Nguyễn Mạnh Cường
Trang 4NỘI DUNG
Tóm tắt
Vấn đề nhận dạng hình ảnh con người hay hình ảnh các loại vật liệu, ví dụ: thủy tinh, kim loại, vải, nhựa hay gỗ, từ một hình ảnh một chiều Không giống như các nhiệm
vụ nhận dạng ở tầm nhìn máy tính, rất khó để tìm kiếm tốt, các tính năng đáng tin cậy mà
có thể cho biết loại vật chất Đã có nhiều phương pháp được giới thiệu như chiến lược sử dụng một bộ giàu thấp và mức trung bình tính năng nghi nhận khía cạnh khác nhau của vật chất xuất hiện, mô hình Latent Dirichlet Allocation (aLDA) kết hợp các tính năng này theo khuôn dạng Bayesian và tìm hiểu một sự kết hợp tối ưu các tính năng, phương pháp tiếp cận của chúng tôi mã hóa các-cấu trúc vi mô của đối tượng theo phương pháp mã hóa mới Không giống như trước đây được thiết kế thủ công các phương pháp mã hóa (ví dụ, LBP hoặc SIFT), chúng tôi sử dụng kỹ thuật học không có giám sát để tìm hiểu một bộ mã hóa
từ các ví dụ huấn luyện, tự động có thể đạt được sự cân bằng rất tốt giữa phân biệt và bất biến phân biê ̣t Sau đó, chúng tôi áp dụng PCA để có được một mô tả đối tượng nhỏ gọn Kết quả thử nghiệm cho thấy hệ thống mới thực hiện sự nhận dạng vật chất khá tốt trên một cơ sở dữ liệu vật liệu mẫu
1 Giới thiệu
Nhận dạng chất liệu là một khía cạnh quan trọng của nhận dạng Phải tương tác với nhiều loại vật liệu cơ bản và liên tục đánh giá sự xuất hiện của chúng trong hình ảnh Ví
dụ, khi tiếp xúc một hình ảnh hoặc chất lượng vật liệu ảnh hưởng quyết định cuối cùng Vì vậy, rất có giá trị để xây dựng một hệ thống nhận dạng hình ảnh có thể suy ra tính chất vật liệu từ hình ảnh
Vấn đề nhận dạng các tài liệu từ các bức ảnh đã được giải quyết chủ yếu là trong bối cảnh dự toán phản xạ Sự xuất hiện hình ảnh của một bề mặt phụ thuộc vào nhiều yếu
tố - những điều kiện chiếu sáng, cấu trúc hình học của các mẫu bề mặt tại một số quy mô không gian, và các tính chất phản xạ bề mặt, thường đặc trưng bởi chức năng phân phối hai hướng phản xạ (BRDF) [24] và các biến thể của nó [9, 16, 26] Một số kỹ thuật đã được phát triển mà có thể ước tính các thông số của một mô hình BRDF từ một bộ ảnh, theo giả định hạn chế của ánh sáng, hình học và các thuộc tính vật chất [10, 11] Chẳng hạn, nhận dạng khuôn mặt đã thu hút nhiều nỗ lực nghiên cứu [1, 3, 4, 5, 6, 8, 12, 13, 14,
Trang 515] do sự tiến bộ của kí hiệu nhận dạng cục bộ [17, 21, 23, 25, 27, 29, 31, 32] và nhu cầu ngày càng cao của thực tế ứng dụng, chẳng hạn như mặt gắn thẻ vào máy tính để bàn [33] hay các Internet1
Ở đây, tập trung vào nhận dạng mức cao hình ảnh loại vật liệu: như con người, thủy tinh, kim loại, vải, nhựa hoặc gỗ Các tính chất phản xạ của vật liệu thường được tương quan với thể loại cao cấp của nó (ví dụ như thủy tinh thường là mờ và gỗ thường có màu nâu), và trong công việc này, sẽ khai thác những đặc tính tương quan Tuy nhiên, điều quan trọng là chỉ ra rằng chỉ biết các tính chất phản xạ của một bề mặt không đủ để xác định loại vật liệu Ví dụ, một thực tế là một bề mặt mờ là không cho biết nếu nó được làm bằng nhựa, sáp hoặc thủy tinh
Hình 1a: Hình ảnh vật liệu cần nhận dạng
Trang 6Hình 1b: Hình ảnh khuôn mặt con người cần nhân dạng
2 Một số phương pháp nhận dạng
Những yêu cầu này đưa đến một vấn đề đầy thử thách Hiện nay, phương pháp tiếp cận dựa trên mô tả [5, 13, 34] đã được chứng minh là xác định điểm đại diện trên hình ảnh
là hiệu quả với nhất hiệu suất tốt nhất [35, 36, 37] Ahonen et al [38] đề xuất sử dụng các biểu đồ mẫu nhị phân cục bộ (LBP) [23] để mô tả vi điểm cấu trúc của hình ảnh LBP mã hóa mức độ cường độ tương đối giữa mỗi pixel và điểm ảnh lân cận Nó là bất biến để thay đổi thuô ̣c về trắc quang đơn điệu và có thể được chiết xuất có hiệu quả Kể từ khi LBP là mã hóa bởi một thiết kế thủ công, nhiều LBP tương tự [34, 14, 40] đã được đề xuất
để cải thiện LBP gốc SIFT [21] hay Histogram của Gradient (HOG) [17] là các loại kí hiệu nhận dạng hiệu quả bằng cách sử dụng mã hóa thủ công Các yếu tố nguyên tử trong các kí hiệu nhận dạng có thể được xem như là mã lượng tử của các gradients hình ảnh Về
cơ bản, phương pháp mã hóa khác nhau và miêu tả phải cân
Tuy nhiên, các phương pháp mã hóa bị hai nhược điểm Một mặt, phương pháp mã hóa tối ưu là rất khó khăn Thông thường, sử dụng nhiều điểm ảnh theo ngữ cảnh (kích thước vector) có thể tạo ra một mã số phân biê ̣t hơn Nhưng nó không dễ để tự thiết kế một phương pháp mã hóa và xác định kích thước để đạt được sự cân bằng codebook hợp lý giữa nhận diện đúng và tính thô trong một không gian vào lớn Một số mã hiếm khi có thể xuất hiện trong hình ảnh khuôn mặt thực tế Nó có nghĩa là các biểu đồ mã kết quả sẽ được
ít hơn và ít thông tin, làm giảm khả năng mô tả biệt thức
Nhận dạng loại vật liệu cao cấp trong các hình ảnh khác với các vấn đề cũng như các đối tượng nghiên cứu của nhận dạng Mặc dù đôi khi được nhận dạng đối tượng tiên
Trang 7đoán của thể loại vật chất, một lớp các đối tượng có thể được làm bằng vật liệu khác nhau (xem hình 2) và các lớp khác nhau của các đối tượng có thể được làm bằng chất liệu tương
tự (xem hình 1) Vì vậy, nhiều tiến bộ gần đây trong nhận dạng đối tượng như hình dạng ngữ cảnh [2], phát hiện đối tượng [7] và chuyển giao nhãn [19] có thể không được áp dụng
để nhận dạng tài liệu Trong thực tế, hầu hết các đối tượng hệ thống nhận dạng dựa vào vật chất bất biến tính năng và có xu hướng bỏ qua các thông tin vật liệu hoàn toàn
Hình 2: Những màu sắc khác nhau cho thấy các kết cấu/loại vật liệu
Chất liệu nhận dạng là liên quan chặt chẽ, nhưng khác nhau từ, nhận dạng kết cấu Kết cấu đã được định nghĩa trong thành phần kích thước giống như chu kỳ, orientedness,
và ngẫu nhiên [20] Nó có thể là một thành phần quan trọng của sự xuất hiện vật chất, ví dụ: gỗ có xu hướng có kết cấu khác biệt với những kim loại đánh bóng Tuy nhiên, như minh họa trong hình 3, bề mặt làm bằng chất liệu khác nhau có thể chia sẻ các mẫu kết cấu giống nhau và như là một hậu quả, cơ chế thiết kế cho nhận dạng kết cấu [18, 30] có thể không được lý tưởng cho sự công nhận vật chất
Chất liệu nhận dạng cũng khác nhau từ BRDF dự toán Sự xuất hiện hình ảnh của các vật liệu như gỗ hoặc da, đã được làm mẫu về chức năng phân phối hai hướng phản xạ (BRDF) [10, 22] và đại diện liên quan như BTF [9] và BSSRDF [16] Chất liệu nhận dạng
có thể có vẻ tầm thường nếu BRDF được biết đến, nhưng nói chung, nó gần như không thể ước tính BRDF từ một hình ảnh duy nhất mà không cần đơn giản hóa các giả định [10, 11]
Trang 84.1 Kết quả trên điểm chuẩn LFW
Chúng tôi trình bày kết quả công nhận của chúng tôi trên LFW ở dạng đường cong ROC Hình 3 cho thấy kết quả so sánh các đề xuất của chúng tôi Trong hình 3, "đơn LE + toàn diện" có nghĩa là chúng tôi chỉ sử dụng duy nhất LE tốt nhất để đại diện cho bộ mặt tổng thể, và nó là cơ sở để cho thấy sức mạnh của LE mà không có các kỹ thuật khác
"Single LE + comp" chỉ áp dụng mức thành phần, pose-thích ứng với đường cơ sở duy nhất LE Nhiều kí hiệu nhận diện LE được kết hợp để tạo thành "đa LE + toàn diện" Và
"đa LE + comp" là biểu diễn của chúng tôi tốt nhất Các độ chính xác cho các bốn phương pháp được 81,22% ± 0,53%, 82,72% ± 0,43%, 83,43% ± 0,55% và 84,45% ± 0,46% Mặc
dù khả năng biệt thức mạnh mẽ của LE mô tả chính nó, kết hợp các tư thế, thích nghi và kết hợp nhiều mô tả nâng cao hơn nữa hiệu quả hoạt động công nhận hệ thống của chúng tôi
Hình 3: Chứng minh tác dụng của kỹ thuật điểm chuẩn LFW
Trang 9Hình 4: Mặt so sánh kết quả nhận dạng trên tiêu chuẩn LFW.
Đường cong ROC tốt nhất của chúng tôi là so sánh với kết quả trước của các phương pháp state-of-the-art, như trong hình 4 Trên tiêu chuẩn LFW, hai thuật toán mới cho thấy hiệu suất hàng đầu Wolf et al 'S làm việc [31] thông qua nền tảng học bằng cách
sử dụng các thông tin nhận dạng trong đào tạo các thiết lập Kumar et al [13] đã sử dụng
để đào tạo học có giám sát phân loại cao cấp thông qua một khối lượng lớn các hình ảnh đào tạo bên ngoài của các tập dữ liệu LFW Hai phương pháp [13, 31] đều sử dụng thông tin bổ sung bên ngoài giao thức thử nghiệm LFW Vì vậy, so sánh với các phương pháp khác (bao gồm cả chúng ta) trong hình 4 là không thực sự công bằng đào tạo bổ sung dữ liệu hoặc thông tin cũng có thể cải thiện cách tiếp cận khác Hệ thống của chúng tôi đạt được tốt nhất giao thức thử nghiệm tiêu chuẩn [12] Quan trọng hơn, công việc của chúng tôi tập trung vào khuôn mặt đại diện cấp thấp, mà có thể dễ dàng kết hợp với các thuật toán trước đó để tạo ra hiệu suất tốt hơn
Trang 10Bảng 1: Hiệu suất nhận dạng trên các số liệu Multi-PIE.
4.2 Kết quả trên Flickr Materials Database
Chúng tôi sử dụng các vật liệu Flickr Materials Database [28] cho tất cả các thí nghiệm được mô tả trong bài báo này Có mười loại vật liệu trong cơ sở dữ liệu: vải, lá, thủy tinh, da, kim loại, giấy, nhựa, đá, nước và gỗ Mỗi thể loại có chứa 100 hình ảnh, 50 trong số đó là quan điểm cận và phần còn lại 50 là quan điểm ở quy mô-đối tượng (xem hình 1a) Với nhãn đôi, human-labeled kết hợp với mỗi hình ảnh mô tả vị trí của đối tượng Chúng tôi chỉ xem xét điểm ảnh bên trong mặt nạ này nhị phân để công nhận tài liệu và bỏ qua tất cả các điểm ảnh nền Đối với mỗi thể loại, chúng tôi đã chọn ngẫu nhiên
50 hình ảnh cho việc huấn luyện và 50 hình ảnh cho thử nghiệm Tất cả các kết quả thực nghiệm được báo cáo trong bài báo này được dựa trên cùng một phân tách huấn luyện và thử nghiệm
Tâm tính toán chi phí, chúng tôi lấy mẫu màu, jet, sàng lọc, micro-jet và các tính năng micromicro-sift trên một lưới thô (thứ tự 5 pixel trong cả hai hướng ngang và dọc) Một khi các tính năng được chiết xuất, bằng cách sử dụng cụm K-means theo số lượng các cụm trong Bảng 2 Chúng tôi xác định số lượng các cụm cho từng tính năng, xem xét cả đa chiều và số lượng các trường hợp cho mỗi tính năng
Trang 11Bảng 2: Kích thước, số lượng các cụm và số trung bình tính năng cho mỗi hình ảnh
Sự gia tăng về hiệu suất từ những tính năng tốt nhất đơn (SIFT, 35.4%) để tính năng tốt nhất Thiết lập (màu + SIFT + cạnh-slice, 44.6%) là do mô hình của chúng tôi rằng gia tăng aLDA từ thị giác Thật thú vị, gia tăng thêm nhiều tính năng làm giảm hiệu suất tổng thể Khi chúng tôi sử dụng tất cả các tính năng, tỷ lệ kiểm tra là 38.8% Thấp hơn bằng cách sử dụng các tính năng ít hơn Thực tế là SIFT là tính năng duy nhất hoạt động tốt nhất cho thấy tầm quan trọng của kết cấu trong nhận dạng vật chất Ngoài ra, Sift cũng gói gọn một số thông tin bắt micro-sift Cạnh-slice, mà các biện pháp tính năng phản xạ, cũng là hữu ích
Để so sánh, chúng tôi thực hiện và thử nghiệm thuật toán (VZ) VarmaZisserman của [30] trên Flickr Materials Database Các thuật toán VZ cụm 5x5 pixel màu xám quy
mô bản vá lỗi là từ mã, có được một biểu đồ các từ mã cho mỗi hình ảnh, và thực hiện nhận dạng bằng cách sử dụng một phân loại hàng xóm gần nhất Theo một kiểm tra đúng đắn, chúng tôi chạy thực hiện VZ trên cơ sở dữ liệu CURET và thu được 96.1% (số của họ
là 95%~98%, [30]) Tiếp theo, chúng tôi chạy hệ thống VZ chính xác được thử nghiệm trên CURET trên Flickr Materials Database Tốc độ thử nghiệm VZ là 23.8% Điều này hỗ trợ các kết luận rằng Flickr Materials Database là khó khăn hơn nhiều so với cơ sở dữ liệu kết cấu CURET
Sự rắc rối trong hệ thống ma trận của chúng tôi (màu + SIFT + cạnh-slice, kiểm tra
tỷ lệ 44.6%) Nói với chúng ta như thế nào thường xuyên mỗi thể loại là phân lớp lỗi là khác Ví dụ, vải thường phân lớp lỗi như đá, da phân lớp lỗi như vải, nhựa phân lớp lỗi
Trang 12nó Một Các kết quả này không đáng ngạc nhiên vì có một số điểm chung giữa da và vải, nhựa và giấy, cũng như kim loại và kính
4.3 Kết quả trên PIE-Multi
Chúng tôi cũng thực hiện thí nghiệm rộng rãi trên tập Multi-PIE để xác minh khả năng tổng quát của phương pháp tiếp cận của chúng tôi Các số liệu Multi-PIE chứa hình ảnh khuôn mặt từ 337 đối tượng, chụp ảnh dưới 15 điểm xem và 19 điều kiện chiếu sáng
Sự khác biệt lớn tồn tại giữa LFW và Multi-PIE, xem xét các điều kiện đặt ra, không đúng chiếu sáng, và độ phân giải Hơn thế nữa, Multi-PIE được thu thập theo một thiết lập kiểm soát có hệ thống mô phỏng những ảnh hưởng của tư thế, chiếu sáng, và biểu hiện Mặt khác, LFW là hơn gần các thiết lập cuộc sống thực của nó từ khuôn mặt được lựa chọn từ các hình ảnh tin tức Đối với những lý do này, đào tạo trên một tập dữ liệu và thử nghiệm trên các khác tốt hơn có thể chứng tỏ khả năng tổng quát của một hệ thống công nhận
Tương tự như điểm chuẩn LFW, chúng tôi ngẫu nhiên tạo ra 10 tập con của hình ảnh khuôn mặt với Multi-PIE, từng có 300 trong nội bộ cá nhân và 300 cặp ngoại hình cá nhân Nhận dạng của đối tượng loại trừ lẫn nhau giữa các tập con 10, và qua xác nhận chế
độ tương tự như LFW được áp dụng Mặc định “đơn LE” mô tả và “LE nhiều” descriptor được đào tạo trên LFWbenchmark được thông qua trong các thí nghiệm Như thể hiện trong Bảng 1, các LE với đại diện duy nhất phải đối mặt toàn diện nhanh hơn so với các descriptor thường được sử dụng nhiều hơn 5 điểm, và phân loại cụ thể đặt ra-đào tạo trên dataset LFW cũng performwell trên dataset theMulti-PIE Tất cả các kết quả này chứng minh khả năng khái quát tuyệt vời của chúng tôi hệ thống
Trang 13TÀI LIỆU THAM KHẢO
[1] M Guillaumin, J Verbeek, C Schmid, I LEAR, and L Kuntzmann Is that you? Metric learning approaches for face identification In Proc ICCV, 2009
[2] S Belongie, J Malik, and J Puzicha Shape matching and object recognition using shape contexts TPAMI, 24(4):509–522, 2002
[3] X Wang and X Tang A unified framework for subspace face recognition IEEE Transactions on pattern analysis and machine intelligence, 26(9):1222–1228, 2004
[4] X Wang and X Tang Random sampling for subspace face recognition International Journal of Computer Vision, 70(1):91–104, 2006
[5] G Hua and A Akbarzadeh A robust elastic and partial matching metric for face recognition In Proc ICCV, 2009
[6] P Hua, G Viola and S Drucker Face recognition using discriminatively trained orthogonal rank one tensor projections In Proc CVPR, 2007
[7] N Dalal and B Triggs Histograms of oriented gradients for human detection In CVPR, volume 2, pages 886–893, 2005
[8] N Kumar, A Berg, P Belhumeur, and S Nayar Attribute and Simile classifiers for face verification In Proc ICCV, 2009
[9] K J Dana, B Van-Ginneken, S K Nayar, and J J Koenderink Reflectance and texture of real world surfaces ACM Transactions on Graphics, 18(1):1–34, 1999
[10] P Debevec, T Hawkins, C Tchou, H P Duiker, W Sarokin, and M Sagar Acquiring the reflectance field of a human face In ACM SIGGRAPH, pages 145–156, 2000
[11] R Dror, E H Adelson, and A S Willsky Recognition of surface reflectance properties from a single image under unknown real-world illumination In IEEE Workshop
on identifying objects across variation in lighting, 2001
[12] N Pinto, J DiCarlo, and D Cox How far can you get with a modern face recognition test set using only simple features In Proc CVPR, 2009
[13] Y Taigman, L Wolf, T Hassner, and I Tel-Aviv Multiple One-Shots for utilizing class label information In BMVC, 2009
[14] L.Wolf, T Hassner, and Y Taigman Descriptor based methods in the wild In Faces
in Real-Life Images Workshop in ECCV, 2008
[15] L Zhang, R Chu, S Xiang, S Liao, and S Li Face detection based on multi-block lbp representation Lecture Notes in Computer Science, 4642:11, 2007
[16] H W Jensen, S Marschner, M Levoy, and P Hanrahan Apractical model for subsurface light transport In ACM SIG-GRAPH, pages 511–518
[17] N Dalal and B Triggs Histograms of oriented gradients for human detection In Proc CVPR, 2005
[18] T Leung and J Malik Representing and recognizing the visual appearance of materials using three-dimensional textons IJCV, 43(1):29–44
[19] C Liu, J Yuen, and A Torralba Nonparametric scene parsing: Label transfer via dense scene alignment In CVPR, 2009
[20] F Liu and W Picard Periodicity, directionality and randomness: Wold features for