đề tài : Nhận dạng đối tượng trên hình ảnh
ĐẠI HỌC HUẾ ĐẠI HỌC KHOA HỌC TIỂU LUẬN MÔN HỌC LÝ THUYẾT NHẬN DẠNG Đề tài: Nhận dạng đối tượng trên hình ảnh Giáo viên HD: TS. Nguyễn Đăng Bình HV thực hiện: Nguyễn Mạnh Cường Lớp Cao học Khoa học Máy tính 2009-2011 Huế, 08/2010 MỤC LỤC 2 LỜI NÓI ĐẦU Do những hạn chế về kiến thức môn học, Anh văn, trong tiểu luận “Nhận dạng đối tượng trên hình ảnh” được tổng hợp từ hai bài báo: Exploring Features in a Bayesian Framework for Material Recognition; Face Recognition with Learning-based Descriptor không thể giới thiệu tất cả các kết quả đã nghiên cứu ở trên mà chỉ giới thiệu nội dung cơ bản sau: Cấu trúc tiểu luận như sau: Phần 1: Tóm tắt Phần 2: Giới thiệu lại vài khái niệm cơ bản cần trong bài báo, các thể hiện tổng thể tối thiểu của nhận dạng hình ảnh, hoặc các phương pháp nhận dạng mới với kết quả qua một số thực nghiệm cụ thể. Phần 3: Trình bày một số kết luận dựa trên các kết quả thực nghiệm. Tôi xin chân thành cảm ơn TS Nguyễn Đăng Bình đã giảng dạy và hướng dẫn tận tình khi phụ trách môn học Lý thuyết nhận dạng. Dù đã cố gắng nhưng kiến thức có hạn tiểu luận không thể tránh khỏi những sai sót, tôi mong nhận được ý kiến đóng góp của Thầy và các anh chị học viên lớp cao học Khoa học Máy tính khóa 2009 để tôi có thể hoàn chỉnh tiểu luận này, đồng thời định hướng nghiên cứu tiếp trong tương lai. Học viên Nguyễn Mạnh Cường 3 NỘI DUNG Tóm tắt Vấn đề nhận dạng hình ảnh con người hay hình ảnh các loại vật liệu, ví dụ: thủy tinh, kim loại, vải, nhựa hay gỗ, từ một hình ảnh một chiều. Không giống như các nhiệm vụ nhận dạng ở tầm nhìn máy tính, rất khó để tìm kiếm tốt, các tính năng đáng tin cậy mà có thể cho biết loại vật chất. Đã có nhiều phương pháp được giới thiệu như chiến lược sử dụng một bộ giàu thấp và mức trung bình tính năng nghi nhận khía cạnh khác nhau của vật chất xuất hiện, mô hình Latent Dirichlet Allocation (aLDA) kết hợp các tính năng này theo khuôn dạng Bayesian và tìm hiểu một sự kết hợp tối ưu các tính năng, phương pháp tiếp cận của chúng tôi mã hóa các-cấu trúc vi mô của đối tượng theo phương pháp mã hóa mới. Không giống như trước đây được thiết kế thủ công các phương pháp mã hóa (ví dụ, LBP hoặc SIFT), chúng tôi sử dụng kỹ thuật học không có giám sát để tìm hiểu một bộ mã hóa từ các ví dụ huấn luyện, tự động có thể đạt được sự cân bằng rất tốt giữa phân biệt và bất biến phân biê ̣ t. Sau đó, chúng tôi áp dụng PCA để có được một mô tả đối tượng nhỏ gọn. Kết quả thử nghiệm cho thấy hệ thống mới thực hiện sự nhận dạng vật chất khá tốt trên một cơ sở dữ liệu vật liệu mẫu. 1. Giới thiệu Nhận dạng chất liệu là một khía cạnh quan trọng của nhận dạng. Phải tương tác với nhiều loại vật liệu cơ bản và liên tục đánh giá sự xuất hiện của chúng trong hình ảnh. Ví dụ, khi tiếp xúc một hình ảnh hoặc chất lượng vật liệu ảnh hưởng quyết định cuối cùng. Vì vậy, rất có giá trị để xây dựng một hệ thống nhận dạng hình ảnh có thể suy ra tính chất vật liệu từ hình ảnh. Vấn đề nhận dạng các tài liệu từ các bức ảnh đã được giải quyết chủ yếu là trong bối cảnh dự toán phản xạ. Sự xuất hiện hình ảnh của một bề mặt phụ thuộc vào nhiều yếu tố - những điều kiện chiếu sáng, cấu trúc hình học của các mẫu bề mặt tại một số quy mô không gian, và các tính chất phản xạ bề mặt, thường đặc trưng bởi chức năng phân phối hai hướng phản xạ (BRDF) [24] và các biến thể của nó [9, 16, 26]. Một số kỹ thuật đã được phát triển mà có thể ước tính các thông số của một mô hình BRDF từ một bộ ảnh, theo giả định hạn chế của ánh sáng, hình học và các thuộc tính vật chất [10, 11]. Chẳng hạn, nhận dạng khuôn mặt đã thu hút nhiều nỗ lực nghiên cứu [1, 3, 4, 5, 6, 8, 12, 13, 14, 4 15] do sự tiến bộ của kí hiệu nhận dạng cục bộ [17, 21, 23, 25, 27, 29, 31, 32] và nhu cầu ngày càng cao của thực tế ứng dụng, chẳng hạn như mặt gắn thẻ vào máy tính để bàn [33] hay các Internet 1 . Ở đây, tập trung vào nhận dạng mức cao hình ảnh loại vật liệu: như con người, thủy tinh, kim loại, vải, nhựa hoặc gỗ. Các tính chất phản xạ của vật liệu thường được tương quan với thể loại cao cấp của nó (ví dụ như thủy tinh thường là mờ và gỗ thường có màu nâu), và trong công việc này, sẽ khai thác những đặc tính tương quan. Tuy nhiên, điều quan trọng là chỉ ra rằng chỉ biết các tính chất phản xạ của một bề mặt không đủ để xác định loại vật liệu. Ví dụ, một thực tế là một bề mặt mờ là không cho biết nếu nó được làm bằng nhựa, sáp hoặc thủy tinh. Hình 1a: Hình ảnh vật liệu cần nhận dạng 5 Hình 1b: Hình ảnh khuôn mặt con người cần nhân dạng 2. Một số phương pháp nhận dạng Những yêu cầu này đưa đến một vấn đề đầy thử thách. Hiện nay, phương pháp tiếp cận dựa trên mô tả [5, 13, 34] đã được chứng minh là xác định điểm đại diện trên hình ảnh là hiệu quả với nhất hiệu suất tốt nhất [35, 36, 37]. Ahonen et al. [38] đề xuất sử dụng các biểu đồ mẫu nhị phân cục bộ (LBP) [23] để mô tả vi điểm cấu trúc của hình ảnh. LBP mã hóa mức độ cường độ tương đối giữa mỗi pixel và điểm ảnh lân cận. Nó là bất biến để thay đổi thuô ̣ c về trắc quang đơn điệu và có thể được chiết xuất có hiệu quả. Kể từ khi LBP là mã hóa bởi một thiết kế thủ công, nhiều LBP tương tự [34, 14, 40] đã được đề xuất để cải thiện LBP gốc. SIFT [21] hay Histogram của Gradient (HOG) [17] là các loại kí hiệu nhận dạng hiệu quả bằng cách sử dụng mã hóa thủ công. Các yếu tố nguyên tử trong các kí hiệu nhận dạng có thể được xem như là mã lượng tử của các gradients hình ảnh. Về cơ bản, phương pháp mã hóa khác nhau và miêu tả phải cân. Tuy nhiên, các phương pháp mã hóa bị hai nhược điểm. Một mặt, phương pháp mã hóa tối ưu là rất khó khăn. Thông thường, sử dụng nhiều điểm ảnh theo ngữ cảnh (kích thước vector) có thể tạo ra một mã số phân biê ̣ t hơn. Nhưng nó không dễ để tự thiết kế một phương pháp mã hóa và xác định kích thước để đạt được sự cân bằng codebook hợp lý giữa nhận diện đúng và tính thô trong một không gian vào lớn. Một số mã hiếm khi có thể xuất hiện trong hình ảnh khuôn mặt thực tế. Nó có nghĩa là các biểu đồ mã kết quả sẽ được ít hơn và ít thông tin, làm giảm khả năng mô tả biệt thức. Nhận dạng loại vật liệu cao cấp trong các hình ảnh khác với các vấn đề cũng như các đối tượng nghiên cứu của nhận dạng. Mặc dù đôi khi được nhận dạng đối tượng tiên 6 đoán của thể loại vật chất, một lớp các đối tượng có thể được làm bằng vật liệu khác nhau (xem hình 2) và các lớp khác nhau của các đối tượng có thể được làm bằng chất liệu tương tự (xem hình 1). Vì vậy, nhiều tiến bộ gần đây trong nhận dạng đối tượng như hình dạng ngữ cảnh [2], phát hiện đối tượng [7] và chuyển giao nhãn [19] có thể không được áp dụng để nhận dạng tài liệu. Trong thực tế, hầu hết các đối tượng hệ thống nhận dạng dựa vào vật chất bất biến tính năng và có xu hướng bỏ qua các thông tin vật liệu hoàn toàn. Hình 2: Những màu sắc khác nhau cho thấy các kết cấu/loại vật liệu. Chất liệu nhận dạng là liên quan chặt chẽ, nhưng khác nhau từ, nhận dạng kết cấu. Kết cấu đã được định nghĩa trong thành phần kích thước giống như chu kỳ, orientedness, và ngẫu nhiên [20]. Nó có thể là một thành phần quan trọng của sự xuất hiện vật chất, ví dụ: gỗ có xu hướng có kết cấu khác biệt với những kim loại đánh bóng. Tuy nhiên, như minh họa trong hình 3, bề mặt làm bằng chất liệu khác nhau có thể chia sẻ các mẫu kết cấu giống nhau và như là một hậu quả, cơ chế thiết kế cho nhận dạng kết cấu [18, 30] có thể không được lý tưởng cho sự công nhận vật chất. Chất liệu nhận dạng cũng khác nhau từ BRDF dự toán. Sự xuất hiện hình ảnh của các vật liệu như gỗ hoặc da, đã được làm mẫu về chức năng phân phối hai hướng phản xạ (BRDF) [10, 22] và đại diện liên quan như BTF [9] và BSSRDF [16]. Chất liệu nhận dạng có thể có vẻ tầm thường nếu BRDF được biết đến, nhưng nói chung, nó gần như không thể ước tính BRDF từ một hình ảnh duy nhất mà không cần đơn giản hóa các giả định [10, 11]. 4. Một số kết quả thực nghiệm 7 4.1. Kết quả trên điểm chuẩn LFW Chúng tôi trình bày kết quả công nhận của chúng tôi trên LFW ở dạng đường cong ROC. Hình 3 cho thấy kết quả so sánh các đề xuất của chúng tôi. Trong hình 3, "đơn LE + toàn diện" có nghĩa là chúng tôi chỉ sử dụng duy nhất LE tốt nhất để đại diện cho bộ mặt tổng thể, và nó là cơ sở để cho thấy sức mạnh của LE mà không có các kỹ thuật khác. "Single LE + comp" chỉ áp dụng mức thành phần, pose-thích ứng với đường cơ sở duy nhất LE. Nhiều kí hiệu nhận diện LE được kết hợp để tạo thành "đa LE + toàn diện". Và "đa LE + comp" là biểu diễn của chúng tôi tốt nhất. Các độ chính xác cho các bốn phương pháp được 81,22% ± 0,53%, 82,72% ± 0,43%, 83,43% ± 0,55% và 84,45% ± 0,46%. Mặc dù khả năng biệt thức mạnh mẽ của LE mô tả chính nó, kết hợp các tư thế, thích nghi và kết hợp nhiều mô tả nâng cao hơn nữa hiệu quả hoạt động công nhận hệ thống của chúng tôi. Hình 3: Chứng minh tác dụng của kỹ thuật điểm chuẩn LFW. 8 Hình 4: Mặt so sánh kết quả nhận dạng trên tiêu chuẩn LFW. Đường cong ROC tốt nhất của chúng tôi là so sánh với kết quả trước của các phương pháp state-of-the-art, như trong hình 4. Trên tiêu chuẩn LFW, hai thuật toán mới cho thấy hiệu suất hàng đầu. Wolf et al. 'S làm việc [31] thông qua nền tảng học bằng cách sử dụng các thông tin nhận dạng trong đào tạo các thiết lập. Kumar et al. [13] đã sử dụng để đào tạo học có giám sát phân loại cao cấp thông qua một khối lượng lớn các hình ảnh đào tạo bên ngoài của các tập dữ liệu LFW. Hai phương pháp [13, 31] đều sử dụng thông tin bổ sung bên ngoài giao thức thử nghiệm LFW. Vì vậy, so sánh với các phương pháp khác (bao gồm cả chúng ta) trong hình 4 là không thực sự công bằng. đào tạo bổ sung dữ liệu hoặc thông tin cũng có thể cải thiện cách tiếp cận khác. Hệ thống của chúng tôi đạt được tốt nhất giao thức thử nghiệm tiêu chuẩn [12]. Quan trọng hơn, công việc của chúng tôi tập trung vào khuôn mặt đại diện cấp thấp, mà có thể dễ dàng kết hợp với các thuật toán trước đó để tạo ra hiệu suất tốt hơn. 9 Bảng 1: Hiệu suất nhận dạng trên các số liệu Multi-PIE. 4.2 Kết quả trên Flickr Materials Database Chúng tôi sử dụng các vật liệu Flickr Materials Database [28] cho tất cả các thí nghiệm được mô tả trong bài báo này. Có mười loại vật liệu trong cơ sở dữ liệu: vải, lá, thủy tinh, da, kim loại, giấy, nhựa, đá, nước và gỗ. Mỗi thể loại có chứa 100 hình ảnh, 50 trong số đó là quan điểm cận và phần còn lại 50 là quan điểm ở quy mô-đối tượng (xem hình 1a). Với nhãn đôi, human-labeled kết hợp với mỗi hình ảnh mô tả vị trí của đối tượng. Chúng tôi chỉ xem xét điểm ảnh bên trong mặt nạ này nhị phân để công nhận tài liệu và bỏ qua tất cả các điểm ảnh nền. Đối với mỗi thể loại, chúng tôi đã chọn ngẫu nhiên 50 hình ảnh cho việc huấn luyện và 50 hình ảnh cho thử nghiệm. Tất cả các kết quả thực nghiệm được báo cáo trong bài báo này được dựa trên cùng một phân tách huấn luyện và thử nghiệm. Tâm tính toán chi phí, chúng tôi lấy mẫu màu, jet, sàng lọc, micro-jet và các tính năng micromicro-sift trên một lưới thô (thứ tự 5 pixel trong cả hai hướng ngang và dọc). Một khi các tính năng được chiết xuất, bằng cách sử dụng cụm K-means theo số lượng các cụm trong Bảng 2. Chúng tôi xác định số lượng các cụm cho từng tính năng, xem xét cả đa chiều và số lượng các trường hợp cho mỗi tính năng. 10 [...]... những ảnh hưởng của tư thế, chiếu sáng, và biểu hiện Mặt khác, LFW là hơn gần các thiết lập cuộc sống thực của nó từ khuôn mặt được lựa chọn từ các hình ảnh tin tức Đối với những lý do này, đào tạo trên một tập dữ liệu và thử nghiệm trên các khác tốt hơn có thể chứng tỏ khả năng tổng quát của một hệ thống công nhận Tương tự như điểm chuẩn LFW, chúng tôi ngẫu nhiên tạo ra 10 tập con của hình ảnh khuôn... từng có 300 trong nội bộ cá nhân và 300 cặp ngoại hình cá nhân Nhận dạng của đối tượng loại trừ lẫn nhau giữa các tập con 10, và qua xác nhận chế độ tương tự như LFW được áp dụng Mặc định “đơn LE” mô tả và “LE nhiều” descriptor được đào tạo trên LFWbenchmark được thông qua trong các thí nghiệm Như thể hiện trong Bảng 1, các LE với đại diện duy nhất phải đối mặt toàn diện nhanh hơn so với các descriptor... trong nhận dạng vật chất Ngoài ra, Sift cũng gói gọn một số thông tin bắt micro-sift Cạnh-slice, mà các biện pháp tính năng phản xạ, cũng là hữu ích Để so sánh, chúng tôi thực hiện và thử nghiệm thuật toán (VZ) VarmaZisserman của [30] trên Flickr Materials Database Các thuật toán VZ cụm 5x5 pixel màu xám quy mô bản vá lỗi là từ mã, có được một biểu đồ các từ mã cho mỗi hình ảnh, và thực hiện nhận dạng. .. vì có một số điểm chung giữa da và vải, nhựa và giấy, cũng như kim loại và kính 4.3 Kết quả trên PIE-Multi Chúng tôi cũng thực hiện thí nghiệm rộng rãi trên tập Multi-PIE để xác minh khả năng tổng quát của phương pháp tiếp cận của chúng tôi Các số liệu Multi-PIE chứa hình ảnh khuôn mặt từ 337 đối tượng, chụp ảnh dưới 15 điểm xem và 19 điều kiện chiếu sáng Sự khác biệt lớn tồn tại giữa LFW và Multi-PIE,... và thực hiện nhận dạng bằng cách sử dụng một phân loại hàng xóm gần nhất Theo một kiểm tra đúng đắn, chúng tôi chạy thực hiện VZ trên cơ sở dữ liệu CURET và thu được 96.1% (số của họ là 95%~98%, [30]) Tiếp theo, chúng tôi chạy hệ thống VZ chính xác được thử nghiệm trên CURET trên Flickr Materials Database Tốc độ thử nghiệm VZ là 23.8% Điều này hỗ trợ các kết luận rằng Flickr Materials Database là khó...Bảng 2: Kích thước, số lượng các cụm và số trung bình tính năng cho mỗi hình ảnh Sự gia tăng về hiệu suất từ những tính năng tốt nhất đơn (SIFT, 35.4%) để tính năng tốt nhất Thiết lập (màu + SIFT + cạnh-slice, 44.6%) là do mô hình của chúng tôi rằng gia tăng aLDA từ thị giác Thật thú vị, gia tăng thêm nhiều tính năng làm giảm hiệu suất tổng thể Khi... Như thể hiện trong Bảng 1, các LE với đại diện duy nhất phải đối mặt toàn diện nhanh hơn so với các descriptor thường được sử dụng nhiều hơn 5 điểm, và phân loại cụ thể đặt ra-đào tạo trên dataset LFW cũng performwell trên dataset theMulti-PIE Tất cả các kết quả này chứng minh khả năng khái quát tuyệt vời của chúng tôi hệ thống 12 TÀI LIỆU THAM KHẢO [1] M Guillaumin, J Verbeek, C Schmid, I LEAR, and . hoặc thủy tinh. Hình 1a: Hình ảnh vật liệu cần nhận dạng 5 Hình 1b: Hình ảnh khuôn mặt con người cần nhân dạng 2. Một số phương pháp nhận dạng Những yêu. Nhận dạng loại vật liệu cao cấp trong các hình ảnh khác với các vấn đề cũng như các đối tượng nghiên cứu của nhận dạng. Mặc dù đôi khi được nhận dạng đối