Nhận dạng đối tượng ảnh là một chủ đề quan trọng trong phân tích trang tài liệu ảnh vì các thành phần của ảnh luôn đi kèm với văn bản, các sơ đồ biểu diễn, lô gô của công ty xuất hiện trong đầu thư, và các đường kẻ phân cách các ô trong bảng. Các đối tượng ảnh được nhận dạng là các ảnh xuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu. Chúng ta cũng có thể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đối tượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong sơ đồ kỹ thuật, biểu đồ nghiệp vụ, bản đồ, vân tay .v.v.. Mục đích của việc nhận dạng đối tượng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh.
Khi mà tài liệu hầu như được xử lý và tạo ra bằng máy tính thì việc phân tích tài liệu ảnh càng trở nên quan trọng. Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng đối tượng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn cần nghiên cứu đối với lĩnh vực này.
Trong vấn đề nhận dạng đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh. Một thuật toán được áp dụng để tách riêng các
thành phần văn bản nằm trong vùng ảnh được Fletcher đề xuất [14]. Đó là phương pháp dựa trên biến đổi Hough, sử dụng một đặc điểm đó là các thành phần văn bản thường nằm trên đường thẳng. Sau khi văn bản được tách ra, các đặc trưng khác cũng được trích ra từ ảnh bao gồm các đường kẻ thẳng, các đường cong, các vùng tô. Sau khi trích chọn đặc trưng, kỹ thuật nhận dạng theo mẫu được áp dụng, cả phương pháp nhận dạng mẫu theo cấu trúc xác định độ đo tương tự của các đặc trưng được trích ra so với các đặc trưng mẫu sử dụng hình vẽ và phương tiện thống kê, lẫn phương pháp nhận dạng mẫu theo cú pháp dựa vào ngữ cảnh và quy tắc ngữ pháp (từ vựng). Sau khi thực hiện quy trình xử lý trung gian này, các đặc trưng được tập hợp lại vào một thực thể với một vài ý nghĩa phụ thuộc vào miền nhận dạng riêng của ứng dụng. Kỹ thuật sử dụng ở đây bao gồm đối sánh mẫu, giả thuyết, đánh giá và dựa trên tri thức. Đối tượng ảnh được lấy ra đôi khi là khác nhau tuỳ thuộc vào miền ứng dụng của bài toán. Chẳng hạn một đường kẻ thẳng có thể là một đối tượng đường trên bản đồ và cũng có thể là đường dây nối trong sơ đồ mạch điện.
Phần lớn các sản phầm hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất cả những hệ thống nhận dạng, phân tích ảnh.