Một số phương pháp nhận dạng văn bản và hình ảnh

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 29 - 30)

Để nhận dạng văn bản và hình ảnh trong ảnh tài liệu hỗn hợp, người ta có thể áp dụng riêng lẽ hoặc phối kết hợp giữa một số phương pháp như sau. Phương pháp thứ nhất, có thể phát hiện các đoạn thẳng để phân loại các đối tượng và áp dụng phép biến đổi véc tơ hóa của ảnh tài liệu. Phương pháp thứ hai, sử dụng các phép biến đổi hình thái như phép co ảnh, giãn ảnh. Từ phép biến đổi này thì các đối tượng tuyến tính sẽ được phát hiện và trích xuất ra trước, những đối tượng đối ngẫu với hình ảnh sẽ được quan niệm là văn bản và sẽ được trích ra sau. Phương pháp này lại gặp rắc rối khi mà phải xử lý những ảnh đầu vào với những ký hiệu, biểu tượng và hình ảnh phức tạp. Phương pháp thứ ba, là người ta xây dựng các quy tắc để từ đó làm căn cứ xác định được các thành phần liên thông. Sau khi định vị được một thành phần liên thông, người ta sẽ xếp nó vào một lớp nào đó để tiếp tục xử lý và trả về kết quả đó là chuỗi văn bản hay là một hình ảnh. Như đã có trình bày trong phần 1.6 của bài luận này, nhóm tác giả Fletcher và Kasturi đã đề xuất một thuật toán khá nỗi tiếng dựa trên phương pháp này. Theo đó hai tác giả đã chứng minh được rằng thuật toán có khả năng phân tích thành hai lớp đối tượng riêng biệt kể cả trong môi trường ảnh với nhiều đối tượng phức tạp. Song họ cũng chỉ ra rằng việc ảnh đầu vào có sự kết dính đối tượng văn bản với hình ảnh vẫn còn là vấn đề khó khăn đối với thuật toán. Chương này của bài luận chú trọng trình bày và tổng hợp thuật toán phát hiện văn bản và hình ảnh dựa trên ý tưởng của phương pháp thứ ba. Trên cơ sở lý thuyết của chương 1, sẽ dựa vào những tính năng khác nhau của mỗi loại hình đối tượng để làm căn cứ phân tích các thành phần liên thông. Trong đó chú trọng tìm kiếm các vùng được quan niệm là vùng hình ảnh và xếp các sản phẩm tìm được vào lớp hình ảnh. Sau đó mới định vị các vùng đối ngẫu và những vùng đối ngẫu này sẽ được phát hiện là vùng văn bản. Thuật toán có thể phát hiện được chữ viết Trung Quốc, chữ viết Phương Tây trong ảnh tài liệu có chứa hỗn hợp của

văn bản và hình ảnh. Mặc dù thuật toán này có thể xử lý trường hợp kết dính văn bản với văn bản hoặc kết dính văn bản với đối tượng hình ảnh trong một chừng mực nhất định, nhưng nó cũng bị hạn chế khi gặp phải những ảnh tài liệu có quá nhiều tính năng đặc thù hoặc bị quá nhiều điểm nhiễu. Điều quan trọng là cách làm này sẽ phân định được hai lớp văn bản và hình ảnh riêng biệt làm dữ liệu đầu cuối cho những hệ thống nhận dạng phù hợp thông qua việc xử lý ở mức điểm ảnh (pixel level) và thực hiện quá trình tìm xương và véc tơ hóa.

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 29 - 30)