Trong phân tích trang tài liệu ảnh thì n hận dạng đối tượng ảnh là một trong hai chủ đề quan vì các thành phần của ảnh luôn đi kèm với văn bản, các sơ đồ biểu diễn, lôgô của công ty xuất hiện trong đầu thư, và các đường kẻ phân cách các ô trong bảng. Các đối tượng ảnh được nhận dạng là các ảnh xuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu. Chúng ta cũng có thể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đối tượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong sơ đồ kỹ thuật, biểu đồ nghiệp vụ, bản đồ, vân tay .v.v… Mục đích của việc nhận dạng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh.
Phân tích tài liệu ảnh càng trở nên quan trọng hơn khi mà tài liệu hầu như được tạo ra và xử lý bằng máy tính thì việc Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn còn nhiều cơ hội và thách thức đối với lĩnh vực nghiên cứu này.
Trong cá c bướ c xử lý đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh.
Hầ u hế t cá c hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất cả những hệ thống nhận dạng, phân tích ảnh.
Hệ phân tích tài liệu ảnh và cá c thà nh phầ n chung đã đượ c mô tả tổ ng quan trong chương nà y . Trong đó đã trình bày các bước chính trong quá trì nh xử lý ả nh từ khi thu nhận ảnh đến khi trích ra được nhữn g thông tin người dùng mong muốn . Trong chương 3 sẽ mô tả chi tiết những thuật toán nhận dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và văn bả n.
CHƢƠNG 3
THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH
3.1. Tổ ng quan về phân tá ch văn bả n – ảnh
Như chú ng ta đã biế t một trang tài liệu ảnh thường chứa đựng các thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo được quét, bản đồ hay các tài liệu được quét từ máy quét. Do đó để lấy ra được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần có các kỹ thuật xử lý phức tạp. Các thuật toán tách văn bản - ảnh giúp chúng ta lấy ra được các thông tin như vậy. Một thuật toán tách văn bản - ảnh sẽ phân tách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh. Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trình bày một thuật toán phân tách văn bản - ảnh hiệu quả. Tư tưởng cơ bản của thuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữ thông tin của vùng này vào lớp các đối tượng ảnh. Các vùng còn lại sẽ thuộc lớp văn bản. Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trực tiếp các vùng văn bản.
Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiều loại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau. Chính vì có sự khác nhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lý theo từng kỹ thuật khác nhau. Hơn thế nữa, những yêu cầu cao đối với các kỹ thuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại ký tự Tiếng Anh, ký tự số, ký tự Trung Hoa đòi hỏi phải được nghiên cứu dựa theo những cách thức khác nhau. Chính vì những lý do đó tách các thành phần văn bản và ảnh từ những tệp tài liệu ảnh là một yêu cầu cần thiết đối với máy tính.
Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh được công bố trước đây. Phương pháp được đưa ra trong tài liệu [3] dựa trên khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượng ảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh các đối tượng. Phương pháp trên khá đơn giản nhưng nó sẽ không hiệu quả khi một ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác. Yamada [6] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trong đó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phần còn lại của bản đồ là các đối tượng văn bản. Một trong những phương pháp được biết đến nhiều nhất là của Wong, Casey và Wahl [7], được điều chỉnh và cải tiến trong [2] Tuy nhiên, một số chứng minh cho thấy phương pháp trên chỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trên các tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệu quả. Một vài phương pháp dựa trên các khoảng trắng [15]. Phương pháp được biết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh được đưa ra trong [4]. Phương pháp này dựa trên việc phân tích các thành phần liên thông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùng một chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh. Phương pháp hoạt động hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ và hướng văn bản.
Tấ t cả các phương pháp được giới thiệu ở trên hoạt động dựa trên các trang tà i liệ u ả nh thỏ a mã n các yêu cầ u sau:
- Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán.
- Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượng ảnh. Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang hay
chiều dọc. Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽ khó hơn.
- Văn bản phải không chứa các kiểu ký tự Trung Hoa [16].
Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ở trên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứng dụng. Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớn tài liệu ảnh trên giấy sang định dạng của CAD/CAM. Tuy nhiên những loại tài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếp xúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh. Mặc dù có một số thao tác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó là vấn đề thời gian.
Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có thể chia thành ba loại phương pháp cơ bản sau:
1. Sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyến tính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tài liệu, những thành phần còn lại sẽ được coi là văn bản. Phương pháp này đặc biệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [5][14], tuy nhiên nó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn.
2. Tương tự như vậy, một số khác lại đi tìm các đường kẻ để phân loại các đối tượng, dựa vào phép biến đổi véc tơ hoá [12] của tài liệu ảnh.
3. Phương pháp thứ 3 được sử dụng nhiều nhất, dựa trên việc phân tích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc ra xem chúng thuộc lớp đối tượng nào (văn bản hay ảnh) dựa vào một số quy tắc xác định. Một trong những thuật toán nổi tiếng nhất dựa trên phương pháp này được đưa ra bởi Fletcher và Kasturi [4]. Thuật toán này đã chứng minh rằng nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứa
các đối tượng phức tạp. Tuy nhiên thuật toán này vẫn chưa có khả năng phân loại trực tiếp đối tượng văn bản tiếp xúc với đối tượng ảnh.
Một thuật toán phân tách văn bản - ảnh trên những tài liệu ảnh vẽ kỹ thuật dựa trên quy tắc sẽ được trình bày trong chương này. Thuật toán phân tách này dựa trên tư tưởng phương phá p phân tách thứ 3, tức là đi phân tích các thành phần liên thông và dựa vào phân tích các đặc trưng khác nhau của các đối tượng văn bản và ảnh. Chiến lược của thuật toán này đó là cố gắng đi tìm càng nhiều càng tốt các vùng đối tượng ảnh và lưu trữ thông tin của chúng, cách làm này hiệu quả hơn là đi tìm trực tiếp các vùng đối tượng văn bản trước. Thuật toán này có khả năng phân tách được các đối tượng văn bản bao gồm các ký tự Trung Hoa, ký tự Phương Tây, ký hiệu đặc biệt từ loại tài liệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả. Thuật toán cũng có một số hạn chế trong việc nhận dạng một số loại tài liệu ảnh và một số mức độ nhiễu và tuy nhiên nó có khả năng phân tách đối tượng văn bản tiếp xúc với đối tượng ảnh và không phụ thuộc vào kích cỡ kiểu ký tự. Hướng của chuỗi ký tự cũng sẽ được đánh giá. Quá trình làm mảnh ảnh có thể dẫn đến mất thông tin, thuật toán sẽ xử lý ở mức điểm ảnh trước khi quá trình làm mảnh và véc tơ hoá được thực hiện, chính vì vậy mà hai lớp đối tượng ảnh sẽ được lưu lại: một lớp chứa các đối tượng văn bản và lớp kia chứa các đối tượng ảnh. Các loại đối tượng này sẽ được nhận dạng sau đó bằng những hệ thống nhận dạng thích hợp.
Tiế p theo luậ n văn sẽ trì n h bày chi tiết các bước thực hiện của thuật toán: Những đặc trưng chung của một tài liệu ảnh, mô tả các bước để xác định các đối tượng ảnh và tách chúng ra khỏi đối tượng văn bản.
3.2. Những đặc trƣng chung của một tệp tài liệu ảnh
Đối tượng chủ yếu của tài liệu ảnh là văn bản và ảnh nhưng làm để phân biệ t đượ c hai đố i tượ ng trên má y tí nh đặ c biệ t là đố i vớ i ả nh nhị phân
bởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhị phân. Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽ dựa vào phán đoán chủ quan và thống kê. Mặc dù máy tính sẽ rất khó để phân biệt sự khác nhau giống, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựa vào những điều kiện sau:
- Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các từ, ký tự số, ký tự Trung Hoa (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt.
- Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại đường thẳng, đường cong, hay các bức ảnh, sơ đồ, .v.v..
Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản và ảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữa hình bao của vùng văn bản và ảnh được liệt kê dưới đây:
- Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ của các đối tượng ảnh. Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ. Chẳng hạn với kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vào khoảng 2:3.
- Các ký tự văn bản thường nằm trong một chuỗi ký tự. Khoảng cách giữa các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ và thường theo những quy tắc nhất định. Hướng của chuỗi ký tự thường là theo chiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ.
- Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn hơn so với độ đậm của vùng ảnh.
- Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự thường ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài hiếm khi xuất hiện trong nét bút của chuỗi ký tự.
Trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệ xảy ra. Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn bản và ảnh.
Hình 3.1 Vi du vê các đối tượng văn bản và đối tượng ảnh
Hình 3.1 bao gồm hai loại kiểu ký tự: ký tự Trung Hoa và ký tự Tiếng Anh và hình ảnh là một phần của bảng vẽ kỹ thuật . Hình 3.2 biểu diễn tần số xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng cắt ngang qua các đối tượng. Nhìn trên Hình 3.2 sự thay đổi tần số của các nét bút trong văn bản thường cao hơn so với đối tượng ảnh.
a b c d
Hình 3.2 Biểu diễn các điểm ảnh giao nhau
Hình 3.3 chỉ ra một số trường hợp ngoại lệ. Hình 3.3a đưa ra một bức ảnh nhỏ và nhìn giống như một ký tự. Hình 3.3b là một ký tự Trung Hoa rất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các đối tượng ảnh. Hình 3.3c là một đối tượng ảnh có LSD cao. Những ngoại lệ
trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây.
Hình 3.3 Một số trường hợp ngoại lệ
3.3. Thuật toán phân tách văn bản - ảnh
Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên một số quy tắc để xác định các đối tượng ảnh [16], lưu giữ thông tin của chúng và từ đó xác định được các đối tượng văn bản. Các bước thực hiện chính của