Thiết lập các tham số

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 45)

Các bước thực hiện của thuật toán phân tách văn bản - ảnh đã được mô tả ở trên. Dễ dàng nhận thấy một điều rằng phương pháp dựa trên quy tắc này cần tới 9 tham số ngưỡng để phân tách chuỗi văn bản và ảnh. Việc thiết lập các tham số này sẽ ảnh hưởng tới tính hiệu quả của thuật toán. Mỗi một tham số có thể thiết lập một cách riêng rẽ hoặc thiết lập dựa trên một vài thuộc tính của tài liệu ảnh. Thông qua kết quả thực nghiệm của một số tài liệu ảnh chuẩn, việc thiết lập các thông số này đạt hiệu quả hơn nhiều. Trong luận văn này những tham số dưới đây được thiết lập dựa trên [28] và kết quả thực nghiệm 4.1 được trình bày ở phần cuối của luận văn:

T1 = 1.5*Hav; T2=0.3; T3 =5.5; T4 = 0.35*Hav; T5 = 0.6*Hav; T6 = 0.4; T7 = 0.7*Hav; T8 = 0.25*Hav; T9 = 5;

Ngoại trừ các tham số T2, T3, T6 và T9, tất cả các tham số còn lại đều phụ thuộc vào Hav, Trong đó Hav là độ cao trung bình của ký tự được tính theo số điểm ảnh. Điều đó có nghĩa là chỉ cần một giá trị, Hav, để thiết lập các tham số. Hav có thể được thiết lập bằng tay hoặc được tính tự động bằng cách sử dụng phương pháp Histogram như trong [31]. Trong thực nghiệm được trình bày ở phần 4.1 Hav được thiết lập bằng tay. Việc lựa chọn độ cao trung bình của ký tự làm tham số sẽ rất thuận lợi cho ứng dụng và đặc biệt hiệu quả đối với các tài liệu ảnh kỹ thuật. Việc chọn tham số như vậy không những đảm bảo tính hiệu quả của thuật toán mà còn đáp ứng được tính khách quan của tài liệu được đưa vào.

2.4. Kết luận chƣơng

Chương này đã trình bày một thuật toán phân tách văn bản và ảnh một cách hiệu quả. Thuật toán sẽ hoạt động tốt và hiệu quả ở một số khía cạnh sau:

1. Nó có thể phân tách ảnh và văn bản trong trường hợp 2 đối tượng này tiếp xúc với nhau, điều này dường như có thể rất khó với các thuật toán khác, chẳng hạn như [34].

2. Có thể nhận dạng khá tốt các ký tự của Trung Quốc. 3. Việc xác định hướng của văn bản là rất dễ dàng.

4. Phần lớn các tham số đều được tính qua đại lượng Hav, đại lượng này cho phép có thể thay đổi được. Điều này giúp cho thuật toán khá là thuận tiện. Kết quả ảnh thu được của thuật toán cũng sẽ không bị ảnh hưởng lớn vào Hav khi mà giá trị Hav nằm trong một khoảng giá trị là độ cao trung bình của một ký tự.

5. Thuật toán cũng sẽ không bị ảnh hưởng khi ảnh có nhiều điểm nhiễu.

Tuy nhiên cũng sẽ dễ dàng nhận thấy thuật toán cũng còn một số điểm hạn chế. Chúng ta có thể tóm tắt lại các loại lỗi mà thuật toán gặp phải như sau:

1. Khi mà độ đậm đặc của đối tượng ảnh quá cao hay độ đậm đặc của vùng văn bản thấp sẽ dẫn đến nhận dạng nhầm đối tượng ảnh là văn bản.

2. Đôi khi một phần của hình tròn lại được tách ra thành một đối tượng của văn bản bởi vì thuật toán xác định và xoá các thành phần tuyến tính gặp phải lỗi vì không loại bỏ được thành phần này.

3. Một số ký hiệu văn bản đặc biệt như “.”, “1”, “l” hoặc “I” hay các đường kẻ gạch ngang thường cho kết quả không tin cậy.

4. Đối với sơ đồ có các hình mũi tên, thông thường thuật toán sẽ không chuyển được các hình mũi tên theo chiều ngang và chiều dọc.

5. Nếu hai chuỗi ký tự được đặt song song và đặt quá gần nhau, chúng có thể được nhóm lại như là một chuỗi ký tự. Bởi vì thuật toán sẽ sự dùng hình bao chữ nhật để trích ra các ký tự, vì vậy tất cả các thành phần nằm trong hình bao sẽ được hiểu là một thành phần văn bản. Lỗi sẽ xảy ra khi có một vài thành phần của đối tượng ảnh nằm trong hình bao đó.

Dù vẫn còn một số hạn chế trong việc nhận dạng một số đối tượng nhưng có thể khắc phục được vấn đề này dựa vào việc điều chỉnh tham số. Hơn thế nữa trong một số tình huống việc thực hiện chuyển tất cả các thành phần tuyến tính thoả mãn điều kiện sang thành đối tượng ảnh có thể để lại những điểm ảnh rời rạc thuộc đối tượng ảnh mà các bước thực hiện sau này không có khả năng nhận dạng chúng là đối tượng ảnh, chẳng hạn như một phần các hình mũi tên như trong phần thực nghiệm của Hình 37. Do đó có thể tiếp cận theo một phương pháp mới đó là khi nhận dạng một đối tượng là tuyến tính thoả mãn điều kiện T1 thì sẽ thực hiện thao tác dò biên để xác định hình bao của đối tượng đó và thực hiện chuyển toàn bộ hình bao đó sang đối tượng ảnh. Phương pháp này sẽ hiệu quả trong việc chuyển toàn bộ được những thành phần thuộc đối tượng ảnh mà không bỏ xót những phần rời rạc, tuy nhiên nó cũng có hạn chế là trường hợp ký tự tiếp xúc với đối tượng ảnh thì ký tự đó được coi là một thành phần thuộc đối tượng ảnh. Tuy nhiên hạn chế này có thể khắc phục bằng thực hiện phép toán hình thái để loại bỏ trường hợp ký tự tiếp xúc với ảnh.

Tóm lại một thuật toán phân tách văn bản và ảnh hiệu quả từ tài liệu ảnh kỹ thuật đã được trình bày ở trên. Dựa trên sự phân tích những đặc trưng khác nhau của các đối tượng ảnh và văn bản, thuật toán sẽ điều chỉnh với những sự thay đổi về kiểu ký tự, kích thước ký tự, loại ảnh và hướng của chuỗi ký tự trong văn bản. Thuật toán có khả năng nhận dạng các ký tự Trung Quốc, ký tự La tinh, ký tự Tiếng Việt và một số ký hiệu đặc biệt khá thành công. Nó có một số hạn chế đối với ảnh có các cấp độ nhiễu khác nhau và có khả năng phân tách với trường hợp văn bản và ảnh tiếp xúc nhau. Nếu được cải tiến ở tốc độ xử lý và xây dựng cách tính tham số hợp lý thì thuật toán sẽ thích hợp trong việc sử dụng để viết những ứng dụng nhận dạng trong văn phòng như OCR, CAD/CAM.

CHƢƠNG 3

THUẬT TOÁN TÁCH BẢNG T-RECS 3.1. Giới thiệu

Ngày nay mục tiêu của một hệ thống nhận dạng quang học (OCR) đã tiến xa hơn rất nhiều, không chỉ là những phép chuyển đổi đơn giản một tài liệu ảnh sang một tài liệu văn bản bao gồm các từ mà hơn thế nữa nó còn tập trung vào việc xác định đúng những cấu trúc đặc trưng trong tài liệu. Trong khi một số hệ phân tích cấu trúc tập trung vào xác định tính logíc của các đối tượng trong một số miền giới hạn như nhận dạng mẫu viết thư [20], một số khác lại đi vào tập trung nhận biết một số cấu trúc phổ biến như đoạn văn bản, dòng tiêu đề hay danh sách.

Mục đích của những hệ thống nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thành một tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại [21]. Do đó việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ra những cấu trúc đi kèm với từng nội dung đó.

Khi đề cập đến vấn đề nhận dạng cấu trúc trong các tài liệu có chứa dữ liệu bảng biểu sẽ có hai hướng tiếp cận khác nhau: cách tiếp cận thứ nhất đó là xác định chính xác cấu trúc của bảng, bao gồm các ô trong bảng, cách này thường được gọi là phân

đoạn hay nhận dạng cấu trúc. Cách thứ hai là dựa vào hình dạng bất kỳ của các khối

đã được sắp xếp và đưa tập các đối tượng trong các khối về một cấu trúc bậc cao hơn. Quá trình này được gọi tên là gán nhãn lôgíc, phân tích cấu trúc hay phân tích sơ đồ trình bày.

Tìm hiểu những phướng pháp nhận dạng cấu trúc bảng đã có trước đây đều cho thấy một điểm giống nhau, đó là các phương pháp này đều nhận dạng ra cấu trúc bảng bằng xác định ra các dấu hiệu phân cách, có thể là các khoảng trắng, các đường kẻ. Chẳng hạn như Rus và Summers [22] mô tả một hệ nhận dạng cấu trúc bảng có khả năng xác định được bảng mà các cột cách nhau một khoảng hẹp sử dụng WDG. Trong khi đó một số phương pháp khác lại dựa vào độ rộng thích hợp của khoảng trắng giữa hai cột để nhận dạng [23].

Một số phương pháp khác xác định cấu trúc của bảng bằng quy tắc các đường kẻ. Một trong số đó là mô tả của Green và Krishnamoorthy [24], các ông đã áp dụng phân tích vị trí của các đường kẻ để đưa ra cấu trúc của bảng, hay Itonori [25] chỉ quan tâm đến khía cạnh các nhãn và các khối sau khi phân đoạn làm dữ liệu đầu vào, hay Hirayama [26] sử dụng phương pháp DP matching. Còn Chandran và Kasturi thì xem xét cả hai (quy tắc các đường kẻ và các khoảng trắng) để xác định cấu trúc của bảng.

Tư tưởng cốt lõi trong phương pháp sẽ trình bày dưới đây đó là không xem xét đến bất cứ một loại đường phân cách nào để xác định bảng mà sẽ đi vào nhận biết các từ trong cùng một khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vào trong cùng một khối). Chúng ta sẽ không đi tìm những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo phương pháp tiếp cận dưới lên (bottom - up).

Một điều dễ nhận thấy ngay từ phương pháp này đó là chúng ta sẽ không phụ thuộc vào kiểu của đường thẳng được vẽ trong bảng nếu có hay là các khoảng trắng đủ rộng giữa các khối để nhận dạng cấu trúc của bảng.

Đầu vào của thuật toán là tập hợp các hình bao chữ nhật của các từ trong một đoạn văn bản. Đầu ra là các cột, các dòng, các ô của bảng nếu tồn tại môi trường bảng trong đoạn văn bản. Thuật toán sẽ cần các bước tiền xử lý như nhận dạng các dòng văn bản của trang tài liệu, hình bao chữ nhật các từ trên từng dòng văn bản và nhận dạng các đoạn văn bản khác nhau. Từ đó có nhận dạng môi trường bảng trên từng đoạn văn bản của trang tài liệu.

Chương này sẽ mô tả toàn bộ chức năng của thuật toán T-Recs, phần đầu mô tả thuật toán phân đoạn khởi tạo - phần cốt yếu. Đầu tiên luận văn sẽ trình bày thuật toán phân đoạn khởi tạo do Thomas G. Kieninger [15] đề xuất và sau đó chỉ ra những trường hợp hạn chế của thuật toán phân đoạn. Tiếp theo luận văn sẽ trình bày thuật toán phân đoạn cải tiến (T-Recs++) để có thể nhận dạng chính xác các cột dữ liệu tồn tại trong một bảng.

Những ưu điểm và hạn chế của thuật toán cũng được chỉ ra trong phần đầu của chương. Phần tiếp theo trong chương này luận văn sẽ chỉ ra một số bược xử lý sau khi (adsbygoogle = window.adsbygoogle || []).push({});

phân đoạn (postprocessing) để khắc phục những hạn chế của thuật toán phân đoạn khởi tạo.

Phần cuối của chương luận văn mô tả việc phân tích các cột được nhận dạng thành các dòng và các ô trong bảng để đưa ra được cấu trúc chính xác của bảng.

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 45)