Các kỹ thuật phân vùng trang văn bản

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 34 - 39)

2.2 Các kỹ thuật thƣờng đƣợc sử dụng trong nhận dạng cấu trúc biểu

2.2.2.2.Các kỹ thuật phân vùng trang văn bản

Phần này mô tả các thuật toán chỉ sử dụng việc phân vùng văn bản thành các vùng đồng nhất, không sử dụng việc phân lớp theo các khối.

2.2.2.2.1 Các kỹ thuật làm loang.

Thuật toán Run Length Smearing Algorithm (RLSA) đƣợc đề xuất bởi Wong [63]. Ảnh đầu vào phải sạch và đã đƣợc chỉnh độ nghiêng. Các phép toán của thuật toán dựa vào sự liên kết của các chuỗi điểm ảnh, ví dụ nhƣ là các dòng và các cột ...Một chuỗi x bao gồm các số 0 và 1 đƣợc biến đổi vào trong chuỗi y theo các quy tắc sau :

 Các số 0 trong x đƣợc biến đổi thành 1 trong y nếu số lƣợng các số 0 liên tiếp nhau nhỏ hơn hoặc bằng ngƣỡng C cho trƣớc.

 Các số 1 trong x không thay đổi trong y.

Kết quả của phép biến đổi này là các vùng đen là hàng xóm gần nhất của nhau thì luôn cách nhau nhỏ hơn hoặc bằng C điểm ảnh. Bậc của kết nối phụ thuộc vào giá trị của C và sự phân tán của các điểm trắng và đen trong toàn trang văn bản, với độ phân giải cụ thể nào đó. RLSA có thể ứng dụng cho các dòng và cho các cột của các trang văn bản. Đối với các ảnh có độ phân giải 240 dpi, giá trị ngƣỡng của vệt loang theo chiều ngang và theo chiều dọc là khác nhau : Ch= 300, Cv = 500. Các ảnh đƣợc kết hợp bởi toán tử AND và phép toán làm mịn theo chiều ngang, sử dụng ngƣỡng Ch = 30. Hàm phân vùng của RLSA cho các vùng ký tự mô tả bởi các khối

37

nhỏ, tƣơng ứng với các dòng ký tự. Thuật toán chạy nhanh nhƣng có một số giới hạn : giá trị các ngƣỡng là một tập hợp ƣu tiên, nó chỉ có thể ứng dụng cho các văn bản có cấu trúc hình chữ nhật. Để xác định ra các khối hình chữ nhật, một bƣớc xử lý tiếp theo đƣợc thực hiện. Kết quả của thuật toán RLSA là rất tôt và thú vi, vì dễ thực hiện và có nhiều ứng dụng.

2.2.2.2.2 Các kỹ thuật dựa vào phép chiếu.

Một trong những thuật toán phân vùng trang phổ biến nhất là thuật toán Cut X-Y đệ quy, RXYC. Thuật toán đƣợc áp dụng cho ảnh nhị phân sạch, đã đƣợc khử nghiêng. Thuật toán RXYC thực hiện phân chia đệ quy trang văn bản thành hai hay nhiều hơn các khối hình chữ nhật mà đƣợc trình diễn thông qua đỉnh của một cấu trúc hình cây. Trong từng bƣớc đệ quy, phép chiếu đƣợc thực hiện theo chiều dọc và chiều ngang. Việc phân vùng của từng khối đƣợc thực hiện thông qua xem xét các vết lõm trong hình phổ của phép các phép chiếu : độ rộng của vệt lõm lớn hơn một ngƣỡng cho trƣớc. Các ngƣỡng này có thể là khác nhau ở từng bƣớc của quá trình đệ quy và phụ thuộc vào những hiểu biết về lớp văn bản. Thông tin về sự ƣu tiên là cần thiết liên quan đến việc định nghĩa điều kiện dừng của sự đệ quy. Kỹ thuật này chỉ ứng dụng đƣợc cho các trang văn bản có cấu trúc có thể phân tích thành chuỗi các thành phần con theo chiều dọc hoặc theo chiều ngang.

Nhiều tác giả khác cũng sử dụng thuật toán RXYC nhƣng có một số thay đổi. Wang và Srihari [65] so sánh cách tiếp cận RLSA với RXYC. Thuật toán RXYC đƣợc lựa chọn cho việc phân vùng cho các trang báo. Nagy [66,67] đƣa ra một cách tiếp cận từ trên xuống, trong đó có sự kết hợp của phân vùng cấu trúc và hàm gán nhãn. Việc phân vùng dựa trên thủ tục RXYC và đƣợc chỉ dẫn bởi những đặc trƣng biết trƣớc của cấu trúc trang. Một thuật toán huấn luyện về phân vùng trang dựa vào kỹ thuật RXYC đƣợc trình bày bởi Sylwester và Seth [68].

Các khối cột lớn nhất có thể là kết quả của thuật toán phân vùng do Pavlidis và Zhou trình bày [69]. Chúng đƣợc định nghĩa nhƣ là các vùng nhỏ của ảnh đầu

38

vào mà chứa đựng một kiểu dữ liệu đơn và có thể phân tách nhau bởi các khoảng trắng thẳng. Các văn bản có độ nghiêng nhỏ, các cột có các góc nghiêng khác nhau (do sự vặn vẹo của văn bản khi in) có thể đƣợc giải quyết. Thuật toán dựa trên việc phân tích hình phổ của phép chiếu theo chiều dọc, nhƣ là tất cả các khối nhỏ liên tục của các đƣờng quét. Độ rộng của các khoảng trắng trong các phép chiếu theo chiều dọc tƣơng ứng với khoảng trống giữa các cột, đƣợc gọi là column interval. Các khối cột đƣợc xây dựng lặp lại bởi sự kết hợp các phần của cáccolumn interval theo các quy tắc sau : là rất khít với hƣớng dọc, có độ rộng tƣơng tự nhau, các phép chiếu theo chiều dọc của chúng đƣợc chứa một trong đối tƣợng khác. Ở bƣớc tiếp theo, một quá trình kết hợp xảy ra cùng với sự tính toán góc nghiêng của các khối kết quả. Với từng khối cột, hƣớng trung tâm đƣợc xác định bằng việc tự thêm vào các điểm trung tâm của culumn interval với một đƣờng thẳng. Sự kết hợp của các khối cột đƣợc thực hiện với các luật tƣong tự nhƣ ở trên và bắt buộc với sự thẳng hàng của các trục trung tâm. Một đặc điểm hay của cách tiếp cận này là nó thể hiện đƣợc sự mềm dẻo của phƣơng pháp từ dƣới lên và cùng một lúc giảm bớt đƣợc sự không hiệu quả của việc sử dụng column interval nhƣ là các phần tử cơ bản của quá trình kết hợp. Sự lựa chon này đảm bảo thuật toán chạy tốt với một số cấu trúc đối tƣợng thay thế cho nhiều đối tƣợng ở mức thấp nhƣ là các điểm ảnh, các thành phần liên thông hay kết nối. Một giới hạn của thuật toán là trong trƣờng hợp các ký tự in với kích thƣớc lớn, có thể tạo ra các khối cột bị phân tán do khoảng cách lớn giữa các từ. Do đó, một số tham số nhƣ là độ rộng khoảng trống giữa các cột, cần đƣợc hiệu chỉnh phù hợp với từng văn bản khác nhau.

2.2.2.2.3 Các kỹ thuật phân tích cục bộ dựa vào cấu trúc.

Trong nghiên cứu của Jain và Bhattacharjee [70], quá trình phân tách các vùng ký tự và không ký tự đƣợc xem nhƣ là vấn đề phân vùng cấu trúc. Nghiên cứu này đƣa ra một cách tiếp cận lọc đa kênh để phân vùng cấu trúc. Ý tƣởng cơ bản là các vùng ký tự trong ảnh văn bản định nghĩa một cấu trúc duy nhất mà có thể dễ dàng thu đƣợc thông qua một số nhỏ phép lọc Gabor. Các phép lọc đƣợc ứng dụng

39

trực tiếp cho ảnh đa cấp xám đầu vào. Ở đây không yêu cầu các thông tin ban đầu nhƣ cấu trúc, kiểu font chữ, góc nghiêng... Thuật toán phân vùng cấu trúc thực hiện theo ba bƣớc chính :

1. Lọc ảnh thông qua n phép lọc Gabor. 2. Tính các vectơ đặc trƣng

3. Phân cụm các vectơ đặc trƣng vào K cụm ; toạ độ (x,y) của từng điểm ảnh đƣợc sử dụng nhƣ là các đặc trƣng thêm vào. Một giá trị tiêu biểu của K sử dụng theo kinh nghiệm là 3 để có thể phân chia thành ba loại cấu trúc :

a. Vùng ký tự b. Vùng đồng nhất

c. Đƣờng biên giới của các vùng đồng nhất.

Trong trƣờng hợp K = 4 sẽ có nhiều hơn một lựa chọn thích hợp (các ký tự viết tay). Để đánh giá đƣợc các giá trị kinh nghiệm, trong một chế độ phân lớp có giám sát, đối tƣợng phân loại lớp đào tạo (hàng xóm gần nhất trong kinh nghiệm) có thể đƣợc sử dụng cho các ảnh đến sau. Việc lựa chọn n lần lọc cho sự phân cụm đƣợc tối ƣu là một nhiệm vụ tới hạn, trên thực tế các lọc này không đảm bảo kết quả tốt nhất cho tất cả các vấn đề phân vùng.

Tang [71] mô tả một phƣơng pháp tiếp cận phân vùng trang dựa vào chữ ký phân dạng thay đổi (fractal). Ảnh đa cấp xám đầu vào đƣợc coi nhƣ một bề mặt fractal. Vùng bề mặt đƣợc sử dụng nhƣ là một chữ ký fractal (FS) mô tả cấu trúc hình học cục bộ của các vùng khác nhau trong ảnh văn bản. Vùng bề mặt đƣợc định nghĩa với đơn vị đo là δ và giá trị của nó tăng với giới hạn khi δ giảm theo công thức hàm mũ xấp xỉ : Aδ ≈ βδ2-D

, trong đó β là một hằng số và D đại diện cho kích cỡ của fractal. Lấy logarithm cả hai vế, chúng ta có thể thấy rằng kích cỡ của fractal có thể nhìn nhƣ là một độ dốc trong không gian log-log :

40

Do đó, kích cỡ của fractal D có thể tính đƣợc thông qua tính vùng bề mặt tại duy nhất độ đo đơn vị khác nhau, δ1 δ2. Vùng bề mặt tại đơn vị đƣợc xác định bằng cách đếm tất cả các điểm có khoảng cách nhỏ hơn hoặc bằng δ từ bề mặt và chia đôi số điểm này cho . Tác giả chú ý rằng chữ ký fractal có thể đƣợc sử dụng để phân biệt các vùng khác nhau nhƣ là : vùng ký tự, vùng hình ảnh, vùng nền. Chúng phân chia ảnh thành các vùng nhỏ tách rời nhau và phân lớp chúng theo các chữ ký fractal.

2.2.2.2.4 Kỹ thuật phân tích nền cấu trúc.

Normand và Viard-Gaudin [72] trình bày một thuật toán làm mịn 2D cho việc phân tích nền của văn bản, là một mở rộng cơ bản của kỹ thuật RLSA cho hai chiều. Họ đề nghị hai phần tử cấu trúc : hình vuông (square) và hình tám cạnh (octagon), và chọn hình tám cạnh cho nó vì tốt hơn về thuộc tính đẳng hƣớng. Từng điểm ảnh nền đƣợc thay thế bởi một chỉ số, phụ thuộc vào kích thƣớc của phần tử cấu trúc lớn nhất có thể đƣợc thay thế toàn bộ mà không giao nhau với điểm ảnh đối tƣợng . Một cấu trúc cây có thứ bậc đƣợc tính bởi ngƣỡng liên kết với các giá trị giảm khác nhau và giữ dấu vết của các thành phần kết nối đã đƣợc tạo ra. Từng đỉnh của cấu trúc cây thể hiện một vùng của liên kết. Đỉnh gốc thể hiện toàn bộ ảnh văn bản, và đỉnh con của mỗi đỉnh là các thành phần kết nối thu đƣợc bởi ngƣỡng của vùng trong trang văn bản đƣợc thể hiện bởi đỉnh. Các lá của cây tƣơng ứng với các thành phần kết nối của trang văn bản. Cấu trúc này đƣợc sử dụng để thực hiện một cách hiệu quả việc phân vùng của trang văn bản vào các khối. Kết quả này có đƣợc đƣợc nhờ việc lựa chọn các đỉnh liên quan (relevant node) trong cấu trúc cây và việc tách ra các vùng con tƣơng ứng với chúng.

Kise [73] trình bày một phƣơng pháp dựa trên việc làm mảnh (thinning) nền văn bản. Quá trình phân vùng đƣợc thực hiện thông qua việc lựa chọn các thành phần đến sau của các chuỗi mà bao bọc các khối văn bản. Đề xuất của thuật toán nhằm vào việc lọc bỏ các chuỗi không cần thiết và giữ lại các vòng lặp này. Đầu tiên, các chuỗi kết thúc với một điểm ảnh cuối cùng sẽ bị loại bỏ. Các chuỗi còn lại

41 (adsbygoogle = window.adsbygoogle || []).push({});

đƣợc phân tích để loại bỏ những những chuỗi nằm giữa các ký tự và giữa các dòng ký tự, và giữ lại các chuỗi nằm giữa các vùng giống nhau (nhƣ là giữa các cột...). Có hai đặc trƣng đƣợc sử dụng : khoảng cách của các điểm trong chuỗi tới các điểm ảnh đối tƣợng, và đƣợc gọi là độ rộng dòng trung bình sai khác, mà đƣa vào trong các đặc tính của các vùng đối tƣợng liền kề. Quá trình lọc yêu cầu sự điều chỉnh tới hạn của một số ngƣỡng mà phụ thuộc vào các khoảng cách trong ảnh đầu vào. Sự có mặt của các khe rộng giữa các từ hoặc các ký tự có thể tạo ra sai lầm khi phân vùng.

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 34 - 39)