2.2 Các kỹ thuật thƣờng đƣợc sử dụng trong nhận dạng cấu trúc biểu
2.2.2.1. Các kỹ thuật phân vùng ký tự
Phần này mô tả các thuật toán phân tách các vùng ký tự trong một trang văn bản, sau đó đƣa vào một cấu trúc có thứ bậc.
2.2.2.1.1 Phân tích thành phân kết nối.
O’Gorman mô tả một thuật toán [39] định vị các dòng ký tự và các khối ký tự trong một trang văn bản có ký tự, bảng biểu hoặc các phép tính. Kỹ thuật này dựa trên việc tính toán phổ của văn bản, goi là docstrum, đã đƣợc mô tả ở các phần xác định độ nghiêng. Bƣớc đầu tiên sẽ lọc bỏ các nhiễu nhƣ là các thành phần nhỏ bé hoặc các lỗ trong các thành phần. Bƣớc tiếp theo, các thành phần kết nối đƣợc phân cụm tuỳ theo khu vục chúng đứng. Bƣớc phân cụm này nhằm mục đích nâng cao hiệu quả của việc tính phổ docstrum. Việc phân tích docstrum giúp chúng ta tính đƣợc khoảng cách các đƣờng thẳng, khoảng cách giữa các ký tự. Khoảng cách giữa các ký tự đƣợc tính nhƣ là khoảng lõm lớn nhất trong lƣợc đồ histogram của khoảng cách d. Khoảng cách giữa các đƣờng thẳng cũng đƣợc xác định thông qua lƣợc đồ histogram với khoảng cách d. Các dòng văn bản thu đƣợc bằng cách kết hợp các thành phần gần nhau nhất trên một đƣờng thẳng. Với từng nhóm, các thành phần trong nhóm đƣợc liên kết với nhau thông qua một đƣờng thẳng tƣơng đối đi qua tâm của mỗi thành phần. Cuối cùng, các khối ký tự đƣợc hình thành bởi việc kết hợp các dòng văn bản song song với nhau mà hoặc là thẳng đứng và chồng lên nhau, hoặc là cộng tuyến với nhau và đóng trong hƣớng song song. Trong khi giải thích của thuật toán này cho rằng nó chỉ có thể ứng dụng cho từng loại văn bản riêng biệt với một hƣớng duy nhất thì tác giả lại cho rằng thuật toán có thể mở rộng cho các văn bản bao gồm nhiều vùng con với các đặc tính khác nhau, các định dạng và hƣớng khác nhau. Tác giả đề xuất nên thực hiện bƣớc phân vùng sau khi đã tích k hàng xóm gần nhất, nhóm các thành phần lại vào trong nhóm.
Hones và Lichter trình bày một thuật toán phân tích trang có thể ứng dụng cho các văn bản có các loại ký tự khác nhau và với nhiều góc nghiêng khác nhau.
31
Các thành phần kết nối của cả nền văn bản cũng nhƣ nội dung văn bản đƣợc chích chọn, nhằm tạo ra cơ sở để xử lý các ký tự bình thƣờng và bất bình thƣờng. Các thành phần kết nối mà quá nhỏ hoặc quá lớn so với kích cỡ trung bình của tất cả các thành phần, sẽ không nằm trong các dòng văn bản. Đối với mỗi thành phần, một danh sách các hàng xóm gần nhất đƣợc xác định; chỉ những đối tƣợng mà có cùng màu sắc mới có thể là hàng xóm của nhau. Thông tin về sự sắp xếp (khoảng cách và góc) của chúng đƣợc giữ lại. Các dòng tạm thời đƣợc tạo ra bắt đầu từ các bộ ba hàng xóm có vị trí và độ lớn xấp xỉ nhƣ nhau. Cũng vẫn sử dụng những điều kiện nhƣ trên, các bộ ba hàng xóm đƣợc mở rộng bằng cách thêm thành phần mới vào biên giới của mình. Một quá trình tạm nhằm mục đích gán lại các thành phần vào trong các dòng và tạo ra các khối từ các dòng văn bản. Việc này đƣợc thực hiện thông qua đánh giá các thông tin về sự song song, sự gần nhau của các thành phần và sự đồng nhất của các khối. Từng thành phần kết nối đƣợc gán nhãn là ký tự hoăc không là ký tự thông qua việc xem xét các đặc tính hình học và sự tƣơng quan của nó trong dòng hay trong khối văn bản mà nó đứng. Cuối cùng, các thành phần ký tự đƣợc nhóm lại vào nhóm các ký tự và các từ cũng đƣợc xem xét lại các thành phần trong nó mà ở lần đánh giá trƣớc bị cho là không phù hợp.
Deforges và Barba [60] mô tả một phƣơng pháp tách ra các ký tự từ một ảnh đa cấp xám hỗn hợp. Không một thông tin cơ sở nào đƣợc tạo ra về hình dáng và độ dốc của các vùng ký tự. Bƣớc cơ bản đầu tiên là tách ra các ứng viên có thể là từ ký tự từ một thể hiện hình chóp đa độ phân giải của ảnh. Các từ có thể đồng thời đƣợc góp vào tròng các dòng và khối văn bản phụ thuộc vào mối tƣơng quan về không gian của chúng và khoảng cách của chúng với nhau. Trong từng khối, các dòng văn bản đƣợc phân cụm bằng cách sử dụng sử dụng một luật về độ dốc và chiều sâu của chúng, nhằm mục đích làm cho khối ký tự đồng nhất hơn. Các ứng viên từ có quan hệ với nhau đƣợc phân tích độc lập: vùng của chúng ở trong ảnh đƣợc nhị phân hoá và một số đặc trƣng đƣợc trích chọn để xác định chúng có phải là ký tự hay không là ký tự.
32
Kỹ thuật Minimum Spanning Tree (MST) đƣợc Dias [52] mô tả, sử dụng MST để xác định hƣớng của các dòng văn bản (chiều dọc và ngang) trong trang văn bản. Thuật toán của Dias sử dụng nhận xét rằng khoảng cách giữa các ký tự là nhỏ hơn khoảng cách giữa các dòng văn bản. Các thành phần kết nối đƣợc xác định và từng thành phần đƣợc bao trùm bởi một hộp chữ nhật vừa khít bao quanh. Các hộp chữ nhật đƣợc xác định sao cho các cạnh của hộp tiếp đều tiếp xúc với các cạnh ngoài cùng của thành phần. Giá trị liên quan đến từng cạnh là khoảng cách nhỏ nhất giữa các hộp mà nó kết nối. Cây spanning nhỏ nhất đƣợc tính. Phần ký tự đƣợc phân vùng bằng cách loại bỏ một số nhánh trong MST và các nhánh này đƣợc lựa chọn bằng việc so sánh các thông tin cục bộ và toàn cục. Các thông tin cục bộ nhƣ là độ dài của nhánh và các đỉnh trong đƣờng kết nối với nhau của hai thành phần thông qua nhánh này. Các thông tin toàn cục là tĩnh, nhƣ là độ dài giới hạn đƣợc tính từ sự phân bố của độ dài các nhánh, độ dài kết nối của tất cả các thành phần trong trang và độ lệch chuẩn của các đỉnh trong kết nối của mỗi thành phần. Điểm mạnh của thuật toán này là khả năng làm việc đƣợc với các khối không phải là hình chữ nhật và không phụ thuộc vào hƣớng của các dòng văn bản (chiều dọc và chiều ngang). Hơn nữa, nó có thể xử lý đƣợc các ký tự kết nối trong vùng văn bản; thực tế quy tắc đƣợc lựa chọn mang lại hiệu quả giữ đƣợc các khoảng cách nhỏ giữa các nhóm ký tự kết nối, khác với khoảng cách đƣợc tính từ tâm của các thành phần. Kết quả thực nghiệm trên 50 mẫu văn bản đã cho kết quả tốt.
2.2.2.1.2 Các kỹ thuật chiếu (projection profile)
Một phƣơng pháp rất đơn giản để phân vùng các dòng văn bản là thông qua phân tích các giá trị tƣơng quan của các đỉnh và đáy của hình phổ phép chiếu văn bản dọc theo góc nghiêng đã đƣợc xác định. Các đỉnh và đáy của hình phổ lần lƣợt thể hiện cho các dòng ký tự và khoảng cách giữa các dòng. Phƣơng pháp này đã đƣợc sử dụng rộng rãi và cho nhiều kết quả tốt. Chú ý rằnghình phổ của một dòng văn bản tƣơng ứng với hai đỉnh có một đáy nhỏ ở giữa.
33
Baird [53] trình bày chi tiết một phƣơng pháp phân tích các cột của vùng ký tự. Cách tiếp cận này có tên là toàn cục tới cục bộ, đƣợc mô tả thông qua định nghĩa của một mô hình tham số về đặc điểm của cột văn bản. Các tham số này sẽ quyết định việc phân tích: các thông tin của một ảnh đầu vào thƣờng là sự phân chia vùng trong nó và các tham số không gian. Thông tin quan trọng nhất liên quan tới các cột văn bản là: các ký tự đƣợc in theo các dòng song song (±0.5 degree) và chúng có chiều ngang (±5 degree), từng dòng ký tự đồng nhất nhau về kích cỡ và các kích cỡ này là biết trƣớc; các ký tự đƣợc in là không bị dính nhau và việc tách các ký tự ra là dễ dàng. Các thành phần kết nối của ảnh văn bản nhị phân đƣợc tách ra. Góc nghiêng đƣợc xác định và chỉnh lại. Một phép chiếu theo chiều ngang của các cột đƣợc phân tích để tách ra các dòng ký tự trong nó. Trong mỗi dòng ký tự, từng ký tự đƣợc tách ra và cho vào các nhóm đã đƣợc phân loại từ trƣớc: nhờ các nhóm phân loại này để có đƣợc các thông tin về các dòng văn bản cơ sở, từ đó tính đƣợc kích cỡ ký tự và vị trí của dòng văn bản. Các ký tự đƣợc kết hợp vào trong các từ thông qua việc xác định giá trị ngƣỡng khoảng cách giữa các ký tự và khoảng cách giữa các từ trong một đoạn văn bản.
Ha [56] đề xuất một phƣơng pháp đơn giản để phân vùng trang văn bản và phân lớp các thành phần vào trong các từ, các dòng và các đoạn văn bản. Phƣơng pháp này dựa trên việc phân tích các phép chiếu theo chiều dọc và chiều ngang của hình bao các thành phần kết nối. Phƣơng pháp này chỉ có thể ứng dụng cho các ảnh văn bản với các yêu cầu: ảnh nhị phân, có chất lƣợng tốt nhƣ không có nhiễu, văn bản đã đƣợc khử nghiêng, các cột tách rời nhau và cuối cùng là có khoảng cách rõ ràng giữa các ký tự, giữa các từ, giữa các dòng ký tự, giữa các khối văn bản....
Parodi và Piccioli [61] mô tả một phƣơng pháp tách các dòng ký tự từ một văn bản phi cấu trúc và có độ nghiêng nhỏ. Cách tiếp cận này dựa vào phân tích phổ phép chiếu của các cột nhỏ theo chiều dọc, các cột trùng lên nhau, mà đƣợc xác định từ ảnh đầu vào. Với từng cột, các vùng mà bao gồm các điểm ảnh nổi bật đƣợc xác định và gọi là các line element. Các line element của các cột nối tiếp nhau đƣợc
34
liên kết với nhau nếu phép chiếu của chúng là trùng lên nhau và có cùng độ sâu. Với từng phần tử, chỉ có duy nhất một liên kết với các phần tử khác thuộc cột khác đƣợc chấp nhận. Danh sách kết quả của các thành phần sẽ thể hiện các ứng cử viên có thể là những đƣờng thẳng ký tự. Độ nghiêng của dòng đƣợc tính thông qua độ dốc của đƣờng thẳng trung tâm của các phần tử. Độ nghiêng của trang đƣợc xác định nhƣ là giá trị trung bình của tất cả độ nghiêng các đƣờng thẳng. Sau đó ảnh văn bản đƣợc xoay lại cho đúng. Hình bao chữ nhật bên ngoài của các ứng cử viên đƣờng thẳng ký tự đƣợc tính toán. Một phép lọc các hình bao này đƣợc thực hiện để loại bỏ các phần tử không phải là vùng ký tự. Số lƣợng các ký tự trong mỗi ứng cử viên dòng ký tự đƣợc xác định thông qua tỉ lệ độ rộng/độ sâu của hình chữ nhật bao quanh. Các hình bao chữ nhật mà có số lƣợng chuyển đổi từ điểm đen/điểm trắng và điểm trắng/điểm đen dọc theo hƣớng của dòng ký tự là không xấp xỉ tƣơng ứng với số ký tự trong dòng cũng sẽ bị loại bỏ. Những ứng viên còn lại chính là những dòng ký tự và đƣợc nhóm vào trong các khối văn bản.
2.2.2.1.3 Kỹ thuật phân tích cục bộ dựa vào kết cấu
Chen [57] mô tả một thuật toán phân vùng để tách ra các từ trong một trang văn bản. Ảnh của trang văn bản có độ phân giải là 150 dpi. Một khối từ đƣợc định nghĩa là một vùng hình chữ nhật mà chứa một từ. Một khối từ đƣợc xác định thông qua một lớp các pixel mà mỗi pixel có thể tính đƣợc số pixel phía sau nó. Việc này đƣợc thực hiện từ một tập hợp các ảnh con nhân tạo có các điểm ảnh liên kết đƣợc gán nhãn, có phải là một khối từ hay không. Một tập hợp n biến đổi đệ quy, từng biến đổi là một cấu trúc phần tử khác nhau, đƣợc áp dụng để đào tạo từ ảnh gốc ra n
ảnh biến đổi. Số điểm ảnh của những ảnh con này đƣợc mô hình bởi các vectơ thể hiện vị trí trong ảnh biến đổi. Xác suất đến sau của từng véctơ trong mỗi khối từ đƣợc tính toán. Bằng cách này, một lƣợc đồ xác suất liên quan đến các ảnh con đƣợc tạo ra. Lƣợc đồ này chính là ngƣỡng để xác định các khối từ. Giá trị của ngƣỡng đƣợc xác định bằng các tính histogram của lƣợc đồ xác suất: sử dụng hàm hồi quy tuyến tính để ƣớc lƣợng các histogram và các giá trị ngƣỡng lựa chọn của
35
các ảnh con trong tập hợp đào tạo. Sự xuất hiện của phần nhô cao hay phần thụt xuống của các ký tự có thể gây ra việc các từ trong các dòng khác nhau có thể đƣợc nhóm vào trong một khối từ. Một bƣớc xử lý để thực hiện việc xác định các khối và tách chúng một cách thích hợp. Bƣớc này phụ thuộc vào việc so sánh độ sâu của khối với độ sâu của khối vƣợt trội trong trang văn bản. Việc phân tách phụ thuộc vào việc xác định các điểm cắt trong phổ phép chiếu của lƣợc đồ xác suất tƣơng ứng với khối.
2.2.2.1.4 Kỹ thuật phân tích cấu trúc nền
Baird [55] mô tả một kỹ thuật phân vùng dựa vào việc phân tích cấu trúc nền của ảnh văn bản, từ đó xác định cấu trúc hình học của trang. Ở phần tiền xử lý ảnh, các thành phần xuất hiện mà quá nhỏ hoặc quá lớn để có thể là ký tự sẽ bị lọc bỏ và ảnh trang văn bản đƣợc chỉnh độ nghiêng. Tất cả các hình bao chữ nhật lớn nhất bao phủ nền nhƣ là các hình chữ nhật trắng mà không thể mở rộng hơn nữa, sẽ đƣợc liệt kê. Một yêu cầu phân cấp đƣợc xác định cho khu vực và tỉ lệ của các vùng chữ nhật. Lựa chọn N vùng chữ nhật lớn nhất bao phủ nền. Việc mở rộng giá trị N
sẽ làm tăng tính chính xác cho sự bao phủ vùng. Những vùng không đƣợc bao phủ sẽ là các khối. Phƣơng pháp này không đòi hỏi sự quy định về các tập ký tự, nó chỉ đòi hỏi duy nhất kích kỡ trung bình của các vùng ký tự.
2.2.2.1.3 Các kỹ thuật làm nhoè
Một trong những kỹ thuật đầu tiên để xác định vùng ký tự và vùng không ký tự đƣợc trình bày bởi Johnton [58]. Một số yêu cầu nhƣ sau : các ký tự đƣợc in theo các dòng ngang, ảnh đầu vào là sạch, các vùng không chứa ký tự không nằm sát vùng ký tự, độ rộng và độ cao của các ký tự là xác định. Ý tƣởng cơ bản của kỹ thuật là : các ký tự xuất hiện nhƣ một tập hợp của các sọc ngang. Thuật toán hoạt động theo hai bƣớc :
1. Xoá các đối tƣợng lớn hơn kích cỡ của ký tự. Nó sử dụng một chuỗi các toán tử hình thái theo chiều dọc và chiều ngang mà các tham số phụ thuộc
36
vào kích thƣớc của ký tự. Kết quả là một ảnh đƣợc sử dụng nhƣ là một mặt nạ để tăng cƣờng các ký tự từ ảnh gốc. Các thành phần nhỏ có liên quan và phân vùng các dòng vẫn nhƣ cũ.
2. Xoá bỏ các đối tƣợng nhỏ hơn kích thƣớc của ký tự chuẩn bằng cách cũng sử dụng các phép toán hình thái nhƣ trên. Ảnh đầu ra có thể đƣợc sử dụng nhƣ là một mặt nạ để xác định những vùng chỉ chứa các ký tự của ảnh gốc.