Các kỹ thuật kết hợp phân vùng/phân lớp

2.2 Các kỹ thuật thƣờng đƣợc sử dụng trong nhận dạng cấu trúc biểu

2.2.2.3. Các kỹ thuật kết hợp phân vùng/phân lớp

Phần này trình bày các thuật toán áp dụng cho cho các trang văn bản mà việc phân tích là rất khó khăn. Các thuật toán này sẽ thực hiện đồng thời cả quá trình phân vùng và quá trình phân lớp.

2.2.2.3.1 Kỹ thuật phân tích các thành phần kết nối.

Akiyama và hagita [41] đã đề xuất một kỹ thuật phân tích trang dành cho những ảnh văn bản đã đƣợc chỉnh nghiêng và bao gồm các vùng văn bản và hình ảnh. Một số cở sở để tiến hành bao gồm : các dòng tiêu đề, các khối dòng văn bản, các hình ảnh, mỗi vùng đƣợc tƣơng ứng với một vùng hình bao chữ nhật, và các đƣờng thẳng liền nét hoặc đứt nét. Do đó, một tập hợp gồm 15 đặc trƣng hình học đƣợc thừa nhận cho cấu trúc của trang văn bản. Bƣớc đầu tiên là việc trích chọn miền các thành phần chia tách thông qua việc phân tích các thành phần kết nối của ảnh văn bản. Các đƣờng thẳng liền nét đƣợc thể hiện thông qua các thành phần có độ dài tốt với số lƣợng crossing nhỏ (số lƣợt chuyển trạng thái trắng/đen theo hƣớng ngang và hƣớng dọc), trong khi đƣờng thẳng đứt nét đƣợc thể hiện bởi các thành phần bao quanh bởi các điểm trắng liên tục. Bƣớc tiếp theo là tính độ dày của các dòng ký tự. Lƣợc đồ histogram chiều sâu của các thành phần đƣợc tính. Mức độ T

của lƣợc đồ histogram thể hiện độ dày chính xác nhất của dòng ký tự. Các thành phần có độ sâu nhỏ hơn 1.5T sẽ là các ứng viên ký tự, ngƣợc lại thì các thành phần sẽ là ứng viên dòng tiêu đề hoặc ứng viên hình ảnh phụ thuộc vào số lƣợng crossing

của nó (thấp hay cao). Khối ký tự đƣợc xác định bắt đầu từ các ứng viên ký tự. Những ứng viên này đƣợc phân cụm theo giá trị của hai tiêu chuẩn : phân tách vùng hoặc các vùng trắng trong phổ của phép chiếu. Để tránh phân vùng quá, quá trình phân tách bị giới hạn khi số lƣợng crossing của tất các các cụm giảm xuống dƣới một giới hạn cho trƣớc. Các thành phần ký tự liền kề trong một khối đƣợc kết hợp để tạo ra các dòng ký tự. Vùng ký tự đơn độc hoặc không có quy tắc sẽ bị đƣa vào danh sách các ứng viên dòng tiêu đề hoặc ứng viên ảnh. Các dòng tiêu đề đƣợc xác định bằng cách tƣơng tự. Các khối ảnh sẽ đƣợc xác định cuối cùng bằng việc kết hợp các vùng ảnh, các chuỗi thành phần ký tự là đóng đối với vùng ảnh.

Zlatopolsky [76] sử dụng một kỹ thuật dựa trên quá trình phát triển tích luỹ bắt đầu từ những thành phần kết nối. Quá trình phát triển đƣợc điều khiển bởi một số ngƣỡng có giá trị đƣợc xác định thông qua kích cỡ của các đối tƣợng đƣợc kết hợp. Một giả thuyết là các khối ký tự đƣợc bao quanh bởi các khoảng trắng. Một quá trình tiền xử lý nhằm xác định các thành phần không phải là ký tự, nhƣ là các thành phần nhỏ và dài...Các thành phần này đƣợc xác định để phát hiện ra sự hiện diện của sự phân chia các khối nhƣ là các khung, hay là đƣợc kết hợp để tạo ra các khối hình ảnh. Trong từng khung, các thành phần đƣợc nhóm lại trong các phân dòng bởi quá trình kết hợp tính các khoảng cách theo chiều dọc và chiều ngang của chúng. Tại bƣớc này, góc nghiêng của trang đƣợc xác định thông qua giá trị trung bình hƣớng của các phần tử có độ dài đủ lớn, và toàn trang văn bản sẽ đƣợc xoay chuẩn lại. Các khối văn bản thu đƣợc sau khi kết hợp các vùng dòng ký tự đóng theo cả hai hƣớng dọc và ngang và tƣơng tự nhau đối về các đặc tính dòng. Tuy nhiên phƣơng pháp này không hoạt động tốt trong các ảnh có sự hiện diện của các ký tự bị gãy hay cấu trúc ảnh bị gãy (broken).

Wang và Yagasaki [77] trình bày một phƣơng pháp dựa trên việc lựa chọn phân cấp và phân lớp các thành phần kết nối. Đầu tiên, các vùng bao mở rộng, hoặc các đƣờng nét của các thành phần kết nối đƣợc tìm kiếm. Các thành phần rất lớn sẽ đƣợc gán nhãn không phải là ký tự. Kích cỡ trung bình của các thành phần đƣợc

tính để xác định ngƣỡng cho việc phân lớp ký tự hay không phải là ký tự. Các thành phần không phải là ký tự sẽ đƣợc phân lớp nhƣ là ảnh, khung, đƣờng thẳng, bảng biểu... thông qua việc sử dụng các đặc tính nhƣ là độ sâu, độ rộng, độ dày, mật độ, trạng thái của black run s, số lƣợng và khoảng cách của các hố, kích thƣớc của các thành phần liền kề. Các nét chính của các thành phần kết nối bao gồm các bảng biểu, khung... cũng đƣợc xác định và phân lớp theo cách tƣơng tự. Ngoài ra, có hai hàm đƣợc cung cấp để xác định các đƣờng thẳng nét đứt và các đƣờng thẳng mờ. Các thành phần đƣợc gán nhãn là unknow sẽ đƣợc phân tích để xây dựng các đƣờng tiêu đề dọc và ngang (font lớn). Các thành phần ký tự đƣợc phân cụm trong các khối bởi các tiêu chuẩn về khoảng cách đủ gần, sử dụng thông tin về khoảng cách giữa các thành phần. Các khối ký tự đƣợc phân chia nếu có một đƣờng phân cách hoặc một đƣờng thẳng mờ chạy qua chúng. Từng khối ký tự sau đó đƣợc phân lớp theo chiều ngang, chiều dọc, hoặc độ dốc bằng việc thêm các thông tin về kích thƣớc của các thành phần và khoảng trắng giữa chúng. Các dòng ký tự đƣợc xây dựng theo khoảng cách và tỉ lệ trùng lên nhau. Độ nghiêng của từng dòng ký tự đƣợc tính theo phƣơng pháp hình vuông và độ nghiêng của khối đƣợc xác định theo độ nghiêng trung bình của các dòng ký tự trong nó. Vì việc thể hiện lại các khối bằng các hình bao chữ nhật có thể gây ra những rắc rối về việc chồng chéo lên nhau, do đó việc thể hiện lại này đƣợc thực hiện thông qua các nét (outline) làm đại diện.

Simon [78] đề xuất một phƣơng pháp phân tích trang ứng dụng cho các trang văn bản hình học. Đầu vào là ảnh nhị phân đã chỉnh độ nghiêng. Thuật toán dựa trên việc tính toán cây spanning nhỏ nhất (MST) của một đồ thị đa cấp. Ở tầng đầu tiên, các đỉnh của đồ thị là các thành phần kết nối và các cạnh đƣợc gán nhãn bởi khoảng cách giữa các đỉnh. Sự định nghĩa khoảng cách thể hiện một vài đặc tính tự học mà phụ thuộc vào tầng hiện tại của đồ thị và cho việc phân lớp (là vùng ký tự hay là vùng ảnh) gán cho các đỉnh. Các thành phần đƣợc kết nối nhiều lần theo cạnh ngắn nhất trong MST. Ở trong tầng đầu tiên, các từ đƣợc xác định thông qua việc kết hợp các thành phần có khoảng cách gần và có chung hƣớng ngang. Ở tầng thứ

hai, những từ này trỏ thành các đỉnh của một đồ thị mới mà MST đƣợc sử dụng để xác định các dòng ký tự. Tƣơng tự, dòng đƣợc kết hợp vào trong các khối ở tầng tiếp theo. Sự thay đổi ở tầng này là có sự điều khiển bởi một ngƣỡng của tỉ lệ giữa nhãn của cạnh ngắn nhất hiện tại và nhãn của các cạnh trong lần kết hợp gần nhất. Theo hƣớng tiếp cận trong [71], tại tầng cuối cùng, các đỉnh đƣợc kết hợp lại thông qua việc sử dụng các tính chất hình học nhƣ là độ cao của nhóm thành phần liên quan tới đỉnh, tỉ lệ hình bao bề ngoài, và mật độ điểm đen.

2.2.2.3.2 Các kỹ thuật lan toả.

Tsujimoto và Asada [81] mô tả một hệ thống phân tích và trình diễn cho nhiều loại văn bản khác nhau : tạp chí, báo hàng ngày, báo cáo, thƣ từ, sách giáo khoa, bài báo khoa học...Quá trình phân vùng sử dụng phƣơng pháp bottom up mà trong các bƣớc tiếp theo, các thành phần nhỏ đƣợc nhóm lại ngày càng lớn hơn và rộng hơn. Các thành phần kết nối liền kề nhau đƣợc tập hợp lại trong các phân vùng thông qua việc liên kết theo chiều ngang các thành phần ngăn cách nhau bởi những khoảng cách đủ nhỏ. Các phân vùng sau đó đƣợc phân lớp lại : các dòng ký tự, các hình vẽ, các biểu đồ, bảng biểu, khung, đƣờng thẳng dọc, đƣờng thẳng ngang, nhiễu, tuỳ theo các thuộc tính vật lý nhƣ là chiều cao, tỉ lệ hình học, các phép chiếu dọc và ngang, số lƣợng của các vệt trắng lan toả. Có bốn loại ngƣỡng đƣợc sử dụng để định nghĩa sự phân chia bề mặt giữa các lớp đối tƣợng khác nhau. Ở bƣớc tiếp theo, các vùng đƣờng thẳng ký tự ở sát nhau thì đƣợc kết hợp với nhau : hai vùng ký tự liên tiếp đƣợc nhóm lại với nhau nếu khoảng cách theo chiều ngang nhỏ hơn ngƣỡng đƣợc tạo ra bởi độ cao của vùng, và các vùng bên trái của vùng kết quả đƣợc chiếu theo chiều dọc tạo ra một lƣợc đồ histogram. Thành phần cục bộ lớn nhất của histogram sẽ là những vùng bên trái của các cột.

2.2.2.3.3 Các kỹ thuật phân tích cục bộ dựa cấu trúc.

Một số kỹ thuật nhận dạng và phân chia các vùng văn bản, bảng biểu và tranh ảnh trong một trang văn bản đƣợc trình bày bởi Scherl [83]. Các kỹ thuật này

dựa trên việc phân tích thuộc tính của các vùng con. Trang văn bản đƣợc chia thành nhiều cửa sổ nhỏ hình vuông, từng cửa sổ đƣợc trích chọn các đặc trƣng để sau đó phân lớp. Phƣơng pháp thứ nhất dựa vào việc tìm hiểu không gian phổ Fourier để thu đƣợc các loại ký tự in, các lƣợc đồ, hình ảnh, vùng trung gian có các đặc trƣng khác nhau và cung cấp một số thông tin nhƣ là khoảng cách giữa các dòng ký tự... Theo tác giả, phƣơng pháp phân vùng này tiêu tốn nhiều thời gian thực hiện và không cho kết quả tốt trong các thí nghiệm thực tế. Một phƣơng pháp khác phân biệt giữa các vùng ký tự và tranh ảnh dựa vào việc phân tích thống kê các đặc trƣng trích chọn đƣợc từ các lƣợc đồ histogram đa cấp xám cục bộ. Sử dụng một hiểu biết là độ xám sáng nhất thƣờng xuất hiện nhiều ở nền của vùng ký tự, do đó tỉ lệ các mức xám trong cửa sổ đƣợc tính. Cửa sổ đƣợc phân lớp là vùng ký tự hay bảng biểu phụ thuộc vào giá trị này lớn hơn một ngƣỡng cho trƣớc, ngƣợc lại là vùng hình ảnh.

Một phƣơng pháp tƣơng tự đƣợc đề xuất bởi Sauvola và Pietikainen [84]. Trang văn bản nhị phân đƣợc chia thành các cửa sổ nhỏ hình vuông, độ rộng hai chiều của cửa sổ phụ thuộc vào độ phân giải của ảnh đầu vào (10 x 10 tới 20 x 20 theo thực nghiệm). Với từng cửa sổ, các đặc trƣng đƣợc xác định: tỉ lệ số điểm đen/trắng, độ dài trung bình của các vệt đen, số lƣợng tƣơng quan crossing giữa các đƣờng thẳng dọc liên tục, và số lƣợng tƣơng quan crossing giữa đƣờng thẳng dọc với khoản cách năm điểm ảnh. Với các giá trị của các đặc trƣng cơ bản, từng của sổ đƣợc gán nhãn nhƣ là vùng ký tự, tranh ảnh, nền, phụ thuộc vào các luật phân lớp cơ bản. Một số toán tử kết nối các cửa sổ đƣợc áp dụng lặp lại nhiều lần để kết nối các cửa sổ gần nhau có cùng tính chất.

Trong một cách tiếp cận khác của Jain và Zhong [85], quá trình phân vùng sắp đặt đƣợc đƣa ra nhƣ là vấn đề phân vùng cấu trúc. Các tác giả tập trung vào việc giải quyết những hạn chế của phƣơng pháp đƣợc trình bày trong [80]. Phƣơng pháp này có những đặc trƣng sau :

2. Có thể ứng dụng cho các ảnh văn bản đa cấp xám.

3. Phân vùng trang thành bốn lớp phân biệt : văn bản, nền, hình ảnh, vùng trung gian.

4. Yêu cầu độ phân giải ảnh thấp (100 dpi)

5. Có thể đào tạo đƣợc để thực hiện phân tách ngôn ngữ.

Việc phân vùng trang văn bản đƣợc thực hiện bởi việc phân lớp từng điểm ảnh vào trong ba lớp (văn bản, vùng trung gian, nền) và sau đó nhóm các điểm ảnh này với nhau nếu chúng ở chung lớp và ở gần nhau. Việc phân lớp này dựa vào các đặc trƣng văn bản của các điểm ảnh hàng xóm của nhau. Để có thể sử dụng các tri thức heuristic và đặc trƣng chính, một số bộ lọc với mục đích đặc biệt đƣợc lựa chọn. Chúng đƣợc đánh giá thông qua cấu trúc đƣợc đào tạo bởi mạng neural nhiều tầng (tầng đầu vào, tầng mặt nạ, tầng ẩn, và tầng đầu ra). Mạng neural này là mạng perceptron đa tầng đƣợc đào tạo bởi thuật toán truyền ngƣợc. Khởi tạo ban đầu, tầng mặt nạ bao gồm 20 mặt nạ (7 x 7), sau đó một quá trình giản lƣợc đƣợc thực hiện để loại bỏ một số mặt nạ không cần thiết. Quá trình này bao gồm việc tính toán các thành phần kết nối và ngƣỡng theo độ dài của chiều ngắn hơn trong hình bao của chúng. Ảnh kết quả thu đƣợc sau hoạt động của mạng neural là ảnh đã đƣợc làm mịn thông qua việc lựa chọn lớp chính trên 3 x 3 hàng xóm của từng điểm ảnh, một phép co hình với phần tử cấu trúc 1 x 3 và phép giãn hình với phần tử cấu trúc là 3 x 3. Sau đó, một quá trình loại bỏ các nhiễu, kết hợp các vùng hàng xóm với nhau, tính hình bao của các vùng đã gán nhãn đƣợc thực hiện. Tầng kết quả có ba đỉnh tƣơng ứng với ba lớp. Khi văn bản và các đƣờng vẽ đƣợc nhóm chung vào cùng lớp, chúng phải đƣợc đánh giá ở bƣớc thứ hai. Bƣớc này yêu cầu một số điều kiện chặt chẽ: ảnh đã đƣợc nhị phân, không ảnh hƣởng tới các ký tự và các đƣờng thẳng kết nối.

Một thuật toán khác đƣợc trình bày bởi Etemad [86]. Họ đề xuất việc sử dụng sự thay mặt gói wavelet đa vùng của trang văn bản. Xuất phát từ một tập hợp các hàm cơ bản, họ lựa chọn một cây wavelet có thể thông qua một tiêu chuẩn phân

tách lớp lớn nhất, khi mà các lớp phụ thuộc vào từng ứng dụng cụ thể. Một ánh xạ đƣợc định nghĩa từ không gian tín hiệu tới không gian đặc trƣng đƣợc tính bởi các khoảng cách trung tâm thứ hai và ba của các thành phần gói wavelet. Các khoảng cách đƣợc tính trong các của sổ địa phƣơng. Một phân lớp mờ đƣợc thực hiện bởi mạng neural và sử dụng phƣơng pháp gradient kết hợp. Tập hợp đào tạo đƣợc cấu tạo bởi các cửa sổ hình vuông đã đƣợc phân lớp và chích chọn ngẫu nhiên tại trang văn bản với độ phân giải 200-300 dpi. Sự phân lớp cung cấp một vectơ quyết định mềm dẻo, một kết quả trong [0,1] của từng lớp. Quá trình phân vùng đƣợc thực hiện nhờ việc kết hợp các quyết định cục bộ. Lƣợc đồ này đảm bảo độ phân giải không gian tốt và sự bền vững đối với các quyết định không tin cậy cục bộ. Lƣợc đồ kết hợp bao gồm các hiểu biết về một số nguồn : thông tin không gian cục bộ, cả trong vùng và ngoài vùng, một thông tin biết trƣớc về vị trí vùng. Theo kinh nghiệm, các vùng trong trang văn bản đƣợc phân chia thành bốn lớp : nền, ký tự, tranh và biểu đồ. Lớp nền đƣợc xác định trong bƣớc sơ bộ. Thuật toán này có một số ƣu điểm : không phụ thuộc vào cấu trúc của văn bản, có khả năng cung cấp các đặc trƣng cụ thể tƣơng thích để chích chọn vùng và có thể giải quyết trƣờng hợp chồng chéo kết hợp của nhiều lớp khác nhau.

Các kỹ thuật kết hợp phân vùng/phân lớp

Các kỹ thuật phân vùng ký tự

Các kỹ thuật phân vùng ký tự