Lược đồ chiếu ngang của một dòng chữ nghiêng

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 36)

37

Hình 2.6: Lược đồ chiếu đứng của trang tài liệu bị nghiêng

38

2.1.2. Hướng tiếp cận Bottom-up

a) Tổng quan

Bottom-up bắt đầu với những phần nhỏ và tìm cách nhóm chúng vào những phần lớn hơn, liên tiếp tới khi mọi khối trên trang được xác định. Thực hiện phép nhóm bottom-up các phần văn bản nhờ một loạt thao tác làm trơn theo loạt, theo các hướng. Kết quả thu được là các vùng ON và ta phân tích các vùng liên thông trên đó. Tính toán một vài số liệu trên những vùng liên thông này, ví dụ khoảng chiều cao và chiều dài các từ. Những thông tin đặc trưng này được dùng để phân biệt các khối văn bản và phân biệt phần văn bản và phần đồ họa. Esposito đã dùng cách tiếp cận tương tự, nhưng trước hết xác định hợp biên của từng ký tự, sau đó thao tác trên hợp biên này, thay vì trên từng pixel nhằm giảm lượng tính toán. Một số thuật toán tiêu biểu cho hướng tiếp cận này là Smearing[15], Docstrum[14], Voronoi[16].

Phương pháp Docstrum bó cụm khác thực hiện với k lân cận gần nhất để nhóm các ký tự và các dòng văn bản và các khối cấu trúc (Hình 2.8). Trước tiên, với mỗi phần tài liệu, xác định các đường nối k lân cận gần nhất với các phần xung quanh. Khoảng cách và góc của các đường nối này được vẽ trên các biểu đồ. Vì hầu hết các đường nối được tạo giữa các ký tự cùng dòng, góc tối đa sẽ chỉ ra góc nghiêng và khoảng cách tối đa sẽ là khoảng cách giữa các ký tự. Sử dụng các ước lượng này, các dòng văn bản được xác định như nhóm các ký tự và các từ dọc theo hướng của trang. Các dòng văn bản được nhóm thành các khối sử dụng đặc tính của tài liệu là các dòng cùng khối thường gần nhau hơn các dòng khác khối.

39

Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất được

xác định. (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác định được dòng văn bản.

40

b) Thuật toán Smearing

Thuật toán Smearing Còn gọi là RLSA(The run-length smearing algorithm)[15], thuật toán này dựa trên việc làm nhòe/mờ các ảnh điểm đen trên một hình ảnh nhị phân. Quá trình này sẽ làm mờ các điểm ảnh đen trên một trang mà theo đó các điểm ảnh trắng nhỏ sẽ bị làm đen.

Thuật toán được mô tả cụ thể như sau: Input: Ảnh sau khi được quét: I

Output: Ảnh J chứa các vùng thông tin được xác định.

Bước 1: Nhị phân ảnh đầu vào.

+ Các điểm trắng (white pixels) được thể hiện bằng giá trị 0. + Các điểm đen (black pixels) được thể hiện bằng giá trị 1.

Bước 2: I1 Ảnh I được làm mờ theo phương ngang với giá trị ngưỡng Th.

Bước 3: I2 Ảnh I được làm mờ theo phương thẳng đứng với ngưỡng Tv.

Bước 4: J I1AND I2.

Bước 5: Làm mờ ảnh J theo phương ngang với ngưỡng Ts .

Bước 6: Liên kết các các thành phần liên thông thành các vùng văn bản.

Việc làm mờ sẽ được thực hiện dựa trên 2 quy tắc đơn giản:

Quy tắc 1: Bit 0 sẽ được chuyển thành 1 nếu số liền sát 0 nhỏ hơn hoặc bằng

với ngưỡng C nhất định (nếu độ dài một chuỗi của 0 nhỏ hơn hoặc bằng với một ngưỡng, thì 0 sẽ được đổi thành 1).

Quy tắc 2: Bit 1 không đổi.

Xem xét ví dụ dưới đây, khi 0 tượng trưng cho điểm ảnh trắng và 1 tượng trưng cho điểm ảnh đen, dòng đầu tiên thể hiện chuỗi điểm ảnh nguyên bản và dòng thứ 2 là kết quả thu được sau khi sử dụng phương pháp làm mờ.

41

Ngưỡng làm mờ C=4

0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1

Đầu tiên, toàn bộ dữ liệu hình ảnh sẽ được làm mờ theo phương ngang với ngưỡng Th=300 cho ra hình ảnh làm mờ đầu tiên. Thực hiện quá trình tương tự theo phương thẳng đứng với ngưỡng Tv=500. Các ngưỡng này đã được cố định qua kinh nghiệm thực hành. Sau đó, 2 hình ảnh nhị phân này sẽ được kết nối lại bởi phép toán điểm ảnh thông minh AND. Sau đó hình ảnh nhị phân này sau đó sẽ được làm trơn một lần nữa bằng thuật toán làm mờ với ngưỡng Ts=300. Sau đó ta sẽ thu được hình ảnh cuối cùng như sau:

42

Tiếp theo sẽ tiến hànhphân tách các vùng giới hạn thông qua phương pháp phân tích các thành phần liên thông. Đây được coi là bước nhập liệu hình ảnh và đặt lại các thành phần liên thông vào các vùng tương ứng. Một thành phần liên kết sẽ bao gồm một chuỗi các điểm ảnh liên thông với nhau. Chúng ta sẽ xem xét các điểm ảnh theo 4 hướng: phía trên, phía dưới, bên trái và bên phải, còn được gọi chung là 4-vùng lân cận (trái ngược với 8-vùng lân cận kể cả các vùng chéo). Các vùng liên thông được xác định là những vùng hình chữ nhật với kích thước nhỏ nhất có thể bao gồm tất cả các điểm ảnh của thành phần liên kết đó.

c) Ưu điểm

Điểm mạnh của hướng tiếp cận này là các thuật toán có thể xử lý tốt những trang ảnh với cấu trúc bất kì (mahattan hoặc non-mahattan [14]). Tuy nhiên, do các vùng nhỏ được gộp lại với nhau dựa trên những tham số khoảng cách, các tham số này được ước lượng trên toàn trang ảnh nên các thuật toán này thường quá nhạy cảm với giá trị tham số và mắc lỗi chia quá nhỏ (over- segmentation) các vùng ảnh văn bản, đặc biệt là các vùng chữ có sự khác biệt về kích cỡ và kiểu font.

d) Nhược điểm

Phương pháp phân tích Bottom-Up cũng tồn tại một số nhược điểm như sau: - Cần phải phân đoạn để xác định các thành phần cơ sở trước khi có thể nhóm lại.

- Tốc độ thực hiện chậm và phụ thuộc vào số các thành phần trong trang tài liệu.

- Cũng như Top-Down hiệu quả phục thuộc trực tiếp vào việc xác định được góc nghiêng của tài liệu, vì khoảng cách dòng và từ chỉ xác định chính xác được nếu góc nhiêng của tài liệu ≈00

43

- Kém hiệu quả với những trang tài liệu có cấu trúc phức tạp (nhiều bảng, tỷ lệ đồ họa lớn hơn văn bản).

- Kém hiệu quả với loại trang tài liệu có nhiều loại Font chữ (chứa nhiều size chữ khác nhau), vì với các trang chứa nhiều font có size khác nhau hoặc loại font chữ nghiêng đặc biêt với chữ viết tay thì chương trình rất khó có thể tính được chiều cao chữ hay độ rộng giữa hai dòng thông qua biểu đồ chiếu nghiêng.

2.1.3. Hướng tiếp cận theo phương pháp lai ghép (hybrid).

a) Tổng quan

Phương pháp phân tích Adaptive Split – and – Merge được Lui, Tang và Suen thiết kế với ý tưởng chính từ một trang tài liệu ban đầu và coi đó như một vùng chưa đồng nhất, từ đó liên tiếp chia mỗi vùng thành các vùng nhỏ hơn, tại mỗi bước chia thực hiện nối các vùng đồng nhất và chia tiếp các vùng không đồng nhất.

b) Thuật toán tách và Nối thích nghi (Adaptive Split - and - Merge)

Để có thể mô tả được thuật toán một cấu trúc cây tứ phân phân lớp được sử dụng để biểu diễn quá trình tách và nối của thuật toán. Trong đó nút ở đỉnh tương ứng với trang tài liệu ban đầu và là gọi là lớp cao nhất, các nút con tiếp theo là các vùng con tương ứng với lớp thứ k của bước chia thứ k các vùng không đồng nhất (mô tả ở hình 2.3).

Các bước của thuật toán[14]:

B1: Tại lớp thứ K nếu tìm thấy một vùng không đồng nhất thì tiến hành chia vùng đó thành 4 vùng nhỏ hơn

B2: Nếu thấy ít nhất 2 vùng trong 4 vùng vừa tách là đồng nhất thì tiến hành nối chúng lại, còn các vùng không đồng nhất ta qua lại B1 và tách chúng thành các vùng ở lớp thứ K+1.

44

Hình 2.10: Mô tả thuật toán Tách và Nối thích nghi

Tiêu chuẩn xác định vùng đồng nhất để nối ghép[14]:

Hai vùng tương ứng rm và rn được coi là đồng nhất nếu chúng thảo mãn điều kiện sau:

45 Trong đó: def 0 | 1 | m m m m r r r r M                | | | m n m m m r n r r r m n N M N M M N N             2 2 , , 1 | ( , | ) ( , | ) m m m n m n r r r r k i r k i r m n I k j M I k j M N N                 

Trong đó: Nm và Nn biểu thị số vùng con trong mỗi vùng tương ứng rm

và rn. M|rm và M|rn biểu thị giá trị trung bình của mỗi vùng tương ứng Nm và Nn.

Một số thuật toán tiêu biểu cho hướng tiếp cận này là Tab-stop.

c) Ưu điểm

- Có thể áp dụng với các loại trang tài liệu có cấu trúc phức tạp vì thuật toán này không quan tâm đến việc phân đoạn các thành phần cơ sở, mà chỉ chia trang tài liệu thành các vùng hình chữ nhật và xem xét giá trị trung bình của nó. Như vậy các trang tài liệu có thể bỏ qua khâu xác định và hiệu chỉnh độ nghiêng

- Có thể áp dụng cho các loại trang tài liệu có nhiều loại font chữ khác nhau

- Tốc độ thực hiện nhanh hơn so với Top-down và Bottom-up

d) Nhược điểm

- Hiệu quả của thuật toán phụ thuộc vào giá trị trung bình của vùng được xét, trong một số tình huống thì giá trị trung bình của vùng văn bản và vùng đồ họa là như nhau. Cho nên thuật toán này vẫn có thể phân đoạn nhầm. - Không có một giá trị hằng số τ cho mọi trang tài liệu vì thế việc xác định giá τ là một vấn đền khó.

46

2.1.4. Đánh giá và lựa chọn thuật toán.

Từ những phân tích trên cho thấy ưu điểm của hướng tiếp cận bottom- up là nhược điểm của hướng tiếp cận Top-down và ngược lại. Do đó, trong những năm gần đầy đã có nhiều các thuật toán phát triển theo hướng lai ghép (Hybrid) giữa top-down và bottom-up, một trong các thuật toán tiêu biểu như Tab-Stop [14], ...Các thuật toán dựa trên phương pháp bottom-up để xác định các đường phân tách (ví dụ như, các khoảng trắng hình chứ nhật, các tab-stop, ...), từ đó suy ra cấu trúc tổng quát của trang ảnh. Sau đó, thuật toán sử dụng phương pháp bottom-up cùng với các đường phân tách để xác định các vùng chữ. Các thuật toán lai ghép đã khắc phục được hạn chế của hướng tiếp cận Top-down đó là có thể thực hiện được các trường hợp trang ảnh có cấu trúc ảnh non-Mahattan và hướng tiếp cận bottom-up. Điểm mẫu chốt của các thuật toán Hybrid là xác định các đường phân tách. Tuy nhiên, việc xác định các khoảng trắng phân tách lại là một bài toán gặp phải rất nhiều khó khắn bởi nhiều lý do, ví dụ như có những vùng chứ ở quá gần nhau, các vùng chứ được căn lề trái phải không thẳng hàng hoặc khoảng cách giữa các thành phần liên thông là quá lớn,... điều này đã làm cho các thuật toán hiện tại thường mắc phải các lỗi quên hoặc xác định nhầm các đường, phần. Để phân tách một trang ảnh tài liệu thành các vùng dữ liệu thuần nhất, đối với nhiều thuật toán tiên tiến đã sử dụng tập tất cả các phân tách được trình bày trên từng trang ảnh tương ứng.

Các thuật toán phân tách trang hiện nay đều phụ thuộc rất nhiều vào kết quả của quá trình lọc khoảng trắng, chỉnh góc nghiêng, tức là các tham số điều kiện để quyết định các khoảng trắng có được giữ lại hay không, góc nghiêng có phù hợp hay không.

Ta thấy trong hướng tiếp cận Top-down có thuật toán Whitespace là thuật toán tương đối nổi tiếng bởi vì nó khá đơn giản nhưng nó lại rất hiệu

47

quả trong việc phát hiện nền trang ảnh và đã có trong bộ mã nguồn mở OCROpus. Hiện tại có rất nhiều các thuật toán sử dụng nó như là một trong các bước cơ bản để phát triển thuật toán. Cho nên việc tiếp tục nghiên cứu và cả tiến nó là một vấn đề có ý nghĩa thực tiễn.

2.2. Thuật toán phân tích trang tài liệu Whitespace

2.2.1. Giới thiệu

Có nhiều hướng tiếp cận khác nhau để giải quyết bài toán phân tích cấu trúc vật lý trang ảnh tài liệu (phân đoạn trang). Hướng tiếp cận dựa vào hình chiếu (e.g., RecursiveX-YCuts [17]) sử dụng hình chiếu ngang và dọc để chia đệ quy trang thành các vùng hình chữ nhật nhỏ hơn. Hướng tiếp cận dựa vào các phép biến đổi hình thái học (e.g., Run-Length Smearing [16]) sử dụng các phần tử cấu trúc để “nối” các đối tượng tiền cảnh của trang lại với nhau và từ đó xác định các phân đoạn của trang. Hướng tiếp cận dựa vào phân tích cấu trúc nền của trang (e.g., Whitespace [6])cố gắng tìm các khoảng trắng hình chữ nhật lớn nhất để phân tách các vùng trong trang. Hướng tiếp cận dựa vào phân tích kết cấu (texture-base analysis) (e.g., Docstrum[14]) tìm cách xây dựng các biểu đồ thể hiện mối tương quan giữa các thành phần liên thông để gom nhóm chúng thành các vùng lớn hơn. Hoặc là tìm các tab-stop[15] để phân tách các cột, sau đó gom nhóm các phần của cột thành các khối đồng nhất.

Hướng tiếp cận dựa vào nền trang sử dụng các vùng hình chữ nhật để miêu tả cấu trúc của nền.Theo một cách tự nhiên, các đối tượng tiền cảnh thường được miêu tả bởi các hình chữ nhật, nên các khoảng trắng nền cũng sẽ được miêu tả bởi một tập hợp các hình chữ nhật. Phương pháp miêu tả trong[16] sử dụng quét dòng để tìm các khoảng trắng hình chữ nhật cục bộ lớn nhất, sau đó mới lựa chọn các hình chữ nhật dựa trên một số tiêu chí tối ưu. Mặc dù thuật toán quét này là hiệu quả nhưng khó thực thi (vì phải miêu

48

tả một cấu trúc hình học phức tạp và xem xét nhiều trường hợp đặc biệt) và kết quả trả về không theo thứ tự (không biết được cái nào là tốt nhất, xấu nhất).Một thuật toán dễ thực thi và kết quả trả về được sắp xếp theo thứ tự được miêu tả trong [16].

Mặc dù thuật toán Whitespace cho kết quả tốt tuy nhiên thuật toán Whitespace phụ thuộc rất nhiều vào việc lựa chọn bộ các tham. Trong luận văn này tôi sẽ trình bày tóm tắt lại thuật toán và chủ yếu đi sâu vào đánh giá sự ảnh hưởng của tham số đến kết quả phân tích của thuật toán Whitespace. Tiến hành một số thử nghiệm so sánh chứng minh trên 1600 trang ảnh của bộ dữ liệu UW-III.

2.2.2. Whitespace Cover

2.2.2.1. Định nghĩa bài toán

Chúng ta xác định bài toán hình chữ nhật trắng cực đại như sau. Giả sử rằng chúng ta có một tập hợp các hình chữ nhật C = {r0,..., rn } trong mặt phẳng, tất cả được chứa trong một hình chữ nhật giới hạn đã cho rb. Trong phân tích bố cục, ri sẽ thường tương ứng với các khung giới hạn của các thành phần được kết nối trên trang, và hình chữ nhật giới hạn tổng thể rb sẽ đại diện cho toàn bộ trang. Ngoài ra, giả sử rằng chúng ta có một hàm đánh giá cho các hình chữ nhật Q : R4 → R thỏa mãn, cho bất kỳ hai hình chữ nhật rr'

nào mà.

r r' Q(r) ≤ Q(r') (1)

Trong trường hợp được mô tả tại [14], hàm Q chỉ đơn giản là diện tích của hình chữ nhật, điều được dễ dàng nhìn thấy thoả mãn điều kiện được nêu trong Phương trình 1. Bài toán hình chữ nhật trắng cực đại là tìm một hình chữ nhật r^ rb nhằm tối đa hóa Q(T) trong số tất cả các hình chữ nhật có thể

r rb, trong đó r không trùng với bất kỳ hình chữ nhật nào trong C. Hoặc,

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 36)

Tải bản đầy đủ (PDF)

(89 trang)