4. Bố cục của luận văn
2.1. Kỹ thuật X-Y Cut
Thuật toán X-Y Cut [10]còn đƣợc gọi là thuật toán đệ quy X-Y Cut (RXYC). RXYC là thuật toán đi từ trên xuống dựa vào một cây cơ sở. Ở đây, gốc của cây cơ sở đại diện cho toàn bộ trang tài liệu. Tất cả các lá cùng đại diện cho các phần phân khúc. Thuật toán X-Y Cut chia tách các tài liệu thành hai hay nhiều khối chữ nhật đại diện cho nút của cây.
Thuật toán X-Y Cut đƣợc sử dụng để phân khúc trang tài liệu trong hệ thống ORC. Khi một tài liệu đƣợc scan, ảnh của file scan sẽ xuất hiện “noise” có thể gọi là hiện tƣợng nhiễu. Làm cho file ảnh vừa scan bị lệch đi nhiều hay ít so với bản gốc, gây khó khăn cho việc phân đoạn tài liệu.Thuật toán X-Y Cut là một trong những thuật toán đƣợc đƣa ra để giải quyết tình trạng này.
Nội dungvà cách thực hiện thuật toán này rất đơn giản: các điểm ảnh của hình ảnh trong tài liệu sẽ đƣợc chiếu theo phƣơng thẳng đứng và phƣơng ngang. Sau đó chúng ta sẽ nhận diện khoảng trắng lớn nhất có thể trong hình chiếu này và tại đó ta thực hiện chia hình ảnh thành 2 ảnh phụ. Ta lặp lại phƣơng pháp này theo qui tắc đệ qui/một cách đệ qui cho đến khi hoàn thành một tiêu chí nào đó.
Sửdụng kỹ thuật nàychúng ta sẽ có đƣợc một chuỗi các phần theo phƣơng ngang và dọc.Những phần này phân hình ảnh ra thành nhiều phần.
Nếu chúng ta thu nhỏ những phần này thành các hình tam giác nhỏ nhất có thể chứa đựng tất cả các điểm ảnh đen thì ta sẽ thu đƣợc nhiều khối khác nhau. Tùy thuộc vào tiêu chuẩn dừng mà ta sẽ có đƣợc các khối to hay nhỏ.
Tuy nhiên, phƣơng pháp này có những hạn chế nhất định. Có một vài vấn đề với thiết bị chia tách tuyến cũng nhƣ viền sao chép đen điển hình trong việc quét và sao chép những trang sách. Trong trƣờng hợp tồn tại những viền này, thuật toán sẽ không cắt bất cứ phần nào bởi vì nó không thể tìm thấy bất cứ lỗ hổng (khoảng trống) nào. Đó là lý do vì sao trƣớc tiên chúng ta phải loại bỏ những viền đen ra khỏi dữ liệu hình ảnh trƣớc khi chạy thuật toán X-Y Cut. Nó cũng có thể chỉ phân đoạn đƣợc các sơ đồ Manhattan.Vấn đề này có thể khắc phục bằng thuật toán X-Y Cut cải tiến nhƣ sau:
Thuật toán 2. 1. Thuật toán X-Y Cut cải tiến
Input: Ảnh sau khi đƣợc quét
Output: Ảnh đƣợc xử lý thành từng khối chữ nhật.
Bƣớc 1. Loại bỏ nhiễu ở biên của phân đoạn; Lấy các tài liệu quét;
Chọn một điểm ảnh (X,Y) từ tài liệu và nhận đƣợc và kết nối với những điểm ảnh tƣơng ứng, làm nhƣ vậy cho 8 điểm ảnh xung quanh ta có đƣợc giá trị của các điểm ảnh còn lại (X-1,Y),Right( X+1,Y),Top(X, Y+1), Bottom(X,Y-1) và điểm ảnh bốn chéo {(X-1,Y-1),(X+1,Y-1),(X- 1,Y+1),(X+1,Y+1)};
Nếu tất cả các điểm ảnh kết nối là màu đen sau đó thay đổi tất cả các điểm kết nối với màu trắng và tiếp tục này quá trình cho đến khi toàn bộ tài liệu đƣợc bao phủ bằng cách khác quá trình điểm ảnh tiếp theo và lặp lại bƣớc 1.
Bƣớc 2. Tạo bảng tổng hợp tiền tố cho hệ thống OCR;
Bƣớc 3. Tạo biểu đồ cho các giá trị điểm ảnh tại mỗi nút;
Bƣớc 4. Tạo một giá trị ngƣỡng (Tx, Ty) tƣơng ứng với trục x và trục Y;
Bƣớc 5. So sánh (Tx, Ty) với thung lũng biểu đồ (Vx và Vy ) 5.1. Nếu Vx > Tx hoặc Vy > Ty thì:
+ Chia tại trung điểm; + Quay lại bƣớc 4;
5.2. Ngƣợc lại, thực hiện bƣớc 6.
Bƣớc 6. Kết thúc thuật toán;
Kết quả thực hiện của thuật toán X-Y Cut cải tiến với một ảnh tài liệu đầu vào thực tế đƣợc thể hiện trênHình 2. 1.
Hình 2. 1. a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut
2.2.Kỹ thuật Smearing
Thuật toán Smearing Còn gọi là RLSA(The run-length smearing algorithm)[20],thuật toán này dựa trên việc làm nhòe/mờ các ảnh điểm đen
trên một hình ảnh nhị phân. Quá trình này sẽ làm mờ các điểm ảnh đen trên một trang mà theo đó các điểm ảnh trắng nhỏ sẽ bị làm đen. Thuật toán đƣợc mô tả cụ thể nhƣ sau:
Thuật toán 2. 2: Thuật toán RLSA
Input: Ảnh sau khi đƣợc quét: I
Output: Ảnh J chứa các vùng thông tin đƣợc xác định.
Bƣớc 1: Nhị phân ảnh đầu vào.
+ Các điểm trắng (white pixels) đƣợc thể hiện bằng giá trị 0. + Các điểm đen (black pixels) đƣợc thể hiện bằng giá trị 1.
Bƣớc 2: I1 Ảnh I đƣợc làm mờ theo phƣơng ngang với giá trị ngƣỡng Th.
Bƣớc 3: I2 Ảnh I đƣợc làm mờ theo phƣơng thẳng đứng với ngƣỡng Tv.
Bƣớc 4: J I1AND I2.
Bƣớc 5: Làm mờ ảnh J theo phƣơng ngang với ngƣỡng Ts.
Bƣớc 6: Liên kết các các thành phần liên thông thành các vùng văn bản.
Việc làm mờ sẽ đƣợc thực hiện dựa trên 2 quy tắc đơn giản:
Quy tắc 1: Bit 0 sẽ đƣợc chuyển thành 1 nếu số liền sát 0 nhỏ hơn hoặc bằng với ngƣỡng C nhất định (nếu độ dài một chuỗi của 0 nhỏ hơn hoặc bằng với một ngƣỡng, thì 0 sẽ đƣợc đổi thành 1).
Quy tắc 2: Bit 1 không đổi.
Xem xét ví dụ dƣới đây, khi 0 tƣợng trƣng cho điểm ảnh trắng và 1 tƣợng trƣng cho điểm ảnh đen, dòng đầu tiên thể hiện chuỗi điểm ảnh nguyên bản và dòng thứ 2 là kết quả thu đƣợc sau khi sử dụng phƣơng pháp làm mờ. Ngƣỡng làm mờ C=4
0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1
Đầu tiên, toàn bộ dữ liệu hình ảnh sẽ đƣợc làm mờ theo phƣơng ngang với ngƣỡng Th=300 cho ra hình ảnh làm mờ đầu tiên. Thực hiện quá trình tƣơng tự theo phƣơng thẳng đứng với ngƣỡng Tv=500. Các ngƣỡng này đã đƣợc cố định qua kinh nghiệm thực hành. Sau đó, 2 hình ảnh nhị phân này sẽ đƣợc kết nối lại bởi phép toán điểm ảnh thông minh AND. Sau đó hình ảnh nhị phân này sau đó sẽ đƣợc làm trơn một lần nữa bằng thuật toán làm mờ với ngƣỡng Ts=300. Sau đó ta sẽ thu đƣợc hình ảnh cuối cùng nhƣHình 2. 2.
a) Ảnh đầu vào a) b) Làm làm mờ theo phƣơng ngang với ngƣỡng Th = 300 c) Làm mờ theo phƣơng dọc với ngƣỡng Tv = 300 d) Ảnh làm mờ với ngƣỡng Ts = 300 e) Các vùng văn bản đƣợc xác định
Sau bƣớc sẽ tiến hànhphân tách các vùng giới hạn thông qua phƣơng pháp phân tích các thành phần liên thông. Đây đƣợc coi là bƣớc nhập liệu hình ảnh và đặt lại các thành phần liên thông vào các vùng tƣơng ứng. Một thành phần liên kết sẽ bao gồm một chuỗi các điểm ảnh liên thông với nhau. Chúng ta sẽ xem xét các điểm ảnh theo 4 hƣớng: phía trên, phía dƣới, bên trái và bên phải, còn đƣợc gọi chung là 4-vùng lân cận (trái ngƣợc với 8-vùng lân cận kể cả các vùng chéo). Các vùng liên thông đƣợc xác định là những vùng hình chữ nhật với kích thƣớc nhỏ nhất có thể bao gồm tất cả các điểm ảnh của thành phần liên kết đó.