Làm sạch các tab-stop

Một phần của tài liệu Luận văn Thạc sỹ Khoa học máy tính: Phương pháp phân tích trang văn bản dựa trên Tabstop (Trang 43 - 44)

4 – Tìm các khu vực

Sau khi tìm thấy các cột, thì chữ được cho các Phân vùng Cột theo bao nhiêu cột mà các cột có. Các Phân vùng Cột trong một cột được in, phân vùng chạm vào nhiều hơn một cột, nhưng khơng mở đến các cạnh bên ngồi của cả hai bên được in rời và các phân vùng mà mở rộng hoàn toàn nhiều hơn một cột là tiêu đề.

a.Tạo luồng in của các Phân vùng Cột

Mỗi Phân vùng Cột chọn khung trên và dưới phù hợp nhất của nó, khung là Phân vùng Cột theo chiều dọc gần nhất mà chồng chéo theo chiều ngang. Vì mỗi Phân vùng Cột tự nó bảo đảm với khung lựa chọn của nó, mỗi Phân vùng Cột có thể khơng có hoặc nhiều khung trên và dưới bảo đảm.

Kích thước của danh mục của các khung bảo đảm buộc phải trở thành không hay một cho mỗi khung trên và dưới, bằng cách sử dụng các quy tắc sau đây để:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

(chính xác) của riêng, trong khi đó hình có thể ở lại với bất kỳ loại hình nào khác. 2. Các phím tắt khung dịch chuyển bị phá vỡ. Nếu A có 2 khung B và C và cũng như B có C như là một khung trong cùng một hướng, thì hãy xóa C như là một khung của A, để lại một chuỗi ABC đã làm sạch. Ngồi ra, nếu A có một đối tác B và B có một khung A trong cùng một hướng, hãy phá vỡ quy trình.

3.Chỉ có văn bản. Nếu A vẫn cịn 2 khung B, C thì đuổi theo khung B và C để xem cái có các chuỗi dài nhất. Hãy xóa từ A khung mà có chuỗi ngắn nhất và chuyển đổi các loại chuỗi ngắn nhất để in rời.

4. Chỉ có hình. Hãy chọn Phân vùng Cột khung CP với sự đè ngang lớn nhất .

Một phần của tài liệu Luận văn Thạc sỹ Khoa học máy tính: Phương pháp phân tích trang văn bản dựa trên Tabstop (Trang 43 - 44)