ww.lrc-tnu.edu.vn http://w
II.1.2. Bottom-up
a) Tổng quan
Bottom-up bắt đầu với những phần nhỏ và tìm cách nhóm chúng vào những phần lớn hơn, liên tiếp tới khi mọi khối trên trang đƣợc xác định. Trong phạm vi luận văn này, chỉ giới thiệu một số cách tiếp cận đƣợc coi là bottom-up nhƣng sử dụng những phƣơng pháp trực tiếp rất khác nhau nhằm đạt cùng mục đích.
Mơt giải pháp đƣợc mơ tả với các bƣớc nhƣ sau:
1. Xác định góc nghiêng θ thông qua phép biến đổi Hough
2. Xác định khoảng cách giữa các dòng thông qua việc xác định khoảng cách giữa các đỉnh của phép chiếu nghiêng θ cố định bằng góc nghiêng tìm đƣợc. 3. Làm trơn theo loạt (run-length-smothing), sau đó thực hiện tách các từ hoặc ký
tự dựa vào việc xác định các khoảng trắng trong dịng thơng qua việc tìm đỉnh trên biểu đồ chiếu nghiêng và các độ dài vùng đen (các từ).
4. Thực hiện phép nhóm bottom-up các phần văn bản nhờ một loạt thao tác làm trơn theo loạt, theo các hƣớng. Kết quả thu đƣợc là các vùng ON và ta phân tích các vùng liên thơng trên đó. Tính tốn một vài số liệu trên những vùng liên thông này, ví dụ khoảng chiều cao và chiều dài các từ. Những thông tin đặc trƣng này đƣợc dùng để phân biệt các khối văn bản và phân biệt phần văn bản và phần đồ họa. Esposito6 đã dùng cách tiếp cận tƣơng tự, nhƣng trƣớc hết xác định hợp biên của từng ký tự, sau đó thao tác trên hợp biên này, thay vì trên từng pixel nhằm giảm lƣợng tính tốn.
Một phƣơng pháp Dostrum bó cụm khác thực hiện với k lân cận gần nhất để nhóm các ký tự và các dòng văn bản và các khối cấu trúc (Hình 26).
- Trƣớc tiên, với mỗi phần tài liệu, xác định các đƣờng nối k lân cận gần nhất với các phần xung quanh. Khoảng cách và góc của các đƣờng nối này đƣợc vẽ trên các biểu đồ. Vì hầu hết các đƣờng nối đƣợc tạo giữa các ký tự cùng dịng, góc tối đa sẽ chỉ ra góc nghiêng và khoảng cách tối đa sẽ là khoảng cách giữa các ký tự. Sử dụng các ƣớc lƣợng này, các dòng văn bản đƣợc xác định nhƣ
6 Floriana Esposito, Dipartimento di Informatica, Università degli Studi di Bari, Italy
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
37
h tt p : // ww w . l r c - t nu . e du . v n
nhóm các ký tự và các từ dọc theo hƣớng của trang. Các dịng văn bản đƣợc nhóm thành các khối-sử dụng đặc tính của tài liệu là các dòng cùng khối thƣờng gần nhau hơn các dịng khác khối.
Hình 26: Phƣơng pháp Dostrum cho phân tích định dạng trang từ dƣới lên. (a) Một phần của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất đƣợc xác định. (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác định đƣợc dịng văn bản.
b) Hạn chế
Phƣơng pháp phân tích Bottom-Up cũng tồn tại nhiều hạn chế nhƣ sau:
- Cần phải phân đoạn để xác định các thành phần cơ sở trƣớc khi có thể nhóm lại.
- Tốc độ thực hiện chậm và phụ thuộc vào số thành phần trong trang tài liệu - Cũng nhƣ Top-Down hiệu quả phục thuộc trực tiếp vào việc xác định đƣợc
góc nghiêng của tài liệu, vì khoảng cách dòng và từ chỉ xác định chính xác đƣợc nếu góc nhiêng của tài liệu ≈00
- Kém hiệu quả với những trang tài liệu có cấu trúc phức tạp (nhiều bảng, tỷ lệ đồ họa lớn hơn văn bản).
- Kém hiệu quả với loại trang tài liệu có nhiều loại Font chữ (chứa nhiều size chữ khác nhau), vì với các trang chứa nhiều font có size khác nhau hoặc loại font chữ nghiêng đặc biêt với chữ viết tay thì chƣơng trình rất khó có thể tính đƣợc chiều cao chữ hay độ rộng giữa hai dịng thơng qua biểu đồ chiếu nghiêng.
II.1.3. Phƣơng pháp Tách và Nối thích nghi (Adaptive Split – and – Merge)
a) Tổng quan
Phƣơng pháp phân tích Adaptive Split – and – Merge đƣợc Lui, Tang và Suen thiết kế với ý tƣởng chính từ một trang tài liệu ban đầu và coi đó nhƣ một vùng chƣa đồng nhất, từ đó liên tiếp chia mỗi vùng thành các vùng nhỏ hơn, tại mỗi bƣớc chia thực hiện nối các vùng đồng nhất và chia tiếp các vùng khơng đồng nhất.
Để có thể mơ tả đƣợc thuật tốn một cấu trúc cây tứ phân phân lớp đƣợc sử dụng để biểu diễn quá trình tách và nối của thuật tốn. Trong đó nút ở đỉnh tƣơng ứng với trang tài liệu ban đầu và là gọi là lớp cao nhất, các nút con tiếp theo là các vùng con tƣơng ứng với lớp thứ k của bƣớc chia thứ k các vùng khơng đồng nhất (mơ tả ở hình). Các bƣớc của thuật tốn[7]:
• B1: Tại lớp thứ K nếu tìm thấy một vùng khơng đồng nhất thì tiến hành chia vùng đó thành 4 vùng nhỏ hơn
• B2: Nếu thấy ít nhất 2 vùng trong 4 vùng vừa tách là đồng nhất thì tiến hành nối chúng lại, cịn các vùng khơng đồng nhất ta qua lại B1 và tách chúng thành các vùng ở lớp thứ K+1.
Lớp 0 (Trang tài liệu) (Nối 2 vùng đồng nhất) Tách vùng không đồng nhất ở lớp 1 thành 4 vùng nhỏ hơn Lớp 1
(Trang tài liệu được
chia thành 4 cùng nhỏ hơn)
Lớp 2