4. Bố cục của luận văn
1.2.3. Một số hƣớng tiếp cận trong phân tích cấu trúc trang văn bản
Có rất nhiều phƣơng pháp phân tích cấu trúc ảnh đã đƣợc đề xuất nhƣng về cơ bản có thể đƣợc chia làm ba hƣớng tiếp cận chính là hƣớng tiếp cận từ trên xuống (top-down approaches), hƣớng tiếp cận từ dƣới lên (bottom-down approaches) và hƣớng tiếp cận kết hợp.
Hướng tiếp cận từ trên xuống:Thƣờng bắt đầu từ toàn bộ trang ảnh đầu
vào và phân tách nó thành các vùng nhỏ dần cho đến khi thỏa mãn các điều kiện cho trƣớc hoặc các vùng thu đƣợc là đồng nhất. Hƣớng tiếp
cận này có ƣu điểm là tốc độ thực thi nhanh nhƣng chúng chỉ hữu ích trong trƣờng hợp đã có tri thức về cấu trúc của trang ảnh cần phân tích. Các thuật toán phân tích từ trên xuống điển hình gồm các thuật toán sử dụng phép chiếu, thuật toán X-Y Cut, thuật toán white streams.
Hướng tiếp cận từ dưới lên: Bắt đầu từ các điểm ảnh, ghép chúng thành các vùng đồng nhất lớn hơn (các thành phần liên thông, ký tự, dòng, khối văn bản, v.v). Hƣớng tiếp cận này có ƣu điểm là linh hoạt và có khả năng chịu đƣợc độ nghiêng của trang ảnh (thậm chí là nghiêng nhiều) nhƣng chậm hơn so với phƣơng pháp có hƣớng tiếp cận từ trên xuống. Các thuật toán phân tích từ dƣới lên điển hình gồm thuật toán Docstrum đề xuất bới O’Gorman, thuật toán dựa trên biểu đồ Voronoi của Kise và cộng sự, thuật toán run-length smearing của Wahl và cộng sự…
Hướng tiếp cận kết hợp: Đƣợc đề xuất nhằm mục đích tận dụng đƣợc
các ƣu điểm của hai hƣớng tiếp cận trên. Điển hình của hƣớng tiếp cận này chính là thuật toán spit-and-merge đề xuất bởi Pavlidis and Zhou…