d. Đánh giá về mạng RBF
3.2.1.4. Hiệu chỉnh độ lệch trang văn bản
Một phƣơng pháp hiệu chỉnh góc nghiêng văn bản chính xác và hiệu quả là cực kỳ cần thiết để đơn giản hoá quá trình phân tích trang văn bản và tăng độ chính xác nhận dạng. Nhƣ đã đề cập ở chƣơng 1, có các nhóm phƣơng pháp hiệu chỉnh góc nghiêng chính sau:
(1) Projection profile analysis (Bloomberg et al., 1995; Postl, 1986; Baird, 1995; Messelodi and Modena, 1999; Liolios et al., 2002).
(2) Nearest-neighbor (NN) clustering (Hashizume et al., 1986; O’Gorman, 1993; Jiang et al., 1999; Liolios et al., 2001).
(3) Hough transform (Srihari and Govindraju, 1989; Jiang et al., 1997; Amin and Fischer, 2000; Pal and Chaudhuri, 1996).
(4) Cross-correlation (Yan, 1993; Chaudhuri and Chaudhuri, 1997; Chen and Ding, 1999).
(5) Morphological transform (Chen and Haralick, 1994; Das and Chanda, 2001). Theo [40], trừ các phƣơng pháp dựa trên NN, các phƣơng pháp khác đều có những yếu điểm riêng nhƣ phụ thuộc vào loại văn bản cụ thể, không ƣớc lƣợng chính xác góc nghiêng của văn bản có cấu trúc phức tạp có nhiều loại font và cỡ chữ, hƣớng chữ bất kỳ và có tỷ lệ thành phần phi văn bản cao. Vì vậy tác giả đã đề xuất phƣơng pháp nearest-neighbor chain (NNC). Thực nghiệm trên nhiều loại văn bản có hình thức khác nhau đã chứng tỏ đây là một phƣơng pháp nâng cao độ chính xác và không phụ thuộc ngôn ngữ.
Trong [39], tác giả đề xuất cách tiếp cận dựa trên phân phối tần số thời gian của lớp Cohen (time frequency distributions of Cohen's class) đối với phép chiếu ngang trang (horizontal projection profile). Tác giả đã sử dụng 7 phân phối của lớp Cohen, là các phân phối Wigner-Ville, Margenau-Hill, Rihaczek và một số biến thể khác. Phƣơng pháp này có thể hiệu chỉnh góc nghiêng từ -890
đến +890
, độc lập với kiểu chữ và cỡ chữ, chỉ có ít văn bản và không bị ảnh hƣởng bởi thành phần đồ họa.
Trong [34], tác giả đã nêu khá chi tiết về phép biến đổi Hough và cho rằng đây là một phƣơng pháp nhanh và đơn giản, có thể xoay văn bản từ -450
đến +450
3.2.1.5. Tách dòng
Trong tiếng Việt in các mũ và dấu tách rời khỏi thân ký tự nên không thể dùng phƣơng pháp connected component. Vì vậy hệ thống sử dụng phƣơng pháp tính histogram để xác định vị trí ascend, x-height, base line, descent của dòng ký tự đồng thời tách các dòng.
Hình 3.4. Các vị trí đặc biệt của ký tự
Giả sử các dòng không dính nhau (có ít nhất 1 điểm ảnh nền giữa 2 dòng), phƣơng pháp histogram nhƣ sau:
Hàng Số điểm ảnh đen Vị trí 47 0 48 0 49 3 ascend 50 3 51 3 52 67 53 49 54 52 55 24 56 223 x-height 57 180 58 138 59 131 60 133 61 151 62 283 base line 63 19 64 25 65 45 descent 66 0 khoảng cách giữa 2 dòng
67 3 ascend 68 2 68 2 69 2 70 3 71 61 72 49 73 48 74 26 75 223 x-height 76 179 77 138 78 127 79 124 80 158 81 289 base line 82 12 83 18 84 25 descent 85 0
Bảng 3.1. Biểu đồ tần suất theo chiều ngang các điểm ảnh Từ biểu đồ trên, các dòng và đặc điểm của nó có thể xác định nhƣ sau:
Vị trí của x-height và base line có thể tìm đƣợc dễ dàng: đó là hai đỉnh cao nhất đầu tiên và thứ hai trong một dãy các đỉnh thấp hơn xung quanh.
Vị trí của ascend: là vị trí có giá trị dƣơng xa nhất ở trƣớc vị trí x-height.
Vị trí của descend: là vị trí có giá trị dƣơng xa nhất sau vị trí base line của cùng hàng.
Sau vị trí descend là một hoặc vài hàng có giá trị 0. Đây là khoảng cách giữa hai dòng.
0 30 60 90 120 150 180 210 240 270 300 30 37 44 51 58 65 72 79 86 93 100 107 114 121 128 135 142 149 156 163 170 177 184 191 198 205 212 Hàng
Hình 3.5. Biểu đồ tần suất theo chiều ngang các điểm ảnh