Đối với c h ữ in, đ ư ờ n g p h â n c á c h ( h o ặ c vị trí cắt) g iữ a các từ v à c á c kí tự trên m ộ t từ th ư ờ n g đ ư ợ c x á c đ ịn h th e o th e o hai p h ư ơ n g p h á p :
• X ác định th eo m iền liên thông.
• X á c định các vị trí có m ật độ thấp trên b iể u đồ tần suất theo ch iều thẳng đ ứ n g của d ò n g chữ.
T uy vậy, hai p h ư ơ n g pháp này lại k h ô n g hiệu q u ả đối với c h ữ viết tay bởi lẽ đối với chữ viết tay thì các kí tự trư ờ ng bị dính nhau ngoài ra độ n g h iên g c ủa kí tự c ũ n g rất khác nhau. T ừ n h ữ n g n s h iê n cứu m ộ t cách trực q u a n về c h ữ viết tay, ch o thấy: Đ ổ i
v ớ i c h ữ v i ế t t a y , c á c k í t ự t h ư ờ n g b ị d í n h n h a u ở p h ầ n g i a o g i ữ a b i ê n b ê n t r á i c ủ a k í t ự t h ứ n h ấ t v à b i ê n b ê n p h ả i c ủ a k í t ự t h ứ h a i , c á c v ị t r í d í n h n h a u c ó t h ê ở p h í a đ i n h , p h í a đ á y h o ặ c p h í a t h â n c ủ a m ỗ i k í t ự đ ồ n g t h ờ i đ ư ờ n g n o i g i ữ a c á c k í t ự t h ư ờ n g c ó d ạ n g c á c đ ư ờ n g c o n g đ ặ c t r ư n g v ớ i đ ộ c o n g v à k í c h t h ư ớ c k h á c n h a u .
ch ún g tôi nh ậ n th ấ y có 6 kiểu đ ư ờ n g co ng đặc trư n g c ơ bản sau:
J : Đ ư ờ n g dốc p h ả i : Đ ư ờ ng dốc tr á i
: Đ ư ờ n g cong lõm ; Đ ư ờ ng cong lồ i
J : Đường cong nghiêng phải : Đường cong nghiêng trái
T ro n g luận vă n này, ch ún g tôi đã đề xu ất m ộ t p h ư ơ n g p h á p xác đ ịn h các vị trí căt khác n h a u trên ảnh đầu vào b ằ n g việc tìm k iế m các vị trí có m ậ t độ thấp trên biểu đồ tần x u ấ t th e o chiều thẳng đ ứ n g của ảnh đầ u v à o kết h ọ p với v iệ c tìm k iế m các đư ờ n g c o n g đặc trưng. T h u ậ t toán này đ ư ợ c th ể h iệ n m ộ t cách chi tiết h ơ n n h ư sau:
Nguyễn Thị Thanh Tân Trang - 5 1 - Luận văn thạc sĩ
INPUT: - Ảnh đầu vào (ảnh của từ)
- Tập các đường cong đặc trưng: F
O U T PU T: M ột danh sách các vị trí cắt (có thứ tự ) trên ảnh đầu vào: s PROCESS:
B ư ó c 1: Khởi tao: s = NULL;
B ư ớ c 2: Tính histogram (biểu đồ tần suất) theo chiều thẳng đứng của ảnh đầu vào —» VT_Histogram[Image Width];
B ư ó c 3: Tìm kiếm tất cả các vị trí có V T_H istogram = 0 (trường hợp nhiều vị trí liền nhau cùng có V T_H istogram = 0 thì ta sẽ chọn vị trí đầu tiên, các vị trí phía sau sẽ bị bỏ qua), mỗi vị trí tìm được sẽ được lưu vào danh sách S;
Bưó c 4: Tìm kiểm tất cả các đường cong đặc tnmg.
B ư ớ c 5: Duyệt tất cả các đường cong đặc trưng đã tìm được, với mỗi đường thực hiện hai bước:
4.1) Tìm kiếm vị trí có VT Histogram nhỏ nhất (trường hợp có nhiều vị trí cùng có VT_Histogram nhò nhất thì vị trí bên phải nhất (có toạ độ
X lớn nhất) sẽ được chọn);
4.2) Lưu vị trí vừa tìm được vào danh sách S;
B ư ớ c 6: Sắp xếp lại danh sách theo chiều tăng dần của toạ độ x;
B ư ó c 7: return S;
Thuật toán 2-5: Thuật toán xác định các vị trí cắt khác nhau trên ảnh đầu vào
Á p d ụ n g thu ật toán này với ảnh của từ “ sk ew ” , ta được kết quả trên Hình 2.6.
Sau khi thực hiện xong các bước 1, 2, 3 ta tìm được vị trí cắt p o s1 tươ n g ứng với v ùn g area Ị.
Sau khi thực hiện x on g bước 4, ta tìm được bốn vị trí ipos2-^ p o s5) tươ n g ứng với các v ù n g (a rea2^>area5).
K et q u ả cuối cùng ta sẽ thu được m ột danh sách s gồm 5 vị trí cắt (posi~>pos5)
tươ ng ứ n g với các vù ng (a r e a i - ^ a r e a 5). T u y nhiên, sau b ư ớ c nhận dạng kí tự, ta sẽ xác định đ ư ợ c chỉ có vị trí cắt thứ nhất (posị) là hợp lệ.
Nguvền Thị Thanh Tân Trang - 52 - Luận vãn thạc sĩ
PoSi P o s 2 P 0 S 3 P 0 S 4 P0S5
Hình 2.6: Ket quả thực hiện của thuật toán xác định các vị trí cắt trên ảnh đầu vào