Thuật toán Yue Lu và Chew Lim Tan

L ỜI CẢM ƠN

1.2.4.1. Thuật toán Yue Lu và Chew Lim Tan

Trước hết, dùng thuật toán phân tích thành phần liên thông để thu được các đối tượng ảnh riêng biệt. Mỗi một đối tượng Ci nội tiếp trong một hình

chữ nhật có các cặp tọa độ trên trái và dưới phải tương ứng là (xli,yti) và (xri,ybi), trọng tâm của hình chữ nhật ký hiệu là (hci, wci), ký hiệu hci và wci là các chiều cao và rộng của hình chữ nhật. Ta có các định nghĩa sau [14]:

a. Định nghĩa 1: Khoảng cách từ tâm tới tâm của hai đối tượng C1 và C2 được định nghĩa:

dc(C1, C2)= ∆x + ∆y

Với ∆x = |xc1-xc2| và ∆y = |yc1-yc2|

b. Định nghĩa 2: Khoảng hụt của hai đối tượng C1 và C2 được định nghĩa:

• dg(C1, C2) =max (xl2 - xr1, xl1 - xr2) nếu ∆x > ∆y • dg(C1, C2) =max (yt2 - xb1, yt1 - yb2) nếu ∆x < ∆y

c. Định nghĩa 3: Định nghĩa láng giềng lân cận

C2 được gọi là láng giềng lân cận của C1 nếu thỏa mãn các điều kiện sau:

• hc1≈ hc2 nếu ∆x > ∆y hoặc wc1≈ wc2 nếu ∆x < ∆y • Cx2 > Cx1 với ∆x > ∆y hoặc Cx1 > Cx2 với ∆x < ∆y

(5)

• dg(C1,C2) = min dc(C1,Cm) với mọi m • dg(C1,C2) < β.max (hc1,hc2)

Với β là một hằng số được định nghĩa trước trong thuật toán. d. Định nghĩa 4: Định nghĩa K- láng giềng (K-Nearest-Neighbour chain K-NN)

K-NN được định nghĩa là một dãy chứa K đối tượng trong đó hai đối tượng kề nhau là các láng giềng của nhau theo định nghĩa 2.

e. Định nghĩa 5: Định nghĩa góc lệch của một dãy K-NN

Giả sử có dãy K-NN: S=[C1, C1, C1,..., Ck,]. Góc nghiêng của dãy các láng giềng này được định nghĩa như sau:

• Nếu xck-xc1 < yck-yc1 thì slopeK = (xck-xc1)/(yck-yc1) • Nếu xck-xc1 > yck-yc1 thì slopeK = (yck-yc1)/ (xck-xc1) Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4

trong thuật toán Yue Lu-Chew Lim Tan

1.2.4.2. Nhận xét:

Điểm cải tiến lớn nhất của thuật toán này là việc quyết định hai đối tượng có là láng giềng của nhau hay không dựa vào các tiêu chí về kích thước của mỗi một đối tượng và khoảng cách giữa chúng. Chính các tiêu chí này sẽ loại bỏ được những trường hợp ngoại lệ và đem lại kết quả chính xác hơn cho thuật toán.

Trong định nghĩa 4, K là số các láng giềng trong một cụm láng giềng, K càng lớn thì vector định hướng của cụm láng giềng có hướng càng gần với góc lệch thực sự của văn bản. Trong thuật toán, K được giảm dần cho đến khi số các cụm láng giềng đủ để xác định được góc lệch cho văn bản. Hình 1.12 ở trên minh họa một ảnh văn bản nghiêng, các cụm láng giềng và các vector chỉ phương tương ứng thu được khi áp dụng thuật toán tìm K-NN với các giá trị của K=2,3,4.

Phương pháp dùng biến đổi Hough (Hough Transform)

Vai trò của biên trong nhận dạng