Tách từ

Một phần của tài liệu Luận văn công nghệ thông tin nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text (Trang 30)

Sau khi văn bản đã được tách thành nhiều dịng, chúng ta tiếp tục tách từ dựa trên các dịng tìm được. Đây là một bước quan trọng, là cơ sở để cĩ thể tách kí tự và tiến hành nhận dạng. Một số phương pháp sử dụng ngưỡng xác định trước. Sau đĩ sẽ phân loại các kí tự thuộc cùng một từ và các kí tự thuộc các từ khác nhau dựa vào việc so sánh khoảng cách theo trục x giữa các kí tự trong cùng một từ và các từ khác nhau với ngưỡng xác định trước này. Phương pháp này khá dễ hiện thực. Tuy nhiên, do sự đa dạng của bố cục văn bản, việc xác định một ngưỡng chung cho tất cả các loại văn bản là một điều khĩ khăn. Hơn nữa, khoảng cách giữa các kí tự trong cùng một từ ở các dịng khác nhau cĩ thể khác nhau. Điều này cĩ thể thấy rõ trong trường hợp khối văn bản được canh lề theo định dạng justify.

Một số hướng tiếp cận sử dụng khoảng cách trung bình theo trục x giữa tất cả các kí tự trong cùng một dịng làm ngưỡng để phân loại các kí tự trong cùng một từ với các kí tự thuộc các từ khác.

25

Thuật tốn:

1. Xác định tất cả các khoảng trống trong dịng văn bản.

2. Sắp xếp theo thứ tự tăng dần kích thước khoảng trống, xác định ngưỡng của dịng.

3. Lần lượt đi từ đầu đến cuối mảng các khoảng trống, tại mỗi vị trí ta so sánh kích thước khoảng trống tại đĩ với kích trước trung bình các khoảng trống đã đi qua, nếu nĩ vượt quá một giá trị nào đĩ thì sẽ dừng và xác định là vị trí của nhát cắt.

Ưu điểm của phương pháp này là giá trị ngưỡng sẽ được tính tốn một cách tự động và chỉ phụ thuộc vào từng dịng văn bản. Tuy nhiên, do số khoảng cách giữa các kí tự thường nhiều hơn so với số khoảng cách giữa các từ, nên giá trị trung bình này cĩ xu hướng gần bằng với khoảng cách giữa các kí tự trong một từ. Điều này cĩ thể dẫn đến kết quả tách từ sai khi dịng cĩ ít từ và các từ dài.

2.10 Tách kí tự

Thao tác được coi là phức tạp nhất của phân đoạn ảnh chính là giai đoạn tách kí tự. Do các kí tự thường bị dính vào nhau, làm cho các nhát cắt của chúng ta trở lên khơng chính xác. Ở đây chúng ta đưa ra hai khái niệm: Nhát cắt chính xác và nhát cắt nhập nhằng.

Một nhát cắt được coi là chính xác nếu nhát cắt đĩ phân thành 2 kí tự. Một vị trí cắt được gọi là nhập nhằng nếu ta khơng thể chắc chắn đĩ là vị trí phân tách giữa hai kí tự (thực tế cĩ thể là cĩ).

Trong ví dụ phía dưới ta cĩ thể thấy cĩ 4 nhát căt, thì 3 vị trí 1, 2, 4 là những nhát cắt chính xác phân tách giữa 2 kí tự tại mỗi vị trí đĩ. Trong khi đĩ nhát cắt 3 lại là một vị trí cắt nhập nhằng. Do chữ „ơ‟ và chữ n dính vào nhau.

Hình 2.19 Các vị trí chính xác, vị trí cắt nhập nhằng Thuật tốn tìm các vị trí cắt:

26

1. Ta cắt từ thành một kí tự dựa vào khoảng trắng giữa các kí tự. Khoảng trắng được chọn làm vị trí đặt nhát cắt.

2. Sau bước 1 thì các kí tự thu được (nằm giữa 2 vị trí cắt) cĩ thể khơng thật sự là một kí tự (vì cĩ thể 2 kí tự dính nhau). Do vậy đối với các kí tự thu được ta xét xem liệu nĩ cĩ thể là hai từ dính lại với nhau hay khơng, nếu cĩ thì sẽ sử dụng histogram theo chiều dọc với một ngưỡng để xác định các vị trí cắt khơng chính xác. (Tại các đường dọc trong histogram, nếu số điểm đen nhỏ hơn ngưỡng thì sẽ coi đĩ là một vị trí cắt).

Để xác định xem liệu một ảnh kí tự thu được (nằm giữa hai vị trí cắt) cĩ thể là do nhiều kí tự dính vào nhau hay khơng, ta xác định thành phần liên thơng lớn nhất trong kí tự này, nếu như nĩ cĩ bề rộng lớn hơn bề cao thì nĩ sẽ cĩ khả năng là do 2 kí tự dính vào nhau.

2.11 Chuẩn kích thước:

Chuẩn kích thước ảnh kí tự về một kích thước cố định và phĩng sát bốn biên của ảnh.

Phĩng ảnh là thực hiện phép biến đổi sau:

Với (x, y) là toạ độ điểm ảnh sau khi phĩng và sx ,sy là tỷ lệ phĩng theo trục x và y tương ứng, fx(x,y) là giá trị điểm ảnh kết quả ứng với giá trị toạ độ (x, y).

Chú ý:

Sau khi phĩng ảnh, ảnh cĩ thể bị rời rạc, răng cưa biên. Để khắc phục tình trạng này, ta thực hiện một số xử lý bằng phép đĩng morphology:

2.11.1 Lấp khoảng trống ảnh bằng phép đĩng morphology:

Một số định nghĩa:

Giả sử A và B là hai tập trong khơng gian Z2, aЄ A thì a=(a1, a2)

Phép dịch chuyển của tập A đối với x=(x1, x2) ký hiệu(A)x , được định nghĩa.

Phép phản chiếu của tập B, ký hiệu B*, được định nghĩa:

    fs x,yf x sx,y sy   A x ccax,vớiaA   ới bB  xx b v B* ,

27

Phép bù của một tập A, ký hiệu Ac, được định nghĩa: (adsbygoogle = window.adsbygoogle || []).push({});

Hiệu của hai tập hợp A và B, ký hiệu A-B, được định nghĩa:

1. Phép giãn:

Giả sử A, B là hai tập thuộc Z2,  là tập hợp rỗng, phép giãn của A đối với B, ký hiệu AB, được định nghĩa:

Tập B thường được gọi là thành phần cấu trúc.

2. Phép co:

Giả sử A, B là hai tập thuộc Z2, phép co của A đối với B, ký hiệu AB được định nghĩa:

3 Phép đĩng:

Giả sử A, B là hai tập thuộc Z2, phép đĩng của A đối với B, ký hiệu AB được định nghĩa:

Tức phép đĩng là phép do thực hiện phép mở rồi thực hiện phép đĩng lên kết quả vừa cĩ.

Phép đĩng cĩ tác dụng làm đầy những khoảng nhỏ (tuỳ thuộc vào thành phần cấu trúc B) thường xảy ra trên đường biên.

xx AAC   xx A x BB A   ,        B x B A A * x   x B AB A  x  A BB B A   

28

Chương 3

TRÍCH CHỌN ĐẶC TRƯNG VÀ NHẬN DẠNG

3 1 Trích chọn đặc trưng

Trích chọn đặc trưng là việc tìm và chọn ra các đặc trưng của đối tượng, làm tiền đề cho việc phân lớp. Đây là bước cung cấp đầu vào trực tiếp cho hệ nhận dạng. Việc trich chọn đặc trưng phải đạt được một số yêu cầu sau đây:

 Trích chọn được những đặc trưng tốt. Đĩ những đặc trưng mà giá trị của các đặc trưng này là giống nhau với những đối tượng thuộc cùng một lớp và rất khác so với những đối tượng thuộc các lớp khác. Cần phải lựa chọn các đặc trưng mang nhiều thơng tin hữu ích trong việc phân lớp chứ khơng phải chọn tồn bộ các đặc trưng. Vì như vậy sẽ làm mất thời gian, thậm chí cịn ảnh hưởng đến bộ nhận dạng.

 Trên thực tế, trong mỗi bức ảnh đầu vào thường chứa nhiễu. Nên khi trích chọn đặc trưng chúng ta thường lấy những điểm biên. Vì các điểm biên là nơi tập trung các thơng tin quan trọng nhất cĩ trong một đối tượng kí tự. Như vậy yếu tố nhiễu đã được giảm bớt, mặt khác các thơng tin quan trọng vẫn được bảo tồn..

Một phần của tài liệu Luận văn công nghệ thông tin nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text (Trang 30)