Như đã đề cập ở chương I, bản chất của việc phân vùng ảnh là phân loại được các vùng thông tin trên ảnh, chẳng hạn như: Vùng chữ ở phần tiêu đề, vùng chữ ở phần nội dung, vùng bảng, vùng công thức, vùng ảnh, v.v. Quá trình phân vùng ảnh đối với chữ viết tay thường phức tạp hơn nhiều so với in bởi lẽ chữ viết tay là chữ viết tự do nên khoảng cách giữa các dòng, các từ cũng như giữa các kí tự thường là không cố định thậm chí nhiều khi không thể xác định được (trường hợp các dòng, các từ hay kí tự bị dính nhau hoặc lồng nhau). Tuy nhiên, do giới hạn về mặt thời gian nên luận văn này không kỳ vọng là giải quyết được mọi vấn đề khó đối với chữ viết tay. Mục tiêu của chúng tôi đặt ra ở đây là xây dựng được một bộ nhận dạng ký tự có khả năng giải quyết tốt vấn đề nhận dạng chính xác kí tự. Vấn đề dính dòng và dính từ không phải là trọng tâm giải quyết của luận văn, ở đây chúng tôi giả thiết việc tách từ và tách dòng trên các văn bản đầu vào là khả thi nói cách khác giữa các dòng và giữa các từ phải có một khoảng cách nhất định, không được dính nhau hay lồng nhau.
Ngoài ra, để đơn giản bớt quá trình phân vùng ảnh, chúng tôi chỉ xem xét những văn bản có cấu trúc đơn giản – trên văn bản chỉ chứa vùng chữ. Khi đó toàn bộ văn bản có thể coi là một khối đồng nhất và công việc phân đoạn ảnh tập trung chủ yếu ở phân tách dòng và tách từ.
3.3.1. Tách dòng văn bản
Với giới hạn bài toán đặt ra ở trên, quá trình tách dòng sẽ được thực hiện dựa trên biểu đồ tần xuất theo chiều ngang của khối chữ. Đối với thuật toán là tọa độ của các khối chữ đã được xác định từ bước phân vùng ảnh. Các bước của thuật toán tách dòng tách từ được thể hiện chi tiết trên hình 3.5
Bước đầu tiên, thuật toán sẽ xác định biểu đồ tần suất theo chiều ngang của khối chữ. Bước tiếp theo là xác định vị trí tâm của dòng chữ dựa trên biểu đồ tần suất ngang của khối chữ, tâm của dòng chữ đầu tiên được lấy mặc định tại đỉnh của khối chữ. Tiếp theo, xuất phát từ vị trí tâm của dòng chữ vừa tìm được, ta xác đường giới hạn phía trên và đường giới hạn phía dưới của dòng chữ, để xác định đường giới hạn trên của dòng chữ, trước hết ta xác vị trí của vùng thung lũng phía trên (vùng mà tại đó hướng đi của histogram có sự đổi chiều) gần nhất với tâm đang xét (giả sử ta gọi vị trí này là x), sau đó ta tiến hành tìm kiếm dải trắng dài nhất trong vùng [x - độ rộng dải tìm kiếm, x + độ rộng dải tìm kiếm], dải trắng dài nhất này chính là dòng chữ. Với cách làm tương tự, ta cũng xác định được đường giới hạn phía trên của dòng chữ. Căn cứ trên hai đường phân cách vừa tìm được, ta sẽ xác định được biên của dòng chữ. Cuối cùng, ta tiến hành tách dòng chữ theo biên tìm được.
3.3.2. Tách từ
Trong qui trình nhận dạng chữ in, sau bước tách dòng là bước tách từ và nhận dạng kí tự. Song, đối với chữ viết tay việc tách và nhận dạng từng kí tự thường cho kết quả không cao bởi lẽ chúng ta thường không thể xác định được chính xác đường giới hạn giữa các kí tự, đối với hầu hết người viết, các ký tự trên cùng một dòng thường bị dính nhau thậm chí lồng nhau. Giải pháp chúng tôi đưa ra ở đây là xử lý toàn bộ từ thay vì xử lý riêng rẽ từng kí tự. Để tách từ, phương pháp thích hợp được sử dụng ở đây là tách theo miền liên thông kết hợp với tiêu chuẩn đối sánh khoảng cách giữa các kí tự. Thuật toán tách từ được mô tả chi tiết trên hình 3.6, bao gồm hai công đoạn chính:
Xác định các vùng liên thông
Đối sánh khoảng cách nhỏ giữa hai vùng liên thông: nếu khoảng cách nhỏ hơn ngưỡng thì vùng liên thông phía trước đó, trường hợp ngược lại, ta tiến hành tách vùng liên thông phía trước khỏi vùng đang xét và cập nhật vùng liên thông hiện tại vào vùng đang xét
Hình 3.6: Sơ đồ thuật toán tách từ trên một dòng văn bản
Khoảng cách giữa hai vùng liên thông được tính bằng khoảng cách giữa hai hình chữ nhật bao của hai vùng liên thông đó. Với giả thiết chữ viết trên văn bản không quá nghiêng, hình chữ nhật bao của một vùng ảnh (vùng liên thông) được xác định dựa trên biểu đồ tần suất theo chiều dọc của khối chữ .
Do chữ viết tay thường viết tự do không có kích thước cố định nên việc lựa chọn ngưỡng đối sánh θ thường mang tính kinh nghiệm. Ở đây chúng tôi lựa chọn θ =2/5
kích thước trung bình của một kí tự.
3.4. Quá trình nhận dạng
Sau khi ảnh của các ký tự được tách ra khỏi ảnh văn bản đầu vào, chúng sẽ được gửi đến bộ nhận dạng ký tự. Quá trình nhận dạng cụ thể đã được trình bày ở phần 2.2. Sau khi quá trình nhận dạng kết thúc, toàn bộ dữ liệu đã nhận dạng sẽ được chuyển đến quá trình hậu xử lý.
3.5. Quá trình hậu xử lý
Do hạn chế về mặt thời gian nên chúng tôi chưa tập trung được nhiều vào giai đoạn hậu xử lý. Ngoài ra, do hệ thống chỉ làm việc với các file văn bản có cấu trúc không phức tạp nên việc cài đặt tái tạo lại văn bản sẽ không được tập trung ở đây.
3.6. Kết luận
Trong chương này, luận văn đã thể hiện các bước cần thực hiện của hệ thống nhận dạng chữ viết tay hạn chế một cách tương đối cụ thể. Quá trình thực hiện của hệ thống được chia thành ba giai đoạn: giai đoạn tiền nhận dạng, giai đoạn nhận dạng và giai đoạn hậu nhận dạng.
CHƢƠNG 4. THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG CHỮ VIẾT TAY HẠN CHẾ
Trong chương này, luận văn sẽ mô tả một cách chi tiết quá trình thử nghiệm cũng như các kết quả thử nghiệm hệ thống với các tập dữ liệu khác nhau