Q ui trình hoạt đ ộ n s của hệ thống được m ô tả m ột cách chi tiết trên sơ đồ Hình 3.1. V ới mỗi v ă n bản đầu vào, quá trình nhận dạng được chia thành 3 giai đoạn cơ bản:
• G ia i đ o ạ n tiền n h ậ n d ạ n g , các công việc chính cần thực hiện tro ng giai đoạn này là: T h u n h ậ n ả n h đ ầ u và o (chuyển từ văn hản trên giấy sang các file ảnh văn bản th ôn g qua một m áy quét (scaner) ), tiền x ử lý các file ả n h (nhằm nâng cao chất lượng ảnh đầu vào) và p h â n đ o ạ n t r a n g v ă n b ả n . Q u á trình ph ân đoạn trang v ă n bản ở đây được thực hiện theo nguyên tắc T o p -D o w n (đã đề cập ở phần 1.2.2) - ảnh văn bản đầu vào được phân tích thành các khối nhỏ dần cho đến khi k h ô n g thể phân nhỏ hơn được nữa. Với nhận dạng chữ in, ảnh của kí tự th ư ờ n g đ ư ợ c coi là khối thông tin nhỏ nhất trên ảnh đầu vào. Song, do cấu trúc phức tạp c ủa chữ viết tay, việc tách các kí tự thư ờ n g kh ông khả thi n ên trong hệ thống này, ảnh của từ (W ord image) sẽ được coi là khối thông tin nhỏ nhất. Quá trình x ử lý cụ thể trong giai đoạn nhận dạng từ đã được đề cập ở c h ư ơ n g 2.
• G ia i đ o ạ n n h ậ n d ạ n g : Ả n h của các từ thu được sau quá trình phân đoạn trang văn bản sẽ được chuyển đến để nhận dạng bởi bộ nhận dạng từ. Q u á trình hoạt động c ủ a bộ nhận dạng đã được m ô tả chi tiết ở chư ơn g 2. Sau khi kết thúc quá trình n h ậ n dạng, ta sẽ thu đượ c m ột tập các từ đã nhận dạn g đượ c của dòng tươ ng ứng. Lúc này quá trình tái tạo lại v ăn bản sẽ được bắt đầu.
Nguyễn Thị Thanh Tân Trang - 63 - Luận văn thạc sĩ
Hình 3.1: Qui trình nhận dạng của hệ thống
Neuyễn Thị Thanh Tân Trang - 64 - Luận văn thạc sĩ
• G ia i đ o ạ n h ậ u n h ậ n dạng: Giai đoạn này được thực hiện ngay sau khi quá trình nhận dạng kết thúc. Các công việc chính được thực hiện trong giai đoạn này là: Tái tạo (khôi phục) lại văn bản đâu vào, hậu x ử lý và lưu lại văn bản kết quả đã nhận dạng được. N g ư ợ c với quá trình ph ân đoạn, quá trình tái tạo lại văn bản được thực hiện theo nguyên tắc B ottom -U p: T iến hành ghép các th àn h phần nhỏ nhất (các từ đã được nhận dạng) lại với nhau để tạo thành khối lớn hơn (các dòng v ă n bản), sau đó các khối này sẽ tiếp tục được ghép lại với nh au cho đến khi thu đượ c toàn bộ vãn bản. Sau khi toàn bộ văn bản đã được tái tạo, ta tiếp tục thực hiện quá trình hậu xử lý nhằm nâng cao chất lượng nhận dạng thông qua các thao tác soát lỗi chính tả, kiểm tra cú pháp, n g ữ nghĩa của câu, v.v. Tuy nhiên, do hạn chế về m ặt thời gian nên luận văn này chưa tập trung nhiều vào phần hậu xử lý. Hơn nữa, việc soát lỗi trên các từ cũng đã được tích hợp vào quá trình nhận dạng (thông qua việc kiểm tra m ứ c độ hợp lý của m ộ t kí tự trong một từ và việc chọn lọc từ với độ tin cậy cao nhất).