Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất yếu như với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tư liệu quý giá của dân tộc hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR khác, đặc biệt là các OCR chữ tượng hình như tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu các mô hình về OCR, nhóm nghiên cứu của tác giả đưa ra mô tổng thể cho bài toán nhận dạng chữ Nôm như hình 2.8.
Hình 2.8. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, tệp PDF…. Trong nguồn đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh, các loại ngôn ngữ khác nhau. Do đó, cần được tiến hành thao tác phân tích trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các bước tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc trưng của ký tự để đưa vào tiến hành nhận dạng. Kết quả của bước nhận dạng có thể chưa phải là bước cuối cùng, mà sẽ được qua bước hậu xử lý, có thể kiểm tra trên cơ sở từ điển, ngữ pháp… để quyết định kết quả cuối cùng.
Trong đề tài luận văn này, tác giả xây dựng mô hình nhận dạng chữ Nôm như trong Hình 2.9, không bao gồm bước tiền và hậu xử lý, có nghĩa tác giả lấy đầu vào là tập các ảnh chữ Nôm đã cắt rời theo chuẩn, áp dụng phương pháp trích chọn đặc trưng trọng số vùng, xây dựng bộ nhận dạng bằng cách kết hợp K-Mean và SVM, kết quả sau bước nhận dạng thu được là mã Unicode của chữ Nôm cần nhận dạng.
Hình 2.9. Mô hình nhận dạng chữ Nôm trong luận văn
Tổng kết chƣơng 2
Trong chương này, chúng tôi tìm hiểu tổng quan OCR, một số OCR thông dụng, tiếp đó đi sâu tìm hiểu một số mô hình OCR chữ tượng hình tiếng Trung Quốc.Trên cơ sở các tìm hiểu đó, đề xuất mô hình tổng thể cho nhận dạng chữ Nôm và giới thiệu phần nội dung trong Nôm-OCR mà chúng tôi thực hiện. Kết quả nghiên OCR đã đạt được nhiều kết quả tốt, được phát triển trên cả các phần mềm thương mại cũng như nguồn mở, song vẫn còn một số vấn đề cần nghiên cứu, trong đó có bài toán chữ tượng hình với số lượng chữ lớn và những loại chữ chưa được nghiên cứu như chữ Nôm. Chúng tôi nghiên cứu một phần nội dung trong tổng thể mô hình nhận dạng chữ Nôm do nhóm đang thực hiện.Trên cơ sở các hướng đặt ra của các nghiên cứu trước đây, chúng tôi tập trung cải tiến thuật toán nhận dạng trên cơ sởSVM - thuật toán có độ chính xác cao trong nhận dạng, tìm cách khắc phục hạn chế của SVM với bài toán đa phân lớp có số lớp lớn.
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM)