Xõy dựng phần mềm nhận dạng chữ Nụm (Nụm-OCR) là một yờu cầu tất yếu nhƣ với cỏc ngụn ngữ khỏc. Nụm-OCR sẽ đúng vai trũ một động lực mạnh thỳc đẩy việc nghiờn cứu chữ Nụm, khai phỏ nguồn tƣ liệu quý giỏ của dõn tộc hàng ngàn năm về chớnh trị, văn húa, xó hội… Hệ thống nhận dạng chữ Nụm về mặt kỹ thuật cú thể tham khảo cỏc mụ hỡnh kỹ thuật của cỏc OCR khỏc, đặc biệt là cỏc OCR chữ tƣợng hỡnh nhƣ tiếng Hỏn, tiếng Nhật. Trờn cơ sở nghiờn cứu cỏc mụ hỡnh về OCR, nhúm nghiờn cứu của tỏc giả đƣa ra mụ hỡnh tổng thể cho bài toỏn nhận dạng chữ Nụm nhƣ Hỡnh 2.2.
Trong sơ đồ trờn, nguồn tài liệu cú thể là ảnh, file PDF… Trong nguồn đầu vào của hệ thống OCR cú thể bao gồm nhiều loại thụng tin vớ dụ hỡnh ảnh, cỏc loại ngụn ngữ khỏc nhau. Do đú, cần đƣợc tiến hành thao tỏc phõn tớch trang, nhận diện phần ký tự. Sau khi tỏch phần ký tự khỏi trang, ta tiến hành cỏc bƣớc tiền xử lý cần thiết, tỏch thành cỏc khối, tỏch cỏc khối thành cỏc dũng, tỏch dũng thành cỏc ký tự rời rạc. Từ cỏc ký tự rời rạc, ta tiến hành trớch chọn đặc trƣng của ký tự để đƣa vào tiến hành nhận dạng. Kết quả của bƣớc nhận dạng cú
thể chƣa phải là bƣớc cuối cựng, mà sẽ đƣợc qua bƣớc hậu xử lý, cú thể kiểm tra trờn cơ sở từ điển, ngữ phỏp… để quyết định kết quả cuối cựng.
Trong đề tài luận văn này, tỏc giả xõy dựng mụ hỡnh nhận dạng chữ Nụm nhƣ trong Hỡnh 2.3, khụng bao gồm bƣớc tiền và hậu xử lý, đầu vào là tập cỏc ảnh chữ Nụm đó cắt rời theo chuẩn, ỏp dụng phƣơng phỏp trớch chọn đặc trƣng theo gốc từ, xõy dựng bộ nhận dạng theo MEM, kết quả sau bƣớc nhận dạng thu đƣợc là mó Unicode của chữ Nụm cần nhận dạng.