Trong quá trình huấn luyện, từ một ảnh đầu vào chứa các ký tự hoặc đoạn văn bản cần để huấn luyện, Tesseract sẽ áp dụng các thuật toán xử lý ảnh để phân tích ảnh đầu vào thành các dòng, các từ rồi đến các ký tự riêng biệt. Sau đó chương trình sẽ trích xuất ra các đặc trưng tương ứng với các ký tự. Trong quá trình huấn luyện các đặc trưng cần trích xuất là các phân đoạn xấp xỉ theo đa giác và những đặc trưng này được xem như là các khuôn mẫu của dữ liệu huấn luyện và được lưu vào cấu trúc dữ liệu.
Tesseract dùng k láng giềng gần nhất (k-NN) để thực hiện phân lớp đối tượng. Với một vector có n đặc trưng: (A1(x), A2(x), …, An (x)). Thì cách tính khoảng cách từ đối tượng x tới y được tính như sau:
D(x, y) = n i i i x A y A 1 2 )) ( ) ( ( (2.2)
Đối tượng gần với mẫu nhất sẽ có khoảng cách tổng hợp trên tất cả các đặc trưng là nhỏ nhất.
Tesseract ban đầu được thiết kế chỉ để nhận dạng văn bản tiếng Anh. Sau này nó đã được chỉnh sửa và phát triển để nó có khả năng nhận dạng các ngôn ngữ khác. Với chữ tượng hình, do đặc trưng có kích thước cố định và các chữ không dính nhau nên có thể sử dụng kỹ thuật tiền xử lý rất tốt của Tesseract như công đoạn xử lý nhiễu, căn chỉnh độ nghiêng, tách dòng, tách từ để áp dụng
Với chữ Nôm, trong nghiên cứu [3], nhóm nghiên cứu nhận dạng chữ Nôm của trường Đại học Công nghệ, đại học Quốc gia Hà Nội cũng đã thực nghiệm với một số sửa đổi trong mã nguồn của Tesseract để ứng dụng nhận dạng chữ Nôm với kết quả bước đầu khả quan.
Tổng kết chương 2
Chương 2 chúng tôi cung cấp một số kỹ thuật nhận dạng chữ tượng hình liên quan. Cụ thể chúng tôi cung cấp 3 phương pháp nhận dạng đã được sử dụng trong thực tiễn với những chữ tượng hình khác như chữ Hán, chữ Nhật, chữ Hàn... nhưng trước đó chưa được thực nghiệm trên chữ Nôm. Ba phương pháp này đã được chúng tôi thực nghiệm trên cùng một bộ chữ Nôm, với một số phương pháp lấy đặc trừng khác nhau. Kết quả bước đầu phương pháp cực đại hóa Entropy dựa trên đặc trưng theo histogram của giả khung kết quả thử nghiệm đạt 63%, có thể cải tiến cách lấy đặc trưng để tăng độ chính xác nhận dạng. Phương pháp mạng Nơ-ron truyền thẳng với đặc trưng là các điểm ảnh đạt 82%. Với phương pháp sử dụng thư viện tesseract độ chính xác thấp. Tesseract tỏ ra không thích hợp với chữ tượng hình do phương pháp trích chọn đặc trưng của đơn giản, số đặc trưng không đủ lớn để mô tả cấu trúc phức tập của các chữ tượng hình.
Chương 3
GIỚI THIỆU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
3.1 LẤY ĐẶC TRƯNG THEO CẠNH
Phương pháp lấy đặc trưng theo nét dựa vào 3 loại nét chính là nét ngang, nét đứng, nét xiên. Trong nét xiên lại phân ra 4 loại khác nhau là xiên trái 45 độ, xiên phải 45 độ, xiên trái 25 độ, xiên phải 25 độ. Phương pháp lấy đặc trưng theo nét sử dụng khung xương để xác định các cạnh của chữ. Khung xương được hiểu là trục chính của đối tượng ảnh. Để thu được khung xương ảnh dùng một số phương pháp để loại bỏ dần những điểm ảnh bên ngoài, chỉ lấy ngững điểm ảnh giữa của đối tượng ảnh. Hình 3.1 thể hiện một ví dụ lấy khung xương của chữ Nôm, trong đó hình a thể hiện chữ ban đầu, hình b thể hiện khung xương lấy được.
a. Ảnh gốc b. Khung xương ảnh