Kết quả thực nghiệm

Trong phần này, luận án cài đặt thử nghiệm mô hình nhận dạng chữ viết tay rời rạc với các loại đặc trưng đã nêu trên đối với bộ dữ liệu MNIST và tập dữ liệu chữ viết tay tiếng Việt không dấu rời rạc VietCHAR. Tập dữ liệu VietCHAR bao gồm 10000 mẫu ký tự viết tay tiếng Việt không dấu, trong đó sử dụng 8000 mẫu dùng để huấn luyện và 2000 mẫu phục vụ cho việc nhận dạng.

Các kết quả thực nghiệm ở chương 2 cho thấy mô hình SVM được xây dựng theo chiến lược OVO có độ chính xác phân lớp tốt nhất. Vì vậy, phần này sẽ xây dựng

các máy phân lớp nhị phân theo chiến lược OVO, sử dụng thuật toán huấn luyện SMO với hàm nhân Gausse.

Bảng 3.1. Kết quả nhận dạng theo các loại đặc trưng khác nhau. Độ chính xác Loại đặc trưng Số chiều của véc tơđặc trưng MNIST VietCHAR Zoning 64 97.5% 79.3% Projection histograms 94 97.0% 76.8% Contour profiles 64 96.4% 75.1% wavelet Haar 256 97.8% 82.7%

Các kết quả thực nghiệm ở bảng 3.1 cho thấy sử dụng đặc trưng wavelet Haar vào bài toán nhận dạng chữ viết tay rời rạc cho độ chính xác cao hơn so với sử dụng các đặc trưng khác. Tuy nhiên, do bộ ký tự tiếng Việt quá đa dạng nên việc áp dụng các đặc trưng này lên tập dữ liệu viết tay tiếng Việt vẫn chưa đạt hiệu quả cao. Mặt khác, tốc độ phân lớp trên tập dữ liệu VietCHAR rất chậm do quá trình phân lớp phải duyệt qua quá nhiều máy phân lớp nhị phân. Vì vậy cần phải xây dựng một mô hình hiệu quả hơn nhằm tăng tốc độ cũng như độ chính xác cho bài toán nhận dạng chữ Việt viết tay rời rạc. Trong phần sau, luận án sẽ đề xuất một mô hình hiệu quả cho việc nhận dạng chữ Việt viết tay rời rạc.

Siêu phẳng với khoảng cách lề cực đại

Trích chọn đặc trưng wavelet Haar