Các bước tuần tự trong quá trình nhận dạng:
o Ảnh vào sau đó thực hiện bước tiền xử lý.
o Trích rút đặc trưng.
o Nhận dạng ký tự: sau khi trích rút đặc trưng ta thực hiện q trình nhận dạng, lần lượt kiểm tra xác suất xuất hiện của codeword tương ứng với mỗi vị trí, trạng thái và mỗi HMM. Kết quả δj(T) cuối cùng ta đem so sánh
giữa các mơ hình HMM với nhau, kết quả nhận dạng là ký tự có giá trị δj(T)
lớn nhất.
S1 S2 S3 S4
B1(O1) B1(O2)…. B2(O1) B2(O2)…. B3(O1) B3(O2)…. B4(O1) B4(O2)….
2S S 1 S3 S2 S1 a 11 a23 a34 a22 a33 a44=1 a12
Hình 3.25. Chức năng nhận dạng chữ viết tay.
3.7.3. Kết quả của quá trình thực nghiệm
Để kết quả thực nghiệm chính xác và hiệu quả, chúng tơi đã tiến hành các bước:
o Tìm hiểu người viết: Mỗi người có một kiểu chữ khác nhau và đối với mỗi chữ viết sẽ có nhiều cách viết khác nhau. Bên cạnh đó, nếu việc thu thập mẫu chữ từ những người đang làm việc hay hoạt động trong một số lĩnh vực khác nhau như giáo viên, công nhân, học sinh, kế tốn... cũng sẽ giúp cho q trình thu thập mẫu chữ được đa dạng và phong phú hơn.
o Thu thập mẫu chữ để huấn luyện: Tiến hành thu thập kiểu chữ của 30 người trên các đối tượng là văn phịng, cơng nhân (hoặc nơng dân), giáo viên và học sinh. Mỗi người viết ít nhất 4 mẫu chữ/một chữ và thực hiện đối với 26 chữ cái. Như vậy đối với mỗi chữ sẽ có trên 100 mẫu chữ viết.
Trích lọc đặc trưng
Kết quả nhận dạng
o Thu thập mẫu chữ nhận dạng: Thu thập đối với 10 người bất kỳ (không trùng những người lấy mẫu để huấn luyện), mỗi người viết 3 mẫu chữ/một chữ. Như vậy sẽ có 30 mẫu chữ/một chữ được sử dụng để nhận dạng. Trong quá trình này chỉ lấy mẫu đối với ba chữ cái là ‘A’, ‘C’ và ‘L’ để thực nghiệm việc ứng dụng HMM trong nhận dạng chữ viết tay.
o Tiến hành thực nghiệm và cho ra kết quả như trong bảng “Bảng kết
quả của quá trình nhận dạng”.
Bảng kết quả của quá trình nhận dạng
TT Ký tự Mẫu học Mẫu nhận dạng Kết quả nhận dạng đúng Hiệu suất 1 A 110 30 29 96,7% 2 C 157 30 30 100% 3 L 120 30 29 96,7% o Đánh giá kết quả:
•Theo tài liệu [9] thì trung bình nhận dạng chữ viết tay bằng mô hình Markov ẩn đạt 98,62% với số mẫu nhận dạng lên đến hàng nghìn mẫu. Tuy nhiên trong luận văn này, chúng tôi chỉ sử dụng một số lượng nhỏ các mẫu để nhận dạng- 30 mẫu - do đó bình quân hiệu suất nhận dạng chỉ đạt 96,73%. Như vậy, khi dữ liệu huấn luyện càng nhiều và đồng bộ thì độ chính xác nhận dạng càng cao. Vì vậy, cần lấy một lượng lớn mẫu tương ứng với các ký tự khác nhau đưa vào huấn luyện, khi đó hệ thống sẽ ổn định và kết quả nhận dạng chính xác hơn.
- Chữ viết cẩu thả dẫn đến q trình trích lọc đặc trưng khơng chính xác và cho ra kết quả nhận dạng sai.
- Một số mẫu có đặc trưng giống nhau nên nhận dạng nhầm sang ký tự khác
Kết quả thí nghiệm cho thấy, kết quả nhận dạng là rất tốt. Khi CSDL tăng lên (tăng số lượng mẫu huấn luyện và tăng mẫu nhận dạng) thì thời gian xử lý và tốc độ tính tốn của hệ thống cũng khơng bị ảnh hưởng lớn. Vì vậy, cần thử nghiệm và nghiên cứu sâu hơn nữa để lựa chọn thêm nhiều mẫu ký tự phục vụ quá trình học và nhận dạng chữ viết tay nhưng vẫn đảm bảo tính tồn vẹn và thời gian xử lý chấp nhận được.