6 Ứng dụng
5.6 Một số dữ liệu dòng từ Viettel post
Thí nghiệm 60
Nhìn chung dữ liệu chữ viết tay tiếng Việt được lấy từ biểu mẫu của Viettel post tổng hợp các nét chữ đa dạng, mỗi biểu mẫu là một nét chữ khác nhau, tuy nhiên số lượng dữ liệu thu thập được vẫn chưa đủ nhiều. Nền của chữ đa phần là nền trắng hơi ngã vàng, có dịng dấu chấm. Độ khó để nhận dạng chữ viết đối với dữ liệu này cao, bởi vì nhiều nét chữ nguệch ngoạc khơng rõ ràng, nhiều từ viết tắt và đặt dấu câu khơng chính xác, nhiều hàng bị xếp chồng lên nhau dẫn đến bị nhiễu. Hình 5.6 tổng hợp một số trường hợp dữ liệu dòng được cắt ra từ tờ gửi Viettel post.
5.3 Kết quả thí nghiệm
Chúng tơi đã tiến hành thực hiện thử nghiệm các mơ hình nhận dạng chữ viết tay đã được đề cập ở các chương trước để từng bước tìm ra được phương pháp sử dụng cuối cùng. Tất cả các thí nghiệm được chúng tơi thực hiện trên cùng một thiết bị để đưa ra được các đánh giá một cách khách quan nhất.
Ngoài ra, trong các bảng đánh giá bên dưới, chúng tơi có sử dụng thêm hai độ đo là Accuracy (ACC) và Accuracy by char (ACC by char). Trong đó, Accuracy là tỉ lệ số lượng textline có kết quả dự đốn được trùng khớp hồn tồn với nhãn của textline tương ứng trong tập dữ liệu đang đánh giá; Accuracy by char là tỉ lệ số lượng kí tự trùng khớp giữa kết quả dự đoán và nhãn của textline tương ứng trong tập dữ liệu.
5.3.1 Kết quả trên tập dữ liệu VNOnDB
Đầu tiên chúng tôi huấn luyện các mơ hình CRNN, Attention-based Seq2Seq và Transformer trên tập dữ liệu VNOnDB bao gồm tập word và tập line. Trong đó các mơ hình đều có cùng backbone cho phần trích xuất đặc trưng là VGG19, mơ hình CRNN được sử dụng là VGG19 kết hợp với LSTM.
Cơ sở để chúng tôi chọn tập VNOnDB là vì đây được xem là một tập dữ liệu chuẩn về chữ viết tay tiếng Việt và đã được sử dụng rộng rãi trong mục đích nghiên cứu. Chúng tơi đã tiến hành huấn luyện và đánh giá để chứng minh tính khả thi của mơ hình mà chúng tơi đã đề xuất sử dụng. Số liệu được thể hiện thông qua Bảng 5.7 đối với tập VNOnDB-word và Bảng 5.9 đối với tập VNOnDB-line.
Bảng 5.7: Một số thử nghiệm được thực hiện trên tập dữ liệu VNONDB-word
Mơ hình Tập kiểm tra
CER WER ACC(%) ACC by char(%)
CRNN 0.032 0.078 91.52 95.18
Attention-based Seq2Seq 0.027 0.071 92.91 96.98
Thí nghiệm 61
Bảng 5.8: Một số thử nghiệm được thực hiện trên tập dữ liệu VNONDB-line
Mơ hình Tập kiểm tra
CER WER ACC(%) ACC by char (%)
CRNN - - - -
Attention-based Seq2Seq 0.052 0.135 21.62 77.55
Transformer 0.042 0.119 25.17 81.11
Qua các kết quả thí nghiệm được thực hiện trên hai tập dữ liệu được thể hiện ở Bảng 5.7 và Bảng 5.8 cho thấy rằng kết quả được thực hiện trên mơ hình CNN- Transformer vượt trội hơn so với các mơ hình cịn lại về tất cả các độ đo. Riêng mơ hình CRNN (CNN-LSTM) khơng hội tụ trong q trình huấn luyện trên tập line, tại đây chúng tơi có nhận xét rằng dữ liệu dưới mức độ câu của tập VNOnDB khá dài, nếu chỉ sử dụng LSTM thơng thường thì khơng thể nhớ được thơng tin dài hạn như đã được trình bày ở phần nhược điểm của mơ hình CRNN. Chi tiết hơn có thể thấy rằng, việc thay mơ hình Transformer cho mơ hình LSTM trong mơ hình Attention-based Seq2Seq đã giúp cải thiện đáng kể về kết quả khi so sánh giữa hai mơ hình này. Đối với tập word, cải thiện 11.11% cho CER, 9.86% cho WER, Accuracy tăng thêm 0.69% và Accuracy by char tăng thêm 0.35%. Đối với tập line, cải thiện 19.23% cho CER, 11,85% cho WER, Accuracy tăng thêm 3.55% và Accuracy by char tăng thêm 3.56%. Từ kết quả tính tốn chúng tơi cũng có thể đưa ra thêm nhận xét rằng, đối với dữ liệu ngắn như word thì độ chênh lệch về kết quả là khơng q xa giữa mơ hình cải tiến và mơ hình cơ sở, trong khi đối với dữ liệu dài như line thì độ chênh lệch của chúng là tương đối lớn. Điều đó chứng tỏ rằng việc sử dụng mơ hình Transformer là một đề xuất đúng đắn trong việc cải thiện kết quả mơ hình nhận dạng chữ viết tay tiếng Việt, đặc biệt là với các bài tốn có dữ liệu chữ viết tay dài như bài tốn mà chúng tơi đang muốn giải quyết.
5.3.2 Kết quả trên tập dữ liệu Cinnamon
Sau khi đã thử nghiệm trên hai tập word và line của VNOnDB thì chúng tơi đã đủ cơ sở để chứng minh rằng mơ hình đề xuất sử dụng có kết quả vượt trội so với mơ hình CRNN và mơ hình cơ sở Attention-based Seq2Seq. Từ đó, chúng tơi tiếp tục sử dụng mơ hình Transformer để huấn luyện trên tập dữ liệu Cinnamon. Kết quả đánh giá được thể hiện qua Bảng 5.3.
Bảng 5.9: Kết quả thử nghiệm của mơ hình Transformer trên dữ liệu Cinnamon
Mơ hình Tập kiểm tra
CER WER ACC(%) ACC by char(%)
Transformer 0.011 0.034 79.93 94.44
Thí nghiệm 62
Vì lý do bảo mật nên chúng tơi khơng thể thu thập tồn bộ kết quả của cuộc thi do Cinnamon tổ chức. Tuy nhiên, chúng tơi có được số liệu về độ đo WER bị che đi một phần của đội vơ địch cuộc thi. Vì WER càng thấp càng tốt nên chúng tôi đặt trường hợp tốt nhất x = 0 và sau đó so sánh thì mơ hình chúng tơi để xuất vẫn có kết quả tốt hơn khoảng 66% so với đội vơ địch của cuộc thi này. Mơ hình được đội vơ địch của cuộc thi sử dụng là mơ hình cải tiến của mơ hình CRNN, tức là CRNN kết hợp với attention.
5.3.3 Kết quả trên tập dữ liệu Viettel post
Và sau cùng chúng tơi đã tiến hành thử nghiệm mơ hình Transformer đã đề xuất trên chính tập dữ liệu của mình và thu được kết quả khả quan.
Bảng 5.10: Kết quả của mơ hình Transformer trên dữ liệu Viettel post
Độ đo Tập kiểm thử Tập kiểm tra
Không hậu xử lý Hậu xử lý Không hậu xử lý Hậu xử lý
CER 0.052 0.045 0.048 0.038
WER 0.161 0.123 0.179 0.117
ACC (%) 74.17 78.15 73.21 80.38
ACC by char (%) 90.18 91.53 91.43 94.22
Thời gian chạy trung bình trên GPU đối với mỗi textline là 0.289s đối với khơng có hậu xử lý và 0.312s đối với có hậu xử lý. Và thời gian chạy trên máy tính cá nhân thời gian trung bình 0.887s đối với khơng có hậu xử lý và 0.945s đối với có hậu xử lý trên một textline.
Về mặt lý thuyết của mơ hình Transformer với cơ chế tập trung thì mơ hình sẽ tập trung vào những vùng thông tin quan trọng. Thơng qua Hình 5.7 đã chứng tỏ được điều đó, trong q trình dự đốn các kí tự của mơ hình của Transformer sẽ tập trung vào từng vùng kí tự đang dự đốn.