2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
1.15 Gộp tọa độ của điểm ảnh vào đặc trưng Nguồn: [4]
1.7 Phương pháp đánh giá mô hình OCR
1.7.1 Các phương pháp đánh giá
Văn bản chính xác - Ground Truth Text
Trong bài toán OCR, văn bản chính xác là văn bản mà mô hình OCR cần nhận dạng được.
Để đánh giá độ chính xác của một mô hình OCR, người ta thường sử dụng một số tiêu chí như sau:
Precision
Precision là tỷ lệ giữa tổng số dự đoán đúng và tổng số dự đoán được tạo ra bởi mô hình.
Precision= Nr
N (1.7.1)
trong đó:
• Nr là số lượng từ hoặc ký tự mô hình dự đoán đúng.
• N là tổng số lượng từ hoặc ký tự mà mô hình dự đoán.
Recall
Recall là tỷ lệ giữa tổng số dự đoán đúng và tổng số lượng của văn bản chính xác.
Recall = Nr
N (1.7.2)
trong đó:
• Nr là số lượng từ hoặc ký tự mô hình dự đoán đúng.
• N là tổng số lượng từ hoặc ký tự của văn bản chính xác.
F1-score
F1−score là kết hợp của 2 tiêu chí Precision và Recall.
F1−score=2 Precision.Recall
Precision+Recall (1.7.3)
Khoảng cách Levenshtein
Các phương pháp trên là các phương pháp đánh giá thường dùng cho tất cả các bài toán học sâu nói chung, có thể không đủ hiệu quả để đánh giá cho một mô hình OCR.
Do kết quả của mô hình OCR và văn bản chính xác có thể có độ dài không giống nhau, nên khó có thể nói ký tự này là dự đoán đúng hay sai, vì ta khó xác định là cần so sánh nó với ký tự nào trong văn bản chính xác. Vì vậy, người ta chia lỗi của bài toán OCR thành 3 loại:
• Lỗi thay thế: Ký tự hoặc từ bị nhận diện sai.
• Lỗi chèn: Bao gồm cả những ký tự không chứa trong văn bản chính xác.
• Lỗi xóa: Ký tự bị mất hoặc bị thiếu.
Để đo mức độ sai lệch giữa 2 văn bản, người ta sử dụng khoảng cách Levenshtein, được định nghĩa là tổng số lần thay thế, chèn hoặc xóa ký tự nhỏ nhất để biến đổi văn bản này thành văn bản khác. Khoảng cách Levenshtein của 2 văn bản càng lớn, thì mức độ sai khác giữa 2 văn bản càng cao.
Dựa vào khoảng cách Levenshtein, người ta đưa ra một số phương pháp đánh giá thường được sử dụng cho mô hình OCR: Tỷ lệ lỗi ký tự - Character Error Rate (CER) và Tỷ lệ lỗi từ - Word Error Rate (WER)
Tỷ lệ lỗi ký tự - Character Error Rate (CER)
Tỷ lệ lỗi ký tự (CER) cho ta đánh giá mô hình OCR ở mức độ ký tự. CER càng thấp, khả năng đoán sai của mô hình ở mức độ ký tự càng ít. Tỷ lệ lỗi ký tự thường được sử dụng với các bài toán OCR mà văn bản là các chuỗi ký tự đặc biệt như số điện thoại, các loại mã,...
CER= S+D+I
N (1.7.4)
trong đó:
• S: Số phép thay thế
• I: Số phép chèn
• N: Số ký tự của văn bản chính xác
Tỷ lệ lỗi từ - Word Error Rate (WER)
Đối với các văn bản là các câu hoặc các đoạn văn, người ta thường đánh giá mô hình OCR theo tiêu chí Tỷ lệ lỗi từ (WER). Cách tính tương tự với tỷ lệ lỗi ký tự nhưng ở mức độ từ. W ER= Sw+Dw+Iw Nw (1.7.5) trong đó: • Sw: Số từ thay thế • Dw: Số từ bị thiếu hoặc mất • Iw: Số từ bị thêm vào • Nw: Số từ của văn bản chính xác 1.7.2 Các bộ dữ liệu đánh giá FSNS
FSNS là bộ dataset bao gồm hơn 1 triệu hình ảnh các biển báo tên đường được lấy từ chế độ xem phố của Google (Google Street View). Các hình ảnh được chụp ở nhiều góc độ với các độ sáng, chất lượng khác nhau.