Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.2. Phương pháp đánh giá
4.2.1 Giai đoạn 1:
4.2.1.1. Confusion matrix
Confusion Matrix (Hình 4-3: Confusion Matrix) cung cấp một cách chi tiết để đánh giá kết quả của một thuật tốn phân loại có giám sát (supervised learning). Một đánh giá kết quả của một thuật tốn phân loại có giám sát (supervised learning). Một ma trận nhầm lẫn chia kết quả thành hai loại: giá trị (nhãn) dự đoán và giá trị (nhãn) thực tế của các điểm dữ liệu.
Hình 4-3: Confusion Matrix1 Trong đó:
− True Positive (TP): trường hợp dương tính và được dự đốn dương tính.
− True Negative (TN): trường hợp âm tính và được dự đốn âm tính.
− False Positive (FP): trường hợp âm tính và được dự đốn dương tính.
− False Negative (FN): trường hợp dương tính và được dự đốn âm tính.
68
4.2.1.2. Precision and Recall
Precision được định nghĩa là tỉ lệ số điểm True Positive trong tổng số những điểm được phân loại là Positive (TP + FP).
Precision = TP TP + FN
Recall được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm thật sự là Positive (TP +FN).
Recall = TP TP + FN
4.2.1.3. Intersection over Union (IoU)
Intersection over Union (IoU) được dùng làm tiêu chuẩn để đánh giá cho bài toán phát hiện đối tượng trên ảnh, bằng cách đánh giá mức độ overlap (trùng lắp) giữa 2 bounding boxes. Kết quả IoU được cho là tốt khi >=0,5.
4.2.1.4. Average Precision (AP)
Giả sử có N ngưỡng để tính precision và recall, mỗi ngưỡng có 1 cặp giá trị
(𝑃𝑛, 𝑅𝑛) với 𝑛 = 1, 2, . . . , 𝑁. Precision-Recall curve được vẽ bằng cách vẽ từng điểm
69
Hình 4-4: Đồ thị mối quan hệ của precision, recall (Precision-Recall curve)1. Average precision được định nghĩa là diện tích phần phía dưới đường biểu diễn mối quan hệ của precision và recall. AP thường được tính xấp xỉ bằng công thức như sau:
𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − 1)
𝑛
𝑃𝑛
Trong đó: (𝑅𝑛 − 𝑅𝑛 − 1)𝑃𝑛 là diện tính hình chữ nhật có chiều rộng (𝑅𝑛 − 𝑅𝑛 − 1) và chiều cao 𝑃𝑛.
4.2.1.5. Mean Average Precision (mAP)
Mean Average Precision được tính bằng cách lấy trung bình AP của tất cả các lớp.
4.2.2 Giai đoạn 2:
4.2.2.1. Khoảng cách Levenshtein
Levenshtein là khoảng cách khác biệt giữa 2 chuỗi ký tự, khoảng cách này được đặt tên theo Vladimir Levenshtein – người đề ra khái niệm này vào năm 1965.
70
Khoảng cách Levenshtein giữa chuỗi S và chuỗi T là số bước ít nhất biến chuỗi S thành chuỗi T thơng qua 3 phép biến đổi:
− Xố 1 ký tự: “steam” → “team”.
− Thêm 1 ký tự: “steam” → “stream”.
− Thay ký tự này bằng ký tự khác: “steam” → “steal”.
Hình 4-5: Ảnh minh họa 3 phép biến đổi thêm, sửa, xóa1.
Ví dụ, khoảng cách Levenshtein giữa chuỗi “sitting” và “kitten” là 3 vì “sitting” cần ít nhất 3 bước biến đổi để trở thành “kitten”:
− Bước 1: “sitting” → “kitting” (thay thế).
− Bước 2: “kitting” → “kitteng” (thay thế).
− Bước 3: “kitteng” → “kitten” (xóa).
4.2.2.2. Độ đo CER
Trong cuộc thi Mobile-Captured Image Document Recognition for Vietnamese Receipts (MC-OCR) – Legacy, độ đo CER (Character Error Rate) được sử dụng để đánh giá kết quả được các thí sinh nộp lên.
1 https://towardsdatascience.com/evaluating-ocr-output-quality-with-character-error-rate-cer-and-word-error- rate-wer-853175297510
71
CER được xây dựng dựa trên khoảng cách Levenshtein với công thức như sau:
𝐶𝐸𝑅 = 𝑖 + 𝑠 + 𝑑 𝑛
Trong đó:
− 𝑖 + 𝑠 + 𝑑 là số bước biến đổi ở mức ký tự ít nhất để chuyển kết quả
dự đoán được thành đáp án thực tế (groundtruth).
− 𝑛 là số ký tự trong đáp án thực tế.
Thông thường, CER được sử dụng để đánh giá các tác vụ cần chính xác từng ký tự ví dụ như nhận dạng số điện thoại, số chứng minh thư, …
4.2.2.3. Độ đo WER
Bên cạnh CER, WER (Word Error Rate) cũng hay được dùng để đánh giá kết quả của các tác vụ nhận dạng ký tự quang học, tuy nhiên WER thường được áp dụng với những tác vụ liên quan tới nhận dạng đoạn văn, hoặc câu văn từ các từ có nghĩa.
𝑊𝐸𝑅 =𝑖𝑤 + 𝑠𝑤 + 𝑑𝑤 𝑛𝑤
Trong đó:
− 𝑖𝑤 + 𝑠𝑤 + 𝑑𝑤 là số bước biến đổi ở mức từ ít nhất để chuyển kết quả dự đoán được thành đáp án thực tế (groundtruth).
− 𝑛𝑤 là số từ trong đáp án thực tế.