Phương pháp đánh giá

Một phần của tài liệu Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp) (Trang 67)

4.2.1 Giai đoạn 1:

4.2.1.1. Confusion matrix

Confusion Matrix (Hình 4-3: Confusion Matrix) cung cấp một cách chi tiết để đánh giá kết quả của một thuật toán phân loại có giám sát (supervised learning). Một ma trận nhầm lẫn chia kết quả thành hai loại: giá trị (nhãn) dự đoán và giá trị (nhãn) thực tế của các điểm dữ liệu.

Hình 4-3: Confusion Matrix1 Trong đó:

− True Positive (TP): trường hợp dương tính và được dự đoán dương tính.

− True Negative (TN): trường hợp âm tính và được dự đoán âm tính.

− False Positive (FP): trường hợp âm tính và được dự đoán dương tính.

− False Negative (FN): trường hợp dương tính và được dự đoán âm tính.

68

4.2.1.2. Precision and Recall

Precision được định nghĩa là tỉ lệ số điểm True Positive trong tổng số những điểm được phân loại là Positive (TP + FP).

Precision = TP TP + FN

Recall được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm thật sự là Positive (TP +FN).

Recall = TP TP + FN

4.2.1.3. Intersection over Union (IoU)

Intersection over Union (IoU) được dùng làm tiêu chuẩn để đánh giá cho bài toán phát hiện đối tượng trên ảnh, bằng cách đánh giá mức độ overlap (trùng lắp) giữa 2 bounding boxes. Kết quả IoU được cho là tốt khi >=0,5.

4.2.1.4. Average Precision (AP)

Giả sử có N ngưỡng để tính precision và recall, mỗi ngưỡng có 1 cặp giá trị

(𝑃𝑛, 𝑅𝑛) với 𝑛 = 1, 2, . . . , 𝑁. Precision-Recall curve được vẽ bằng cách vẽ từng điểm có toạ độ (𝑃𝑛, 𝑅𝑛) trên trục toạ độ và nối chúng với nhau.

69

Hình 4-4: Đồ thị mối quan hệ của precision, recall (Precision-Recall curve)1. Average precision được định nghĩa là diện tích phần phía dưới đường biểu diễn mối quan hệ của precision và recall. AP thường được tính xấp xỉ bằng công thức như sau:

𝐴𝑃 = ∑(𝑅𝑛 − 𝑅𝑛 − 1)

𝑛

𝑃𝑛

Trong đó: (𝑅𝑛 − 𝑅𝑛 − 1)𝑃𝑛 là diện tính hình chữ nhật có chiều rộng (𝑅𝑛 − 𝑅𝑛 − 1) và chiều cao 𝑃𝑛.

4.2.1.5. Mean Average Precision (mAP)

Mean Average Precision được tính bằng cách lấy trung bình AP của tất cả các lớp.

4.2.2 Giai đoạn 2:

4.2.2.1. Khoảng cách Levenshtein

Levenshtein là khoảng cách khác biệt giữa 2 chuỗi ký tự, khoảng cách này được đặt tên theo Vladimir Levenshtein – người đề ra khái niệm này vào năm 1965.

70

Khoảng cách Levenshtein giữa chuỗi S và chuỗi T là số bước ít nhất biến chuỗi S thành chuỗi T thông qua 3 phép biến đổi:

− Xoá 1 ký tự: “steam” → “team”.

− Thêm 1 ký tự: “steam” → “stream”.

− Thay ký tự này bằng ký tự khác: “steam” → “steal”.

Hình 4-5: Ảnh minh họa 3 phép biến đổi thêm, sửa, xóa1.

Ví dụ, khoảng cách Levenshtein giữa chuỗi “sitting” và “kitten” là 3 vì “sitting” cần ít nhất 3 bước biến đổi để trở thành “kitten”:

− Bước 1: “sitting” → “kitting” (thay thế).

− Bước 2: “kitting” → “kitteng” (thay thế).

− Bước 3: “kitteng” → “kitten” (xóa).

4.2.2.2. Độ đo CER

Trong cuộc thi Mobile-Captured Image Document Recognition for Vietnamese Receipts (MC-OCR) – Legacy, độ đo CER (Character Error Rate) được sử dụng để đánh giá kết quả được các thí sinh nộp lên.

1 https://towardsdatascience.com/evaluating-ocr-output-quality-with-character-error-rate-cer-and-word-error- rate-wer-853175297510

71

CER được xây dựng dựa trên khoảng cách Levenshtein với công thức như sau:

𝐶𝐸𝑅 = 𝑖 + 𝑠 + 𝑑 𝑛

Trong đó:

− 𝑖 + 𝑠 + 𝑑 là số bước biến đổi ở mức ký tự ít nhất để chuyển kết quả dự đoán được thành đáp án thực tế (groundtruth).

− 𝑛 là số ký tự trong đáp án thực tế.

Thông thường, CER được sử dụng để đánh giá các tác vụ cần chính xác từng ký tự ví dụ như nhận dạng số điện thoại, số chứng minh thư, …

4.2.2.3. Độ đo WER

Bên cạnh CER, WER (Word Error Rate) cũng hay được dùng để đánh giá kết quả của các tác vụ nhận dạng ký tự quang học, tuy nhiên WER thường được áp dụng với những tác vụ liên quan tới nhận dạng đoạn văn, hoặc câu văn từ các từ có nghĩa.

𝑊𝐸𝑅 =𝑖𝑤 + 𝑠𝑤 + 𝑑𝑤 𝑛𝑤

Trong đó:

− 𝑖𝑤 + 𝑠𝑤 + 𝑑𝑤 là số bước biến đổi ở mức từ ít nhất để chuyển kết quả dự đoán được thành đáp án thực tế (groundtruth).

− 𝑛𝑤 là số từ trong đáp án thực tế.

4.3. Quy trình thực nghiệm và đánh giá 4.3.1 Thu thập và tiền xử lý dữ liệu 4.3.1 Thu thập và tiền xử lý dữ liệu

− Thu thập ảnh, xử lý, gán nhãn ảnh.

− Tạo 3 folder: train, val, test lần lượt chứa ảnh tập train, tập validation, tập test.

72

4.3.2 Cài đặt môi trường

− Link reference: https://github.com/open-mmlab/mmdetection − Yêu cầu cài đặt:

− Chuẩn bị:

+ config_faster_rcnn.py: file dùng để thiết lập cấu hình cho phương pháp Faster RCNN.

+ config_yolov3.py: file dùng để thiết lập cấu hình cho phương pháp YOLOv3.

+ config_yolof.py: file dùng để thiết lập cấu hình cho phương pháp YOLOF.

4.3.3 Huấn luyện model 4.3.3.1. Giai đoạn 1 4.3.3.1. Giai đoạn 1

(a)Phương pháp Faster R-CNN:

− Chạy huấn luyện bằng command:

(b)Phương pháp YOLOv3:

− Chạy huấn luyện bằng command:

(c)Phương pháp YOLOF:

− Chạy huấn luyện bằng command:

!python tools/train.py config_faster_rcnn.py Python v3.7.10

PyTorch: 1.7.0 CUDA >= v10.0 MMCV >= 1.3.8

!python tools/train.py config_yolov3.py

73

4.3.3.2. Giai đoạn 2

Chúng tôi tiến hành huấn luyện model TransformerOCR và AttentionOCR dựa trên hướng dẫn từ tác giả của VietOCR. Đầu tiên, chúng tôi chuẩn bị dữ liệu để huấn luyện theo yêu cầu của model.

Hình 4-6: Cấu trúc thư mục dữ liệu được yêu cầu (ảnh cắt từ trang hướng dẫn sử dụng model1).

Hình 4-7: Định dạng file nhãn theo yêu cầu (ảnh cắt từ trang hướng dẫn sử dụng model2).

Dựa trên yêu cầu của model, chúng tôi cắt các bounding box từ các ảnh của bộ train và bộ val thành các ảnh riêng biệt, chỉ chứa một dòng ký tự của hóa đơn, sau đó tiến hành quay ngang dòng ký tự (đối với các bounding box có chiều cao lớn hơn chiều rộng, chúng tôi xoay ảnh 90° theo chiều kim đồng hồ), sau đó, chúng tôi tiến hành tạo file nhãn dựa trên nhãn của bộ dữ liệu mới của chúng tôi.

1 https://pbcquoc.github.io/vietocr/ 2 https://pbcquoc.github.io/vietocr/

74

Dựa trên bộ dữ liệu ban đầu, chúng tôi đã tạo ra dữ liệu nhằm huấn luyện model TransformerOCR và AttentionOCR với 6,115 ảnh train và 2,190 ảnh test. Chúng tôi chạy code được tác giả cung cấp sẵn để huấn luyện cả hai model.

4.3.4 Đánh giá model 4.3.4.1. Giai đoạn 1

(a)Phương pháp Faster R-CNN:

− Tính giá trị mAP của toàn bộ tập test bằng command sau:

− Chạy kiểm thử trên tập test và lưu kết quả vào thư mục result_faster_rcnn:

(b)Phương pháp YOLOv3:

− Tính giá trị mAP của toàn bộ tập test bằng command sau:

− Chạy kiểm thử trên tập test và lưu kết quả vào thư mục result_yolov3: ! python tools/test.py config_faster_rcnn.py ./work_dirs/

config_faster_rcnn/latest.pth --show-dir result_faster_rcnn

!python tools/test.py config_ faster_rcnn.py

./work_dirs/config_faster_rcnn/latest.pth --eval bbox -- options "classwise=True"

!python tools/test.py config_ yolov3.py

./work_dirs/config_yolov3/latest.pth --eval bbox -- options "classwise=True"

! python tools/test.py config_yolov3.py ./work_dirs/ config_yolov3/latest.pth --show-dir result_yolov3

75

(c)Phương pháp YOLOF:

− Tính giá trị mAP của toàn bộ tập test bằng command sau:

− Chạy kiểm thử trên tập test và lưu kết quả vào thư mục result_yolof:

4.3.4.2. Giai đoạn 2

Chúng tôi sử dụng kết quả bounding box được dự đoán trên tập test ở giai đoạn 1 để làm đầu vào cho model TransformerOCR và AttentionOCR đã được huấn luyện. Các bounding box này sẽ được cắt ra khỏi ảnh, và quay 90º theo chiều kim đồng hồ nếu bounding box có chiều cao lớn hơn chiều rộng sau đó mới được đưa vào dự đoán trong model. Sau khi có được kết quả dự đoán từ 2 model, chúng tôi tiến hành so sánh và đánh giá kết bằng độ đo CER và WER.

4.3.5 Kết quả

4.3.5.1. Kết quả thực nghiệm

mAP

AP

SELLER ADDRESS TIMESTAMP TOTAL_COST Faster R-

CNN 57.5 59.1 63.0 53.4 54.8 YOLOv3 50.1 50.2 37.0 53.4 58.8 YOLOF 28.4 31.7 11.5 31.1 39.1

Bảng 4-1: Bảng kết quả thực nghiệm 3 phương pháp Faster R-CNN, YOLOv3 và YOLOF cho giai đoạn đầu của bài toán (Kết quả tốt nhất được in đậm).

!python tools/test.py config_ yolof.py

./work_dirs/config_yolof/latest.pth --eval bbox --options "classwise=True"

! python tools/test.py config_yolof.py ./work_dirs/ config_yolof/latest.pth --show-dir result_yolof

76

Objectection OCR CER (%/ảnh) WER (%/ảnh) Faster R-CNN TransformerOCR 26.11 32.47 AttentionOCR 26.80 33.47 YOLOv3 TransformerOCR 50.95 55.89 AttentionOCR 51.82 57.01 YOLOF TransformerOCR 95.27 95.73 AttentionOCR 95.27 95.75

Bảng 4-2: Bảng kết quả thực nghiệm và thời gian thực nghiệm của các phương pháp AttentionOCR và TransformerOCR cho giai đoạn sau của bài toán (Kết quả tốt nhất

được in đậm).

Dựa trên Bảng 4-2, ta thấy TransformerOCR có kết quả bằng hoặc cao hơn AttentionOCR khoảng từ 0% cho đến 0.87% CER hay từ 0% cho đến 1.12% WER.

4.3.5.2. Hình ảnh minh họa

(a)Phương pháp Faster R-CNN:

77

Hình 4-8. Ảnh minh họa trường hợp dự đoán tốt khi thực nghiệm bằng phương pháp Faster R-CNN.

78

Hình 4-9: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp Faster R- CNN (1).

Hình 4-10: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp Faster R-CNN (2).

(b)Phương pháp YOLOv3:

79

Hình 4-11: Ảnh minh họa trường hợp dự đoán tốt bằng phương pháp YOLOv3.

80

Hình 4-12: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp YOLOv3 (dự đoán thiếu).

(c)Phương pháp YOLOF:

81

Hình 4-13: Ảnh minh họa trường hợp dự đoán tốt bằng phương pháp YOLOF.

− Trường hợp dự đoán không tốt

Hình 4-14: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp YOLOF (dự đoán thiếu).

82

Hình 4-15: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp YOLOF (Dự đoán nhiều bounding box trên một đối tượng thực tế).

Hình 4-16: Ảnh minh họa trường hợp dự đoán không tốt bằng phương pháp YOLOF (Dự đoán sai đối tượng, bounding box chỉ bao một phần của đối tượng).

4.3.5.3. Đánh giá kết quả

Sau khi tiến hành chạy thực nghiệm 3 model Faster R-CNN, YOLOv3, YOLOF thu được kết quả:

83

− Model YOLOv3 cho ra kết quả cao nhất ở lớp TIMESTAMP, lớp TOTAL_COST.

− Model Faster R-CNN cho ra kết quả cao nhất ở lớp SELLER, ADDRESS.

− Model YOLOF cho ra kết quả thấp nhất ở cả 4 lớp so với hai model còn lại là Faster R-CNN và YOLOv3.

− Có nhiều nguyên nhân dẫn đến kết quả thực nghiệm thấp:

+ Sự đa dạng định dạng hóa đơn: bố cục, định dạng font chữ, định dạng thời gian, đa dạng ngôn ngữ, độ đậm nhạt của mực in hóa đơn, …

+ Bộ dữ liệu đa dạng về: độ phân giải, ánh sáng, chiều hướng của ảnh, …

84

Chương 5. ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ

5.1. Đề xuất cải tiến

Do Faster R-CNN có kết quả cao gần như hơn YOLOv3 và YOLOF ở tất cả các cột, và đây cũng là phương pháp two-state detection do đó chúng tôi tập trung cải thiện phương pháp này. Thông qua thực nghiệm, chúng tôi nhận thấy rằng khi thay Roi Pooling của Faster R-CNN thành Precise Roi Pooling[6] thì model sẽ cho ra kết quả tốt hơn.

5.1.1 Roi Pooling

Hình 5.1: Ảnh mô tả quá trình quantization trong Roi Pooling. Vùng RoI gốc này bên ảnh trái và vùng này sẽ được ánh xạ xuống feature map 16*16 bên ảnh phải1.

Roi Pooling sử dụng max pooling trên các RoI của bức ảnh đầu vào với kích thước không cố định để ánh xạ thành các feature map có kích thước cố định. Khi ánh xạ các RoI xuống thành những feature map hình vuông có kích thước nhỏ hơn, tỉ lệ các RoI này so với feature map cũng sẽ thay đổi, bên cạnh đó, do khi làm việc trên

1 https://viblo.asia/p/deep-learning-thuat-toan-faster-rcnn-voi-bai-toan-phat-hien-duong-luoi-bo-faster-rcnn- object-detection-algorithm-for-nine-dash-line-detection-bJzKmREOZ9N

85

feature map ta chỉ có thể xét được tọa độ là các số tự nhiên, vì vậy, trong RoI Pooling ta phải sử dụng một kỹ thuật gọi là Quantization – Lượng tử hóa. Về bản chất, Quantization là một phép toán làm tròn các tọa độ tính được sau khi chia tỉ lệ tọa độ của các RoI và đưa vào để vừa với feature map.

Tuy nhiên, việc quantization này cũng gây ra một điểm yếu lớn: sự mất mát về dữ liệu. Ví dụ trong hình, ta cần phải đưa vùng RoI về feature map cố định 3 ∗ 3

sử dụng max poolng, tuy nhiên, vì sử dụng quantization mà dòng cuối cùng của RoI này đã không được sử dụng.

5.1.2 Roi Align

Để giải quyết sự mất mát dữ liệu, thay vì sử dụng quantization, RoI Align[7] sử dụng nội suy tuyến tính để có thể lấy hết được toàn bộ vùng RoI, không chỉ vậy, nội suy tuyến tính còn cho phép tọa độ của RoI là các số thực.

Thông qua việc tính toán tại điểm có tọa độ trung tâm trên từng pixel với các điểm trung tâm các pixel lân cận, ta có thể nội suy một lần nữa các điểm trong cùng vùng để suy ra được giá trị cuối cùng đưa vào feature map kết quả.

86

5.1.3 Precise Roi Pooling

Hình 5-2: Hình so sánh giữa RoI Pooling, RoI Align và Precise Roi Pooling (Ảnh từ github phương pháp).

Kế thừa từ RoI Align, Precise RoI Pooling cũng sử dụng nội suy tuyến tính để ánh xạ được RoI lên feature map. Tuy nhiên, trong quá trình pooling, thay vì tiếp tục sử dụng nội suy tuyến tính với số lượng điểm lân cận cố định được định nghĩa trước và không thích ứng được với nhiều kích thước khác nhau (Hình 5-2), Precise Roi Pooling sử dụng một đạo hàm bậc 2 với biến x và y để tính được giá trị pooling. Công thức được miêu tả dưới đây:

𝑃𝑟𝑃𝑜𝑜𝑙(𝑏𝑖𝑛, ℱ) = ∫ ∫ 𝑓(𝑥, 𝑦)𝑑𝑥𝑑𝑦 𝑥2 𝑥1 𝑦2 𝑦1 (𝑥2− 𝑥1) × (𝑦2− 𝑦1)

Việc sử dụng nguyên hàm thay vì các tham số cố định như của Roi Align sẽ giúp cho Precise Roi Pooling có thể thay đổi tốt với những RoI có kích thước khác nhau và trả về được một vector gradient liên tục cho tọa độ bounding box.

5.2. Đánh giá kết quả

Thực nghiệm cho thấy, với Precision Roi-Pooling, Faster R-CNN đã có kết quả cải thiện (Bảng 5-1, Bảng 5-2). Kết quả cải thiện này cùng với bộ dữ liệu UIT_MLReceipts được công bố trong bài báo UIT-MLReceipts: A multilingual benchmark for detecting key information in receipts (PHỤ LỤC A) được chấp nhận

87

đăng tại hội nghị khoa học 2022 IEEE 9th International Conference on Communications and Electronics (ICCE 2022).

mAP AP@50 AP@75

Faster R-CNN 57.5 86.2 72.5

Precise Faster R-CNN 58.8 87.0 74.8

Bảng 5-1: Bảng so sánh kết quả tổng quan tất cả các lớp giữa Faster R-CNN và Precision Faster R-CNN (%) (Kết quả tốt nhất được in đậm).

SELLER ADDRESS TIME STAMP

TOTAL _COST Faster R-CNN 59.1 63.0 53.4 54.8

Precise Faster R-CNN 60.4 65.4 53.5 56.0

Bảng 5-2: Bảng so sánh kết quả trên từng lớp đối tượng giữa Faster R-CNN và Precision Faster R-CNN (%) (Kết quả tốt nhất được in đậm).

CER WER Faster R-CNN 26.11 32.47 Precise Faster R-CNN 26.32 32.67

Bảng 5-3: Bảng so sánh kết quả cuối cùng của bài toàn (kết quả sau giai đoạn OCR bằng phương pháp TransformerOCR) giữa Faster R-CNN và Precision Faster R-

CNN (%) (Kết quả tốt nhất được in đậm).

Với Precision Faster R-CNN, kết quả nhận diện thông tin ở giai đoạn đầu đã được cải thiện, mAP tăng 1.3% và trên tất cả các lớp đối tượng đều nhận được kết quả cao hơn. Tuy nhiên, khi thực nghiệm phương pháp TransformerOCR trên kết quả thu được ở pha nhận diện thông tin lại thu kết quả thấp hơn (Bảng 5-3).

88

5.3. Tổng quan hệ thống ứng dụng Rút trích thông tin hóa đơn 5.3.1 Giới thiệu 5.3.1 Giới thiệu

Receipts information extract app là ứng dụng cho phép người dùng chụp hoặc tải ảnh các hóa đơn từ điện thoại để rút trích thông tin từ những hóa đơn này. Thông tin được rút trích bao gồm: tên cửa hàng (seller), địa chỉ cửa hàng (address), thời gian mua hàng (timestamp) và tổng giá trị (total cost) của hóa đơn.

Công nghệ sử dụng:

− Client: Flutter (Dart)

− Server: Flask (Python)

89

5.3.2 Phân tích và thiết kế 5.3.2.1. Thiết kế use-case

90

5.3.2.2. Thiết kế user-flow

Hình 5-4: Sơ đồ tổng quan user-flow của ứng dụng

5.3.2.3. Thiết kế kiến trúc

Một phần của tài liệu Đánh giá phương pháp rút trích thông tin hóa đơn tại việt nam (khóa luận tốt nghiệp) (Trang 67)

Tải bản đầy đủ (PDF)

(104 trang)