2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
2.4 Phương pháp nhận dạng toàn form 2D OCR
2.4.3 Mô hình Chargrid-OCR
Hình 2.20: Kiến trúc Chargrid-OCR với ví dụ đầu vào và đầu ra.Đầu vào của mô hình: Đầu vào của mô hình:
• Ảnh: I ∈RHxW.
• Nhãn:
– S∈NHxW: lưới ký tự.
– Bc ∈ RHxW: ảnh nhị phân, những điểm nằm trong hình chữ nhật bao quanh ký tự có giá trị 1, những điểm nằm ngoài có giá trị 0.
– (Xc,Yc)∈(RHxW,RHxW): vị trí tương đối của điểm ảnh so với tâm của ký tự.
– (Wc,Hc) ∈ (RHxW,RHxW): chiều rộng và chiều cao của hình chữ nhật bao quanh ký tự.
– (Xw,Yw)∈ (RHxW,RHxW): tọa độ tâm của từ chứa ký tự.
Kiến trúc của mô hình được xây dừng từ 1 bộ mã hóa và 2 bộ giải mã. Hình 2.20 minh họa kiến trúc của mô hình Chargrid-OCR:
• Bộ mã hóa: bộ mã hóa được tạo nên từ nhiều khối tích chập, mỗi khối lại được tạo nên từ một chuỗi các lớp tích chập. 3 khối tích chập đầu có bước nhảy của nhân là 2, nhũng khối ở sâu hơn sẽ sử dụng lớp tích chập giãn (Dilated covolution [18]).
• Bộ giải mã: bộ giải mã thứ nhất dùng để phân tách ký tự thuộc/không thuộc hình chữ nhật bao quanh ký tự, bộ giải mã còn lại dùng để dự đoán hình chữ nhật bao quanh ký tự. Mỗi khối tích chập trong bộ giải mã được nối tắt với khối tích chập có cùng độ phân giải ở bộ mã hóa Kiến trúc của mô hình được phát triển từ kiến trúc của mạng U-Net [19]. Ở hình 2.20, ký hiệunC vàd là số lượng kênh và bước của mỗi lớp tích chập,
C được gọi là số lượng kênh cơ sở. Sau mỗi lớp tích chập, chuẩn hóa theo lô (Batch Normalization [20]) và hàm kích hoạt ReLu [21] được sử dụng. Loại bỏ trong không gian (Spatial dropout [22]) được thực hiện ngay trước các kết nối tắt. Trọng số được khởi tạo theo [30].
Đầu ra của mô hình được chia thành nhóm phân tách điểm ảnh và nhóm hồi quy. Việc huấn luyện được sử dụng 2 hàm chi phí: hàm chi phí phân loại entroy chéo (Categorical cross entropy [31]) cho nhóm phân tách điểm ảnh
(S,Bc) và hàm chi phí Huber [32] cho nhóm hồi quy (Xc,Yc,Wc,Hc,Xw,Yw). Mô hình được tối ưu bằng thuật toán SGD với giá trị đà bằng 0.9, tốc độ học
10−2 cho 360k bước đầu và 10−3 cho 360k bước tiếp theo với kích thước lô bằng 2.
2.4.4 Các kết quả tiêu biểu
2.4.4.1 Tập dữ liệu đánh giá
Các tập dữ liệu được sử dụng để đánh giá chất lượng của mô hình:
• English Business letters: tập dữ liệu là các bức thư trong doanh nghiệp với các phông chữ đa dạng, gồm 179 trang và 48.687 từ.
• DOE tables: một tập con chứa các dữ liệu dạng bảng và các cấu trúc khác được lấy ra từ tập gốc, gồm 383 trang và 133.245 từ.
2.4.4.2 Phương pháp đánh giá
Phương pháp đánh giá được tác giả sử dụng là Tỉ lệ nhận dạng từ - Word Recognition Rate (WRR). Một từ được nói là trùng với nhãn khi và chỉ khi nội dung của từ đó trùng với nội dung từ của nhãn và hình chữ nhật bao quanh được dự đoán có giao với hình chữ nhật bao quanh của nhãn. Cụ thể, WRR được tính như sau:
W RR= Nm
Nm+Nu+Ng (2.4.1) Trong đó:
Nm=số từ được dự đoán trùng với nhãn.
Nu =số từ được dự đoán không trùng với nhãn.
Ng =số từ không được dự đoán.
Khi kết hợp nhiều tập dữ liệu, WRR tổng được tính bằng tổng có trọng số của WRR của từng tập dữ liệu. Trọng số được chọn sao cho chúng có giá trị tỉ lệ thuận với số từ có trong tập dữ liệu.
2.4.4.3 Kết quả định tính
Hình 2.16 minh họa đầu ra của mô hình.
2.4.4.4 Ảnh hưởng của tập huấn luyện
Tập huấn luyện được sử dụng là EDGAR [86], dữ liệu thu được từ Wikipedia tiếng Anh và tổng hợp từ cả hai bộ. Từ hình 2.21, có thể thấy việc kết hợp 2 tập dữ liệu cho kết quả cải thiện đáng kể.
Hình 2.21: WRR trên 2 tập dữ liệu đánh giá.
2.4.4.5 So sánh với các mô hình khác
Nhiều biến thể của mô hình chargrid-OCR đã được tác giả huấn luyện, ký hiệu làChOCR−C trong đó,C là số lượng kênh cơ sở được đề cập ở 2.4.3. Mô hình được đem ra so sánh là Tesseract v3 và v4 [87]. Tác giả phát hiện việc thay đổi độ phân giải đầu vào của ảnh ảnh hưởng đến chất lượng của mô hình. Cột DPI cho biết chất lượng ảnh đàu vào dựa trên Số lượng điểm ảnh trên một inch - Dots Per Inch (DPI). Ngoài ra, thời gian xử lý (đơn vị là 1000 trang) cũng được đưa ra để so sánh.
Từ hình 2.22, có thể thấy chất lượng của mô hình ChOCR−32 tương đương với Tesseract v4 với ảnh đầu vào có độ phân giải 150 dpi. Do có thể chạy song song trên GPU, ChOCR−32 nhanh gấp 116 lần so với Tesseract v4 khi cả 2 mô hình được thực chạy trên GPU. Khi độ phân giải được tăng từ 150 dpi lên 300 dpi, độ chính xác của mô hình tăng 1-2%. Nếu tăng đồng thời
Hình 2.22: Kết quả so sánh mô hình với WRR.
cả độ phân giải và kích thước mô hình, độ chính xác của mô hình sẽ còn tăng cao hơn.ChOCR−64 với ảnh đầu vào 300 dpi là mô hình tốt nhất được đem ra so sánh.
2.4.4.6 Khả năng thích ứng
Dữ liệu được dùng để huấn luyện mô hình hoàn toàn là dữ liệu dạng tài liệu, để đánh giá chất lượng mô hình trên dạng dữ liệu khác, tác giả đã sử dụng tập SROIE [88]. Tập SROIE gồm 1000 bức ảnh dạng biên lai thu tiền, 600 ảnh dùng để huấn luyện và 400 ảnh còn lại dùng để đánh giá.
Mô hìnhChOCR−64được sử dụng để đánh giá khả năng thích ứng. Mô hình được tinh chỉnh tham số sử dụng 0 (mô hình gốc không qua tinh chỉnh), 50, 100 và 600 (toàn bộ dữ liệu) ảnh từ tập huấn luyện. Kết quả tich chỉnh được thể hiện ở hình 2.24
Có thể thấy, độ chính xác của cả ChOCR−64 và Tesseract v4 đều giảm đáng kể so với dạng tài liệu A4 2.22. Sau khi tinh chỉnh tham số của mô hình
ChOCR−64, độ chính xác có thể được cải thiện lên tối đa 85.2% sử dụng toàn bộ dữ liệu huấn luyện của tập SROIE. Hình 2.24 minh họa kết quả đầu ra của mô hình trước và sau khi tinh chỉnh tham số.
Hình 2.23: SROIE. Trái: trước khi tinh chỉnh tham số. Phải: sau khi tinh chỉnhtham số. tham số.
Hình 2.24: Kết quả tinh chỉnh tham số mô hình. Tess4 là viết tắt của Tesseractv4. v4.
2.4.5 Đánh giá hướng tiếp cận
2.4.5.1 Điểm mạnh
• Chargrid-OCR không chia nhiều bước phức tạp như các mô hình OCR truyền thống, toán bộ quá trình xử lý sử dụng một mô hình duy nhất.
• Quá trình hậu xử lý hiệu quả đối với tài liệu chứa dày đặc ký tự.
• Mô hình cho độ chính xác tương đương với các mô hình đã được thương mại hóa nhưng có cải thiện rõ và mặt tốc độ.
2.4.5.2 Điểm yếu
• Độ chính xác của mô hình khi dạng dữ liệu đầu vào thay đổi giảm mạnh.
• Không sử dụng mô hình ngôn ngữ (lanugage model) nên có thể dẫn đến các lỗi sai về mặt ngữ nghĩa.