Đầu ra của mô hình Chargrid-OCR với đầu vào là một bức

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 63 - 65)

2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.16 Đầu ra của mô hình Chargrid-OCR với đầu vào là một bức

liệu thuộc tập dữ liệu DOE Tables [13].

2.4.2 Xử lý ảnh

2.4.2.1 Tiền xử lý

Dự liệu để huấn luyện mô hình được tổng hợp từ Wikipedia tiếng Anh [82] dưới định dạng .pdf [83]. Mỗi trang pdf có chiều dàiH và chiều rộngW

có thể được gán nhãn tự động.

Để khiến cho dữ liệu giống với thực tế, tác giả đã xử lý như sau (các phần có dấu * được thực hiện dựa trên ocrodeg [84]):

• Phông (nền) của tài liệu: ảnh tự nhiên, ảnh màu biến đổi tuyến tính (gradient background), ảnh có nhiễu nhiều cấp độ∗(multiscale noise), ảnh có nhiễu dạng sợi∗ (fibrous noise), ảnh có các đốm màu∗ (blobs).

• Làm tài liệu biến dạng: biến dạng 2D lớn∗(large 2D distortions), biến dạng 1D nhỏ∗(small 1D distortions).

• Phép biến đổi xạ ảnh: xoay, làm lệch, giãn, ...

• Làm giảm chất lượng ảnh: làm mờ gaussian, bộ lọc trung bình, làm mượt, ...

• Điểm ảnh và nén: nén jpeg, ...

• Màu: điều chỉnh độ tương phản, điều chỉnh độ sáng, ...

Các bước xử lý trên không nhất thiết phải thực hiện hết từ đầu đến cuối, có thể chọn ra một tập con các bước trên và tiến hành xử lý theo tập con đó.

2.4.2.2 Hậu xử lý

Đầu ra của mô hình Chargrid-OCR:

• Lưới kí tự (Chargrid) của văn bản.

• Những điểm ảnh thuộc hình chữ nhật bao quanh ký tự, dưới dạng ảnh nhị phân (Hình 2.17).

• Tọa độ tâm, chiều dài, chiều rộng của hình chữ nhật bao quanh ký tự.

• Tọa độ tâm của từ.

Giống với bài toán phát hiện vật thể [14], mô hình Chargrid-OCR cũng sẽ dự đoán được nhiều hình chữ nhật bao quanh ký tự (Hình 2.18). Sau khi lọc được hình chữ nhật tốt nhất, các ký tự cần được ghép lại để tạo ra một từ hoàn chỉnh.

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 63 - 65)

Tải bản đầy đủ (PDF)

(107 trang)