2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
3.3 Dữ liệu nhân tạ o Data Generation (DG)
Bên cạnh sự phát triển của các mô hình mạng nơ-ron, các bộ dữ liệu quy mô lớn đã được công khai, đóng góp bởi cộng đồng và được sử dụng làm cơ sở để nghiên cứu, cải thiện độ chính xác. Hiện các bộ dữ liệu đang được công khai trong cộng đồng và được sử dụng trong các cuộc thi được chia thành 2 loại chính:dữ liệu thật và dữ liệu nhân tạo.
• Dữ liệu thật là những dữ liệu có trong ngoài thực tế , gồm một câu hoặc một từ được cắt ra từ các hình ảnh thực tế và được gán nhãn nội dung cho từng ảnh tương ứng. Các bộ dữ liệu [36], [38], [37], ...
• Dữ liệu nhân tạo là dữ liệu hình ảnh văn bản được được sinh ra từ các nội dung văn bản cho trước.
Tuy nhiên việc tạo ra dữ liệu thật lại tốn rất nhiều công sức và thời gian để xử lý, gán nhãn dữ liệu mà trong đó bộ dữ liệu bao gồm đủ các đặc điểm đa dạng như độ dài văn bản, phông chữ, nền, và vốn từ vựng... Bên cạnh đó số lượng hình ảnh trong các bộ dữ liệu được công khai lại rất hạn chế. Mặt khác, dữ liệu nhân tạo thì lại không tốn công sức gán nhãn, có thể kiểm soát được số lượng ảnh cũng như khả năng cải tiến mở rộng dễ dàng. Chính vì các lý do như trên, dữ liệu nhân tạo sẽ được sử dụng để tăng cường độ chính xác trong bài toán OCR tôi trình bày trong luận văn này.
3.3.1 Tổng quan Dữ liệu nhân tạo - Data Generation (DG)trong OCR trong OCR
Để mô hình học sâu được huấn luyện với các dữ liệu nhân tạo mà có thể áp dụng cho các bài toán thực tế, việc sinh ra các dữ liệu nhân tạo phải đảm
bảo có thể mô phỏng các điều kiện thực tế có thể gặp phải. Hiện nay có một số phương pháp tạo dữ liệu trong ocr như [50], [49]. Phương pháp của [50] tạo ra các dữ liệu hình ảnh chứa các từ đơn lẻ, áp dụng 6 bước:
• Tạo phông chữ: chọn ngẫu nhiên một loại phông chữ, cỡ chữ và các thuộc tính của phông chữ như in đậm, in nghiêng, gạch chân.
• Tạo bóng, viền chữ: Tạo viền chữ, các hiệu ứng bóng đổ với tỉ lệ ngẫu nhiên.
• Tạo màu sắc: tạo các lớp chữ có màu sắc ngẫu nhiên.
• Biến đổi xạ ảnh: áp dụng biến đổi xạ ảnh để mô phỏng hình ảnh trong không gian ba chiều.
• Kết hợp dữ liệu tự nhiên: Chữ tạo ra sẽ được hòa trộn với các ảnh trong tự nhiên ở tập dữ liệu cho trước.
• Tạo nhiễu: Áp dụng các phương pháp tạo nhiễu, làm mờ, nén ảnh. Vấn đề gặp trong thực tế gặp phải:
• Đầu vào của ocr là đầu ra của mô hình nhận biết dòng chữ (Text De- tection), ảnh dòng chữ được cắt ra có thể gặp các dạng chứa dòng chữ khác, chưa các hình thù khác biệt, khoảng trống, độ dài ngắn khác nhau.
• Dòng chữ có nhiều font chữ, bóng đổ, bôi đậm, màu sắc, độ nghiêng, nhiễu, lóa,...
3.3.2 Tạo dữ liệu nhân tạo giống với dữ liệu thực tế
Hình 3.5: Luồng tạo dữ liệu nhân tạo.
Trong đó các công việc triển khai được chia thành các công việc sau:
• Tổng hợp dữ liệu text (gọi là corpus) từ các nguồn online: Wikipedia, Báo chí,...
• Tổng hợp các font chữ tiếng Việt.
• Tổng hợp các hình ảnh để thay thế vào làm Background chữ.