3.11 Ví dụ bóc tách thông tin

Chương 4


Luận văn đã trình bày khá đầy đủ về bài toán Nhận dạng ký tự quang học - Optical Character Recognition (OCR). Tác giả đã trình bày các khái niệm chính trong bài toán OCR nói chung cũng như các dạng tiếp cận nói riêng, bao gồm:

• Phương pháp nhận dạng từng ký tự - Character Based OCR.

• Phương pháp nhận dạng từng từ - Word Based OCR.

• Phương pháp nhận dạng từng câu - Sentence Based OCR.

• Phương pháp nhận dạng toàn form - 2D OCR.

• Phương pháp End2End kết hợp - End2End OCR.

Hơn nữa, tác giả đã trình bày đánh giá chi tiết các kỹ thuật đang được sử dụng trong các bài toán trên, và đề xuất các giải pháp tối ưu cải tiến độ chính xác, bao gồm:

• Tạo dữ liệu tiếng Việt nhân tạo từ đa dạng font chữ và câu ngữ cảnh để gia tăng dữ liệu thực tế.

• Sử dụng kỹ thuật Mixed Precision Training để tăng tốc độ xử lý của mô hình.

Ngoài ra, với mỗi thuật toán được đưa ra, tác giả đã đánh giá khả năng của thuật toán, điểm mạnh cùng với các điểm yếu và kết quả thực tế chạy được của từng thuật toán. Trong thời gian tới, tác giả sẽ tập trung vào cải thiện kết quả nghiên cứu dựa trên một số hướng sau:

• Sử dụng thuật toán Collaborative Mutual Learning (CML) [2] để tăng tốc độ mô hình trên các thiết bị cấu hình yếu.

• Sử dụng kỹ thuật Self-Supervised Learning DINO [3] nhằm tăng chất lượng mô hình CNN.

Do thời gian nghiên cứu có hạn, bài luận văn còn gặp nhiều thiếu sót, tác giả mong nhận được nhiều nhận xét, đánh giá một cách tích cực để bài luận văn được cải thiện và tiến bộ tốt hơn.

Tài liệu tham khảo

