Việc thực hiện nhận diện kí tự quang học cho dữ liệu bao gồm trích xuất từ bảng chữ cái tiếng Ba Na, hình ảnh từ cuốn từ điển tiếng Bơhnar Kriêm do Sở Khoa học và Công nghệ (Ủy ban nhân dân tỉnh Bình Định) và Viện Ngôn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện, sổ tay phương ngữ Tiếng Ba Na do Sở Giáo Dục và Đào Tạo Gia Lai biên soạn Y JIL-H’MER – ĐINH VĂN HẢI – ĐINH VĂN KHOA,….được bắt đầu từ tập dữ liệu đã được quét sẵn ra hình ảnh số, sau đó tôi đã tiến hành dùng công cụ Pytesseract để trích xuất thông tin ra văn bản số giúp xử lý sau này. Dưới đây là quy trình OCR trên cuốn từ điển:
38
Mục tiêu chính của bước này chính ra sinh ra văn bản số -file text (*.txt) từ tập hình ảnh có sẵn, tôi đã tiến hành các bước theo tuần tự sau:
Lần lượt đọc các ảnh (*.jpg), mỗi ảnh ứng với 1 trang trong cuốn từ điển. Thực hiện bước tiền xử lý lọc nhiễu (noise filtering).
Chuyển qua thực hiện nhận dạng cạnh (canny edge detection) giúp nâng cao khả năng trích xuất thông tin.
Thực hiện chỉnh độ nghiêng (skew correction) giúp tính góc trên hình ảnh sau cắt giúp hình ảnh thắng làm tăng hiệu suất cho việc nhận dạng kí tự.
Thực hiện phân đoạn vùng văn bản để cắt từng dòng từ hình ảnh, từ đó dùng Pytesseract để trích xuất thông tin từ hình ảnh ra file text.
Tiếp theo, dùng phương pháp suy nghiệm (heuristic) thực hiện bước sửa những kí tự bị lỗi lặp đi lặp theo hướng có logic.
39