Hiện tại ngôn ngữ tiếng Ba Na la tinh chưa được hỗ trợ nhận dạng trong Tesseract. Sau khi tôi tìm hiểu ngôn ngữ tiếng Ba Na la tinh thì tôi nhận thấy bảng chữ cái la tinh tiếng Ba Na khá tương đồng với bảng chữ cái la tinh tiếng Việt. Do đó, tôi đã sử dụng thư viện Tesseract tiếng Việt để nhận dạng ngôn ngữ tiếng Ba Na.
Sau khi tôi sử dụng thư viện Tesseract tiếng Việt để nhận dạng văn bản hình ảnh tiếng Ba Na thì tôi đã thống kê những kí tự bị lỗi, do những kí tự la tinh này khác kí tự la tinh tiếng Việt, như sau:
40
Hình 4. 5: Trực quan hóa trước và sau khi heuristic dữ liệu từ điển tiếng Ba Na
BẢNG KÍ TỰ BỊ LỖI THƯỜNG XUYÊN
Kí tự đúng Kí tự bị lỗi Kí tự đúng Kí tự bị lỗi Ă Ä, Â, Ã, Ấ ă ä, â, ã, ấ Ƀ È ĕ e, ẽ, ế, š C̆ C ê̆ Š Ĕ E, Ẽ, Ế ŏ ồ, õ, ö, ổ Ĭ I, Ï ô̆ ỗ 0 200 400 600 800 1000 1200 Sau h eu ris
tics ơ̆ ĕ i mĭ ơ ŏ ơ̆ ô̆ ơĭ ôĭ ĕ ê ŭ Ŭ ŭ Ŭ
279 116 34 53 156 210 568 89 2328135 159 16 120 9 175 2 Trước heuristicsð ẽ ¡ mĩ ợ ồ ố ỗ ơi ổi š Š ủ Ủ ũ Ũ
41 Ŏ Ồ, Õ, Ö, Ổ ơ ợ Ô̆ Ỗ ơ̆ ố, ỡ, ð, ớ Ơ Ợ i ¡ Ơ̆ Ố, Ỡ, Ớ ĭ ĩ, ï Ĭ Ĩ, Ï ŭ ủ, ũ, ù Ŭ Ủ, Ũ, Ù ư̆ ử, ữ, ừ
Ư̆ Ử, Ữ, Ừ ơĭ ơi
ôĭ ổi
Bảng 4. 1 Các kí tự bị lỗi thường xuyên 4.4. Thực nghiệm sửa lỗi ký tự
Sau khi thực hiện bước thống kế kê các lỗi kí tự thường xuyên bị lỗi lặp đi lặp lại theo một cấu trúc nhất định, tôi đã tập hợp lại một danh sách thay thế các lỗi này, như sau:
42
Hình 4. 7: Kết quả đạt được sau khi sửa lỗi kí tự 4.5. Đánh giá kết quả
Đối với đề tài nhận dạng văn bản hình ảnh thì độ chính xác của văn bản đầu ra là yếu tố quyết định hệ thống có đạt được kết quả mong muốn. Để đo độ chính xác này, ta sẽ so sánh văn bản dự đoán khác nhau bao nhiêu so với văn bản thực tế.
Sự khác nhau càng nhỏ, sự chính xác của văn bản dự đoán được càng lớn. Một giá trị thường được sử dụng để đo sự khác nhau giữa hai văn bản đó là Word Error Rate (WER).
WER là tỉ lệ lỗi giữa văn bản dự đoán và văn bản đúng, được đo trên số lượng từ bị thay đổi giữa hai văn bản (do bị xóa, thêm, chỉnh sửa) trong quá trình dự đoán.
Trong đó:
43 D: số lượng từ bị xoá
I: số lượng từ thêm vào C: số lượng từ chính xác
N: tổng số lượng từ (N = S + D + C)
44
Bảng 4. 2: Kết quả so sánh ocr thô và heuristic
Hình 4. 8: Biểu đồ trực quan hóa so sánh ocr thô và heuristic
0 20 40 60 80 100 120 140 160 SỐ TỪ ĐÚNG ĐỘ CHÍNH XÁC SỐ TỪ ĐÚNG ĐỘ CHÍNH XÁC Số lượng
kí tự OCR THÔ HEURISTIC
KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC
Bảng chữ cái tiếng BaNa chữ in hoa (size 14 ) Bảng chữ cái tiếng BaNa (size 12)
Bảng chữ cái tiếng BaNa (size 14) Bảng chữ cái tiếng BaNa (size 16)
KẾT KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC
STT DỮ LIỆU
Số lượng kí tự
OCR THÔ HEURISTIC
Số từ đúng Độ chính xác Số từ đúng Độ chính xác
1 Bảng chữ cái tiếng BaNa chữ in
hoa (size 14 ) 38 23 61% 26 68%
2 Bảng chữ cái tiếng BaNa (size 12) 38 25 66% 30 79%
3 Bảng chữ cái tiếng BaNa (size 14) 38 25 66% 31 82%
45
Hình 4. 9: Trực quan hóa kết quả test trên 4 tập dữ liệu
Từ hình 4.8 biểu đồ trục quan hóa kết quả test trên bốn tập dữ liệu. Tôi nhận thấy tập dữ liệu sử thi BaNa và tập dữ liệu từ điển Kriem BaNa đạt được độ chính xác trên 84%, còn hai tập dữ liệu còn lại là: dữ liệu Phong tục BaNa và dữ liệu Scan BaNa lần lượt đạt độ chính xác là: trên 65% và gần 50%.
4.6. Một số hạn chế của mô hình
• Kết quả đạt được còn phụ thuộc vào dữ liệu hình ảnh thu thập có chất lượng
chưa được tốt.
• Kết quả đạt được còn phụ thuộc vào dữ liệu hình ảnh thu thập có chất lượng
chưa được tốt.
• Size chữ quá nhỏ hay quá to cũng sẽ làm ảnh hưởng đến kết quả đầu ra
• Để nhận diện bảng chữ cái Bana được tốt còn phụ thuộc vào mô hình LSTM
trong OCR
• Kết quả nhận diện bảng chữ cái Bana in hoa chỉ đạt 68% là do kết quả đánh
giá WER
TÓM TẮT CHƯƠNG 4
Với chương 3, sau khi thực hiện mô hình đề tài, thì chương 4 này, tôi sẽ bắt đầu tiến hành thực nghiệm và đánh giá đề tài thông qua các bước:
- Thực hiện xử lý hình ảnh - Thực hiện OCR
- Nhận dạng đặc điểm các lỗi ký tự lặp đi lặp lại - Thực nghiệm sửa lỗi ký tự
- Đánh giá kết quả đạt được - Một số hạn chế của mô hình 84.31% 84.71% 49.76% 65.54% 15.69% 15.29% 50.24% 34.46% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00%
FILE SỬ THI BANA FILE TỪ ĐIỂN Kriem BANA
FILE SCAN BANA FILE PHONG TỤC BANA KẾT QUẢ TEST TRÊN 4 TẬP DỮ LIỆU
46
CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 5.1. Kết luận
Trong nghiên cứu đề tài này, tôi đã hiện thực được việc xây dựng một mô hình nhận dạng văn bản hình ảnh tiếng Ba Na thông qua việc áp dụng kĩ thuật Học Sâu (Deep Learning) kết hợp với thuật toán sửa những lỗi lặp đi lặp lại theo hướng logic. Dựa trên ý tưởng từ mô hình này, tôi áp dụng thêm nhiều phương pháp bổ trợ với sự sáng tạo cá nhân nhằm mang tính phù hợp và đạt hiệu quả tốt nhất cho việc nhận dạng và sửa lỗi chính tả trên cuốn từ điển tiếng Bơhnar Kriêm do Sở Khoa học và Công nghệ (Ủy ban nhân dân tỉnh Bình Định) và Viện Ngôn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện, sổ tay phương ngữ Tiếng Ba Na do Sở Giáo Dục và Đào Tạo Gia Lai
biên soạn Y JIL-H’MER – ĐINH VĂN HẢI – ĐINH VĂN KHOA. Việc thực nghiệm
sửa lỗi trên chính cuốn từ điển này mang tính ứng dụng cao khi góp phần lưu giữ và bảo tồn văn bản số cho từ ngữ tiếng Ba Na cũng như góp phần làm nên một nghiên cứu hiện đại vào chính ngôn ngữ dân tộc thiểu số quốc gia. Thông quá đó giúp tôi thêm tự hào và hiểu sâu sắc hơn về sự phong phú của tiếng Ba Na. Tuy chưa đem lại hiệu suất tốt nhất trong thời gian thực hiện đề tài lần này, nhưng với những kết quả hiện có thì hướng tiếp cận này mang tính khả thi trong việc phát triển khả năng sửa lỗi nhằm giúp bảo tồn văn hóa dân tộc nước nhà.
5.2. Hướng mở rộng đề tài
Ngoài những công việc đã được hiện thực trong mô hình đề xuất, tôi tin rằng những hướng mở rộng sau sẽ đem lại những kết quả đầy hứa hẹn cho các nghiên cứu trong tương lai:
Mô hình sửa lỗi này có thể kết hợp thêm với mô hình ngôn ngữ và sửa lỗi tiếng Ba Na tự động để tạo ra nhiều trường hợp ứng viên nhằm tối ưu việc sửa lỗi chính tả cho tiếng Ba Na.
Mở rộng về tính ứng dụng thì sau khi sửa được bộ từ điển này, có thể lấy làm dữ liệu huấn luyện để sửa cho những bộ từ điển khác vì có tính tương đồng trong mặt ngữ nghĩa câu cú.
47
TÓM TẮT CHƯƠNG 5
Sau khi, thực nghiệm và đánh giá ở chương 4. Ở chương 5, tôi xin kết luận đề tài và kiến nghị hướng phát triển mở rộng đề tài.
48
DANH MỤC TÀI LIỆU THAM KHẢO
[1]. KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED
OUMSIS. “Training TESSERACT Tool for Amazigh OCR”.
Internet:
https://www.researchgate.net/publication/277142272_Training_TESSERACT_Tool_f or_Amazigh_OCR
[2]. T. Pham, X. Pham and P. Le-Hong. (2017) “On the use of machine
translation-based approaches for vietnamese diacritic restoration,” 2017
International Conference on Asian Language Processing (IALP),
Singapore, pp. 272-275.
[3]. C. Olah. (2015) “Understanding lstm networks,” [Online].
Available: http://colah. github.io/posts/2015-08-Understanding-LSTMs/.
[4]. Wikipedia, “Người Ba Na”
Internet: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na.
[5]. TRẦN LÊ TÚY PHƯỢNG, “Dân ca dân nhạc VN – Dân ca
Bahnar/Ba Na”.
Internet: https://cvdvn.net/2015/07/27/dan-ca-dan-nhac-vn-dan-ca-bahnarba-na/
[6]. Wikipedia, “Optical character recognition.”
Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct. 18, 2020.
[7]. F. Zelic, A. Sable. “A comprehensive guide to OCR with Tesseract,
OpenCV and Python.”
Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools
[8]. Joseph Howse. “OpenCV Computer Vision with Python”
Internet: https://fr.scribd.com/book/253052074/OpenCV-Computer-Vision-with-
Python
[9]. D E N N Y B R I T Z . “ Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs”
49 Internet:
https://wwwwildmlcom.translate.goog/2015/09/recurrentneuralnetworkstutorialpart1in troductiotornns/?_x_tr_sch=http&_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto= nui,op,sc
[10]. C. Olah. “Understanding lstm networks.”
Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020.
[11]. Afshine Amidi và Shervine Amidi Dịch bởi Phạm Hồng Vinh và Đàm Minh
Tiến “Mạng neural tích chập cheatsheet”. Internet:
https://stanford.edu/~shervine/l/vi/teaching/cs230/cheatsheetconvolutionalneural- networks
[12]. Quoc Pham. “Tìm Hiểu Convolutional Neural Networks Cho Phân Loại
Ảnh”
Internet: https://pbcquoc.github.io/cnn/
[13]. Võ Huỳnh Trâm và Trần Ngân Bình, “CHƯƠNG 4: TÌM KIẾM
HEURISTIC” Internet:
https://www.academia.edu/10292262/Ch%C6%B0%C6%A1ng_4_T%C3%ACm_ki% E1%BA%BFm_Heuristic
[14]. Wikipedia. “Levenshtein distance.”
Internet:https://en.wikipedia.org/wiki/Levenshtein_distance, Dec. 20, 2020.
[15]. Aditi Mithal – “Optical Character Recognition Tool” - April 18th, 2017
[16]. Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character