Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
2,5 MB
Nội dung
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THƠNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀI NHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tơi xin cam đoan đề tài “Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn Bản Hình Ảnh” cơng trình nghiên cứu độc lập hướng dẫn giáo viên hướng dẫn: PGS.TS Quản Thành Thơ Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, tơi cam đoan tồn phần hay phần nhỏ luận văn chưa công bố sử dụng để nhận cấp nơi khác Đề tài, nội dung báo cáo sản phẩm mà nỗ lực nghiên cứu trình học tập trường Các số liệu, kết trình bày báo cáo hoàn toàn trung thực, em xin chịu hoàn toàn trách nhiệm, kỷ luật nhà trường đề có vấn đề xảy Học viên thực Luận văn ÔN THIỆN TÀI i LỜI CẢM ƠN Lời đầu tiên, xin cảm ơn Ban Giám hiệu trường Đại học Thủ Dầu Một, Bộ phận Đào tạo Sau đại học, Giảng viên tham gia giảng dạy giúp đỡ, tạo điều kiện cho nghiên cứu suốt trình học tập thực đề tài luận văn tốt nghiệp Tôi xin cảm ơn đến Thầy PGS.TS Quản Thành Thơ cung cấp tài liệu, giúp đỡ , hướng dẫn tạo điều kiện thuận lợi trình nghiên cứu, thực đề tài Cuối xin chân thành cảm ơn đến Quý Thầy cô Hội đồng bảo vệ luận văn thạc sĩ góp ý để tơi hồn thành tốt luận văn Trân trọng cảm ơn! Học viên thực Luận văn ƠN THIỆN TÀI ii TĨM TẮT Ngày nay, bảo tồn phát huy tiếng nói, chữ viết dân tộc thiểu số cấp thiết để giữ gìn sắc văn hóa, thực quyền bình đẳng dân tộc Nhưng các loại sách báo, tư liệu tiếng nói, chữ viết dân tộc thiểu số lại khơng nhiều, có lại in giấy truyền thống Do đó, qua thời gian văn in giấy truyền thống khơng cịn chất lượng tốt, cập nhật, sửa chữa, trao đổi gập nhiều khó khăn Từ đó, nảy sinh vấn đề làm cách để khôi phục lại thông tin sách báo dạng văn số để cập nhật, tái hay để lưu trữ lâu dài Việc khơi phục lại thơng tin lưu trữ dạng hình ảnh, điển hình từ từ điển la tinh tiếng Ba Na mang đến tầm quan trọng tiếng Ba Na lưu giữ bảo tồn chúng dạng văn số Tuy nhiên việc chuyển đổi lúc mang đến xác tuyệt đối, điều dẫn đến xuất lỗi sai tả văn số làm cho kết không đạt mong muốn Mục đích nghiên cứu thực hậu xử lý cho trình nhằm cải tiến chất lượng cho văn số đầu từ bước chuyển đổi Trong phạm vi luận án, thực cách tiếp cận sau: • Thực chuyển đổi thơng tin từ hình ảnh sang văn số định dạng phù hợp gồm mục từ thân từ từ điển gốc • Xây dựng sửa lỗi dựa mơ hình ngơn ngữ mức kí tự nhằm sửa lỗi tả cho tiếng Ba Na Mở rộng thêm với phương thức nhằm tăng cường khả sửa lỗi cho mơ hình • Đề xuất chiến lược cho mơ hình ngơn ngữ việc đánh giá kí tự nguyên âm lỗi sai nhằm phù hợp với thực tế tốn Bên cạnh đó, dùng kĩ thuật nghiệm suy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết tốt Kết thực nghiệm cho thấy mơ hình đề xuất mang tính ứng dụng cao giúp cải thiện chất lượng cho kết thu từ việc chuyển đổi hình ảnh sang văn từ điển Tiếng Ba Na Sau luận văn đưa hướng mở rộng cho đề tài phát triển mơ hình nhằm đạt kết tốt sử dụng vào nghiên cứu khác liên quan đến sửa lỗi tả tiếng Ba Na iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH ẢNH viii CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1 Giới thiệu đề tài 1.2 Mục tiêu phạm vi đề tài 1.2.1 Mục tiêu nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Tính ứng dụng đề tài 1.4 Các cơng trình nghiên cứu liên quan 1.5 Thách thức toán 1.6 Phương pháp nghiên cứu 1.7 Cấu trúc luận văn TÓM TẮT CHƯƠNG CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Cơ sở lý thuyết 2.1.1 Đôi nét người Ba Na 2.1.2 Ngôn ngữ chữ BaNa 2.2 Tổng quan Tesseract 2.2.1 Tiền xử lý hình ảnh 2.2.2 Thư viện Tesseract 2.2.3 Cách Tesseract hoạt động 10 2.2.4 Hạn chế Tesseract 10 2.2.5 Công cụ Pytesseract 11 2.3 Thư viện OpenCV 11 2.4 Mạng nơ-ron hồi quy (RNN) 13 2.4.1 Phân loại toán RNN 16 2.4.2 Ứng dụng toán RNN 16 2.4.3 Huấn luyện mạng RNN 18 2.5 LSTM 18 2.6 CNN 21 2.7 Tổng quan thuật giải Heuristic 25 2.8 Khoảng cách Levenshtein 27 TÓM TẮT CHƯƠNG 29 iv CHƯƠNG 3: HIỆN THỰC MƠ HÌNH ĐỀ TÀI 30 3.1 Thu thập liệu 30 3.1.1 Xử lý trước hình ảnh 30 3.1.2 Các vấn đề xử lý ảnh 30 3.2 Xây dựng mô hình đề xuất 32 TÓM TẮT CHƯƠNG 36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 4.1 Thực xử lý hình ảnh trước 37 4.2 Thực OCR 37 4.3 Đặc điểm lỗi 39 4.4 Thực nghiệm sửa lỗi ký tự 41 4.5 Đánh giá kết 42 4.6 Một số hạn chế mơ hình 45 TÓM TẮT CHƯƠNG 45 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 46 5.1 Kết luận 46 5.2 Hướng mở rộng đề tài 46 TÓM TẮT CHƯƠNG 47 DANH MỤC TÀI LIỆU THAM KHẢO 48 v DANH MỤC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo CNN Convolutional Neural Network Mạng nơ ron tích chập DL Deep Learning Học sâu HO Humanitarian Organization Tổ chức nhân đạo LM Language Model Mô hình hóa ngơn ngữ LSTM Long Short-Term Memory Bộ nhớ dài ngắn ML Machine Learning Học máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên OpenCV Open Source Computer Vision Thị giác máy tính nguồn mỡ RNN Recurrent Neural Network Mạng nơ ron tái phát vi DANH MỤC BẢNG BIỂU Bảng Các kí tự bị lỗi thường xuyên 41 Bảng 2: Kết so sánh ocr thô heuristic 44 vii DANH MỤC HÌNH ẢNH Hình 3: Cuốn sách từ điển Ba Na – Ba Na Hình 2: Bộ bảng chữ Tiếng Ba Na (Nguồn tác giả) Hình 3: OCR tờ giấy cũ chuyển đổi sang văn số Hình 4: Quá trình OCR (Optical Character Recognition process) Hình 5: Kiến trúc Tesseract OCR 10 Hình 6: Mơ hình mạng Neural Network thơng thường 14 Hình 7: Kiến trúc mạng RNN 14 Hình 8: Các dạng toán RNN 16 Hình 9: Mơ hình dịch máy 17 Hình 10: Kiến trúc LSTM 18 Hình 11: LSTM – cổng forget 20 Hình 12: LSTM – cổng input lớp 20 Hình 13: LSTM – cập nhật trạng thái tế bào (cell state) 21 Hình 14: LSTM – lớp output 21 Hình 15: Mơ hình cấu trúc CNN 23 Hình 16: Mơ hình nhận dạng object CNN 25 Hình 17: Khoảng cách Levenshtein hai chuỗi a b 28 Hình Ảnh thu nhận ảnh mong muốn 31 Hình 3.2: Mơ hình cơng cụ Tesseract OCR nhận dạng văn hình ảnh 32 Hình 3: Mơ hình Tesseract tiếng Việt 33 Hình 6: Thuật tốn heuristic sửa lỗi kí tự 35 Hình 7: Mơ hình nhận dạng văn hình ảnh tiếng Ba Na 35 Hình 1: Kết đạt sau xử lý hình ảnh 37 Hình 2: Quá trình OCR cho việc thực từ điển Tiếng Ba Na 37 Hình 3: Kết đạt sau OCR thô 38 Hình 4: Thống kê lỗi sau sử dụng Tesseract 39 Hình 5: Trực quan hóa trước sau heuristic liệu từ điển tiếng Ba Na 40 Hình 6: Tập hợp lỗi thay 41 Hình 7: Kết đạt sau sửa lỗi kí tự 42 Hình 8: Biểu đồ trực quan hóa so sánh ocr thô heuristic 44 viii Hình 7: Kết đạt sau sửa lỗi kí tự 4.5 Đánh giá kết Đối với đề tài nhận dạng văn hình ảnh độ xác văn đầu yếu tố định hệ thống có đạt kết mong muốn Để đo độ xác này, ta so sánh văn dự đoán khác so với văn thực tế Sự khác nhỏ, xác văn dự đốn lớn Một giá trị thường sử dụng để đo khác hai văn Word Error Rate (WER) WER tỉ lệ lỗi văn dự đoán văn đúng, đo số lượng từ bị thay đổi hai văn (do bị xóa, thêm, chỉnh sửa) trình dự đốn Trong đó: S: số lượng từ bị thay 42 D: số lượng từ bị xoá I: số lượng từ thêm vào C: số lượng từ xác N: tổng số lượng từ (N = S + D + C) Ngồi ra, ta định nghĩa thêm Char Error Rate (CER) cách tương tự 43 KẾT KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC OCR THÔ Số STT DỮ LIỆU Bảng chữ tiếng BaNa chữ in lượng Số từ kí tự HEURISTIC Độ Số từ xác Độ xác 38 23 61% 26 68% Bảng chữ tiếng BaNa (size 12) 38 25 66% 30 79% Bảng chữ tiếng BaNa (size 14) 38 25 66% 31 82% Bảng chữ tiếng BaNa (size 16) 38 28 74% 32 84% hoa (size 14 ) Bảng 2: Kết so sánh ocr thô heuristic KẾT QUẢ SO SÁNH OCR THÔ VÀ HEURISTIC 160 140 120 100 80 60 40 20 SỐ TỪ ĐÚNG Số lượng kí tự ĐỘ CHÍNH XÁC OCR THƠ SỐ TỪ ĐÚNG ĐỘ CHÍNH XÁC HEURISTIC Bảng chữ tiếng BaNa chữ in hoa (size 14 ) Bảng chữ tiếng BaNa (size 12) Bảng chữ tiếng BaNa (size 14) Bảng chữ tiếng BaNa (size 16) Hình 8: Biểu đồ trực quan hóa so sánh ocr thơ heuristic 44 KẾT QUẢ TEST TRÊN TẬP DỮ LIỆU 84.31% 90.00% 84.71% 80.00% 65.54% 70.00% 60.00% 49.76% 50.00% 40.00% 34.46% 50.24% 30.00% 20.00% 15.69% 15.29% FILE SỬ THI BANA FILE TỪ ĐIỂN Kriem BANA 10.00% 0.00% FILE SCAN BANA Độ xác FILE PHONG TỤC BANA Đố sai lệch Hình 9: Trực quan hóa kết test tập liệu Từ hình 4.8 biểu đồ trục quan hóa kết test bốn tập liệu Tôi nhận thấy tập liệu sử thi BaNa tập liệu từ điển Kriem BaNa đạt độ xác 84%, cịn hai tập liệu cịn lại là: liệu Phong tục BaNa liệu Scan BaNa đạt độ xác là: 65% gần 50% 4.6 Một số hạn chế mơ hình • Kết đạt cịn phụ thuộc vào liệu hình ảnh thu thập có chất lượng chưa tốt • Kết đạt cịn phụ thuộc vào liệu hình ảnh thu thập có chất lượng chưa tốt • Size chữ nhỏ hay to làm ảnh hưởng đến kết đầu • Để nhận diện bảng chữ Bana tốt cịn phụ thuộc vào mơ hình LSTM OCR • Kết nhận diện bảng chữ Bana in hoa đạt 68% kết đánh giá WER TÓM TẮT CHƯƠNG Với chương 3, sau thực mơ hình đề tài, chương này, bắt đầu tiến hành thực nghiệm đánh giá đề tài thông qua bước: - Thực xử lý hình ảnh Thực OCR Nhận dạng đặc điểm lỗi ký tự lặp lặp lại Thực nghiệm sửa lỗi ký tự Đánh giá kết đạt Một số hạn chế mơ hình 45 CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 5.1 Kết luận Trong nghiên cứu đề tài này, thực việc xây dựng mơ hình nhận dạng văn hình ảnh tiếng Ba Na thơng qua việc áp dụng kĩ thuật Học Sâu (Deep Learning) kết hợp với thuật toán sửa lỗi lặp lặp lại theo hướng logic Dựa ý tưởng từ mơ hình này, áp dụng thêm nhiều phương pháp bổ trợ với sáng tạo cá nhân nhằm mang tính phù hợp đạt hiệu tốt cho việc nhận dạng sửa lỗi tả từ điển tiếng Bơhnar Kriêm Sở Khoa học Công nghệ (Ủy ban nhân dân tỉnh Bình Định) Viện Ngơn ngữ học (Viện Khoa học xã hội Ba Na Nam) hợp tác thực hiện, sổ tay phương ngữ Tiếng Ba Na Sở Giáo Dục Đào Tạo Gia Lai biên soạn Y JIL-H’MER – ĐINH VĂN HẢI – ĐINH VĂN KHOA Việc thực nghiệm sửa lỗi từ điển mang tính ứng dụng cao góp phần lưu giữ bảo tồn văn số cho từ ngữ tiếng Ba Na góp phần làm nên nghiên cứu đại vào ngơn ngữ dân tộc thiểu số quốc gia Thơng q giúp tơi thêm tự hào hiểu sâu sắc phong phú tiếng Ba Na Tuy chưa đem lại hiệu suất tốt thời gian thực đề tài lần này, với kết có hướng tiếp cận mang tính khả thi việc phát triển khả sửa lỗi nhằm giúp bảo tồn văn hóa dân tộc nước nhà 5.2 Hướng mở rộng đề tài Ngồi cơng việc thực mơ hình đề xuất, tơi tin hướng mở rộng sau đem lại kết đầy hứa hẹn cho nghiên cứu tương lai: Mơ hình sửa lỗi kết hợp thêm với mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động để tạo nhiều trường hợp ứng viên nhằm tối ưu việc sửa lỗi tả cho tiếng Ba Na Mở rộng tính ứng dụng sau sửa từ điển này, lấy làm liệu huấn luyện để sửa cho từ điển khác có tính tương đồng mặt ngữ nghĩa câu cú 46 TÓM TẮT CHƯƠNG Sau khi, thực nghiệm đánh giá chương Ở chương 5, xin kết luận đề tài kiến nghị hướng phát triển mở rộng đề tài 47 DANH MỤC TÀI LIỆU THAM KHẢO [1] KHADIJA EL GAJOUI, FADOUA ATAA ALLAH, MOHAMMED OUMSIS “Training TESSERACT Tool for Amazigh OCR” Internet: https://www.researchgate.net/publication/277142272_Training_TESSERACT_Tool_f or_Amazigh_OCR [2] T Pham, X Pham and P Le-Hong (2017) “On the use of machine translation-based International approaches Conference for on vietnamese Asian diacritic Language restoration,” Processing 2017 (IALP), Singapore, pp 272-275 [3] C Olah (2015) “Understanding lstm networks,” [Online] Available: http://colah github.io/posts/2015-08-Understanding-LSTMs/ [4] Wikipedia, “Người Ba Na” Internet: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na [5] TRẦN LÊ TÚY PHƯỢNG, “Dân ca dân nhạc VN – Dân ca Bahnar/Ba Na” Internet: https://cvdvn.net/2015/07/27/dan-ca-dan-nhac-vn-dan-ca-bahnarba-na/ [6] Wikipedia, “Optical character recognition.” Internet: https://en.wikipedia.org/wiki/Optical_character_recognition, Oct 18, 2020 [7] F Zelic, A Sable “A comprehensive guide to OCR with Tesseract, OpenCV and Python.” Internet: https://nanonets.com/blog/ocr-with-tesseract/#opensourceocrtools [8] Internet: Joseph Howse “OpenCV Computer Vision with Python” https://fr.scribd.com/book/253052074/OpenCV-Computer-Vision-with- Python [9] D E N N Y B R I T Z “ Recurrent Neural Networks Tutorial, Part – Introduction to RNNs” 48 Internet: https://wwwwildmlcom.translate.goog/2015/09/recurrentneuralnetworkstutorialpart1in troductiotornns/?_x_tr_sch=http&_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto= nui,op,sc [10] C Olah “Understanding lstm networks.” Internet: http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2020 [11] Afshine Amidi Shervine Amidi Dịch Phạm Hồng Vinh Đàm Minh Tiến “Mạng neural tích chập cheatsheet” Internet: https://stanford.edu/~shervine/l/vi/teaching/cs230/cheatsheetconvolutionalneuralnetworks [12] Quoc Pham “Tìm Hiểu Convolutional Neural Networks Cho Phân Loại Ảnh” Internet: https://pbcquoc.github.io/cnn/ [13] Võ Huỳnh Trâm Trần Ngân Bình, “CHƯƠNG 4: TÌM KIẾM HEURISTIC” Internet: https://www.academia.edu/10292262/Ch%C6%B0%C6%A1ng_4_T%C3%ACm_ki% E1%BA%BFm_Heuristic [14] Wikipedia “Levenshtein distance.” Internet: https://en.wikipedia.org/wiki/Levenshtein_distance, Dec 20, 2020 [15] Aditi Mithal – “Optical Character Recognition Tool” - April 18th, 2017 [16] Chirag Patel, Atul Patel, Dharmendra Patel – “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study” - 27 May 2014 49 50 51 52 53 54 55 56 ... tổng số người Ba Na Ba Na Nam), • Bình • Phú Định (18.175 người, chiếm 8,0% tổng số người Ba Na Ba Na Nam), Yên (4.145 người, chiếm 1,8 % tổng số người Ba Na Ba Na Nam) Người Ba Na có nhiều tên... tài ? ?Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn Bản Hình Ảnh? ?? cơng trình nghiên cứu độc lập hướng dẫn giáo viên hướng dẫn: PGS.TS Quản Thành Thơ Ngoại trừ tài liệu tham khảo trích dẫn luận văn này,... Ngôn ngữ chữ BaNa Tiếng Ba Na ngôn ngữ người Ba Na, sắc tộc thiểu số miền trung Ba Na Nam – [4] (Theo Bách khoa toàn thư mở Wikipedia) Tiếng Ba Na cịn nghiên cứu Hiện xếp loại nhóm Bắc Ba Na, thuộc