Ứng dụng kỹ thuật học máy trong xây dựng mở rộng kho ngữ liệu bana kriêm

117 0 0
Ứng dụng kỹ thuật học máy trong xây dựng mở rộng kho ngữ liệu bana kriêm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TAO TRƢỜNG ĐẠI HỌC QUY NHƠN PHAN TRỌNG NGHIỆP ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định - Năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TAO TRƢỜNG ĐẠI HỌC QUY NHƠN PHAN TRỌNG NGHIỆP ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM Ngành : Khoa học dữ liệu ứng dụng Mã số : 8904648 Ngƣời hƣớng dẫn: TS VÕ GIA NGHĨA LỜI CAM ĐOAN Tôi xin cam đoan luận văn ‗Ứng dụng kỹ thuật học máy trong xây dựng mở rộng kho ngữ liệu Bana Kriêm’ là công trình nghiên cứu của bản thân dƣới sự hƣớng dẫn của TS Võ Gia Nghĩa Mọi tham khảo từ các tài liệu, công trình nghiên cứu liên quan trong nƣớc và quốc tế đều đƣợc trích dẫn rõ ràng trong luận văn Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực Tôi xin hoàn toàn chịu trách nhiệm về lời cam đoan này LỜI CẢM ƠN Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm ơn chân thành nhất đến các thầy cô trong Khoa Toán và Thống kê, khoa Công nghệ thông tin, khoa Kỹ thuật công nghệ trƣờng Đại học Quy Nhơn cũng nhƣ các thầy thính giảng ở các trƣờng, các viện ở Hà Nội và thành phố Hồ Chí Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt quá trình học tập tại trƣờng Đặc biệt cho tôi gửi lời cảm ơn sâu sắc nhất tới TS Võ Gia Nghĩa đã dành nhiều thời gian để định hƣớng và nhiệt tình hƣớng dẫn tôi cũng nhƣ tạo mọi điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất luận văn của mình Tôi xin chân thành cảm ơn! Bình Định, tháng 9 năm 2023 Học viên Phan Trọng Nghiệp MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH PHẦN 1 MỞ ĐẦU 1 1 Lý do chọn đề tài 1 2 Mục tiêu nghiên cứu 2 3 Đối tƣợng và phạm vi nghiên cứu 3 3.1 Đối tƣợng nghiên cứu 3 3.2 Phạm vi nghiên cứu 3 4 Phƣơng pháp nghiên cứu 3 5 Tính ứng dụng của đề tài 4 6 Bố cục luận văn 5 PHẦN 2 NỘI DUNG CHÍNH 6 CHƢƠNG 1 TỔNG QUAN 6 1.1 Một số đặc điểm của tiếng Bana 6 1.1.1 Ngƣời Bana 6 1.1.2 Ngôn ngữ tiếng Bana 13 1.1.3 Từ điển Bana Kriêm 13 1.1.4 Một số quy luật của tiếng Bana 15 1.2 Tình hình nghiên cứu 15 1.2.1 Tình hình nghiên cứu ngoài nƣớc 15 1.2.2 Tình hình nghiên cứu trong nƣớc 29 1.2.3 Tình hình nghiên cứu trong tỉnh Bình Định 36 1.2.4 Tình hình nghiên cứu ngôn ngữ tiếng Bana Kriêm 37 CHƢƠNG 2 GIẢI PHÁP CHUYỂN ĐỔI VĂN BẢN TỪ PDF SANG DẠNG SỐ 39 2.1 Tổng quan về Tesseract 39 2.1.1 Tiền xử lý ảnh 40 2.1.2 Thƣ viện Tesseract 41 2.1.3 Cách Tesseract hoạt động 42 2.1.4 Hạn chế của Tesseract 43 2.2 Công cụ Pytesseract 44 2.3 Thƣ viện OpenCV 44 2.4 Tổng quan về thuật giải Heuristic 48 2.4.1 Heuristic là gì 48 2.4.2 Heuristic dùng để làm gì 49 2.4.3 Ƣu điểm của thuật giải Heuristic 49 2.4.4 Phƣơng pháp xây dựng thuật giải Heuristic 49 2.4.5 Tìm kiếm kinh nghiệm (Heuristic Search) 50 2.5 Phƣơng pháp tiếp cận 51 2.5.1 Phƣơng pháp thu thập dữ liệu 51 2.5.2 Phƣơng pháp làm giàu dữ liệu (data augmentation) 51 2.5.3 Phƣơng pháp tiền xử lý dữ liệu 53 2.5.4 Các mô hình huấn luyện 54 CHƢƠNG 3 NHỮNG NỘI DUNG NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM VÀ KẾT QUẢ ĐẠT ĐƢỢC 60 3.1 Nguồn ngữ liệu 60 3.2 Nội dung nghiên cứu đề xuất giải pháp xây dựng mở rộng kho ngữ liệu Bana Kriêm 61 3.2.1 Thu thập, xử lý và lƣu trữ dữ liệu mẫu 61 3.2.2 Xây dựng kho ngữ liệu Bana Kriêm 62 3.2.3 Nghiên cứu và xây dựng giải pháp dịch Việt-Bana làm giàu dữ liệu, sử dụng các phƣơng pháp học sâu 70 3.3 Kết quả đạt đƣợc 72 3.3.1 Dữ liệu đã thu thập 72 3.3.2 Bộ ngữ liệu tiếng Bana Kriêm 82 3.3.3 Mô hình nhận dạng văn bản từ hình ảnh 84 3.3.4 Xử lý vấn đề mất cân bằng tài nguyên và vay mƣợn từ trong bài toán dịch máy Việt - Bana 86 3.3.5 Giải pháp dịch tự động từ tiếng Việt sang Bana Kriêm 92 PHẦN 3 KẾT LUẬN .95 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ .96 DANH MỤC TÀI LIỆU THAM KHẢO 97 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (BẢN SAO) .106 Tên viết tắt DANH MỤC CÁC CHỮ VIẾT TẮT DTTS KH&CN Tên đầy đủ UBND Dân tộc thiểu số KHXH Khoa học và Công nghệ OCR Ủy ban nhân dân WER Khoa học xã hội CER Optical Character Recognition LSTM Word Error Rate PDF Char Error Rate RNN Long Short-Term Memory Portable Document Format OpenCV Recurrent Neural Network I/O Open Source Computer Vision GUI API Input/ Output NN Graphical User Interface CNN Application Programming Interface NLP Neural Network BPTT Convolutional Neural Network DL Neuro-Linguistic Programming NMT Backpropagation Through Time GNMT Deep Learning HAN Neural Machine Translation BERT Google Neural Machine Translation TBMP Hierarchical Attention Network Bidirectional Encoder Representations from Transformers Transformer with BERT-fused and Masked Pointer Generator DANH MỤC CÁC BẢNG Bảng 1.1 Tóm tắt của các công trình có ngôn ngữ nguồn là tiếng Việt 35 Bảng 3.1 Các kí tự bị lỗi thƣờng xuyên 78 Bảng 3.2 Kết quả so sánh ocr thô và heuristic 83 Bảng 3.3 So sánh kết quả chuyển ngữ giữa các mô hình 89 Bảng 3.4 Ví dụ chuyển ngữ so sánh giữa các mô hình 91 Bảng 3.5 Một số kết quả dịch minh hoạ 94 DANH MỤC CÁC HÌNH Hình 1.1 Nghi thức cúng vợt sợi bông của ngƣời Bana 6 Hình 1.2 Ngƣời Bana 7 Hình 1.3 Nhà rông của ngƣời Bana 8 Hình 1.4 Phụ nữ Bana dệt vải 9 Hình 1.5 Đồng bào Bana chủ yếu sinh sống nhờ nƣơng rẫy 10 Hình 1.6 Lễ hội của ngƣời Bana 11 Hình 1.7 Múa cồng chiêng trong lễ hội đâm trâu ở Vĩnh Thạnh 12 Hình 1.8 Từ điển chữ Bana Kriêm Bình Định 13 Hình 1.9 Bảng Chữ cái và Dấu tiếng Bana 14 Hình 1.10 Kiến trúc model CRAFT 17 Hình 1.11 Kiến trúc model STAR 17 Hình 1.12 Kiến trúc model ASTER 18 Hình 1.13 Kiến trúc model EAST 19 Hình 1.14 Các bƣớc thực thi của Tesseract 20 Hình 2.1 Quá trình OCR (Optical Character Recognition process) 39 Hình 2.2 OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số 40 Hình 2.3 Kiến trúc Tesseract OCR 43 Hình 2.4 Luồng tiền xử lý dữ liệu 53 Hình 2.5 Mô hình Transformer 55 Hình 2.6 Mô hình BERT-fused NMT 56 Hình 2.7 Mô hình Transformer with BERT-fused and Masked Pointer Generator (TBMP) 57 Hình 3.1 Ảnh thu nhận và ảnh mong muốn 64 Hình 3.2 Mô hình công cụ Tesseract OCR nhận dạng văn bản hình ảnh 66 Hình 3.3 Mô hình Tesseract tiếng Việt 66 Hình 3.4 Tiến trình tạo ra các blobs 67 Hình 3.5 Ảnh thu nhận và ảnh mong muốn 68 Hình 3.6 Thuật toán heuristic sửa lỗi kí tự 69 Hình 3.7 Mô hình nhận dạng văn bản hình ảnh tiếng Bana 69

Ngày đăng: 25/03/2024, 14:51

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan