Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
5,04 MB
Nội dung
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ĐĂNG LINH XÂY DỰNG MƠ HÌNH NGÔN NGỮ VÀ SỬA LỖI TIẾNG BANA TỰ ĐỘNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ĐĂNG LINH XÂY DỰNG MƠ HÌNH NGƠN NGỮ VÀ SỬA LỖI TIẾNG BANA TỰ ĐỘNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tôi Nguyễn Đăng Linh, học viên lớp CH19HT02, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tôi xin cam đoan luận văn “Xây dựng mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động” nghiên cứu, tìm hiểu phát triển hướng dẫn PGS.TS Quản Thành Thơ, chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Bình Dương, ngày 23 tháng 12 năm 2021 Nguyễn Đăng Linh LỜI CẢM ƠN Để hoàn thành luận văn này, xin gửi lời cảm ơn đến tất Quý thầy cô trường Đại học Thủ Dầu Một tận tình giảng dạy truyền đạt cho tơi kiến thức hữu ích suốt q trình học tập trường Tôi xin chân thành cảm ơn Viễn thông Bình Dương Ban Giám đốc Trung tâm Cơng nghệ Thông tin Truyền thông giúp đỡ, cung cấp nhiều thông tin quý báu tạo điều kiện cho tơi q trình thu thập liệu, cảm ơn anh chị em đồng nghiệp hỗ trợ cho tơi để tơi thực tốt luận văn Hơn hết, tơi xin chân thành cảm ơn thầy hướng dẫn PGS.TS Quản Thành Thơ, người tận tình truyền đạt, dạy cho tơi kiến thức bổ ích máy học học sâu, cảm ơn thầy nhiệt tình hướng dẫn, bảo cho tơi suốt q trình tơi nghiên cứu, xây dựng hoàn thiện luận văn Xin gửi lời cảm ơn sâu sắc tới gia đình, anh chị em học viên lớp CH19HT01 CH19HT02 động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích cho để thực tốt luận văn Nguyễn Đăng Linh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG, ĐỒ THỊ CHƯƠNG MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng, phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Ý nghĩa khoa học thực tiễn 1.6 Bố cục luận văn CHƯƠNG TỔNG QUAN 2.1 Cơng trình nghiên cứu có liên quan 2.2 Người Ba Na 2.2.1 Ngôn ngữ tiếng Ba Na 2.2.2 Từ điển Ba Na Kriêm 2.2.3 Bảng chữ dấu tiếng Ba Na 2.2.4 Một số quy luật tiếng Ba Na 2.3 Vấn đề chung tồn đọng 10 CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP ĐỀ XUẤT 11 3.1 Mơ hình ngơn ngữ 11 3.2 Kiến trúc RNN 12 3.3 Kiến trúc LSTM 13 3.4 Xây dựng tập liệu tiếng Ba Na 15 3.4.1 Thu thập liệu văn 17 3.4.2 Làm giàu liệu 18 3.5 Đặt tốn cho mơ hình ngơn ngữ tiếng Ba Na 24 3.6 Đề xuất hướng giải 25 3.7 Các đặc trưng mơ hình đề xuất 26 3.7.1 Xây dựng mơ hình ngơn ngữ mức ký tự tiếng Ba Na leftto-right (Char L2R) 26 3.7.2 Xây dựng mơ hình ngơn ngữ mức ký tự tiếng Ba Na right-to-left (Char R2L) 27 3.7.3 Xây dựng mô hình ngơn ngữ mức ký tự tiếng Ba Na Look-ahead 28 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 30 4.1 Tiêu chí đánh giá với độ đo WER 30 4.2 Chuẩn bị liệu 30 4.3 Huấn luyện liệu 31 4.4 Kết thực nghiệm 32 4.4.1 Kết mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char L2R) 32 4.4.2 Kết mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char R2L) 33 4.4.3 Kết sửa lỗi kết hợp mơ hình ngơn ngữ Char L2R Char R2L 34 4.4.4 Kết mơ hình ngơn ngữ mức ký tự tiếng Ba Na Lookahead 37 4.4.5 Kết thực nghiệm kết hợp mơ hình ngơn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER 40 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44 5.1 Kết luận 44 5.2 Hướng phát triển 44 TÀI LIỆU THAM KHẢO 46 DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo LSTM Long Short-Term Memory Bộ nhớ dài ngắn ML Machine Learning Học máy RNN Recurrent Neural Network Mạng nơ ron hồi quy Char L2R Character Left to Right Model Mơ hình ngơn ngữ mức ký tự từ trái sang phải Char R2L Character Right to Left Model Mơ hình ngôn ngữ mức ký tự từ phải sang trái Look-ahead Character Look-ahead Model Mơ hình ngơn ngữ mức ký tự look-ahead LM Language Model Mơ hình ngơn ngữ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên DTTS Dân tộc thiểu số Dân tộc thiểu số DANH MỤC HÌNH VẼ Hình Dân tộc người Ba Na – nguồn: https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na Hình 2 Từ điển Bana Kriêm Bình Định - Nguồn: Sở Khoa học Cơng nghệ tỉnh Bình Định phối hợp với Viện Ngôn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn Hình Bảng chữ dấu tiếng Bana - Nguồn: Chữ Bana kriêm Bình Định - Sở Khoa học Cơng nghệ tỉnh Bình Định phối hợp với Viện Ngơn ngữ học (thuộc Viện Khoa học xã hội Việt Nam) biên soạn Hình Ứng dụng mơ hình ngơn ngữ - Nguồn: https://viblo.asia/p/languagemodeling-mo-hinh-ngon-ngu-va-bai-toan-them-dau-cau-trong-tieng-viet1VgZveV2KAw 11 Hình Mơ hình ngơn ngữ mức ký tự với RNN - nguồn https://towardsdatascience.com/character-level-language-model-1439f5dd87fe 13 Hình 3 Kiến trúc RNN - nguồn: https://towardsdatascience.com/introductionto-recurrent-neural-network-27202c3945f3 12 Hình Kiến trúc LSTM - nguồn: https://nttuan8.com/bai-14-long-short-termmemory-lstm/ 14 Hình Bản tin Việt – Ba Na huyện Vĩnh Thạnh 15 Hình Nội dung tin theo ngày 15 Hình Dữ liệu gốc 16 Hình Nội dung văn tiếng Việt - Ba Na 17 Hình Dữ liệu sau chuyển sang ngôn ngữ Ba Na quy luật heuristic 17 Hình 10 Dữ liệu dịch văn phát radio huyện Vĩnh Thạnh 18 Hình 11 Đề xuất mơ hình huấn luyện mơ hình dự đốn 26 Hình 12 mơ hình ngơn ngữ mức ký tự từ trái sang phải 27 Hình 13 mơ hình ngơn ngữ mức ký tự từ phải sang trái 28 Hình 14 Mơ hình ngơn ngữ ký tự Look-ahead 28 DANH MỤC CÁC BẢNG, ĐỒ THỊ Bảng Các từ đồng nghĩa, trái nghĩa, từ loại tiếng Bana 19 Bảng Dữ liệu phục vụ cho đề tài 31 Bảng Thời gian huấn luyện mô hình 32 Bảng Tập liệu huấn luyện kiểm thử 32 Bảng 4 Kết mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char L2R) 32 Bảng Kết mơ hình ngơn ngữ mức ký tự tiếng Ba Na (Char R2L) 33 Bảng So sánh kết hai mơ hình ngơn ngữ Char L2R Char R2L 35 Bảng Kết hợp mơ hình Char L2R Char R2L để sửa lỗi tiếng Ba Na 36 Bảng Kết thực nghiệm mơ hình Look-ahead 37 Bảng Kết thực nghiệm kết hợp 03 mơ hình ngơn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER 40 CHƯƠNG MỞ ĐẦU 1.1 Lý chọn đề tài Ngôn ngữ phương tiện giao tiếp chủ yếu người, ngơn ngữ người truyền loại thơng tin nào, diễn tả tình cảm, ám chỉ, miêu tả vật Mà ngôn ngữ thành tố văn hóa, đồng thời phương tiện bảo tồn phát triển nhiều thành tố văn hóa khác dân tộc Mơ hình ngơn ngữ đóng vai trị quan trọng nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP) tóm tắt tự động, dịch máy, phân tích cảm xúc, chatbot nhận dạng giọng nói… Trong sửa lỗi tả đóng vai trị quan trọng việc truyền đạt thơng tin xác giao tiếp, bảo tồn lưu giữ tính ngun vẹn ngơn ngữ Việt Nam có 54 dân tộc anh em, nhiều dân tộc thiểu số có chữ viết, tiêu biểu như: Tày, Chăm, Hoa, Thái, Khmer, Ê Đê, Ba Na, Mnông Việc bảo vệ đa dạng văn hóa, ngơn ngữ dân tộc trở thành vấn đề cần quan tâm Trong suốt chiều dài lịch sử, văn hóa truyền thống dân tộc thiểu số (DTTS) ln di sản q giá góp phần làm nên phong phú, đa dạng thống văn hóa Việt Nam Trong bối cảnh sống đại, việc giữ gìn, phát huy sắc văn hóa đồng bào dân tộc thiểu số nhiệm vụ cấp thiết để phát triển bền vững đất nước Thách thức phải kể đến khả đánh ngôn ngữ truyền thống, linh hồn văn hóa dân tộc, phương tiện để chuyển tải, trao truyền nghệ thuật, phong tục tập quán tộc người Trên thực tế, từ nhiều năm nay, Đảng Nhà nước nhiều địa phương có nhiều sách khuyến khích, bảo tồn văn hóa dân tộc, có trọng đến việc bảo tồn tiếng nói, chữ viết đồng bào dân tộc thiểu số Bản chất hình thái phong phú tiếng Ba Na tài nguyên liệu khiến việc xây dựng mơ hình ngơn ngữ sửa lỗi tả trở thành nhiệm vụ khó khăn Đối với tiếng Ba Na việc sửa lỗi tả điều kiện tiên cần phải thực hầu hết nguồn liệu từ văn thơ bị nhiễu có nhiều lỗi tả Hiện nay, có nhiều cơng trình nghiên cứu mơ hình ngơn ngữ kiểm tra sửa lỗi tả tự động sử dụng giải thuật học máy học sâu, chủ yếu áp dụng vào ngôn ngữ phổ biến giới Hiện nay, xu hướng hội nhập làm >> adriêng 'bă 'băn (n) >> adriêng 'bă 'băn n(ă) >> adriêng 'bă 'băn nă(m) >> adriêng 'bă 'băn năm( ) >> adriêng 'bă 'băn năm (t) >> adriêng 'bă 'băn năm t(ơ) >> adriêng 'bă 'băn năm tơ(m) >> adriêng 'bă 'băn năm tơm(a) >> adriêng 'bă 'băn năm tơma(n) =========================== [INPUT]adriêng 'bă 'băn nb x tơmang [FINAL]adriêng 'bă 'băn năm tơmang Input: Rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec STEP:1:rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec STEP:2:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec STEP:3:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lec STEP:4:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lech ============================================= [INPUT]Rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec_ [FINAL]rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong 39 ăn lech Với kết thực nghiệm mơ hình từ trái sang phải, hệ thống gặp kí tự có xác suất thấp ngưỡng đưa (0.001), thay thay kí tự có xác suất cao tạo danh sách ký tự ứng tuyển gồm kí tự danh sách kí tự có xác suất cao Sau tính xác suất xuất kí tự với ký tự từ ứng tuyển chọn xác suất cao ứng với ký tự ứng tuyển để chọn ký tự ứng tuyển làm kí tự thay 4.4.5 Kết thực nghiệm kết hợp mơ hình ngơn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER Như trình bày phần 4.1 đánh giá với độ đo WER độ đo WER thấp tính xác văn dự đốn lớn Trong lần thực nghiệm này, Hệ thống nhận đầu vào câu đoạn văn người dùng nhập từ hệ thống, Hệ thống chia đoạn văn thành câu riêng lẻ tiền xử lý liệu, hệ thống thực sữa lỗi tự động mức ký tự tiếng Ba Na kết hợp mơ hình ngơn ngữ tơi trình bày phía trên, Cuối tơi dùng độ đo WER để đánh giá tính xác văn dự đốn Bảng Kết thực nghiệm kết hợp 03 mơ hình ngôn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER 40 Input Tiếng BANA Đúng Output adriêng 'bă 'băn nb x adriêng 'bă 'băn năm adriêng 'bă 'băn năm tơman_ tơmang tơmang nhŭng lơ̆m tơmăn 'nhct nhŭng lơ̆m tơmăn 'nhct nhŭng lơ̆m tơmăn 'nhăt xê̆ 'bău xê̆ 'bău jê̆ 'bău Uĕi mănng cham, mĭ uĕi măng cham mă yôl uĕi măng cham mĭ Yôl Yôl atumg 'bơ̆l adrĭng atung 'bơ̆l adrĭng atung 'bơ̆l adrĭng tơpơh tơpơh tơpơh adriêng 'bă 'băn nb x adriêng 'bă 'băn năm adriêng 'bă 'băn năm tơmanh tơmang tơmang Pơjing rim tơdrong đat pơjing rim tơdrong đat Pơjing rim tơdrong đat đei, lơ̆m jơnang truh, đei lơ̆m jơnang truh đei lơ̆m jơnang truh huyên Vinh Thanh ling huyên vinh ling huyên Vinh Thanh ling lang krao rim nguôn lang krao rim nguôn lang krao rim nguôn lư̆k tơgŭm pơjing sơ lư̆k tơgŭm pơjing lư̆k tơgŭm pơjing sơ tâng, jơră dêh tơplih sơ tâng jơră dêh tâng jơră dêh tơplih kơ kơ̆u kinh tê 'boi tơplih kơ kơ̆u kinh tê kơ kơ̆u kinh tê 'boi tơdrong hang hoa pơtĕp 'boi tơdrong hang hoa tơdrong hang hoa pơtĕp adrĭng kjung tơdrong pơtĕp adrĭng kjung adrĭng kjung tơdrong khuiên nông tơdrong khuyên nông khuyên nông 41 WER 0.333333333 0.111111111 0 Jơnang kơsơ̆ bok 'nau jơnang tơmưt boi Jơnang kơsơ̆ bok 'nau tah đơ̆i khaiêm tah đơ̆i đơ̆i Bok inh ahrĕ ơ̆u la bok inh ahrĕi ơ̆u la bok inh ahrĕi ơ̆u la duch pơtho trươ_g duch pơtho trương duch pơtho trương pklĕi pơlĕi pơlĕi 0.666666667 Rim tơdroxxg pơnhroh rim tơdrong pơnhroh rim tơdrong pơnhroh hơdơi pơm đat weng hơdơi pơm đat weng hơdơi pơm đat weng keh kong sruôih loi keh kong sruôih loi keh kong sruôih loi pơting adring tơdrolg pơting adring tơdrong pơting adring tơdrong ăn lech ăn lech ăn lech Jơnang kơ'măng 'bă jơnang tơgŭmăng 'bă Jơnang kơ'măng 'bă năxcm chơ̆ tĕcc 'long năxcm chơ̆ tĕcc 'long năm chơ̆ tĕch 'long ŭnh ŭnh ŭnh Ducch atuxg wă tannh duch atung wă duch atung wă minh abơ̆u tŏ piê_ minh abơ̆u tŏ piêu minh abơ̆u tŏ piêu huyên vxnh thaavh huyên vinh huyên vinh huyêên vxnh than_ huyên vinh huyên vinh Ŭnh hnam inh ơĭ ŭnh hnam inh ơĭ ŭnh hnam inh ơĭ tơpơh tơpơh nu bơngai tơpơh nu bơngai nu bơngai Boi thu 'yŏk điêu tra boi thu 'yŏk điêu tra boi thu 'yŏk điêu tra soat ŭnh hnam dơnuh soat ŭnh hnam dơnuh soat ŭnh hnam dơnuh atŭc_ atŭch atŭch adriêng 'bă 'băn nam x adriêng 'bă 'băn năm adriêng 'bă 'băn năm tơman_ tơmang tơmang 0.666666667 0 Kết thực nghiệm kết hợp 03 mơ hình ngơn ngữ gồm mơ hình ngơn ngữ mức ký từ trái sang phải, mơ hình ngơn ngữ mức ký từ phải sang trái mơ hình 42 ngơn ngữ mức ký tự look-ahead đo độ đo WER Kết độ đo WER thấp nói lên độ xác văn dự đốn văn gốc Kết thực nghiệm cho thấy hệ thống thực mục tiêu đề ban đầu xây dựng mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động Kết luận chương Với mơ hình nghiên cứu, phương pháp nghiên cứu đề xuất chương 3, chương trình bày kết nghiên cứu đạt từ mơ hình huấn luyện đề xuất, kết đánh giá với độ đo WER Kết thực nghiệm đánh giá cho thấy hệ thống thực mục tiêu đề ban đầu xây dựng mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động 43 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận 5.1 Đề tài thực mục tiêu đề ban đầu Xây dựng mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động việc vận dụng kiến thức công nghệ Máy Học, dùng kỹ thuật phương pháp Học Sâu Bên cạnh đó, áp dụng thêm nhiều phương pháp sáng tạo cá nhân để quan sát nhằm cải thiện cho kết toán tốt Ở khía cạnh nghiên cứu tơi, tơi rút kết luận sau: Ưu điểm ₋ Kết thực nghiệm cho thấy mơ hình ngơn ngữ LSTM mang lại độ xác tốt so với mơ hình ngơn ngữ truyền thống ₋ Phương pháp khả thi xây dựng thêm kho ngữ liệu phục vụ huấn luyện mơ hình ngơn ngữ sửa lỗi tự động ₋ Tìm hiểu tiếng Ba Na góp phần đề xuất hướng nghiên cứu ₋ Đề tài thực mục tiêu đề ban đầu xây dựng mô hình ngơn ngữ sửa lỗi tiếng Ba Na tự động Nhược điểm ₋ Dữ liệu hạn chế ₋ Với câu dài sửa lỗi chưa tốt, cần phương pháp tiền xử lý liệu tốt ₋ Việc thực đề tài giúp thêm tự hào hiểu sâu sắc thú vị phong phú tiếng Ba Na, góp phần làm nên nghiên cứu ngôn ngữ tiếng Ba Na nói riêng ngơn ngữ tiếng DTTS khác Việt Nam Về mặt kỹ thuật, giúp hiểu sâu sắc tiếp cận với công nghệ mới, kỹ thuật xử lý Ngôn ngữ tự nhiên nói riêng nghiên cứu Học Sâu nói chung 5.2 Hướng phát triển Việc xây dựng mơ hình ngôn ngữ sửa lỗi tiếng Ba Na tự động bước đầu xử lý ngôn ngữ, nên hướng mở rộng cho đề tài này, sau nêu lên hướng phát triển liên quan đến đề tài mình: 44 ₋ Thu thập nhiều liệu tiếng Ba Na ₋ Tìm nhiều cách làm giàu liệu để có kho ngữ liệu đa dạng ₋ Tiếp tục cải tiến mơ hình ngơn ngữ sử dụng LSTM kết hợp Word2vec để xây dựng mơ hình ngơn ngữ sửa lỗi tự động mức từ ₋ Mở hướng nghiên cứu mơ hình ngơn ngữ sửa lỗi tự động cho tiếng dân tộc thiểu số khác Việt Nam ₋ Nghiên cứu thực nghiệm thêm nhiều phương pháp Học Sâu để đánh giá, so sánh giải toán ₋ Áp dụng mơ hình ngơn ngữ cho nhiều hướng nghiên cứu khác 45 TÀI LIỆU THAM KHẢO [1] Người Ba Na – Wikipedia tiếng Việt (2021), [ONLINE] Available: < https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na > [2] Sở Khoa học Công nghệ - Ủy ban nhân dân tỉnh Bình Định Viện Ngơn ngữ học – Viện Khoa học xã hội Việt Nam (2008), “Chữ Bana Kriêm Bình Định” 2008 [3] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, & Sanjeev Khudanpur (2010), “Recurrent neural network based language model” In Eleventh annual conference of the international speech communication association, 2010 [4] P H Nguyen, T D Ngo, D A Phan, T P T Dinh and T Q Huynh (2008) “Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics”, 2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies, 96-102 [5] V Tran, K Nguyen and D Bui (2016) “A Vietnamese language model based on Recurrent Neural Network”, 2016 Eighth International Conference on Knowledge and Systems Engineering (KSE), Hanoi , 274-278 [6] Dupond, Samuel (2019) "A thorough review on the current advance of neural network structures" Annual Reviews in Control 14: 200–230 [7] Christopher Olah (2015) “Understanding LSTM Networks”, [ONLINE] Available: < https://colah.github.io/posts/2015-08-Understanding-LSTMs/ > [8] Word error rate – Wikipedia (2021), [ONLINE] Available: < https://en.wikipedia.org/wiki/Word_error_rate > 46 47 48 49 50 51 52 55 ... đó, cung cấp mơ hình ngơn ngữ sửa lỗi tự động cho tiếng Ba Na mức ký tự Ứng dụng thành tựu khoa học vào xử lý cho ngôn ngữ tiếng Ba Na, từ người dùng hiểu mơ hình ngơn ngữ tiếng Ba Na nhập từ, câu... tài : ? ?Xây dựng mơ hình ngơn ngữ sửa lỗi tiếng Ba Na tự động? ?? Mục tiêu nghiên cứu 1.2 Mục đích nghiên cứu đề tài xây dựng thêm kho ngữ liệu phục vụ huấn luyện mô hình ngơn ngữ sửa lỗi tự động phân... mơ hình đề xuất 26 3.7.1 Xây dựng mơ hình ngơn ngữ mức ký tự tiếng Ba Na leftto-right (Char L2R) 26 3.7.2 Xây dựng mơ hình ngơn ngữ mức ký tự tiếng Ba Na right-to-left (Char R2L) 27 3.7.3 Xây dựng