Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HỒNG THỊ MỸ LỆ XÂY DỰNG MƠI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ MỸ LỆ XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Ngƣời hƣớng dẫn khoa học : PGS.TS PHAN HUY KHÁNH Đà Nẵng, năm 2017 LỜI CAM ĐOAN Tơi xin cam Ďoan Ďây cơng trình nghiên cứu riêng tôi, dƣới hƣớng dẫn trực tiếp PGS.TS Phan Huy Khánh Tôi cam Ďoan kết Ďƣợc trình bày luận án trung thực, khơng chép từ luận án khác chƣa Ďƣợc công bố công trình khác Mọi trích dẫn Ďều có ghi nguồn gốc xuất xứ rõ ràng Nếu có khơng trung thực, tác giả xin chịu hoàn toàn trách nhiệm Tác giả, NCS Hồng Thị Mỹ Lệ LỜI CẢM ƠN Tơi thực luận án “Xây dựng môi trƣờng xử lý tiếng Ê Đê ứng dụng dạy học tiếng Ê Đê” dƣới hƣớng dẫn tận tình Thầy giáo PGS.TS Phan Huy Khánh Tôi Ďã nhận Ďƣợc từ thầy nhiều kiến thức chuyên môn quý báu, kinh nghiệm nghiên cứu khoa học, nhƣ yêu cầu nghiên cứu nghiêm túc suốt thời gian nghiên cứu Ďể hồn thành luận án Tơi chân thành bày tỏ lòng biết ơn kính trọng sâu sắc Ďối với thầy Trong thời gian bắt Ďầu nghiên cứu cho Ďến nay, Ďã tiếp nhận Ďƣợc kiến thức quý giá, giúp Ďỡ quan tâm nhiệt tình q thầy, từ khoa Điện, trƣờng Cao Ďẳng Công nghệ Ďến khoa Công nghệ Thông tin trƣờng Đại học Bách khoa, Đại học Đà Nẵng Quý thầy, cô Ďã tạo Ďiều kiện thuận lợi giúp học tập, nghiên cứu khoa học, tham gia hội thảo trao Ďổi chuyên môn, tiếp xúc với chuyên gia lĩnh vực xử lý ngôn ngữ tự nhiên Công nghệ Thông tin Tôi chân thành bày tỏ lời cảm ơn sâu sắc Tôi xin trân trọng cảm ơn Ban Đào tạo - Đại học Đà Nẵng, Phòng Đào tạo Trƣờng Đại học Bách khoa Ďã tạo Ďiều kiện thuận lợi cho thời gian học tập, nghiên cứu thực luận án Tôi xin ghi nhận cảm ơn cán Ban dân tộc tỉnh Đăk Lăk, TS Buôn Krông Tuyết Nhung (Đại học Tây Nguyên) Ďã tạo Ďiều kiện thuận lợi cho tơi việc tìm kiếm nguồn tài liệu liên quan Ďến tiếng Ê Đê Tôi chân thành cảm ơn tác giả báo, tài liệu, giảng công bố nghiên cứu khoa học mà tơi có sử dụng tham khảo, trích dẫn luận án Một lần nữa, trân trọng cảm ơn bạn bè Ďồng nghiệp gia Ďình Ďã cho tơi niềm tin, nghị lực lòng tâm Ďể Ďạt Ďƣợc kết mong muốn NCS Hoàng Thị Mỹ Lệ Hoàng Thị Mỹ Lệ NCS MỤC LỤC MỞ ĐẦU 1 Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu 4 Cấu trúc luận án Những Ďóng góp luận án CHƯƠNG VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Mã hóa soạn thảo văn 1.1.2 Xây dựng kho ngữ vựng 1.1.3 Tách từ gán nhãn từ loại 11 1.1.4 Bài toán dịch máy 14 1.2 XỬ LÝ TIẾNG VIỆT-KINH 17 1.2.1 Tiếng Việt bối cảnh xử lý ngôn ngữ tự nhiên 17 1.2.2 Một số kết xử lý tiếng Việt 18 1.2.3 Xu triển vọng xử lý tiếng Việt 21 1.3 XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM 21 1.3.1 Bảo tồn tiếng dân tộc thiểu số Việt Nam 21 1.3.2 Hệ thống chữ viết dân tộc thiểu số Việt Nam 24 1.3.3 Thực trạng tiếng dân tộc thiểu số Việt Nam 26 1.4 XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 27 1.4.1 Vấn Ďề xử lý ngôn ngữ dân tộc thiểu số 27 1.4.2 Khó khăn thách thức 29 1.4.3 Các phƣơng pháp tiếp cận 30 1.4.4 Định hƣớng nghiên cứu 30 1.5 KẾT LUẬN CHƢƠNG 31 CHƯƠNG MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33 2.1 XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ 33 2.1.1 Giới thiệu tiếng Ê Đê 33 2.1.2 Khó khăn xử lý tiếng Ê Đê 36 2.1.3 Xử lý tiếng Ê Đê vận dụng kết xử lý tiếng Việt 36 2.1.4 Phân cấp chức môi trƣờng xử lý tiếng Ê Đê 37 2.2 SOẠN THẢO VĂN BẢN TIẾNG Ê ĐÊ 39 2.2.1 Xử lý chữ viết tiếng dân tộc thiểu số Việt Nam 40 2.2.2 Soạn thảo văn tiếng dân tộc thiểu số Việt Nam 42 2.2.3 Soạn thảo văn tiếng Ê Đê 43 2.3 SỬ DỤNG UNICODE 48 2.3.1 Sử dụng Unicode soạn thảo văn 48 2.3.2 Chuyển Ďổi văn tiếng dân tộc thiểu số Unicode 49 2.3.3 Chuyển Ďổi văn tiếng Ê Đê dùng phông chữ riêng Unicode 50 2.4 KẾT LUẬN CHƢƠNG 52 CHƯƠNG XỬ LÝ TIẾNG Ê ĐÊ 54 3.1 HỢP NHẤT NGUỒN DỮ LIỆU SONG NGỮ VIỆT-Ê ĐÊ 54 3.1.1 Mơ hình hợp nguồn liệu song ngữ 54 3.1.2 Môi trƣờng hợp nguồn liệu song ngữ 56 3.1.3 Đánh giá mơ hình hợp nguồn liệu 58 3.2 XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 58 3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê 58 3.2.2 Cập nhật liệu vào kho ngữ vựng 61 3.2.3 Đánh giá kho ngữ vựng 62 3.3 KIỂM TRA CHÍNH TẢ ÂM TIẾT TIẾNG Ê ĐÊ 67 3.3.1 Âm tiết tiếng Ê Đê 68 3.3.2 Phát lỗi tả âm tiết tiếng Ê Đê 69 3.3.3 Giải pháp kiểm tra tả âm tiết tiếng Ê Đê 70 3.4 QUẢN LÝ KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 72 3.4.1 Bổ sung mục từ vào kho ngữ vựng 73 3.4.2 Nâng cao chất lƣợng kho ngữ vựng 73 3.4.3 Định hƣớng khai thác kho ngữ vựng song ngữ Việt-Ê Đê 75 3.5 KẾT LUẬN CHƢƠNG 75 CHƯƠNG XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ 77 4.1 DẠY VÀ HỌC TIẾNG Ê ĐÊ 77 4.1.1 Thực trạng dạy học tiếng Ê Đê 77 4.1.2 Ứng dụng quản lý kho ngữ vựng 78 4.1.3 Các ứng dụng dạy học tiếng Ê Đê 78 4.2 TRA CỨU TỪ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 79 4.2.1 Vai trò từ vựng dạy học song ngữ Việt-Ê Đê 79 4.2.2 Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 80 4.2.3 Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 83 4.3 BÀI TOÁN DỊCH MÁY VIỆT-Ê ĐÊ 83 4.3.1 Dịch máy văn Việt-Ê Đê 84 4.3.2 Giải toán tách từ tiếng Việt dịch máy Việt-Ê Đê 84 4.3.3 Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê 85 4.4 KIỂM TRA LỖI CHÍNH TẢ TIẾNG Ê ĐÊ 91 4.4.1 Vấn Ďề lỗi tả tiếng Ê Đê 91 4.4.2 Giải tốn kiểm tra lỗi tả văn tiếng Ê Đê 91 4.4.3 Xây dựng kiểm tra lỗi tả dạy học tiếng Ê Đê 93 4.5 KẾT LUẬN CHƢƠNG 95 KẾT LUẬN 96 Các kết luận án 96 Đánh giá kết 97 Hƣớng phát triển 98 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ 99 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 100 PHỤ LỤC 109 DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH Stt Chữ viết tắt Giải nghĩa Nghĩa tiếng Việt American Standard Code for Bảng mã chuẩn Hoa Kỳ dành Information Interchange cho việc chuyển Ďổi thông tin Corpus-Based Machine Dịch máy dựa ngữ liệu Translation Phƣơng pháp tiếp cận dựa Example-Based Approach mẫu có sẵn Example-Based Machine Dịch máy dựa mẫu có sẵn Translation Environment Interaction in Môi trƣờng tƣơng tác với WinVNKey WinVNKey Enabling MInority Language Công nghệ ngôn ngữ DTTS thích Engineering ứng Hyper Text Markup Ngơn ngữ Ďánh dấu siêu văn Language International Corpus of Kho ngữ liệu quốc tế tiếng Anh English International Corpus of Kho ngữ liệu quốc tế tiếng Anh English-Great Britain xứ Knowledge-Based Machine Dịch máy dựa sở tri thức Translation MInority Language Công nghệ ngôn ngữ DTTS Engineering ASCII CBMT EBA EBMT EIWVNK EMILLE HTML ICE ICE-GB 10 KBMT 11 MILLE 12 MM Maximum Matching So khớp cực Ďại 13 RBA Rule-Base Approach Phƣơng pháp tiếp cận dựa luật 14 RBMT 15 SALTMIL 16 SA 17 SMT 18 TBL 19 WFST Rule-Based Machine Dịch máy dựa luật Translation Speech And Language Cơng nghệ ngơn ngữ tiếng nói Technology for MInority cho DTTS Languages Statistical Approach Statistical-Based Machine Translation Transformation-Based Learning Weighted Finite State Transducer Phƣơng pháp tiếp cận thống kê Dịch máy kiểu thống kê Học dựa vào biến Ďổi Chuyển Ďổi trạng thái hữu hạn có trọng số DANH MỤC BẢNG BIỂU Số hiệu bảng Tên bảng Trang 1.1 Các hệ chữ viết DTTS Việt Nam 26 2.1 Bảng chữ Ê Đê 34 2.2 So sánh xử lý tiếng Việt tiếng Ê Đê 36 2.3 Bảng phân nhóm bảng chữ tiếng Ê Đê 44 2.4 Ánh xạ chữ nhóm nhóm vào Unicode 45 2.5 Qui Ďịnh cách gõ chữ nhóm nhóm 46 2.6 Cấu trúc tệp HTF 46 2.7 So sánh Ďánh giá yếu tố hiển thị chữ viết tiếng Ê Đê 47 2.8 Tệp lƣu giá trị hexa tập kí tự Ďƣợc gõ theo phơng chữ TayNguyenKey với kiểu gõ VNI 51 3.1 Kết thực nghiệm chuyển Ďổi văn phông chữ riêng sang Unicode 52 3.2 Bảng lƣu mục từ Ê Đê 60 3.3 Bảng lƣu mục từ tiếng Việt 61 3.4 Bảng lƣu KNV song ngữ Việt-Ê Đê 61 3.5 Thống kê số mục từ Ďƣợc nhập vào kho ngữ vựng qua MEDAS 62 3.6 Thống kê số lƣợng mục từ theo số âm tiết mục từ KNV Ê Đê 64 3.7 Thời gian tách từ so khớp vào KNV vùng KNV 65 3.8 Thống kê số từ chƣa có KNV tiếng Ê Đê 65 3.9 Độ bao phủ KNV Ê Đê văn tiếng Ê Đê 66 3.10 Thống kê số từ tiếng Việt chƣa có KNV tiếng Việt 66 3.11 Độ bao phủ KNV tiếng Việt văn tiếng Việt 66 Số hiệu bảng Tên bảng Trang 3.12 Mơ hình âm tiết tiếng Ê Đê 70 3.13 Ví dụ chuyển âm tiết Ê Đê sang mơ hình âm tiết 72 3.14 Thống kê số âm tiết Ê Đê sai Ďƣợc phát 74 3.15 Đánh giá KNV sau kiểm tra lỗi tả âm tiết qua Ďộ bao phủ văn tiếng Ê Đê 75 4.1 Minh họa cần thiết việc bổ sung từ vào KNV mở rộng vnTokenizer 85 4.2 Ví dụ tách từ tiếng Việt ứng với từ tiếng Ê Đê 88 4.3 Kết kiểm chứng việc xử lý trật từ từ Ďể hỏi 90 4.4 Kết thử nghiệm với số lỗi tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh 94 4.5 Bảng kết thử nghiệm tập văn 94 ... nghiên cứu xử lý tiếng Ê ê cho hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê ê Mục tiêu nghiên cứu Để Ďạt Ďƣợc mục tiêu xây dựng môi trƣờng xử lý tiếng Ê ê ứng dụng dạy học tiếng Ê ê, luận... MÔI TRƯỜNG XỬ LÝ TIẾNG Ê Ê 33 2.1 XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê Ê 33 2.1.1 Giới thiệu tiếng Ê ê 33 2.1.2 Khó khăn xử lý tiếng Ê ê 36 2.1.3 Xử lý tiếng Ê ê. .. nghiên cứu cho hoạt Ďộng nghiên cứu xử lý tiếng Ê ê 4 Mục tiêu thứ hai triển khai xây dựng ứng dụng xử lý tiếng Ê ê dạy học tiếng Ê ê dựa vào KNV Việt -Ê ê, gồm ứng dụng sau: Tra cứu trực tuyến