Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 140 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
140
Dung lượng
2,42 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ MỸ LỆ XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ MỸ LỆ XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Ngƣời hƣớng dẫn khoa học : PGS.TS PHAN HUY KHÁNH Đà Nẵng, năm 2017 LỜI CAM ĐOAN Tôi xin cam Ďoan Ďây công trình nghiên cứu riêng tôi, dƣới hƣớng dẫn trực tiếp PGS.TS Phan Huy Khánh Tôi cam Ďoan kết Ďƣợc trình bày luận án trung thực, không chép từ luận án khác chƣa Ďƣợc công bố công trình khác Mọi trích dẫn Ďều có ghi nguồn gốc xuất xứ rõ ràng Nếu có không trung thực, tác giả xin chịu hoàn toàn trách nhiệm Tác giả, NCS Hoàng Thị Mỹ Lệ LỜI CẢM ƠN Tôi thực luận án “Xây dựng môi trƣờng xử lý tiếng Ê Đê ứng dụng dạy học tiếng Ê Đê” dƣới hƣớng dẫn tận tình Thầy giáo PGS.TS Phan Huy Khánh Tôi Ďã nhận Ďƣợc từ thầy nhiều kiến thức chuyên môn quý báu, kinh nghiệm nghiên cứu khoa học, nhƣ yêu cầu nghiên cứu nghiêm túc suốt thời gian nghiên cứu Ďể hoàn thành luận án Tôi chân thành bày tỏ lòng biết ơn kính trọng sâu sắc Ďối với thầy Trong thời gian bắt Ďầu nghiên cứu cho Ďến nay, Ďã tiếp nhận Ďƣợc kiến thức quý giá, giúp Ďỡ quan tâm nhiệt tình quý thầy, cô từ khoa Điện, trƣờng Cao Ďẳng Công nghệ Ďến khoa Công nghệ Thông tin trƣờng Đại học Bách khoa, Đại học Đà Nẵng Quý thầy, cô Ďã tạo Ďiều kiện thuận lợi giúp học tập, nghiên cứu khoa học, tham gia hội thảo trao Ďổi chuyên môn, tiếp xúc với chuyên gia lĩnh vực xử lý ngôn ngữ tự nhiên Công nghệ Thông tin Tôi chân thành bày tỏ lời cảm ơn sâu sắc Tôi xin trân trọng cảm ơn Ban Đào tạo - Đại học Đà Nẵng, Phòng Đào tạo Trƣờng Đại học Bách khoa Ďã tạo Ďiều kiện thuận lợi cho thời gian học tập, nghiên cứu thực luận án Tôi xin ghi nhận cảm ơn cán Ban dân tộc tỉnh Đăk Lăk, TS Buôn Krông Tuyết Nhung (Đại học Tây Nguyên) Ďã tạo Ďiều kiện thuận lợi cho việc tìm kiếm nguồn tài liệu liên quan Ďến tiếng Ê Đê Tôi chân thành cảm ơn tác giả báo, tài liệu, giảng công bố nghiên cứu khoa học mà có sử dụng tham khảo, trích dẫn luận án Một lần nữa, trân trọng cảm ơn bạn bè Ďồng nghiệp gia Ďình Ďã cho niềm tin, nghị lực lòng tâm Ďể Ďạt Ďƣợc kết mong muốn NCS Hoàng Thị Mỹ Lệ Hoàng Thị Mỹ Lệ NCS MỤC LỤC MỞ ĐẦU 1 Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu 4 Cấu trúc luận án Những Ďóng góp luận án CHƯƠNG VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Mã hóa soạn thảo văn 1.1.2 Xây dựng kho ngữ vựng 1.1.3 Tách từ gán nhãn từ loại 11 1.1.4 Bài toán dịch máy 14 1.2 XỬ LÝ TIẾNG VIỆT-KINH 17 1.2.1 Tiếng Việt bối cảnh xử lý ngôn ngữ tự nhiên 17 1.2.2 Một số kết xử lý tiếng Việt 18 1.2.3 Xu triển vọng xử lý tiếng Việt 21 1.3 XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM 21 1.3.1 Bảo tồn tiếng dân tộc thiểu số Việt Nam 21 1.3.2 Hệ thống chữ viết dân tộc thiểu số Việt Nam 24 1.3.3 Thực trạng tiếng dân tộc thiểu số Việt Nam 26 1.4 XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 27 1.4.1 Vấn Ďề xử lý ngôn ngữ dân tộc thiểu số 27 1.4.2 Khó khăn thách thức 29 1.4.3 Các phƣơng pháp tiếp cận 30 1.4.4 Định hƣớng nghiên cứu 30 1.5 KẾT LUẬN CHƢƠNG 31 CHƯƠNG MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33 2.1 XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ 33 2.1.1 Giới thiệu tiếng Ê Đê 33 2.1.2 Khó khăn xử lý tiếng Ê Đê 36 2.1.3 Xử lý tiếng Ê Đê vận dụng kết xử lý tiếng Việt 36 2.1.4 Phân cấp chức môi trƣờng xử lý tiếng Ê Đê 37 2.2 SOẠN THẢO VĂN BẢN TIẾNG Ê ĐÊ 39 2.2.1 Xử lý chữ viết tiếng dân tộc thiểu số Việt Nam 40 2.2.2 Soạn thảo văn tiếng dân tộc thiểu số Việt Nam 42 2.2.3 Soạn thảo văn tiếng Ê Đê 43 2.3 SỬ DỤNG UNICODE 48 2.3.1 Sử dụng Unicode soạn thảo văn 48 2.3.2 Chuyển Ďổi văn tiếng dân tộc thiểu số Unicode 49 2.3.3 Chuyển Ďổi văn tiếng Ê Đê dùng phông chữ riêng Unicode 50 2.4 KẾT LUẬN CHƢƠNG 52 CHƯƠNG XỬ LÝ TIẾNG Ê ĐÊ 54 3.1 HỢP NHẤT NGUỒN DỮ LIỆU SONG NGỮ VIỆT-Ê ĐÊ 54 3.1.1 Mô hình hợp nguồn liệu song ngữ 54 3.1.2 Môi trƣờng hợp nguồn liệu song ngữ 56 3.1.3 Đánh giá mô hình hợp nguồn liệu 58 3.2 XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 58 3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê 58 3.2.2 Cập nhật liệu vào kho ngữ vựng 61 3.2.3 Đánh giá kho ngữ vựng 62 3.3 KIỂM TRA CHÍNH TẢ ÂM TIẾT TIẾNG Ê ĐÊ 67 3.3.1 Âm tiết tiếng Ê Đê 68 3.3.2 Phát lỗi tả âm tiết tiếng Ê Đê 69 3.3.3 Giải pháp kiểm tra tả âm tiết tiếng Ê Đê 70 3.4 QUẢN LÝ KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 72 3.4.1 Bổ sung mục từ vào kho ngữ vựng 73 3.4.2 Nâng cao chất lƣợng kho ngữ vựng 73 3.4.3 Định hƣớng khai thác kho ngữ vựng song ngữ Việt-Ê Đê 75 3.5 KẾT LUẬN CHƢƠNG 75 CHƯƠNG XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ 77 4.1 DẠY VÀ HỌC TIẾNG Ê ĐÊ 77 4.1.1 Thực trạng dạy học tiếng Ê Đê 77 4.1.2 Ứng dụng quản lý kho ngữ vựng 78 4.1.3 Các ứng dụng dạy học tiếng Ê Đê 78 4.2 TRA CỨU TỪ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 79 4.2.1 Vai trò từ vựng dạy học song ngữ Việt-Ê Đê 79 4.2.2 Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 80 4.2.3 Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 83 4.3 BÀI TOÁN DỊCH MÁY VIỆT-Ê ĐÊ 83 4.3.1 Dịch máy văn Việt-Ê Đê 84 4.3.2 Giải toán tách từ tiếng Việt dịch máy Việt-Ê Đê 84 4.3.3 Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê 85 4.4 KIỂM TRA LỖI CHÍNH TẢ TIẾNG Ê ĐÊ 91 4.4.1 Vấn Ďề lỗi tả tiếng Ê Đê 91 4.4.2 Giải toán kiểm tra lỗi tả văn tiếng Ê Đê 91 4.4.3 Xây dựng kiểm tra lỗi tả dạy học tiếng Ê Đê 93 4.5 KẾT LUẬN CHƢƠNG 95 KẾT LUẬN 96 Các kết luận án 96 Đánh giá kết 97 Hƣớng phát triển 98 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 99 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 100 PHỤ LỤC 109 DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH Stt Chữ viết tắt Giải nghĩa Nghĩa tiếng Việt American Standard Code for Bảng mã chuẩn Hoa Kỳ dành Information Interchange cho việc chuyển Ďổi thông tin Corpus-Based Machine Dịch máy dựa ngữ liệu Translation Phƣơng pháp tiếp cận dựa Example-Based Approach mẫu có sẵn Example-Based Machine Dịch máy dựa mẫu có sẵn Translation Environment Interaction in Môi trƣờng tƣơng tác với WinVNKey WinVNKey Enabling MInority Language Công nghệ ngôn ngữ DTTS thích Engineering ứng Hyper Text Markup Ngôn ngữ Ďánh dấu siêu văn Language International Corpus of Kho ngữ liệu quốc tế tiếng Anh English International Corpus of Kho ngữ liệu quốc tế tiếng Anh English-Great Britain xứ Knowledge-Based Machine Dịch máy dựa sở tri thức Translation MInority Language Công nghệ ngôn ngữ DTTS Engineering ASCII CBMT EBA EBMT EIWVNK EMILLE HTML ICE ICE-GB 10 KBMT 11 MILLE 12 MM Maximum Matching So khớp cực Ďại 13 RBA Rule-Base Approach Phƣơng pháp tiếp cận dựa luật 14 RBMT 15 SALTMIL 16 SA 17 SMT 18 TBL 19 WFST Rule-Based Machine Dịch máy dựa luật Translation Speech And Language Công nghệ ngôn ngữ tiếng nói Technology for MInority cho DTTS Languages Statistical Approach Statistical-Based Machine Translation Transformation-Based Learning Weighted Finite State Transducer Phƣơng pháp tiếp cận thống kê Dịch máy kiểu thống kê Học dựa vào biến Ďổi Chuyển Ďổi trạng thái hữu hạn có trọng số DANH MỤC BẢNG BIỂU Số hiệu bảng Tên bảng Trang 1.1 Các hệ chữ viết DTTS Việt Nam 26 2.1 Bảng chữ Ê Đê 34 2.2 So sánh xử lý tiếng Việt tiếng Ê Đê 36 2.3 Bảng phân nhóm bảng chữ tiếng Ê Đê 44 2.4 Ánh xạ chữ nhóm nhóm vào Unicode 45 2.5 Qui Ďịnh cách gõ chữ nhóm nhóm 46 2.6 Cấu trúc tệp HTF 46 2.7 So sánh Ďánh giá yếu tố hiển thị chữ viết tiếng Ê Đê 47 2.8 Tệp lƣu giá trị hexa tập kí tự Ďƣợc gõ theo phông chữ TayNguyenKey với kiểu gõ VNI 51 3.1 Kết thực nghiệm chuyển Ďổi văn phông chữ riêng sang Unicode 52 3.2 Bảng lƣu mục từ Ê Đê 60 3.3 Bảng lƣu mục từ tiếng Việt 61 3.4 Bảng lƣu KNV song ngữ Việt-Ê Đê 61 3.5 Thống kê số mục từ Ďƣợc nhập vào kho ngữ vựng qua MEDAS 62 3.6 Thống kê số lƣợng mục từ theo số âm tiết mục từ KNV Ê Đê 64 3.7 Thời gian tách từ so khớp vào KNV vùng KNV 65 3.8 Thống kê số từ chƣa có KNV tiếng Ê Đê 65 3.9 Độ bao phủ KNV Ê Đê văn tiếng Ê Đê 66 3.10 Thống kê số từ tiếng Việt chƣa có KNV tiếng Việt 66 3.11 Độ bao phủ KNV tiếng Việt văn tiếng Việt 66 Số hiệu bảng Tên bảng Trang 3.12 Mô hình âm tiết tiếng Ê Đê 70 3.13 Ví dụ chuyển âm tiết Ê Đê sang mô hình âm tiết 72 3.14 Thống kê số âm tiết Ê Đê sai Ďƣợc phát 74 3.15 Đánh giá KNV sau kiểm tra lỗi tả âm tiết qua Ďộ bao phủ văn tiếng Ê Đê 75 4.1 Minh họa cần thiết việc bổ sung từ vào KNV mở rộng vnTokenizer 85 4.2 Ví dụ tách từ tiếng Việt ứng với từ tiếng Ê Đê 88 4.3 Kết kiểm chứng việc xử lý trật từ từ Ďể hỏi 90 4.4 Kết thử nghiệm với số lỗi tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh 94 4.5 Bảng kết thử nghiệm tập văn 94 Phụ lục E Giao diện tƣơng tác EIWVNK Kết sau Ďặt tệp HTF vào WinVNKey Phụ lục F Mô đun tƣơng tác tệp HTF vào gõ WinVNKey Private Sub EIWVNK_Click(sender As System.Object, e As System.EventArgs)_ Handles Button1.Click Dim path As String = Directory.GetCurrentDirectory() Dim F_HFT As String = TextBox2.Text.Trim Dim doc, d1, d2 As String Dim st As String = "" Dim f1 As StreamReader = New StreamReader("File_WVNK.txt") Dim f2 As StreamReader = New StreamReader(F_HFT) For i = To ComboBox2.Items.Count - If ComboBox2.Items(i).ToString.Trim = ComboBox2.Text.Trim Then st = array_Display_name(i) End If Next Dim f_KQ As StreamWriter = New StreamWriter(st & ".txt", False,_ System.Text.Encoding.Unicode) While Not f1.EndOfStream doc = f1.ReadLine().ToString.Trim If doc = "Display name=" Then doc = doc & " " & st End If f_KQ.WriteLine(doc) End While While Not f2.EndOfStream doc = f2.ReadLine().Trim If doc "" Then d1 = doc.Substring(0, InStr(doc, "=") - 1).Trim d2 = doc.Substring(InStr(doc, "=")).Trim If InStr(d2, "+") > Then d2 = ChrW(Val("&" & d2.Substring(0, InStr(d2, "+") - 1))) &_ ChrW(Val("&" & d2.Substring(InStr(d2, "+")))) Else d2 = ChrW(Val("&" & d2)) End If f_KQ.WriteLine(d1 & " =" & d2) End If End While f_KQ.Close() Dim file1, file2 As String file1 = path & "\" & st.Trim & ".txt" file2 = TextBox1.Text.Trim & "\WinVNKey\Macros\Language\" & st.Trim & ".txt" Call INTERAC(file1, file2) MsgBox("Successfull !!!") End Sub Phụ lục G Quy tắc gõ tiếng Ê Đê với TayNguyenKey Kiểu gõ Telex Kiểu gõ VNI Phím Chữ Ê Đ \ Dấu trăng chữ o, e, u, ơ, ƣ Phím Chữ Ê Đ \ Dấu trăng chữ o, e, u, ơ, ƣ | Dấu trăng chữ O, E, U, Ơ, Ƣ | Dấu trăng chữ O, E, U, Ơ, Ƣ # Dấu trăng chữ â, ê, ô # Dấu trăng chữ â, ê, ô $ ` Dấu trăng chữ Â, Ê, Ô ñ $ ` Dấu trăng chữ Â, Ê, Ô ñ ~ ^ & [[ {{ Ñ ĭ Ĭ ƀ Ƀ ~ ^ & [ { Ñ ĭ Ĭ ƀ Ƀ ]] }} č Č ] } č Č Phụ lục H Quy tắc gõ tiếng Ê Đê với VNKey Kiểu gõ VNI b9 → ƀ e68 → ê c8 → č i8 n4 → ñ o8 e8 → ĕ o68 → ô Kiểu gõ Telex o78 → bb → ƀ eew → ê oww→ →ĭ u8 → cw → č iw → ĭ uw → →ŏ u78 → ƣ nx → ñ ow → ŏ uww → ƣ ew → ĕ oow → ô Phụ lục I Bộ chuyển đổi văn tiếng Ê Đê từ phông chữ riêng sang Unicode Văn tiếng Ê Đê dùng phông chữ riêng Văn tiếng Ê Đê dùng phông chữ Unicode 10 Phụ lục J Mô đun chuyển đổi văn tiếng Ê Đê dùng phông chữ riêng sang Unicode Private Sub Convert_EDe_Unicode_Click(sender As System.Object, e As_ System.EventArgs)Handles Convert_EDe_Unicode.Click Dim f2 As String = f1.Replace(".", "_OUT.") Dim f_tg As String = "HTTF_TayNguyenKey.txt" If ComboBox1.Text.ToString.ToUpper = "VNKEY" Then f_tg = "HTTF_VNKey.txt" End If Dim file_HTTF As StreamReader = New StreamReader(f_tg) Dim i As Integer = Dim st, st1, st2 As String If CheckBox1.Checked = False Then While Not file_HTTF.EndOfStream st = file_HTTF.ReadLine().ToString.Trim st1 = st.Substring(0, InStr(st, "=") - 1).Trim st2 = st.Substring(InStr(st, "=")).Trim If InStr(st2, "+") > Then st2 = ChrW(Val("&" & st2.Substring(0, InStr(st2, "+") - 1))) &_ ChrW(Val("&" & st2.Substring(InStr(st2, "+")))) allText = allText.Replace(st1, st2) Else allText = allText.Replace(st1, ChrW(Val("&" & st2))) End If End While RichTextBox1.Text = allText If (InStr(f1.ToUpper, ".DOC") > Or InStr(f1.ToUpper, ".DOCX") > Or_ InStr(f1.ToUpper, ".RTF") > 0) Then RichTextBox1.SaveFile(f2, RichTextBoxStreamType.RichText) ElseIf InStr(f1.ToUpper, ".TXT") > Then Dim f As StreamWriter = New StreamWriter(f2) f.WriteLine(allText) f.Close() End If Else Dim clb As String = "" clb = My.Computer.Clipboard.GetText() RichTextBox1.Text = clb While Not file_HTTF.EndOfStream st = file_HTTF.ReadLine().ToString.Trim st1 = st.Substring(0, InStr(st, ":") - 1).Trim st2 = st.Substring(InStr(st, ":")).Trim If InStr(st2, "+") > Then st2 = ChrW(Val("&" & st2.Substring(0, InStr(st2, "+")-1))) & _ ChrW(Val("&" & st2.Substring(InStr(st2, "+")))) clb = clb.Replace(st1, st2) Else clb = clb.Replace(st1, ChrW(Val("&" & st2))) End If End While RichTextBox1.Text = clb My.Computer.Clipboard.SetText(clb) End If MsgBox("Successful") End Sub 11 Phụ lục K Bộ công cụ cập nhật mục từ vào kho ngữ vựng 1) Mô đun tƣơng tác nguồn liệu từ điển Ê Đê-Việt Private Sub Add_E_V_Click(sender As System.Object, e As System.EventArgs) _ Handles E_V.Click Dim vi, tu_vi, ed, tl, vd, vd1, tg As String Dim id_vi, id_ed As String Dim file_tudien As StreamReader=New StreamReader(OpenFileDialog1.FileName) While Not file_tudien.EndOfStream Dim st As String = file_tudien.ReadLine().ToString.Trim.ToLower st = st.Replace(Chr(9), "/") st = st.Replace(Chr(34), "") If st.Length > Then ed = st.Substring(0, InStr(st, "/") - 1).Trim st = st.Remove(0, InStr(st, "/")).Trim vi = st.Substring(0, InStr(st, "/") - 1).Trim.ToLower st = st.Remove(0, InStr(st, "/")).Trim tl = st.Substring(0, 1).Trim.ToUpper vd = st.Substring(1).Trim.Replace("/", "") id_ed = ID_EDE(ed) vi = vi.Replace(";", ",") While InStr(vi, ",") > tu_vi = vi.Substring(0, InStr(vi, ",") - 1) vi = vi.Remove(0, InStr(vi, ",")).Trim id_vi = ID_VIET(tu_vi) tg = vd.Replace(";", ".") vd1 = "" While tg "" If tg(Len(tg) - 1) "." Then tg = tg & "." End If Dim tg1 As String = tg.Substring(0, InStr(tg, ".")) tg1 = DAO_V_E(tg1) If InStr(tg1.Substring(0, InStr(tg1, ":")).ToLower, _ tu_vi.ToLower) > Then vd1 = vd1 & tg1 End If tg = tg.Remove(0, InStr(tg, ".")) End While Call Xuat_VIET_EDE_DK(id_vi, id_ed, tl, vd1.ToLower) End While 12 tu_vi = vi.Trim id_vi = ID_VIET(tu_vi) tg = vd.Replace(";", ".") vd1 = "" While tg "" And vd.Length() > If tg(Len(tg) - 1) "." Then tg = tg & "." End If Dim tg1 As String = tg.Substring(0, InStr(tg, ".")) tg1 = CONVERT_V_E(tg1) If InStr(tg1.Substring(0, InStr(tg1, ":")).ToLower,_ tu_vi.ToLower) > Then vd1 = vd1 & tg1 End If tg = tg.Remove(0, InStr(tg, ".")) End While Call Xuat_VIET_EDE_DK(id_vi, id_ed, tl, vd1.ToLower) End If End While MsgBox("Successfull") End Sub 2) Mô đun tƣơng tác nguồn liệu từ điển Ê Đê-Việt Private Sub Add_Vi_E_Click(sender As System.Object, e As System.EventArgs) Handles _ Vi_E.Click Dim vi, tu_ed, ed, tl, vd, vd1, tg As String Dim id_vi, id_ed As String Dim file_tudien As StreamReader = New StreamReader(f1) While Not file_tudien.EndOfStream Dim st As String = file_tudien.ReadLine().ToString.Trim.ToLower st = st.Replace(Chr(9), "/") st = st.Replace(Chr(34), "") If st.Length > Then vi = st.Substring(0, InStr(st, "/") - 1).Trim.ToLower st = st.Remove(0, InStr(st, "/")).Trim ed = st.Substring(0, InStr(st, "/") - 1).Trim.ToLower st = st.Remove(0, InStr(st, "/")).Trim tl = st.Substring(0, 1).Trim.ToUpper vd = st.Substring(1).Trim.Replace("/", "").ToLower id_vi = ID_VIET(vi) ed = ed.Replace(";", ",") While InStr(ed, ",") > tu_ed = ed.Substring(0, InStr(ed, ",") - 1) ed = ed.Remove(0, InStr(ed, ",")).Trim id_ed = ID_EDE(tu_ed) tg = vd.Replace(";", ".") vd1 = "" While tg "" If tg(Len(tg) - 1) "." Then tg = tg & "." End If Dim tg1 As String = tg.Substring(0, InStr(tg, ".")) If InStr(tg1.Substring(InStr(tg1, ":")).ToLower, _ tu_ed.ToLower) > Then vd1 = vd1 & tg1 End If tg = tg.Remove(0, InStr(tg, ".")) End While vd1 = vd1.Replace(".", ";") 13 Call Xuat_VIET_EDE_DK(id_vi, id_ed, tl, vd1.ToLower) End While tu_ed = ed.Trim id_ed = ID_EDE(tu_ed) tg = vd.Replace(";", ".") vd1 = "" While tg "" And vd.Length() > If tg(Len(tg) - 1) "." Then tg = tg & "." End If Dim tg1 As String = tg.Substring(0, InStr(tg, ".")) 'tg1 = DAO_V_E(tg1) If InStr(tg1.Substring(InStr(tg1, ":")).ToLower,_ tu_ed.ToLower) > Then vd1 = vd1 & tg1 End If tg = tg.Remove(0, InStr(tg, ".")) End While vd1 = vd1.Replace(".", ";") Call Xuat_VIET_EDE_DK(id_vi, id_ed, tl, vd1.ToLower) End If End While MsgBox("Successfull") End Sub 14 Phụ lục L Mô hình âm tiết tiếng Ê Đê [31] Stt Mô hình âm tiết Ví dụ CV ka (chƣa) CSV hia (khóc) C1S1VS2 piêu (cái gùi nhỏ Ďẹp) C1C2S1VS2C4 mtiaŏ (Ďuổi theo) C1S1VS2C4 suaih (khỏe) C1VS2 pai (thỏ) C1VS2C4 đaŏ (tin) C1VC4 pă (4) C1C2V kra (khỉ) 10 C1C2S1V amai (chị) 11 C1C2S1VS2 êriâo (cái lục lạc) 12 C1C2S1VC4 mčuhueh (nhọn, dẩu môi) 13 C1C2VC4 mjing (làm thành, trở thành) 14 C1C2S1VS2 mlâo (lông) 15 C1C2VS2C4 brai (gạo) 16 C1C2C3V mkra (chữa, chuẩn bị) 17 C1C2C3VS2 mtlai (liên hợp, liên kết) 18 C1C2C3VS2C4 mtlaih (tháo, gỡ ra) 19 C1C2C3S1V mbruê (hôm qua) 20 C1C2C3VC4 mđhiăr (lặp lại) 21 C1C2C3VC4 mghăp (may rủi) 22 C1C2C3 S1VS2C4 mbhiaih (quen hơi, quen nết) Trong đó: Phần Ďầu âm tiết kí hiệu Ci tổ hợp phụ âm (C1, C2, C3); Nguyên âm kí hiệu V Bán nguyên âm S Phụ âm cuối C4 15 Phụ lục M Các hàm tách thành phần mô hình âm tiết Ê Đê //Tách phụ âm đầu Function TACH_PAD(st As String) As String st = st.Trim Dim pad1 As String = "" If Len(st) > Then pad1 = st.Substring(0, 4) If (InStr(pad, pad1 & "|") > 0) Then Return pad1 End If End If If Len(st) > Then pad1 = st.Substring(0, 3) If (InStr(pad, pad1 & "|") > 0) Then Return pad1 End If End If If Len(st) > Then pad1 = st.Substring(0, 2) If (InStr(pad, pad1 & "|") > 0) Then Return pad1 End If End If If Len(st) > Then pad1 = st.Substring(0, 1) If (InStr(pad, pad1 & "|") > 0) Then Return pad1 End If End If Return "*" End Function //Tách nguyên âm Function TACH_NA(st As String) As String st = st.Trim Dim na1 As String = "" If Len(st) >= Then na1 = st.Substring(0, 2) If (InStr(na, na1 & "|") > 0) Then Return na1 End If End If If Len(st) >= Then na1 = st.Substring(0, 1) If (InStr(na, na1 & "|") > 0) Then Return na1 End If End If Return "*" End Function //Tách phụ âm cuối Function TACH_PAC(st As String) As String st = st.Trim() Dim pac1 As String = "" If Len(st) = Then pac1 = st.Substring(0, 2) If (InStr(pac, pac1 & "|") > 0) Then Return pac1 16 End If End If If Len(st) = Then pac1 = st.Substring(0, 1) If (InStr(pac, pac1 & "|") > 0) Then Return pac1 End If End If Return "*" End Function //Tách bán nguyên âm đứng trước nguyên âm Function TACH_BNA1(st As String) As String st = st.Trim If Len(st) >= Then If st(0) = "u" And TACH_NA(st(1)) "*" Then Return "u" ElseIf st(0) = "i" And TACH_NA(st(1)) "*" Then Return "i" End If End If Return "*" End Function //Tách bán nguyên âm đứng sau nguyên âm Function TACH_BNA2(st As String) As String st = st.Trim If Len(st) >= Then If st(0) = "u" Then Return "u" ElseIf st(0) = "i" Then Return "i" ElseIf st(0) = "o" Then Return "o" ElseIf st(0) = "ĭ" Then Return "ĭ" ElseIf st(0) = "ŏ" Then Return "ŏ" End If End If Return "*" End Function 17 Phụ lục N Tra cứu trực tuyến từ vựng Việt-Ê Đê Ê Đê-Việt Giao diện tra cứu từ vựng Ê Đê-Việt Giao diện tra cứu từ vựng Việt-Ê Đê 18 Phụ lục O Ứng dụng tra cứu từ vựng Việt-Ê Đê Ê Đê-Việt ngoại tuyến Giao diện tra cứu từ vựng Việt-Ê Đê Giao diện tra cứu từ vựng Ê Đê-Ê Đê-Việt 19 Phụ lục P Ứng dụng trợ giúp dịch máy Việt-Ê Đê 20 Phụ lục Q Ứng dụng kiểm tra lỗi tả văn Ê Đê ... MÔI TRƯỜNG XỬ LÝ TIẾNG Ê Ê 33 2.1 XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê Ê 33 2.1.1 Giới thiệu tiếng Ê ê 33 2.1.2 Khó khăn xử lý tiếng Ê ê 36 2.1.3 Xử lý tiếng Ê ê. .. Việt -Ê ê, công cụ kỹ thuật, kết nghiên cứu xử lý tiếng Ê ê cho hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê ê Mục tiêu nghiên cứu Để Ďạt Ďƣợc mục tiêu xây dựng môi trƣờng xử lý tiếng Ê ê ứng. .. tài Xây dựng môi trƣờng xử lý tiếng Ê ê ứng dụng dạy học tiếng Ê ê , nhằm Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê ê Từ Ďịnh hƣớng nghiên cứu Ďƣợc Ďặt môi trƣờng này, tiếng Ê ê soạn