Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,67 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HỒNG THỊ MỸ LỆ XÂY DỰNG MƠI TRƯỜNG XỬ LÝ TIẾNG ÊĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ Chuyên ngành Mã số : KHOA HỌC MÁY TÍNH : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2017 Cơng trình hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS TS Lê Mạnh Thạnh Phản biện 2: PGS.TS Huỳnh Xuân Hiệp Phản biện 3: TS Nguyễn Văn Hiệu Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng họp tại: Đại học Đà Nẵng Vào hồi 00 ngày 27 tháng 10 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [1] [2] [3] [4] [5] [6] [7] [8] Hồng Thị Mỹ Lệ, Phan Thị Bơng, Phan Huy Khánh, “Building a Machine Translation System in a Restrict Context from Ka-Tu Language into Vietnamese”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2012, Danang, pp 167-172, 2012 Hoàng Thị Mỹ Lệ, Vilavong Souksan, Phan Huy Khánh, “Using Unicode in Encoding the Vietnamese Ethnic Minority Languages, Applying for the EDe Language”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2013, HaNoi, pp 137-148, 2013 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “A Domain indicating method for Ede terminology in building a Vietnamese-Ede bilingual corpus”, Proceeding of The third Asian Conference on Information Systems, ACIS’2014, NhaTrang, pp 434-439, 2014 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học Cơng nghệ ĐHĐN Số 1(74), 2, trang: 42-46, 2014 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Basing on the Ede syllable models to check Ede syllable misspelling, applying to improve the quality of Ede vocabulary corpus”, Proceeding of the International Conference on Advanced Technologies for Communications (ATC’2016), HaNoi, pp 158-162, 2016 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Xây dựng kho ngữ vựng song ngữ Việt-Ê Đê dựa mơ hình tương tác Việt-Ê Đê”, Tạp chí Khoa học Cơng nghệ ĐHĐN, Số 5(114), 2, trang: 3640, 2017 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Deploying environment for processing Ede ethnic minority language in Vietnam”, IEEE International Conference on Systems Science and Engineering (ICSSE), Jul 2017, HoChiMinh, pp 174-177, 2017 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp chuyển đổi văn tiếng Ê Đê dùng phơng chữ riêng sang Unicode”, Tạp chí Hội nghị khoa học quốc gia lần thứ X, Nghiên cứu ứng dụng Công nghệ Thông tin-FAIR, trang: 205-211, 2017 MỞ ĐẦU Xử lý tiếng dân tộc thiểu số (DTTS) Việt Nam nói chung xử lý tiếng Ê Đê nói riêng, cho Ďến có nhà khoa học quan tâm Trong bối cảnh bùng nổ sử dụng internet, với nhu cầu phát triển văn hoá hội nhập cộng Ďồng DTTS Việt Nam, lúc nhu cầu xử lý tiếng DTTS Ďặt thiết hết Từ tình hình thực tiễn xử lý tiếng DTTS, dựa gần gũi ngôn ngữ tiếng Việt tiếng Ê Đê, luận án chọn Ďề tài “Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng dạy học tiếng Ê Đê” nhằm Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê Đê Từ Ďịnh hƣớng nghiên cứu Ďƣợc Ďặt môi trƣờng này, kho ngữ vựng Việt-Ê Đê Ďƣợc xây dựng dựa mơ hình hợp nguồn liệu từ Ďiển giấy Việt-Ê Đê Ê Đê-Việt Các ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê Ďƣợc xây dựng dựa kho ngữ vựng Việt-Ê Đê có Ďƣợc từ mơ hình hợp Định hƣớng phát triển kho ngữ vựng thông qua trang web quản lý kho ngữ vựng Ďể chuyên gia ngôn ngữ Ê Đê tham gia Ďóng góp, cập nhật liệu vào kho ngữ vựng, góp phần nâng cao chất lƣợng kho ngữ vựng Việt-Ê Đê Bên cạnh việc phát triển kho ngữ vựng, trang web cịn có chức chia sẻ kho ngữ vựng Việt-Ê Đê, công cụ kỹ thuật, kết nghiên cứu xử lý tiếng Ê Đê cho hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê Đê Mục tiêu nghiên cứu Luận án hƣớng Ďến nghiên cứu hai mục tiêu chính: - Xây dựng mơi trƣờng xử lý tiếng Ê Đê Ďịnh hƣớng qui trình nghiên cứu cho xử lý tiếng Ê Đê thể ba vấn Ďề: soạn thảo văn tiếng Ê Đê môi trƣờng Ďa ngữ; hợp nguồn liệu từ Ďiển giấy song ngữ ViệtÊ Đê Ê Đê-Việt xây dựng KNVV-E; nâng cao chất lƣợng KNVV-E với tham gia, hỗ trợ chuyên gia ngôn ngữ tiếng Ê Đê Chia sẻ nguồn tài nguyên, công cụ kỹ thuật, kết nghiên cứu cho hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê - Triển khai xây dựng ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê từ V-EBVB Đối tượng phạm vi nghiên cứu 2.1 Đối tượng nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu luận án, Ďối tƣợng gồm: ngôn ngữ Ê Đê ngôn ngữ DTTS; Unicode, công cụ kỹ thuật XLNNTN xử lý tiếng Ê Đê; từ Ďiển kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê 2.2 Phạm vi nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu luận án, luận án xác Ďịnh phạm vi nghiên cứu gồm: xử lý chữ viết theo quan Ďiểm XLNNTN xử lý tiếng Việt, STVB tiếng Ê Đê sử dụng Unicode, kiểm tra lỗi tả âm tiết văn tiếng Ê Đê, hạ tầng sở cho xử lý tiếng Ê Đê, ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê Phương pháp nghiên cứu Phƣơng pháp nghiên cứu Ďƣợc sử dụng luận án: nghiên cứu lý thuyết, nghiên cứu thực nghiệm Cấu trúc luận án Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận phụ lục Nội dung luận án gồm chƣơng nhƣ sau: Chương 1: Tiếp cận xử lý ngôn ngữ dân tộc thiểu số Chương 2: Môi trƣờng xử lý tiếng Ê Đê Chương 3: Xử lý tiếng Ê Đê Chương 4: Xây dựng ứng dụng xử lý tiếng Ê Đê Những đóng góp luận án 1) Đề xuất xây dựng mơi trƣờng xử lý tiếng Ê Đê, góp phần Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê Đê 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nói chung tiếng Ê Đê nói riêng 3) Đề xuất xây dựng KNV V-E dựa mơ hình hợp nguồn liệu song ngữ Việt-Ê Đê Ê Đê-Việt Ê Đê 4) Đề xuất mơ hình kiểm tra lỗi tả âm tiết dựa mơ hình âm tiết tiếng Ê Đê, góp phần phát lỗi tả âm tiết văn tiếng Ê Đê, kiểm tra âm tiết tiếng Ê Đê KNVV-E Ngồi ra, nhằm góp phần ứng dụng CNTT việc nâng cao chất lƣợng dạy học tiếng Ê Đê, số ứng dụng ứng dụng xử lý tiếng Ê Đê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm có: - Tra cứu trực tuyến ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi tả văn tiếng Ê Đê, - Trợ giúp dịch máy Việt-Ê Đê hỗ trợ cho việc dịch giảng, giáo án từ tiếng Việt sang tiếng Ê Đê CHƢƠNG VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 1.1 Xử lý ngôn ngữ tự nhiên 1.1.1 Mã hóa soạn thảo văn 1.1.2 Xây dựng kho ngữ liệu 1.1.3 Tách từ gán nhãn từ loại 1.1.4 Bài toán dịch máy 1.2 Xử lý tiếng Việt-Kinh 1.2.1 Tiếng Việt bối cảnh xử lý ngơn ngữ tự nhiên Ngồi tốn ứng dụng XLNNTN, xử lý tiếng Việt Ďặt vấn Ďề cần Ďƣợc quan tâm nghiên cứu nhƣ: Tự Ďộng thêm dấu chữ viết tiếng Việt; kiểm lỗi tả, ngữ pháp; xây dựng từ Ďiển, KNV; phân tích ngữ nghĩa nhằm mục Ďích Ďể máy tính hiểu tiếng Việt; dịch tự Ďộng văn sang ngơn ngữ khác; tóm tắt nội dung văn bản; nhận dạng chữ in, chữ viết, tiếng nói; trích rút tri thức; tạo sinh văn tự Ďộng từ nguồn tài liệu khác theo ngữ cảnh Để giải vấn Ďề Ďƣợc Ďặt ra, xử lý tiếng Việt cần phải tập trung vào việc tạo công cụ tài nguyên cho xử lý tiếng Việt Vì vậy, xử lý tiếng Việt cịn thách thức ln Ďặt 1.2.2 Một số kết xử lý tiếng Việt Trong bối cảnh phát triển ngành CNTT Việt Nam, số toán xử lý tiếng Việt Ďã Ďƣợc nghiên cứu Ďã Ďƣợc số kết quả: mã hóa Unicode, tách từ, xây dựng kho ngữ liệu, dịch máy Vấn Ďề Ďa ngữ xử lý tiếng Việt hệ quản trị sở liệu khơng gặp khó khăn, kể với kỹ thuật xếp tìm kiếm NSD khơng cần phải lập trình xử lý Ďƣợc tiếng Việt môi trƣờng Ďa ngữ 1.2.3 Xu triển vọng xử lý tiếng Việt Xử lý tiếng Việt hƣớng nghiên cứu có tầm quan trọng lớn Ďối với phát triển ứng dụng CNTT Việt Nam Xử lý tiếng Việt Ďang có nhu cầu lớn Việt Nam bùng nổ công nghiệp nội dung số nhiều doanh nghiệp Ďang quan tâm tới lĩnh vực 1.3 Xử lý tiếng dân tộc thiểu số Việt Nam 1.3.1 Bảo tồn tiếng dân tộc thiểu số Việt Nam Đứng trƣớc thực trạng tiếng nói DTTS Việt Nam Ďang Ďứng trƣớc nguy mai một, cộng Ďồng dân tộc Việt Nam Chính phủ cần có chƣơng trình nhƣ khuyến khích, vận Ďộng Ďồng bào DTTS giao tiếp ngày tiếng dân tộc Ngành GDĐT, cần xuất nhiều loại sách song ngữ Đƣa chƣơng trình giảng dạy tiếng DTTS Việt Nam phù hợp với Ďịa bàn vùng DTTS vào trƣờng phổ thông, trƣờng phổ thông Dân tộc nội trú, trung tâm Giáo dục thƣờng xuyên, trung tâm Học tập cộng Ďồng, trƣờng Dạy nghề, Trung học chuyên nghiệp, Cao Ďẳng Đại học Đào tạo Ďội ngũ trí thức ngƣời DTTS Việt Nam tạo Ďiều kiện Ďể trí thức, cán ngƣời DTTS Việt Nam trở phục vụ quê hƣơng 1.3.2 Hệ thống chữ viết dân tộc thiểu số Việt Nam Số lƣợng dân tộc thiểu số Việt Nam Ďã có chƣa có chữ viết, Ďƣợc trình bày bảng 1.1 Bảng 1.1 Các hệ chữ viết DTTS Việt Nam Hệ chữ viết Số lƣợng DTTS Chữ La tinh 17 Chữ Viết cổ Chữ viết La tinh chữ viết cổ Chƣa có chữ viết 29 1.3.3 Thực trạng tiếng dân tộc thiểu số Việt Nam Với Ďặc Ďiểm Ďa dạng dân tộc, nên Việt Nam quốc gia Ďa ngôn ngữ Dân tộc Việt Nam nói ngơn ngữ khác Ngồi dân tộc Kinh dân tộc chiếm gần 86% dân số, cịn có 54 dân tộc khác, thuộc ngữ hệ khác thể bảng ngôn ngữ dân tộc Việt Nam Trên nƣớc có 20 tỉnh thành Ďang tổ chức dạy tiếng DTTS cho gần 110.000 học sinh thuộc dân tộc: H’Mông, Ê Đê, Gia Rai, Ba Na, Chăm, Khơ Me, Hoa Nhiều tỉnh thành Ďã triển khai thực dạy tiếng DTTS cho học sinh, cán bộ, công chức, viên chức, sở ban ngành dƣới nhiều hình thức GDĐTcũng Ďã xây dựng số chƣơng trình giáo dục song ngữ, Ďƣa vào giảng dạy trƣờng tiểu học trƣờng phổ thông Dân tộc nội trú 1.3.4 Xử lý tiếng Ê Đê vận dụng kết xử lý tiếng Việt Qua nghiên cứu tổng quan XLNNTN, xử lý ngôn ngữ DTTS, xử lý tiếng Việt, xử lý tiếng Ê Đê; dựa vào gần gũi tiếng Việt tiếng Ê Đê; Ďể giảm thiểu kinh phí Ďiều kiện nghiên cứu kho học; kế thừa phát triển từ Ďã, Ďang có kết nghiên cứu, vận dụng kết xử lý tiếng Việt cho xử lý tiếng Ê Đê Ďƣợc so sánh nhận Ďịnh bảng 1.2 Bảng 1.2 So sánh nhận định vấn đề xử lý tiếng Việt tiếng Ê Đê Vấn đề XLNNTN Mã hố Unicode Dùng phơng Unicode Hiển thị chữ viết với phông chữ Unicode Xây dựng KNV Tách từ Dịch máy Tiếng Việt Tiếng Ê Đê Đã có Chƣa có Đề xuất: Luận án tập trung nghiên cứu mã hố Unicode chữ tiếng Ê Đê khơng có tiếng Việt Đã dùng Chƣa dùng Đề xuất: Luận án tập trung nghiên cứu dùng phông chữ Unicode cho việc hiển thị chữ viết tiếng Ê Đê, không dùng phông chữ tiếng Ê Đê riêng nhƣ Đã có gõ Unikey, VietKey, Chƣa có VNWinKey Đè xuất: Luận án tập trung nghiên cứu vấn Ďề hiển thị chữ viết tiếng Ê Đê dùng phông chữ Unicode kế thừa gõ tiếng Việt Đã có Chƣa có Đề xuất: Luận án tập trung xây dựng KNVV-E, kế thừa kho ngữ vựng tiếng Việt Ďã có chia sẻ cho hoạt Ďộng nghiên cứu Khó khăn vấn Ďề Khó khăn vấn Ďề nhập nhằng nhập nhằng Đã có cơng cụ tách Chƣa có cơng cụ tách từ chia sẻ cho từ vnTokenizer chia sẻ cho mục Ďích nghiên cứu mục Ďích nghiên cứu Đề xuất: Luận án cần chọn giải pháp kế thừa công cụ vnTokenize Ďể tách từ tiếng Việt ứng với từ tiếng Ê Đê, theo cách tiếp cận bổ sung mục từ vào KNV mở rộng công cụ vnTokenize Việt-Anh, chƣa xử lý hết Việt-Ê Đê chƣa xử lý trƣờng hợp trƣờng hợp nhập nhằng nhập nhằng từ khơng có KNV Đề xuất: Luận án tập trung nghiên cứu ứng dụng trợ giúp dịch ViệtÊ Đê cho việc dịch học song ngữ Việt-Ê Đê, giáo án, giáo trình từ tiếng Việt sang tiếng Ê Đê 1.4 Xử lý ngôn ngữ dân tộc thiểu số 1.4.1 Vấn đề xử lý ngôn ngữ dân tộc thiểu số Trên giới Ďã có hiệp hội, tổ chức, dự án với hoạt Ďộng liên quan Ďến xử lý ngơn ngữ DTTS, kể Ďến: SALTMIL hiệp hội quốc tế tiếng nói ngơn ngữ nhóm nghiên cứu riêng biệt chủ yếu tập trung vào công nghệ ngôn ngữ DTTS, MILLE dự án Anh liên quan Ďến xử lý tiếng DTTS, EMILLE dự án hợp tác trƣờng ĐH Lancaster Sheffield tập trung chủ yếu vào vấn Ďề liên quan Ďến mã hóa Unicode ký tự xây dựng kho ngữ liệu Khó khăn thách thức Xử lý ngôn ngữ DTTS thƣờng xuyên phải Ďối mặt với khó khăn Ďầu tiên chữ tiếng DTTS Ďã có bảng mã Unicode hay chƣa, thiếu nguồn tài nguyên liệu chuẩn hóa dƣới dạng Ďiện tử, chun mơn Chính khan nguồn tài nguyên liệu hạn chế cho phƣơng pháp tiếp cận hƣớng liệu xử lý ngơn ngữ DTTS Khó khăn phải Ďƣợc kể Ďến Ďó thiếu hỗ trợ tài dành cho hoạt Ďộng nghiên cứu xử lý ngôn ngữ DTTS Các phương pháp tiếp cận Nghiên cứu xử lý ngơn ngữ DTTS sử dụng phƣơng pháp tiếp cận khác với phƣơng pháp tiếp cận thƣờng dùng xử lý ngôn ngữ tự nhiên (XLNNTN) Tuy nhiên, việc chọn phƣơng pháp tiếp cận phụ thuộc vào Ďặc thù ngơn ngữ DTTS, Ďộ phức tạp vấn Ďề hay hƣớng nghiên cứu nhà khoa học 1.4.2 Định hướng nghiên cứu Triển khai hệ thống xử lý ngôn ngữ cho DTTS không nên bắt Ďầu phát triển ứng dụng chƣa có hạ tầng sở cho xử lý ngôn ngữ Nên thiết kế nguồn tài nguyên CSDL theo hƣớng mở Ďƣợc sử dụng lại cho công cụ ứng dụng khác Trong xử lý ngôn ngữ DTTS, vấn Ďề chia sẻ kết nghiên cứu yếu tố quan trọng, nhằm tận dụng tất hợp tác nảy sinh nhà nghiên cứu xử lý ngôn ngữ DTTS 1.4.3 Phân cấp chức môi trường xử lý tiếng Ê Đê Môi trƣờng xử lý tiếng Ê Đê luận án hệ thống phân cấp chức năng, Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê Đê Hệ thống phân cấp chức môi trƣờng xử lý tiếng Ê Đê có bốn mức: - Mức Ďầu tiên vấn Ďề sử dụng Unicode soạn thảo văn tiếng Ê Đê làm hạ tầng sở cho việc thu thập, chuyển Ďổi, xử lý nguồn liệu cho mức - Mức hợp nguồn liệu song ngữ ViệtÊ Đê Ê Đê-Việt xây dựng KNV song ngữ Việt-Ê Đê - Mức thứ ba quản lý KNV, xây dựng chia sẻ công cụ kỹ thuật, ứng dụng cho hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê - Mức cuối Ďại diện cho miền triển khai ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê, bao gồm hoạt Ďộng nhƣ: tra cứu vựng, kiểm tra lỗi tả văn tiếng Ê Đê, hỗ trợ dịch Việt-Ê Đê dựa Hình 1.1 Hệ thống phân cấp chức kho ngữ vựng song ngữ ViệtÊ Đê có Ďƣợc từ mức dƣới mơi trường xử lý tiếng Ê Đê Hình 1.1 thể mức hệ thống phân cấp chức môi trƣờng xử lý tiếng Ê Đê 1.5 Kết luận chƣơng Luận án tập trung vào bốn giải pháp chính: 1) Đề xuất xây dựng mơi trƣờng xử lý tiếng Ê Đê, góp phần Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê Đê 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nói chung tiếng Ê Đê nói riêng 3) Đề xuất xây dựng KNV V-E dựa mơ hình hợp nguồn liệu song ngữ Việt-Ê Đê Ê Đê-Việt Ê Đê 4) Đề xuất mơ hình kiểm tra lỗi tả âm tiết dựa mơ hình âm tiết tiếng Ê Đê, góp phần phát lỗi tả âm tiết văn tiếng Ê Đê, kiểm tra âm tiết tiếng Ê Đê KNVV-E Ngoài ra, nhằm góp phần ứng dụng CNTT việc nâng cao chất lƣợng dạy học tiếng Ê Đê, số ứng dụng ứng dụng xử lý tiếng Ê Đê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm có: - Tra cứu trực tuyến ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi tả văn tiếng Ê Đê, - Trợ giúp dịch máy Việt-Ê Đê Từ Ďịnh hƣớng nhiệm vụ nghiên cứu nêu trên, nội dung nghiên cứu Ďƣợc trình bày chƣơng CHƢƠNG MÔI TRƢỜNG SOẠN THẢO TIẾNG Ê ĐÊ 2.1 Giới thiệu tiếng Ê Đê 2.1.1 Sự đời chữ viết Ê Đê 2.1.2 Đặc điểm ngữ âm Ê Đê 2.1.3 Đặc điểm từ vựng Ê Đê 2.1.4 Đặc điểm ngữ pháp Ê Đê 2.2 Soạn thảo văn tiếng Ê Đê 2.2.1 Xử lý chữ viết tiếng dân tộc thiểu số Việt Nam Kết nghiên cứu xử lý chữ viết tiếng DTTS Việt Nam có ƣu Ďiểm nhƣợc Ďiểm sau: Ưu điểm: góp phần tin học hóa văn tiếng DTTS, giải Ďƣợc vấn Ďề hiển thị chữ DTTS máy tính cho dân tộc Chăm, Thái, Ê Đê, Gia Rai, Ba Na, M’Nông, Ê Đê, Xơ Đăng, Cơ Ho, Xê Đăng, Sán Chay, tạo Ďiều kiện cho Ďồng bào DTTS tiếp cận với ứng dụng lĩnh vực CNTT, nhƣ ứng dụng khoa học công nghệ Nhược điểm: sử dụng mã chuẩn có sẵn ASCII tạo phơng chữ riêng theo bảng mã này, khắc phục Ďƣợc tính cục bộ, ứng dụng phạm vi hẹp số phơng chữ cơng trình nghiên cứu xây dựng gõ cho STVB Để hiển thị Ďƣợc chữ viết tiếng DTTS Việt Nam, máy phải có phơng chữ ứng với gõ tiếng dân tộc Ďó Từ thực trạng xử lý chữ viết tiếng DTTS Việt Nam máy tính, vấn Ďề mã hóa Unicode STVB tiếng DTTS Việt Nam việc làm cần thiết phải làm sớm tốt 2.2.2 Soạn thảo văn tiếng dân tộc thiểu số Hầu hết 21 DTTS Việt Nam Hình 2.2 Mơ hình hiển thị chữ viết tiếng có chữ viết sử dụng chữ DTTS văn Unicode Latinh, có dấu âm gần giống tiếng Việt Một số chữ viết tiếng DTTS có chữ cái, dấu âm biến Ďổi nhƣng khơng nhiều Trên sở Ďó, luận án Ďề xuất giải pháp hiển thị văn Unicode tiếng DTTS mơi trƣờng Ďa ngữ Các tiêu chí Ďƣợc Ďặt giải pháp: Áp dụng cho tiếng DTTS có chữ viết sử dụng chữ Latinh Mã hóa chữ viết tiếng DTTS bảng mã Unicode, kế thừa gõ tiếng Việt, thống dùng phông chữ Unicode STVB Giải pháp hiển thị chữ viết tiếng DTTS môi trƣờng Ďa ngữ Ďƣợc Ďề xuất theo mơ hình hiển thị chữ viết tiếng DTTS văn Unicode 10 Hướng mở Phím phụ kết hợp ViệtKey) Khơng 12 phím Khơng Kết hợp nhƣ telex, VNI Có Phím ~ phím ^ 2.3 Sử dụng Unicode 2.3.1 Sử dụng Unicode soạn thảo văn Trong STVB việc sử dụng nhiều bảng mã khác nƣớc trở ngại lớn việc phát triển hệ thống thông tin lớn Unicode không giải mặt kĩ thuật hiển thị phơng chữ mà cịn tạo tiền Ďề cho phát triển kĩ thuật xử lí ngơn ngữ máy tính, xây dựng giải pháp sửa lỗi tả ngữ pháp tự Ďộng máy tính, xu hƣớng tất yếu phát triển mạnh mẽ internet Unicode giải pháp quốc tế, cho ngôn ngữ giới việc trao Ďổi thông tin 2.3.2 Giải pháp chuyển đổi văn tiếng DTTS sử dụng phông chữ riêng sang Unicode Các văn tiếng DTTS Việt Nam có chữ viết sử dụng ký tự chữ Latinh, phần lớn không sử dụng phông chữ Unicode mà sử dụng phông chữ riêng Sử dụng phơng chữ riêng STVB khó khăn việc trao Ďổi phát triển hệ thống thơng tin Từ thực trạng trên, Ďể góp phần giải khó khăn việc trao Ďổi, sử dụng văn tiếng DTTS dùng phông chữ riêng, luận án Ďề xuất giải pháp chuyển Ďổi văn tiếng DTTS dùng phơng chữ riêng sang phơng Hình 2.4 Mơ hình chuyển đổi văn chữ Unicode Giải pháp tiếng DTTS dùng phông chữ riêng sang chuyển Ďổi văn tiếng phông chữ Unicode DTTS dùng phông chữ riêng sang phơng chữ Unicode Ďƣợc trình bày Hình 2.4 Trong giải pháp này, có kế thừa chức xác Ďịnh giá trị hexa cho chữ nhóm nhóm chức qui Ďịnh cách gõ gõ H&TES Chức qui Ďịnh cách gõ công cụ H&TES, Ďƣợc kế thừa cho chức xác Ďịnh kí tự Ďã sử dụng văn tiếng DTTS với phông chữ riêng Ďƣợc ánh xạ vào chữ nhóm nhóm Sau Ďã xác Ďịnh Ďƣợc giá trị hexa kí tự Ďã sử dụng văn cần chuyển Ďổi, Ďƣợc lƣu vào CSDL Đây nguồn liệu Ďầu vào 11 cho chức chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode Giải pháp chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode, Ďã góp phần giải khó khăn việc trao Ďổi văn tiếng DTTS dùng phông chữ riêng 2.3.3 Chuyển đổi văn tiếng Ê Đê dùng phông chữ riêng Unicode Trong soạn thảo văn tiếng Ê Đê, việc chuyển từ dùng phông chữ riêng sang Unicode, công việc chƣa thể thực Ďƣợc hai Trƣớc mắt, Ďể giải khó khăn việc trao văn tiếng Ê Đê dùng phông chữ riêng internet hay máy tính Dựa vào giải pháp chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode, luận án Ďề xuất xây dựng chuyển Ďổi văn tiếng Ê Đê dùng phông chữ riêng sang phông chữ Unicode, Ďƣợc Ďặt tên CEDU Kịch xây dựng chuyển đổi CEDU Sử dụng chuyển Ďổi H&TES Ďã Ďƣợc Ďề xuất mục 2.2.3 Ďể tạo CSDL chứa giá trị hexa tập kí tự Ďƣợc gõ tƣơng ứng với chữ nhóm nhóm Dựa vào CSDL chứa tập giá trị hexa tập kí tự Ďƣợc gõ tƣơng ứng với chữ nhóm nhóm 3, Ďể thực chuyển Ďổi file văn tiếng Ê Đê dạng (TXT, DOC, DOCX, RFT, XML) dùng phông chữ riêng sang file văn tiếng Ê Đê dùng phông chữ Unicode Kết thực nghiệm Dữ liệu Ďầu vào Ďƣợc lấy từ tin Hệ phát dân tộc VOV Các tin sử dụng phông chữ TayNguyenKey, kiểu gõ VNI gõ UniKey Kết có Ďƣợc sau qua CEDU Ďã Ďƣợc kiểm tra thủ công gốc nhận thấy CEDU Ďã chuyển Ďổi Ďƣợc hết tất tập kí tự Ďƣợc gõ theo phơng chữ TayNguyenKey chữ tiếng Ê Đê với phông chữ Unicode So sánh đánh giá Bộ chuyển Ďổi CEDU thực chuyển Ďổi Ďƣợc cho tệp có phần mở rộng TXT, DOC, DOCX, RTF, XML, không giới hạn tệp có phần mở rộng TXT RTF nhƣ chức chuyển Ďổi bảng mã tiếng Việt Unikey ToolKit gõ Unikey Bộ chuyển Ďổi CEDU Ďã góp phần giải bất cập trao Ďổi văn tiếng Ê Đê dùng phơng chữ riêng internet hay máy tính với nhau, nhƣ việc sử dụng lại nguồn liệu Ďiện tử có nghiên cứu xử lý tiếng Ê Đê 2.4 Kiểm tra tả âm tiết tiếng Ê Đê 2.4.1 Âm tiết tiếng Ê Đê a) Khái niệm âm tiết b) Cấu tạo âm tiết tiếng Ê Đê 12 Cấu tạo âm tiết Ê Đê thể hình 2.5 Hình 2.5 Mơ hình cấu tạo âm tiết tiếng Ê Đê 2.4.2 Phát lỗi tả âm tiết tiếng Ê Đê Trong xử lý tiếng Ê Đê, xây dựng KNV Ďơn ngữ, song ngữ ViệtÊ Đê chủ yếu dựa vào nguồn từ Ďiển giấy Để chuyển mục từ từ Ďiển giấy vào KNV, phải có thao tác cập nhật thủ cơng Trong qúa trình cập nhật thủ cơng khơng thể tránh khỏi lỗi tả Thêm vào Ďó, ngƣời nhập liệu khơng biết tiếng Ê Đê chƣa quen cách gõ chữ tiếng Ê Đê, khó phát Ďƣợc lỗi gõ nhầm lúc gõ Để kiểm tra lỗi tả tiếng Ê Đê KNVV-E bƣớc giải tốn kiểm tra tả tiếng Ê Đê, luận án Ďề xuất giải pháp dựa mơ hình cấu tạo âm tiết tiếng Ê Đê Ďể kiểm tra tả tiếng Ê Đê mức âm tiết Dựa 22 kiểu âm tiết khác mơ hình âm tiết tiếng Ê Đê trƣờng hợp kiểu âm tiết khơng có phần Ďầu, luận án Ďã rút gọn 22 kiểu âm tiết kiểu âm tiết bổ sung kiểu âm tiết khơng có phần Ďầu Rút gọn 22 kiểu âm tiết thành kiểu âm tiết gộp trƣờng hợp phần Ďầu âm tiết phụ âm hay tổ hợp hai phụ âm ba phụ âm thành trƣờng hợp chung phần Ďầu âm tiết Trong kiểu âm tiết bổ sung có trƣờng hợp kiểu âm tiết khơng có từ Ďiển Ďó trƣờng hợp nguyên âm + bán nguyên âm Vì kiểu âm tiết bổ sung cịn kiểu âm tiết khơng có phần Ďầu Tập mơ hình âm tiết tiếng Ê Đê Ďƣợc Ďề xuất luận án gồm có 14 mơ hình âm tiết, Ďƣợc trình bày Bảng 2.9 Trong Ďó, Cb kí hiệu cho phần Ďầu, S1 kí hiệu cho âm Ďệm, V kí hiệu cho âm chính, S2 kí hiệu cho bán nguyên âm sau âm chính, Ce kí hiệu cho âm cuối Bảng 2.9 Mơ hình âm tiết tiếng Ê Đê hình hình Stt Mơ Ví dụ Stt Mơ Ví dụ âm tiết âm tiết V ĭ (sơ sinh) CbVCe mđơt (ngắn) VCe ung (chồng) CbVS2 hmlei (bơng gịn) VS1Ce ơih (vâng) 10 CbVSCe hmiêt (gói ghém) S1V iŭ (bơm) 11 CbS1V thiê (xui khiến) S1VS2 iêu (gọi) 12 CbS1VS2 miêu (con mèo) S1VCe uan (số) 13 CbS1VCe Mđhiăr (lặp lại) CbV ƀơ (mặt) 14 CbS1VSCe mbhih (chuốt) Tập mơ hình âm tiết tiếng Ê Đê sở cho giải pháp kiểm tra lỗi tả tiếng Ê Đê mức âm tiết 13 2.4.3 Xây dựng mơ hình kiểm tra tả âm tiết tiếng Ê Đê Từ thực trạng xử lý ngôn ngữ tiếng DTTS Việt Nam nói chung tiếng Ê Đê nói riêng chƣa Ďƣợc quan tâm nghiên cứu nhà khoa học Từng bƣớc Ďể góp phần giải tốn kiểm tra tả tiếng Ê Đê Mơ hình kiểm tra tả âm tiết Ê Đê dựa tập mơ hình âm tiết tiếng Ê Đê chuẩn Ďƣợc Ďề xuất, nhƣ sau: Đầu tiên, xây dựng tập mô hình âm tiết Ê Đê dựa theo cấu trúc âm tiết tiếng Ê Đê, nhƣ Bảng 2.9 Tiếp đến, chuyển Ďổi âm tiết tiếng Ê Đê cần kiểm tra tả sang mơ hình âm tiết theo cấu trúc mơ hình: [Cb][S1][S2][Ce] Sau cùng, kiểm tra mơ hình âm tiết Ďã chuyển Ďổi có thuộc tập mơ hình âm tiết tiếng Ê Đê hay không, Ďể kết luận âm tiết cần kiểm tra có cấu trúc âm tiết Ďúng hay sai Hình 2.6 Mơ hình kiểm tra tả âm tiết Mơ hình kiểm tra tả tiếng Ê Đê âm tiết tiếng Ê Đê dựa tập mơ hình âm tiết tiếng Ê Đê Ďƣợc trình bày hình 2.6 2.5 Kết luận chƣơng Trong chƣơng Ďã trình bày kết chƣa Ďƣợc cơng bố từ trƣớc Ďến Luận án tiếp tục triển khai mức Ďã Ďƣợc Ďịnh hƣớng môi trƣờng xử lý tiếng Ê Đê CHƢƠNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 3.1 Hợp nguồn liệu song ngữ Việt-Ê Đê 3.1.1 Mơ hình hợp nguồn liệu song ngữ Xuất phát từ thực trạng KNV Việt-DTTS Việt Nam nói chung KNV Việt-Ê Đê nói riêng, Ďể góp phần giải toán xây dựng KNV song ngữ Việt-Ê Đê với nguồn liệu Ďầu vào chủ yếu từ Ďiển giấy ViệtÊ Đê Ê Đê-Việt Luận án Ďề xuất mơ hình hợp nguồn liệu song ngữ từ Ďiển giấy Việt-Ê Đê Ê Đê-Việt xây dựng KNV Việt-Ê Đê Mơ hình hợp nguồn liệu song ngữ Ďƣợc thể Hình 3.1 14 3.1.2 Môi trường hợp nguồn liệu song ngữ Việt-Ê Đê Ê ĐêViệt Môi trƣờng hợp Ďƣợc thực qua hai mô Ďun thực hợp nhất: mô Ďun tƣơng tác Ê Đê-Việt mô Ďun tƣơng tác Việt-Ê Đê 3.1.3 Đánh giá mơ hình hợp nguồn liệu Với bối cảnh xử lý tiếng DTTS ViệtNam nói chung tiếng Ê Đê nói riêng, mơ hình hợp nguồn liệu Việt-Ê Đê Ê Đê-Việt Ďƣợc Ďề xuất góp phần xây dựng KNV song ngữ Việt-Ê Đê từ nguồn liệu từ Ďiển giấy Việt-Ê Đê Ê Đê-Việt Mơ hình hợp nguồn liệu Ďƣợc Hình 3.1 Mơ hình hợp nguồn Ďề xuất, Ďƣợc mở rộng Ďể giải liệu song ngữ toán xây dựng KNV song ngữ Việt-DTTS khác Việt Nam 3.2 Xây dựng kho ngữ vựng song ngữ Việt-Ê Đê 3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê a) Tiêu chí liệu Với mục tiêu, xây dựng KNVV-E Ê Đê-Việt làm hạ tầng sở cho môi trƣờng xử lý tiếng Ê Đê Các tiêu chí liệu Ďƣợc Ďặt KNV nhƣ sau: Các từ tiếng Ê Đê Ďƣợc thu thập ghi theo tiếng Ê Đê nhóm Kpă Các từ tiếng Việt từ tiếng Việt phổ thơng ghi chữ Quốc ngữ Các ví dụ Ďƣợc Ďƣa vào Ďể làm sáng tỏ cho nghĩa cách sử dụng từ ngữ hay gọi ngữ cảnh mục từ Các mục từ Ďƣợc gán nhãn từ loại: gán nhãn N cho danh từ, gán nhãn V cho Ďộng từ, gán nhãn A cho tính từ, gán nhãn O cho mục từ danh từ, Ďộng từ hay tính từ Từ Ďa nghĩa Ďƣợc ghi nhận, dịch Ďối chiếu với từ khác tƣơng Ďƣơng ngơn ngữ Ďích Khi gióng hàng từ ngơn ngữ nguồn, tìm từ tƣơng Ďƣơng ngơn ngữ Ďích, sở nghĩa bản, nghĩa thƣờng dùng hai ngôn ngữ Dữ liệu Ďƣợc lƣu máy với phông chữ Unicode Đây tiêu chí mà kết nghiên cứu KNVV-E từ trƣớc Ďến chƣa Ďề cập Ďến b) Nguồn liệu Nguồn liệu từ Ďiển giấy song ngữ Việt-Ê Đê Ê Đê-Việt Ďƣợc chọn làm liệu Ďầu vào cho mơ hình tƣơng tác: 15 Từ Ďiển Việt-Ê Đê, gồm 10.000 Ďơn vị mục từ, phần lớn thuộc vốn từ bản, thông dụng tiếng Việt Từ Ďiển, Ďƣợc nhập thủ công hệ STVB Từ Ďiển Ê Đê-Việt, có khoảng 10.000 mục từ Phần lớn từ ngữ thƣờng dùng hàng ngày tiếng Ê Đê Cũng giống nhƣ từ Ďiển Việt-Ê Đê, từ Ďiển Ďƣợc nhập thủ công hệ STVB Winword KNV tiếng Việt, có 31.000 mục từ, kế thừa từ “Đề tài VLSP” c) Cấu trúc kho ngữ vựng Tổ chức cấu trúc KNV bƣớc quan trọng xây dựng KNV Trong luận án, KNV Ďƣợc thiết kế theo mơ hình CSDL quan hệ CSDL quan hệ Ďƣợc sử dụng nhƣ tập hợp bảng lƣu trữ liệu lƣu trữ tập hợp thực thể có quan hệ với Các bảng CSDL tƣơng tự nhƣ KNV, Ďƣợc lƣu trữ hoàn toàn Ďộc lập cấu trúc nhƣ liệu 3.2.2 Cập nhật liệu vào kho ngữ vựng song ngữ Việt-Ê Đê Trong KNVV-E, mục từ Ďƣợc cập nhập thông qua thông qua công cụ thực hợp nguồn liệu song ngữ, Ďƣợc luận án Ďề xuất xây dựng Ďƣợc Ďặt tên MEDAS (MErging DAta Sources) Công cụ MEDAS gồm hai chức thực hai mô Ďun tƣơng tác Việt-Ê Đê Ê Đê-Việt mơi trƣờng hợp mơ hình hợp nguồn liệu song ngữ Ďã Ďƣợc Ďề xuất Mục 3.1 Kết mục từ nhập vào kho ngữ vựng, Ďƣợc thống kê Bảng 3.6 Bảng 3.6 Thống kê số mục từ nhập vào kho ngữ vựng Số mục từ đƣợc cập nhật Tổng Kho ngữ vựng Mô đun tƣơng Mô đun tƣơng cộng tác Ê Đê-Việt tác Việt-Ê Đê Tiếng Việt 11.357 2.575 13.932 Tiếng Ê Đê 9.287 2.149 11.436 Việt-Ê Đê 17.980 3.167 21.147 3.2.3 Đánh giá kho ngữ vựng song ngữ Việt-Ê Đê Sau xây dựng KNVV-E, luận án cần Ďánh giá Ďộ bao phủ KNV văn tiếng Việt tiếng Ê Đê Chúng Ďề xuất Ďộ bao phủ KNV DC (Degree of Coverage) DC tính Ďộ bao phủ mục từ KNV văn bản, Ďƣợc hình thành nhƣ tỷ lệ phần trăm tổng số từ KNV bao phủ văn DC Trong đó: X Y 100 X X: tổng số từ văn bản, Y: tổng số từ văn chƣa có KNV, Y≤X a) Tính độ bao phủ mục từ tiếng Ê Đê Để kiểm tra từ văn tiếng Ê Đê có hay chƣa có KNV, 16 cơng cụ tách từ Ďƣợc xây dựng từ Ďể tách từ Ê Đê văn Hƣớng tiếp cận cho toán tách từ hƣớng tiếp cận dựa KNV Để tách từ khơng có KNV, phƣơng pháp tách từ Ďƣợc áp dụng phƣơng pháp so khớp cực Ďại dựa vào mục từ KNV Độ bao phủ KNV Ê Đê văn tiếng Ê Đê tính Ďƣợc bảng 3.10 Bảng 3.10 Độ bao phủ KNV Ê Đê văn tiếng Ê Đê Loại văn Số từ tách đƣợc Số từ chƣa có KNV Độ bao phủ Sách học tiếng Ê Đê Truyện Ďọc Ê Đê-Việt Bản tin tiếng Ê Đê 1.815 96 94,71% 2.052 276 86,55% 3.725 328 91,19% Độ bao phủ trung bình 90,82% b) Tính độ bao phủ mục từ tiếng Việt Để kiểm tra từ văn tiếng Việt có hay chƣa có KNV, phƣơng pháp tách từ tiếng Việt Ďƣợc kế thừa từ công cụ tách từ vnTokenizer sau Ďã bổ sung từ tiếng Việt Ďã phát chƣa có KVN tiếng Việt vào kho từ vựng mở rộng vnTokenizer Sau Ďó, kiểm tra từ tách Ďƣợc KNVV-E Độ bao phủ KNV tiếng Việt văn tiếng Việt tính Ďƣợc Bảng 3.12 Bảng 3.12 Độ bao phủ KNV văn tiếng Việt Số từ chƣa Số từ Độ Loại văn có tách đƣợc bao phủ KNV Sách học tiếng Việt 3, 4, Truyện Ďọc tiếng Việt 3, 4, Bản tin sở giáo dục Đăk Lăk 3.324 225 3.538 274 4.777 509 Độ bao phủ trung bình 93,23% 92,26% 89,34% 91,61% Kết tính Ďộ bao phủ KNVV-E văn tiếng Việt 91,61% tính Ďƣợc Bảng 3.12 văn tiếng Ê Đê 90,82% tính Ďƣợc Bảng 3.10, phần Ďã chứng minh Ďƣợc tính khả thi KNVV-E việc triển khai ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê 3.3 Quản lý kho ngữ vựng song ngữ Việt-Ê Đê 3.3.1 Phát triển kho ngữ vựng song ngữ Việt-Ê Đê Trong kho ngữ vựng việc bổ sung thêm mục từ cập nhật thành phần ngữ nghĩa, từ loại, ví dụ làm rõ nghĩa mục từ công việc không Ďề cập Ďến việc phát triển kho ngữ vựng 17 Chức Cập nhật mục từ trang web cho phép bổ sung mục từ vào kho ngữ vựng theo mơ hình hợp nguồn liệu song ngữ chỉnh sửa thành phần mục từ Ďã có kho ngữ vựng Chức Ďƣợc thực nhà khoa học hay chuyên gia ngôn ngữ tiếng Ê Đê 3.3.2 Nâng cao chất lượng kho ngữ vựng Nhằm góp phần việc nâng cao chất lƣợng KNV Việt-Ê Đê, giải pháp kiểm tra tả âm tiết tiếng Ê Đê Ďƣợc áp dụng Ďể xây dựng kiểm tra lỗi tả âm tiết mục từ tiếng Ê Đê KNV, Ďƣợc Ďặt tên CESILD (Checking Hình 3.2 Mơ hình hoạt động Ede Sylable In Lexical Database) Hoạt CESILD Ďộng CESILD thể Hình 3.2 3.3.3 Định hướng khai thác kho ngữ vựng song ngữ Việt-Ê Đê Nhằm tạo Ďiều kiện thuận lợi cho học sinh dân tộc Ê Đê giáo viên dạy học tiếng Ê Đê, sở khai thác KNVV-E qua môi trƣờng xử lý tiếng Ê Đê, ứng dụng Ďƣợc triển khai: - Tra cứu trực tuyến từ vựng Việt-Ê Đê, - Tra cứu ngoại tuyến từ vựng Việt-Ê Đê, - Kiểm tra tả văn tiếng Ê Đê, - Trợ giúp dịch máy Việt-Ê Đê, Thông qua môi trƣờng xử lý tiếng Ê Đê không triển khai ứng dụng khai thác KNVV-E, mà cịn góp phần quản lý việc cập nhật mục từ KNV song ngữ Ê Đê-Việt chia sẻ KNV cho hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê 3.4 Kết luận chƣơng Những kết Ďạt Ďƣợc chƣơng sở Ďể luận án tiếp tục triển khai số ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê CHƢƠNG XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ 4.1 Dạy học tiếng Ê Đê 4.1.1 Thực trạng dạy học tiếng Ê Đê Dạy học tiếng Ê Đê cho Ďến cịn khó khăn: Số lƣợng giáo viên dạy tiếng Ê Đê thiếu so với nhu cầu Chất lƣợng giảng dạy tiếng Ê Đê hạn chế sở vật chất, thiết bị, Ďồ dùng dạy học, tài liệu sách tham khảo phục vụ cho việc dạy học tiếng Ê Đê thiếu 18 Soạn thảo văn tiếng Ê Đê với phông chữ tiếng Ê Đê có nhiều chữ Ê Đê khó gõ khó nhớ, dễ gây lỗi tả Trao Ďổi tài liệu tiếng Ê Đê Ďều bị hạn chế vấn Ďề hiển thị chữ viết tiếng Ê Đê máy tính khơng cài phơng chữ tiếng Ê Đê Chƣa có ứng dụng Cơng nghệ Thơng tin trợ giúp cho giáo viên học sinh dân tộc Ê Đê dạy học tiếng Ê Đê 4.1.2 Giải pháp sử dụng môi trường xử lý tiếng Ê Đê Để ứng dụng Công nghệ Thông tin vào dạy học tiếng Ê Đê cần có nỗ lực chuyên gia Công nghệ Thông tin việc Ďầu tƣ phát triển sở hạ tầng cho xử lý tiếng Ê Đê xây dựng ứng dụng trợ giúp dạy học tiếng Ê Đê Giải pháp xây dựng môi trƣờng xử lý tiếng Ê Đê Ďƣợc Ďặt Luận án giải pháp thiết thực Thông qua môi trƣờng này, chuyên gia ngơn ngữ Ê Đê có Ďƣợc mơi trƣờng Ďể tham gia Ďóng góp, cập nhật liệu vào kho ngữ vựng, góp phần nâng cao chất lƣợng kho ngữ vựng ViệtÊ Đê Kho ngữ vựng Việt-Ê Đê, công cụ kỹ thuật, kết nghiên cứu Ďƣợc chia sẻ cho hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê ngƣời dùng Các triển khai xây dựng ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê với nguồn liệu kho ngữ vựng Việt-Ê Đê Ďƣợc download từ môi trƣờng 4.1.3 Các ứng dụng dạy học tiếng Ê Đê Cùng với phƣơng pháp dạy học, sở vật chất, sách giáo khoa chuẩn, ứng dụng Công nghệ Thơng tin phƣơng tiện góp phần nâng cao chất lƣợng dạy học tiếng Ê Đê Nhằm tạo Ďiều kiện thuận lợi cho giáo viên học sinh dân tộc Ê Đê việc dạy học tiếng Ê Đê, Luận án Ďã Ďề xuất triển khai xây dựng số ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê, cụ thể: Ứng dụng tra cứu trực tuyến ngoại tuyến từ vựng song ngữ Việt-Ê Đê, góp phần giúp học sinh, giáo viên việc tra cứu từ vựng, tìm hiểu từ loại ý nghĩa từ thông qua ví dụ Ďƣợc hiển thị Ứng dụng tra từ vựng Việt-Ê Đê ngoại tuyến Ďƣợc triển khai nhƣ giáo cụ trực quan dùng giảng dạy môn học tiếng Ê Đê Ứng dụng kiểm tra lỗi tả văn tiếng Ê Đê, góp phần giúp cho giáo viên, học sinh phát sửa lỗi tả âm tiết văn Ďƣợc soạn thảo tiếng Ê Đê nhƣ giáo trình, giáo án, học, tập Ứng dụng trợ giúp dịch máy Việt-Ê Đê, góp phần hỗ trợ việc dịch máy học từ tiếng Việt sang tiếng Ê Đê, tạo Ďiều kiện Ďể tiếp tục nâng cấp trình Ďộ giảng dạy tiếng Ê Đê, giúp giáo viên việc biên soạn giáo án song ngữ Việt-Ê Đê, góp phần làm phong phú môn học song ngữ ViệtÊ Đê 4.2 Tra cứu từ vựng song ngữ Việt-Ê Đê 4.2.1 Vai trò từ vựng dạy học song ngữ Việt-Ê Đê Học từ vựng rèn luyện kĩ sử dụng từ vựng yếu tố Ďầu tiên dạy học ngơn ngữ nói chung dạy tiếng Ê Đê nói riêng 19 Do tầm quan trọng từ vựng Ďối với ngƣời học tiếng Ê Đê, vậy, giáo viên giảng dạy tiếng Ê Đê cần phải phát triển từ vựng cho học sinh, nhƣ giúp học sinh phát triển khả giao tiếp sử dụng vốn từ vựng Ďã Ďƣợc học Trên sở tầm quan trọng từ vựng dạy học tiếng Ê Đê, ứng dụng tra cứu từ vựng Việt-Ê Đê cần thiết cho giáo viên giảng dạy tiếng Ê Đê học sinh học tiếng Ê Đê 4.2.2 Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê Những mặt hạn chế cần Ďƣợc khắc phục xây dựng ứng dụng tra cứu từ vựng Việt-DTTS: Chƣa dùng phông chữ Unicode hiển thị chữ viết tiếng DTTS Chƣa dùng chung KNV nhƣ hạ tầng sở cho toán xử lý tiếng DTTS Để khắc phục hạn chế trên, kết giải pháp Unicode cho STVB tiếng Ê Đê KNVV-E luận án, Ďƣợc sử dụng xây dựng ứng tra cứu từ vựng Việt-Ê Đê a) Ứng dụng tra cứu từ vựng Việt-Ê Đê Hoạt Ďộng theo sơ Ďồ hình 4.1 b) Ứng dụng tra cứu từ vựng Ê Đê-Việt Hoạt Ďộng theo sơ Ďồ hình 4.2 Hình 4.1 Sơ đồ hoạt động tra cứu từ vựng Việt-Ê Đê Hình 4.2 Sơ đồ hoạt động tra cứu từ vựng Ê Đê-Việt 4.2.3 Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê Ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê Ďƣợc triển khai trang Web quản lý kho ngữ vựng Chức Tra cứu từ vựng Ďƣợc xây dựng dựa sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê (Hình 4.1) tra cứu từ vựng Ê Đê-Việt (Hình 4.2) 20 Ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, góp phần giúp giáo viên học sinh việc tra cứu học từ vựng Tuy nhiên, ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê có mặt thuận lợi khó khăn: Thuận lợi: ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê khơng cần cài Ďặt, tất ngƣời Ďều sử dụng, cho phép ngƣời dùng truy cập lúc, nơi thƣờng xuyên Ďƣợc cập nhật mục từ Khó khăn: khơng phải lúc ngƣời dùng vào internet Ďể tra cứu từ vựng Để khắc phục khó khăn ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, luận án Ďề xuất xây dựng ứng dụng tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê 4.2.3.1 Tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê Chức hiển thị kết tra cứu từ vựng Ďƣợc xây dựng dựa theo sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê (Hình 4.1) tra cứu từ vựng Ê ĐêViệt (Hình 4.2) Ngồi chức trợ giúp tra cứu từ vựng khắc phục mặt hạn chế ứng dụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, ứng dụng tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê Ďƣợc dùng nhƣ giáo cụ trực quan dùng giảng dạy môn học tiếng Ê Đê 4.3 Trợ giúp dịch máy Việt-Ê Đê 4.3.1 Dịch máy văn Việt-Ê Đê dạy học Để ứng dụng toán dịch máy văn tiếng Việt sang tiếng Ê Đê vào dịch học từ tiếng Việt sang tiếng Ê Đê giải Ďƣợc trƣờng hợp nhập nhằng trình dịch Luận án Ďề xuất, xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê Ứng dụng trợ giúp tích hợp Ďƣợc trợ giúp NSD việc xử lý trƣờng hợp nhập nhằng từ vựng tiếng Ê Đê Ứng dụng góp phần trợ giúp việc dịch máy học tiếng Việt sách giáo khoa sang tiếng Ê Đê, nhằm tạo Ďiều kiện Ďể tiếp tục nâng cấp trình Ďộ dạy tiếng Ê Đê, giúp giáo viên việc biên soạn giáo án song ngữ Việt-Ê Đê góp phần làm phong phú học song ngữ Việt-Ê Đê qua môn học nhƣ tốn, khoa học, lịch sử, Ďịa lý khơng phải có học mơn tiếng Ê Đê nhƣ 4.3.2 Giải toán tách từ tiếng Việt dịch máy Việt-Ê Đê Trong khuôn khổ luận án, khơng Ďi sâu vào nghiên cứu tốn tách từ, mà kế thừa công cụ tách từ tiếng Việt vnTokenizer Ďã Ďƣợc công bố chia sẻ “Đề tài VLSP” Để vnTokenizer tách từ tiếng Việt tƣơng ứng với từ tiếng Ê Đê, mục từ tiếng Việt Ďƣợc ghi bổ sung KNV tiếng Việt phải Ďƣợc bổ sung vào KNV mở rộng vnTokenizer cần thiết cho việc tách từ hệ dịch Việt-Ê Đê 4.3.3 Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê 4.3.3.1 Phương pháp dịch Phƣơng pháp Ďƣợc chọn ứng dụng trợ giúp dịch máy Việt-Ê Đê 21 phƣơng pháp dịch dựa vào KNVV-E Ďã Ďƣợc xây dựng Phƣơng pháp dịch phụ thuộc hoàn toàn vào KNVV-E gần nhƣ Ďây kiểu dịch trực tiếp cách thay theo kiểu 1-1 Tuy nhiên, áp dụng phƣơng pháp cho dịch máy Việt-Ê Đê, chƣa xử lý Ďƣợc trƣờng hợp nhập nhằng ranh giới từ, nhập nhằng từ Ďa nghĩa, nhập nhằng từ Ďồng âm, nhập nhằng từ loại chƣa xử lý Ďƣợc từ khơng có KNV Vì vậy, kết dịch Việt-Ê Đê chƣa thể Ďƣa ứng dụng dạy học tiếng Ê Đê Để kết dịch Việt-Ê Đê Ďƣợc Ďƣa vào ứng dụng dạy học tiếng Ê Đê, luận án Ďề xuất xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê Để làm Ďƣợc công việc này, ứng dụng trợ giúp dịch máy Việt-Ê Đê cần phải tích hợp Ďƣợc trợ giúp NSD, Ďể xác Ďịnh từ thích hợp cho trƣờng hợp nhập nhằng từ khơng có KNV 4.3.3.2 Bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê Trên sở Ďã xác Ďịnh phƣơng pháp dịch cho hệ dịch phƣơng pháp tách từ ứng với phƣơng pháp dịch, hỗ trợ dịch máy Việt-Ê Đê Ďƣợc Ďề xuất Hoạt Ďộng hỗ trợ dịch máy Việt-Ê Đê, trình bày hình 4.3 Hình 4.3 Hoạt động ứng dụng trợ giúp dịch máy Việt-Ê Đê 4.3.3.3 Kết thực nghiệm Bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê Ďã xử lý Ďƣợc trật tự câu hỏi với từ Ďể hỏi Ďƣợc Ďƣa vào hệ thống dịch Bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê Ďã xử lý Ďƣợc 90% trật tự từ Ďể hỏi 303 tổng số câu nghi vấn Còn khoảng 10% từ Ďể hỏi chƣa xử lý, Ďã Ďƣợc kiểm tra sau lần dịch nhận thấy từ khơng có dấu kết thúc câu Ďứng trƣớc câu hỏi Từ kết kiểm chứng, cho thấy rằng, từ Ďể hỏi không xử lý Ďƣợc NSD nhập sai, hệ thống Do Ďó, luận án có sở Ďể khẳng Ďịnh mô Ďun xử lý trật tự từ dùng Ďể hỏi văn tiếng 22 Việt Ďƣa vào sử dụng hỗ trợ dịch máy Việt-Ê Đê Với trật từ phụ từ "snăk" câu nghi vấn, dịch Ďã xử lý Ďƣợc gần nhƣ tồn Qua kiểm chứng có số trƣờng hợp chƣa xử lý Ďƣợc từ Ďứng sau Ďứng sau phụ từ khơng phải tính từ NSD Ďặt dấu kết thúc sau phụ từ Bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê, góp phần trợ giúp dịch máy học từ tiếng Việt sang tiếng Ê Đê, giúp giáo viên trình biên soạn giáo trình, giáo án song ngữ Việt-Ê Đê 4.4 Kiểm tra lỗi tả tiếng Ê Đê 4.4.1 Vấn đề lỗi tả tiếng Ê Đê Sai sót lớn văn thƣờng lỗi tả Ďánh máy nhầm Lỗi thƣờng xãy nhiều văn Ďƣợc soạn thảo ngƣời chƣa thông thạo tiếng Ê Đê, chƣa quen với cách gõ tiếng Ê Đê Trong xử lý tiếng Ê Đê, tốn kiểm tra tả văn tiếng Ê Đê cho Ďến chƣa Ďƣợc nhà khoa học lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm nghiên cứu Dựa vào mơ hình kiểm tra tả âm tiết tiếng Ê Đê Ďã Ďề xuất mục 3.3.3, luận án tiếp tục triển khai giải tốn kiểm tra lỗi tả văn tiếng Ê Đê 4.4.2 Giải toán kiểm tra lỗi tả văn tiếng Ê Đê Bài tốn kiểm tra lỗi tả văn tiếng Ê Đê Ďƣợc giải dựa theo kịch bản: Đầu vào: văn tiếng Ê Đê chƣa Ďƣợc kiểm tra lỗi tả, tập 14 mơ hình âm tiết Ê Đê, KNVV-E Đầu ra: văn tiếng Ê Đê Ďƣợc kiểm tra lỗi tả, KNVV-E Ďƣợc bổ sung thêm mục từ Phương pháp: hoạt Ďộng theo mơ hình kiểm tra lỗi tả văn tiếng Ê Đê Ďƣợc trình bày Hình 4.4 4.4.3 Xây dựng kiểm tra lỗi tả dạy học tiếng Ê Đê Dựa mơ hình kiểm tra lỗi tả văn tiếng Ê Đê, luận án Ďề xuất xây dựng kiểm tra lỗi tả văn tiếng Ê Đê, Ďƣợc Ďặt tên SCET (Spelling Checking of Ede Text) a) Cài đặt thử nghiệm Tiến hành cài Ďặt thử nghiệm Hình 4.4 Mơ hình kiểm tra lỗi SCET theo hƣớng tiếp cận mơ hình âm tả văn tiếng Ê Đê tiết tiếng Ê Đê Ďã Ďƣợc Ďề xuất thu Ďƣợc kết thực nghiệm khả quan Dữ 23 liệu thử nghiệm ban Ďầu Ďƣợc tiến hành sách học tiếng Ê Đê, truyện Ďọc Ê Đê-Việt, báo dân tộc miền núi Tập văn thử nghiệm gồm 30 văn với số lỗi tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh, có tất 150 lỗi tả mức âm tiết Kết thử nghiệm, SCET Ďã phát Ďƣợc 142 lỗi tả âm tiết sai Ďƣợc Ďƣa vào Cịn âm tiết sai không phát Ďƣợc phần có nhập nhằng phần Ďầu âm tiết với âm âm cuối Bảng 4.3 mơ tả kết thử nghiệm phát lỗi tả văn với số lỗi tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh Bảng 4.3 Kết thử nghiệm với số lỗi tả ngẫu nhiên xác định Lỗi Lỗi không Tỷ lệ không Số âm tiết phát đƣợc phát đƣợc phát đƣợc 150 142 5,7% Qua kết thử nghiệm thu Ďƣợc, cho thấy khả phát lỗi tả âm tiết tiếng Ê Đê giải pháp Ďạt Ďƣợc 94,3% Giải pháp Ďã góp phần phát lỗi tả âm tiết văn tiếng Ê Đê b) Đánh giá kết thử nghiệm Khả phát lỗi tả âm tiết tiếng Ê Đê giải pháp Ďạt Ďƣợc 94% (bảng 4.4) Kết phụ thuộc vào ngữ liệu Ďầu vào cho trình tiền xử lý văn nhƣ từ Ďiển tên riêng, từ Ďiển viết tắt Quá trình tiền xử lý văn cần sử dụng ngữ liệu Ďể phân loại âm tiết lọc nhiễu trƣớc thực kiểm tra tả âm tiết Với ngữ liệu Ďầu vào Ďầy Ďủ, hiệu suất khả phát lỗi tả âm tiết tiếng Ê Đê Ďƣợc nâng cao Bộ SCET Ďã góp phần trợ giúp cho giáo viên, học sinh phát sửa lỗi tả âm tiết văn soạn thảo tiếng Ê Đê nhƣ giáo trình, giáo án, học, tập 4.5 Kết luận chƣơng Những kết Ďã Ďạt Ďƣợc chƣơng này, Ďã góp phần khắc phục Ďƣợc thực trạng xử lý tiếng DTTS Việt Nam nói chung tiếng Ê Đê nói riêng, thơng qua việc triển khai ứng dụng dạy học tiếng Ê Đê KẾT LUẬN Các kết luận án Những nghiên cứu giải pháp Ďƣợc Ďề cập Ďã góp phần: 1) Xây dựng mơi trƣờng xử lý tiếng Ê Đê, nhằm Ďịnh hƣớng qui trình nghiên cứu xử lý tiếng Ê Đê 2) Sử dụng Unicode cho STVB tiếng DTTS nói chung tiếng Ê Đê nói riêng 3) Xây dựng KNV V-E dựa mơ hình hợp nguồn liệu song ngữ Việt-Ê Đê Ê Đê-Việt Ê Đê 4) Đề xuất mơ hình kiểm tra lỗi tả âm tiết dựa mơ hình âm tiết 24 tiếng Ê Đê, góp phần phát lỗi tả âm tiết văn tiếng Ê Đê, kiểm tra âm tiết tiếng Ê Đê KNVV-E 5) Triển khai ứng dụng dạy học tiếng Ê Đê Đánh giá kết Kết Ďạt Ďƣợc sau Ďây chƣa Ďƣợc nghiên cứu từ trƣớc Ďến nay: Định hƣớng qui trình nghiên cứu xử lý tiếng DTTS Việt Nam nói chung xử lý tiếng Ê Đê nói riêng Sử dụng Unicode STVB tiếng Ê Đê, góp phần ứng dụng STVB tiếng Ê Đê môi trƣờng Ďa ngữ Chuyển Ďổi văn tiếng Ê Đê dùng phơng chữ riêng sang Unicode, góp phần giải khó khăn việc trao Ďổi, sử dụng văn chữ viết tiếng DTTS không sử dụng phơng chữ Unicode Kiểm tra Ďƣợc lỗi tả âm tiết văn tiếng Ê Đê, góp phần phát lỗi tả STVB tiếng Ê Đê Xây dựng KNVV-E với tiêu chí: thống dùng phơng chữ Unicode, phát từ tiếng Việt tƣơng ứng với tiếng Ê Đê khơng có KNV tiếng Việt, mục từ Ê Đê KNV Ďã Ďƣợc kiểm tra lỗi tả âm tiết chia sẻ KNV cho hoạt Ďộng nghiên cứu, góp phần xây dựng hạ tầng sở cho môi trƣờng xử lý tiếng Ê Đê Triển khai số ứng dụng xử lý tiếng Ê Đê dạy học tiếng Ê Đê, góp phần ứng dụng CNTT việc nâng cao chất lƣợng dạy học tiếng Ê Đê Hướng phát triển Ngoài kết Ďã Ďạt Ďƣợc luận án, số vấn Ďề nảy sinh từ luận án cần Ďƣợc tiếp tục hoàn thiện tƣơng lai nhƣ sau: Hồn thiện kết có Nội dung nghiên cứu luận án kiểm tra Ďƣợc lỗi tả tiếng Ê Đê mức âm tiết, tốn kiểm tra lỗi tả tiếng Ê Đê Ďƣợc nghiên cứu tiếp tục mức tiếp theo, Kiểm tra lỗi tả tiếng Ê Đê tiếng Việt KNV Tiếp tục Nâng cao chất lƣợng KNVV-E với trợ giúp chuyên gia ngôn ngữ tiếng Ê Đê qua môi trƣờng xử lý tiếng Ê Đê, Mở rộng xử lý Ďa ngữ cho ngôn ngữ DTTS khác, Tiếp tục chủ Ďề xử tiếng Ê Đê theo Ďịnh hƣớng XLNNTN ... ngơn ngữ DTTS, kể Ďến: SALTMIL hiệp hội quốc tế tiếng nói ngơn ngữ nhóm nghiên cứu riêng biệt chủ yếu tập trung vào công nghệ ngôn ngữ DTTS, MILLE dự án Anh liên quan Ďến xử lý tiếng DTTS, EMILLE... liệu xử lý ngơn ngữ DTTS Khó khăn phải Ďƣợc kể Ďến Ďó thiếu hỗ trợ tài dành cho hoạt Ďộng nghiên cứu xử lý ngôn ngữ DTTS Các phương pháp tiếp cận Nghiên cứu xử lý ngơn ngữ DTTS sử dụng phƣơng pháp... Kết nghiên cứu xử lý chữ viết tiếng DTTS Việt Nam có ƣu Ďiểm nhƣợc Ďiểm sau: Ưu điểm: góp phần tin học hóa văn tiếng DTTS, giải Ďƣợc vấn Ďề hiển thị chữ DTTS máy tính cho dân tộc Chăm, Thái,