Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,59 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ MỸ LỆ XÂYDỰNGMÔITRƯỜNGXỬLÝTIẾNG ÊĐÊ ỨNGDỤNGTRONGDẠYVÀHỌCTIẾNGÊĐÊ Chuyên ngành Mã số : KHOA HỌC MÁY TÍNH : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2017 Công trình hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: ……………………………………………………… Phản biện 2: ……………………………………………………… Phản biện 3: ……………………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng họp tại: Đại học Đà Nẵng Vào hồi … ngày tháng ……… năm ……… Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC Đà CÔNG BỐ [1] [2] [3] [4] [5] [6] [7] [8] Hoàng Thị Mỹ Lệ, Phan Thị Bông, Phan Huy Khánh, “Building a Machine Translation System in a Restrict Context from Ka-Tu Language into Vietnamese”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2012, Danang, pp 167-172, 2012 Hoàng Thị Mỹ Lệ, Vilavong Souksan, Phan Huy Khánh, “Using Unicode in Encoding the Vietnamese Ethnic Minority Languages, Applying for the EDe Language”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2013, HaNoi, pp 137-148, 2013 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “A Domain indicating method for Ede terminology in building a Vietnamese-Ede bilingual corpus”, Proceeding of The third Asian Conference on Information Systems, ACIS’2014, NhaTrang, pp 434-439, 2014 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xâydựng kho ngữ liệu đa ngữ Việt-ÊĐê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học Công nghệ ĐHĐN Số 1(74), 2, trang: 42-46, 2014 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Basing on the Ede syllable models to check Ede syllable misspelling, applying to improve the quality of Ede vocabulary corpus”, Proceeding of the International Conference on Advanced Technologies for Communications (ATC’2016), HaNoi, pp 158-162, 2016 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xâydựng kho ngữ vựng song ngữ Việt-Ê Đê dựa mô hình tương tác ViệtÊ Đê”, Tạp chí Khoa học Công nghệ ĐHĐN, Số 5(114), 2, trang: 36-40, 2017 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Deploying environment for processing Ede ethnic minority language in Vietnam”, IEEE International Conference on Systems Science and Engineering (ICSSE), Jul 2017, HoChiMinh, pp 174-177, 2017 Hoàng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp chuyển đổi văn tiếngÊĐêdùng phông chữ riêng sang Unicode”, Tạp chí Hội nghị khoa học quốc gia lần thứ X, Nghiên cứu ứngdụng Công nghệ Thông tin-FAIR, Đà Nẵng (đang chờ in kỷ yếu), 2017 MỞ ĐẦU Xửlýtiếng dân tộc thiểu số (DTTS) Việt Nam nói chung xửlýtiếngÊĐê nói riêng, cho Ďến có nhà khoa học quan tâm Trong bối cảnh bùng nổ sử dụng internet, với nhu cầu phát triển văn hoá hội nhập cộng Ďồng DTTS Việt Nam, lúc nhu cầu xửlýtiếng DTTS Ďặt thiết hết Từ tình hình thực tiễn xửlýtiếng DTTS, dựa gần gũi ngôn ngữ tiếng Việt tiếngÊ Đê, luận án chọn Ďề tài “Xây dựngmôitrườngxửlýtiếngÊĐêứngdụngdạyhọctiếngÊ Đê” nhằm Ďịnh hƣớng qui trình nghiên cứu xửlýtiếngÊĐê Từ Ďịnh hƣớng nghiên cứu Ďƣợc Ďặt môi trƣờng này, kho ngữ vựng Việt-Ê Đê Ďƣợc xâydựng dựa mô hình hợp nguồn liệu từ Ďiển giấy Việt-Ê ĐêÊ Đê-Việt Các ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê Ďƣợc xâydựng dựa kho ngữ vựng Việt-Ê Đê có Ďƣợc từ mô hình hợp Định hƣớng phát triển kho ngữ vựng thông qua trang web quản lý kho ngữ vựng Ďể chuyên gia ngôn ngữ ÊĐê tham gia Ďóng góp, cập nhật liệu vào kho ngữ vựng, góp phần nâng cao chất lƣợng kho ngữ vựng Việt-Ê Đê Bên cạnh việc phát triển kho ngữ vựng, trang web có chức chia sẻ kho ngữ vựng Việt-Ê Đê, công cụ kỹ thuật, kết nghiên cứu xửlýtiếngÊĐê cho hoạt Ďộng nghiên cứu liên quan Ďến xửlýtiếngÊĐê Mục tiêu nghiên cứu Luận án hƣớng Ďến nghiên cứu hai mục tiêu chính: - Xâydựngmôi trƣờng xửlýtiếngÊĐê Ďịnh hƣớng qui trình nghiên cứu cho xửlýtiếngÊĐê thể ba vấn Ďề: soạn thảo văn tiếngÊĐêmôi trƣờng Ďa ngữ; hợp nguồn liệu từ Ďiển giấy song ngữ ViệtÊ ĐêÊ Đê-Việt xâydựng KNVV-E; nâng cao chất lƣợng KNVV-E với tham gia, hỗ trợ chuyên gia ngôn ngữ tiếngÊĐê Chia sẻ nguồn tài nguyên, công cụ kỹ thuật, kết nghiên cứu cho hoạt Ďộng nghiên cứu xửlýtiếngÊĐê - Triển khai xâydựngứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê từ V-EBVB Đối tượng phạm vi nghiên cứu 2.1 Đối tượng nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu luận án, Ďối tƣợng gồm: ngôn ngữ ÊĐê ngôn ngữ DTTS; Unicode, công cụ kỹ thuật XLNNTN xửlýtiếngÊ Đê; từ Ďiển kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê 2.2 Phạm vi nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu luận án, luận án xác Ďịnh phạm vi nghiên cứu gồm: xửlý chữ viết theo quan Ďiểm XLNNTN xửlýtiếng Việt, STVB tiếngÊĐê sử dụng Unicode, kiểm tra lỗi tả âm tiết văn tiếngÊ Đê, hạ tầng sở cho xửlýtiếngÊ Đê, ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê Phương pháp nghiên cứu Phƣơng pháp nghiên cứu Ďƣợc sử dụng luận án: nghiên cứu lý thuyết, nghiên cứu thực nghiệm Cấu trúc luận án Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận phụ lục Nội dung luận án gồm chƣơng nhƣ sau: Chương 1: Tiếp cận xửlý ngôn ngữ dân tộc thiểu số Chương 2: Môi trƣờng xửlýtiếngÊĐê Chương 3: XửlýtiếngÊĐê Chương 4: XâydựngứngdụngxửlýtiếngÊĐê Những đóng góp luận án 1) Đề xuất xâydựngmôi trƣờng xửlýtiếngÊ Đê, góp phần Ďịnh hƣớng qui trình nghiên cứu xửlýtiếngÊĐê 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nói chung tiếngÊĐê nói riêng 3) Đề xuất xâydựng KNV V-E dựa mô hình hợp nguồn liệu song ngữ Việt-Ê ĐêÊ Đê-Việt ÊĐê 4) Đề xuất mô hình kiểm tra lỗi tả âm tiết dựa mô hình âm tiết tiếngÊ Đê, góp phần phát lỗi tả âm tiết văn tiếngÊ Đê, kiểm tra âm tiết tiếngÊĐê KNVV-E Ngoài ra, nhằm góp phần ứngdụng CNTT việc nâng cao chất lƣợng dạyhọctiếngÊ Đê, số ứngdụngứngdụngxửlýtiếngÊĐê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm có: - Tra cứu trực tuyến ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi tả văn tiếngÊ Đê, - Trợ giúp dịch máy Việt-Ê Đê hỗ trợ cho việc dịch giảng, giáo án từ tiếng Việt sang tiếngÊĐê CHƢƠNG VẤN ĐỀXỬLÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 1.1 Xửlý ngôn ngữ tự nhiên 1.1.1 Mã hóa soạn thảo văn 1.1.2 Xâydựng kho ngữ liệu 1.1.3 Tách từ gán nhãn từ loại 1.1.4 Bài toán dịch máy 1.2 Xửlýtiếng Việt-Kinh 1.2.1 Tiếng Việt bối cảnh xửlý ngôn ngữ tự nhiên Ngoài toán ứngdụng XLNNTN, xửlýtiếng Việt Ďặt vấn Ďề cần Ďƣợc quan tâm nghiên cứu nhƣ: Tự Ďộng thêm dấu chữ viết tiếng Việt; kiểm lỗi tả, ngữ pháp; xâydựng từ Ďiển thuật ngữ, KNV; phân tích ngữ nghĩa nhằm mục Ďích Ďể máy tính hiểu tiếng Việt; dịch tự Ďộng văn sang ngôn ngữ khác; tóm tắt nội dung văn bản; nhận dạng chữ in, chữ viết, tiếng nói; trích rút tri thức; tạo sinh văn tự Ďộng từ nguồn tài liệu khác theo ngữ cảnh Để giải vấn Ďề Ďƣợc Ďặt ra, xửlýtiếng Việt cần phải tập trung vào việc tạo công cụ tài nguyên cho xửlýtiếng Việt Vì vậy, xửlýtiếng Việt thách thức Ďặt 1.2.2 Một số kết xửlýtiếng Việt Trong bối cảnh phát triển ngành CNTT Việt Nam, số toán xửlýtiếng Việt Ďã Ďƣợc nghiên cứu Ďã Ďƣợc số kết quả: mã hóa Unicode, tách từ, xâydựng kho ngữ liệu, dịch máy Vấn Ďề Ďa ngữ xửlýtiếng Việt hệ quản trị sở liệu không gặp khó khăn, kể với kỹ thuật xếp tìm kiếm NSD không cần phải lập trình xửlý Ďƣợc tiếng Việt môi trƣờng Ďa ngữ 1.3.3 Xu triển vọng xửlýtiếng Việt Xửlýtiếng Việt hƣớng nghiên cứu có tầm quan trọng lớn Ďối với phát triển ứngdụng CNTT Việt Nam Xửlýtiếng Việt Ďang có nhu cầu lớn Việt Nam bùng nổ công nghiệp nội dung số nhiều doanh nghiệp Ďang quan tâm tới lĩnh vực 1.3 Xửlýtiếng dân tộc thiểu số Việt Nam 1.3.1 Bảo tồn tiếng dân tộc thiểu số Việt Nam Đứng trƣớc thực trạng tiếng nói DTTS Việt Nam Ďang Ďứng trƣớc nguy mai một, cộng Ďồng dân tộc Việt Nam Chính phủ cần có chƣơng trình nhƣ khuyến khích, vận Ďộng Ďồng bào DTTS giao tiếp ngày tiếng dân tộc Ngành GDĐT, cần xuất nhiều loại sách song ngữ Đƣa chƣơng trình giảng dạytiếng DTTS Việt Nam phù hợp với Ďịa bàn vùng DTTS vào trƣờng phổ thông, trƣờng phổ thông Dân tộc nội trú, trung tâm Giáo dục thƣờng xuyên, trung tâm Học tập cộng Ďồng, trƣờng Dạy nghề, Trung học chuyên nghiệp, Cao Ďẳng Đại học Đào tạo Ďội ngũ trí thức ngƣời DTTS Việt Nam tạo Ďiều kiện Ďể trí thức, cán ngƣời DTTS Việt Nam trở phục vụ quê hƣơng 1.3.2 Hệ thống chữ viết dân tộc thiểu số Việt Nam Số lƣợng dân tộc thiểu số Việt Nam Ďã có chƣa có chữ viết, Ďƣợc trình bày bảng 1.1 Bảng 1.1 Các hệ chữ viết DTTS Việt Nam Hệ chữ viết Số lƣợng DTTS Chữ La tinh 17 Chữ Viết cổ Chữ viết La tinh chữ viết cổ Chƣa có chữ viết 29 1.3.3 Thực trạng tiếng dân tộc thiểu số Việt Nam Với Ďặc Ďiểm Ďa dạng dân tộc, nên Việt Nam quốc gia Ďa ngôn ngữ Dân tộc Việt Nam nói ngôn ngữ khác Ngoài dân tộc Kinh dân tộc chiếm gần 86% dân số, có 54 dân tộc khác, thuộc ngữ hệ khác thể bảng ngôn ngữ dân tộc Việt Nam Trên nƣớc có 20 tỉnh thành Ďang tổ chức dạytiếng DTTS cho gần 110.000 học sinh thuộc dân tộc: H’Mông, Ê Đê, Gia Rai, Ba Na, Chăm, Khơ Me, Hoa Nhiều tỉnh thành Ďã triển khai thực dạytiếng DTTS cho học sinh, cán bộ, công chức, viên chức, sở ban ngành dƣới nhiều hình thức GDĐTcũng Ďã xâydựng số chƣơng trình giáo dục song ngữ, Ďƣa vào giảng dạy trƣờng tiểu học trƣờng phổ thông Dân tộc nội trú 1.4 Xửlý ngôn ngữ dân tộc thiểu số 1.4.1 Vấn đềxửlý ngôn ngữ dân tộc thiểu số Trên giới Ďã có hiệp hội, tổ chức, dự án với hoạt Ďộng liên quan Ďến xửlý ngôn ngữ DTTS, kể Ďến: SALTMIL hiệp hội quốc tế tiếng nói ngôn ngữ nhóm nghiên cứu riêng biệt chủ yếu tập trung vào công nghệ ngôn ngữ DTTS, MILLE dự án Anh liên quan Ďến xửlýtiếng DTTS, EMILLE dự án hợp tác trƣờng ĐH Lancaster Sheffield tập trung chủ yếu vào vấn Ďề liên quan Ďến mã hóa Unicode ký tự xâydựng kho ngữ liệu 1.4.2 Khó khăn thách thức Xửlý ngôn ngữ DTTS thƣờng xuyên phải Ďối mặt với khó khăn Ďầu tiên chữ tiếng DTTS Ďã có bảng mã Unicode hay chƣa, thiếu nguồn tài nguyên liệu chuẩn hóa dƣới dạng Ďiện tử, chuyên môn Chính khan nguồn tài nguyên liệu hạn chế cho phƣơng pháp tiếp cận hƣớng liệu xửlý ngôn ngữ DTTS Khó khăn phải Ďƣợc kể Ďến Ďó thiếu hỗ trợ tài dành cho hoạt Ďộng nghiên cứu xửlý ngôn ngữ DTTS 1.4.3 Các phương pháp tiếp cận Nghiên cứu xửlý ngôn ngữ DTTS sử dụng phƣơng pháp tiếp cận khác với phƣơng pháp tiếp cận thƣờng dùngxửlý ngôn ngữ tự nhiên (XLNNTN) Tuy nhiên, việc chọn phƣơng pháp tiếp cận phụ thuộc vào Ďặc thù ngôn ngữ DTTS, Ďộ phức tạp vấn Ďề hay hƣớng nghiên cứu nhà khoa học 1.4.4 Định hướng nghiên cứu Triển khai hệ thống xửlý ngôn ngữ cho DTTS không nên bắt Ďầu phát triển ứngdụng chƣa có hạ tầng sở cho xửlý ngôn ngữ Nên thiết kế nguồn tài nguyên CSDL theo hƣớng mở Ďƣợc sử dụng lại cho công cụ ứngdụng khác Trongxửlý ngôn ngữ DTTS, vấn Ďề chia sẻ kết nghiên cứu yếu tố quan trọng, nhằm tận dụng tất hợp tác nảy sinh nhà nghiên cứu xửlý ngôn ngữ DTTS 1.5 Kết luận chƣơng Luận án tập trung vào bốn giải pháp chính: 1) Đề xuất xâydựngmôi trƣờng xửlýtiếngÊ Đê, góp phần Ďịnh hƣớng qui trình nghiên cứu xửlýtiếngÊĐê 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nói chung tiếngÊĐê nói riêng 3) Đề xuất xâydựng KNV V-E dựa mô hình hợp nguồn liệu song ngữ Việt-Ê ĐêÊ Đê-Việt ÊĐê 4) Đề xuất mô hình kiểm tra lỗi tả âm tiết dựa mô hình âm tiết tiếngÊ Đê, góp phần phát lỗi tả âm tiết văn tiếngÊ Đê, kiểm tra âm tiết tiếngÊĐê KNVV-E Ngoài ra, nhằm góp phần ứngdụng CNTT việc nâng cao chất lƣợng dạyhọctiếngÊ Đê, số ứngdụngứngdụngxửlýtiếngÊĐê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm có: - Tra cứu trực tuyến ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi tả văn tiếngÊ Đê, - Trợ giúp dịch máy Việt-Ê Đê Từ Ďịnh hƣớng nhiệm vụ nghiên cứu nêu trên, nội dung nghiên cứu Ďƣợc trình bày chƣơng CHƢƠNG MÔI TRƢỜNG XỬLÝTIẾNGÊĐÊ 2.1 TiếngÊĐê bối cảnh xửlýtiếng Việt 2.1.1 Giới thiệu tiếngÊĐê 2.1.2 Khó khăn xửlýtiếngÊĐê Với kết Ďạt nghiên cứu xửlýtiếng DTTS Ďạt Ďƣợc, xửlýtiếng DTTS nói chung tiếngÊĐê nói riêng gặp khó khăn cần tiếp tục nghiên cứu: Chƣa có Ďịnh hƣớng qui trình nghiên cứu xửlý ngôn ngữ DTTS Việt Nam nói chung tiếngÊĐê nói riêng Trong STVB tiếng DTTS thƣờng dùng phông chữ riêng Các kho ngữ vựng, kho ngữ liệu mang tính chất nghiên cứu tập ngữ liệu nhỏ, chƣa thống dùng Unicode chƣa chia sẻ cho hoạt Ďộng nghiên cứu Chƣa có kết nghiên cứu xâydựng hạ tầng sở từ bƣớc Ďầu cho xửlý ngôn ngữ DTTS 2.1.3 XửlýtiếngÊĐê vận dụng kết xửlýtiếng Việt Qua nghiên cứu tổng quan XLNNTN, xửlý ngôn ngữ DTTS, xửlýtiếng Việt, xửlýtiếngÊ Đê; dựa vào gần gũi tiếng Việt tiếngÊ Đê; Ďể giảm thiểu kinh phí Ďiều kiện nghiên cứu kho học; kế thừa phát triển từ Ďã, Ďang có kết nghiên cứu, vận dụng kết xửlýtiếng Việt cho xửlýtiếngÊĐê Ďƣợc so sánh nhận Ďịnh bảng 2.2 Bảng 2.2 So sánh nhận định vấn đềxửlýtiếng Việt tiếngÊĐê Vấn đề XLNNTN Mã hoá Unicode Dùng phông Unicode Hiển thị chữ viết với phông chữ Unicode Xâydựng KNV Tách từ Dịch máy Tiếng Việt TiếngÊĐê Đã có Chƣa có Đề xuất: Luận án tập trung nghiên cứu mã hoá Unicode chữ tiếngÊĐêtiếng Việt Đã dùng Chƣa dùngĐề xuất: Luận án tập trung nghiên cứu dùng phông chữ Unicode cho việc hiển thị chữ viết tiếngÊ Đê, không dùng phông chữ tiếngÊĐê riêng nhƣ Đã có gõ Unikey, VietKey, Chƣa có VNWinKey Đè xuất: Luận án tập trung nghiên cứu vấn Ďề hiển thị chữ viết tiếngÊĐêdùng phông chữ Unicode kế thừa gõ tiếng Việt Đã có Chƣa có Đề xuất: Luận án tập trung xâydựng KNVV-E, kế thừa kho ngữ vựng tiếng Việt Ďã có chia sẻ cho hoạt Ďộng nghiên cứu Khó khăn vấn Ďề Khó khăn vấn Ďề nhập nhằng nhập nhằng Đã có công cụ tách Chƣa có công cụ tách từ chia sẻ cho từ vnTokenizer chia sẻ cho mục Ďích nghiên cứu mục Ďích nghiên cứu Đề xuất: Luận án cần chọn giải pháp kế thừa công cụ vnTokenize Ďể tách từ tiếng Việt ứng với từ tiếngÊ Đê, theo cách tiếp cận bổ sung mục từ vào KNV mở rộng công cụ vnTokenize Việt-Anh, chƣa xửlý hết Việt-Ê Đê chƣa xửlý trƣờng hợp trƣờng hợp nhập nhằng nhập nhằng từ KNV Đề xuất: Luận án tập trung nghiên cứu ứngdụng trợ giúp dịch ViệtÊ Đê cho việc dịch học song ngữ Việt-Ê Đê, giáo án, giáo trình từ tiếng Việt sang tiếngÊĐê 2.1.4 Phân cấp chức môitrườngxửlýtiếngÊĐêMôi trƣờng xửlýtiếngÊĐê luận án hệ thống phân cấp chức năng, Ďịnh hƣớng qui trình nghiên cứu xửlýtiếngÊĐê Hệ thống phân cấp chức môi trƣờng xửlýtiếngÊĐê có bốn mức: - Mức dƣới vấn Ďề sử dụng Unicode soạn thảo văn tiếngÊĐê làm hạ tầng sở cho việc thu thập, chuyển Ďổi, xửlý nguồn liệu cho mức - Mức hợp nguồn liệu song ngữ Việt-Ê ĐêÊ Đê-Việt xâydựng KNV song ngữ Việt-Ê Đê - Mức thứ ba quản lý KNV, xâydựng chia sẻ công cụ kỹ thuật, ứngdụng cho hoạt Ďộng nghiên cứu xửlýtiếngÊĐê - Mức Ďại diện cho miền triển khai ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊ Đê, bao gồm hoạt Ďộng nhƣ: tra cứu vựng, kiểm tra lỗi tả văn tiếngÊ Đê, hỗ trợ dịch Việt-Ê Đê dựa kho ngữ vựng song ngữ Việt-Ê Đê có Ďƣợc từ mức dƣới Hình 2.1 thể mức hệ thống phân cấp chức môi trƣờng xửlýtiếngÊĐê 2.2 Soạn thảo văn tiếngÊĐê 2.2.1 Xửlý chữ viết tiếng dân tộc thiểu số Việt Nam Kết nghiên cứu xửlý chữ viết tiếng DTTS Việt Nam có ƣu Ďiểm nhƣợc Ďiểm sau: Ưu điểm: góp phần tin học hóa văn tiếng DTTS, giải Ďƣợc vấn Ďề hiển thị chữ DTTS máy tính cho dân tộc Chăm, Thái, Ê Đê, Gia Rai, Ba Na, M’Nông, Ê Đê, Xơ Đăng, Cơ Ho, Xê Đăng, Sán Chay, tạo Ďiều kiện cho Ďồng bào DTTS tiếp cận với ứngdụng lĩnh vực CNTT, nhƣ ứngdụng khoa học công nghệ Hình 2.1 Hệ thống phân cấp chức Nhược điểm: sử dụng mã môitrườngxửlýtiếngÊĐê chuẩn có sẵn ASCII tạo phông chữ riêng theo bảng mã này, khắc phục Ďƣợc tính cục bộ, ứngdụng phạm vi hẹp số phông chữ công trình nghiên cứu xâydựng gõ cho STVB Để hiển thị Ďƣợc chữ viết tiếng DTTS Việt Nam, máy phải có phông chữ ứng với gõ tiếng dân tộc Ďó Từ thực trạng xửlý chữ viết tiếng DTTS Việt Nam máy tính, vấn Ďề mã hóa Unicode STVB tiếng DTTS Việt Nam việc làm cần thiết phải làm sớm tốt 2.2.2 Soạn thảo văn tiếng dân tộc thiểu số Hình 2.3 Mô hình hiển thị chữ viết tiếng Hầu hết 21 DTTS Việt Nam DTTS văn Unicode có chữ viết sử dụng chữ 10 sử dụng giải pháp tƣơng tác vào gõ WinVNkey qua EIWVNK, Ďƣợc so sánh Ďánh giá dựa yếu tố liên quan Ďến vấn Ďề hiển thị chữ viết tiếngÊĐêdùng Unicode, Ďƣợc trình bày qua Bảng 2.7 Bảng 2.7 Đánh giá yếu tố hiển thị chữ viết tiếngÊĐê Unicode Yếu tố Phông chữ Unicode Bộ gõ Hướng mở Phím phụ kết hợp TayNguyenKey Không sử dụngDùng gõ tiếng Việt (Unikey, ViệtKey) Không 12 phím VnKey Không sử dụng EIWVNK Sử dụngDùng gõ VNKey Dùng gõ WinVNKey Không Kết hợp nhƣ telex, VNI Có Phím ~ phím ^ 2.3 Sử dụng Unicode 2.3.1 Sử dụng Unicode soạn thảo văn Trong STVB việc sử dụng nhiều bảng mã khác nƣớc trở ngại lớn việc phát triển hệ thống thông tin lớn Unicode không giải mặt kĩ thuật hiển thị phông chữ mà tạo tiền Ďề cho phát triển kĩ thuật xử lí ngôn ngữ máy tính, xâydựng giải pháp sửa lỗi tả ngữ pháp tự Ďộng máy tính, xu hƣớng tất yếu phát triển mạnh mẽ internet Unicode giải pháp quốc tế, cho ngôn ngữ giới việc trao Ďổi thông tin 2.3.2 Giải pháp chuyển đổi văn tiếng DTTS sử dụng phông chữ riêng sang Unicode Các văn tiếng DTTS Việt Nam có chữ viết sử dụng ký tự chữ Latinh, phần lớn không sử dụng phông chữ Unicode mà sử dụng phông chữ riêng Sử dụng phông chữ riêng STVB khó khăn việc trao Ďổi phát triển hệ thống thông tin Từ thực trạng trên, Ďể góp phần giải khó khăn việc trao Ďổi, sử dụng văn tiếng DTTS dùng phông chữ riêng, luận án Ďề xuất giải pháp chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang phông chữ Unicode Giải pháp chuyển Ďổi văn tiếng Hình 2.5 Giải pháp chuyển đổi văn DTTS dùng phông chữ riêng sang phông chữ Unicode Ďƣợc trình bày Hình 2.5 Trong giải pháp này, có kế thừa chức xác Ďịnh giá trị hexa cho 11 chữ nhóm nhóm chức qui Ďịnh cách gõ gõ H&TES Chức qui Ďịnh cách gõ công cụ H&TES, Ďƣợc kế thừa cho chức xác Ďịnh kí tự Ďã sử dụng văn tiếng DTTS với phông chữ riêng Ďƣợc ánh xạ vào chữ nhóm nhóm Sau Ďã xác Ďịnh Ďƣợc giá trị hexa kí tự Ďã sử dụng văn cần chuyển Ďổi, Ďƣợc lƣu vào CSDL Đây nguồn liệu Ďầu vào cho chức chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode Giải pháp chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode, Ďã góp phần giải khó khăn việc trao Ďổi văn tiếng DTTS dùng phông chữ riêng 2.3.3 Chuyển đổi văn tiếngÊĐêdùng phông chữ riêng Unicode Trong soạn thảo văn tiếngÊ Đê, việc chuyển từ dùng phông chữ riêng sang Unicode, công việc chƣa thể thực Ďƣợc hai Trƣớc mắt, Ďể giải khó khăn việc trao văn tiếngÊĐêdùng phông chữ riêng internet hay máy tính Dựa vào giải pháp chuyển Ďổi văn tiếng DTTS dùng phông chữ riêng sang Unicode, luận án Ďề xuất xâydựng chuyển Ďổi văn tiếngÊĐêdùng phông chữ riêng sang phông chữ Unicode, Ďƣợc Ďặt tên CEDU Kịch xâydựng chuyển đổi CEDU Sử dụng chuyển Ďổi H&TES Ďã Ďƣợc Ďề xuất mục 2.2.3 Ďể tạo CSDL chứa giá trị hexa tập kí tự Ďƣợc gõ tƣơng ứng với chữ nhóm nhóm Dựa vào CSDL chứa tập giá trị hexa tập kí tự Ďƣợc gõ tƣơng ứng với chữ nhóm nhóm 3, Ďể thực chuyển Ďổi file văn tiếngÊĐê dạng (TXT, DOC, DOCX, RFT, XML) dùng phông chữ riêng sang file văn tiếngÊĐêdùng phông chữ Unicode Kết thực nghiệm Dữ liệu Ďầu vào Ďƣợc lấy từ tin Hệ phát dân tộc VOV Các tin sử dụng phông chữ TayNguyenKey, kiểu gõ VNI gõ UniKey Kết có Ďƣợc sau qua CEDU Ďã Ďƣợc kiểm tra thủ công gốc nhận thấy CEDU Ďã chuyển Ďổi Ďƣợc hết tất tập kí tự Ďƣợc gõ theo phông chữ TayNguyenKey chữ tiếngÊĐê với phông chữ Unicode So sánh đánh giá Bộ chuyển Ďổi CEDU thực chuyển Ďổi Ďƣợc cho tệp có phần mở rộng TXT, DOC, DOCX, RTF, XML, không giới hạn tệp có phần mở rộng TXT RTF nhƣ chức chuyển Ďổi bảng mã tiếng Việt Unikey ToolKit gõ Unikey Bộ chuyển Ďổi CEDU Ďã góp phần giải bất cập trao Ďổi văn tiếngÊĐêdùng phông chữ riêng internet hay máy tính với nhau, nhƣ việc sử dụng lại nguồn liệu Ďiện tử có nghiên cứu xửlýtiếngÊĐê 12 2.4 Kết luận chƣơng Trong chƣơng Ďã trình bày kết chƣa Ďƣợc công bố từ trƣớc Ďến Luận án tiếp tục triển khai mức Ďã Ďƣợc Ďịnh hƣớng môi trƣờng xửlýtiếngÊĐê CHƢƠNG XỬLÝTIẾNGÊĐÊ 3.1 Hợp nguồn liệu song ngữ Việt-Ê Đê 3.1.1 Mô hình hợp nguồn liệu song ngữ Xuất phát từ thực trạng KNV Việt-DTTS Việt Nam nói chung KNV Việt-Ê Đê nói riêng, Ďể góp phần giải toán xâydựng KNV song ngữ Việt-Ê Đê với nguồn liệu Ďầu vào chủ yếu từ Ďiển giấy ViệtÊ ĐêÊ Đê-Việt Luận án Ďề xuất mô hình hợp nguồn liệu song ngữ từ Ďiển giấy Việt-Ê ĐêÊ Đê-Việt xâydựng KNV Việt-Ê Đê Mô hình hợp nguồn liệu song ngữ Ďƣợc thể Hình 3.1 3.1.2 Môitrường hợp nguồn liệu song ngữ Việt-Ê ĐêÊ ĐêViệt Môi trƣờng hợp Ďƣợc thực qua hai mô Ďun thực hợp nhất: mô Ďun tƣơng tác Ê Đê-Việt mô Ďun tƣơng tác Việt-Ê Đê 3.1.3 Đánh giá mô hình hợp nguồn liệu Với bối cảnh xửlýtiếng DTTS ViệtNam nói chung tiếngÊĐê nói riêng, mô hình hợp nguồn liệu Việt-Ê ĐêÊ Đê-Việt Ďƣợc Ďề xuất góp phần xâydựng KNV song ngữ Việt-Ê Đê từ nguồn liệu từ Ďiển giấy Việt-Ê ĐêÊ Đê-Việt Mô hình hợp nguồn liệu Ďƣợc Hình 3.1 Mô hình hợp nguồn Ďề xuất, Ďƣợc mở rộng Ďể giải liệu song ngữ toán xâydựng KNV song ngữ Việt-DTTS khác Việt Nam 3.2 Xâydựng kho ngữ vựng song ngữ Việt-Ê Đê 3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê a) Tiêu chí liệu Với mục tiêu, xâydựng KNVV-E Ê Đê-Việt làm hạ tầng sở cho môi trƣờng xửlýtiếngÊĐê Các tiêu chí liệu Ďƣợc Ďặt KNV nhƣ sau: Các từ tiếngÊĐê Ďƣợc thu thập ghi theo tiếngÊĐê nhóm Kpă Các từ tiếng Việt từ tiếng Việt phổ thông ghi chữ Quốc ngữ 13 Các ví dụ Ďƣợc Ďƣa vào Ďể làm sáng tỏ cho nghĩa cách sử dụng từ ngữ hay gọi ngữ cảnh mục từ Các mục từ Ďƣợc gán nhãn từ loại: gán nhãn N cho danh từ, gán nhãn V cho Ďộng từ, gán nhãn A cho tính từ, gán nhãn O cho mục từ danh từ, Ďộng từ hay tính từ Từ Ďa nghĩa Ďƣợc ghi nhận, dịch Ďối chiếu với từ khác tƣơng Ďƣơng ngôn ngữ Ďích Khi gióng hàng từ ngôn ngữ nguồn, tìm từ tƣơng Ďƣơng ngôn ngữ Ďích, sở nghĩa bản, nghĩa thƣờng dùng hai ngôn ngữ Dữ liệu Ďƣợc lƣu máy với phông chữ Unicode Đây tiêu chí mà kết nghiên cứu KNVV-E từ trƣớc Ďến chƣa Ďề cập Ďến b) Nguồn liệu Nguồn liệu từ Ďiển giấy song ngữ Việt-Ê ĐêÊ Đê-Việt Ďƣợc chọn làm liệu Ďầu vào cho mô hình tƣơng tác: Từ Ďiển Việt-Ê Đê, gồm 10.000 Ďơn vị mục từ, phần lớn thuộc vốn từ bản, thông dụngtiếng Việt Từ Ďiển, Ďƣợc nhập thủ công hệ STVB Từ Ďiển Ê Đê-Việt, có khoảng 10.000 mục từ Phần lớn từ ngữ thƣờng dùng hàng ngày tiếngÊĐê Cũng giống nhƣ từ Ďiển Việt-Ê Đê, từ Ďiển Ďƣợc nhập thủ công hệ STVB Winword KNV tiếng Việt, có 31.000 mục từ, kế thừa từ “Đề tài VLSP” c) Cấu trúc kho ngữ vựng Tổ chức cấu trúc KNV bƣớc quan trọngxâydựng KNV Trong luận án, KNV Ďƣợc thiết kế theo mô hình CSDL quan hệ CSDL quan hệ Ďƣợc sử dụng nhƣ tập hợp bảng lƣu trữ liệu lƣu trữ tập hợp thực thể có quan hệ với Các bảng CSDL tƣơng tự nhƣ KNV, Ďƣợc lƣu trữ hoàn toàn Ďộc lập cấu trúc nhƣ liệu 3.2.2 Cập nhật liệu vào kho ngữ vựng song ngữ Việt-Ê ĐêTrong KNVV-E, mục từ Ďƣợc cập nhập thông qua thông qua công cụ thực hợp nguồn liệu song ngữ, Ďƣợc luận án Ďề xuất xâydựng Ďƣợc Ďặt tên MEDAS (MErging DAta Sources) Công cụ MEDAS gồm hai chức thực hai mô Ďun tƣơng tác Việt-Ê ĐêÊ Đê-Việt môi trƣờng hợp mô hình hợp nguồn liệu song ngữ Ďã Ďƣợc Ďề xuất Mục 3.1 Kết mục từ nhập vào kho ngữ vựng, Ďƣợc thống kê Bảng 3.5 Bảng 3.5 Thống kê số mục từ nhập vào kho ngữ vựng Số mục từ đƣợc cập nhật Tổng Kho ngữ vựng Mô đun tƣơng Mô đun tƣơng cộng tác Ê Đê-Việt tác Việt-Ê ĐêTiếng Việt 11.357 2.575 13.932 TiếngÊĐê 9.287 2.149 11.436 Việt-Ê Đê 17.980 3.167 21.147 14 3.2.3 Đánh giá kho ngữ vựng song ngữ Việt-Ê Đê Sau xâydựng KNVV-E, luận án cần Ďánh giá Ďộ bao phủ KNV văn tiếng Việt tiếngÊĐê Chúng Ďề xuất Ďộ bao phủ KNV DC (Degree of Coverage) DC tính Ďộ bao phủ mục từ KNV văn bản, Ďƣợc hình thành nhƣ tỷ lệ phần trăm tổng số từ KNV bao phủ văn DC Trong đó: X Y 100 X X: tổng số từ văn bản, Y: tổng số từ văn chƣa có KNV, Y≤X a) Tính độ bao phủ mục từ tiếngÊĐêĐể kiểm tra từ văn tiếngÊĐê có hay chƣa có KNV, công cụ tách từ Ďƣợc xâydựng từ Ďể tách từ ÊĐê văn Hƣớng tiếp cận cho toán tách từ hƣớng tiếp cận dựa KNV Để tách từ KNV, phƣơng pháp tách từ Ďƣợc áp dụng phƣơng pháp so khớp cực Ďại dựa vào mục từ KNV Độ bao phủ KNV ÊĐê văn tiếngÊĐê tính Ďƣợc bảng 3.9 Bảng 3.9 Độ bao phủ KNV ÊĐê văn tiếngÊĐê Loại văn Số từ tách đƣợc Số từ chƣa có KNV Độ bao phủ Sách họctiếngÊĐê Truyện Ďọc Ê Đê-Việt Bản tin tiếngÊĐê 1.815 96 94,71% 2.052 276 86,55% 3.725 328 91,19% Độ bao phủ trung bình 90,82% b) Tính độ bao phủ mục từ tiếng Việt Để kiểm tra từ văn tiếng Việt có hay chƣa có KNV, phƣơng pháp tách từ tiếng Việt Ďƣợc kế thừa từ công cụ tách từ vnTokenizer sau Ďã bổ sung từ tiếng Việt Ďã phát chƣa có KVN tiếng Việt vào kho từ vựng mở rộng vnTokenizer Sau Ďó, kiểm tra từ tách Ďƣợc KNVV-E Độ bao phủ KNV tiếng Việt văn tiếng Việt tính Ďƣợc Bảng 3.11 Bảng 3.11 Độ bao phủ KNV văn tiếng Việt Số từ chƣa Số từ Độ Loại văn có tách đƣợc bao phủ KNV Sách họctiếng Việt 3, 4, 3.324 225 93,23% Truyện Ďọc tiếng Việt 3, 4, 3.538 274 92,26% Bản tin sở giáo dục Đăk Lăk 4.777 509 89,34% Độ bao phủ trung bình 91,61% 15 Kết tính Ďộ bao phủ KNVV-E văn tiếng Việt 91,61% tính Ďƣợc Bảng 3.9 văn tiếngÊĐê 90,82% tính Ďƣợc Bảng 3.7, phần Ďã chứng minh Ďƣợc tính khả thi KNVV-E việc triển khai ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê 3.3 Kiểm tra tả âm tiết tiếngÊĐê 3.3.1 Âm tiết tiếngÊĐê a) Khái niệm âm tiết b) Cấu tạo âm tiết tiếngÊĐê Cấu tạo âm tiết ÊĐê thể hình 3.2 Hình 3.2 Mô hình cấu tạo âm tiết tiếngÊĐê 3.3.2 Phát lỗi tả âm tiết tiếngÊĐêTrongxửlýtiếngÊ Đê, xâydựng KNV Ďơn ngữ, song ngữ ViệtÊ Đê chủ yếu dựa vào nguồn từ Ďiển giấy Để chuyển mục từ từ Ďiển giấy vào KNV, phải có thao tác cập nhật thủ công Trong qúa trình cập nhật thủ công tránh khỏi lỗi tả Thêm vào Ďó, ngƣời nhập liệu tiếngÊĐê chƣa quen cách gõ chữ tiếngÊ Đê, khó phát Ďƣợc lỗi gõ nhầm lúc gõ Để kiểm tra lỗi tả tiếngÊĐê KNVV-E bƣớc giải toán kiểm tra tả tiếngÊ Đê, luận án Ďề xuất giải pháp dựa mô hình cấu tạo âm tiết tiếngÊĐê Ďể kiểm tra tả tiếngÊĐê mức âm tiết Dựa 22 kiểu âm tiết khác mô hình âm tiết tiếngÊĐê trƣờng hợp kiểu âm tiết phần Ďầu, luận án Ďã rút gọn 22 kiểu âm tiết kiểu âm tiết bổ sung kiểu âm tiết phần Ďầu Rút gọn 22 kiểu âm tiết thành kiểu âm tiết gộp trƣờng hợp phần Ďầu âm tiết phụ âm hay tổ hợp hai phụ âm ba phụ âm thành trƣờng hợp chung phần Ďầu âm tiết Trong kiểu âm tiết bổ sung có trƣờng hợp kiểu âm tiết từ Ďiển Ďó trƣờng hợp nguyên âm + bán nguyên âm Vì kiểu âm tiết bổ sung kiểu âm tiết phần Ďầu Tập mô hình âm tiết tiếngÊĐê Ďƣợc Ďề xuất luận án gồm có 14 mô hình âm tiết, Ďƣợc trình bày Bảng 3.12 Trong Ďó, Cb kí hiệu cho phần Ďầu, S1 kí hiệu cho âm Ďệm, V kí hiệu cho âm chính, S2 kí hiệu cho bán nguyên âm sau âm chính, Ce kí hiệu cho âm cuối 16 Bảng 3.12 Mô hình âm tiết tiếngÊĐê Mô hình hình Stt âm tiết Ví dụ Stt Mô Ví dụ âm tiết V ĭ (sơ sinh) CbVCe mđơt (ngắn) VCe ung (chồng) CbVS2 hmlei (bông gòn) VS1Ce ơih (vâng) 10 CbVSCe hmiêt (gói ghém) S1V iŭ (bơm) 11 CbS1V thiê (xui khiến) S1VS2 iêu (gọi) 12 CbS1VS2 miêu (con mèo) S1VCe uan (số) 13 CbS1VCe Mđhiăr (lặp lại) CbV ƀô (mặt) 14 CbS1VSCe mbhuôih (chuốt) Tập mô hình âm tiết tiếngÊĐê sở cho giải pháp kiểm tra lỗi tả tiếngÊĐê mức âm tiết 3.3.3 Xâydựng mô hình kiểm tra tả âm tiết tiếngÊĐê Từ thực trạng xửlý ngôn ngữ tiếng DTTS Việt Nam nói chung tiếngÊĐê nói riêng chƣa Ďƣợc quan tâm nghiên cứu nhà khoa học Từng bƣớc Ďể góp phần giải toán kiểm tra tả tiếngÊĐê Mô hình kiểm tra tả âm tiết ÊĐê dựa tập mô hình âm tiết tiếngÊĐê chuẩn Ďƣợc Ďề xuất, nhƣ sau: Đầu tiên, xâydựng tập mô hình âm tiết ÊĐê dựa theo cấu trúc âm tiết tiếngÊ Đê, nhƣ Bảng 3.12 Tiếp đến, chuyển Ďổi âm tiết tiếngÊĐê cần kiểm tra tả sang mô hình âm tiết theo cấu trúc mô hình: [Cb][S1][S2][Ce] Sau cùng, kiểm tra mô hình âm tiết Ďã chuyển Ďổi có thuộc tập mô hình âm tiết tiếngÊĐê hay không, Ďể kết luận âm tiết cần kiểm tra có cấu trúc âm tiết Ďúng hay sai Hình 3.3 Mô hình kiểm tra tả âm tiết Mô hình kiểm tra tả tiếngÊĐê âm tiết tiếngÊĐê dựa tập mô hình âm tiết tiếngÊĐê Ďƣợc trình bày hình 3.3 3.4 Quản lý kho ngữ vựng song ngữ Việt-Ê Đê 3.4.1 Phát triển kho ngữ vựng song ngữ Việt-Ê ĐêTrong kho ngữ vựng việc bổ sung thêm mục từ cập nhật thành phần ngữ nghĩa, từ loại, ví dụ làm rõ nghĩa mục từ công việc không Ďề cập Ďến việc phát triển kho ngữ vựng Chức Cập nhật mục từ trang web cho phép bổ sung mục từ vào kho ngữ vựng theo mô hình hợp nguồn liệu song ngữ 17 chỉnh sửa thành phần mục từ Ďã có kho ngữ vựng Chức Ďƣợc thực nhà khoa học hay chuyên gia ngôn ngữ tiếngÊĐê 3.4.2 Nâng cao chất lượng kho ngữ vựng Nhằm góp phần việc nâng cao chất lƣợng KNV Việt-Ê Đê, giải pháp kiểm tra tả âm tiết tiếngÊĐê Ďƣợc áp dụng Ďể xâydựng kiểm tra lỗi tả âm tiết mục từ tiếngÊĐê KNV, Ďƣợc Ďặt tên CESILD (Checking Ede Sylable In Lexical Database) Hoạt Ďộng CESILD thể Hình 3.4 3.4.3 Định hướng khai thác kho ngữ vựng song ngữ Việt-Ê Đê Nhằm tạo Ďiều kiện thuận lợi cho học sinh dân tộc ÊĐê giáo viên dạyhọctiếngÊ Đê, sở khai thác KNVV-E qua môi trƣờng xửlýtiếngÊ Đê, ứngdụng Ďƣợc triển khai: - Tra cứu trực tuyến từ vựng Việt-Ê Đê, - Tra cứu ngoại tuyến từ vựng Việt-Ê Đê, - Kiểm tra tả văn tiếngÊ Đê, - Trợ giúp dịch máy Việt-Ê Đê, Thông qua môi trƣờng xửlýtiếngÊĐê Hình 3.4 Mô hình hoạt động không triển khai ứngdụng khai thác CESILD KNVV-E, mà góp phần quản lý việc cập nhật mục từ KNV song ngữ Ê Đê-Việt chia sẻ KNV cho hoạt Ďộng nghiên cứu xửlýtiếngÊĐê 3.5 Kết luận chƣơng Những kết Ďạt Ďƣợc chƣơng sở Ďể luận án tiếp tục triển khai số ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê CHƢƠNG XÂYDỰNGỨNGDỤNGXỬLÝTIẾNGÊĐÊ 4.1 DạyhọctiếngÊĐê 4.1.1 Thực trang dạyhọctiếngÊĐêDạyhọctiếngÊĐê cho Ďến khó khăn: Số lƣợng giáo viên dạytiếngÊĐê thiếu so với nhu cầu Chất lƣợng giảng dạytiếngÊĐê hạn chế sở vật chất, thiết bị, Ďồ dùngdạy học, tài liệu sách tham khảo phục vụ cho việc dạyhọctiếngÊĐê thiếu Soạn thảo văn tiếngÊĐê với phông chữ tiếngÊĐê có nhiều chữ ÊĐê khó gõ khó nhớ, dễ gây lỗi tả Trao Ďổi tài liệu tiếngÊĐê Ďều bị hạn chế vấn Ďề hiển thị chữ viết 18 tiếngÊĐê máy tính không cài phông chữ tiếngÊĐê Chƣa có ứngdụng Công nghệ Thông tin trợ giúp cho giáo viên học sinh dân tộc ÊĐêdạyhọctiếngÊĐê 4.1.2 Giải pháp sử dụngmôitrườngxửlýtiếngÊĐêĐểứngdụng Công nghệ Thông tin vào dạyhọctiếngÊĐê cần có nỗ lực chuyên gia Công nghệ Thông tin việc Ďầu tƣ phát triển sở hạ tầng cho xửlýtiếngÊĐêxâydựngứngdụng trợ giúp dạyhọctiếngÊĐê Giải pháp xâydựngmôi trƣờng xửlýtiếngÊĐê Ďƣợc Ďặt Luận án giải pháp thiết thực Thông qua môi trƣờng này, chuyên gia ngôn ngữ ÊĐê có Ďƣợc môi trƣờng Ďể tham gia Ďóng góp, cập nhật liệu vào kho ngữ vựng, góp phần nâng cao chất lƣợng kho ngữ vựng ViệtÊ Đê Kho ngữ vựng Việt-Ê Đê, công cụ kỹ thuật, kết nghiên cứu Ďƣợc chia sẻ cho hoạt Ďộng nghiên cứu xửlýtiếngÊĐê ngƣời dùng Các triển khai xâydựngứngdụngxửlýtiếngÊĐêdạyhọctiếngÊĐê với nguồn liệu kho ngữ vựng Việt-Ê Đê Ďƣợc download từ môi trƣờng 4.1.3 Các ứngdụngdạyhọctiếngÊĐê Cùng với phƣơng pháp dạy học, sở vật chất, sách giáo khoa chuẩn, ứngdụng Công nghệ Thông tin phƣơng tiện góp phần nâng cao chất lƣợng dạyhọctiếngÊĐê Nhằm tạo Ďiều kiện thuận lợi cho giáo viên học sinh dân tộc ÊĐê việc dạyhọctiếngÊ Đê, Luận án Ďã Ďề xuất triển khai xâydựng số ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊ Đê, cụ thể: Ứngdụng tra cứu trực tuyến ngoại tuyến từ vựng song ngữ Việt-Ê Đê, góp phần giúp học sinh, giáo viên việc tra cứu từ vựng, tìm hiểu từ loại ý nghĩa từ thông qua ví dụ Ďƣợc hiển thị Ứngdụng tra từ vựng Việt-Ê Đê ngoại tuyến Ďƣợc triển khai nhƣ giáo cụ trực quan dùng giảng dạy môn họctiếngÊĐêỨngdụng kiểm tra lỗi tả văn tiếngÊ Đê, góp phần giúp cho giáo viên, học sinh phát sửa lỗi tả âm tiết văn Ďƣợc soạn thảo tiếngÊĐê nhƣ giáo trình, giáo án, học, tập Ứngdụng trợ giúp dịch máy Việt-Ê Đê, góp phần hỗ trợ việc dịch máy học từ tiếng Việt sang tiếngÊ Đê, tạo Ďiều kiện Ďể tiếp tục nâng cấp trình Ďộ giảng dạytiếngÊ Đê, giúp giáo viên việc biên soạn giáo án song ngữ Việt-Ê Đê, góp phần làm phong phú môn học song ngữ ViệtÊ Đê 4.2 Tra cứu từ vựng song ngữ Việt-Ê Đê 4.2.1 Vai trò từ vựng dạyhọc song ngữ Việt-Ê ĐêHọc từ vựng rèn luyện kĩ sử dụng từ vựng yếu tố Ďầu tiên dạyhọc ngôn ngữ nói chung dạytiếngÊĐê nói riêng Do tầm quan trọng từ vựng Ďối với ngƣời họctiếngÊ Đê, vậy, giáo viên giảng dạytiếngÊĐê cần phải phát triển từ vựng cho học sinh, nhƣ giúp học sinh phát triển khả giao tiếp sử dụng vốn từ vựng Ďã 19 Ďƣợc học Trên sở tầm quan trọng từ vựng dạyhọctiếngÊ Đê, ứngdụng tra cứu từ vựng Việt-Ê Đê cần thiết cho giáo viên giảng dạytiếngÊĐêhọc sinh họctiếngÊĐê 4.2.2 Xâydựngứngdụng tra cứu từ vựng song ngữ Việt-Ê Đê Những mặt hạn chế cần Ďƣợc khắc phục xâydựngứngdụng tra cứu từ vựng Việt-DTTS: Chƣa dùng phông chữ Unicode hiển thị chữ viết tiếng DTTS Chƣa dùng chung KNV nhƣ hạ tầng sở cho toán xửlýtiếng DTTS Để khắc phục hạn chế trên, kết giải pháp Unicode cho STVB tiếngÊĐê KNVV-E luận án, Ďƣợc sử dụngxâydựngứng tra cứu từ vựng Việt-Ê Đê a) Ứngdụng tra cứu từ vựng Việt-Ê Đê Hoạt Ďộng theo sơ Ďồ hình 4.1 b) Ứngdụng tra cứu từ vựng Ê Đê-Việt Hoạt Ďộng theo sơ Ďồ hình 4.2 Hình 4.1 Sơ đồ hoạt động tra cứu từ vựng Việt-Ê Đê Hình 4.2 Sơ đồ hoạt động tra cứu từ vựng Ê Đê-Việt 4.2.3 Ứngdụng tra cứu từ vựng song ngữ Việt-Ê ĐêỨngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê Ďƣợc triển khai trang Web quản lý kho ngữ vựng Chức Tra cứu từ vựng Ďƣợc xâydựng dựa sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê (Hình 4.1) tra cứu từ vựng Ê Đê-Việt (Hình 4.2) Ứngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, góp phần giúp giáo viên học sinh việc tra cứu học từ vựng Tuy nhiên, ứngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê có mặt thuận 20 lợi khó khăn: Thuận lợi: ứngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê không cần cài Ďặt, tất ngƣời Ďều sử dụng, cho phép ngƣời dùng truy cập lúc, nơi thƣờng xuyên Ďƣợc cập nhật mục từ Khó khăn: lúc ngƣời dùng vào internet Ďể tra cứu từ vựng Để khắc phục khó khăn ứngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, luận án Ďề xuất xâydựngứngdụng tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê 4.2.3.1 Tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê Chức hiển thị kết tra cứu từ vựng Ďƣợc xâydựng dựa theo sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê (Hình 4.1) tra cứu từ vựng Ê ĐêViệt (Hình 4.2) Ngoài chức trợ giúp tra cứu từ vựng khắc phục mặt hạn chế ứngdụng tra cứu trực tuyến từ vựng song ngữ Việt-Ê Đê, ứngdụng tra cứu ngoại tuyến từ vựng song ngữ Việt-Ê Đê Ďƣợc dùng nhƣ giáo cụ trực quan dùng giảng dạy môn họctiếngÊĐê 4.3 Trợ giúp dịch máy Việt-Ê Đê 4.3.1 Dịch máy văn Việt-Ê ĐêdạyhọcĐểứngdụng toán dịch máy văn tiếng Việt sang tiếngÊĐê vào dịch học từ tiếng Việt sang tiếngÊĐê giải Ďƣợc trƣờng hợp nhập nhằng trình dịch Luận án Ďề xuất, xâydựngứngdụng trợ giúp dịch máy Việt-Ê ĐêỨngdụng trợ giúp tích hợp Ďƣợc trợ giúp NSD việc xửlý trƣờng hợp nhập nhằng từ vựng tiếngÊĐêỨngdụng góp phần trợ giúp việc dịch máy họctiếng Việt sách giáo khoa sang tiếngÊ Đê, nhằm tạo Ďiều kiện Ďể tiếp tục nâng cấp trình Ďộ dạytiếngÊ Đê, giúp giáo viên việc biên soạn giáo án song ngữ Việt-Ê Đê góp phần làm phong phú học song ngữ Việt-Ê Đê qua môn học nhƣ toán, khoa học, lịch sử, Ďịa lý có học môn tiếngÊĐê nhƣ 4.3.2 Giải toán tách từ tiếng Việt dịch máy Việt-Ê ĐêTrong khuôn khổ luận án, không Ďi sâu vào nghiên cứu toán tách từ, mà kế thừa công cụ tách từ tiếng Việt vnTokenizer Ďã Ďƣợc công bố chia sẻ “Đề tài VLSP” Để vnTokenizer tách từ tiếng Việt tƣơng ứng với từ tiếngÊ Đê, mục từ tiếng Việt Ďƣợc ghi bổ sung KNV tiếng Việt phải Ďƣợc bổ sung vào KNV mở rộng vnTokenizer cần thiết cho việc tách từ hệ dịch Việt-Ê Đê 4.3.3 Xâydựngứngdụng trợ giúp dịch máy Việt-Ê Đê 4.3.3.1 Phương pháp dịch Phƣơng pháp Ďƣợc chọn ứngdụng trợ giúp dịch máy Việt-Ê Đê phƣơng pháp dịch dựa vào KNVV-E Ďã Ďƣợc xâydựng Phƣơng pháp dịch phụ thuộc hoàn toàn vào KNVV-E gần nhƣ Ďây kiểu dịch trực tiếp cách thay theo kiểu 1-1 21 Tuy nhiên, áp dụng phƣơng pháp cho dịch máy Việt-Ê Đê, chƣa xửlý Ďƣợc trƣờng hợp nhập nhằng ranh giới từ, nhập nhằng từ Ďa nghĩa, nhập nhằng từ Ďồng âm, nhập nhằng từ loại chƣa xửlý Ďƣợc từ KNV Vì vậy, kết dịch Việt-Ê Đê chƣa thể Ďƣa ứngdụngdạyhọctiếngÊĐêĐể kết dịch Việt-Ê Đê Ďƣợc Ďƣa vào ứngdụngdạyhọctiếngÊ Đê, luận án Ďề xuất xâydựngứngdụng trợ giúp dịch máy Việt-Ê ĐêĐể làm Ďƣợc công việc này, ứngdụng trợ giúp dịch máy Việt-Ê Đê cần phải tích hợp Ďƣợc trợ giúp NSD, Ďể xác Ďịnh từ thích hợp cho trƣờng hợp nhập nhằng từ KNV 4.3.3.2 Bộ ứngdụng trợ giúp dịch máy Việt-Ê Đê Trên sở Ďã xác Ďịnh phƣơng pháp dịch cho hệ dịch phƣơng pháp tách từ ứng với phƣơng pháp dịch, hỗ trợ dịch máy Việt-Ê Đê Ďƣợc Ďề xuất Hoạt Ďộng hỗ trợ dịch máy Việt-Ê Đê, trình bày hình 4.3 Hình 4.3 Mô hình hoạt động ứngdụng trợ giúp dịch máy Việt-Ê Đê 4.3.3.3 Kết thực nghiệm Bộ ứngdụng trợ giúp dịch máy Việt-Ê Đê Ďã xửlý Ďƣợc trật tự câu hỏi với từ Ďể hỏi Ďƣợc Ďƣa vào hệ thống dịch Bộ ứngdụng trợ giúp dịch máy Việt-Ê Đê Ďã xửlý Ďƣợc 90% trật tự từ Ďể hỏi 303 tổng số câu nghi vấn Còn khoảng 10% từ Ďể hỏi chƣa xử lý, Ďã Ďƣợc kiểm tra sau lần dịch nhận thấy từ dấu kết thúc câu Ďứng trƣớc câu hỏi Từ kết kiểm chứng, cho thấy rằng, từ Ďể hỏi không xửlý Ďƣợc NSD nhập sai, hệ thống Do Ďó, luận án có sở Ďể khẳng Ďịnh mô Ďun xửlý trật tự từ dùng Ďể hỏi văn tiếng Việt Ďƣa vào sử dụng hỗ trợ dịch máy Việt-Ê Đê Với trật từ phụ từ "snăk" câu nghi vấn, dịch Ďã xửlý Ďƣợc gần nhƣ toàn Qua kiểm chứng có số trƣờng hợp chƣa xửlý Ďƣợc 22 từ Ďứng sau Ďứng sau phụ từ tính từ NSD Ďặt dấu kết thúc sau phụ từ Bộ ứngdụng trợ giúp dịch máy Việt-Ê Đê, góp phần trợ giúp dịch máy học từ tiếng Việt sang tiếngÊ Đê, giúp giáo viên trình biên soạn giáo trình, giáo án song ngữ Việt-Ê Đê 4.4 Kiểm tra lỗi tả tiếngÊĐê 4.4.1 Vấn đề lỗi tả tiếngÊĐê Sai sót lớn văn thƣờng lỗi tả Ďánh máy nhầm Lỗi thƣờng xãy nhiều văn Ďƣợc soạn thảo ngƣời chƣa thông thạo tiếngÊ Đê, chƣa quen với cách gõ tiếngÊĐêTrongxửlýtiếngÊ Đê, toán kiểm tra tả văn tiếngÊĐê cho Ďến chƣa Ďƣợc nhà khoa học lĩnh vực xửlý ngôn ngữ tự nhiên quan tâm nghiên cứu Dựa vào mô hình kiểm tra tả âm tiết tiếngÊĐê Ďã Ďề xuất mục 3.3.3, luận án tiếp tục triển khai giải toán kiểm tra lỗi tả văn tiếngÊĐê 4.4.2 Giải toán kiểm tra lỗi tả văn tiếngÊĐê Bài toán kiểm tra lỗi tả văn tiếngÊĐê Ďƣợc giải dựa theo kịch bản: Đầu vào: văn tiếngÊĐê chƣa Ďƣợc kiểm tra lỗi tả, tập 14 mô hình âm tiết Ê Đê, KNVV-E Đầu ra: văn tiếngÊĐê Ďƣợc kiểm tra lỗi tả, KNVV-E Ďƣợc bổ sung thêm mục từ Phương pháp: hoạt Ďộng theo mô hình kiểm tra lỗi tả văn tiếngÊĐê Ďƣợc trình bày Hình 4.4 4.4.3 Xâydựng kiểm tra lỗi tả dạyhọctiếngÊĐê Dựa mô hình kiểm tra lỗi tả văn tiếngÊ Đê, luận án Ďề xuất xâydựng kiểm tra lỗi tả văn tiếngÊ Đê, Ďƣợc Ďặt tên SCET (Spelling Checking of Ede Text) a) Cài đặt thử nghiệm Tiến hành cài Ďặt thử nghiệm SCET theo hƣớng tiếp cận mô hình âm tiết tiếngÊĐê Ďã Ďƣợc Ďề xuất thu Ďƣợc kết thực nghiệm khả quan Dữ liệu thử nghiệm ban Ďầu Ďƣợc tiến hành sách họctiếngÊ Đê, truyện Ďọc Ê Đê-Việt, báo dân tộc miền núi Tập Hình 4.4 Mô hình kiểm tra lỗi văn thử nghiệm gồm 30 văn với tả văn tiếngÊĐê số lỗi tả ngẫu nhiên Ďã Ďƣợc xác 23 Ďịnh, có tất 150 lỗi tả mức âm tiết Kết thử nghiệm, SCET Ďã phát Ďƣợc 142 lỗi tả âm tiết sai Ďƣợc Ďƣa vào Còn âm tiết sai không phát Ďƣợc phần có nhập nhằng phần Ďầu âm tiết với âm âm cuối Bảng 4.3 mô tả kết thử nghiệm phát lỗi tả văn với số lỗi tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh Bảng 4.3 Kết thử nghiệm với số lỗi tả ngẫu nhiên xác định Lỗi Lỗi không Tỷ lệ không Số âm tiết phát đƣợc phát đƣợc phát đƣợc 150 142 5,7% Qua kết thử nghiệm thu Ďƣợc, cho thấy khả phát lỗi tả âm tiết tiếngÊĐê giải pháp Ďạt Ďƣợc 94,3% Giải pháp Ďã góp phần phát lỗi tả âm tiết văn tiếngÊĐê b) Đánh giá kết thử nghiệm Khả phát lỗi tả âm tiết tiếngÊĐê giải pháp Ďạt Ďƣợc 94% (bảng 4.4) Kết phụ thuộc vào ngữ liệu Ďầu vào cho trình tiền xửlý văn nhƣ từ Ďiển tên riêng, từ Ďiển viết tắt Quá trình tiền xửlý văn cần sử dụng ngữ liệu Ďể phân loại âm tiết lọc nhiễu trƣớc thực kiểm tra tả âm tiết Với ngữ liệu Ďầu vào Ďầy Ďủ, hiệu suất khả phát lỗi tả âm tiết tiếngÊĐê Ďƣợc nâng cao Bộ SCET Ďã góp phần trợ giúp cho giáo viên, học sinh phát sửa lỗi tả âm tiết văn soạn thảo tiếngÊĐê nhƣ giáo trình, giáo án, học, tập 4.5 Kết luận chƣơng Những kết Ďã Ďạt Ďƣợc chƣơng này, Ďã góp phần khắc phục Ďƣợc thực trạng xửlýtiếng DTTS Việt Nam nói chung tiếngÊĐê nói riêng, thông qua việc triển khai ứngdụngdạyhọctiếngÊĐê KẾT LUẬN Các kết luận án Những nghiên cứu giải pháp Ďƣợc Ďề cập Ďã góp phần: 1) Xâydựngmôi trƣờng xửlýtiếngÊ Đê, nhằm Ďịnh hƣớng qui trình nghiên cứu xửlýtiếngÊĐê 2) Sử dụng Unicode cho STVB tiếng DTTS nói chung tiếngÊĐê nói riêng 3) Xâydựng KNV V-E dựa mô hình hợp nguồn liệu song ngữ Việt-Ê ĐêÊ Đê-Việt ÊĐê 4) Đề xuất mô hình kiểm tra lỗi tả âm tiết dựa mô hình âm tiết tiếngÊ Đê, góp phần phát lỗi tả âm tiết văn tiếngÊ Đê, kiểm tra âm tiết tiếngÊĐê KNVV-E 5) Triển khai ứngdụngdạyhọctiếngÊĐê 24 Đánh giá kết Kết Ďạt Ďƣợc sau Ďây chƣa Ďƣợc nghiên cứu từ trƣớc Ďến nay: Định hƣớng qui trình nghiên cứu xửlýtiếng DTTS Việt Nam nói chung xửlýtiếngÊĐê nói riêng Sử dụng Unicode STVB tiếngÊ Đê, góp phần ứngdụng STVB tiếngÊĐêmôi trƣờng Ďa ngữ Chuyển Ďổi văn tiếngÊĐêdùng phông chữ riêng sang Unicode, góp phần giải khó khăn việc trao Ďổi, sử dụng văn chữ viết tiếng DTTS không sử dụng phông chữ Unicode Kiểm tra Ďƣợc lỗi tả âm tiết văn tiếngÊ Đê, góp phần phát lỗi tả STVB tiếngÊĐêXâydựng KNVV-E với tiêu chí: thống dùng phông chữ Unicode, phát từ tiếng Việt tƣơng ứng với tiếngÊĐê KNV tiếng Việt, mục từ ÊĐê KNV Ďã Ďƣợc kiểm tra lỗi tả âm tiết chia sẻ KNV cho hoạt Ďộng nghiên cứu, góp phần xâydựng hạ tầng sở cho môi trƣờng xửlýtiếngÊĐê Triển khai số ứngdụngxửlýtiếngÊĐêdạyhọctiếngÊ Đê, góp phần ứngdụng CNTT việc nâng cao chất lƣợng dạyhọctiếngÊĐê Hướng phát triển Ngoài kết Ďã Ďạt Ďƣợc luận án, số vấn Ďề nảy sinh từ luận án cần Ďƣợc tiếp tục hoàn thiện tƣơng lai nhƣ sau: Hoàn thiện kết có Nội dung nghiên cứu luận án kiểm tra Ďƣợc lỗi tả tiếngÊĐê mức âm tiết, toán kiểm tra lỗi tả tiếngÊĐê Ďƣợc nghiên cứu tiếp tục mức tiếp theo, Kiểm tra lỗi tả tiếngÊĐêtiếng Việt KNV Tiếp tục Nâng cao chất lƣợng KNVV-E với trợ giúp chuyên gia ngôn ngữ tiếngÊĐê qua môi trƣờng xửlýtiếngÊ Đê, Mở rộng xửlý Ďa ngữ cho ngôn ngữ DTTS khác, Tiếp tục chủ Ďề xửtiếngÊĐê theo Ďịnh hƣớng XLNNTN ... triển khai số ứng dụng xử lý tiếng Ê ê dạy học tiếng Ê ê CHƢƠNG XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê Ê 4.1 Dạy học tiếng Ê ê 4.1.1 Thực trang dạy học tiếng Ê ê Dạy học tiếng Ê ê cho Ďến khó... XLNNTN xử lý tiếng Việt, STVB tiếng Ê ê sử dụng Unicode, kiểm tra lỗi tả âm tiết văn tiếng Ê ê, hạ tầng sở cho xử lý tiếng Ê ê, ứng dụng xử lý tiếng Ê ê dạy học tiếng Ê ê Phương pháp nghiên... lƣợng dạy học tiếng Ê ê Nhằm tạo Ďiều kiện thuận lợi cho giáo viên học sinh dân tộc Ê ê việc dạy học tiếng Ê ê, Luận án Ďã Ďề xuất triển khai xây dựng số ứng dụng xử lý tiếng Ê ê dạy học tiếng