1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Nghiên cứu xây dựng kho ngữ vựng song ngữ Việt - Khmer

26 363 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 480,92 KB

Nội dung

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ THỊ ANH ĐÀO NGHIÊN CỨU XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT - KHMER Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS.VÕ TRUNG HÙNG Phản biện 1: TS HOÀNG THỊ THANH HÀ Phản biện 2: GS.TS NGUYỄN THANH THỦY Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 16 tháng 11 năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Tính cấp thiết đề tài Ngày với bùng nổ thông tin Internet mà văn dạng chủ yếu nhu cầu xử lý ngôn ngữ tự nhiên máy tính lớn Làm để máy tính hiểu ngôn ngữ người câu hỏi thách thức nhà khoa học suốt lịch sử nửa kỷ ngành trí tuệ nhân tạo Những năm gần đây, với tiến lực tính toán khả lưu trữ máy tính, tiếp cận xử lý ngôn ngữ tự nhiên thu thành công đáng khích lệ, đặc biệt cách tiếp cận sử dụng phương pháp thống kê kho ngữ liệu lớn Trong xử lý ngôn ngữ tự nhiên, kho ngữ liệu nguồn tài nguyên quan trọng Một mặt dùng để huấn luyện mô hình phân tích ngôn ngữ tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp Mặt khác, dùng để kiểm chứng độ tin cậy mô hình ngôn ngữ đó.Đồng thời hổ trợ cho việc phát triển ứng dụng dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ… Xử lý ngôn ngữ tự nhiên xử lý ngôn ngữ nói ngôn ngữ viết người nên mang nét đặc thù riêng cho ngôn ngữ, quốc gia Việt Nam với 54 dân tộc anh em, dân tộc có đặc trưng văn hóa khác nhau, ngôn ngữ giao tiếp khác chưa có nhiều kho ngữ liệu đặc biệt kho ngữ liệu song ngữ đa ngữ để hỗ trợ phát triển hệ thống xử lý ngôn ngữ tự nhiên, phục Footer Page of 126 Header Page of 126 vụ xử lý tiếng Việt Do đó, gây khó khăn việc giao lưu học tập, trao đổi văn hóa, phát triển dân tộc Dân tộc Khmer sống tập trung tỉnh Sóc Trăng, Vĩnh Long, Trà Vinh, tộc người cộng đồng dân tộc Việt Nam Người Khmer có tiếng nói chữ viết riêng Sự cộng cư lâu đời hòa hợp hai dân tộc Việt Khmer dẫn đến tình trạng có nhiều người sử dụng hai loại ngôn ngữ Bên cạnh đó, nhu cầu học tiếng Việt người Khmer hay học tiếng Khmer người Việt ngày cao Tuy nhiên, công cụ hỗ trợ học tiếng Khmer hay giáo trình học tập, tài liệu tham khảo học tập tiếng Khmer Do nhu cầu học tập, giảng dạy tiếng Khmer cho học sinh, sinh viên, giáo viên đội ngũ cán ngày trở nên thiết Để giải vấn đề nêu trên, đề xuất đề tài: “Nghiên cứu xây dựng kho ngữ vựng song ngữ Việt – Khmer” để góp phần vào việc bảo tồn, quảng bá chữ viết số đặc điểm văn hóa, tín ngưỡng người Khmer, tạo điều kiện thuận lợi cho việc giao lưu, học tập, trao đổi văn hóa hai dân tộc Mục tiêu nghiên cứu Mục tiêu đề tài: nghiên cứu xây dựng kho ngữ vựng song ngữ Việt – Khmer nhằm phục vụ việc giao lưu, học tập, trao đổi văn hóa hai dân tộc Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu: + Ngôn ngữ dân tộc Khmer; + Các giải pháp cập nhật CSDL; Footer Page of 126 Header Page of 126 + Kho ngữ vựng; + Các công cụ xây dựng CSDL; + Các mô hình triển khai hệ thống - Phạm vi nghiên cứu:xây dựng kho ngữ vựng song ngữViệt – Khmer Phương pháp nghiên cứu - Phương pháp nghiên cứu tài liệu: + Các tài liệu xuất bản, tài liệu phát truyền hình tiếng Khmer; +Các trang tin điện tử dân tôc Khmer; + Các luận văn báo khoa học liên quan - Phương pháp thực nghiệm: sử dụng công cụ thiết kế xây dựng kho ngữ liệu; thực nghiệm cập nhật, hiệu chỉnh kho ngữ liệu Ý nghĩa khoa học thực tiễn đề tài - Về khoa học: góp phần tạo hướng nghiên cứu xây dựng CSDL song ngữ, đặt biệt cho tiếng dân tộc người Việt Nam - Về thực tiễn: kho ngữ vựng song ngữ Việt – Khmer tạo từ đề tài tạo tiền đề cho nghiên cứu sau Bố cục báo cáo Báo cáo luận văn tổ chức thành chương: Chương Nghiên cứu tổng quan Chương Phân tích thiết kế hệ thống Chương Triển khai xây dựng Footer Page of 126 Header Page of 126 CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ NGÔN NGỮ KHMER 1.1.1 Giới thiệu chung a Dân tộc Khmer Đồng bào Khmer Nam Bộ phận tách rời cộng đồng 54 dân tộc Việt Nam Dân tộc Khmer có 1,3 triệu dân, tập trung tỉnh, thành phố thuộc khu vực Đồng sông Cửu Long như: Sóc Trăng, Trà Vinh, Kiên Giang, An Giang, Bạc Liêu, Cà Mau, Vĩnh Long, Hậu Giang, Cần Thơ, Thành Phố Hồ Chí Minh miền Đông Nam Bộ [1] b Tôn giáo, tín ngưỡng Đa số, người Khmer theo Phật giáo Nam Tông (Theravada) Hiện có khoảng gần 500 chùa Khmer ĐBSCL đóng vai trò quan trọng đời sống văn hoá tinh thần người Khmer Chùa Khmer trung tâm cộng đồng Khmer địa phương Đàn ông Khmer đến tuổi thường tu thời gian để tu thân để trả hiếu cho cha mẹ Đi tu làm cho đàn ông Khmer có giá trị Footer Page of 126 Header Page of 126 hơn, có đạo đức hơn, mà để học chữ viết Khmer tiếng Phạn[1] c Văn hóa Khmer Người Khmer Nam Bộ có nhiều giá trị vật chất lẫn tinh thần, trang phục truyền thống người Khmer dễ phân biệt với dân tộc khác sử dụng dịp lễ Tết, đám cưới, Nhà hầu hết người Khmer làm nhà đất, mái đơn giản… d Văn học Kho tàng văn học dân gian đồng bào Khmer Nam Bộ phong phú, đa dạng nội dung lẫn hình thức e Ngôn ngữ nói Tiếng Khmer, gọi tiếng Cambodia, tiếng Cam pu chia, ngôn ngữ thức Vương quốc Campuchia người Khmer… f Ngôn ngữ viết Chữ Khmer thuộc ngữ hệ Môn – Khmer, chữ Khmer có 33 phụ âm 40 nguyên âm Các phụ âm chia làm loại : loại giọng or có 15 chữ loại giọng o có 18 chữ Nguyên âm gồm có hai loại: nguyên âm thường (là nguyên âm phải ráp với phụ âm có nghĩa, gồm có 25 chữ phát âm chữ có giọng âm khác Tức ráp vần với phụ âm có giọng or đọc khác, ráp vần với phụ âm có giọng o đọc khác) nguyên âm độc lập (là nguyên âm không cần ráp vần với phụ âm có nghĩa, gồm có 15 chữ) Văn tiếng Khmer cấu tạo từ, từ cấu tạo phụ âm nguyên âm Các từ viết từ trái sang phải Footer Page of 126 Header Page of 126 cách ký tự trống Các dấu chức năng: ! "( ) [ ] { } : ; ? , sử dụng tương tự văn tiếng Việt, riêng dấu chấm câu tiếng Khmer sử dụng ký tự ( )[2] g Bộ chữ Khmer Bảng chữ phụ âm tiếng Khmer: Gồm có 33 chữ 32 chân, chia làm hai giọng or/ɔ/ o/o/ ក[kɔ] ឆ[c'ɔ] ឌ[do] ធ[t'o] ម[mo] ហ[hɔ] ខ[k'ɔ] ជ[co] ឍ[d'o] ន[no] យ[yo] ឡ[lɔ] គ[ko] ឈ[c'o] ណ[nɔ] ប[bɔ] រ[ro] អ [ɔ] ឃ[k'o] ញ[ɲo] ត[tɔ] ផ[p'ɔ] ល[lo] ង[ŋo] ដ[dɔ] ថ[t'ɔ] ព[po] វ[wo] ច[cɔ] ឋ[d'ɔ] ទ[to] ភ[p'o] ស[sɔ] Hình 1.4: 33 phụ âm tiếng Khmer Bảng chữ nguyên âm tiếng Khmer: Gồm có 25 nguyên âm thông thường 15 nguyên âm độc lập: - Nguyên âm thông thường: អា អូ អៃ អឿ អេះ អាំ អឹ អោ អុំ អើ អិ អឺ អៅ អំ អោះ អី អេ អួ អុះ អិះ អុ អែ អៀ អះ អឹះ ឥ ឮ ឳ ឯ ឲ ឰ ឬ ឪ ឩ Hình 1.7: 25 nguyên âm thông thường tiếng Khmer - Nguyên âm độc lập: អ ឫ ឧ អា ឮ ឩ Hình 1.8: 15 nguyên âm độc lập tiếng Khmer Footer Page of 126 Header Page of 126 h Cách ráp vần tiếng Khmer Ráp phụ âm với phụ âm - ប(bo) ráp với ង(ngô) thành chữ បង (boong) Anh Ráp phụ âm với nguyên âm - Chữ ក(co) đặt trướcា(a) thành កា (ca) ca Ráp phụ âm có nguyên âm kèm với phụ âm khác - រ(rô) ghép vớiៀ (ia)thành រៀ ន(nô)thành រៀន (riên) có nghĩa học (ria), lấy រៀghép với Ráp phụ âm có chân kèm với nguyên âm - Chữ ស(so)ghép với chân្គ(cô)thành ស្គ ម(mô) thành ស្គម(sờ côm) Gầy (sờ cô)lấy ស្គghép với i Ngữ pháp Khmer Ngữ pháp tiếng Khmer gần giống ngữ pháp tiếng Việt Nam ví dụ: Người Việt Nam nói: Sáng thành phố Hồ Chí Minh Người Khmer nói Pô rức nís kho nhum tâu ti co rông Ho Chi Minh j Cấu trúc câu trật tự từ Về cấu trúc câu trật tự từ tiếng Khmer gần tương đồng với tiếng Việt k Thanh điệu Ngôn ngữ Khmer điệu, tức tất âm thanh (tức dấu) 1.1.2 Xử lý tiếng Khmer máy tính a Mã hóa chữ Khmer Vì ký tự tiếng Khmer ký tự La-tinh nên sẵn bảng mã ASCII Hiện nay, để biểu diễn ký tự Footer Page of 126 Header Page 10 of 126 tiếng Khmer người ta sử dụng bảng mã Unicode Việc xây dựng mã phông chữ Unicode tổ hợp cho tiếng Khmer nằm dự án phần mềm tiếng Khmer (KhmerOS) tổ chức Open Forum of Cambodia b Bộ gõ Bảng 1.1: Cách tổ hợp phụ âm tiếng Khmer Chữ Khmer ក, គ ខ, ឃ ង ច, ជ ឆ, ឈ ញ ដ, ឌ ឋ, ឍ ន, ណ Cách đánh máy Được tổ hợp phím K Được tổ hợp phím X Được tổ hợp phím G Được tổ hợp phím C Được tổ hợp phím Q Được tổ hợp phím J* Được tổ hợp phím D Được tổ hợp phím Z Được tổ hợp phím N Footer Page 10 of 126 Chữ Khmer ប, ព ផ, ភ ម យ រ ល, ឡ វ ស ហ Cách đánh máy Được tổ hợp phím B Được tổ hợp phím P Được tổ hợp phím M Được tổ hợp phím Y Được tổ hợp phím R Được tổ hợp phím L Được tổ hợp phím V Được tổ hợp phím S Được tổ hợp phím H 10 Header Page 12 of 126 Bảng 1.3: Cách tổ hợp nguyên âm độc lập tiếng Khmer Chữ Cách đánh máy Khmer Tương đương với phụ អ âm អ Shift G Tương đương với phụ អា âm អ với nguyên âm ា Shift G A Chữ Khmer ឮ ឭ ឲ ឪ 1.2 ឥ Được tổ hợp phím ឯ Được tổ hợp phím ឬ Được tổ hợp phím Shift R ឳ ឫ Được tổ hợp phím ឰ Alt W Alt R ឧ ឩ Cách đánh máy Được tổ hợp phím \ Được tổ hợp phím Shift \ Được tổ hợp phím = Được tổ hợp phím ] Được tổ hợp phím Shift ] Được tổ hợp phím Alt [(*) Được tổ hợp phím Alt ] Được tổ hợp phím Alt P CƠ SỞ DỮ LIỆU TỪ VỰNG, KHO NGỮ LIỆU, TỪ ĐIỂN 1.2.1 Cơ sở liệu từ vựng a Khái niệm Cơ sở liệu hiểu theo định nghĩa kiểu kỹ thuật tập hợp thông tin có cấu trúc… Footer Page 12 of 126 Header Page 13 of 126 11 b Cơ sở liệu từ vựng đa ngữ Một sở liệu gọi đa ngữ chúng làm việc CSDL với hai hay nhiều ngôn ngữ khác 1.2.2 Kho ngữ liệu a Một số khái niệm b Tổng quan XML c Thu thập liệu Nguồn từ điển Trong từ điển, mục từ, thường chứa ví dụ hướng dẫn sử dụng từ Hầu hết ví dụ câu thông thường Nguồn Internet Đây nguồn liệu khổng lồ, nguồn ngữ liệu có lợi chúng tồn sẵn dạng điện tử (nên nhập liệu lại tay) Nguồn sách Bao gồm sách dạy tiếng Khmer, mẫu câu đàm thoại Việt - Khmer, tự điển Việt - Khmer… 1.2.3 Phương pháp tách từ, tách câu Để giải toán liên quan đến xử lý ngôn ngữ tự nhiên, xây dựng kho ngữ vựng toán toán tách từ, tách câu văn a Bài toán tách từ b Bài toán tách câu 1.2.4 Một số giải thuật xử lý ngôn ngữ tự nhiên a Thuật toán liên kết từ Footer Page 13 of 126 Header Page 14 of 126 12 b Thuật toán tách câu 1.2.5 Từ điển a Khái niệm Từ điển tập hợp từ (đôi hình vị cụm từ) xếp theo trật tự định, dùng làm cẩm nang giải thích nghĩa đơn vị miêu tả, cung cấp thông tin khác đơn vị hay dịch sang ngôn ngữ khác, cung cấp thông tin vật đơn vị miêu tả biểu đạt [5] b Phương pháp xây dựng từ điển c Một số từ điển Việt – Khmer Footer Page 14 of 126 13 Header Page 15 of 126 CHƯƠNG PHÂN TÍCH THIẾT KẾ HỆ THỐNG 2.1 MÔ TẢ ỨNG DỤNG 2.1.1 Giới thiệu Kho ngữ vựng xây dựng tập hợp cặp từ, cặp câu Việt – Khmer thu thập từ nhiều nguồn liệu khác Kho ngữ vựng giúp người sử dụng tra cứu cặp từ Việt – Khmer, phiên âm tiếng Khmer, phát âm tiếng Khmer cặp câu ví dụ Việt – Khmer tương ứng 2.1.2 Yêu cầu hệ thống Bài toán đặt yêu cầu xây dựng kho ngữ vựng song ngữ Việt – Khmer có chức hỗ trợ tìm kiếm, tra cứu từ tiếng Việt tiếng Khmer 2.2 PHÂN TÍCH, THIẾT KẾ HỆ THỐNG 2.2.1 Biểu đồ User – case 2.2.2 Đặc tả User – case 2.2.3 Biểu đồ trình tự 2.2.4 Biểu đồ hoạt động Footer Page 15 of 126 Header Page 16 of 126 2.3 14 GIẢI PHÁP XỬ LÝ DỮ LIỆU 2.3.1 Kỹ thuật trích lọc liệu tự động Web Scraping Web Scraping phần mềm khai thác liệu Web, kỹ thuật sử dụng để trích xuất lượng lớn liệu từ trang web mạng Hình 2.12: Giao diện phần mềm trích liệu WebHarvy 2.3.2 Kỹ thuật trích lọc liệu file HTML Một trang web sau tải để làm nguồn liệu cập nhật kho, ta cần trích lấy nội dung cần thiết phải làm sạch, bao gồm: - Đọc nội dung văn đưa định dạng chuỗi ký tự - Hủy bỏ dòng trắng không hiển thị HTML - Hủy bỏ khoảng trắng tab - Hủy bỏ ký tự trắng liên tiếp HTML - Hủy bỏ thẻ HEAD - Hủy bỏ tất JavaScript - Thay ký tự đặc biệt &, , "… - Kiểm tra thay ngắt dòng () khoản (

) Footer Page 16 of 126 Header Page 17 of 126 15 - Loại bỏ tất thẻ HTML 2.4 GIẢI PHÁP XÂY DỰNG 2.4.1 Mô hình tổng quát hệ thống Hình 2.1: Mô hình tổng quát hệ thống Footer Page 17 of 126 Header Page 18 of 126 2.4.2 16 Giải pháp xây dựng kho ngữ vựng a Thu thập liệu Đầu tiên ta phải chuẩn bị liệu nhiều ngôn ngữ khác Những liệu đa ngữ này, ta có cách sử dụng tài liệu gốc có sẵn nhiều ngôn ngữ khác dịch ngôn ngữ khác từ liệu gốc ban đầu phần mềm dịch tự động mạng b Xử lý liệu Dữ liệu thu thập cần chuẩn hóa trước đưa vào kho, nhập trực tiếp liệu, xử lý thủ công tự động Việc chuẩn hóa liệu việc chuyển đổi định dạng liệu thành định dạng tương thích với mục đích hệ thống Nghĩa là, cần phải lựa chọn gõ, hệ thống mã hóa hệ thống phông chữ phù hợp cho ngôn ngữ cần thể Đặc biệt cần lưu ý nên sử dụng hệ thống mã hóa Unicode c Lưu trữ, xây dựng kho liệu Chúng ta cần lựa chọn công cụ để lưu trữ liệu đa ngữ ví dụ XML, hệ quản trị sở liệu Access, Oracle… Đặc biệt, XML xem chuẩn tốt dành cho liệu đa ngữ d Khai thác liệu Khai thác CSDL từ vựng đa ngữ, tùy theo mục đích mà khai thác CSDL từ vựng đa ngữ theo hướng nhiều công cụ khai thác liệu khác Ở xây dựng công cụ tra từ để đọc truy xuất liệu từ file mô tả sở liệu lưu kho Footer Page 18 of 126 17 Header Page 19 of 126 CHƯƠNG TRIỂN KHAI XÂY DỰNG 3.1 CÔNG CỤ HỔ TRỢ PHÁT TRIỂN HỆ THỐNG 3.1.1 Visual Studio.Net 3.1.2 SQL Server 2008 3.1.3 Ngôn ngữ lập trình C#.Net 3.2 THIẾT KẾ CƠ SỞ DỮ LIỆU 3.2.1 Đặc tả chi tiết bảng Bảng 3.1: Cấu trúc chi tiết bảng từ vựng tiếng Khmer Tên trường Kiểu liệu Diễn giải MaTuKhmerID nchar(10) Mã từ Khmer MaTuVietID nchar(10) Mã từ tiếng Việt TuKhmer nvarchar(MAX) Từ tiếng Khmer Phienam nvarchar(MAX) Phatam nvarchar(MAX) Ghi Khóa Phiên âm tiếng Khmer Phát âm tiếng Khmer Bảng 3.2: Cấu trúc chi tiết bảng câu tiếng Việt Tên trường Kiểu liệu Diễn giải MaCauTVID nchar(10) Mã câu tiếng Việt MaTuVietID nchar(10) Mã từ tiếng Việt CauTV nvarchar(MAX) Câu ví dụ tiếng Việt Footer Page 19 of 126 Ghi Khóa 18 Header Page 20 of 126 Bảng 3.3: Cấu trúc chi tiết bảng câu tiếng Khmer Tên trường Kiểu liệu Diễn giải Ghi MaCauKMID nchar(10) Mã câu tiếng Khóa Khmer MaTuKhmerID nchar(10) Mã từ tiếng Khmer MaCauTVID nchar(10) Mã câu tiếng Việt CauKM nvarchar(MAX) Câu ví dụ tiếng Khmer Bảng 3.4: Cấu trúc chi tiết bảng từ vựng tiếng Việt Tên trường Kiểu liệu MaTuVietID nchar(10) TuTiengViet nvarchar(MAX) Diễn giải Ghi Mã từ tiếng Việt Khóa Từ tiếng Việt 3.2.2 Mô hình liệu quan hệ Hình 3.1: Mô hình liệu quan hệ Footer Page 20 of 126 Header Page 21 of 126 19 3.3 CÁC BƯỚC TRIỂN KHAI 3.3.1 Thu thập liệu a Nguồn liệu b Cách trích liệu - Đối với sở liệu cập nhật thủ công xây dựng công cụ cập nhật: Hình 3.2: Giao diện cập nhật liệu vào kho - Đối với sở liệu trích tự động từ trang web sử dụng công cụ WebHarvy để rút trích liệu 3.3.2 Xử lý liệu - Dựa vào ký hiệu ngắt câu tiếng Khmer ( ) ký hiệu ngắt câu tiếng Việt(.), ta tiến hành tách trích cặp câu tương ứng - Hủy bỏ dòng trắng, khoảng trắng tab, ký tự trắng liên tiếp HTML, ký tự đặc biệt &, , "…và phần không cần thiết Footer Page 21 of 126 Header Page 22 of 126 20 - Chuẩn hóa toàn liệu theo chuẩn thống Trong phần chuyển đổi tất liệu phông chữ Time new romand thuộc bảng mã Unicode - Đối với tập tin định dạng PDF sử dụng phần mềm chuyển đổi sang định dạng Docx để thuận tiện cho công việc tách lấy liệu - Đa số liệu lấy cặp câu, cặp từ English – Khmer nên để trích lấy nguồn ngữ liệu vào kho, thông qua máy dịch thuật tự động Google công cụ dịch thuật trực tuyến miễn phí Google cung cấp để dịch nhanh văn trang web,… với nhiều ngôn ngữ khác Đồng thời, để đánh giá độ xác dịch dùng số trang dịch tự động khác vdict.com/#, stars21.com/translator/, dict.vntranslate.net/,…, để kiểm chứng, so sánh độ xác kết dịch từ rút ra, lựa chọn dịch có độ xác cao để đưa vào kho ngữ vựng 3.3.3 Xây dựng kho ngữ vựng Việt – Khmer - Dữ liệu lưu trữ định dạng Excel trước đưa vào kho với cấu trúc mô tả sau: Bảng 3.5: Sheet mô tả thông tin từ tiếng Khmer MỤC NỘI DUNG MaTuKhmerID Mã từ Khmer MaTuVietID Mã từ tiếng Việt TuKhmer Từ tiếng Khmer Phienam Phiên âm tiếng Khmer Phatam Phát âm tiếng Khmer Footer Page 22 of 126 Header Page 23 of 126 21 Bảng 3.6: Sheet mô tả thông tin từ tiếng Việt MỤC NỘI DUNG MaTuVietID Mã từ tiếng Việt TuTiengViet Từ tiếng Việt Bảng 3.7: Sheet mô tả thông tin câu tiếng Việt MỤC NỘI DUNG MaCauTVID Mã câu tiếng Việt MaTuVietID Mã từ tiếng Việt CauTV Câu ví dụ TV Bảng 3.8: Sheet mô tả thông tin câu tiếng Khmer MỤC NỘI DUNG MaCauKMID Mã câu tiếng Khmer MaTuKhmerID Mã từ tiếng Khmer MaCauTVID Mã câu tiếng Việt CauKM Câu ví dụ tiếng Khmer - Import liệu từ tập tin mô tả tài liệu Excel vào sở liệu, với tập tin định dạng Excel tương ứng ghi bảng liệu, cột tương ứng với trường bảng ghi Các bước thực hiện: Bước 1: Thiết kế giao diện Import liệu từ Excel sang SQL Bước 2: Viết code cho kiện Import liệu 3.3.4 Khai thác kho ngữ vựng song ngữ Để ứng dụng kho ngữ liệu song ngữ Việt – Khmer vào việc xây dựng từ điển, thực xây dựng chương trình tra từ Footer Page 23 of 126 Header Page 24 of 126 22 để khai thác kho Chương trình cho phép người sử dụng tra từ, thêm từ, chỉnh sửa xóa từ Việt – Khmer, đồng thời từ tra có ví dụ, phiên âm phát âm kèm theo 3.4 MỘT SỐ DEMO CHƯƠNG TRÌNH Hình 3.3: Giao diện Import liệu từ Excel qua SQL Hình 3.4: Giao diện tra từ Footer Page 24 of 126 Header Page 25 of 126 23 3.5 KẾT QUẢ ĐẠT ĐƯỢC Việc triển khai xây dựng kho ngữ vựng song ngữ Việt – Khmer bước đầu ghi nhận số kết đạt sau: Tìm hiểu hệ thống chữ viết tiếng Khmer, phương pháp trích lọc liệu mạng, phương pháp xây dựng kho ngữ vựng áp dụng xây dựng kho ngữ vựng song ngữ Việt – Khmer Đã xây dựng kho sở liệu từ vựng song ngữ với khoảng 2.000 từ thông dụng đời sống xã hội đưa vào sở dư liệu 2.000 câu tiếng Khmer thông dụng Xây dựng công cụ tra từ vựng Việt – Khmer đáp ứng nhu cầu học tập, giảng dạy người Việt muốn học tiếng Khmer người Khmer muốn học tiếng Việt Footer Page 25 of 126 Header Page 26 of 126 24 KẾT LUẬN Kết đạt đươc Về mặt khoa học: Luận văn tiến hành nghiên cứu tìm hiểu ngôn ngữ Khmer, kiến thức xử lý ngôn ngữ tự nhiên, kho ngữ liệu song ngữ, vấn đề liên quan đến xử lý liệu, bước xây dựng kho ngữ vựng Về mặt thực tiễn Luận văn nêu giải pháp, kỹ thuật để xử lý liệu cập nhật kho ngữ liệu song ngữ Việt – Khmer Xây dựng thành công kho ngữ vựng song ngữ Việt – Khmer công cụ tra từ vựng Việt – Khmer để khai thác kho tài liệu Về mặt hạn chế Ngôn ngữ Khmer không sử dụng chia rộng rãi nên việc thu thập nguồn ngữ liệu gặp nhiều khó khăn Vì số lượng ngữ vựng cập nhật kho chưa nhiều Chất lượng dịch nguồn liệu song ngữ chưa cao Cơ sở liệu sưu tập cho mục từ chưa đầy đủ phần phát âm ví dụ minh họa,… Hướng phát triển Tiếp tục sưu tập nguồn liệu song ngữ Việt – Khmer cho kho ngữ vựng Footer Page 26 of 126 ... cập nhật kho ngữ liệu song ngữ Việt – Khmer Xây dựng thành công kho ngữ vựng song ngữ Việt – Khmer công cụ tra từ vựng Việt – Khmer để khai thác kho tài liệu Về mặt hạn chế Ngôn ngữ Khmer không... dụng xây dựng kho ngữ vựng song ngữ Việt – Khmer Đã xây dựng kho sở liệu từ vựng song ngữ với kho ng 2.000 từ thông dụng đời sống xã hội đưa vào sở dư liệu 2.000 câu tiếng Khmer thông dụng Xây dựng. .. nghiên cứu Mục tiêu đề tài: nghiên cứu xây dựng kho ngữ vựng song ngữ Việt – Khmer nhằm phục vụ việc giao lưu, học tập, trao đổi văn hóa hai dân tộc Đối tượng phạm vi nghiên cứu - Đối tượng nghiên

Ngày đăng: 06/05/2017, 12:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w