) Footer Page 16 of 126 Header Page 17 of 126 15 - Loại bỏ tất thẻ HTML 2.4 GIẢI PHÁP XÂY DỰNG 2.4.1 Mô hình tổng quát hệ thống Hình 2.1: Mô hình tổng quát hệ thống Footer Page 17 of 126 Header Page 18 of 126 2.4.2 16 Giải pháp xây dựng kho ngữ vựng a Thu thập liệu Đầu tiên ta phải chuẩn bị liệu nhiều ngôn ngữ khác Những liệu đa ngữ này, ta có cách sử dụng tài liệu gốc có sẵn nhiều ngôn ngữ khác dịch ngôn ngữ khác từ liệu gốc ban đầu phần mềm dịch tự động mạng b Xử lý liệu Dữ liệu thu thập cần chuẩn hóa trước đưa vào kho, nhập trực tiếp liệu, xử lý thủ công tự động Việc chuẩn hóa liệu việc chuyển đổi định dạng liệu thành định dạng tương thích với mục đích hệ thống Nghĩa là, cần phải lựa chọn gõ, hệ thống mã hóa hệ thống phông chữ phù hợp cho ngôn ngữ cần thể Đặc biệt cần lưu ý nên sử dụng hệ thống mã hóa Unicode c Lưu trữ, xây dựng kho liệu Chúng ta cần lựa chọn công cụ để lưu trữ liệu đa ngữ ví dụ XML, hệ quản trị sở liệu Access, Oracle… Đặc biệt, XML xem chuẩn tốt dành cho liệu đa ngữ d Khai thác liệu Khai thác CSDL từ vựng đa ngữ, tùy theo mục đích mà khai thác CSDL từ vựng đa ngữ theo hướng nhiều công cụ khai thác liệu khác Ở xây dựng công cụ tra từ để đọc truy xuất liệu từ file mô tả sở liệu lưu kho Footer Page 18 of 126 17 Header Page 19 of 126 CHƯƠNG TRIỂN KHAI XÂY DỰNG 3.1 CÔNG CỤ HỔ TRỢ PHÁT TRIỂN HỆ THỐNG 3.1.1 Visual Studio.Net 3.1.2 SQL Server 2008 3.1.3 Ngôn ngữ lập trình C#.Net 3.2 THIẾT KẾ CƠ SỞ DỮ LIỆU 3.2.1 Đặc tả chi tiết bảng Bảng 3.1: Cấu trúc chi tiết bảng từ vựng tiếng Khmer Tên trường Kiểu liệu Diễn giải MaTuKhmerID nchar(10) Mã từ Khmer MaTuVietID nchar(10) Mã từ tiếng Việt TuKhmer nvarchar(MAX) Từ tiếng Khmer Phienam nvarchar(MAX) Phatam nvarchar(MAX) Ghi Khóa Phiên âm tiếng Khmer Phát âm tiếng Khmer Bảng 3.2: Cấu trúc chi tiết bảng câu tiếng Việt Tên trường Kiểu liệu Diễn giải MaCauTVID nchar(10) Mã câu tiếng Việt MaTuVietID nchar(10) Mã từ tiếng Việt CauTV nvarchar(MAX) Câu ví dụ tiếng Việt Footer Page 19 of 126 Ghi Khóa 18 Header Page 20 of 126 Bảng 3.3: Cấu trúc chi tiết bảng câu tiếng Khmer Tên trường Kiểu liệu Diễn giải Ghi MaCauKMID nchar(10) Mã câu tiếng Khóa Khmer MaTuKhmerID nchar(10) Mã từ tiếng Khmer MaCauTVID nchar(10) Mã câu tiếng Việt CauKM nvarchar(MAX) Câu ví dụ tiếng Khmer Bảng 3.4: Cấu trúc chi tiết bảng từ vựng tiếng Việt Tên trường Kiểu liệu MaTuVietID nchar(10) TuTiengViet nvarchar(MAX) Diễn giải Ghi Mã từ tiếng Việt Khóa Từ tiếng Việt 3.2.2 Mô hình liệu quan hệ Hình 3.1: Mô hình liệu quan hệ Footer Page 20 of 126 Header Page 21 of 126 19 3.3 CÁC BƯỚC TRIỂN KHAI 3.3.1 Thu thập liệu a Nguồn liệu b Cách trích liệu - Đối với sở liệu cập nhật thủ công xây dựng công cụ cập nhật: Hình 3.2: Giao diện cập nhật liệu vào kho - Đối với sở liệu trích tự động từ trang web sử dụng công cụ WebHarvy để rút trích liệu 3.3.2 Xử lý liệu - Dựa vào ký hiệu ngắt câu tiếng Khmer ( ) ký hiệu ngắt câu tiếng Việt(.), ta tiến hành tách trích cặp câu tương ứng - Hủy bỏ dòng trắng, khoảng trắng tab, ký tự trắng liên tiếp HTML, ký tự đặc biệt &, , "…và phần không cần thiết Footer Page 21 of 126 Header Page 22 of 126 20 - Chuẩn hóa toàn liệu theo chuẩn thống Trong phần chuyển đổi tất liệu phông chữ Time new romand thuộc bảng mã Unicode - Đối với tập tin định dạng PDF sử dụng phần mềm chuyển đổi sang định dạng Docx để thuận tiện cho công việc tách lấy liệu - Đa số liệu lấy cặp câu, cặp từ English – Khmer nên để trích lấy nguồn ngữ liệu vào kho, thông qua máy dịch thuật tự động Google công cụ dịch thuật trực tuyến miễn phí Google cung cấp để dịch nhanh văn trang web,… với nhiều ngôn ngữ khác Đồng thời, để đánh giá độ xác dịch dùng số trang dịch tự động khác vdict.com/#, stars21.com/translator/, dict.vntranslate.net/,…, để kiểm chứng, so sánh độ xác kết dịch từ rút ra, lựa chọn dịch có độ xác cao để đưa vào kho ngữ vựng 3.3.3 Xây dựng kho ngữ vựng Việt – Khmer - Dữ liệu lưu trữ định dạng Excel trước đưa vào kho với cấu trúc mô tả sau: Bảng 3.5: Sheet mô tả thông tin từ tiếng Khmer MỤC NỘI DUNG MaTuKhmerID Mã từ Khmer MaTuVietID Mã từ tiếng Việt TuKhmer Từ tiếng Khmer Phienam Phiên âm tiếng Khmer Phatam Phát âm tiếng Khmer Footer Page 22 of 126 Header Page 23 of 126 21 Bảng 3.6: Sheet mô tả thông tin từ tiếng Việt MỤC NỘI DUNG MaTuVietID Mã từ tiếng Việt TuTiengViet Từ tiếng Việt Bảng 3.7: Sheet mô tả thông tin câu tiếng Việt MỤC NỘI DUNG MaCauTVID Mã câu tiếng Việt MaTuVietID Mã từ tiếng Việt CauTV Câu ví dụ TV Bảng 3.8: Sheet mô tả thông tin câu tiếng Khmer MỤC NỘI DUNG MaCauKMID Mã câu tiếng Khmer MaTuKhmerID Mã từ tiếng Khmer MaCauTVID Mã câu tiếng Việt CauKM Câu ví dụ tiếng Khmer - Import liệu từ tập tin mô tả tài liệu Excel vào sở liệu, với tập tin định dạng Excel tương ứng ghi bảng liệu, cột tương ứng với trường bảng ghi Các bước thực hiện: Bước 1: Thiết kế giao diện Import liệu từ Excel sang SQL Bước 2: Viết code cho kiện Import liệu 3.3.4 Khai thác kho ngữ vựng song ngữ Để ứng dụng kho ngữ liệu song ngữ Việt – Khmer vào việc xây dựng từ điển, thực xây dựng chương trình tra từ Footer Page 23 of 126 Header Page 24 of 126 22 để khai thác kho Chương trình cho phép người sử dụng tra từ, thêm từ, chỉnh sửa xóa từ Việt – Khmer, đồng thời từ tra có ví dụ, phiên âm phát âm kèm theo 3.4 MỘT SỐ DEMO CHƯƠNG TRÌNH Hình 3.3: Giao diện Import liệu từ Excel qua SQL Hình 3.4: Giao diện tra từ Footer Page 24 of 126 Header Page 25 of 126 23 3.5 KẾT QUẢ ĐẠT ĐƯỢC Việc triển khai xây dựng kho ngữ vựng song ngữ Việt – Khmer bước đầu ghi nhận số kết đạt sau: Tìm hiểu hệ thống chữ viết tiếng Khmer, phương pháp trích lọc liệu mạng, phương pháp xây dựng kho ngữ vựng áp dụng xây dựng kho ngữ vựng song ngữ Việt – Khmer Đã xây dựng kho sở liệu từ vựng song ngữ với khoảng 2.000 từ thông dụng đời sống xã hội đưa vào sở dư liệu 2.000 câu tiếng Khmer thông dụng Xây dựng công cụ tra từ vựng Việt – Khmer đáp ứng nhu cầu học tập, giảng dạy người Việt muốn học tiếng Khmer người Khmer muốn học tiếng Việt Footer Page 25 of 126 Header Page 26 of 126 24 KẾT LUẬN Kết đạt đươc Về mặt khoa học: Luận văn tiến hành nghiên cứu tìm hiểu ngôn ngữ Khmer, kiến thức xử lý ngôn ngữ tự nhiên, kho ngữ liệu song ngữ, vấn đề liên quan đến xử lý liệu, bước xây dựng kho ngữ vựng Về mặt thực tiễn Luận văn nêu giải pháp, kỹ thuật để xử lý liệu cập nhật kho ngữ liệu song ngữ Việt – Khmer Xây dựng thành công kho ngữ vựng song ngữ Việt – Khmer công cụ tra từ vựng Việt – Khmer để khai thác kho tài liệu Về mặt hạn chế Ngôn ngữ Khmer không sử dụng chia rộng rãi nên việc thu thập nguồn ngữ liệu gặp nhiều khó khăn Vì số lượng ngữ vựng cập nhật kho chưa nhiều Chất lượng dịch nguồn liệu song ngữ chưa cao Cơ sở liệu sưu tập cho mục từ chưa đầy đủ phần phát âm ví dụ minh họa,… Hướng phát triển Tiếp tục sưu tập nguồn liệu song ngữ Việt – Khmer cho kho ngữ vựng Footer Page 26 of 126 ... cập nhật kho ngữ liệu song ngữ Việt – Khmer Xây dựng thành công kho ngữ vựng song ngữ Việt – Khmer công cụ tra từ vựng Việt – Khmer để khai thác kho tài liệu Về mặt hạn chế Ngôn ngữ Khmer không... dụng xây dựng kho ngữ vựng song ngữ Việt – Khmer Đã xây dựng kho sở liệu từ vựng song ngữ với kho ng 2.000 từ thông dụng đời sống xã hội đưa vào sở dư liệu 2.000 câu tiếng Khmer thông dụng Xây dựng. .. nghiên cứu Mục tiêu đề tài: nghiên cứu xây dựng kho ngữ vựng song ngữ Việt – Khmer nhằm phục vụ việc giao lưu, học tập, trao đổi văn hóa hai dân tộc Đối tượng phạm vi nghiên cứu - Đối tượng nghiên