Mục tiêu nghiên cứu đề tài là nghiên cứu cấu trúc, định dạng và kích thước các kho ngữ liệu tiếng Việt được nhiều người biết đến. Đề xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.
Trang 1
DAI HOC DA NANG
TRUONG CD CONG NGHE THONG TIN
BAO CAO TONG KET
DE TAI KHOA HOC VA CONG NGHE
CAP CO SO
NGHIEN CUU GIAI PHAP XAY DUNG KHO NGU LIEU PHỤC VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỌNG
TIENG VIỆT
Mã số: T2016-07-13
fa co quan chu tri dé tai Chủ nhiệm đê tài
Trang 2MUC LUC
Chương I Nghiên cứu tổng quan 5© sgk 3
\
| I.1 Tổng quan về kho ngữ liệu ¿2S 22+ EEeterrrrrrrrrre 3
I2 Kho !›;gfr liỆ1 22/7 SOTE Q00 00 oe: ; 1.2.1 Tổng quan về kho ngữ liệu song song . ¿+5 4
L2.2 Một số kho ngữ liệu song song phơ biến 5555552 5
1.2.3 Nội dung của các kho ngữ liệu song song 6
I.3 Kho ngữ liệu trong dịch tự Động tiếng viỆt -cccccccsncsereee2 7
1.4 Hiệu đính, đánh giá chất lượng dịch -¿-¿- 5+2 + c+ccxsezeeersxes 8
| 14.1 Hiệu đính bản dịch máy (posf-edifing) . cà <e<<«2 8
L4⁄2 Đánh giá chất lượng dịch cccccstcrrierrrrrrrrerrrrrrid 8
L5 Một số hệ thống dịch tự động tiếng Việt 2c Scc cv ceseerse2 9 I.5.1 Google trans latOT 222222222VE222222+211222222222212122111111 22 cư 9 | 1.5.2 Microsoft translator ccccececccceeeseeeceneeneeeeeceeeenseeseeeseeananess 10
I.5.3 Google trans lator và Microsoft transÏafOT . -‹ ‹ <¿ I1
ă S 2 O7 12
“hương H Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất | lượng dịch tự động tiếng việt .- SH} se 13
màn c8 - ‹ LT 13
| I2 Xây dựng kho ngữ liệu phục vụ đánh giá các kho ngữ liệu sẵn cĩ 13
| I.2.1 Phân tích các kho ngữ liệu song song tiếng Anh - Việt 13
_ IIL2.2 Xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch 17
H.3 Xây dựng kho ngữ liệu phục vụ đánh giá bằng cachsử dụng các hệ thống
dịch tự động - - - - - - ĂcS nh HH2 TH g0 0 ng kg kh 20
i5 1 22
“hương II xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động - 23 0iI0R G0 23 HI.2 Chuyên đơi cám kho ngữ liệu về định dạng và cấu trúc kho ngữ liệuhhục
Trang 3
HI.3 Xây dựng cơng cụ hiệu đính
IHI.4 Xây dựng cơng cụ ImpOTf - - 55c nneeehhhhhhhnhhhrrrerrdrre 28
TUS Két 8n 29
Kết luận và kiến nghị _ G19 9129585864858 0554 _ 30
+
Trang 4
DAI HOC DA NANG CONG HOA XA HOI CHU NGHIA VIET NAM
TRUONG CB CONG NGHE THONG TIN Độc lập — Tw do — Hanh phúc
THONG TIN KET QUA NGHIEN CUU
1 Thơng tin chung:
- Đề tài: Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh
giá chất lượng dịch tự động tiếng Việt
- Mã số: T2016-07-13
- Chủ nhiệm: ThS Dang Dai Tho
- Thanh vién tham gia: ThS Nguyén Van Binh
- Co quan chu tri: Truong CD Céng nghé Thơng tin
- Don vị thực hiện: Tổ KT-ĐBCL&TTGD
- Thời gian thực hiện: 12 tháng
2 Mục tiêu:
Mục tiêu của để tài là để xuât các giải pháp xây dựng kho ngữ liệu phục vụ đánh
giá chất lượng 3; t¿ độn; tiếng Việt Đê đạt được mục tiêu chính trên, chún, ơ¡ tập
trung giải quyết các nội dung cụ thê sau:
- Nghiên cứu câu trúc, định dạng và kích thước các kho ngữ liệu tiếng Viêt được
nhiêu người biệt đên hiện nay
- Nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch hiện nay
- Đề xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt
- Xây dựng hệ thống quản lý và tạo kho ngữ liệu phục vụ đánh giá chất lượng dịch tiếng Việt
3 Tính mới và sáng tạo:
Trang 5
Cài tiến chất lượng của các kho ngữ liệu tiêng Việt cĩ sẵn cĩ và kêt quả của
các hệ thống dịch tự động dé xây dựng kho ngữ liệu phục vụ đánh giá
4 Tĩm tắt kết quả nghiên cứu:
Một bài báo đăng trên hội thảo CHITA 2016
Phần mềm xây dựng kho ngữ liệu đánh giá dịch tự động
th" Tên sản phẩm: SmabuCopus
làn ohh r A ° A 2 oA z ` i v.v r
6 Hiệu: qua, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: sử dụng tại Trường CÐ Cơng nghệ Thơng tin
7 Hình ảnh, sơ đồ minh họa chính
Đà Nẵng, ngày 18 tháng 12 năm 2016
Cơ quan chủ trì Chủ nhiệm đề tài
a
Đặng Đại Thọ
Huỳnh Cơng Pháp
Trang 6
MO ĐẦU
Ngày nay cĩ nhiều cơng cụ địch tự động tiếng Việt được nhiều người sử dụng,
tiêu biểu như như Google Translator, Microsoft Translator, EVTRANS, Viéc danh
giá chất lượng của các hệ thống này được rất nhiều người quan tâm Tuy nhiên, đến
nay chưa cĩ nghiên cứu cụ thể nào để đánh giá chất lượng dịch tự động tiếng Việt của các hệ thống này
Trên thế giới hiện nay đã cĩ nhiều giải pháp đánh giá chất lượng dịch tự động Đa số các giải pháp này cần phải cĩ kho ngữ liệu với các đặc trưng riêng, đảm bảo về số lượng và chất lượng để phục vụ cho mục đích đánh giá Tuy nhiên, đến nay số
lượng và chất lượng kho ngữ liệu dùng để đánh giá chất lượng dịch tiếng Việt quá
khiêm tốn Vì vậy, trong đề tài này chúng tơi nghiên cứu để xuất giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng Việt
Báo cáo tổng kết này được trình bày trong 3 chương Chương 1 trình bày các kết quả nghiên cứu tổng quan về kho ngữ liệu và các hệ thống dịch tự động Chương 2 trình bày các giải pháp nhăm xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch
tự động tiếng Việt báng cách sử dụng lại các kho ngữ liệu dịch tự động sị cớ Và SỬ
dụng các hệ thống dịch tự động để dịch Chương 3 trình bày việc xây dựng kho ngữ
Trang 7
CHUONG I NGHIÊN CỨU TỔNG QUAN
+
lexeme và v.v
1.1 TƠNG QUAN VỀ KHO NGỮ LIỆU
Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngơn ngữ khác
nhau dưới dạng điện tử Đây là một khái niệm cơ bản đối với ngơn ngữ học khối liệu
Theo T McEnery và A Wilson, kho ngữ liệu phải thỏa các tính chất sau:
Kho ngữ liệu gồm tập các văn bản bất kì “igh
Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên
Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biéu cảm ngơn ngữ
Trong lĩnh vực ngơn ngữ học, kho ngữ liệu theo tiếng Latin cĩ nghĩa tức là bất kỳ khối văn ban nao (any body of text) Tuy nhién, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thơng tin thì kho ngữ liệu gơm các đặc điêm cơ bản sau:
Các ngơn ngữ phải đồng điền hình Cĩ kích cỡ xác định
Ở đạng đọc được trên máy tính
Cĩ các chú giải chuân vê mặt ngơn ngữ
Các kho ngữ liệu cĩ thể được sử dụng để nhận biệt các thơng tin hướng dân,
Trang 8
người Khi nhận được các dữ liệu ngơn ngữ trong một giai đoạn phát triển lịch sử nhất
định từ kho ngữ liệu, người sử dụng cĩ thể nghiên cứu các quá trình biến đổi thành
phần từ vựng của ngơn ngữ trên thực tế, cĩ thể tiến hành các phân tích cú pháp ở các thê loại văn bản và của các tác giả khác nhau
Kho ngữ liệu cịn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chĩng và hiệu quả Vai trị của ngơn ngữ học khối liệu càng được khang định khi các cơng trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu cĩ thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [ï j
Một tập các văn bản (tài liệu) được viết bằng nhiều ngơn ngữ thì gọi là kho ngữ
liệu đa ngữ (multilingual corpora)
Một tập các văn bản (tài liệu) trong các ngơn ngữ khác nhau mà cĩ cùng chủ đê chính thì được gọi là kho ngữ liệu (cĩ thể) so sánh (comparable corpus)
Một tập các văn bản (tài liệu) trong nhiều ngơn ngữ khác nhau, tronz đĩ cĩ một ngơn ngữ nguồn và một (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) thì được gọi là kho ngữ liệu song song (parallel corpus) [2]
1.2 KHO NGU LIEU SONG SONG
1.2.1 Tổng quan về kho ngữ liệu song song
Kho ngữ liệu song song là tài nguyên thiết yếu trong tính tốn ngơn ngữ học (Hnguistic computing) Các kho ngữ liệu song song này cĩ thể được sử dụng cho nhiều mục tiêu khác nhau như : nghiên cứu ngơn ngữ học so sánh, tìm kiếm thơng tin xuyên ngữ, dịch máy,
Trang 9
Liên kết văn bản cĩ thể hiểu là quá trình xác định 2 hoặc nhiều thực thể trong
các văn bản ở ngơn ngữ khác nhau cĩ sự tương đồng về nội dung Liên kết văn bản cĩ thể ở nhiều mức khác nhau: tai liéu (document alignment), doan (paragraph alignment), cau (sentence alignment), cum (phrase alignment), tu (word alignment)
+ Mức tài liệu: các tài liệu trong kho ngữ liệu được hiên kêt đơi một, tài
liệu này là bản dịch của tài liệu kia
+ Mức đoạn: các đoạn trong hai tài liệu của hai ngơn ngữ sẽ được liên
kết với nhau, đoạn này sẽ là bản dịch của đoạn kia
+ Mức câu: các tài liệu song ngữ được liên kết ở mức câu, câu này là bản
dịch của câu kia
+ Mức cụm từ: các cụm từ trong cặp câu sẽ được liên kêt từng đơi một, cụm từ này lả bản dịch của cụm từ kia
+ — Mức từ: các từ trong câu sẽ liên kết hàng từng cặp, từ này là từ dich
+ ` 1°
cue tr Ka
Kho ngữ liệu song song cĩ thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử Nguồn tài nguyên ở dạng giấy viết cĩ thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ Việc thu thập dữ liệu từ nguồn tài
nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và
cơng sức Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang web đa ngữ [|2]
L2.2 Một số kho ngữ liệu song song phổ biến
Ngày nay tồn tại nhiều kho ngữ liệu song song, miễn phí hoặc thương mại đối với người dùng Tuy nhiên, việc khai thác và sử dụng các kho ngữ liệu này cịn nhiều
bất cập Đối với các kho ngữ liệu miễn phí (bảng bên dưới), mặc dù cĩ kích thước
Trang 10
số hoạt động trong lĩnh vực dịch tự động Muốn sử dụng được các kho này, mỗi tơ chức hoặc cá nhân phải thực hiện việc nâng cấp, trích lọc dữ liệu từ các kho ngữ liệu
này trước khi sử dụng Đối với các kho ngữ liệu thương mại, mặc dù hầu hết các kho
ngữ liệu này thường cĩ kích thước lớn và chất lượng tốt nhưng khơng chia sẽ cho cộng
đồng người dùng mà chủ yếu mang tính thương mại hoặc phục vụ cho riêng các cơng ty nhu Systran, IBM [11]
Dưới đây là danh sách các kho ngữ liệu song song phơ biến hiện nay:
EuroParl 407.069.444 II — a 37006313 _ Hansard 47.389.000 2 23.694.500 JR Acquis 1.055.583.954 22 47.981.089 XinHua News 29.000.000 2 14.500.000 OPUS 30.000.000 60 500.000
Danh sách các kho ngữ liệu song song pho bién Error! Reference source not found.1]
IL2.3 Nội dung của các kho ngữ liệu song song
Kho ngữ liệu song ngữ chứa các văn bản ở hai ngơn ngữ khác nhau được giĩng
hàng the c4: cấp độ đơn vị ngơn ngữ khác nhau Các kho ngữ liệu song song thường
là cĩ nội dung đa lĩnh vực như kinh tế, chính trị, văn hố, xã hội, kỹ thuật, Các kho
Trang 11
13 KHO NGU LIEU TRONG DICH TU BONG TIENG VIET
Trong các kho ngữ liệu đa ngữ tiếng Việt thì kho ngữ liệu Anh — Việt được nhiều tổ chức, nhà khoa học nghiên cứu nhất Tuy nhiên, đến nay số lượng và chất
lượng của các kho ngữ liệu Anh - Việt vẫn chưa đáp ứng cả về số lượng lẫn chất lượng cho việc xây dựng, đánh giá, cải tiến chất lượng của các hệ thống dịch tự động
Sau đây là một số kho ngữ liệu được nhiều người biết đến hiện nay ở nước ta Kho ngữ liệu tiếng Việt của Vietlex (Vietlex Corpus) chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành |4] Kho ngữ liệu song ngữ EVC (5 triệu từ) do các nhà nghiên cứu của Trung tâm Ngơn ngữ học Tính
tốn của :rường Dii Khoa học Tự nhiên — Tp.HCM xây dựng chứa dữ iiệu ở tất cả
các lĩnh vực khoa học, xã hội, đời sống [5] Kho ngữ liệu song ngữ Bitext-PTB chứa 100,000 cặp câu song ngữ được xây dựng trong nội dung của nhánh đề tài "Xử lý văn
bản tiếng Việt" thuộc để tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nĩi và văn bản tiếng Việt" của nhĩm tác giả Hồ Tú Bảo, Lương
Chi Mai và các cộng sự |3 |
Trong các kho ngữ liệu song song Anh - Việt, dữ liệu được tổng hợp ở nhiều
lĩnh vực khác nhau Lượng dữ liệu đối với từng lĩnh vực chưa nhiều, đặc biệt dữ liệu
thuộc các lĩnh vực hẹp, chuyên sâu như lĩnh vực y tế, pháp luật, quan su, hầu như
xuất hiện rất ít trong các kho ngữ liệu nĩi trên Các kho ngữ liệu song song đã được xây dựng trong lĩnh vực xử lý ngơn ngữ tiếng Việt hiện nay phần lớn thuộc các nhĩm sau:
1 Nhĩm phục vụ nghiên cứu tử điển tiếng Việt: nội dung văn bản trong kho
ngữ liệu đã được tách từ, phân tích từ loại vụ cho việc xây dựng từ điển song ngữ [6]
Trang 12
dựng tập các quy tắc ngữ pháp tiếng Việt dùng cho xử lý tự động ngơn ngữ; nghiên cứu và xây dựng bộ phân tích cú pháp, câu tiếng Việt [7]
$ Nhĩm phục vụ các nghiên cứu xử lý ngơn ngữ tự nhiên, trong đĩ cĩ dịch tự
động tiếng Việt: kho ngữ liệu dùng cho các hệ thống địch, cải tiến chất
lượng hệ thống dịch Tuy nhiên chưa cĩ cơng trình nào nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ cho việc đánh giá dịch tự động tiếng Việt
1.4 HIEU DINH, DANH GIA CHAT LƯỢNG DICH
1.4.1 Hiéu dinh ban dich may (post-editing)
Trong lĩnh vực dịch tự động, hiệu đính là q trình con người chỉnh sửa, hồn
thiện bản dịch để cải tiền chất lượng và xây dựng các bản dịch chuẩn Quá trình hiệu đính bao ; `: các nit fe độ khác nhau Hiệu đính sơ bộ (light post-editing) c-:: : nhằm
mục đích chỉnh sửa bản dịch để cĩ thể hiểu được và tiết kiệm thời gian nhất cĩ thê
Hiệu đính tổng quát (full post-editing) sẽ cho ra bản dịch đúng văn phong, ngữ pháp và ngữ nghĩa Trong thực tiễn và cá các nghiên cứu, hiệu đính kết quả dịch máy sẽ giúp quá trình dịch thuật tiết kiệm được nhiều thời gian và cơng sức hơn so với cơng
việc địch từ đầu, khơng sử dụng kết quả dịch máy [3] 1.4.2 Đánh giá chất lượng dịch
Đánh giá chất lượng dịch là hoạt động nhằm xác định mức độ hồn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữa các hệ thống dịch tự
động khác nhau Hiện nay, cĩ nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, cĩ thể nhĩm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation) [3]
Trang 13
nhưng tốn nhiều thời gian và chi phí, cĩ phụ thuộc vào khả năng của người đánh giá [14]
Đánh giá khách quan là sử dụng các chương trình thay cho con người để đánh giá Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thơng địch với câu
địch tham khảo đã cĩ sẵn Một số phương pháp đánh giá phổ biến như [3] [1 !] [12]:
+ WER (Word Error Rate): do số lượng các từ khác biệt giữa bản dịch
của máy tính với bản dịch tham khảo WER được tính tốn như là
khoảng cách Levenshtein giữa các từ của bản dịch với những từ của
bản dịch tham khảo chia cho chiêu đài của bản dịch tham khảo
+ TER (Translation Edit Rate): đếm số bước sửa đổi được để thay đổi
bản dịch của máy tính thành một trong những bản dịch tham khảo cĩ
sẵn |
+ BLEU (BiLingual Evaluation Understudy): st dung ban dịch tự động
so sánh với một bản dịch chuẩn của con người để tính điểm dựa trên
việc thống kê sự trùng khớp của các từ trong hai bản dịch cĩ tính đến
thứ tự của chúng trong câu, sử dụng n-grams theo từ
+ NIST (National Institute of Standards and Technology): dựa trên
phuong phap BLEU nhung co mot số thay đổi là ngồi việc so sánh và tính tốn trên số lượng thì cịn tính đến sự thay đổi về vị trí các phần tử trêr: cung một n-grams Sự thay đổi này sẽ ảnh hưởng c>n „#t quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn
1.5 MOT SO HE THONG DICH TU DONG TIENG VIET
1.5.1 Google translator
Google translator là cơng cụ dịch thuật miễn phí từ Google cĩ thể sử dụng
Trang 14
Translate đã chính thức bao phủ tới 99% dân cư Internet trên khắp hành tinh, trong đĩ cĩ tiếng Việt Phiên bản nào cũng cĩ thể dịch văn bản và trang web Trong khi đĩ ứng dụng Android và ¡iOS cĩ thé dich van ban, dịch lời nĩi theo thời gian thực, hình ảnh, trang web, và thậm chí cả video theo thời gian thực cho một số ngơn ngữ phơ biến
G6 le zag
oogle i
Dich Tat địch nhanh &
+e 0/6090
i
Nhập văn bảo hoặc địa chỉ Hang web hoặc dịch tài hiệu
Céng cu Google translator
Ngồi ra, Google cịn cịn cung cấp API cho các nhà phát triển phần mém, cho phép họ sử dụng dé xây dựng các cơng cụ dịch thuật của mình Google Translate co
khả năng dịch văn bản, chữ viết trên màn hình cảm ứng, giọng nĩi, hình chụp màn
hình một đoạn văn bản, dịch văn bản scan băng camera smartphone và khả năng dịch
offline, khơng cần kết nối mạng [9] 1.5.2 Microsoft translator
Microsoft translator la cơng cụ dịch thuật miễn phí từ Microsoft cĩ thể được sử dụng trong trình duyệt web hoặc trình duyệt di động (thơng qua Bing Translator), va cĩ các ứng dụng cho nền tang Windows, Windows Phone, iOS, Android, va cac ung
dụng cho Appic Waivh và Android Wear Ngồi ra, Microsoft Translator c% thê được
tích hợp với các ứng dụng khác của Microsoft như Microsoft Office, Skype, và Visual Studio str dung Translator API cua Microsoft (khéng miễn phí cho các ứng dụng
doanh nghiệp) Các phiên bản của trình duyệt cĩ thể dịch văn bản và các trang web,
nhưng ứng dụng Microsoft Translator cĩ thê xử lý văn bản, lời nĩi theo thời gian thực
Trang 15
Micrel
Nhập van ban hoac URL trang web vào day
8/5000
Cong cu Microsoft translator
Microsoft Translator cing co kha nang dich văn bản, giọng nĩi và nhận diện hình ảnh như Google Translate, nhưng nĩ cĩ thêm một tính năng mới là Conwersation Mode Tính năng này sẽ dịch lời nĩi của bạn và người khác trực tiếp thơng qua microphone trong thời gian thực, cho phép bạn nĩi chuyện một cách trơi chảy với người nước ngồi [9]
1.5.3 Google translator và Microsoft translator
Một cơng cụ dịch thuật hay khơng chỉ được đo lường bằng số lượng ngơn ngữ nĩ cĩ thể dịch Tất nhiên, càng nhiều ngơn ngữ càng tốt: Google Translate hỗ trợ 103 ngơn ngữ, trong khi đĩ Microsoft Translator chỉ hỗ trợ 54 ngơn ngữ Trước khi chúng ta đi đến kết luận, một điều nên biết nữa là, Google Translate co thé dich số lượng ngơn ngữ gấp đơi Mierosoft Translator, nhưng điều quan trọng cần lưu ý răng khơng
phải mọi ngợ ngữ đề cĩ cùng một mức độ hơ trợ
Google Translate cĩ thể xử lý 103 ngơn ngữ, nhưng chỉ vài ngơn ngữ thơng dụng được hỗ trợ đây đủ, cịn lại thì ở mức tạm sử dụng được Vì vậy, đối với một vài
ngơn ngữ, cĩ thể nĩi rằng Google Translate duoc st dung nhu mot tu điển từ vựng
hơn là để dịch một đoạn văn bản đọc hiểu
Tuy chỉ cĩ 54 ngơn ngữ được Microsoft Translator hỗ trợ, nhưng 44/54 số ngơn ngữ đĩ được hỗ trợ đầy đủ Các ngơn ngữ đĩ thể được dịch ngoại tuyến, khơng cần kết
Trang 16
nối mạng: trong khi Google Translate chỉ hỗ trợ khoảng một nửa số ngơn ngữ sử dụng ngoại tuyến [9]
1.6 TONG KET
Trong chương này, chúng tơi đã trình bay tổng quan vê các vấn đề liên quan đến kho ngữ liệu, kho ngữ liệu song song, kho ngữ liệu dịch tự động tiếng Việt, Các nội quan trọng được trình bày trong chương này là cơ sở để nghiên cứu, để xuất giải
pháp xây dựng kho ngữ liệu phục vụ cho đánh giá chất lượng dịch tự động tiếng Việt
Ỳ
Trang 17
CHƯƠNG II NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU PHỤC VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
H.1 GIỚI THIỆU
Đến nay đã cĩ nhiều cơng cụ dịch tự động tiếng Việt được nhiều người SỬ
dụng, tiêu biểu như như Google Translator, Microsoft Translator, EVIRANS, Tuy nhiên, đến nay chưa cĩ nghiên cứu cụ thể nào về việc đánh giá chất lượng các hệ thơng
dịch trên:
Bên cạnh đĩ, các giải pháp đánh giá chất lượng dịch tự động hiện nay đều cần phải cĩ kho ngữ liệu với các đặc trưng riêng phục vụ cho mục đích đánh giá Tuy nhiên, hầu như đến nay chưa cĩ cơng trình nào nghiên cứu giải pháp xây dựng kho
ngữ liệu phục vụ cho việc đánh giá dịch tự động tiếng Việt Vì vậy, trong để tài này
chúng tơi đề xuất hai giải pháp để xây đựng kho ngữ liệu phục vụ đánh giá chất lượng
dịch tự động Giải pháp thứ nhất sử dụng lại các kho ngữ liệu dịch tự động song song đã được xây dựng Giải pháp thứ hai sử dụng các hệ thống dịch tự động dé dich va lay
kết quả dịch làm câu đích Giải pháp nảy chủ yếu áp dụng cho các lĩnh vực chuyên
ngành đến nay cĩ ít tài liệu song ngữ
Cả hai giải pháp trên đều thực hiện hiệu đính để cĩ được bản dịch chính xác trước khi đưa vào kho ngữ liệu song song phục vụ đánh giá
H.2 XÂY DỰNG KHO NGỮ LIỆU PHỤC VỤ ĐÁNH GIÁ TỪ CÁC KHO
NGỮ LIEU SONG SONG SAN CO
H.2.1 Phân tích các kho ngữ liệu song song tiếng Anh - Việt
Giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động từ
các kho ngữ liệu sẵn cĩ là một giải pháp hiệu quả, giúp tiết kiệm chi phí về thời gian
và tiền bạc Bởi lẽ hiện nay đã cĩ một số kho ngữ liệu Anh — Việt được xây dựng bởi
các tơ chức, cơng ty, nhĩm nghiên cứu khác nhau Nếu hợp nhất các kho ngữ liệu này chúng ta sẽ cĩ được một kho ngữ liệu mới khơng chỉ lớn về khối lượng mà cịn đa
Trang 18
dang về thể loại, lĩnh vực Sau đĩ sẽ thực hiện việc hiệu đính do các chuyên gia trong lĩnh vực thực hiện để cĩ được bản dịch cĩ chất lượng,
Để hợp nhất các kho chúng ta cần xây dựng một định dạng và cấu trúc cho kho
ngữ liệu phục vụ đánh giá Cấu trúc và định dạng này phải thuận lợi cho việc hợp nhất, lưu trữ các kho ngữ liệu đã tồn tại Đồng thời đảm bảo cho các hệ thống dịch, đánh giá
chất lượng dịch, đễ dàng khai thác, sử dụng Vì vậy cân phải phân tích định dạng và cấu trúc của các kho ngữ liệu Anh — Việt phố biến hiện nay Sau đây chúng tơi phân
tích các kho ngữ liệu Bitext-PTB, EVC và BTEC
qa Kho ngữ liệu Bitext-PTB
Kho ngữ liệu song ngữ Bitext-PTB chứa 100,000 cặp câu song ngữ Anh-Việt Bitext-PTB được xây dựng trong khuơn khổ đề tài “Nghiên cứu phát triển một số sản
phẩm thiết yếu về xử lí tiếng nĩi và văn bản tiếng Việt” của nhĩm tác giả Hồ Tú Bảo,
Lương Chi Mai và các cộng sự
Sự đĩng hàng trong Bitext-PTB được thực hiện ở mức câu: phân ngữ liệu thành từng cặp cau song đạu Anh-Việt Mỗi câu tiếng Anh cĩ câu tiếng Việt nào đi kèm (bản
dich cua no) |2] Mỗi cặp tài liệu dịch được lưu bằng một file XML trong đĩ chỉ rõ những cặp câu nào là bản dịch của nhau
Trang 19
N3, 38 1610000081 1x2 tá Ai 3Â Ảo 4/2 /380c30,ekƯng c4 In cả g8Epllngritcdore c3 ntoekDatvrmilonsnlkeecesi-kaaavdeia88ecrolEA free CZe Sản
xdocument> <S0Uurce» cenfile»transgov87-touch,txt¿/enfile> <vnfi1e»transgovB7-dac_transgov_vw,txtC/vnfile2 alg éfsource? » " pH AUT safe ° {para mach="1-1"> <sentence mach="3-1"/> <fpara> 4/schema>
éendoc id= “transgov@7-touch.txt"> <para id="i">
esentence id="I">In the United States and in other democracies, citizens can influence goverment on a daily basic, not just on election day $/sentence>
‹/para> </endac>
éyndoc id="transgav@7-doc_transgov_v.txt">
<para>
<sentence id= "1"zØ Ay cũng như ở các nền dan chủ khác, cơng đan cé thé ảnh hưởng đổi với chính phủ hằng ngày chứ khơng phải chỉ trong các lực bầu cử é/sentence>
</para>
</undoc >
Tập tin XML trong kho ngit liéu Bitext-PTB |? /
Bên cạnh đĩ, mỗi ngơn ngữ được lưu trữ trên một tập tin TXT, được đánh SỐ chỉ mục giơng nhau: | Bitext-PTB bá —— Anh - Việt
Tiếng Anh.TXT Anh-Việt.XML Tiếng Việt.TXT
Cấu trúc kho ngữ liệu Bitexi-PTB
b Kho ngữ liệu EVC
EVC là kho ngữ liệu song song Anh - Việt, cĩ khoảng 5 triệu từ do các nhà nghiên cứu của Trung tâm Ngơn ngữ học Tính tốn của Trường Dai học Khoa học Tự
t
nhiên — ¿4i Thị ›c Quốc gia Thành phố Hồ Chí Minh xây dựng EVC chứa đữ liệu ở tất
cả các lĩnh vực khoa học, xã hội, đời sống [5] Tương tự Bitext-PTB, sự dĩng hàng trong EVC cũng được thực hiện ở mức câu
Trang 203v <Ð0C Domain='news '» 3+ <SENT id="1"> 3z xTXT E2
a i Her mini new album, “Brand New Elly", is set to release on November 16,
comeback stage on Mnet °M! Countdown” scheduled for November 1/7 €/TAT_E>
TAT _V>
Album mind mdi cua c& “Brand New Elly", duoc lén ké hoạch phát hành vàn
tháng 11, cũng với sự trẻ lại sân khẩu trén késh Mnet cla "A! Countdown lên lịch văo ngày 17 tháng 11
4/TXT_VW>
</SENT>
<SENT id="2">
<TXT_E>
All the members, except Yoona who was at the time filming her drama, we bright and cheerful, always kept a@ smile and fully cooperated throughou intervier
33 </TXT_E?
14x 4T1XT_V#
15 ~ Tất cả các thành viễn, ngoại trừ Yoona đang trong thời gian quay bộ phi hành, đều rạng ngời và tươi vui, luỗốn luơn giữ nụ cười và hồn tồn hợp, trang suất buổi phơng vấn
¿/TXT_W>
4#SENT>
lập tin XML trong kho ngữ liệu EVC j6j
EVC được tổ chức lưu trữ dưới dang tap tin XML Cau nguồn tiếng Anh và câu
dịch tiếng Việt được lưu trữ trên cùng một file
Cố Cố] EVC nhị l acts cel ol * b ử r Anh - Việt Anh-Việt.XML
Cầu trúc kho ngữ liệu EVC
c Kho ngữ liệu BTEC
BTEC là kho ngữ liệu đa ngữ Anh —- Việt — Trung với mục đích hỗ trợ khách du lịch khi đi nước ngồi [§] Sự dĩng hàng được thực hiện ở mức câu: mỗi câu nguồn tiếng Anh cĩ một câu dịch tiếng Việt và một câu dịch tiếng Trung
Trang 21si AT 2x x—— — + <DOC> - 4SENT id='1'z x: <TXT_EF>
cong I ‘il bring you some now
; <fTAT_E> STRYT_V>
Tơi sẽ mang lại cho ban mot it bay gic <P TAT_V> £THT_C> #2 at 24 f8 S one <?TAT_€> </SENT> 45ENT id='2"> ‹TXT_E›
If there is anything else you need , just let me know </TXT_E>
4TXT_V»
Nếu bạn cần điều gi khác hãy cho tơi biết,
S;⁄TÁT V> KTXT_C > MRR Ate 32H) BRE ° FAT o> *S#SEĐT> S/D0C> Des °"
Tập tin XML trong kho ngữ liệu BIEC [3j
BTEC được tổ chức lưu trữ dưới dạng tập tin XML Câu nguồn tiếng Anh, câu dịch tiếng Việt và câu dịch tiếng Trung được lưu trữ trên cùng một file
Anh — Viét - Trung
Anh-Viét-Trung.XML
Cấu trúc kho ngữ liệu BTEC
II.2.2 Xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dich
a Định dạng và cấu trúc kho ngữ liệu phục vụ đánh giá
Các kho ngữ liệu được phân tích ở trên đều được lưu trữ dưới dạng XML Việc
lưu trữ đữ liệu Anh-Việt trên cùng một tập tin (XML) hoặc trên nhiéu tap tin (XML, TXT) Cấu trúc và định dạng các kho ngữ liệu này khơng phức tạp, dé đàng sử dụng
Trang 22
Việc dĩng hàng đều được thực hiện ở mức câu, mỗi câu nguơn đêu cĩ câu đích
tương ứng
Để hiệu quả cho việc chuyển đổi định dạng và cấu trúc để hợp nhất, lưu trữ và chỉnh sửa dữ liệu, .chúng tơi chúng tơi sử dụng câu trúc và định dạng của kho ngữ
liệu EVC để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh-
Việt Bên cạnh đĩ, cấu trúc và định dạng này cũng rất thuận lợi để các hệ thống dịch,
đánh giá chất lượng dịch khai thác, sử dụng
b Quy trình xây dựng
Chúng tơi đề xuất quy trình xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh - Việt từ các kho ngữ liệu sẵn cĩ hiện nay như sau:
- Bước I1: Chuyển đổi các kho ngữ liệu dịch tự động Anh - Việt cĩ chất
lượng sẵn cĩ về định dạng và cấu trúc như đã đề xuất Đối với các kho ngữ
liệu đa ngữ, chúng ta chỉ lấy cặp câu nguồn tiếng Anh và câu đích tiếng Việt
- Bước 2: Thực hiện hiệu đính để cĩ được bản dịch chính xác Việc hiệu
chỉnh do các chuyên gia thực hiện
- sce 3° Dea di liệu đã hiệu chỉnh vào kho ngữ liệu song s g :⁄iục vụ
đánh giá chất lượng dịch tự động để các hệ thống đánh giá, dịc:: :ự động,
khai thác, sử dụng
Giải pháp và quy trình này cũng sẽ được áp dụng để xây dựng kho ngữ liệu phục vụ đánh giá dịch tự động tiếng Việt với ngơn ngữ khác như Pháp — Việt, Nhật —
Việt, Trung — Việt, Lào — Việt,
Trang 23
_ Kho ngữ liệu Anh-Việt
1 'Khn ngữ liệu Anh-Việt [ Hop nhat — Ỉ
Kho ngữ liệu Anh-Việt
LN
Kho ngữ liệu Ânh-Việt phục vụ đánh giả
Quy trình xây dựng kho ngữ liệu phục vụ đánh giá dựa vào các kho ngữ liệu sẵn cĩ
Trang 24a `
11.3 XAY DUNG KHO NGU LIEU PHUC VU DANH GIA BANG CACH
SU DUNG CAC HE THONG DICH TU DONG
Viéc tim kiém cac nguồn dữ liệu dé xây dựng kho ngữ liệu ở các chủ đề phổ
biến như tin tức, văn hố, kinh tế, khá dễ dàng Tuy nhiên, ở nhiều lĩnh vực chuyên
ngành hầu như cĩ rất ít tài liệu song ngữ
Hiện nay đã cĩ một số hệ thống địch tự động như Google translator, Microsoft
translator, Systrans, Reverso, cho phép dịch từ tiếng Anh sang tiếng Việt Trong đĩ được nhiều người sử dụng nhất là Google translator, Microsoft translafor
Google tị @
Dịch tắtdch nhạm GY
; Tiêng Anh Tiếng Trung {Gian Tha} ; x
ạt ` Tiếng Pháp - Phâthiện ngơn ngữ + ee, Every organism needs to obtain energy ™ MOi sinh vật cần phải cĩ được năng lượng
in order to live đề sơng
Š đ gi v sesapo X R] 4ÿ đƑ Đà xuất một chỉnh sửa
Su dung Google translator
£ ba
0
Not all flying animals are birds, and not all birds can tly x Khơng phải tất cả các lồi động vật đang bay là các lồi chím, và khơ
ng phải tất cả loại chim cĩ thể bay,
Su dung Microsoft translator
Sử dụng cơng cụ dịch Google, câu nguồn “Every organism needs to obtain energy in order to live” sé cho ra cau dich trong tiếng Việt là “Mỗi sinh vật phải cĩ năng lượng đê sơng”
Trang 25
“Tương sự, đối với cơng cụ dịch của Microsoft, câu nguồn “Not all flying animals are birds , and not all birds can fly” sé cho ra két qua trong tiếng Việt là “Khơng phải tất cả các loại động vật đang bay là các lồi chim, và khơng phải tất cả
lồi chim cĩ thê bay”
Các bản dịch này nêu được các chuyên gia hiệu đính sẽ cĩ được các văn bản song ngữ cĩ giá trị Điêu này càng cĩ ý nghĩa hơn đơi với các lĩnh vực hiện nay cĩ Ít
tài liệu song ngữ tiếng Việt
Nin vậy, hiệu đính các bản dịch máy do các chuyên gia thực hiện là một giải
pháp để xây dựng các kho ngữ liệu song song nĩi chung và kho ngữ liệu Anh - Việt
nĩi riêng Trong nghiên cứu này, thực biện xây dựng kho ngữ liệu phục vụ đánh giá
chất lượng dịch tự động dựa vào các hệ thống dịch tự động là một giải pháp mà chúng
tơ1 lựa chọn [T0]
Ban đầu, kho ngữ liệu chỉ cần chứa các câu ở ngơn ngữ nguồn tiếng Anh Từ
các câu nguồn này, sử dụng các hệ thống dịch tự động để dịch và lấy kết quả dịch làm
câu đích, tạo thành một cặp câu song ngữ Như vậy, việc xây dựng dữ liệu đánh giá chỉ
cần thu thập các văn bản cĩ sẵn ở một ngơn ngữ mà khơng cần dịch sang các ngơn ngữ
khác [3] Điểu này khá dễ dàng và khơng tốn nhiều chi phi
Cặp câu song ngữ Anh - Việt do các hệ thống dịch tự động chưa phải là bản
dịch chính xác Thơng qua q trình hiệu đính với sự trợ giúp của các chuyên gia, chúng ta sẽ thu được bản dịch chính xác Sau đĩ, đưa dữ liệu đã hiệu đính vào kho ngữ liệu song song phục vụ đánh giá chất lượng dịch tự động
Cũng như giải pháp đã đề xuất ở trên, giải pháp và quy trình này cũng sẽ được áp dụng để xây dựng kho ngữ liệu dịch phục vụ đánh giá chất lượng dịch tự động tiếng Việt với ngơn ngữ khác như Pháp — Việt, Nhật — Việt, Trung — Việt, Lào — Viét,
Trang 26
kho ngữ liệu đơn ngữ tiếng Anh Hệ thống dịch tự động |
| Kho ngữ liệu Anh-Việt
| _ (chưa chỉnh sửa)
[ Hiệu đính bản dich
AE, :
Kho ngữ liệu Anh-Viet phuc vu danh gia |
Quy trình xây dựng kho ngữ liệu phục vụ đánh giá dựa vào các hệ thơng dịch
1.4 TONG KET
Trong chương này chúng tơi đã để xuất hai giải pháp để xây dựng kho ngữ liệu
phục vụ đánh giá chất lượng dịch tự động tiếng Việt Giải pháp thứ nhất sử dụng lại
các kho ngu ¡iệu dịcđ tự động đã được xây dựng, giải pháp thứ hai sử -:n; các hệ
thống dịch tự động để dịch và lấy kết quả dịch làm câu đích Chúng cũng đã xây dựng
quy trình để thực hiện hiện hai giải pháp trên Trong chương tiếp theo, chúng tơi sẽ tiến hành xây dựng chương trình cho hai giải pháp đã được dé xuat
Trang 27
CHƯƠNG III XÂY DỰNG KHO NGỮ LIỆU PHỤC
VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG
IH.1 GIỚI THIỆU
Chúng tơi đã đề xuất hai giải pháp để xây dựng kho ngữ liệu phục vụ đánh giá
chất lượng dịch tự động tiếng Việt Giải pháp thứ nhất là sử dụng lại các kho ngữ liệu
dịch tự động đã được xây dựng Giải pháp thứ hai sử dụng các hệ thống dịch tự động
để dịch và lấy kết quả dịch làm câu đích, chủ yếu áp dụng cho các lĩnh vực chuyên ngành cĩ rất ít tài liệu song ngữ Dữ liệu của cả hai giải pháp này sẽ được lưu trữ cùng
cấu trúc và định dạng và đều thực hiện quá trình hiệu đính kết quả dịch trước khi đưa
vào kho ngữ liệu phục vụ đánh giá
Để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch, trong chương này chúng tơi sẽ đưa ra định dạng và cấu trúc của nĩ Sau đĩ xây dựng các chức năng để
chuyên đổi đữ liệu của các kho ngữ liệu Anh-Việt sẵn cĩ về cấu trúc và định dạng của kho ngữ liệu đánh giá Đồng thời xây dựng các chức năng để hiệu đính kết quả Sau khi hiệu đính, đữ liệu đảm bảo chất lượng sẽ được import vào kho ngữ liệu phục vụ
đánh giá Tiêp theo chúng tơi mơ tả mơt sơ chức năng chính của hệ thơng
HI.2.CHUYÊN ĐƠI CÁC KHO NGU LIEU VE DINH DANG VA CAU TRÚC KHO PHUC VU ĐÁNH GIÁ
Đề hiệu quả cho việc chuyển đơi định đạng và cau tric dé hop nhất, lưu trữ và
chỉnh sửa dữ liệu, đồng thời thuận lợi cho các hệ thống khái thác, đánh giá chúng tơi
chúng tơi sử dụng cấu trúc và định dạng của kho ngữ liệu EVC để xây dựng kho ngữ
liệu phục vụ đánh giá chất lượng dịch tự động Anh-Việt Việc dĩng hàng được thực hiện ở mức câu
Kho ngữ liệu phục vụ đánh giá dịch tự động sẽ được được lưu trữ dưới dạng XML Tồn bộ dữ liệu (tiếng Anh — tiếng Việt) sẽ được lưu trữ trên cùng một tập tin _XML Việc đĩng hàng đêu được thực hiện ở mức câu, mỗi câu nguơn đêu cĩ câu đích
Trang 28
* <ELEMENT DOC {SENT)4>
<!ATTLIST DOC
xmlins CDATA #FIXED
Domain NMTOKEN #REQUIRED>
— <ELEMENT SENT (TAT_E,TXT_V}> <IATTLIST SENT
xmblns CDATA #FIXED
id CDATA #REQUTRED>
<!ELEMENT TXT_E (#PCDATA)> <!ATTLIST TXT_E
xmins CDATA #FIXED ''>
<!ELEMENT TXT _V (#PCDATA}> <!ATTLIST TXT_V
xmins CDATA #FIXED * ">
Dinh dang kho ngữ liệu phục vụ đánh giá chất lượng dịch
Như vậy, trong kho ngữ liệu phục vụ đánh giá, nội dung file XML nhu sau:
_a ‘Domain='rews "> <SENT id=‘i'>
siXt E>
Her mini new album, "Brand New Elly", is set to release on November 16, comeback stage on Mmet °M! Countdown” scheduled for November 17
<fTXT_ED
"
pF Album mini mới của cơ "Brand Mew Elly", được lên kế hoạch phát hanh vac
tháng 11, cũng với sự trở lại sân khẩu trên kênh Mnet cua "HM! Countdown lên lịch vào ngày 17 thang 11
: ‹/TXT V2
4/SEMI>
<SENT id='2">
€TXT_E>
All the members, except Yoona who was at the time filming her drama, we bright and cheerful, always kept a smile and fully cooperated throughou
interview
¢/TAT_E> 4T1XI V?
Tất cả các thành viên, ngoại trừ Yoona đang trang thời gian quay bộ phi hình, đều rạng ngời và tươi vui, luơn luơn giữ nụ cười và hồn tồn hợn
trong suốt buổi phỏng vấn
4/TXT_V2 4/SENT» </DOC>
File XML trong kho ngữ liệu phục vụ đánh giá
a Chuyển đổi dữ liệu của kho ngữ liệu song song BTEC:
Eile đữ liệu XML trong kho ngữ liệu BTEC cĩ nội dung:
Trang 294SENT id='1'z <TXT_E>
I "ll bring you some now </TRT_E>
<TXT_M*
Tối sẽ mang lại chơ bạn một Ít bây giữ
</TXT_W> STAT _C> IN gh 24 Sone Be $#TXT_C2 $#/SENT» 45ENT id='2'> ⁄TXT _E›
If there is anything else you need , just let me know
47TXT_E>
<TXT_Ve
Mễu bạn cần điễu gi khác hãy cho tơi biết,
Ãx/TXT V2
€TAT_O>
MRED Sita BEM Aw ARE °
</TXT_>
</SENT>
</00>
Tap tin XML trong kho ngit liéu BTEC {8 /
Thực hiện chức năng chuyển đổi sang cấu trúc và định dạng của kho ngữ liệu phục vụ đánh giá:
¬ atntiy
Lê] Chuyển đối dữ liệu — n xã
XS» SỊ
đổi dữ liệu của BTEC
a
Chuyén
Kết quả sẽ cho file XML với nội dung như sau:
Trang 308 | 4+ <DOC Domain="Tourism™> 2 <SENT id=‘i'> <TXT_E>
I *ll bring you some now
<fTRT_E> <TRT_V>
Tơi sẽ mang lại cho bạn một it bay gic
</TXT_V>
</SENT> sSENT id="2'>
<TRT_E>
If there is anything else you need , just let me know
$/TAT E> <TAT_¥>
N&u bạn cần điễu gi khác hãy cho tơi biết
C{/TXT Mừ> </SENT>
File XML trong kho ngữ liệu phục vụ đánh giá từ B1bC
b Chuyển đổi dữ liệu của kho ngữ liệu song song Bitext-PTB:
File dữ liệu XML trong kho ngữ liệu BTEC:
“Es <decument>
3x 4SGMITECEXL ` S
ca fanfilestrensgov7-touch, txt</enfile>
ä vortis toon sgav@7-dec_transgov_v.txt</vnfile>
| </source> <schema> <para mach=”"1-1”> 4$sentence machz”1-1"/> <f/para> </schena>
<endoc id= °transgova?-touch.txt™> <para id=”1"+>
sentence id="1">In the United States and in other democracies, citizens
can influence goverment on a daily basic, mot just on election day
hiện, */sentencez> 19 <fpara> a5 <fendoc> 46 = <undoc id=“transgov@7-dec_transgov_y.txt"> 3+ tara*
đã ‹sentence id="1">Ở Mỹ cũng như ở các nền dan chủ khác, cơng đan cĩ thể ảnh
ae hưởng đối với chính phủ hàng ngày chữ khơng phải chỉ trong các kyc bBu cử </sentence> <£/para? <fundoc > éfdocumernt>
Tập tin XML trong kho ngữ liệu Biext-P1B [2j
Thực hiện chức năng chuyển đổi sang cầu trúc và định dạng của kho ngữ liệu
phục vụ đánh giá:
26
Trang 31
kỗi Chuyển đổi dữ liệu — oO xX |
Chuyển đổi dữ liệu của Bitext-PTB
Kết quả sẽ cho file XML với nội dung như sau:
- <DOC Domain="News ">
“SENT id="i"> <TXT_E>
In the United States and in the other democracies, citizens can influence
tàn goverment on a dayly basic, not just on election day
oe </TRT_E> es —— ‹TXT V»
`7 _—— Ở Hệ cũng như ở các nền dan chủ khắc, cơng đân cĩ thế ảnh hưởng đối với chính phủ hàng ngày chứ khơng phải chỉ trong các kỳ bầu cử
‹/TXT.W›
a PSENT>
-_4/BQC?z- - -
Eile XML trong kho ngữ liệu phục vụ danh gid tu Bitext-PTB
c4 C A ¬ = ^ gt T c - z ¬
Cơng cụ biệu đính bao gơm các chức năng chính sau:
Chức năng View: hiển thị các cặp câu song song theo từng lĩnh vực để các
chuyên gia xem theo từng lĩnh vực như xã hội, pháp luật, bĩng đá, y tế, sinh học
Chức năng Edit: cho phép sửa đổi nội dung của câu nguồn, câu đích; xố các
cặp câu khơng tơt,
Chức năng Add : Thêm mới các cặp câu nguơn - đích
Trang 32
SMSD has coliaborated with producer Teddy Riley, who is ¢ Nhĩm nhac SNSD đã họp tắc với nhà sản xuất Teddy Riley,
famous for producing for the late Michael Jackson in order to người nỗi tiếng về việc săn xuất nhạc cho ca sĩ quá cơ Michael
take the world by storm Jackson nhằm chính phục cả thể giới,
= ee
Similar to her hairstyle a few years ago her hair is short and Tương tự như kiểu tĩc của cơ ấy vài sầm trước đây mải tĩc ngắn
4 styled to the side, making Seo In Young lock sophisticated and eos) va dA sang mối bên làm cho Seo in Young trơng tinh té v3 sang
ie
i 2 208 »
With a strong eiectronic hackground sound and an addictive chorus, Sec in Young's powerful vocals are brought to life
vọng về ca khúc nãy trếp tục tăng cao Yuri continued saying "The atmosphere of the whole recording chơ biết "đầu khơng khí của cả phịng thu thực sự studio was really comfortable.~
Hiéu dinh dit liéu
HI.4 XÂY DỰNG CHỨC NĂNG IMPORT
Sau quá trình hiệu đính và đánh giá chất lượng dịch, chúng ta thu được bản dịch
chính xác Dữ liệu này sẽ được import vào kho ngữ liệu dùng để đánh giá chất lượng
Trang 33——-
.——— —-
dette,
_IH.5 KẾT LUẬN
Trong chương này chúng tơi đã thực hiện việc xây dựng hệ thống xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh-Việt Quá trình xây dựng này dựa vào các đê xuât ở chương 2
Các giải pháp để xây dựng phụ thuộc vào việc nghiên cứu nhiều hệ thống dịch tự động cũng như các kho ngữ liệu Việt — Anh địi hỏi cần nhiều thời gian Vì vậy
trong phạm vi báo cáo này chúng tơi chủ yếu cài đặt các chức năng chính của hệ thống xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động
! vàng
cốt Rtg pal
háo ị th Ỷ bn it n
Trang 34
KET LUẬN VÀ KIÊN NGHỊ
Đến nay hâu như chưa cĩ nghiên cứu cụ thể cũng như cơng cụ nào đề đánh giá chất lượng của các hệ thơng dịch tự động tiêng Việt Vì vậy, chúng tơi đã nghiên cứu giải pháp xâ/ đựng xha ngữ liệu để các hệ thơng khai thác đê đánh giá châ: lượng dịch tự động tiếng Việt
Hai giải pháp để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng địch tự động tiếng Việt được đưa ra trong nghiên cứu này là sử dụng lại các kho ngữ liệu dịch tự động đã được xây dựng và sử dụng các hệ thong dich tự động để dịch và lay két qua
dich làm câu đích Cả hai giải pháp trên đều thực hiện q trình hiệu đính kết quả dịch
trước khi đưa vào kho ngữ liệu phục vụ đánh giá
Về mặt thực nghiệm chúng tơi đã đưa ra định dạng và câu trúc của kho ngữ liệu phục vụ đánh giá dịch tự động Từ đĩ xây dựng cơng cụ để hợp nhất các kho ngữ liệu tiếng Việt sẵn cĩ Bên cạnh đĩ cơng cụ đề các chuyên gia thực hiện việc hiệu chỉnh đữ
liệu hợp nhất này và từ các kết quả dịch của các hệ thống dịch tự động cũng đã được
cài đặt Sau khi cĩ được bản dịch chính xác, đữ liệu sẽ được Import vào vào kho ngữ
liệu phục vụ đánh giá
Trong thoi gia dén chúng tơi kết hợp các hoạt động hiệu đính bản dịch máy với
đánh giá chất lượng, giúp giảm chi phí và nâng cao độ chính xác Việc phát triển cơng cụ hiệu đính trên mơi trường web để nhiều người tham gia đánh giá, hiệu đính cũng sẽ
được thực hiện Đồng thời sẽ nghiên cứu các hàm API của các phần mềm dịch tự động
_ để thực tích hợp vào phần mềm nhằm nâng cao hiệu quả
nim kgs ta cứ edt
Ny Sats che kh Họ 8
Trang 35
TÀI LIỆU THAM
Đào Thị Hồng Thu, Ngơn ngữ học khối liệu trong nền kinh tế tồn cầu, http://repository.vnu.edu.vn/bitstream/VNU 123/1450/1/2-ao%20Hong
%420Thu-c.Huong%20edit.pdf, truy cập ngày 15/3/2016
Hồ Quốc Bảo, Đinh Điền, Đặng Bác Lâm, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tai nhanh SP.74, http://www jaist.ac.jp/~bao/VLSPtext/March2008/
SP.74_ Baocaokythuat200§thang3.pdf, truy cập ngày 15/4/2016
Huyn¡ Cơng Pháp, Nguyễn Văn Bình, Đặng Đại Thọ, Cải tiến chất lượng dịch
máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ
thống dịch tiếng Việt, CTT 2016
Trung tâm từ điển học Vietlex, Giới thiệu Kho ngữ liệu tiếng Việt (Vietnamese Corpus), http://www.vietlexcom /help/about_corpus.htm, truy cập ngày 27/09/2016
Xây dựng và khai thác Kho Ngữ liệu Song ngữ Anh-Việt, Trung tâm Ngơn ngữ học Tính tốn của Trường ĐH Khoa học Tự nhiên - Tp.HCM, http://www.clc.hcmus.edu.vn/2?page id=1506, truy cập ngày 30/09/2016 Kho ngữ liệu song ngữ tiếng Anh - tiếng Việt EVC, Trung tâm Ngơn ngữ học
Tinh tốn của Trường DH Khoa học Tự nhiên - Tp.HCM,
http://www.clc.hcmus.edu.vn/wp-content/uploads/resources/Corpus/ CL
C_EVC.zip, truy cap ngay 30/09/2016
Đinh Điền, Lý Ngọc Minh, Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngơn ngữ, hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngơn ngữ,
11/2015, Huế, tr.559-567
Ngữ liệu da ngữ hỗ trợ khách du lịch khi đi nước ngồi, Trung tầm Ngơn ngữ học Tính tốn của Trường ĐH Khoa học Tự nhiên - Tp.HCM,
http://www.clc.hcmus.edu.vn/wp-content/uploads/resources/Corpus/CL
C VTB.zip, truy cap ngay 15/11/2016
So sdnh 2 céng cu dich van bản: Google Translate vs Microsoft Translator, https://www.trangcongnghe.com/tin-tuc-cong-nghe/tin-quoc-te/28544- so-sanh-2-cong-cu-dich-van-ban-google-translate-vs-microsoft-translator
htm], truy cập ngày 15/11/2016
Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, Kỷ yếu Hội nghị Quốc gia lần thie VIII vé Nghiên cứu cơ bản và ứng dụng Cơng Nghệ thơng tin (FAIR), 2015
Huynh C-P (2010): Des suites de test pour la TA a un systéme d’exploitation
de corpus alignés de documents et métadocuments multilingues,
multiannotés et multimedia PhD thesis-National Polytechnic Institute of
Grenoble
Arne Mauser, Hermann Ney (2008), Automatic evaluation measures for
statistical machine translation system optimization, International
Trang 36
ĐẠI HỌC ĐÀ NẴNG CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
RUONG CD CONG NGHE THONG TIN Độc lập - Tự do - Hạnh phúc
HOP DONG TRIEN KHAI THUC HIEN
DE TAI KHOA HOC & CONG NGHE CAP CO SO NAM 2016
S6: T2016-07-16/HD/KHCN
Căn cứ Quyết định số 19/2005/QD- BGD&DT, ngay 15 tháng 6 năm 2005 của Bộ ớng Bộ Giáo dục và Đào tạo về việc ban hành Quy định về hoạt động khoa học và cơng \Ệ trong các trường Đại hoc, Cao dang;
Căn cứ Danh mục các đề tài KHCN năm 2016 được tuyển chọn và cấp kinh phí kèm o Quyết định số 155/QD-CDCNTT ngày 05/04/2016 của Hiệu trưởng Trường CÐ Cơng ệ Thơng tin;
Sau khi xem xét mục tiêu, nội dung nghiên cứu của đề tài: “Nghiên cứu giải pháp
: dựng kho ngữ liệu phục vụ đánh giá chât lượng dịch tự động tiêng Việt”
Mã số: T2016-07-18
Hơm nay, ngày 25 tháng 04 năm 2016, chúng tơi gồm:
Bén A: TRUONG CAO DANG CONG NGHE THONG TIN, DH DA NANG
- Đại diện là: TS Huỳnh Cơng Pháp - Chức vụ: Phĩ Hiệu trưởng
Bên B: CHỦ NHIỆM ĐÈ TÀI |
- Ong/Ba: Đặng Đại Thọ - Đơn vị: Tổ KT, ĐBCL & TTGD
Hai bên đã bàn bạc, thỏa thuận và ký hợp đơng thực hiện đề tài NCKH cấp cơ sở do yng Cao đăng Cơng nghệ Thơng tin quản lý với các điều khoản sau:
Điều 1: Bên B chịu trách nhiệm tơ chức triển khai các nội dung nghiên cứu như đã nêu g thuyết minh được phê duyệt và nộp các sản phẩm khoa học đã mơ tả trong thuyết 1 Thời gian nộp sản phẩm: trước ngày 1Š tháng 12 năm 2016
Ngồi ra, tài sản cố định nếu được mua sắm hoặc cap bang hiện vật từ kinh phí của đề au khi đê tài kêt thúc được chuyên giao cho cơ quan chủ trì đê tài sử dụng và quản lý
Diéu 2: = $ ĩc ‹di co bên B số tiền là: 7 triệu đồng theo kế hoạch sau đây
- Tháng 5/2016: 4 triệu đồng - Thang 12/2016: 3 triệu đồng
Điều 3: Hai bên thoả thuận việc kiểm tra thực hiện hợp đồng vào các thời điểm sau:
- Kiém tra tiến độ thực hiện đề tai: thang 09/2016 - Nghiém thu dé tai truée ngay 20 thang 12 năm 2016
Trang 37
Điều 4: Sau khi hồn thành nhiệm vụ ghi ở Điều 1, hai bên chịu trách nhiệm cùng tơ k- đánh giá nghiệm thu sản phẩm theo đúng các quy định về tơ chức thực hiện đề tài =n cứu khoa học và cơng nghệ câp cơ sở Sản phẩm của bên B được Hội đồng đánh giá em thu cấp cơ sở nghiệm thu được coi là chứng từ để thanh lý hợp đồng
Điều 5: Hai bên cam kết thực hiện đúng các điều khoản đã được ghi trong hợp đồng kbên nào vị phạm phải chịu trách nhiệm theo các quy định hiện hành
Điều 6: Hợp đồng cĩ giá trị kể từ ngày ký Hợp đồng này làm thành 4 bản Bên A giữ R bên B giữ l bản
ĐẠI DIỆN BÊN A ĐẠI DIỆN BÊN B
z9 HEU TRUONG CHU NHIEM DE TAI
s Pere BR LÁA—
¬
E——S 2t
Trang 38
ĐẠI HỌC DA NANG
TRUONG CD CONG NGHE THONG TIN CONG HOA XA HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc
THUYET MINH DE TAI ;
KHOA HỌC & CONG NGHE CAP CO SO
(DO TRUONG CAO DANG CONG NGHE THONG TIN QUAN LY)
1 TEN DE TAL Nghiên cứu giải pháp xây dựng kha ngữ liệu phục -
tụ đánh giá chất lượng dịch tự động tiếng Việt ' 2, MA SỐ T2016-07-13
3 LĨNH v7? NGHIÊN CỨU Tự nhìn | | iy thuật Kinh tế; L]j] - - [ ] XH-NV Nơng Lâm Giáo dục | | Y Dược | Mơi tường LÌ ATLD | ] tine LÍ
4 LOẠI HÌNH NGIHÊN CỨU
Cơ ban Lo Ứng = fren dung Khai | x ix eam -
&, THỜI GIAN THỤC HIỆN ¡2 tháng
Từ tháng 0! năm 2016 đến tháng 12 năm 2016
6.CO 6 QUAN CHU TRI DE TAL (don vị thành viên ĐHĐN)
Tên cơ quan; Trường Cao đẳng Cơng nghệ Thơng tin
Điện thoại: 0511.3667117
E-mail: hanhchinh.cit@gmail.com
Địa chỉ: Làng Đại học, Phường Hịa Quý, Q Ngũ Hành Sơn TP Dã Nẵng Ho va tén thủ trưởng cơ quan chủ trì: T§ Trần Tân Vinh
?7.CHỦ NITEM DE TAI
Hío và tên: Đặng Đại Thọ
Chức đanh khoa học;
Don vi: T6 KT-DBCL&TTGD
Dién theai co quan: 0511.3962529
Dị động: 0914 333 845 E-mail: ddtho.dt@gmail.com
Học vị: Thạc sĩ
Nam sinh: 17/4/1978
Dia chi nha riéng: 16 Mj An 7, Da Nang
Điện thoại nhà riêng :
Fax:
8 NHỮNG THÁNH VIỄN THAM GIÁ NGHIÊN CỨU DE TAI
Đơn vị cơng tác và Nội dung nghiên cứu cụ thể TAS tee x 4 :
Banner
TT Họ và tên me lĩnh vực chuyển mơn + To TA ca được giao : Chữ ký Phong Dao tao & NCKH | Tham gia nghiên cứu giải
ThS Nguyễn Văn
Binh
phap
9, DON Vi PHO! HOP CHINE
Tén don vi
trong và ngồi nước Nội đụng phối hợp nghiên cứu
¥
Họ và lên người đại điện đơn vị
Trang 39
r” ị
_10, TONG ¢ QUAN TỈÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CUA DE TAL O TRONG VA NGỒI NƯỚC
¡ 10.1 Trong nước và ngồi nước:
Ngày nay trên thê giới đã tơn tại nhiêu kho ngữ liệu song song, miễn phí hoặc thương | ep Y + ® & ‘ fy i
mại đối với người dùng Tuy nhiên, việc khai thắc và sử dụng các kho ngữ liệu này con | nhiêu bãi cập Đơi với các kho ngữ liệu miền phí mặc dù cĩ kích thước tương đơi lớn nhưng chất lượng cịn thơ nên khơng thê áp dụng được trực tiếp vào một sơ hoạt động trong
lĩnh vực địch tự động Muơn sử dụng được các kho này, mỗi tế chức hoặc cá nhân phải
thực hiện việc nâng cấp, trích lọc đữ liệu từ các kho ngữ liệu này trước khi sử dụng Đối '
+ * ~ xi * se % A 4 £ ~ TA ` * # # F
với các kho ngữ liệu thương mại, mặc dủ hâu hết các kho ngữ liệu này thường cĩ kích | thước lớn và chất lượng tốt nhưng khơng chia sẽ cho cộng đơng người dùng mà chủ yếu
mang tính thương mại hoặc phục vụ cho riêng các cơng ty như Systran, IBM
Đối với tiếng Việt, các kho ngữ liệu quá khiêm tơn vẻ cả sơ lượng và chất lượng Các
kho ngữ liệu dùng để đánh giá chất lượng địch tự động tiếng Việ càng khiêm tốn hơn
t
: 12, MỤC TIỂU ĐỀ TÀI
it TINIE CAP THIET CUA DE TAL
Kho ngữ liệu phục vụ đánh giá chất lượng địch tự động rất quan trọng và cần thiết,
Tuy nhiên, hiện nay số lượng và chất lượng kho ngữ liệu dùng để đánh giá chất lượng dịch
tiếng Việt rất khiêm tốn Do vậy, trong đề tài này chúng tơi đề xuất giải pháp nhằm xây
dụ ựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tiếng Việt
Mục tiêu chính của để tài là đề xuất các giải pháp xây đựng kho ngữ liệu phục vụ dánh giá chất lượng dịch tự động tiếng z Việt, Đề đạt được mục tiêu chính trên, đề tải tập trung giải quyết các nội dung cu thé gom:
\ Nghiên cứu cấu trúc, định dạng và kích thước các kho ngữ liệu phục vụ đánh giá
chất lượng dịch tiếng Việt hiện cĩ
⁄ Nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch
hiện nay
⁄ Để xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt
Xây dựng hệ thơng quản lý và tạo kho ngữ liệu phục vụ đánh giá chất lượng địch tiếng Việt
13 DĨI TƯỢNG, PHẠM VI NGHIÊN CỨU
13.1 P43 trons nghiên cửu
¬ 4
w k ty ut :
Y Cac céng cu chuyén đổi, hiệu chỉnh, đữ liệu
⁄ Các phương pháp xây dựng kho ngữ liệu 13.1 Pham vi nghiên cứu
ˆ Kho ngữ liệu song ngữ, đa ngữ tiếng Việt
Trang 40
L4, CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU
14.1 Cách tiếp cận
Ứng dụng trực tuyến, desktop
14.2 Phương pháp
*ˆ Phương pháp tài liệu:
4 Phương pháp thực nghiệm
¥ Su dung các nguơn tài liệu sẵn cĩ trên mạng;
¥ Nehién cứu tơng quan
15.2 Tiến độ thực hiện
1ã NỘI DỤNG NGHIÊN CỨU VÀ TIỀN ĐỘ THỰC HIỆN
15.1 Nội dung nghiên cứu Qưừnh bày dưới dụng đề cương nghiên cứu chỉ tiê)
⁄ Cài đặt hệ thống xây dựng kho ngữ liệu đánh giá
Các nội đụng, cơng việc San phim Thoi gian
2 chất lượng dịch tự động tiếng Báo cáo dén 8/2016
STT thực hiện ia (bắt đầu-kết thúc) Người thực hiện
TU tàn li ota u to ah at 3 vế , Từ 01/2016 ad Sey x De " ;
| Nehtén cuu tong quan Bao cao đến 03/2016 Dang Dat | no -
Nghiên cứu giải pháp xây dựng
kho ngữ liệu phục vụ đánh giá Từ 4/2016 Đặng Đại Thọ Nguyên Văn Bình
Dang Da: Tho
Việt He
Phần °
Thiết kế, cài đặt phần mềm mềm + 2/2016
3} ARISE IRS: GALES P dén 10/2016
to ung ko gh aa Te 11/2016
4 | Viet bao cáo tơng kết đề tài Báo cáo dén 12/2016 (2016 Nguyên Văn Bình
16 SAN PHAM
16.1 San pham khoa học
Bài báo đăng kỷ yêu của Trường 16.2 Sản phẩm đảo tạo -]}6.3.San phẩm ứng dụng Chương trình máy tỉnh LJ
v Phan tich, dua ra cac cde giai phap nham xay dung kho ngif ligu phuc vu danh gia | chât lượng địch tự động tiếng Việt
ese nee oie
i ị i
- 16.4.Các san pham khac oo cece eter eee che
| 16.5, Tên sán phẩm, số lượng và yêu cầu khoa học đỗi với sản phẩm
cảm TT — ——=
Sư Tên sản phẩm Số lượng Yêu cầu khoa học |
| Bai bao đăng kỷ yêu trường "Ol Đảm báo chất lượng |
ne ~ ° ~ 4
2 Phan mem ứng dụng 01 Phực nghiệm
3 oe VÀ 2 › w N ¬
3 Báo cáo tơng kết 01 Đây đủ, đúng quy định
L 17 HIỆU QUÁ (giáo dục và đào tạo, kinh tổ - xã đội)