1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch vụ tự động tiếng Việt

44 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 4,87 MB

Nội dung

Mục tiêu nghiên cứu đề tài là nghiên cứu cấu trúc, định dạng và kích thước các kho ngữ liệu tiếng Việt được nhiều người biết đến. Đề xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

Trang 1

DAI HOC DA NANG

TRUONG CD CONG NGHE THONG TIN

BAO CAO TONG KET

DE TAI KHOA HOC VA CONG NGHE

CAP CO SO

NGHIEN CUU GIAI PHAP XAY DUNG KHO NGU LIEU PHỤC VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỌNG

TIENG VIỆT

Mã số: T2016-07-13

fa co quan chu tri dé tai Chủ nhiệm đê tài

Trang 2

MUC LUC

Chương I Nghiên cứu tổng quan 5© sgk 3

\

| I.1 Tổng quan về kho ngữ liệu ¿2S 22+ EEeterrrrrrrrrre 3

I2 Kho !›;gfr liỆ1 22/7 SOTE Q00 00 oe: ; 1.2.1 Tổng quan về kho ngữ liệu song song . ¿+5 4

L2.2 Một số kho ngữ liệu song song phơ biến 5555552 5

1.2.3 Nội dung của các kho ngữ liệu song song 6

I.3 Kho ngữ liệu trong dịch tự Động tiếng viỆt -cccccccsncsereee2 7

1.4 Hiệu đính, đánh giá chất lượng dịch -¿-¿- 5+2 + c+ccxsezeeersxes 8

| 14.1 Hiệu đính bản dịch máy (posf-edifing) . cà <e<<«2 8

L4⁄2 Đánh giá chất lượng dịch cccccstcrrierrrrrrrrerrrrrrid 8

L5 Một số hệ thống dịch tự động tiếng Việt 2c Scc cv ceseerse2 9 I.5.1 Google trans latOT 222222222VE222222+211222222222212122111111 22 cư 9 | 1.5.2 Microsoft translator ccccececccceeeseeeceneeneeeeeceeeenseeseeeseeananess 10

I.5.3 Google trans lator và Microsoft transÏafOT . -‹ ‹ <¿ I1

ă S 2 O7 12

“hương H Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất | lượng dịch tự động tiếng việt .- SH} se 13

màn c8 - ‹ LT 13

| I2 Xây dựng kho ngữ liệu phục vụ đánh giá các kho ngữ liệu sẵn cĩ 13

| I.2.1 Phân tích các kho ngữ liệu song song tiếng Anh - Việt 13

_ IIL2.2 Xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch 17

H.3 Xây dựng kho ngữ liệu phục vụ đánh giá bằng cachsử dụng các hệ thống

dịch tự động - - - - - - ĂcS nh HH2 TH g0 0 ng kg kh 20

i5 1 22

“hương II xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động - 23 0iI0R G0 23 HI.2 Chuyên đơi cám kho ngữ liệu về định dạng và cấu trúc kho ngữ liệuhhục

Trang 3

HI.3 Xây dựng cơng cụ hiệu đính

IHI.4 Xây dựng cơng cụ ImpOTf - - 55c nneeehhhhhhhnhhhrrrerrdrre 28

TUS Két 8n 29

Kết luận và kiến nghị _ G19 9129585864858 0554 _ 30

+

Trang 4

DAI HOC DA NANG CONG HOA XA HOI CHU NGHIA VIET NAM

TRUONG CB CONG NGHE THONG TIN Độc lập — Tw do — Hanh phúc

THONG TIN KET QUA NGHIEN CUU

1 Thơng tin chung:

- Đề tài: Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh

giá chất lượng dịch tự động tiếng Việt

- Mã số: T2016-07-13

- Chủ nhiệm: ThS Dang Dai Tho

- Thanh vién tham gia: ThS Nguyén Van Binh

- Co quan chu tri: Truong CD Céng nghé Thơng tin

- Don vị thực hiện: Tổ KT-ĐBCL&TTGD

- Thời gian thực hiện: 12 tháng

2 Mục tiêu:

Mục tiêu của để tài là để xuât các giải pháp xây dựng kho ngữ liệu phục vụ đánh

giá chất lượng 3; t¿ độn; tiếng Việt Đê đạt được mục tiêu chính trên, chún, ơ¡ tập

trung giải quyết các nội dung cụ thê sau:

- Nghiên cứu câu trúc, định dạng và kích thước các kho ngữ liệu tiếng Viêt được

nhiêu người biệt đên hiện nay

- Nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch hiện nay

- Đề xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt

- Xây dựng hệ thống quản lý và tạo kho ngữ liệu phục vụ đánh giá chất lượng dịch tiếng Việt

3 Tính mới và sáng tạo:

Trang 5

Cài tiến chất lượng của các kho ngữ liệu tiêng Việt cĩ sẵn cĩ và kêt quả của

các hệ thống dịch tự động dé xây dựng kho ngữ liệu phục vụ đánh giá

4 Tĩm tắt kết quả nghiên cứu:

Một bài báo đăng trên hội thảo CHITA 2016

Phần mềm xây dựng kho ngữ liệu đánh giá dịch tự động

th" Tên sản phẩm: SmabuCopus

làn ohh r A ° A 2 oA z ` i v.v r

6 Hiệu: qua, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: sử dụng tại Trường CÐ Cơng nghệ Thơng tin

7 Hình ảnh, sơ đồ minh họa chính

Đà Nẵng, ngày 18 tháng 12 năm 2016

Cơ quan chủ trì Chủ nhiệm đề tài

a

Đặng Đại Thọ

Huỳnh Cơng Pháp

Trang 6

MO ĐẦU

Ngày nay cĩ nhiều cơng cụ địch tự động tiếng Việt được nhiều người sử dụng,

tiêu biểu như như Google Translator, Microsoft Translator, EVTRANS, Viéc danh

giá chất lượng của các hệ thống này được rất nhiều người quan tâm Tuy nhiên, đến

nay chưa cĩ nghiên cứu cụ thể nào để đánh giá chất lượng dịch tự động tiếng Việt của các hệ thống này

Trên thế giới hiện nay đã cĩ nhiều giải pháp đánh giá chất lượng dịch tự động Đa số các giải pháp này cần phải cĩ kho ngữ liệu với các đặc trưng riêng, đảm bảo về số lượng và chất lượng để phục vụ cho mục đích đánh giá Tuy nhiên, đến nay số

lượng và chất lượng kho ngữ liệu dùng để đánh giá chất lượng dịch tiếng Việt quá

khiêm tốn Vì vậy, trong đề tài này chúng tơi nghiên cứu để xuất giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng Việt

Báo cáo tổng kết này được trình bày trong 3 chương Chương 1 trình bày các kết quả nghiên cứu tổng quan về kho ngữ liệu và các hệ thống dịch tự động Chương 2 trình bày các giải pháp nhăm xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch

tự động tiếng Việt báng cách sử dụng lại các kho ngữ liệu dịch tự động sị cớ Và SỬ

dụng các hệ thống dịch tự động để dịch Chương 3 trình bày việc xây dựng kho ngữ

Trang 7

CHUONG I NGHIÊN CỨU TỔNG QUAN

+

lexeme và v.v

1.1 TƠNG QUAN VỀ KHO NGỮ LIỆU

Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngơn ngữ khác

nhau dưới dạng điện tử Đây là một khái niệm cơ bản đối với ngơn ngữ học khối liệu

Theo T McEnery và A Wilson, kho ngữ liệu phải thỏa các tính chất sau:

Kho ngữ liệu gồm tập các văn bản bất kì “igh

Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên

Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biéu cảm ngơn ngữ

Trong lĩnh vực ngơn ngữ học, kho ngữ liệu theo tiếng Latin cĩ nghĩa tức là bất kỳ khối văn ban nao (any body of text) Tuy nhién, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thơng tin thì kho ngữ liệu gơm các đặc điêm cơ bản sau:

Các ngơn ngữ phải đồng điền hình Cĩ kích cỡ xác định

Ở đạng đọc được trên máy tính

Cĩ các chú giải chuân vê mặt ngơn ngữ

Các kho ngữ liệu cĩ thể được sử dụng để nhận biệt các thơng tin hướng dân,

Trang 8

người Khi nhận được các dữ liệu ngơn ngữ trong một giai đoạn phát triển lịch sử nhất

định từ kho ngữ liệu, người sử dụng cĩ thể nghiên cứu các quá trình biến đổi thành

phần từ vựng của ngơn ngữ trên thực tế, cĩ thể tiến hành các phân tích cú pháp ở các thê loại văn bản và của các tác giả khác nhau

Kho ngữ liệu cịn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chĩng và hiệu quả Vai trị của ngơn ngữ học khối liệu càng được khang định khi các cơng trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu cĩ thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [ï j

Một tập các văn bản (tài liệu) được viết bằng nhiều ngơn ngữ thì gọi là kho ngữ

liệu đa ngữ (multilingual corpora)

Một tập các văn bản (tài liệu) trong các ngơn ngữ khác nhau mà cĩ cùng chủ đê chính thì được gọi là kho ngữ liệu (cĩ thể) so sánh (comparable corpus)

Một tập các văn bản (tài liệu) trong nhiều ngơn ngữ khác nhau, tronz đĩ cĩ một ngơn ngữ nguồn và một (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) thì được gọi là kho ngữ liệu song song (parallel corpus) [2]

1.2 KHO NGU LIEU SONG SONG

1.2.1 Tổng quan về kho ngữ liệu song song

Kho ngữ liệu song song là tài nguyên thiết yếu trong tính tốn ngơn ngữ học (Hnguistic computing) Các kho ngữ liệu song song này cĩ thể được sử dụng cho nhiều mục tiêu khác nhau như : nghiên cứu ngơn ngữ học so sánh, tìm kiếm thơng tin xuyên ngữ, dịch máy,

Trang 9

Liên kết văn bản cĩ thể hiểu là quá trình xác định 2 hoặc nhiều thực thể trong

các văn bản ở ngơn ngữ khác nhau cĩ sự tương đồng về nội dung Liên kết văn bản cĩ thể ở nhiều mức khác nhau: tai liéu (document alignment), doan (paragraph alignment), cau (sentence alignment), cum (phrase alignment), tu (word alignment)

+ Mức tài liệu: các tài liệu trong kho ngữ liệu được hiên kêt đơi một, tài

liệu này là bản dịch của tài liệu kia

+ Mức đoạn: các đoạn trong hai tài liệu của hai ngơn ngữ sẽ được liên

kết với nhau, đoạn này sẽ là bản dịch của đoạn kia

+ Mức câu: các tài liệu song ngữ được liên kết ở mức câu, câu này là bản

dịch của câu kia

+ Mức cụm từ: các cụm từ trong cặp câu sẽ được liên kêt từng đơi một, cụm từ này lả bản dịch của cụm từ kia

+ — Mức từ: các từ trong câu sẽ liên kết hàng từng cặp, từ này là từ dich

+ ` 1°

cue tr Ka

Kho ngữ liệu song song cĩ thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử Nguồn tài nguyên ở dạng giấy viết cĩ thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ Việc thu thập dữ liệu từ nguồn tài

nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và

cơng sức Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang web đa ngữ [|2]

L2.2 Một số kho ngữ liệu song song phổ biến

Ngày nay tồn tại nhiều kho ngữ liệu song song, miễn phí hoặc thương mại đối với người dùng Tuy nhiên, việc khai thác và sử dụng các kho ngữ liệu này cịn nhiều

bất cập Đối với các kho ngữ liệu miễn phí (bảng bên dưới), mặc dù cĩ kích thước

Trang 10

số hoạt động trong lĩnh vực dịch tự động Muốn sử dụng được các kho này, mỗi tơ chức hoặc cá nhân phải thực hiện việc nâng cấp, trích lọc dữ liệu từ các kho ngữ liệu

này trước khi sử dụng Đối với các kho ngữ liệu thương mại, mặc dù hầu hết các kho

ngữ liệu này thường cĩ kích thước lớn và chất lượng tốt nhưng khơng chia sẽ cho cộng

đồng người dùng mà chủ yếu mang tính thương mại hoặc phục vụ cho riêng các cơng ty nhu Systran, IBM [11]

Dưới đây là danh sách các kho ngữ liệu song song phơ biến hiện nay:

EuroParl 407.069.444 II — a 37006313 _ Hansard 47.389.000 2 23.694.500 JR Acquis 1.055.583.954 22 47.981.089 XinHua News 29.000.000 2 14.500.000 OPUS 30.000.000 60 500.000

Danh sách các kho ngữ liệu song song pho bién Error! Reference source not found.1]

IL2.3 Nội dung của các kho ngữ liệu song song

Kho ngữ liệu song ngữ chứa các văn bản ở hai ngơn ngữ khác nhau được giĩng

hàng the c4: cấp độ đơn vị ngơn ngữ khác nhau Các kho ngữ liệu song song thường

là cĩ nội dung đa lĩnh vực như kinh tế, chính trị, văn hố, xã hội, kỹ thuật, Các kho

Trang 11

13 KHO NGU LIEU TRONG DICH TU BONG TIENG VIET

Trong các kho ngữ liệu đa ngữ tiếng Việt thì kho ngữ liệu Anh — Việt được nhiều tổ chức, nhà khoa học nghiên cứu nhất Tuy nhiên, đến nay số lượng và chất

lượng của các kho ngữ liệu Anh - Việt vẫn chưa đáp ứng cả về số lượng lẫn chất lượng cho việc xây dựng, đánh giá, cải tiến chất lượng của các hệ thống dịch tự động

Sau đây là một số kho ngữ liệu được nhiều người biết đến hiện nay ở nước ta Kho ngữ liệu tiếng Việt của Vietlex (Vietlex Corpus) chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành |4] Kho ngữ liệu song ngữ EVC (5 triệu từ) do các nhà nghiên cứu của Trung tâm Ngơn ngữ học Tính

tốn của :rường Dii Khoa học Tự nhiên — Tp.HCM xây dựng chứa dữ iiệu ở tất cả

các lĩnh vực khoa học, xã hội, đời sống [5] Kho ngữ liệu song ngữ Bitext-PTB chứa 100,000 cặp câu song ngữ được xây dựng trong nội dung của nhánh đề tài "Xử lý văn

bản tiếng Việt" thuộc để tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nĩi và văn bản tiếng Việt" của nhĩm tác giả Hồ Tú Bảo, Lương

Chi Mai và các cộng sự |3 |

Trong các kho ngữ liệu song song Anh - Việt, dữ liệu được tổng hợp ở nhiều

lĩnh vực khác nhau Lượng dữ liệu đối với từng lĩnh vực chưa nhiều, đặc biệt dữ liệu

thuộc các lĩnh vực hẹp, chuyên sâu như lĩnh vực y tế, pháp luật, quan su, hầu như

xuất hiện rất ít trong các kho ngữ liệu nĩi trên Các kho ngữ liệu song song đã được xây dựng trong lĩnh vực xử lý ngơn ngữ tiếng Việt hiện nay phần lớn thuộc các nhĩm sau:

1 Nhĩm phục vụ nghiên cứu tử điển tiếng Việt: nội dung văn bản trong kho

ngữ liệu đã được tách từ, phân tích từ loại vụ cho việc xây dựng từ điển song ngữ [6]

Trang 12

dựng tập các quy tắc ngữ pháp tiếng Việt dùng cho xử lý tự động ngơn ngữ; nghiên cứu và xây dựng bộ phân tích cú pháp, câu tiếng Việt [7]

$ Nhĩm phục vụ các nghiên cứu xử lý ngơn ngữ tự nhiên, trong đĩ cĩ dịch tự

động tiếng Việt: kho ngữ liệu dùng cho các hệ thống địch, cải tiến chất

lượng hệ thống dịch Tuy nhiên chưa cĩ cơng trình nào nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ cho việc đánh giá dịch tự động tiếng Việt

1.4 HIEU DINH, DANH GIA CHAT LƯỢNG DICH

1.4.1 Hiéu dinh ban dich may (post-editing)

Trong lĩnh vực dịch tự động, hiệu đính là q trình con người chỉnh sửa, hồn

thiện bản dịch để cải tiền chất lượng và xây dựng các bản dịch chuẩn Quá trình hiệu đính bao ; `: các nit fe độ khác nhau Hiệu đính sơ bộ (light post-editing) c-:: : nhằm

mục đích chỉnh sửa bản dịch để cĩ thể hiểu được và tiết kiệm thời gian nhất cĩ thê

Hiệu đính tổng quát (full post-editing) sẽ cho ra bản dịch đúng văn phong, ngữ pháp và ngữ nghĩa Trong thực tiễn và cá các nghiên cứu, hiệu đính kết quả dịch máy sẽ giúp quá trình dịch thuật tiết kiệm được nhiều thời gian và cơng sức hơn so với cơng

việc địch từ đầu, khơng sử dụng kết quả dịch máy [3] 1.4.2 Đánh giá chất lượng dịch

Đánh giá chất lượng dịch là hoạt động nhằm xác định mức độ hồn thiện của bản dịch do máy tính đưa ra hoặc so sánh chất lượng dịch giữa các hệ thống dịch tự

động khác nhau Hiện nay, cĩ nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, cĩ thể nhĩm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation) [3]

Trang 13

nhưng tốn nhiều thời gian và chi phí, cĩ phụ thuộc vào khả năng của người đánh giá [14]

Đánh giá khách quan là sử dụng các chương trình thay cho con người để đánh giá Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thơng địch với câu

địch tham khảo đã cĩ sẵn Một số phương pháp đánh giá phổ biến như [3] [1 !] [12]:

+ WER (Word Error Rate): do số lượng các từ khác biệt giữa bản dịch

của máy tính với bản dịch tham khảo WER được tính tốn như là

khoảng cách Levenshtein giữa các từ của bản dịch với những từ của

bản dịch tham khảo chia cho chiêu đài của bản dịch tham khảo

+ TER (Translation Edit Rate): đếm số bước sửa đổi được để thay đổi

bản dịch của máy tính thành một trong những bản dịch tham khảo cĩ

sẵn |

+ BLEU (BiLingual Evaluation Understudy): st dung ban dịch tự động

so sánh với một bản dịch chuẩn của con người để tính điểm dựa trên

việc thống kê sự trùng khớp của các từ trong hai bản dịch cĩ tính đến

thứ tự của chúng trong câu, sử dụng n-grams theo từ

+ NIST (National Institute of Standards and Technology): dựa trên

phuong phap BLEU nhung co mot số thay đổi là ngồi việc so sánh và tính tốn trên số lượng thì cịn tính đến sự thay đổi về vị trí các phần tử trêr: cung một n-grams Sự thay đổi này sẽ ảnh hưởng c>n „#t quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn

1.5 MOT SO HE THONG DICH TU DONG TIENG VIET

1.5.1 Google translator

Google translator là cơng cụ dịch thuật miễn phí từ Google cĩ thể sử dụng

Trang 14

Translate đã chính thức bao phủ tới 99% dân cư Internet trên khắp hành tinh, trong đĩ cĩ tiếng Việt Phiên bản nào cũng cĩ thể dịch văn bản và trang web Trong khi đĩ ứng dụng Android và ¡iOS cĩ thé dich van ban, dịch lời nĩi theo thời gian thực, hình ảnh, trang web, và thậm chí cả video theo thời gian thực cho một số ngơn ngữ phơ biến

G6 le zag

oogle i

Dich Tat địch nhanh &

+e 0/6090

i

Nhập văn bảo hoặc địa chỉ Hang web hoặc dịch tài hiệu

Céng cu Google translator

Ngồi ra, Google cịn cịn cung cấp API cho các nhà phát triển phần mém, cho phép họ sử dụng dé xây dựng các cơng cụ dịch thuật của mình Google Translate co

khả năng dịch văn bản, chữ viết trên màn hình cảm ứng, giọng nĩi, hình chụp màn

hình một đoạn văn bản, dịch văn bản scan băng camera smartphone và khả năng dịch

offline, khơng cần kết nối mạng [9] 1.5.2 Microsoft translator

Microsoft translator la cơng cụ dịch thuật miễn phí từ Microsoft cĩ thể được sử dụng trong trình duyệt web hoặc trình duyệt di động (thơng qua Bing Translator), va cĩ các ứng dụng cho nền tang Windows, Windows Phone, iOS, Android, va cac ung

dụng cho Appic Waivh và Android Wear Ngồi ra, Microsoft Translator c% thê được

tích hợp với các ứng dụng khác của Microsoft như Microsoft Office, Skype, và Visual Studio str dung Translator API cua Microsoft (khéng miễn phí cho các ứng dụng

doanh nghiệp) Các phiên bản của trình duyệt cĩ thể dịch văn bản và các trang web,

nhưng ứng dụng Microsoft Translator cĩ thê xử lý văn bản, lời nĩi theo thời gian thực

Trang 15

Micrel

Nhập van ban hoac URL trang web vào day

8/5000

Cong cu Microsoft translator

Microsoft Translator cing co kha nang dich văn bản, giọng nĩi và nhận diện hình ảnh như Google Translate, nhưng nĩ cĩ thêm một tính năng mới là Conwersation Mode Tính năng này sẽ dịch lời nĩi của bạn và người khác trực tiếp thơng qua microphone trong thời gian thực, cho phép bạn nĩi chuyện một cách trơi chảy với người nước ngồi [9]

1.5.3 Google translator và Microsoft translator

Một cơng cụ dịch thuật hay khơng chỉ được đo lường bằng số lượng ngơn ngữ nĩ cĩ thể dịch Tất nhiên, càng nhiều ngơn ngữ càng tốt: Google Translate hỗ trợ 103 ngơn ngữ, trong khi đĩ Microsoft Translator chỉ hỗ trợ 54 ngơn ngữ Trước khi chúng ta đi đến kết luận, một điều nên biết nữa là, Google Translate co thé dich số lượng ngơn ngữ gấp đơi Mierosoft Translator, nhưng điều quan trọng cần lưu ý răng khơng

phải mọi ngợ ngữ đề cĩ cùng một mức độ hơ trợ

Google Translate cĩ thể xử lý 103 ngơn ngữ, nhưng chỉ vài ngơn ngữ thơng dụng được hỗ trợ đây đủ, cịn lại thì ở mức tạm sử dụng được Vì vậy, đối với một vài

ngơn ngữ, cĩ thể nĩi rằng Google Translate duoc st dung nhu mot tu điển từ vựng

hơn là để dịch một đoạn văn bản đọc hiểu

Tuy chỉ cĩ 54 ngơn ngữ được Microsoft Translator hỗ trợ, nhưng 44/54 số ngơn ngữ đĩ được hỗ trợ đầy đủ Các ngơn ngữ đĩ thể được dịch ngoại tuyến, khơng cần kết

Trang 16

nối mạng: trong khi Google Translate chỉ hỗ trợ khoảng một nửa số ngơn ngữ sử dụng ngoại tuyến [9]

1.6 TONG KET

Trong chương này, chúng tơi đã trình bay tổng quan vê các vấn đề liên quan đến kho ngữ liệu, kho ngữ liệu song song, kho ngữ liệu dịch tự động tiếng Việt, Các nội quan trọng được trình bày trong chương này là cơ sở để nghiên cứu, để xuất giải

pháp xây dựng kho ngữ liệu phục vụ cho đánh giá chất lượng dịch tự động tiếng Việt

Trang 17

CHƯƠNG II NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU PHỤC VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT

H.1 GIỚI THIỆU

Đến nay đã cĩ nhiều cơng cụ dịch tự động tiếng Việt được nhiều người SỬ

dụng, tiêu biểu như như Google Translator, Microsoft Translator, EVIRANS, Tuy nhiên, đến nay chưa cĩ nghiên cứu cụ thể nào về việc đánh giá chất lượng các hệ thơng

dịch trên:

Bên cạnh đĩ, các giải pháp đánh giá chất lượng dịch tự động hiện nay đều cần phải cĩ kho ngữ liệu với các đặc trưng riêng phục vụ cho mục đích đánh giá Tuy nhiên, hầu như đến nay chưa cĩ cơng trình nào nghiên cứu giải pháp xây dựng kho

ngữ liệu phục vụ cho việc đánh giá dịch tự động tiếng Việt Vì vậy, trong để tài này

chúng tơi đề xuất hai giải pháp để xây đựng kho ngữ liệu phục vụ đánh giá chất lượng

dịch tự động Giải pháp thứ nhất sử dụng lại các kho ngữ liệu dịch tự động song song đã được xây dựng Giải pháp thứ hai sử dụng các hệ thống dịch tự động dé dich va lay

kết quả dịch làm câu đích Giải pháp nảy chủ yếu áp dụng cho các lĩnh vực chuyên

ngành đến nay cĩ ít tài liệu song ngữ

Cả hai giải pháp trên đều thực hiện hiệu đính để cĩ được bản dịch chính xác trước khi đưa vào kho ngữ liệu song song phục vụ đánh giá

H.2 XÂY DỰNG KHO NGỮ LIỆU PHỤC VỤ ĐÁNH GIÁ TỪ CÁC KHO

NGỮ LIEU SONG SONG SAN CO

H.2.1 Phân tích các kho ngữ liệu song song tiếng Anh - Việt

Giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động từ

các kho ngữ liệu sẵn cĩ là một giải pháp hiệu quả, giúp tiết kiệm chi phí về thời gian

và tiền bạc Bởi lẽ hiện nay đã cĩ một số kho ngữ liệu Anh — Việt được xây dựng bởi

các tơ chức, cơng ty, nhĩm nghiên cứu khác nhau Nếu hợp nhất các kho ngữ liệu này chúng ta sẽ cĩ được một kho ngữ liệu mới khơng chỉ lớn về khối lượng mà cịn đa

Trang 18

dang về thể loại, lĩnh vực Sau đĩ sẽ thực hiện việc hiệu đính do các chuyên gia trong lĩnh vực thực hiện để cĩ được bản dịch cĩ chất lượng,

Để hợp nhất các kho chúng ta cần xây dựng một định dạng và cấu trúc cho kho

ngữ liệu phục vụ đánh giá Cấu trúc và định dạng này phải thuận lợi cho việc hợp nhất, lưu trữ các kho ngữ liệu đã tồn tại Đồng thời đảm bảo cho các hệ thống dịch, đánh giá

chất lượng dịch, đễ dàng khai thác, sử dụng Vì vậy cân phải phân tích định dạng và cấu trúc của các kho ngữ liệu Anh — Việt phố biến hiện nay Sau đây chúng tơi phân

tích các kho ngữ liệu Bitext-PTB, EVC và BTEC

qa Kho ngữ liệu Bitext-PTB

Kho ngữ liệu song ngữ Bitext-PTB chứa 100,000 cặp câu song ngữ Anh-Việt Bitext-PTB được xây dựng trong khuơn khổ đề tài “Nghiên cứu phát triển một số sản

phẩm thiết yếu về xử lí tiếng nĩi và văn bản tiếng Việt” của nhĩm tác giả Hồ Tú Bảo,

Lương Chi Mai và các cộng sự

Sự đĩng hàng trong Bitext-PTB được thực hiện ở mức câu: phân ngữ liệu thành từng cặp cau song đạu Anh-Việt Mỗi câu tiếng Anh cĩ câu tiếng Việt nào đi kèm (bản

dich cua no) |2] Mỗi cặp tài liệu dịch được lưu bằng một file XML trong đĩ chỉ rõ những cặp câu nào là bản dịch của nhau

Trang 19

N3, 38 1610000081 1x2 tá Ai 3Â Ảo 4/2 /380c30,ekƯng c4 In cả g8Epllngritcdore c3 ntoekDatvrmilonsnlkeecesi-kaaavdeia88ecrolEA free CZe Sản

xdocument> <S0Uurce» cenfile»transgov87-touch,txt¿/enfile> <vnfi1e»transgovB7-dac_transgov_vw,txtC/vnfile2 alg éfsource? » " pH AUT safe ° {para mach="1-1"> <sentence mach="3-1"/> <fpara> 4/schema>

éendoc id= “transgov@7-touch.txt"> <para id="i">

esentence id="I">In the United States and in other democracies, citizens can influence goverment on a daily basic, not just on election day $/sentence>

‹/para> </endac>

éyndoc id="transgav@7-doc_transgov_v.txt">

<para>

<sentence id= "1"zØ Ay cũng như ở các nền dan chủ khác, cơng đan cé thé ảnh hưởng đổi với chính phủ hằng ngày chứ khơng phải chỉ trong các lực bầu cử é/sentence>

</para>

</undoc >

Tập tin XML trong kho ngit liéu Bitext-PTB |? /

Bên cạnh đĩ, mỗi ngơn ngữ được lưu trữ trên một tập tin TXT, được đánh SỐ chỉ mục giơng nhau: | Bitext-PTB bá —— Anh - Việt

Tiếng Anh.TXT Anh-Việt.XML Tiếng Việt.TXT

Cấu trúc kho ngữ liệu Bitexi-PTB

b Kho ngữ liệu EVC

EVC là kho ngữ liệu song song Anh - Việt, cĩ khoảng 5 triệu từ do các nhà nghiên cứu của Trung tâm Ngơn ngữ học Tính tốn của Trường Dai học Khoa học Tự

t

nhiên — ¿4i Thị ›c Quốc gia Thành phố Hồ Chí Minh xây dựng EVC chứa đữ liệu ở tất

cả các lĩnh vực khoa học, xã hội, đời sống [5] Tương tự Bitext-PTB, sự dĩng hàng trong EVC cũng được thực hiện ở mức câu

Trang 20

3v <Ð0C Domain='news '» 3+ <SENT id="1"> 3z xTXT E2

a i Her mini new album, “Brand New Elly", is set to release on November 16,

comeback stage on Mnet °M! Countdown” scheduled for November 1/7 €/TAT_E>

TAT _V>

Album mind mdi cua c& “Brand New Elly", duoc lén ké hoạch phát hành vàn

tháng 11, cũng với sự trẻ lại sân khẩu trén késh Mnet cla "A! Countdown lên lịch văo ngày 17 tháng 11

4/TXT_VW>

</SENT>

<SENT id="2">

<TXT_E>

All the members, except Yoona who was at the time filming her drama, we bright and cheerful, always kept a@ smile and fully cooperated throughou intervier

33 </TXT_E?

14x 4T1XT_V#

15 ~ Tất cả các thành viễn, ngoại trừ Yoona đang trong thời gian quay bộ phi hành, đều rạng ngời và tươi vui, luỗốn luơn giữ nụ cười và hồn tồn hợp, trang suất buổi phơng vấn

¿/TXT_W>

4#SENT>

lập tin XML trong kho ngữ liệu EVC j6j

EVC được tổ chức lưu trữ dưới dang tap tin XML Cau nguồn tiếng Anh và câu

dịch tiếng Việt được lưu trữ trên cùng một file

Cố Cố] EVC nhị l acts cel ol * b ử r Anh - Việt Anh-Việt.XML

Cầu trúc kho ngữ liệu EVC

c Kho ngữ liệu BTEC

BTEC là kho ngữ liệu đa ngữ Anh —- Việt — Trung với mục đích hỗ trợ khách du lịch khi đi nước ngồi [§] Sự dĩng hàng được thực hiện ở mức câu: mỗi câu nguồn tiếng Anh cĩ một câu dịch tiếng Việt và một câu dịch tiếng Trung

Trang 21

si AT 2x x—— — + <DOC> - 4SENT id='1'z x: <TXT_EF>

cong I ‘il bring you some now

; <fTAT_E> STRYT_V>

Tơi sẽ mang lại cho ban mot it bay gic <P TAT_V> £THT_C> #2 at 24 f8 S one <?TAT_€> </SENT> 45ENT id='2"> ‹TXT_E›

If there is anything else you need , just let me know </TXT_E>

4TXT_V»

Nếu bạn cần điều gi khác hãy cho tơi biết,

S;⁄TÁT V> KTXT_C > MRR Ate 32H) BRE ° FAT o> *S#SEĐT> S/D0C> Des °"

Tập tin XML trong kho ngữ liệu BIEC [3j

BTEC được tổ chức lưu trữ dưới dạng tập tin XML Câu nguồn tiếng Anh, câu dịch tiếng Việt và câu dịch tiếng Trung được lưu trữ trên cùng một file

Anh — Viét - Trung

Anh-Viét-Trung.XML

Cấu trúc kho ngữ liệu BTEC

II.2.2 Xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dich

a Định dạng và cấu trúc kho ngữ liệu phục vụ đánh giá

Các kho ngữ liệu được phân tích ở trên đều được lưu trữ dưới dạng XML Việc

lưu trữ đữ liệu Anh-Việt trên cùng một tập tin (XML) hoặc trên nhiéu tap tin (XML, TXT) Cấu trúc và định dạng các kho ngữ liệu này khơng phức tạp, dé đàng sử dụng

Trang 22

Việc dĩng hàng đều được thực hiện ở mức câu, mỗi câu nguơn đêu cĩ câu đích

tương ứng

Để hiệu quả cho việc chuyển đổi định dạng và cấu trúc để hợp nhất, lưu trữ và chỉnh sửa dữ liệu, .chúng tơi chúng tơi sử dụng câu trúc và định dạng của kho ngữ

liệu EVC để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh-

Việt Bên cạnh đĩ, cấu trúc và định dạng này cũng rất thuận lợi để các hệ thống dịch,

đánh giá chất lượng dịch khai thác, sử dụng

b Quy trình xây dựng

Chúng tơi đề xuất quy trình xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh - Việt từ các kho ngữ liệu sẵn cĩ hiện nay như sau:

- Bước I1: Chuyển đổi các kho ngữ liệu dịch tự động Anh - Việt cĩ chất

lượng sẵn cĩ về định dạng và cấu trúc như đã đề xuất Đối với các kho ngữ

liệu đa ngữ, chúng ta chỉ lấy cặp câu nguồn tiếng Anh và câu đích tiếng Việt

- Bước 2: Thực hiện hiệu đính để cĩ được bản dịch chính xác Việc hiệu

chỉnh do các chuyên gia thực hiện

- sce 3° Dea di liệu đã hiệu chỉnh vào kho ngữ liệu song s g :⁄iục vụ

đánh giá chất lượng dịch tự động để các hệ thống đánh giá, dịc:: :ự động,

khai thác, sử dụng

Giải pháp và quy trình này cũng sẽ được áp dụng để xây dựng kho ngữ liệu phục vụ đánh giá dịch tự động tiếng Việt với ngơn ngữ khác như Pháp — Việt, Nhật —

Việt, Trung — Việt, Lào — Việt,

Trang 23

_ Kho ngữ liệu Anh-Việt

1 'Khn ngữ liệu Anh-Việt [ Hop nhat — Ỉ

Kho ngữ liệu Anh-Việt

LN

Kho ngữ liệu Ânh-Việt phục vụ đánh giả

Quy trình xây dựng kho ngữ liệu phục vụ đánh giá dựa vào các kho ngữ liệu sẵn cĩ

Trang 24

a `

11.3 XAY DUNG KHO NGU LIEU PHUC VU DANH GIA BANG CACH

SU DUNG CAC HE THONG DICH TU DONG

Viéc tim kiém cac nguồn dữ liệu dé xây dựng kho ngữ liệu ở các chủ đề phổ

biến như tin tức, văn hố, kinh tế, khá dễ dàng Tuy nhiên, ở nhiều lĩnh vực chuyên

ngành hầu như cĩ rất ít tài liệu song ngữ

Hiện nay đã cĩ một số hệ thống địch tự động như Google translator, Microsoft

translator, Systrans, Reverso, cho phép dịch từ tiếng Anh sang tiếng Việt Trong đĩ được nhiều người sử dụng nhất là Google translator, Microsoft translafor

Google tị @

Dịch tắtdch nhạm GY

; Tiêng Anh Tiếng Trung {Gian Tha} ; x

ạt ` Tiếng Pháp - Phâthiện ngơn ngữ + ee, Every organism needs to obtain energy ™ MOi sinh vật cần phải cĩ được năng lượng

in order to live đề sơng

Š đ gi v sesapo X R] 4ÿ đƑ Đà xuất một chỉnh sửa

Su dung Google translator

£ ba

0

Not all flying animals are birds, and not all birds can tly x Khơng phải tất cả các lồi động vật đang bay là các lồi chím, và khơ

ng phải tất cả loại chim cĩ thể bay,

Su dung Microsoft translator

Sử dụng cơng cụ dịch Google, câu nguồn “Every organism needs to obtain energy in order to live” sé cho ra cau dich trong tiếng Việt là “Mỗi sinh vật phải cĩ năng lượng đê sơng”

Trang 25

“Tương sự, đối với cơng cụ dịch của Microsoft, câu nguồn “Not all flying animals are birds , and not all birds can fly” sé cho ra két qua trong tiếng Việt là “Khơng phải tất cả các loại động vật đang bay là các lồi chim, và khơng phải tất cả

lồi chim cĩ thê bay”

Các bản dịch này nêu được các chuyên gia hiệu đính sẽ cĩ được các văn bản song ngữ cĩ giá trị Điêu này càng cĩ ý nghĩa hơn đơi với các lĩnh vực hiện nay cĩ Ít

tài liệu song ngữ tiếng Việt

Nin vậy, hiệu đính các bản dịch máy do các chuyên gia thực hiện là một giải

pháp để xây dựng các kho ngữ liệu song song nĩi chung và kho ngữ liệu Anh - Việt

nĩi riêng Trong nghiên cứu này, thực biện xây dựng kho ngữ liệu phục vụ đánh giá

chất lượng dịch tự động dựa vào các hệ thống dịch tự động là một giải pháp mà chúng

tơ1 lựa chọn [T0]

Ban đầu, kho ngữ liệu chỉ cần chứa các câu ở ngơn ngữ nguồn tiếng Anh Từ

các câu nguồn này, sử dụng các hệ thống dịch tự động để dịch và lấy kết quả dịch làm

câu đích, tạo thành một cặp câu song ngữ Như vậy, việc xây dựng dữ liệu đánh giá chỉ

cần thu thập các văn bản cĩ sẵn ở một ngơn ngữ mà khơng cần dịch sang các ngơn ngữ

khác [3] Điểu này khá dễ dàng và khơng tốn nhiều chi phi

Cặp câu song ngữ Anh - Việt do các hệ thống dịch tự động chưa phải là bản

dịch chính xác Thơng qua q trình hiệu đính với sự trợ giúp của các chuyên gia, chúng ta sẽ thu được bản dịch chính xác Sau đĩ, đưa dữ liệu đã hiệu đính vào kho ngữ liệu song song phục vụ đánh giá chất lượng dịch tự động

Cũng như giải pháp đã đề xuất ở trên, giải pháp và quy trình này cũng sẽ được áp dụng để xây dựng kho ngữ liệu dịch phục vụ đánh giá chất lượng dịch tự động tiếng Việt với ngơn ngữ khác như Pháp — Việt, Nhật — Việt, Trung — Việt, Lào — Viét,

Trang 26

kho ngữ liệu đơn ngữ tiếng Anh Hệ thống dịch tự động |

| Kho ngữ liệu Anh-Việt

| _ (chưa chỉnh sửa)

[ Hiệu đính bản dich

AE, :

Kho ngữ liệu Anh-Viet phuc vu danh gia |

Quy trình xây dựng kho ngữ liệu phục vụ đánh giá dựa vào các hệ thơng dịch

1.4 TONG KET

Trong chương này chúng tơi đã để xuất hai giải pháp để xây dựng kho ngữ liệu

phục vụ đánh giá chất lượng dịch tự động tiếng Việt Giải pháp thứ nhất sử dụng lại

các kho ngu ¡iệu dịcđ tự động đã được xây dựng, giải pháp thứ hai sử -:n; các hệ

thống dịch tự động để dịch và lấy kết quả dịch làm câu đích Chúng cũng đã xây dựng

quy trình để thực hiện hiện hai giải pháp trên Trong chương tiếp theo, chúng tơi sẽ tiến hành xây dựng chương trình cho hai giải pháp đã được dé xuat

Trang 27

CHƯƠNG III XÂY DỰNG KHO NGỮ LIỆU PHỤC

VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG

IH.1 GIỚI THIỆU

Chúng tơi đã đề xuất hai giải pháp để xây dựng kho ngữ liệu phục vụ đánh giá

chất lượng dịch tự động tiếng Việt Giải pháp thứ nhất là sử dụng lại các kho ngữ liệu

dịch tự động đã được xây dựng Giải pháp thứ hai sử dụng các hệ thống dịch tự động

để dịch và lấy kết quả dịch làm câu đích, chủ yếu áp dụng cho các lĩnh vực chuyên ngành cĩ rất ít tài liệu song ngữ Dữ liệu của cả hai giải pháp này sẽ được lưu trữ cùng

cấu trúc và định dạng và đều thực hiện quá trình hiệu đính kết quả dịch trước khi đưa

vào kho ngữ liệu phục vụ đánh giá

Để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch, trong chương này chúng tơi sẽ đưa ra định dạng và cấu trúc của nĩ Sau đĩ xây dựng các chức năng để

chuyên đổi đữ liệu của các kho ngữ liệu Anh-Việt sẵn cĩ về cấu trúc và định dạng của kho ngữ liệu đánh giá Đồng thời xây dựng các chức năng để hiệu đính kết quả Sau khi hiệu đính, đữ liệu đảm bảo chất lượng sẽ được import vào kho ngữ liệu phục vụ

đánh giá Tiêp theo chúng tơi mơ tả mơt sơ chức năng chính của hệ thơng

HI.2.CHUYÊN ĐƠI CÁC KHO NGU LIEU VE DINH DANG VA CAU TRÚC KHO PHUC VU ĐÁNH GIÁ

Đề hiệu quả cho việc chuyển đơi định đạng và cau tric dé hop nhất, lưu trữ và

chỉnh sửa dữ liệu, đồng thời thuận lợi cho các hệ thống khái thác, đánh giá chúng tơi

chúng tơi sử dụng cấu trúc và định dạng của kho ngữ liệu EVC để xây dựng kho ngữ

liệu phục vụ đánh giá chất lượng dịch tự động Anh-Việt Việc dĩng hàng được thực hiện ở mức câu

Kho ngữ liệu phục vụ đánh giá dịch tự động sẽ được được lưu trữ dưới dạng XML Tồn bộ dữ liệu (tiếng Anh — tiếng Việt) sẽ được lưu trữ trên cùng một tập tin _XML Việc đĩng hàng đêu được thực hiện ở mức câu, mỗi câu nguơn đêu cĩ câu đích

Trang 28

* <ELEMENT DOC {SENT)4>

<!ATTLIST DOC

xmlins CDATA #FIXED

Domain NMTOKEN #REQUIRED>

— <ELEMENT SENT (TAT_E,TXT_V}> <IATTLIST SENT

xmblns CDATA #FIXED

id CDATA #REQUTRED>

<!ELEMENT TXT_E (#PCDATA)> <!ATTLIST TXT_E

xmins CDATA #FIXED ''>

<!ELEMENT TXT _V (#PCDATA}> <!ATTLIST TXT_V

xmins CDATA #FIXED * ">

Dinh dang kho ngữ liệu phục vụ đánh giá chất lượng dịch

Như vậy, trong kho ngữ liệu phục vụ đánh giá, nội dung file XML nhu sau:

_a ‘Domain='rews "> <SENT id=‘i'>

siXt E>

Her mini new album, "Brand New Elly", is set to release on November 16, comeback stage on Mmet °M! Countdown” scheduled for November 17

<fTXT_ED

"

pF Album mini mới của cơ "Brand Mew Elly", được lên kế hoạch phát hanh vac

tháng 11, cũng với sự trở lại sân khẩu trên kênh Mnet cua "HM! Countdown lên lịch vào ngày 17 thang 11

: ‹/TXT V2

4/SEMI>

<SENT id='2">

€TXT_E>

All the members, except Yoona who was at the time filming her drama, we bright and cheerful, always kept a smile and fully cooperated throughou

interview

¢/TAT_E> 4T1XI V?

Tất cả các thành viên, ngoại trừ Yoona đang trang thời gian quay bộ phi hình, đều rạng ngời và tươi vui, luơn luơn giữ nụ cười và hồn tồn hợn

trong suốt buổi phỏng vấn

4/TXT_V2 4/SENT» </DOC>

File XML trong kho ngữ liệu phục vụ đánh giá

a Chuyển đổi dữ liệu của kho ngữ liệu song song BTEC:

Eile đữ liệu XML trong kho ngữ liệu BTEC cĩ nội dung:

Trang 29

4SENT id='1'z <TXT_E>

I "ll bring you some now </TRT_E>

<TXT_M*

Tối sẽ mang lại chơ bạn một Ít bây giữ

</TXT_W> STAT _C> IN gh 24 Sone Be $#TXT_C2 $#/SENT» 45ENT id='2'> ⁄TXT _E›

If there is anything else you need , just let me know

47TXT_E>

<TXT_Ve

Mễu bạn cần điễu gi khác hãy cho tơi biết,

Ãx/TXT V2

€TAT_O>

MRED Sita BEM Aw ARE °

</TXT_>

</SENT>

</00>

Tap tin XML trong kho ngit liéu BTEC {8 /

Thực hiện chức năng chuyển đổi sang cấu trúc và định dạng của kho ngữ liệu phục vụ đánh giá:

¬ atntiy

Lê] Chuyển đối dữ liệu — n xã

XS» SỊ

đổi dữ liệu của BTEC

a

Chuyén

Kết quả sẽ cho file XML với nội dung như sau:

Trang 30

8 | 4+ <DOC Domain="Tourism™> 2 <SENT id=‘i'> <TXT_E>

I *ll bring you some now

<fTRT_E> <TRT_V>

Tơi sẽ mang lại cho bạn một it bay gic

</TXT_V>

</SENT> sSENT id="2'>

<TRT_E>

If there is anything else you need , just let me know

$/TAT E> <TAT_¥>

N&u bạn cần điễu gi khác hãy cho tơi biết

C{/TXT Mừ> </SENT>

File XML trong kho ngữ liệu phục vụ đánh giá từ B1bC

b Chuyển đổi dữ liệu của kho ngữ liệu song song Bitext-PTB:

File dữ liệu XML trong kho ngữ liệu BTEC:

“Es <decument>

3x 4SGMITECEXL ` S

ca fanfilestrensgov7-touch, txt</enfile>

ä vortis toon sgav@7-dec_transgov_v.txt</vnfile>

| </source> <schema> <para mach=”"1-1”> 4$sentence machz”1-1"/> <f/para> </schena>

<endoc id= °transgova?-touch.txt™> <para id=”1"+>

sentence id="1">In the United States and in other democracies, citizens

can influence goverment on a daily basic, mot just on election day

hiện, */sentencez> 19 <fpara> a5 <fendoc> 46 = <undoc id=“transgov@7-dec_transgov_y.txt"> 3+ tara*

đã ‹sentence id="1">Ở Mỹ cũng như ở các nền dan chủ khác, cơng đan cĩ thể ảnh

ae hưởng đối với chính phủ hàng ngày chữ khơng phải chỉ trong các kyc bBu cử </sentence> <£/para? <fundoc > éfdocumernt>

Tập tin XML trong kho ngữ liệu Biext-P1B [2j

Thực hiện chức năng chuyển đổi sang cầu trúc và định dạng của kho ngữ liệu

phục vụ đánh giá:

26

Trang 31

kỗi Chuyển đổi dữ liệu — oO xX |

Chuyển đổi dữ liệu của Bitext-PTB

Kết quả sẽ cho file XML với nội dung như sau:

- <DOC Domain="News ">

“SENT id="i"> <TXT_E>

In the United States and in the other democracies, citizens can influence

tàn goverment on a dayly basic, not just on election day

oe </TRT_E> es —— ‹TXT V»

`7 _—— Ở Hệ cũng như ở các nền dan chủ khắc, cơng đân cĩ thế ảnh hưởng đối với chính phủ hàng ngày chứ khơng phải chỉ trong các kỳ bầu cử

‹/TXT.W›

a PSENT>

-_4/BQC?z- - -

Eile XML trong kho ngữ liệu phục vụ danh gid tu Bitext-PTB

c4 C A ¬ = ^ gt T c - z ¬

Cơng cụ biệu đính bao gơm các chức năng chính sau:

Chức năng View: hiển thị các cặp câu song song theo từng lĩnh vực để các

chuyên gia xem theo từng lĩnh vực như xã hội, pháp luật, bĩng đá, y tế, sinh học

Chức năng Edit: cho phép sửa đổi nội dung của câu nguồn, câu đích; xố các

cặp câu khơng tơt,

Chức năng Add : Thêm mới các cặp câu nguơn - đích

Trang 32

SMSD has coliaborated with producer Teddy Riley, who is ¢ Nhĩm nhac SNSD đã họp tắc với nhà sản xuất Teddy Riley,

famous for producing for the late Michael Jackson in order to người nỗi tiếng về việc săn xuất nhạc cho ca sĩ quá cơ Michael

take the world by storm Jackson nhằm chính phục cả thể giới,

= ee

Similar to her hairstyle a few years ago her hair is short and Tương tự như kiểu tĩc của cơ ấy vài sầm trước đây mải tĩc ngắn

4 styled to the side, making Seo In Young lock sophisticated and eos) va dA sang mối bên làm cho Seo in Young trơng tinh té v3 sang

ie

i 2 208 »

With a strong eiectronic hackground sound and an addictive chorus, Sec in Young's powerful vocals are brought to life

vọng về ca khúc nãy trếp tục tăng cao Yuri continued saying "The atmosphere of the whole recording chơ biết "đầu khơng khí của cả phịng thu thực sự studio was really comfortable.~

Hiéu dinh dit liéu

HI.4 XÂY DỰNG CHỨC NĂNG IMPORT

Sau quá trình hiệu đính và đánh giá chất lượng dịch, chúng ta thu được bản dịch

chính xác Dữ liệu này sẽ được import vào kho ngữ liệu dùng để đánh giá chất lượng

Trang 33

——-

.——— —-

dette,

_IH.5 KẾT LUẬN

Trong chương này chúng tơi đã thực hiện việc xây dựng hệ thống xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động Anh-Việt Quá trình xây dựng này dựa vào các đê xuât ở chương 2

Các giải pháp để xây dựng phụ thuộc vào việc nghiên cứu nhiều hệ thống dịch tự động cũng như các kho ngữ liệu Việt — Anh địi hỏi cần nhiều thời gian Vì vậy

trong phạm vi báo cáo này chúng tơi chủ yếu cài đặt các chức năng chính của hệ thống xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động

! vàng

cốt Rtg pal

háo ị th Ỷ bn it n

Trang 34

KET LUẬN VÀ KIÊN NGHỊ

Đến nay hâu như chưa cĩ nghiên cứu cụ thể cũng như cơng cụ nào đề đánh giá chất lượng của các hệ thơng dịch tự động tiêng Việt Vì vậy, chúng tơi đã nghiên cứu giải pháp xâ/ đựng xha ngữ liệu để các hệ thơng khai thác đê đánh giá châ: lượng dịch tự động tiếng Việt

Hai giải pháp để xây dựng kho ngữ liệu phục vụ đánh giá chất lượng địch tự động tiếng Việt được đưa ra trong nghiên cứu này là sử dụng lại các kho ngữ liệu dịch tự động đã được xây dựng và sử dụng các hệ thong dich tự động để dịch và lay két qua

dich làm câu đích Cả hai giải pháp trên đều thực hiện q trình hiệu đính kết quả dịch

trước khi đưa vào kho ngữ liệu phục vụ đánh giá

Về mặt thực nghiệm chúng tơi đã đưa ra định dạng và câu trúc của kho ngữ liệu phục vụ đánh giá dịch tự động Từ đĩ xây dựng cơng cụ để hợp nhất các kho ngữ liệu tiếng Việt sẵn cĩ Bên cạnh đĩ cơng cụ đề các chuyên gia thực hiện việc hiệu chỉnh đữ

liệu hợp nhất này và từ các kết quả dịch của các hệ thống dịch tự động cũng đã được

cài đặt Sau khi cĩ được bản dịch chính xác, đữ liệu sẽ được Import vào vào kho ngữ

liệu phục vụ đánh giá

Trong thoi gia dén chúng tơi kết hợp các hoạt động hiệu đính bản dịch máy với

đánh giá chất lượng, giúp giảm chi phí và nâng cao độ chính xác Việc phát triển cơng cụ hiệu đính trên mơi trường web để nhiều người tham gia đánh giá, hiệu đính cũng sẽ

được thực hiện Đồng thời sẽ nghiên cứu các hàm API của các phần mềm dịch tự động

_ để thực tích hợp vào phần mềm nhằm nâng cao hiệu quả

nim kgs ta cứ edt

Ny Sats che kh Họ 8

Trang 35

TÀI LIỆU THAM

Đào Thị Hồng Thu, Ngơn ngữ học khối liệu trong nền kinh tế tồn cầu, http://repository.vnu.edu.vn/bitstream/VNU 123/1450/1/2-ao%20Hong

%420Thu-c.Huong%20edit.pdf, truy cập ngày 15/3/2016

Hồ Quốc Bảo, Đinh Điền, Đặng Bác Lâm, Lương Vỹ Minh (2008), Báo cáo kỹ thuật đề tai nhanh SP.74, http://www jaist.ac.jp/~bao/VLSPtext/March2008/

SP.74_ Baocaokythuat200§thang3.pdf, truy cập ngày 15/4/2016

Huyn¡ Cơng Pháp, Nguyễn Văn Bình, Đặng Đại Thọ, Cải tiến chất lượng dịch

máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ

thống dịch tiếng Việt, CTT 2016

Trung tâm từ điển học Vietlex, Giới thiệu Kho ngữ liệu tiếng Việt (Vietnamese Corpus), http://www.vietlexcom /help/about_corpus.htm, truy cập ngày 27/09/2016

Xây dựng và khai thác Kho Ngữ liệu Song ngữ Anh-Việt, Trung tâm Ngơn ngữ học Tính tốn của Trường ĐH Khoa học Tự nhiên - Tp.HCM, http://www.clc.hcmus.edu.vn/2?page id=1506, truy cập ngày 30/09/2016 Kho ngữ liệu song ngữ tiếng Anh - tiếng Việt EVC, Trung tâm Ngơn ngữ học

Tinh tốn của Trường DH Khoa học Tự nhiên - Tp.HCM,

http://www.clc.hcmus.edu.vn/wp-content/uploads/resources/Corpus/ CL

C_EVC.zip, truy cap ngay 30/09/2016

Đinh Điền, Lý Ngọc Minh, Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngơn ngữ, hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngơn ngữ,

11/2015, Huế, tr.559-567

Ngữ liệu da ngữ hỗ trợ khách du lịch khi đi nước ngồi, Trung tầm Ngơn ngữ học Tính tốn của Trường ĐH Khoa học Tự nhiên - Tp.HCM,

http://www.clc.hcmus.edu.vn/wp-content/uploads/resources/Corpus/CL

C VTB.zip, truy cap ngay 15/11/2016

So sdnh 2 céng cu dich van bản: Google Translate vs Microsoft Translator, https://www.trangcongnghe.com/tin-tuc-cong-nghe/tin-quoc-te/28544- so-sanh-2-cong-cu-dich-van-ban-google-translate-vs-microsoft-translator

htm], truy cập ngày 15/11/2016

Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, Kỷ yếu Hội nghị Quốc gia lần thie VIII vé Nghiên cứu cơ bản và ứng dụng Cơng Nghệ thơng tin (FAIR), 2015

Huynh C-P (2010): Des suites de test pour la TA a un systéme d’exploitation

de corpus alignés de documents et métadocuments multilingues,

multiannotés et multimedia PhD thesis-National Polytechnic Institute of

Grenoble

Arne Mauser, Hermann Ney (2008), Automatic evaluation measures for

statistical machine translation system optimization, International

Trang 36

ĐẠI HỌC ĐÀ NẴNG CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

RUONG CD CONG NGHE THONG TIN Độc lập - Tự do - Hạnh phúc

HOP DONG TRIEN KHAI THUC HIEN

DE TAI KHOA HOC & CONG NGHE CAP CO SO NAM 2016

S6: T2016-07-16/HD/KHCN

Căn cứ Quyết định số 19/2005/QD- BGD&DT, ngay 15 tháng 6 năm 2005 của Bộ ớng Bộ Giáo dục và Đào tạo về việc ban hành Quy định về hoạt động khoa học và cơng \Ệ trong các trường Đại hoc, Cao dang;

Căn cứ Danh mục các đề tài KHCN năm 2016 được tuyển chọn và cấp kinh phí kèm o Quyết định số 155/QD-CDCNTT ngày 05/04/2016 của Hiệu trưởng Trường CÐ Cơng ệ Thơng tin;

Sau khi xem xét mục tiêu, nội dung nghiên cứu của đề tài: “Nghiên cứu giải pháp

: dựng kho ngữ liệu phục vụ đánh giá chât lượng dịch tự động tiêng Việt”

Mã số: T2016-07-18

Hơm nay, ngày 25 tháng 04 năm 2016, chúng tơi gồm:

Bén A: TRUONG CAO DANG CONG NGHE THONG TIN, DH DA NANG

- Đại diện là: TS Huỳnh Cơng Pháp - Chức vụ: Phĩ Hiệu trưởng

Bên B: CHỦ NHIỆM ĐÈ TÀI |

- Ong/Ba: Đặng Đại Thọ - Đơn vị: Tổ KT, ĐBCL & TTGD

Hai bên đã bàn bạc, thỏa thuận và ký hợp đơng thực hiện đề tài NCKH cấp cơ sở do yng Cao đăng Cơng nghệ Thơng tin quản lý với các điều khoản sau:

Điều 1: Bên B chịu trách nhiệm tơ chức triển khai các nội dung nghiên cứu như đã nêu g thuyết minh được phê duyệt và nộp các sản phẩm khoa học đã mơ tả trong thuyết 1 Thời gian nộp sản phẩm: trước ngày 1Š tháng 12 năm 2016

Ngồi ra, tài sản cố định nếu được mua sắm hoặc cap bang hiện vật từ kinh phí của đề au khi đê tài kêt thúc được chuyên giao cho cơ quan chủ trì đê tài sử dụng và quản lý

Diéu 2: = $ ĩc ‹di co bên B số tiền là: 7 triệu đồng theo kế hoạch sau đây

- Tháng 5/2016: 4 triệu đồng - Thang 12/2016: 3 triệu đồng

Điều 3: Hai bên thoả thuận việc kiểm tra thực hiện hợp đồng vào các thời điểm sau:

- Kiém tra tiến độ thực hiện đề tai: thang 09/2016 - Nghiém thu dé tai truée ngay 20 thang 12 năm 2016

Trang 37

Điều 4: Sau khi hồn thành nhiệm vụ ghi ở Điều 1, hai bên chịu trách nhiệm cùng tơ k- đánh giá nghiệm thu sản phẩm theo đúng các quy định về tơ chức thực hiện đề tài =n cứu khoa học và cơng nghệ câp cơ sở Sản phẩm của bên B được Hội đồng đánh giá em thu cấp cơ sở nghiệm thu được coi là chứng từ để thanh lý hợp đồng

Điều 5: Hai bên cam kết thực hiện đúng các điều khoản đã được ghi trong hợp đồng kbên nào vị phạm phải chịu trách nhiệm theo các quy định hiện hành

Điều 6: Hợp đồng cĩ giá trị kể từ ngày ký Hợp đồng này làm thành 4 bản Bên A giữ R bên B giữ l bản

ĐẠI DIỆN BÊN A ĐẠI DIỆN BÊN B

z9 HEU TRUONG CHU NHIEM DE TAI

s Pere BR LÁA—

¬

E——S 2t

Trang 38

ĐẠI HỌC DA NANG

TRUONG CD CONG NGHE THONG TIN CONG HOA XA HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

THUYET MINH DE TAI ;

KHOA HỌC & CONG NGHE CAP CO SO

(DO TRUONG CAO DANG CONG NGHE THONG TIN QUAN LY)

1 TEN DE TAL Nghiên cứu giải pháp xây dựng kha ngữ liệu phục -

tụ đánh giá chất lượng dịch tự động tiếng Việt ' 2, MA SỐ T2016-07-13

3 LĨNH v7? NGHIÊN CỨU Tự nhìn | | iy thuật Kinh tế; L]j] - - [ ] XH-NV Nơng Lâm Giáo dục | | Y Dược | Mơi tường LÌ ATLD | ] tine LÍ

4 LOẠI HÌNH NGIHÊN CỨU

Cơ ban Lo Ứng = fren dung Khai | x ix eam -

&, THỜI GIAN THỤC HIỆN ¡2 tháng

Từ tháng 0! năm 2016 đến tháng 12 năm 2016

6.CO 6 QUAN CHU TRI DE TAL (don vị thành viên ĐHĐN)

Tên cơ quan; Trường Cao đẳng Cơng nghệ Thơng tin

Điện thoại: 0511.3667117

E-mail: hanhchinh.cit@gmail.com

Địa chỉ: Làng Đại học, Phường Hịa Quý, Q Ngũ Hành Sơn TP Dã Nẵng Ho va tén thủ trưởng cơ quan chủ trì: T§ Trần Tân Vinh

?7.CHỦ NITEM DE TAI

Hío và tên: Đặng Đại Thọ

Chức đanh khoa học;

Don vi: T6 KT-DBCL&TTGD

Dién theai co quan: 0511.3962529

Dị động: 0914 333 845 E-mail: ddtho.dt@gmail.com

Học vị: Thạc sĩ

Nam sinh: 17/4/1978

Dia chi nha riéng: 16 Mj An 7, Da Nang

Điện thoại nhà riêng :

Fax:

8 NHỮNG THÁNH VIỄN THAM GIÁ NGHIÊN CỨU DE TAI

Đơn vị cơng tác và Nội dung nghiên cứu cụ thể TAS tee x 4 :

Banner

TT Họ và tên me lĩnh vực chuyển mơn + To TA ca được giao : Chữ ký Phong Dao tao & NCKH | Tham gia nghiên cứu giải

ThS Nguyễn Văn

Binh

phap

9, DON Vi PHO! HOP CHINE

Tén don vi

trong và ngồi nước Nội đụng phối hợp nghiên cứu

¥

Họ và lên người đại điện đơn vị

Trang 39

r” ị

_10, TONG ¢ QUAN TỈÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CUA DE TAL O TRONG VA NGỒI NƯỚC

¡ 10.1 Trong nước và ngồi nước:

Ngày nay trên thê giới đã tơn tại nhiêu kho ngữ liệu song song, miễn phí hoặc thương | ep Y + ® & ‘ fy i

mại đối với người dùng Tuy nhiên, việc khai thắc và sử dụng các kho ngữ liệu này con | nhiêu bãi cập Đơi với các kho ngữ liệu miền phí mặc dù cĩ kích thước tương đơi lớn nhưng chất lượng cịn thơ nên khơng thê áp dụng được trực tiếp vào một sơ hoạt động trong

lĩnh vực địch tự động Muơn sử dụng được các kho này, mỗi tế chức hoặc cá nhân phải

thực hiện việc nâng cấp, trích lọc đữ liệu từ các kho ngữ liệu này trước khi sử dụng Đối '

+ * ~ xi * se % A 4 £ ~ TA ` * # # F

với các kho ngữ liệu thương mại, mặc dủ hâu hết các kho ngữ liệu này thường cĩ kích | thước lớn và chất lượng tốt nhưng khơng chia sẽ cho cộng đơng người dùng mà chủ yếu

mang tính thương mại hoặc phục vụ cho riêng các cơng ty như Systran, IBM

Đối với tiếng Việt, các kho ngữ liệu quá khiêm tơn vẻ cả sơ lượng và chất lượng Các

kho ngữ liệu dùng để đánh giá chất lượng địch tự động tiếng Việ càng khiêm tốn hơn

t

: 12, MỤC TIỂU ĐỀ TÀI

it TINIE CAP THIET CUA DE TAL

Kho ngữ liệu phục vụ đánh giá chất lượng địch tự động rất quan trọng và cần thiết,

Tuy nhiên, hiện nay số lượng và chất lượng kho ngữ liệu dùng để đánh giá chất lượng dịch

tiếng Việt rất khiêm tốn Do vậy, trong đề tài này chúng tơi đề xuất giải pháp nhằm xây

dụ ựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tiếng Việt

Mục tiêu chính của để tài là đề xuất các giải pháp xây đựng kho ngữ liệu phục vụ dánh giá chất lượng dịch tự động tiếng z Việt, Đề đạt được mục tiêu chính trên, đề tải tập trung giải quyết các nội dung cu thé gom:

\ Nghiên cứu cấu trúc, định dạng và kích thước các kho ngữ liệu phục vụ đánh giá

chất lượng dịch tiếng Việt hiện cĩ

⁄ Nghiên cứu các giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch

hiện nay

⁄ Để xuất giải pháp và quy trình xây dựng kho ngữ liệu đánh giá chất lượng dịch tiếng Việt

Xây dựng hệ thơng quản lý và tạo kho ngữ liệu phục vụ đánh giá chất lượng địch tiếng Việt

13 DĨI TƯỢNG, PHẠM VI NGHIÊN CỨU

13.1 P43 trons nghiên cửu

¬ 4

w k ty ut :

Y Cac céng cu chuyén đổi, hiệu chỉnh, đữ liệu

⁄ Các phương pháp xây dựng kho ngữ liệu 13.1 Pham vi nghiên cứu

ˆ Kho ngữ liệu song ngữ, đa ngữ tiếng Việt

Trang 40

L4, CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU

14.1 Cách tiếp cận

Ứng dụng trực tuyến, desktop

14.2 Phương pháp

*ˆ Phương pháp tài liệu:

4 Phương pháp thực nghiệm

¥ Su dung các nguơn tài liệu sẵn cĩ trên mạng;

¥ Nehién cứu tơng quan

15.2 Tiến độ thực hiện

1ã NỘI DỤNG NGHIÊN CỨU VÀ TIỀN ĐỘ THỰC HIỆN

15.1 Nội dung nghiên cứu Qưừnh bày dưới dụng đề cương nghiên cứu chỉ tiê)

⁄ Cài đặt hệ thống xây dựng kho ngữ liệu đánh giá

Các nội đụng, cơng việc San phim Thoi gian

2 chất lượng dịch tự động tiếng Báo cáo dén 8/2016

STT thực hiện ia (bắt đầu-kết thúc) Người thực hiện

TU tàn li ota u to ah at 3 vế , Từ 01/2016 ad Sey x De " ;

| Nehtén cuu tong quan Bao cao đến 03/2016 Dang Dat | no -

Nghiên cứu giải pháp xây dựng

kho ngữ liệu phục vụ đánh giá Từ 4/2016 Đặng Đại Thọ Nguyên Văn Bình

Dang Da: Tho

Việt He

Phần °

Thiết kế, cài đặt phần mềm mềm + 2/2016

3} ARISE IRS: GALES P dén 10/2016

to ung ko gh aa Te 11/2016

4 | Viet bao cáo tơng kết đề tài Báo cáo dén 12/2016 (2016 Nguyên Văn Bình

16 SAN PHAM

16.1 San pham khoa học

Bài báo đăng kỷ yêu của Trường 16.2 Sản phẩm đảo tạo -]}6.3.San phẩm ứng dụng Chương trình máy tỉnh LJ

v Phan tich, dua ra cac cde giai phap nham xay dung kho ngif ligu phuc vu danh gia | chât lượng địch tự động tiếng Việt

ese nee oie

i ị i

- 16.4.Các san pham khac oo cece eter eee che

| 16.5, Tên sán phẩm, số lượng và yêu cầu khoa học đỗi với sản phẩm

cảm TT — ——=

Sư Tên sản phẩm Số lượng Yêu cầu khoa học |

| Bai bao đăng kỷ yêu trường "Ol Đảm báo chất lượng |

ne ~ ° ~ 4

2 Phan mem ứng dụng 01 Phực nghiệm

3 oe VÀ 2 › w N ¬

3 Báo cáo tơng kết 01 Đây đủ, đúng quy định

L 17 HIỆU QUÁ (giáo dục và đào tạo, kinh tổ - xã đội)

Ngày đăng: 13/07/2023, 10:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w