Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch vụ tự động tiếng Việt

44 0 0
Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch vụ tự động tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

các kiểu khác nhau của tri thức với mô hình mờ TSK hướng dữ liệu (datadriven models) trích xuất từ máy học véctơ hỗ trợ cho bài toán dự báo hồi quy nhằm cải tiến hiểu quả của mô hình. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

DAI HOC DA NANG TRUONG CD CONG NGHE THONG TIN BAO CAO TONG KET DE TAI KHOA HOC VA CONG NGHE CAP CO SO NGHIÊN CỨU GIẢI PHÁP XAY DUNG KHO NGU LIEU PHỤC VỤ ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TU DONG TIENG VIỆT Mã số: T2016-07-13 la quan chủ trì đề tài NOHO HIEU TRUGN Chủ nhiệm đề tài Da Nang, Thang 12/2016 MUC LUC Churong I Nghién ctru tng Quan .-ssssecsessecsecsesuseseessesenscesseevessesseseesess | , I.1 Tổng quan kho ngữ liệu ¿5c St xsc+veeserre2 "— 1.2 Kho !ipữ lIỆU 207 SOT ng ng khen Án ; 1.2.1 Tổng quan kho ngữ liệu song song -5c s5 ¬ L2.2 Một số kho ngữ liệu song song phơ biến -cịcccss2 L.2.3 Nội dung kho ngữ liệu song song àààằị I.3 Kho ngữ liệu dịch tự Động tiếng VIỆT TQ nn Sen ve L4 Hiệu đính, đánh giá chất lượng dịch . ¿ ¿- ccc S22 ssxexsveo | 1.4.1 Hiệu đính dịch máy (post-editmg) — 1.4.2 Đánh giá chất lượng dịch -cscc2csvcerrtrisrrrrrrerrrrrir 1.5 Mot so thống địch tự động tiếng VIỆt -.SÁ nàn ce sec 1.5.1 Google trafs ÌafOT- .- - n1 HH HH HH _ L5.2 Microsoft transÌafOr -5s+ tt ket 91211111 1e ke 10 I.5.3 Google trans lator Microsoft transÏafOT . -«-« c- I1 "3 Í “hương mẽ 12 H Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng việt Án ìì He xe 13 ca ÒỎ 13 | I.2 Xây dựng kho ngữ liệu phục vụ đánh giá kho ngữ liệu sẵn có 13 HL.2.1 Phân tích kho ngữ liệu song song tiếng Anh - Việt 13 | _ JL2.2 Xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch 17 _H.3 Xây dựng kho ngữ liệu phục vụ đánh giá cachsử dụng hệ thống HH0 T00 tk th th - - ng dịch tự động .- ¡1 20 22 "hương III xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động 4000000006000 000061144460895994 23 9i 9.40990999999501 9.1 0.006 ¡i0 coi — 23 HI2 Chuyên đôi cán, kho ngữ liệu định dạng cầu trúc kho ngữ hea "nhục Ẻ VU GAMA iow II.3 Xây dựng cơng cụ hiệu đính . - Ăn I4 Xây dựng công cụ impOTf ¡i88 {si Kết luận kiến nghị sessssssaseeeeeeessseess sesassssscaeeeeaeeseeceenes _ + Iv/56 28 29 30 CONG HOA XA HOI CHU NGHIA VIET NAM Déc lap — Tw — Hanh phúc DAI HOC DA NANG TRUONG CB CONG NGHE THONG TIN THONG TIN KET QUA NGHIEN CUU Thông tin chung: Nghiên - Đề tài: cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng Việt - Mã số: T2016-07-13 - Chủ nhiệm: Th§ Đặng Đại Thọ - Thành Th§ Nguyễn Văn Bình viên tham gia: - Cơ quan chủ trì: Trường CÐ Cơng nghệ Thơng tin - Đơn vị thực hiện: Tổ KT-ĐBCL&TTGD - Thời gian thực hiện: 12 tháng Mục tiêu: Mục tiêu để tài để xuất giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng 3;c t¿ độn; tiếng Việt Đê đạt mục tiêu trên, chún, ôi tập trung giải nội dung cụ thê sau: - Nghiên cứu cầu trúc, định đạng kích thước kho ngữ liệu tiếng Việt nhiều người biệt đên - Nghiên cứu giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch - Đề xuất giải pháp quy trình xây dựng kho ngữ liệu đánh giá chất lượng dich tiếng Việt - Xây dựng hệ thống quản lý tạo kho ngữ liệu phục vụ đánh giá chất lượng địch tiếng Việt Tính sáng tạo: v/56 Cải tiến chất lượng kho ngữ liệu tiêng Việt có sẵn có kêt qua hệ thống dịch tự động để xây dựng kho ngữ liệu phục vụ đánh giá Tóm tắt kết nghiên cứu: Một báo đăng hội thảo CITA 2016 Phần mềm xây dựng kho ngữ liệu đánh giá địch tự động th Tên sản phẩm: ĐỂ đà Hiệu: qua, ợ SmabuCopus phượng dung: su dung Trường r thức A A + oA z ¬ Hà we chuyển giao kết nghiên cứu khả áp CÐ Công nghệ Thông tin Hình ảnh, sơ đồ minh họa Đà Nẵng, ngày 18 tháng I2 năm 2016 Cơ quan chủ trì Chủ nhiệm đề tài ae Dang Dai Tho Huỳnh Công Pháp v56 MO DAU Ngày có nhiều cơng cụ địch tự động tiếng Việt nhiều người sử dụng, tiêu biéu nhu nhu Google Translator, Microsoft Translator, EVTRANS, Viéc danh giá chất lượng hệ thống nhiều người quan tâm Tuy nhiên, đến chưa có nghiên cứu cụ thể để đánh giá chất lượng dịch tự động tiếng Việt hệ thống Trên giới có nhiều giải pháp đánh giá chất lượng dịch tự động Đa số giải pháp cân phải có kho ngữ liệu với đặc trưng riêng, đảm bảo số lượng chất lượng để phục vụ cho mục đích đánh giá Tuy nhiên, đến số lượng chất lượng kho ngữ liệu dùng để đánh giá chất lượng dịch tiếng Việt khiêm tốn Vì vậy, đề tài nghiên cứu để xuất giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng Việt Báo cáo tổng kết trình bày chương Chương trình bày kết nghiên cứu tổng quan kho ngữ liệu hệ thống dịch tự động Chương trình bảy giải pháp nhằm xây dựng kho ngữ liệu phục vụ đánh giá chất lượng dịch tự động tiếng Việt báng cách sử dụng lại kho ngữ liệu dịch tự động sha cé Và SỬ dụng hệ thống địch tự động để dịch Chương trình bày việc xây dựng kho ngữ liệu đánh giả CHUONG I NGHIEN CU'U TONG QUAN 1.1 TONG QUAN VE KHO NGU LIEU Kho ngữ liệu (corpus) dùng để tập hợp văn ngôn ngữ khác dạng điện tử Đây khái nệm ngôn ngữ học khỗi liệu Theo T McEnery A Wilson, kho ngữ liệu phải thỏa tính chất sau: + Kho ngữ liệu gơm tập văn .+- si Kho ngữ liệu phải cho phép sử dụng dễ dàng thường xuyên + Kho ngữ liệu phải xây dựng phải hàm chứa phong cách va biểu cảm ngôn ngữ Trong lĩnh vực ngôn ngữ học, kho ngữ liệu theo tiếng Latin có nghĩa tức khối văn (any body of text) Tuy nhién, xét kho ngữ liệu sở nghiên cứu phương pháp xây dựng trợ giúp máy tính xử lý thơng tin kho ngữ liệu gơm đặc điểm sau: Các + — Các ngôn ngữ phải đồng điện hình + Có kích cỡ xác định + Ở đạng đọc máy tính + — Có giải chuân vê mặt ngôn ngữ ngữ liệu kho sử dụng để nhận biết thông tin hướng dân, tham khảo số liệu thống kê đơn vị ngơn ngữ lời nói Kho ngữ liệu có thê cưng cấp cho người sử dụng thông tin vệ tân sô hoạt động từ cụm từ, lexeme v.v Kho ngữ liệu cho phép theo dõi thay đổi tần số sử dụng đơn vị từ vựng ngữ cảnh giai đoạn phát triên khác lịch sử xã hội loài người Khi nhận đữ liệu ngôn ngữ giai đoạn phát triển lịch sử định từ kho ngữ liệu, người sử dụng nghiên cứu q trình biến đổi thành phần từ vựng ngôn ngữ thực tế, tiến hành phân tích cú pháp thê loại văn tác giả khác Kho ngữ liệu sử dụng làm sở cho việc chuẩn bị loại từ điển đại lịch sử khác cách nhanh chóng hiệu Vai trị ngơn ngữ học khối liệu cảng khẳng định công trình nghiên cứu kho ngữ liệu cho thấy kho ngữ liệu sử dụng để xây dựng kĩ kiểm tra ngữ pháp trình day hoc ngoai ngữ dịch thuật [1 j Một tập văn (tài liệu) viết băng nhiều ngơn ngữ gọi kho ngữ liéu da ngtr (multilingual corpora) Một tập văn (tài liệu) ngơn ngữ khác mà có chu dé gọi kho ngữ liệu (có thé) so sanh (comparable corpus) Một tập văn (tài liệu) nhiều ngơn ngữ khác nhau, trona có ngôn ngữ nguồn (hoặc nhiều) ngôn ngữ đích (được địch từ ngơn ngữ nguồn) gọi kho ngữ liệu song song (parallel corpus) [2] 1.2 KHO NGU LIEU SONG SONG L2.1 Tổng quan kho ngữ liệu song song Kho ngữ liệu song song tài nguyễn thiết u tính tốn ngơn ngữ học (Hnguistic computing) Các kho ngữ liệu song song sử dụng cho nhiều mục tiêu khác : nghiên cứu ngơn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy, Kho ngữ liệu song song (parallel corpus) tập văn (tài liệu) nhiều ngôn ngữ khác nhau, có ngơn ngữ nguồn (hoặc nhiêu) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) Liên kết văn hiểu q trình xác định nhiều thực thé văn ngơn ngữ khác có tương đồng nội dung Liên kết văn nhiều khác mức nhau: tài liệu (document alignment), doan (paragraph alipnmenf), câu (sentence alignmenf), cụm (phrase alignment), ti (word alignment) + Mức tài liệu: tài liệu kho ngữ liệu liên kết đôi một, tài liệu dịch tài liệu + Mức đoạn: đoạn hai tài liệu hai ngôn ngữ liên kết với nhau, đoạn địch đoạn + Mức câu: tài liệu song ngữ liên kêt mức câu, câu dịch câu + Mức cụm từ: cụm từ cặp câu liên kêt đôi một, cụm từ lả dịch cụm từ + — Mức từ: từ câu liên kết hàng cặp, từ từ địch av Cua +} UF He Kla Kho ngữ liệu song song thu thập từ nhiều nguồn khác nguồn dạng giấy viết nguôn dạng tài liệu dạng điện tử Nguồn tài nguyên dạng giấy viết tìm thấy dễ đàng sách học ngoại ngữ, sách truyện, tài liệu song ngữ từ điển song ngữ Việc thu thập liệu từ nguồn tài nguyên đơn giản, nhiên trình nhập liệu vào máy tính tốn nhiều thời gian cơng sức Nguôn tài nguyên điện tử phong phú đưới dạng hàng tỷ trang web đa ngữ |2] L2.2 Một số kho ngữ liệu song song phổ biến Ngày tồn nhiều kho ngữ liệu song song, miễn phí thương mại người dùng Tuy nhiên, việc khai thác sử dụng kho ngữ liệu nhiều bất cập Đối với kho ngữ liệu miễn phí (bảng bên dưới), có kích thước tương đối lớn chất lượng cịn thơ nên áp dụng trực tiếp vào số hoạt động lĩnh vực chức dịch tự động Muốn sử dụng này, kho tổ cá nhân phải thực việc nâng cấp, trích lọc liệu từ kho ngữ liệu trước sử dụng Đối với kho ngữ liệu thương mại, hầu hết kho ngữ liệu thường có kích thước lớn chất lượng tốt khơng chia cho cộng đồng người dùng mà chủ yêu mang tính thương mại phục vụ cho riêng công ty nhu Systran, IBM [11] Dưới danh sách kho ngữ liệu song song phô biến nay: EuroParl 407.069.444 II 37.006.315 Hansard 47.389.000 23.694.500 1.055.583.954 22 47.981.089 XinHua News 29.000.000 14.500.000 OPUS 30.000.000 60 500.000 JR Acquis Danh sách kho ngữ liệu song Song bién Error! Reference source not found.1] 1.2.3 Nội dung kho ngữ liệu song song Kho ngữ liệu song ngữ chứa văn hai ngôn ngữ khác gióng hàng the cá: cấp đệ đơn vị ngôn ngữ khác Các kho ngữ liệu song song thường có nội dung đa lĩnh vực kinh tế, trị, văn hố, xã hội, kỹ thuật, Các kho ngữ liệu song song có thé chứa liệu thô (nội đung văn bản) phân tích để gán thêm nhãn ngơn ngữ ranh giới từ, từ gôi, từ loại từ v.v [2]

Ngày đăng: 25/12/2023, 00:17

Tài liệu cùng người dùng

Tài liệu liên quan