1. Trang chủ
  2. » Thể loại khác

NGHIÊN CỨU ỨNG DỤNG NGÔN NGỮ UNL ĐỂ PHÁT TRIỂN HỆ THỐNG DỊCH TỰ ĐỘNG CHO TIẾNG VIỆT

85 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 4,12 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP BỘ MÃ SỐ : B2010-ĐN02-56 NGHIÊN CỨU ỨNG DỤNG NGÔN NGỮ UNL ĐỂ PHÁT TRIỂN HỆ THỐNG DỊCH TỰ ĐỘNG CHO TIẾNG VIỆT Chủ nhiệm đề tài : PGS.TS Võ Trung Hùng ĐÀ NẴNG, năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP BỘ MÃ SỐ : B2010-ĐN02-56 NGHIÊN CỨU ỨNG DỤNG NGÔN NGỮ UNL ĐỂ PHÁT TRIỂN HỆ THỐNG DỊCH TỰ ĐỘNG CHO TIẾNG VIỆT Chủ trì đề tài : PGS.TS Võ Trung Hùng Cán tham gia : GS.TSKH Christian Boitet ThS Nguyễn Hữu Siêu KS Nguyễn Năng Hùng Vân ĐÀ NẴNG, năm 2011 MỤC LỤC HÌNH ẢNH HÌNH GIAO DIỆN TRANG CHỦ CỦA SYSTRAN HÌNH GIAO DIỆN PHẦN MỀM DỊCH TỰ ĐỘNG REVERSO .7 HÌNH GIAO DIỆN CỦA GOOGLE TRANSLATOR .8 HÌNH GIAO DIỆN DỊCH TRỰC TUYẾN VDICT 12 HÌNH KIẾN TRÚC HỆ THỐNG ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TRÊN MẠNG 16 HÌNH GIAO DIỆN CỦA CƠNG CỤ ĐÁNH GIÁ MỘT HỆ THỐNG DỊCH 17 HÌNH BIỂU DIỄN ĐỒ THỊ CỦA UNL CHO VÍ DỤ 22 HÌNH BIỂU DIỄN ĐỒ THỊ CỦA UNL CHO VÍ DỤ 22 HÌNH BIỂU DIỄN BẰNG ĐỒ THỊ CỦA UNL 23 HÌNH 10 TỔNG QUAN HỆ THỐNG UNL 41 HÌNH 11 HỆ THỐNG UNL CỦA NEPALI 42 HÌNH 12 DỊCH MÁY SỬ DỤNG UNL 42 HÌNH 13 QUÁ TRÌNH ENCONVERTER 43 HÌNH 14 QUÁ TRÌNH HIỂN THỊ VĂN BẢN DƯỚI NGÔN NGỮ MONG MUỐN 44 HÌNH 15 CẤU TRÚC CỦA LANGUAGE SERVER 44 HÌNH 16 QUÁ TRÌNH ENCONVERTẺ VÀ DECONVERTER .45 HÌNH 17 CẤU TRÚC CỦA HỆ THỐNG ETAP-3 50 HÌNH 18 QUÁ TRÌNH TƯƠNG TÁC GIỮA CÁC MODULE CỦA ETAP- 51 HÌNH 19 GIAO DIỆN ETAP3- TIẾNG ANH - UNL 52 HÌNH 20 GRAPH VIEW .53 HÌNH 21 CHẾ ĐỘ HIỂN THỊ UNL VIEW 54 HÌNH 22 CHẾ ĐỘ HIỂN THỊ CDL VIEW 54 HÌNH 23 CHẾ ĐỘ HIỂN THỊ RDF VIEW 55 HÌNH 24 QUI TRÌNH CHI TIẾT DỊCH TỰ ĐỘNG TRONG UNL 56 HÌNH 25 GIAO DIỆN CỦA HỆ THỐNG DECONVERTER UNL – TIẾNG NGA 60 HÌNH 26 MÀN HÌNH KẾT QUẢ CỦA DECONVERTER UNL – TIẾNG NGA 60 i HÌNH 27 QUI TRÌNH XÂY DỰNG TỪ ĐIỂN UNL – TIẾNG VIỆT 67 HÌNH 28 MỤC TỪ “AVOIR”TRONG TỪ ĐIỂN UNL-FR 67 HÌNH 29 CHI TIẾT MỤC TỪ “ABALONE” TRONG TỪ ĐIỂN ANH – VIỆT 68 MỤC LỤC BẢNG BIỂU BẢNG BẢNG CHỮ CÁI TIẾNG VIỆT .9 BẢNG BẢNG CÁC THANH ÂM TRONG TIẾNG VIỆT .9 BẢNG BẢNG ĐIỂM ĐÁNH GIÁ SYSTRAN VÀ REVERSO .18 BẢNG KẾT QUẢ SO SÁNH HEADWORD TỪ ĐIỂN UNL-FR VÀ ANH – VIỆT 69 BẢNG KẾT QUẢ CÁC TỪ LOẠI TRONG TỪ ĐIỂN UNL - TIẾNGVIỆT 69 ii MỤC LỤC MỤC LỤC HÌNH ẢNH .I MỤC LỤC BẢNG BIỂU II MỤC LỤC .III TÓM TẮT KẾT QỦA NGHIÊN CỨU VI SUMMARY VIII MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ DỊCH TỰ ĐỘNG 1.1 Dịch tự động 1.1.1 Giới thiệu .4 1.1.2 Các vấn đề liên quan đến dịch tự động 1.1.3 Một số phương pháp hệ thống dịch tự động có 1.2 Tiếng Việt 1.2.1 Giới thiệu 1.2.2 Xử lý tiếng Việt máy tính 1.2.3 Dịch tự động tiếng Việt 10 1.3 Đánh giá chất lượng dịch 13 1.3.1 Phương pháp đánh giá dịch 14 1.3.2 Công cụ đánh giá tự động chất lượng dịch .16 1.3.3 Thử nghiệm công cụ đánh giá chất lượng dịch 16 CHƯƠNG NGÔN NGỮ VÀ HỆ THỐNG UNL 19 1.4 Giới thiệu ngôn ngữ UNL .19 1.4.1 Biểu thức UNL 20 1.4.2 Các quan hệ .23 1.4.3 Từ vựng UNL 25 1.4.4 Phân loại từ vựng UNL 27 1.4.5 Thuộc tính UNL 30 1.5 Hệ thống dịch tự động dựa UNL 41 1.5.1 Mơ hình tổng qt 41 1.5.2 Hệ thống DeConverter .44 1.5.3 Hệ thống EnConverter .46 1.6 Các công cụ hỗ trợ phát triển UNL .46 iii 1.6.1 Công cụ từ điển .46 1.6.2 Hệ thống ETAP- 47 1.6.3 CWL Conversion Framework 52 CHƯƠNG ỨNG DỤNG CHO TIẾNG VIỆT .56 1.7 Ứng dụng UNL cho tiếng Việt 56 1.8 Xây dựng kho liệu song ngữ Việt – UNL thử nghiệm .57 1.9 Xây dựng từ điển UNL-tiếng Việt .63 1.9.1 Giải pháp đề xuất .64 1.9.2 Từ điển UNL – FR 67 1.9.3 Từ điển Anh – Việt 68 1.9.4 Thử nghiệm .69 KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72 [1] K.R BEESLEY : « Language identifier: A computer program for automatic natural language identification of on-line text, In Language at Crossroads » Proceedings of the 29th Annual Conference of the American Translators Association, 10-1998 72 [2] G BENNY : « Reconstruction et Utilisation de SILC » Rapport de stage, Département d’Informatique et de Recherche Opérationelle, Université de Montréal, 8-2001 .72 [3] Ch BOITET « Projet FeV - Réalisation d'un dictionnaire d'usage et d'une base termino-logique par acceptions informatisộs franỗais-vietnamien via l'anglais ằ Tài liệu nội dự án FEV, GETA-CLIPS, IMAG (UJF, CNRS & INPG), CH Pháp .72 [4] V BOUFFARD: « Evaluation de SILC » Rapport scientifique, Département d’Informatique et de Recherche Opérationelle, Université de Montréal, 2002 .72 [5] W CAVNAR et J.TRENKLE : « N-gram Based Text Categorization » Symposium On Document Analysis and Information Retrieval, University of Nevada, Las Vegas, 4-1994 .72 [6] G GREFENSTETTE : « Comparing Two Language Identification Schemes », JADT’95, 1995 .72 [7] C MANNING, H SCHUTZE : « Foundations of Statistical Natural Language » Processing, MIT Press, 5-1999 72 [8] Phan Huy Khánh « Contribution l'informatique multilingue Extension d'un éditeur de documents structurés » Luận án Tiến sỹ Tin học, Thèse INP Grenoble & Université de Lille 1, CH Pháp 1991, 233t 72 iv [9] G RUSSELL : « The QUE Language and Encoding Identification Package » RALI, University of Montreal, 7-2003 72 [10] 2003, Vo-Trung H : “Evaluation des méthodes et des outils actuels pour identifier automatiquement la langue et le codage d’un texte homogène”, MAJECSTIC’03, Marseille, France, Oct 2003 72 [11] 2004, Vo-Trung H : “Construction d’un outil pour analyser un document multilingue en zones monolingues”, RIVF 2004, Institut de la Francophonie pour l’Informatique, pp 175-178, HaNoi, VietNam, février 2004 73 [12] 2004, Vo-Trung H : “SANDOH - un système d'analyse de documents hétérogènes”, JADT 2004 (Journées internationales d'Analyse statistique des Données Textuelles), Université de Louvain-la-Neuve, Belgique, Vol 2, pp 11771184, mars 2004 73 [13] 2004, Vo-Trung H., Phan H.K “Identification automatique des encodages vietnamiens”, Journal of Computer Science and Cybernetics, published by Vietnamese Academy of Science and Technology, ISSN 1813-9663, pp 319328 73 [14] 2011, Vo-Trung H "Méthodes et Outils de Logiciels en Context Multilingue”, Edition Universitaire Europeannes, ISBN: 978-613-153179-8 .73 v TÓM TẮT KẾT QỦA NGHIÊN CỨU Tên đề tài : Nghiên cứu ứng dụng ngôn ngữ UNL để phát triển hệ thống dịch tự động cho tiếng Việt Mã số : B2010-ĐN02-56 Chủ nhiệm đề tài: PGS.TS Võ Trung Hùng Điện thoại: 0905847373 E-mail: vthung@dut.udn.vn Cơ quan chủ trì đề tài: Đại học Đà Nẵng Cơ quan cá nhân phối hợp thực hiện: - Khoa Công nghệ Thông tin - Trung tâm DATIC - GETA (Groupe d’Etude pour la Traduction Automatique – Trung tâm nghiên cứu dịch tự động), Cộng hòa Pháp Thời gian thực hiện: 2009-2011 Mục tiêu: Mục tiêu chung đề tài nghiên cứu ngôn ngữ Universal Networking Language đề xuất giải pháp để phát triển hệ thống dịch tự động cho tiếng Việt Mục tiêu cụ thể sau: - Giới thiệu UNL đến giới nghiên cứu ở Việt Nam - Phát triển số mô-đun hệ thống từ điển, hệ thống qui tắc ngữ pháp cho tiếng Việt - Tích hợp tiếng Việt vào hệ thống UNL sẵn có để dịch đa ngữ cho tiếng Việt Nội dung chính: Trong q trình thực đề tài, nhóm tác giả thực nội dung sau: - Nghiên cứu vấn đề liên quan đến dịch tự động; - Nghiên cứu hệ thống UNL; - Nghiên cứu công cụ có sẵn liên quan đến UNL; - Nghiên cứu đề xuất qui trình cơng việc cụ thể để bổ sung tiếng Việt vào hệ thống UNL có sẵn; - Nghiên cứu giải pháp phát triển thử nghiệm từ điển tiếng Việt – UNL từ điển UNL – tiếng Việt; vi - Nghiên cứu giải pháp sử dụng lại cơng cụ sẵn có UNL cho tiếng Việt (công cụ soạn thảo từ điển, tách từ, phân tích cú pháp, tạo đồ thị ngữ nghĩa…); - Nghiên cứu tích hợp tiếng Việt vào ứng dụng UNL Kết đạt (khoa học, ứng dụng, đào tạo, kinh tế – xã hội): Kết đạt đáp ứng nội dung thuyết minh, cụ thể sau: - Hướng dẫn học viên cao học bảo vệ thành công - Đang hướng dẫn nghiên cứu sinh - Đã cơng bố báo (2 Tạp chí Khoa học & Công nghệ Đại học Đà Nẵng Kỷ yếu hội thảo quốc tế CISIS 2011, Seoul, Hàn Quốc) - Đã xây dựng từ điển UNL-Tiếng Việt để hỗ trợ dịch tự động vii SUMMARY Project Title: Studying UNL language to develop an automatic translation system for the Vietnamese Code number : B2010-ĐN02-56 Coordiantor : Assoc.Prof Võ Trung Hùng Cell phone : 0905847373 E-mail: vthung@dut.udn.vn Implementing institution: University of Danang Cooperating institution: - Faculty of Information Technology - DATIC Center - GETA (Groupe d’Etude pour la Traduction Automatique), France Duration: 2009-2011 Objectives: The general objective of the research topic is the Universal Networking Language language and proposed solutions to develop automatic translation system for the Vietnamese language Specific objectives are as follows: - Introduction about UNL to researcher in Vietnam - Developing some modules in the UNL system as the dictionary, system of rules for English grammar - Integrated Vietnamese language to UNL available system to create a multilanguage translator Content: During the implementation of the subject, the authors have made the main contents as follows: - Study problems related to automatic translation system; - Study on the UNL system; - Study available tools concerning UNL; - Propose the process and tasks to add Vietnamese language into UNL system; - Study solutions to create the Vietnamese - UNL dictionary; - Study to reuse available tools in the UNL system for Vietnamese language (dictionary editor, cleavage, parsing, semantic graph creation ); - Study to integrate Vietnamese language into UNL system viii Bước : Sử dụng máy chủ UNL – tiếng Nga (http://www.unl.ru/deco.html) để dịch câu UNL sang Tiếng Nga: Hình 25 Giao diện hệ thống DeConverter UNL – tiếng Nga Kết dịch sau: Hình 26 Màn hình kết DeConverter UNL – tiếng Nga Sau dịch tất câu UNL ở ta nhận kết quả: STT UNL aoj(fast(modthing).@gen eric.@pl) Russian Самолеты более поезда быстры man(fast(modthing).@generic.@pl) Agt(work(icl>do).@entry.@present, I ) Я работаю с компанией cag(work(icl>do).@entry.@present, company(icl>thing).@def) 60 STT UNL Russian name(company(icl>thing).@def, Viettel) agt(phone(icl>do).@entry.@future, i) obj(phone(icl>do).@entry.@future, you) Я позвоню Sai_Gon вам из Они отменили Sai_Gon поезд на plf(phone(icl>do).@entry.@future, Sai Gon) agt(cancel(icl>do).@entry.@past, they) obj(cancel(icl>do).@entry.@past, train(icl>thing) @def) to(train(icl>thing).@def, Sai Gon) agt(stay(icl>do).@entry.@present, I ) Я остаюсь с Mai cag(stay(icl>do).@entry.@present, Mai ) agt(visit(icl>do).@entry.@past, I) obj(visit(icl>do).@entry.@past, museum(icl>thing) @def) Я посетил Ho_Chi_Minh музей nam(museum(icl>thing).@def, Ho Chi Minh) agt(go(icl>do).@ability.@not.@entry, I) obj(go(icl>do).@entry.@ability, park(icl>thing).@def) Я могу не пойти из парка сен дамбы, поскольку сыпаться nam(park(icl>thing).@def, Dam_Sen) rsn(go(icl>do).@ability.@not.@entry, rain(icl>weather)) agt(finish(icl>do).@entry.@interrogation.@ complete.@yet, you) Вы закончите выбор obj(finish(icl>do).@entry.@comple.@yet, picking(icl>thing).@def) agt(help(icl>do).@polity.@interrogative.@e ntry, I) Я помогаю вам? obj(help(icl>do).@entry.@polity.@interroga tive, you) 10 agt(buy(icl>do).@ability.@interrogative.@e ntry, I) Я могу приобрести билет где? obj(buy(icl>do).@ability.@interrogative.@e ntry, ticket.@indef) plc(buy(icl>do).@ability.@interrogative.@e ntry, where(icl>thing).@indef) 11 agt(want(icl>do).@entry.@present, I) obj(want(icl>do).@entry.@present, buy(icl>do).@present) agt(buy(icl>do).@present,I) Я хочу, чтобы я приобретал билет, который идет в город Ho_Chi_Minh obj(buy(icl>do).@present,ticket.@indef) agt(go(icl>do).@present, ticket.@indef) plc(go(icl>do).@present, city(icl>thing).@def) 61 STT UNL Russian nam(city(icl>thing).@def, Ho Chi Minh) Bước : So sánh kết nhận với kết dịch trực tiếp từ Tiếng Anh sang Tiếng Nga Việc đánh giá thực vào hai tiêu chí : - Ngữ nghĩa hai câu - Số lượng từ tương đương hai câu Kết đánh giá thể qua bảng sau : Dùng trang web dịch trực tiếp Dùng trang web dịch từ Tiếng Anh – UNL – Russian – Tiếng Anh Russian Tiếng Anh Đánh giá Tiếng Anh Russian UNL Aeroplan es are faster than trains Самолет ы, быстрее , чем поезда aoj(fast(modthing).@gen eric.@pl) man(fast(modthing).@generic @pl) Самолеты более поезда быстры Aircraft more trains swift 80% I work for Viettel company Я работаю на viettel компани и Agt (work(icl>do).@entry.@pre sent, I ) cag(work(icl>do).@entry.@ present, company(icl>thing).@def) Я работаю с компанией I am working with the company 70% name(company(icl>thing).@ def, Viettel) I will phone you from Sai Gon Я буду у вас телефон от Сай Гон agt(phone(icl>do).@entry @future, I ) obj(phone(icl>do).@entry @future, you) plf(phone(icl>do).@entry @future, Sai Gon) Я позвоню вам из Sai_Gon I will you from sai_gon 80% The train to Sai Gon was cancelle d Поезд Сай Гон был отменен agt(cancel(icl>do).@entry @past, they) obj(cancel(icl>do).@entry @past, train(icl>thing).@def) to(train(icl>thing).@def, Sai Gon) Они отменили поезд на Sai_Gon They had abolished train at sai_gon 90% 62 Nhìn chung, qua việc sử dụng cơng cụ ETAP3 hỗ trợ giải mã UNL sang ngôn ngữ Tiếng Nga, kết cho thấy, câu thu có nghĩa tương đương với câu gốc với mức độ xác khoảng [70%, 90%] Trên sở thực nghiệm trên, rút số nhận xét sau: - Hệ thống ngữ pháp Tiếng Việt phức tạp, khác hẳn hồn tồn so với ngơn ngữ Châu Âu - Số lượng từ vựng ngôn ngữ nhiều biến đổi phức tạp (chia ngôi, giống, số, cách, ) - Ngữ pháp ngôn ngữ chưa khảo sát kỹ, nhiều ngoại lệ sử dụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu thành phần câu), ngơn ngữ chưa có nghiên cứu đầy đủ ngữ pháp - Ngữ nghĩa sử dụng phong phú, phải sử dụng ngữ cảnh hiểu ý nghĩa từ Tuy nhiên, triển khai tiếng Việt UNL có thuận lợi định như: - UNL nghiên cứu nhiều giới nên kế thừa phát huy thành tựu có - Có thể kế thừa số hệ thống dịch đa ngữ giới 1.9 Xây dựng từ điển UNL-tiếng Việt Một từ vựng UNL không đơn vị cú pháp ngữ nghĩa UNL để diễn tả khái niệm mà còn yếu tố UNL để diễn tả câu khái niệm phức tạp Về mặt cấu trúc, UW (Universal Word) chuỗi ký tự với ràng buộc: ::= [] ::= … ::= “(“ [ “,” ]… “)” ::= { “>” | “” | “” | “thing, obj>liquid)” tập khái niệm “cho chất lỏng vào miệng” phù hợp với động từ “uống (drink)”, “nuốt (gulp)”, “slurp”, “chug” tiếng Anh Ràng buộc từ vựng tạo nên bởi cặp quan hệ từ vựng định nghĩa (còn gọi thành phần biểu diễn từ vựng) Nếu có nhiều ràng buộc ràng buộc phân cách bởi dấu phẩy Một từ vựng ràng buộc định nghĩa thông qua Master Definition Trong Master Definition, nghĩa đầy đủ từ vựng định nghĩa phải miêu tả ràng buộc Các relation label (nhãn quan hệ) sử dụng danh sách ràng buộc phải định nghĩa UNL specifition nên sắp xếp theo thứ tự ABC có nhiều ràng buộc định nghĩa Để định nghĩa nghĩa từ vựng cách xác chẳng hạn, tập khái niệm từ vựng định nghĩa ở bên từ vựng cấp cao có nghĩa tổng quát Việc định nghĩa liên kết từ vựng thông qua quan hệ “icl” 1.9.1 Giải pháp đề xuất Qua nghiên cứu cấu trúc từ điển UNL-FR từ điển Anh-Việt theo chuẩn Dict, đề xuất bước xây dựng tự động liệu từ vựng UNL - tiếng Việt sau: Bước : Trích mục từ tiếng Pháp từ điển UNL-FR Bước : Trích headword_tiếng Anh thuộc tính CATV,CATN, CATADJ… Bước : Trích mục từ từ điển Anh – Việt 64 Bước : Trích headword thơng tin từ loại động từ, danh từ,… Bước : So sánh headword vừa lấy từ từ điển (bước bước 4) Nếu giống tùy theo từ loại danh từ, động từ, tính từ,… gán nghĩa tiếng Việt vào nội dung mục từ tiếng Pháp tương ứng  mục từ UNL – tiếng Việt  lưu mục từ vừa tạo vào sở liệu từ điển UNL - tiếng Việt Bước : Quá trình lặp lại hết mục từ từ điển UNLFR Minh họa cách tạo mục từ UNL – tiếng Việt dựa vào mục từ tiếng Pháp “affecter” UNL-FR kết hợp với từ điển Anh-Việt sau: - Trích nội dung mục từ “affecter” từ điển UNL-FR ta được: [affecter]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; - Trích headword_tiếng Anh động từ “assign” (vì CATV = động từ) - Trích headword “assign” từ điển Anh – Việt @assign * danh từ - (pháp lý) người quyền thừa hưởng (tài sản, quyền lợi) * động từ - phân việc, phân công =to be assigned to something+ giao việc - ấn định, định =to assign the day for a journey+ ấn định ngày cho hành trình =to assign a limit+ định giới hạn - chia phần (cái gì, cho ai) - cho là, quy cho =to assign reason to (for) something+ cho có lý do; đưa lý để giải thích - (pháp lý) nhượng lại =to assign one's property to somebody+ nhượng lại tài sản cho - Vì CATV tương ứng với động từ nên hệ thống tự động trích lấy nội dung động từ tiếng Việt tương ứng là: phân việc, phân công, ấn định, định, chia phần, cho là, quy cho, nhượng lại - Kết mục từ UNL – tiếng Việt hệ thống tự động tạo ra: 65 [phân_việc]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [phân_công]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [ấn_định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [chia_phần]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [cho_là]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [quy_cho]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [nhượng_lại]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; Với bước tiến hành trên, đề nghị mô hình hệ thống tự động xây dựng từ điển UNL – Việt sau: (2) (1) 66 Hình 27 Qui trình xây dựng từ điển UNL – tiếng Việt (1) Cơ sở liệu từ điển UNL – tiếng Việt cập nhật, bổ sung nhờ chuyên gia ngôn ngữ thành viên tham gia (2) Cơ sở liệu cần bổ sung bao gồm mục từ UNL-FR khơng tìm thấy từ điển Anh – Việt Đây nhiệm vụ cần nghiên cứu tương lai để hoàn chỉnh từ điển UNL – tiếng Việt 1.9.2 Từ điển UNL – FR Hiện có nhiều nghiên cứu hệ thống UNL, đề tài sử dụng từ điển UNL-FR (hơn 39.000 từ) nhóm GETA (Groupe d’Etudes pour la Traduction Automatique) xây dựng Cấu trúc chung mục từ từ điển UNLFR sau: [mục từ tiếng nghĩa)"; Pháp] {các thuộc tính } "headword_tiếng Anh(các giới hạn ngữ Do từ điển UNL-FR xây dựng từ từ điển UNL-English nên mục từ tiếng Anh từ điển UNL-English thay bằng mục từ tiếng Pháp, tất thông tin còn lại giữ nguyên theo từ điển UNL – English Ví dụ: Cấu trúc mục từ “avoir” từ điển UNL-FR: Hình 28 Mục từ “avoir”trong từ điển UNL-FR Nội dung nằm dấu ngoặc vng [] chứa mục từ tiếng Pháp sau headword tương ứng tiếng Anh (ở avoir = have) Chúng sử dụng trường headword_tiếng Anh để liên kết với headword mục từ tương ứng từ điển Anh – Việt Nằm dấu ngoặc kép {} thuộc tính từ tiếng Pháp CATV = động từ, CATN = danh từ, CATADV= phó từ, CATADJ = tính từ,… Chúng ta sử dụng thuộc tính để liên kết với từ loại từ điển Anh – Việt 67 1.9.3 Từ điển Anh – Việt Hiện nay, www.dict.org xây dựng định dạng từ điển dễ sử dụng, định dạng số cá nhân sử dụng để xây dựng từ điển lớn Có nhiều từ điển thông dụng cộng đồng phát triển Trong nghiên cứu mình, chúng tơi sử dụng từ điển Anh – Việt tác giả Hồ Ngọc Đức (http://www.informatik.uni-leipzig.de/~duc/Dict/) để trích phần nội dung tiếng Việt Về chuẩn tả tiếng Việt, tác giả tuân theo chuẩn tả từ điển Hồng Phê Về mã tiếng Việt, tác giả sử dụng mã Unicode Định dạng Dict mơ tả sau: tồn sở liệu chứa tập tin, tập tin chứa nghĩa từ tập tin index (chỉ mục) Tập tin index bao gồm tên từ, vị trí nghĩa từ bắt đầu tập tin chứa nghĩa độ dài nghĩa Cấu trúc tổng quát file chứa nghĩa gồm phần sau: @headword * tu loai (noun, verb ) - dinh nghia = cau vi du cho dinh nghia + nghia cua cau - dinh nghia = cau vi du cho dinh nghia + nghia cua cau * tu loai - dinh nghia Ví dụ cấu trúc mục từ “abalone” sau: Hình 29 Chi tiết mục từ “abalone” từ điển Anh – Việt 68 Chúng sử dụng trường headword nằm sau ký tự @ để so sánh với headword_tiếng Anh mục từ tiếng Pháp từ điển UNL-FR 1.9.4 Thử nghiệm Với mơ hình hệ thống trên, chúng tơi xây dựng hệ thống tự động tạo từ điển UNL – tiếng Việt Hệ thống thử nghiệm với từ điển UNL – FR (khoảng 39.000 từ) từ điển Anh – Việt Hồ Ngọc Đức (khoảng 110.000 từ) Một số thông tin thống kê: Headword UNL-FR khơng tìm từ điển Anh – 14.517 36.85% Việt Headword UNL-FR tìm thấy từ điển Anh – Việt 24.872 63.14% Bảng Kết so sánh headword từ điển UNL-FR Anh – Việt Kết tạo từ điển UNL-Việt sau: UNL-Việt Tổng cộng Danh từ Tính từ Trạng từ Động từ 95.921 33.304 23.871 94.667 247.763 từ Bảng Kết từ loại từ điển UNL - tiếngViệt Từ kết ở hai bảng trên, ta dễ dàng nhận thấy việc xây dựng từ điển UNL – tiếng Việt bằng phương pháp so sánh headword dựa vào từ điển UNL-FR Anh – Việt tạo số lượng lớn từ vựng (247.763 từ) Những headword từ điển UNL-FR khơng tìm thấy từ điển Anh – Việt 36.85% (Bảng 4) giải thích bởi nguyên nhân sau: - Hệ thống chưa xử lý hết cấu trúc chi tiết bên mục từ từ điển Anh – Việt Ví dụ từ điển UNL-FR có headword “hurry_up”, từ điển Anh – Việt headword có “@hurry”, còn “hurry_up” chi tiết bên động từ “hurry” - Từ Anh – Việt chưa đầy đủ chưa khai thác hết thuộc tính nằm CAT UNL-FR Tổng kết chương 3: 69 Với đề xuất phân tích thành phần cần triển khai xây dựng công cụ EnConverter DeConverter hi vọng tương lai xây dựng thành công công cụ hỗ trợ việc mã hóa trực tiếp từ Tiếng Việt sang UNL giải mã từ biểu thức UNL thành câu, văn ngôn ngữ khác, tiền đề giúp cho trình giao lưu, hội nhập nước ta với nước khác giới 70 KẾT LUẬN Việc nghiên cứu để tìm giải pháp nhằm thúc đẩy việc xây dựng hệ thống dịch tự động cần thiết đặc biệt cho tiếng Việt (số người sử dụng tiếng Việt lớn công ty lớn quan tâm đầu tư phát triển) Trong đề tài này, tiến hành nghiên cứu tổng quan dịch tự động nói chúng đặc biệt quan tâm đến UNL hướng quan trọng khả thi phát triển hệ thống dịch tự động cho tiếng Việt Chúng hoàn thành cam kết phiếu đề xuất thuyết minh Bộ Giáo dục Đào tạo phê duyệt Về đào tạo, đề tài tạo điều kiện cho học viên cao học thực đề tài tốt nghiệp (trong học viên bảo vệ thành cơng) Ngồi ra, thơng qua đề tài này, nghiên cứu đầy đủ dịch tự động Unl để đưa vào giảng môn học “Xử lý ngôn ngữ tự nhiên” phục vụ công tác đào tạo cao học Đại học Đà Nẵng Về mặt khoa học, trình bày hồn chỉnh thơng tin liên quan đến UNL, tài liệu tham khảo quan trọng tin để nghiên cứu sâu dịch tự động nói chung UNL nói riêng Về mặt thực tiễn, thử nghiệm số công cụ hỗ trợ cho việc phát triển mô-đun EnConverter DeConverter hệ thống UNL đặc biệt, xây dựng từ điển UNL-tiếng Việt Từ điển phận quan trọng hệ thống dịch tự động cho UNL tiếng Việt Trong thời gian đến, tiếp tục phát triển mơ-đun khác phục vụ tích hợp đầy đủ tiếng Việt vào hệ thống UNL như: tri thức tiếng Việt UNL, liệu ngữ pháp tiếng Việt, từ điển từ đồng ngĩa/phản nghĩa tiếng Việt hiệu chỉnh mô-đun DeConverter EnConverter cho tiếng Việt Cuối cùng, xin cảm ơn Bộ Giáo dục Đào tạo, Đại học Đà Nẵng, Trường Đại học Bách khoa tạo điều kiện thuận lợi cho nhóm chúng tơi suốt q trình thực đề tài Xin chân thành cảm ơn đồng nghiệp GETA (Cộng hòa Pháp), DATIC Khoa Công nghệ Thông tin (Trường ĐHBK, ĐHĐN) đóng góp ý kiến bổ ích cho thực đề tài Đặc biệt, xin gửi lời cảm ơn đến học viên Võ Thị Thùy Vi, Nguyễn Hữu Siêu, Trịnh Sử Trường Thi Lê Vũ Ngọc Anh (chuyên ngành Khoa học máy tính Đại học Đà Nẵng) tích cực tham gia vào hoạt động nghiên cứu liên quan đến đề tài 71 TÀI LIỆU THAM KHẢO [1] K.R BEESLEY : « Language identifier: A computer program for automatic natural language identification of on-line text, In Language at Crossroads » Proceedings of the 29th Annual Conference of the American Translators Association, 10-1998 [2] G BENNY : « Reconstruction et Utilisation de SILC » Rapport de stage, Département d’Informatique et de Recherche Opérationelle, Université de Montréal, 8-2001 [3] Ch BOITET « Projet FeV - Réalisation d'un dictionnaire d'usage et d'une base termino-logique par acceptions informatisộs franỗais-vietnamien via l'anglais » Tài liệu nội dự án FEV, GETA-CLIPS, IMAG (UJF, CNRS & INPG), CH Pháp [4] V BOUFFARD: « Evaluation de SILC » Rapport scientifique, Département d’Informatique et de Recherche Opérationelle, Université de Montréal, 2002 [5] W CAVNAR et J.TRENKLE : « N-gram Based Text Categorization » Symposium On Document Analysis and Information Retrieval, University of Nevada, Las Vegas, 4-1994 [6] G GREFENSTETTE : « Comparing Schemes », JADT’95, 1995 [7] C MANNING, H SCHUTZE : « Foundations of Statistical Natural Language » Processing, MIT Press, 5-1999 [8] Phan Huy Khánh « Contribution l'informatique multilingue Extension d'un éditeur de documents structurés » Luận án Tiến sỹ Tin học, Thèse INP Grenoble & Université de Lille 1, CH Pháp 1991, 233t [9] G RUSSELL : « The QUE Language and Encoding Identification Package » RALI, University of Montreal, 7-2003 Two Language Identification [10] 2003, Vo-Trung H : “Evaluation des méthodes et des outils actuels pour identifier automatiquement la langue et le codage d’un texte homogène”, MAJECSTIC’03, Marseille, France, Oct 2003 72 [11] 2004, Vo-Trung H : “Construction d’un outil pour analyser un document multilingue en zones monolingues”, RIVF 2004, Institut de la Francophonie pour l’Informatique, pp 175-178, HaNoi, VietNam, février 2004 [12] 2004, Vo-Trung H : “SANDOH - un système d'analyse de documents hétérogènes”, JADT 2004 (Journées internationales d'Analyse statistique des Données Textuelles), Université de Louvain-la-Neuve, Belgique, Vol 2, pp 1177-1184, mars 2004 [13] 2004, Vo-Trung H., Phan H.K “Identification automatique des encodages vietnamiens”, Journal of Computer Science and Cybernetics, published by Vietnamese Academy of Science and Technology, ISSN 1813-9663, pp 319328 [14] 2011, Vo-Trung H "Méthodes et Outils de Logiciels en Context Multilingue”, Edition Universitaire Europeannes, ISBN: 978-613-153179-8 73 Ngày tháng năm 2007 Chủ nhiệm đề tài (Họ tên, chữ ký) Ngày tháng năm 2007 Xác nhận đơn vị chủ quản (Họ tên, chữ ký) Ngày tháng năm 200 Cơ quan Bộ Giáo dục Đào tạo phân cấp quản lý QĐ số 3360/QĐ-BGD&ĐT-TCCB ngày 21 tháng 06 năm 2005 GIÁM ĐỐC ĐẠI HỌC ĐÀ NẴNG 74

Ngày đăng: 22/06/2020, 01:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w