1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" pdf

8 577 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 269,98 KB

Nội dung

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 1 NGHIÊN CỨU VÀ ỨNG DỤNG UNL CHO XỬ LÝ TIẾNG VIỆT UNL STUDY AND APPLICATION TO THE VIETNAMESE LANGUAGE PROCESSING Võ Trung Hùng Trường Đại học Bách khoa, Đại học Đà Nẵng TÓM TẮT Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về UNL và chỉ ra cách thức làm thế nào để ứng dụng nó cho tiếng Việt. UNL được viết tắt từ Universal Networking Language, nó là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và tri thức mà không bị cản trở bởi rào chắn ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả ngôn ngữ tự nhiên theo cách truyền thông của con người. Mục đích cuối cùng là cho phép con người diễn đạt ngôn ngữ t ự nhiên thông qua ngôn ngữ này. Nó cũng cho các phép máy tính liên lạc được với nhau nhờ các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi đề xuất hai mô hình để ứng dụng UNL cho tiếng Việt. Mô hình thứ nhất, chúng ta sẽ chuyển đổi các văn bản tiếng Việt sang dạng dữ liệu UNL và sau đó sử dụng các bộ dịch ngược của UNL để dịch đến các ngôn ngữ khác. Trong mô hình thứ hai, chúng ta sẽ phát triển các mô-đun cầ n thiết để tích hợp tiếng Việt vào UNL nhằm tạo ra một hệ thống dịch đa ngữ. ABSTRACT In this paper, we introduce general information about UNL and how to apply it to the vietnamese language processing. UNL (Universal Networking Language) is a computer language that enables computers to process information and knowledge across language barriers. It is an artificial language that replicates, in the cyber world, the functions of natural languages in human communication. As a result, it enables people to express their ideas through natural languages. It also enables computers to intercommunicate; thus, providing people with a linguistic infrastructure for distributing, receiving and understanding multilingual information. We propose two models to apply UNL to vietnamese processing. The first model, we will translate vietnamese documents into UNL format and then use available UNL DeConverter to translate into other languages. In the second model, we integrade vietnamese into an UNL system to create a multilingual translation system. 1. Giới thiệu Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội Cùng với sự phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin khổng lồ trên mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và một trong những lý do quan trọng nhất là rào cản về ngôn ngữ. Một trong những giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động. Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 2 có thể sử dụng trên Internet như Google, AltaVista…. ; nhiều hệ thống đã được đưa vào thương mại hoá trong những năm gần đây như Systran, Reverso và một số chương trình dịch thu phí có giá thành rất rẻ như Babylon. Những công cụ này cho phép tạo ra một "bản dịch nghĩa" — một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta có thể hiểu được ý nghĩa của văn bản gốc, nhưng cần phải chỉnh sửa nhiều để đạt đến một bản dịch hoàn chỉnh. Các hệ thống dịch tự động cho phép dịch rất nhanh và chi phí thấp hơn nhiều so với dịch bằng con người. Tuy nhiên, trong đa số các trường hợp, chất lượng bản dịch bằng máy sẽ thấp, không chính xác và hay bằng dịch thủ công. Những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về giải thích các khái niệm. Chúng ta biết rằng muốn có được một hệ thống xử lý ngôn ngữ tự nhiên chất lượng cao thì trước hết cần phải có một hệ thống phân tích ngữ nghĩa tốt. Vấn đề đặt ra là làm thế nào để bản dịch máy có chất lượng như được dịch bởi các dịch giả? Lúc đó, hệ thống dịch tự động phải hoạt động như một quá trình xử lý tự động để dịch từ một ngôn ngữ con người đang dùng đến một ngôn ngữ khác bằng cách sử dụng đầy đủ các thông tin ngữ nghĩa và ngữ cảnh. Dịch ngữ nghĩa cho phép tham chiếu đến cấu trúc ngữ pháp và mục đích của chúng là thiết lập một ngữ nghĩa tương đương giữa 2 ngôn ngữ. Nếu việc dịch dựa vào sự trình bày về mặt ngữ nghĩa thì nó có thể chỉ ra rằng làm thế nào để các câu trong ngôn ngữ nguồn và ngôn ngữ đích có mối quan hệ về mặt cấu trúc. Trong phương pháp này, bản dịch máy sẽ sản sinh lại ý nghĩa theo bối cảnh cho trước của tác giả mà không bị cản trở bởi cú pháp và các ràng buộc về mặt ngữ nghĩa của ngôn ngữ đích. Phương pháp dịch theo ngữ nghĩa làm nổi bật nội dung của thông điệp và hiệu quả dịch sẽ tốt hơn [3]. Tuy nhiên, người ta không mong muốn rơi vào tình trạng quá phức tạp của sự đa dạng về ngữ nghĩa. Có một cách tiếp cận khác đó là dịch bằng cách sử dụng một ngôn ngữ trung gian (ngôn ngữ biểu đạt riêng cho máy tính). Ngôn ngữ trung gian này cho phép biểu diễn về mặt ngữ nghĩa ở mức đơn giản nhất có thể (giảm thiểu những rắc rối do vấn đề ngữ nghĩa). Một trong những dự án đi theo cách tiếp cận này gọi là Universal Networking Language (UNL). UNL được đề xuất và triển khai thực hiện bởi United Nations University, Tokyo, Nhậ t Bản. Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX. Năm 1969, công ty Logos đã được thành lập bởi Bernard E. Scott với mục đích thực hiện các nghiên cứu để phát triển hệ thống dịch tự động từ tiếng Anh ra tiếng Việt và vào tháng 6 n ăm 1970 hệ thống dịch tự động Anh–Việt Logos I ra đời với từ điển khoảng hơn 1000 từ [5]. Ngoài Logos, hiện nay còn có một số phần mềm dịch tự động cho tiếng Việt như Google, EVtrans, VietTrans nhưng chất lượng dịch còn rất thấp, chưa đáp ứng được yêu cầu tối thiểu của người dùng. Vấn đề đặt ra là làm thế nào để có thể phát triển nhanh nhất hệ thống dịch tự động cho tiếng Việt dựa trên những kết quả sẵn có và UNL là một trong những khả TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 3 năng để chọn lựa theo hướng này. Trong bài báo này, chúng tôi mong muốn giới thiệu những nét khái quát nhất về UNL, một số kết quả thử nghiệm trên hệ thống này và đề xuất khả năng ứng dụng UNL cho tiếng Việt. 2. Hệ thống UNL Ngôn ngữ UNL là ngôn ngữ nhân tạo mô tả ý nghĩa của các câu thông qua khái niệm lược đồ của mạng ngữ nghĩa. Mục đích nhắm đến là biểu diễn tất cả các câu theo cùng cách thức của các ngôn ngữ tự nhiên thông qua việc sử dụng một đồ thị ngữ nghĩa đơn. Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một ngôn ngữ nào khác. Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác. Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ. UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ này. Nó là một ngôn ngữ trung gian dành cho dịch tự động [4]. Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting at his residence.” sẽ được viết trong ngôn ngữ UNL : [S] mod(chairman(icl>post).@present.@def,company(icl>institution).@def) aoj(chairman(icl>post).@present.@def, John(icl>person)) agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person)) pos(residence(icl>shelter), John(icl>person)) obj(arrange(icl>do).@entry.@present.@complete.@pred,meeting(icl>confer ence).@indef) plc(arrange(icl>do).@entry.@present.@complete.@pred,residence(icl>shel ter)) [/S] Hoặc được biểu diễn dưới dạng đồ thị như hình 1. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 4 Hình 1. Biểu diễn một câu dưới dạng đồ thị theo UNL Trong lược đồ này, một câu trong ngôn ngữ nguồn được dịch đến ngôn ngữ UNL bằng cách sử dụng một công cụ gọi là EnConverter. Enconverter là một bộ phân tích độc lập với ngôn ngữ, nó cung cấp đồng bộ một môi trường dành để phân tích hình thái, cú pháp và ngữ nghĩa. Ngoài ra, trong UNL còn hiện diện một bộ chuyển đổi từ một câu viết bằng ngôn ngữ UNL đến ngôn ngữ đích bằng một công cụ gọi là DeConverter. DeConverter là một bộ phát sinh độc lập với ngôn ngữ, nó cung cấp một môi trường dành để phát sinh ra một tài liệu mô tả cú pháp, hình thái, sự lựa chọn từ thích hợp cũng như việc sắp xếp các từ theo đúng thứ tự. Nó có thể chuyển một biểu thức UNL đến nhiều ngôn ngữ đích khác nhau bằng cách sử dụng các dữ liệu ngôn ngữ như từ điển, tiêu chuẩn ngữ pháp dành cho từng ngôn ngữ. Hình 2. Qui trình dịch tự động trong UNL Mục đích của việc đưa UNL vào sử dụng trên các mạng truyền thông là nhằm gia tăng việc trao đổi thông tin giữa các ngôn ngữ khác nhau và giới thiệu một giải pháp để vượt qua bức tường ngăn cách do sự khác biệt về ngôn ngữ trên thế giới. Kiến trúc hệ thống UNL dựa trên 2 tiến trình chính là chuyển văn bản từ ngôn ngữ tự nhiên sang ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ tự nhiên (DeConverter). Ngoài ra, chúng ta cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc ngữ pháp và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động như hình 3. Về mặt khoa học, UNL đề xuất một cách tiếp cận mới về dịch tự động thông qua ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta dịch từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp). Ngôn ngữ trung gian này được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một nội dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. Nó có ý nghĩa quan trọng trong dịch đa ngữ. Ví dụ, thay vì phát triển các hệ thống dịch tự động cho các cặp tiếng Việt – Nga, Việt – Anh, Việt – Pháp,… ta chỉ cần phát triển một cặp Việt – UNL từ sẽ có thể dịch sang tất cả các ngôn ngữ khác hỗ trợ bởi UNL. Từ kiến trúc hệ thống dịch như trên, để nghiên cứu ứng dụng UNL cho một ngôn ngữ nào đó ta cần nghiên cứu trước hết về cơ sở lý thuyết của UNL. Cơ sở lý thuyết này bao gồm các tiêu chuẩn định nghĩa bởi UNL, làm thế nào để sử dụng ngôn ngữ trung gian UNL trên cả hai cấp độ lý thuyết và ứng dụng. Bộ đặc tả UNL nhằm giả i quyết việc tạo ra các bản dịch khác nhau bằng cách tạo ra các hình thái UNL khác nhau (UNL dialects). Bộ đặc tả này không mô tả dành cho một ngôn ngữ tự nhiên cụ thể nào đang dùng mà nó yêu cầu độc lập về ngôn ngữ (UNL không phụ thuộc vào bất kỳ ngôn TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 5 ngữ riêng biệt nào mà theo qui tắc chung do nó định nghĩa). Hình 3. Kiến trúc hệ thống dịch tự động của UNL 3. Khả năng ứng dụng UNL cho tiếng Việt Trên cơ sở tìm hiểu một cách có hệ thống về khái niệm UNL, hệ thống hoạt động UNL, ta có thể ứng dụng UNL cho Tiếng Việt như sau : a. Mô hình 1: Chuyển đổi thủ công văn bản Tiếng Việt sang ngôn ngữ UNL và từ đó sử dụng các công cụ hỗ trợ dịch từ UNL sang các ngôn ngữ khác như Tiếng Anh, Tiếng Nga, Tiếng Tây Ban Nha, Tiếng Ý. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 6 Hình 4. Mô hình ứng dụng UNL cho tiếng Việt Ví dụ: từ một câu tiếng Việt: “Tôi có thể giúp gì cho ông không ?”, ta sẽ chuyển nó sang dạng UNL: agt(help(icl>do).@polity.@interrogative.@entry, I) obj(help(icl>do).@entry.@polity.@interrogative, you) Và từ đây ta có thể dịch nó sang những ngôn ngữ (hiện nay là 15 ngôn ngữ) đã được hỗ trợ bởi UNL như tiếng Anh, tiếng Pháp, tiếng Nhật,… Đối với mô hình 1, ưu điểm là nhanh chóng ứng dụng UNL mà không cần phải phát triển bất cứ công cụ bổ sung nào. Nó phù hợp với việc phổ biến nhanh những dữ liệu cơ bản và thiết yếu (hướng dẫn du lịch, các mẫu hộ i thoại đơn giản, quảng cáo…) ra nhiều thứ tiếng đã hỗ trợ bởi UNL. Hạn chế là phải có đội ngũ am hiểu ngôn ngữ UNL để chuyển những dữ liệu đang có sang UNL [2]. b. Mô hình 2 : Tích hợp tiếng Việt vào UNL. Để tích hợp được tiếng Việt vào UNL, chúng ta cần phát triển mô-đun dịch xuôi (tiếng Việt – UNL) và dịch ngược (UNL – tiếng Việt). Để làm được việc này, cần phát tri ển các dữ liệu ngôn ngữ và công cụ dựa trên kiến trúc của UNL. Những công việc cụ thể gồm : - Xây dựng từ điển các từ, các luật văn phạm, từ điển định nghĩa các khái niệm cơ bản của Tiếng Việt. - Xây dựng các luật mã hóa, các luật phân tích từ trong câu. Khi chuỗi đầu vào được nạp thì EnConverter sẽ tiến hành phân tích các từ trong câu, mỗi từ được xem như là một nút, nạp luật mã hóa và tiến hành kiểm tra luật. Áp dụng luật mã hóa cho danh sách các nút. Quá trình xử lý của ứng dụng luật là để tìm ra luật thích hợp và áp dụng trên danh sách nút để tạo chức năng cú pháp và mạng UNL sử dụng các nút trong cửa sổ phân tích. Nếu một chuỗi xuất hiện trong cửa sổ, hệ thống sẽ xây dựng từ điển từ và áp dụng luật lên các phần tử từ. Trong tr ường hợp, nếu một từ đáp ứng đủ các điều kiện yêu cầu cho cửa sổ của luật, từ này sẽ được lựa chọn và ứng dụng luật tiếp tục. Quá trình xử lý này sẽ tiếp tục cho đến khi chức năng cú pháp và mạng UNL được hoàn thành và chỉ còn lại các phần tử nút trong danh sách nút. Cuối cùng EnConverter hiển thị mạng UNL thành file dữ liệu đầu ra là quan hệ nhị phân theo định dạng của biểu thức UNL. - Xây dựng công cụ hỗ trợ quá trình Giải mã – DeConverter: Gồm 3 thành phần: Thành phần đầu tiên dùng để chuyển biểu thức UNL thành đồ thị; Thành phần thứ hai chuyển đồ thị thành một số cây; Thành phần thứ ba dùng phương pháp đệ quy duyệt từ trên xuống qua các đỉnh để dịch mỗi cây con và kết quả là một câu hoàn chỉnh. Đối với mô hình ứng dụng 2, ư u điểm là tạo ra một hệ thống dịch tự động đa ngữ hoàn chỉnh cho tiếng Việt mà chỉ cần phát triển các mô-đun dịch tiếng Việt  UNL và UNL  tiếng Việt. Tuy nhiên, với mô hình này thì cần phải bỏ ra nhiều công sức để nghiên cứu, phát triển dữ liệu từ điển, ngữ pháp và các mô-đun dịch trên cơ sở nền tảng đã có của UNL. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 7 4. Thử nghiệm Chúng tôi đã tiến hành 2 thử nghiệm trên UNL. Thử nghiệm thứ nhất là xây dựng một tập dữ liệu UNL gồm gần 300 mẫu hội thoại trích từ "Sổ tay du lịch" và đã tiến hành dịch tập dữ liệu này sang các thứ tiếng Anh, Pháp, Ý, Đức và Nhật trên các máy chủ của hệ thống UNL. Kết quả dịch sang tiếng Anh và Pháp đã nhờ các chuyên gia ngôn ngữ kiểm tra và nhận được đánh giá tốt. Thử nghiệm thứ hai chúng tôi đang triển khai là xây dựng từ điển UNL-tiếng Việt trên cơ sở cấu trúc từ điển của UNL và dữ liệu được sử dụng từ dự án từ điển FEV do Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng hợp tác với nhóm nghiên cứu GETA-CLIPS, Cộng hoà Pháp triển khai trước đây [1]. 5. Kết luận Những kết quả đạt được mới chỉ mới dừng lại ở mức nghiên cứu tính khả thi của việc ứng dụng UNL cho tiếng Việt. Kết quả lớn nhất mà chúng tôi đạt được là đã nghiên cứu một cách có hệ thống về UNL, cách lưu trữ dữ liệu bằng UNL, cách hoạt động của hệ thống UNL, cách tích hợp một ngôn ngữ mới vào hệ thống và ứng dụng UNL vào xây dựng hệ thống dịch tự động đa ngữ trên mạng. Trên cơ sở đó chúng tôi đề xuất khả năng ứng dụng UNL vào việc xử lý tiếng Việt. Các thử nghiệm, đánh giá của chúng tôi hiện nay cũng chỉ mới giới hạn trong phạm vi khối lượng dữ liệu nhỏ nhằm mục đích kiểm chứng khả năng ứng dụng của UNL cho tiếng Việt. Để tạo ra một hệ thống dịch đa ngữ cho tiếng Việt bằng UNL thì chúng ta cần phải triển khai nhiều công việc như đã chỉ ra ở trên. Chúng tôi nhận thấy rằng, UNL mở ra một cơ hội to lớn để phát triển hệ thống dịch tự động đa ngữ một cách nhanh nhất có thể cho tiếng Việt. Trong thời gian đến, chúng tôi sẽ tiếp tục nghiên cứu một cách đầy đủ hơn về UNL và hy vọng sẽ xây dựng thành công hệ thống dịch tự động đa ngữ cho tiếng Việt. TÀI LIỆU THAM KHẢO [1] Blanchon H., Boitet Ch., Brunet-Manquat F., Tomokiyo M., Hamon A., Vo-Trung H. et Bey Y.: “Toward fairer evaluations of commercial MT systems on Basic Travel Expressions Corpora”, Proceedings of International Workshop on Spoken Language Translation IWSLT 2004, Kyoto, Japan, pp. 21-27, Oct. 2004. [2] Boitet Ch.: “A rationale for using UNL as an interlingua and more in various domains”, Proceeding of the First International Workshop on UNL, LREC2002, Las Palmas, Spain, 2002. [3] Hutchins W. J. and Somers, H. L.: “An Introduction to Machine Translation”, TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009 8 Academic Press, 1992. [4] H. Uchida, M. Zhu, T. Senta: “Universal Networking Language”, ISBN-10 2-8399- 0128-5, Edition II, Published 2006. [5] Lale Yurtseven, Logos machine translation system, http://www.logos-ca.com, Logos Corporation. . process information and knowledge across language barriers. It is an artificial language that replicates, in the cyber world, the functions of natural languages in human communication. As a result,. In this paper, we introduce general information about UNL and how to apply it to the vietnamese language processing. UNL (Universal Networking Language) is a computer language that enables computers. trên máy tính dưới dạng ngôn ngữ. Nó có ý ngh a quan trọng trong dịch a ngữ. Ví dụ, thay vì phát triển các hệ thống dịch tự động cho các cặp tiếng Việt – Nga, Việt – Anh, Việt – Pháp,… ta chỉ

Ngày đăng: 22/07/2014, 20:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN