1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt

15 102 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 300,69 KB

Nội dung

BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt Khảo sát mô hình dịch máy Dịch máy hướng phát triển có lịch sử lâu đời từ thập kỷ 50 phát triển mạnh mẽ vào thập kỷ 80 [7] Hiện nay, có nhiều hệ dịch máy thương mại tiếng giới Systrans, Kant, … [1, 2] hay hệ dịch máy mở tiêu biểu hệ dịch Google [3] hỗ trợ 10 cặp ngôn ngữ phổ biến Anh-Pháp, Anh-Trung, Anh-Nhật, Anh-Đức, … Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ dịch dựa vào liệu [6] Các hệ dịch máy đạt kết tốt với cặp ngôn ngữ tương đồng cú pháp cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … gặp nhiều hạn chế cặp ngôn ngữ có cú pháp khác Anh-Trung, Anh-Nhật, … Ở Việt Nam, dịch Anh-Việt gặp phải khó khăn khác biệt mặt cấu trúc ngữ pháp tính nhập nhằng ngữ nghĩa hai ngôn ngữ Hơn 10 năm dịch máy trở thành đề tài số nhóm tập trung nghiên cứu, nhiên chất lượng phạm vi ứng dụng hệ dịch nhiều hạn chế Trong nhiều nhóm nghiên cứu có hệ dịch Anh-Việt đưa làm sản phẩm thương mại có ứng dụng thực tế - Nhóm nghiên cứu TS Đinh Điền (ĐHKHTN-ĐHQGTPHCM): Dự án nghiên cứu nhóm dựa việc học luật chuyển đổi từ ngữ liệu song ngữ - Nhóm nghiên cứu PGS TS Phan Thị Tươi (ĐHBKTPHCM): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để dịch văn Anh-Việt Việt-Anh - Nhóm nghiên cứu TS Lê Khánh Hùng (Viện NCUDCN-Bộ KHCN): Đây nhóm nghiên cứu đưa hệ dịch vào sử dụng thực tế thương mại hoá sản phẩm EVTRAN hệ dịch máy hoàn toàn dựa vào luật, sử dụng luật xây dựng tay để dịch văn từ Anh sang Việt Phiên EVTRAN đời cuối năm 2005 cho phép dịch văn hai chiều Anh-Việt Do hệ dịch dựa luật nên kết hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với luật thiết lập hay không - Nhóm dự án ERIM ĐHBKĐN kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) LATL - Ngoài kể đến số nỗ lực xây dựng phần mềm dịch máy có tiếng Việt Stuart Sandra trường Western Sydney Macarthur sản phẩm Universal Translator 2000 (http://www.languagetranslator.com/software/unidelux.html) Hiện nay, nghiên cứu để làm tăng chất lượng hệ dịch tiến hành phù hợp với đặc điểm cặp ngôn ngữ Trong đó, phương pháp dịch dựa thống kê hướng tiếp cận phát triển mạnh từ năm thập kỷ 90 [4], xem cách tiếp cận khả thi hiệu việc dịch tự động với nhiều bước đột phá Khảo sát phương pháp dịch máy thống kê Dịch máy dựa phương pháp thống kê hướng phát triển đầy tiềm ưu điểm vượt trội so với phương pháp khác Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có từ kho ngữ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng cho cặp ngôn ngữ Dịch máy dựa phương pháp thống kê tìm câu ngôn ngữ đích e phù hợp (có xác suất cao nhất) cho trước câu ngôn ngữ nguồn f e* = arg max p ( e | f ) e Một hệ dịch máy dựa phương pháp thống kê mô hình hoá sau: Dịch máy thống kê lần đề cập báo [5] với phương pháp sử dụng mô hình Kênh nhiễu (Noisy Channel Model) Mô hình kênh nhiễu Brown áp dụng toán dịch máy sau: cần dịch sang câu tiếng Anh e1I = Cho câu tiếng Pháp f1J = f … f j … f J e1 … ei … e I Brown dựng lên mô hình kênh nhiễu với e đầu vào mã hoá (Encoder), qua kênh nhiễu chuyển hoá thành f sau đó, gửi f đến giải mã (Decoder) Như vậy, câu tiếng Anh, ta chọn câu cho xác suất hậu nghiệm Pr ( e1I | f1J ) lớn nhất, theo luật định Bayes : { } eˆ1I = arg max Pr ( e1I | f1J ) { e1I } = arg max Pr ( e1I ) Pr ( f1I | e1J ) e1I Như vậy, ta xây dựng mô hình chung hệ dịch máy phương pháp thống kê thông qua hình ảnh kênh nhiễu: Mô hình ngôn ngữ Pr ( e I ) e Mô hình dịch Pr ( f1J | e1I ) f Giải mã eˆ eˆ = arg max Pr(e | f1 ) e I J Mô hình ngôn ngữ thường giải mô hình n-gram Pha giải mã thường giải thuật toán Search Viterbi Beam, A* stack, Graph Model Trong mô hình dịch, vấn đề trọng tâm việc mô hình hoá xác suất dịch Pr ( f1J | e1I ) việc định nghĩa tương ứng từ câu nguồn với từ câu đích Mô hình thực việc gọi mô hình gióng hàng từ (alignment model) Brown đưa năm mô hình gióng khác từ IBM1 đến IBM5 [12] Sau đó, loạt nghiên cứu với nhiều cách tiếp cận khác đời phù hợp với đặc điểm ngôn ngữ khác Phương pháp dịch máy thống kê truyền thống dựa đơn vị từ (word-based) Trong phương pháp dịch word-based, đơn vị dịch từ Số từ câu dịch khác phụ thuộc vào từ ghép, hình thái từ thành ngữ Tham số độ dài chuỗi từ dịch gọi độ hỗn loạn (“fertility”) [10], tức số từ ngôn ngữ đích mà từ ngôn ngữ nguồn sinh Tuy nhiên, tuỳ vào đặc điểm ngôn ngữ, cặp ngôn ngữ Anh-Việt giống với cặp ngôn ngữ Anh-Trung, Anh-Nhật, , hệ dịch phải đối mặt với khó khăn trình xếp trật tự từ tiếng Anh tương ứng dịch sang câu tiếng Việt Trong trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt 1-1, 1-không, 1-nhiều, nhiều-1 nhiều-nhiều Mô hình dịch dựa đơn vị từ không cho kết tốt trường hợp kết nối nhiều-1 nhiều-nhiều với trật tự từ câu tương ứng khác Khi đó, phân tích dựa đơn vị cụm từ (phrase-based) đề xuất để giải vấn đề Ở đây, khái niệm cụm từ (phrase) không theo định nghĩa ngôn ngữ học mà cụm từ sinh dựa vào phương pháp thống kê áp dụng ngữ liệu học Trong [11], Koehn mô tả cách khái quát trình dịch thống kê dựa cụm từ sau: ♦ Câu nguồn tách thành cụm từ ♦ Mỗi cụm từ dịch sang ngôn ngữ đích ♦ Các cụm từ dịch xếp theo thứ từ phù hợp Phương pháp dịch máy thống kê dựa đơn vị cụm từ phương pháp phát triển, có số mô hình xây dựng chất lượng đánh giá cao áp dụng cho cặp ngôn ngữ Anh-Trung, Anh-Arab, [9] Tuy chất lượng có tốt mô hình dịch thống kê dựa đơn vị từ, mô hình dịch thống kê dựa cụm từ chưa giải số vấn đề ngữ pháp, khả lựa chọn cụm từ với tính xác cao, dịch tên, lượng từ vựng có hạn việc chuyển đổi cú pháp [8] Hiện nay, nhiều cách tiếp cận khác đời nhằm cải thiện chất lượng hệ dịch, tích hợp thêm thông tin ngôn ngữ tiến hành tiền xử lý, sử dụng thông tin ngữ pháp để chuyển đổi câu ngôn ngữ nguồn e dạng e’ gần với ngôn ngữ đích trước thực việc gióng hàng từ [13] Các mô hình dịch máy thống kê mã nguồn mở Hiện có nhiều diễn đàn chia sẻ tài nguyên, công cụ mã nguồn mở hỗ trợ cho hệ dịch máy thống kê http://www.statmt.org/ trang web tiêu biểu giới thiệu đầy đủ tài liệu, hội thảo liên quan đến SMT, parallel corpus, mã nguồn liên quan tới dịch máy thống kê cập nhật cách thường xuyên Các nhóm nghiên cứu mở SMT: - Nhóm nghiên cứu Statistical MT trường Johns Hopkins dựng lên EGYPT (http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/), Open source Statistical MT Toolkit Trong có GIZA, training tool cho mô hình IBM 1-5, sử dụng để tạo bảng ánh xạ từ-từ cho nhiều mô hình dịch theo phương pháp phrase-based - Nhóm nghiên cứu MT ISI (Koehn, Och and Marcu) sử dụng Toolkit khác, SRILM (http://www.speech.sri.com/projects/srilm/), để xây dựng hệ dịch máy nghiên cứu theo phương pháp Phrase-based Statistical MT Pharaoh (http://www.isi.edu/licensed-sw/pharaoh/) (Koehn số người tham gia phát triển hệ dịch Moses sau này) - Và gần xuất Moses (http://www.statmt.org/moses/), hệ thống nguồn mở phrase-based SMT hoàn chỉnh Moses thực chất phiên cao Pharaoh, phần mềm nhiều trường đại học, nhóm nghiên cứu tiếng xử lý ngôn ngữ tự nhiên dịch máy thống kê Edinburg (Scotland), RWTH Aachen (Germany), tham gia phát triển Đây phần mềm có chất lượng tốt, khả mở rộng cao dùng để xây dựng nhiều hệ thống dịch thử nghiệm cho nhiều cặp ngôn ngữ Anh-Czech, Anh-Trung, Anh-Pháp, Hệ thống sử dụng làm baseline thi hệ thống dịch máy thống kê hội nghị ACL 2007 Ưu điểm vượt trội Moses cho phép người dùng tích hợp thêm thông tin ngôn ngữ cách mềm dẻo cách thêm tham số (factors) vào hệ thống [14] giới thiệu cách cụ thể ý tưởng, tính thực nghiệm hệ dịch cặp ngôn ngữ Anh-Đức, Anh-Tây Ban Nha, Anh-Séc Ý tưởng Moses dựa hạn chế mô hình phrase-based truyền thống Đó thiếu hụt thông tin ngôn ngữ lemma, POS tag, mophology, syntax, … dẫn đến hệ thống khả dịch từ không xuất tập liệu học (ví dụ đơn giản từ “house” có từ điển, từ “houses” không), khả phân biệt ngữ cảnh khác câu cần dịch, khác cú pháp cặp ngôn ngữ, Moses mở rộng khả cho phép người dùng thêm vào lớp thông tin ngôn ngữ (các factor) vào mô hình dịch (hình 1) liệu huấn luyện (hình 2) Hình 1: Một ánh xạ factor ngôn ngữ nguồn ngôn ngữ đích Hình 2: Tích hợp thêm lớp thông tin lemma, POS vào liệu huấn luyện Hệ thống có tính cần thiết giải vấn đề chung nhiều cặp ngôn ngữ có khác biệt lớn mặt cấu trúc ngữ pháp tính nhập nhằng ngữ nghĩa hệ dịch Anh-Việt Thu thập ngữ liệu, rút trích xử lý tài nguyên, tiền xử lý liệu Một mục tiêu đề tài nhằm minh họa việc sử dụng, giá trị kết tài nguyên công cụ đề tài chính, kế thừa áp dụng kết công cụ tài nguyên từ nhánh khác đề tài Tuy nhiên, phải xây dựng tập liệu song ngữ vừa đủ để tiến hành thử nghiệm đánh giá sơ mô hình dịch mã nguồn mở, từ dẫn đến việc tiến hành sử dụng phương pháp thích hợp với hệ dịch Anh-Việt Ngữ liệu song ngữ tiến hành thu thập cách thủ công từ tin công nghệ song ngữ Internet Số lượng cặp câu song ngữ thu thập 8500 cặp câu 4.1 Ngữ liệu song ngữ Một mục tiêu đề tài nhằm minh họa việc sử dụng, giá trị kết tài nguyên công cụ đề tài chính, kế thừa áp dụng kết công cụ tài nguyên từ nhánh khác đề tài Tuy nhiên, phải xây dựng tập liệu song ngữ vừa đủ để tiến hành thử nghiệm đánh giá sơ mô hình dịch mã nguồn mở, từ dẫn đến việc tiến hành sử dụng phương pháp thích hợp với hệ dịch Anh-Việt Ngữ liệu song ngữ tiến hành thu thập cách thủ công từ tin công nghệ song ngữ Internet Số lượng cặp câu song ngữ thu thập 8500 cặp câu 4.2 Ngữ liệu đơn ngữ Để phục vụ cho xây dựng mô hình ngôn ngữ (language model) có chất lượng tốt cho tiếng Việt, tiến hành thu thập tài liệu tiếng Việt từ tin báo điện tử trực tuyến mạng Việc thu thập thao tác hậu xử lí tiến hành tự động Chúng tiến hành thu thập ngữ liệu đơn ngữ từ trang web báo điện tử www.vnexpress.net, tách câu, tách token tách từ thu Kết thu thập ngữ liệu đơn ngữ phục vụ cho việc xây dựng mô hình ngôn ngữ cho tiếng Việt liệt kê bảng 5.1 STT Lĩnh vực Số lượng Công nghệ thông tin 217,293 Khoa học 154,624 Kinh doanh 156,894 Luật 154,556 Tin tức giới 238,356 Thể thao 241,791 Văn hóa 419,955 Tổng cộng 1,583,469 Bảng 5.1: Dữ liệu đơn ngữ phục vụ cho việc xây dựng language model 5.3 Các công cụ tiền xử lí dùng cho hệ dịch Để phục vụ cho việc thử nghiệm hệ dịch sử dùng phần mềm opensource Moses, nhóm nghiên cứu sử dụng công cụ tiền xử lí cho tiếng Anh tiếng Việt sau Công cụ cho tiếng Việt - Bộ Tokenizer: sử dụng Tokenizer ngữ liệu Europarl corpus[16], Koehn phát triển - Bộ tách từ: sử dụng công cụ JvnSegmenter[17] cung cấp dạng mã nguồn mở nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kĩ thuật Conditional Random Field Chất lượng tách từ 94% - Bộ gán nhãn từ loại (Pos tagger): Sử dụng công cụ VnQTag cung cấp miễn phí nhóm Nguyễn Thị Minh Huyền Công cụ cho tiếng Anh - Bộ Tokenizer: sử dụng Tokenizer ngữ liệu Europarl corpus, Koehn phát triển - Bộ gán nhãn từ loại (Pos tagger): sử dụng công cụ CRFTagger[18] cung cấp dạng mã nguồn mở nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kĩ thuật Conditional Random Field Chất lượng gán nhãn theo báo cáo nhóm tác giả cung cấp đạt 97% - Bộ phân tích hình thái từ (Morphological Analyzer): sử dụng công cụ morpha[15] cung cấp miễn phí nhóm Minnen, G., J Carroll and D Pearce (2001) Kết thử nghiệm 5.1 Chuẩn bị liệu đầu vào cho hệ dịch 5.1.1 Ngữ liệu song ngữ đơn ngữ Dữ liệu đơn ngữ tiếng Việt: Sử dụng ngữ liệu đơn ngữ thu thập từ Internet Dữ liệu song ngữ Anh-Việt: Sử dụng 8500 cặp câu (tuy nhiên trình đưa vào Moses, hệ thống lọc bớt nhiều cặp câu không đáp ứng yêu cầu) 5.1.2.Công cụ tiền xử lí - Để gán factors cho từ liệu huấn luyện hệ dịch, thực gán nhãn từ loại cho tiếng Việt sử dụng phần mềm VnQtag [19] với gán nhãn mức (9 nhãn từ vựng, 10 nhãn cho loại ký hiệu) tiếng Anh với phần mềm CRFTagger (http://crftagger.sourceforge.net/) (nhãn theo PennTree Bank); phân tích hình thái cho tiếng Anh sử dụng phần mềm morpha [15] để trích lemma cho từ tiếng Anh - Ngoài phát triển công cụ chuyển đổi liệu cho phù hợp với định dạng yêu cầu đầu vào Moses 5.1.3 Công cụ đánh giá chất lượng hệ dịch Các mô hình dịch đánh giá so sánh thông qua điểm NIST BLEU (http://www.nist.gov/speech/tests/mt/2008/scoring.html) 5.1.4 Baseline system Baseline system dùng Moses decoder (http://www.statmt.org/moses/) - hệ thống nguồn mở phrase-based SMT hoàn chỉnh với mô hình ngôn ngữ sử dụng SRILM toolkit (http://www.speech.sri.com/projects/srilm/), gióng hàng từ trình training thực thông qua GIZA++ (http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/) Hệ thống baseline thử nghiệm máy Intel Xeon 3.4GHz, 1GB RAM 5.2 Các kết ban đầu Hệ thống thực nghiệm dựa baseline system với mô hình ngôn ngữ (LM) huấn luyện SRILM toolkit với 268MB liệu đơn ngữ tiếng Việt Dữ liệu song ngữ lĩnh vực công nghệ thông tin thu thập 4843 cặp câu song ngữ mô tả chi tiết sau: Corpus Độ dài TB câu Tokens Token types Tiếng Anh 16.2 78431 7152 Tiếng Việt 16.9 81639 5652 Chúng tiến hành thực nghiệm với liệu gồm: Tập huấn luyện gồm 4843 cặp câu tập kiểm thử 186 câu tiếng Anh trích từ tập huấn luyện 5.2.1 Các mô hình thực nghiệm Do đặc điểm tiếng Việt ngôn ngữ đơn lập, biến đổi hình thái từ nên thông tin hình thái từ (morphology) có ngôn ngữ nguồn (tiếng Anh) Chúng tiến hành thử nghiệm sau: 5.2.1.1 Baseline system (T) – word level only Baseline system sử dụng mô hình phrase-based đơn giản (single-factored), từ câu không chứa thông tin ngôn ngữ kèm với từ Mô hình trình dịch trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích Input format: word1 word2 … wordn Tiếng Anh Tiếng Việt words words POS POS lemma lemma + LM 5.2.1.2 T+C - Word + POS Trong thử nghiệm này, từ tiếng Anh dịch sang từ tiếng Việt, sau từ tiếng Việt sinh POS tag tương ứng chúng Quá trình gồm bước chuyển T bước kiểm tra C Input format: word1|POS1 word2|POS2 … wordn|POSn Tiếng Anh Tiếng Việt words words POS POS lemma lemma 5.2.1.3 T1+T2+G – Word + POS + lemma + LM Trong thực nghiệm này, thực trình dịch tương ứng sau: wordword (T1); POS, lemma – POS, lemma (T2) Sau đó, POS, lemma sinh words phía ngôn ngữ đích Khi đó, kết dịch lựa chọn word sinh qua ánh xạ từ ngôn ngữ nguồn word sinh qua trình sinh từ phía ngôn ngữ đích Quá trình gồm bước dịch T1, T2 bước sinh G Input format: word1|POS1|lemma1 word2|POS2|lemma2 … wordn|POSn|lemman Tiếng Anh Tiếng Việt T1: words words T2: POS POS lemma lemma Models BLEU + LM 5.2.2 Kết thực nghiệm -T 0.6488 T+C 0.6657 T1+T2+G 0.6064 Tài liệu tham khảo [1] http://www.systransoft.com [2] Eric H Nyberg, Teruko Mitamura, “The Kant system: Fast, Accurate, High- quality Translation in Practical Domains”, Proceedings of COLING-92, Nantes, France, July 1992 [3] http://translate.google.com/translate_t [4] Hutchins W.John, “Machine Translation: A Brief History”, Concise history of the language sciences: from the Sumerians to the cognitivists, Oxford: Pergamon Press, 1995, pp 431-445 [5] Peter F Brown et al., “A Statistical Approach to Machine Translation” Computational Linguistics 16, 1990 [6] Bonnie J Dorr el al, “A Survey of Current Paradigms in Machine Translation”, UMIACS-TR-98-72, 1998 [7] W.J Hutchins, “Machine translation: past, present, future”, 1986 [8] Philipp Koehn, “Challenges in Statistical Machine Translaton”, Talk given at PARC, Google, ISI, MITRE, BBN, Univ of Montreal, 2004 [9] David Chiang, “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, Proceedings of the 43th Annual Meeting of the ACL, 2005 [10] Kevin Knight, “A statistical MT tutorial workbook”, Prepared with JHU summer workshop, 1999 [11] Philipp Koehn and Kevin Knight, “Introduction to Statistical Machine Translation”, Tutorial at AMTA, 2004 [12] Peter F Brown et al., “The Mathematics of Statistical Machine Translation: Parameter Estimation”,Computational Linguistics 16, 1993 [13] Elliot Franco Drabek and David Yarowsky, “Improving bitext word alignments via syntax-based reordering of English”, 2007 [14] Phillip Koehn, Marcello, Wade Shen, Nicola Bertoldi, Ondrej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Corbett Moran, Evan Herbst, “Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding”, final report of the 2006 Language Engineering Workshop [15] Minnen, G., J Carroll and D Pearce, “Applied morphological processing of English”, Natural Language Engineering, 7(3) 207-223, 2001 [16] Philipp Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation”, MT Summit, 2005 [17] Cam-Tu Nguyen and Xuan-Hieu Phan, "JVnSegmenter: A Java-based Vietnamese Word Segmentation Tool", http://jvnsegmenter.sourceforge.net/, 2007 [18] Xuan-Hieu Phan, "CRFTagger: CRF English POS Tagger", http://crftagger.sourceforge.net/, 2006 [19] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, 2003, “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda, 2003

Ngày đăng: 20/10/2016, 07:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w