Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	45
Dung lượng	2,83 MB

Nội dung

-o0o - Sinh viên thực hiện: Đinh Văn Toản Giáo viên hƣớng dẫn: Mã số sinh viên: 110584 CHƢƠNG 1: THÔNG TIN LỜI CẢM ƠN Đầu tiên em xin chân thành cảm ơn đến thầy cô khoa Công nghệ thông tin Trƣờng Đại học dân lập Hải Phòng tận tình dạy bảo cho em suốt thời gian học tập trƣờng Em xin gửi lời biết ơn sâu sắc đến Ths.Nguyễn Thị Xuân Hƣơng dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp em hoàn thành luận văn tốt nghiệp Mặc dù em có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên khơng thể tránh khỏi thiếu sót, nên em mong nhận đƣợc đóng góp quý báu thầy bạn Hải Phòng, tháng 07 năm 2011 Sinh viên Đinh Văn Toản DANH MỤC HINH VẼ CHƢƠNG 1: 10 1.1.1 Phát biểu toán 10 1.1.2 Đặc điểm 10 1.2 Giới thiệu cơng trình có 11 1.2.1 AMPad 11 1.2.2 VietPad 11 1.2.3 viAccent 12 1.2.4 VietMarker 13 1.2.5 14 CHƢƠNG 2: 15 2.1 Giới thiệu 15 2.2 Nguyên lý thành phần: 17 2.2.1 18 2.3 Mơ hình dịch: 21 2.3.1 Sự gióng hàng (alignment): 21 2.4 Giải mã (Decode) 2.4.1 Translation Options 28 29 2.4.2 Thuật toán (Core Algorithm) 30 2.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) 31 2.4.4 32 (Beam Search) 2.4.5 CHƢƠNG 3: - (N-Best Lists Generation) THỰC NGHIỆM 36 38 3.1 Cấu hình hệ điều hành 38 3.2 Các công cụ sử dụng 38 3.2.1 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 38 3.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 38 3.2.3 Các bƣớc huấn luyện dich kiểm tra 39 3.2.4 Chuẩn hóa liệu 40 3.2.5 Xây dựng mơ hình ngơn ngữ 40 3.2.6 Huấn luyện mơ hình: 40 3.2.7 41 3.2.8 Đánh giá kết dịch 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HINH VẼ Hinh 1.2.1-1 Thêm dấu tiếng Việt tự động AMPad 11 Hình 1.2.2-2 Gõ tiếng Việt không dấu VietPad 12 Hình 1.2.3-3 Văn sau thực chức thêm dấu tiếng Việt VietPad 12 Hình 1.2.3-4 : Gõ tiếng việt khơng dấu viAccent 13 Hình 1.2.4-5 Văn sau thực chức thêm dấu Vietmarker 14 2.1.1-6 Tăng kích cỡ LM cải thiện điểm BLEU 16 2.2.1-7 Kiến trúc hệ thống SMT 17 Hình 2.2-8Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 18 Hình 2.3.1-9 Sự tƣơng ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 2.3.1-10 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22 Hình 2.3.1-11 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 2.3.1-12 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 L ẦU Chữ viết tiếng Việt có có xuất dấu dấu ký tự Điều giúp cho tiếng Việt “thêm thanh, thêm điệu” Tuy nhiên, việc “thêm thanh, thêm điệu” Việt trở nên tốn nhiều thời gian làm cho việc gõ tiếng đƣợc nhiều e-mail r Chúng ta thật vất vả phải vừa đọc vừa đốn nội dung Chính phát triển công cụ giúp thêm dấu tiếng Việt vào văn không dấu việc cần thiết thú vị : VietPad chƣơng trình text editor Việt Unicode phát triển Quân Nguyễn nhóm phát triển http://vietpad.sourceforge.net viAccess, phần mềm bỏ dấu tiếng việt online địa chỉ: http://vietlabs.com/vietizer.html AMPad Trần Triết Tâm nâng cấp chƣơng trình “AutoMark” chuyển đổi xác đến khoảng 80% hơn.VietMarker, đƣợc phát triển nhóm nghiên cứu giảng viên sinh viên Học viện Cơng nghệ Bƣu Viễn thơng, đạt đƣợc độ tài hƣớng đến việc giải tốn thêm dấu tiếng việt theo mơ hình dịch máy thống kê Dịch máy phƣơng pháp thống kê (Statistical Machine Translation) T xây dựng từ điển, luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả áp dụng đƣợc cho cặp ngôn ngữ Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau: Chƣơng 1: Chƣơng 2: , Chƣơng , CHƢƠNG 2: 2.1.1 Phát biểu toán Bài tốn đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu nhƣ dấu ký tự làm phong phú thêm cho ngơn từ tiếng Việt, góp phần tăng độ biểu cảm tiếng Việt Dấu phần “bất khả phân” âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn dễ gây hiểu lầm Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu việc thử thách, khơng có dấu, việc nhận diện ranh giới từ tiếng Việt nhƣ số ngôn ngữ Châu Á khác, từ tả khơng tƣơng ứng với “từ” văn Đối với thứ tiếng Châu Âu, ta dễ dàng nhận từ, từ đƣợc phân cách khoảng trắng Điều lại không với tiếng Việt Trong tiếng Việt, tiếng_hay gọi âm tiết_đƣợc phân cách khoảng trắng, từ Sau nhận diện đƣợc ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể không dấu nhƣ Việc xác định gây nhiều khó khăn, từ từ khơng dấu có nhiều từ có dấu tƣơng ứng với Ví dụ 1-1 : Từ khơng dấu “me” có từ có dấu tƣơng ứng “mẹ”, “mẻ” “mè” Do đó, sau giải xong tốn tách từ tiếng Việt khơng dấu, ta cần phải giải thêm toán xác định từ có dấu thích hợp với từ khơng dấu 10 n dịch cụm từ đƣợc thêm vào Mỗi trạng thái tìm kiếm (giả thuyết) đƣợc thể bởi: Một liên kết ngƣợc trở lại với trạng thái trƣớc tốt (cần thiết cho việc tìm kiếm dịch tốt câu giải thuật quay lui thông qua trạng thái tìm kiếm) Các từ tiếng Anh cuối đƣợc sinh ( cần thiết cho việc tính tốn mơ hình ngơn ngữ tiếp theo) (cần thiết tính tốn cho chi óp méo tƣơng lai) (đƣợc tính tốn trƣớc lƣu trữ phù hợp) khả dịch Phần mô tả làm tối ƣu việc tìm kiếm cách loại bỏ giả thuyết mà phần đƣờng dẫn khơng cho dịch tốt Chúng ta giới thiệu khái niệm trạng thái so sánh đƣợc, cho phép định nghĩa cụm giả thuyết tốt cắt bỏ giả thuyết không phù hợp cụm 3.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) Kết hợp lại giả thuyết cách tốt để giảm khơng gian tìm kiếm hai giả thuyết đƣợc kết hợp lại thỏa mãn : Hai từ tiếng Anh cuối đƣợc sinh 31 , ví dụ Giả thuyết khơng phải phần đƣờng dẫn cho dịch tốt loại bỏ Chú ý giả thuyết cấp thấp phần đƣờng dẫn cho dịch tốt thứ hai điều quan trọng việc sinh danh sách n giả thuyết tốt 3.4.4 Tìm kiếm ch m (Beam Search) Chúng ta ƣớc lƣợng có giả thuyết đƣợc sinh trình tìm kiếm Xem xét giá trị cho thuộc tính giả thuyết nhất, ƣớc lƣợng cận số giả thuyết N Trong nf số từ tiếng nƣớc ngồi |Ve| kích thƣớc từ vựng tiếng Anh Thực tế số từ tiếng Anh đƣợc sinh nhỏ nhiều so với |Ve| Vấn đề bùng nổ hàm mũ đƣợc bao trùm giả thuyết xác định khả từ tiếng nƣớc số lƣợng từ tiếng nƣớc cắt bỏ giả thuyết cấp dƣới Chúng ta dựa việc xem xét giả thuyết cấp dƣới nằm đánh giá giả thuyết Tuy nhiên việc nhìn chung tiêu chuẩn tồn dịch dễ tìm thấy phần đầu câu nghiêng tìm kiếm Ví dụ có ba cụm từ tiếng ngồi mà dễ dàng dịch sang cụm từ tiếng Anh t tiếng Anh Việc phâ 32 nhân tố ((vd , ( vd: n = 100) Lƣu ý kiểu cắt tỉa rủi ro (trái ngƣợc với tái tổ hợp) Nếu chi phí tƣơng lai khơng đủ, chúng tơi đƣờng dẫn đến giả thuyết tốt Trong phiên đặc biệt chi phí tƣơng lai , nghĩa chi phí tƣơng lai khơng đủ giảm khơng gian tìm kiếm Trong thực tế, loại cắt tỉa Hình dƣới đƣa giả mã cho thuật toán sử dụng cho tìm kiếm Đối với số từ nƣớc , chồng giả thuyết Giả thuyết ban đầu đƣợc đặt ngăn xếp cho Bắt đầu với giả thuyết này, giả thuyết khơng có tạo nƣớc đƣợc sinh sử dụng Mỗi giả thuyết có nguồn gốc đƣợc đặt ngăn xếp dựa số lƣợng từ nƣớc 33 initialize hypothesisStack[0 nf]; create initial hypothesis hyp_init; add to stack hypothesisStack[0]; for i=0 to nf-1: for each hyp in hypothesisStack[i]: for each new_hyp that can be derived from hyp: nf[new_hyp] = number of foreign words covered by new_hyp; add new_hyp to hypothesisStack[nf[new_hyp]]; prune hypothesisStack[nf[new_hyp]]; find best hypothesis best_hyp in hypothesisStack[nf]; output best path that leads to best_hyp; đƣợc c Để loại trừ giả thuyết từ chùm xem xét chi phí , mà ƣớc lƣợng chi phí tƣơng lai Trong tính tốn chi phí rẻ tƣơng lai cho giả thuyết, tính tốn đánh bại mục đích việc tìm kiếm chùm 34 Chi phí tƣơng lai gắn liền với từ nƣớc ngồi chƣa đƣợc dịch Trong khn khổ mơ hình cụm từ, khơng từ đơn lẻ đƣợc dịch riêng lẻ, mà liên tiếp nhƣ cụm từ Mỗi hoạt động dịch mang chi phí dịch, Đối với chi phí mơ hình ngơn ngữ, tƣơng lai, xem xét mơ hình dịch ngơn ngữ Chi phí mơ hình ngơn ngữ thƣờng đƣợc tính mơ hình ngơn ngữ trigram Tuy nhiên, khơng biết từ tiếng Anh trƣớc cho tính tốn c dịch Vì vậy, gần chi phí cách mơ hình ngơn ngữ cho từ tiếng Anh tạo Điều có nghĩa, có từ tiếng Anh đƣợc sinh xác suất unigram Nếu hai từ đƣợc tạo ra, xác suất unigram từ xác suất bigram từ thứ hai, Đối với chuỗi để nƣớc ngồi tính tốn chi phí cho tùy chọn dịch Cách rẻ phí cho tuỳ chọn đƣờng cho khái niệm Các tùy chọn mang theo : Cij Chi phí 01 12 tùy chọn dịch c c c = 1,9578 *10-7 25 35 3.4.5 - (N-Best Lists Generation) Thông thƣờng, hy vọng giải mã cung cấp cho dịch tốt cho đầu vào theo mơ hình Nhƣng số ứng dụng, quan tâm dịch tốt thứ hai, dịch tốt thứ ba,… Một phƣơng pháp phổ biến nhận dạng giọng nói, xuất sử dụng hệ thống giải mã nhƣ mơ hình sở để sinh tập hợp dịch ứng cử cho câu đầu vào Sau đó, đƣợc sử dụng để dịch Một danh sách - dịch ứng cử Nhƣ tập hợp dịch đại diện đồ thị từ (Ueffing et al., EMNLP 2002) rừng phân tích cú pháp (Langkilde, EACL 2002) Những cấu trúc liệu thay cho phép đại diện nhỏ gọn tập hợp lớn nhiều ứng cử Tuy nhiên, điều khó khăn nhiều để phát cấu trúc liệu Các cung đồ thị Tìm kiếm Trong trình mở rộng Các giả thuyết rộng liên kết tạo thành đồ thị ƣờng dẫn nhánh mở chọn dịch cho giả thuyết mà từ nhiều giả thuyết đƣợc sinh Đƣờng dẫn tham gia giả thuyết đƣợc kết hợp lại Thông thƣờng, kết hợp lại giả thuyết, đơn giản loại bỏ giả thuyết , khơng thể phần đƣờng tốt thơng qua đồ thị tìm kiếm (nói cách khác dịch tốt nhất) Nhƣng kể từ đơn giản quan tâm đến dịch tốt thứ hai, thông tin giả thuyết Nếu làm điều này, đồ thị tìm kiếm chứa đƣờng dẫn cho giả thuyết giả thuyết cuối ( ngoài) giả thuyết tất từ nƣớc 36 Nếu lƣu trữ thông tin nhiều cách để đạt đƣợc giả thuyết, số lƣợng đƣờng nhân thơng qua đồ thị Để giữ cho thông tin kết hợp nhƣ : , lƣu giữ hồ sơ nhận dạng giả thuyết trƣớc nhận dạng giả thuyết chi phí thấp chi phí từ trƣớc đến chi phí giả thuyết cao Hình dƣới cho ví dụ cho hệ vòng cung nhƣ vậy: trƣờng hợp này, giả thuyết tƣơng đƣơng tìm kiếm heuristic Do đó, Nhƣng muốn giữ cho thông tin đƣờng dẫn từ giả thuyết 2, vòng cung Cung chi phí thêm từ Lƣu ý chi phí từ giả thuyết giả thuyết khơng đƣợc lƣu trữ, đƣợc từ cấu trúc liệu giả thuyết 37 CHƢƠNG 4: THỰC NGHIỆM 4.1 Cấu hình hệ điều hành 4.2.1 CPU Core i3 2.1 GHz RAM 2G Hệ điều hành Ubuntu 11.04 SWAP 5G 4.2 Các công cụ sử dụng Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: SRILM công cụ để xây dựng áp dụng mơ hình ngơn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ công cụ đƣợc phát triển “Phòng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mơ hình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ công cụ SRILM có nhiều chƣơng trình con, để xây dựng mơ hình thêm dấu cho văn tiếng việt ta sử dụng chƣơng trình sau : 4.2.1.1 Ngram-count: Chƣơng trình Ngram-count thống kê tần số xuất cụm Ngram Kết việc thống kê đƣợc ghi lại vào tệp sử dụng chúng để xây dựng mơ hình ngơn ngữ 4.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: Moses hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng mơ hình dịch cho cặp ngôn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học 38 - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mơ hình ngơn ngữ, số lƣợng tối đa cụm từ ngơn ngữ đích đƣợc dịch cụm từ ngôn ngữ nguồn, Để xây dựng đƣợc mơ hình dịch thống kê, ta sử dụng script: trainmodel.perl với số tham số sau: root-dir cài đặt thƣ mục gốc nơi lƣu trữ tệp đầu corpus tên tệp văn huấn luyện (bao gồm ngơn ngữ nguồn đích) e đuôi mở rộng tệp văn huấn luyện ngơn ngữ đích f mở rộng tệp văn huấn luyện ngôn ngữ nguồn lm language model: :: : thiết lập file cấu hình mơ hình ngơn ngữ theo định dạng trình bày phần max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table Cơng cụ gióng hàng GIZA++ 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mơ hình ngơn ngữ Xây dựng mơ hình dịch Dịch máy Đánh giá kết dịch 39 4.2.4 Chuẩn hóa liệu Bộ cơng cụ , Tokenizer, lowercase, chuyển sang chữ thƣờng, … nhƣ: tách từ, tách câu, 4.2.5 Xây dựng mơ hình ngơn ngữ Sử dụng cơng cụ SRILM để xây dựng mơ hình ngôn ngữ Kết sau xây dựng mô hình ngơn ngữ tri-gam: Bảng thống kê n-gram \data\ ngram 1=6773 ngram 2=162282 ngram 3=92846 \1-grams: -2.6378 ! -0.9554 -3.523143 " -0.2592531 -4.542355 $ -0.1713233 -3.916798 % -0.2839231 -2.823495 ' -0.4149792 -2.759014 ( -0.3535762 -2.827075 ) -0.4755327 4.2.6 Huấn luyện mơ hình: GIZA++ Mơ hình dịch (phrase-table) 40  Kết file phrase-table : ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ' Do la mot viec ||| ! ' ' Đó việc ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la mot ||| ! ' ' Đó ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la ||| ! ' ' Đó ||| 1 0.769353 2.718 ||| ||| 1 ! ' ' Do ||| ! ' ' Đó ||| 1 0.797297 2.718 ||| ||| 1 ! ' ' Duoc , neu anh ||| ! ' ' Đƣợc , anh ||| 1 0.897503 2.718 ||| ||| 1 ! ' ' Duoc , neu ||| ! ' ' Đƣợc , ||| 1 0.924477 2.718 ||| ||| 1 ! ' ' Duoc , ||| ! ' ' Đƣợc , ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' Duoc ||| ! ' ' Đƣợc ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' may cung the , ||| ! ' ' mày , ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung the ||| ! ' ' mày ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung ||| ! ' ' mày ||| 1 0.127426 2.718 ||| ||| 4.2.7 Đầu vào : văn tiếng Kết trả đƣa vào Việt không dấu hệ thống thêm dấu Văn xác toi ngo rang co ta toi ngờ rang co ta ngờ cô ta khong noi cho toi biet không noi cho toi biết khơng nói cho tơi biết su_that sự_thật thật toi bi dau bao_tu toi bi đâu bao_tử bị đau bao tử du_doi toi dữ_dội hoan_toan toi dội hoàn_toàn tơi hồn tồn tin tin_tuong vao tai_nang cua tin_tƣởng vào tài_năng cua tƣởng vào tài cac bac_si bác_sĩ bác sĩ toi luc_nao cung toi lúc_nào cung lúc thich nghe_noi ve thích nghe_nói ve thích nghe nói phủ 41 chinh_phu my nhung co_phan chính_phủ my nhung cổ_phần mỹ cổ phần bang anh bay_gio dang_gia bang anh bây_giờ đáng_giá bảng anh đáng giá 2.75 bang 2.75 bang 2.75 bảng 10 bang anh la du 10 bang anh la du 10 bảng anh đủ tienxangchocuoc hanh_trinh cua chung_toi tiềnxăngchocuộc hành_trình cua chúng_tơi tiền xăng cho hành trình chúng_tơi 4.2.8 Đánh giá kết dịch Chỉ số BLEU Individual N-gram scoring 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram -BLEU: 0.0968 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 "ref" # Chỉ số BlEU:Là số đánh giá chất lƣợng dịch máy dịch thống kê từ ngôn ngữ sang ngôn ngữ khác Nếu kết gần giống với cách hiểu tự nhiên chất lƣợng dịch tốt Điểm BlEU đƣợc tính cách so sánh câu cần dịch với tập hợp tham chiếu dịch tốt Sau lấy giá trị trung bình tƣơng ứng điểm số riêng lẻ Chỉ số nằm khoảng đến Nếu gần1 chất lƣợng dịch tốt (sát nghĩa) 42 KẾT LUẬN Bài toán thêm dấu tiếng Việt vào văn không dấu ƣớng tới tiếp cận tiếng Việt khác sử dụng mơ hình dịch máy thống kê cho k đƣợc mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên Tuy nhiên, luận văn đạt đƣợc số kết quả: Về lý thuyết: Tìm hiểu, nghiên cứu mơ hình dịch máy thống kê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mơ hình dịch máy thống kê Cài đặt ứng dụng đƣợc mơ hình dịch máy thống kê cho toán bỏ dấu tiếng Việt Do thời gian có hạn, nên k tơi Trong tƣơng lai, ê - t V 43 TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng Việt [1] Thắng, Tơ Hồng NGRAM s.l : Khóa luận tốt nghiệp Trƣờng đại học Công Nghệ, 2007 Tài liệu tham khảo Tiếng Anh [1] Thắng, Tô Hồng Building language model for vietnamese and its application, graduation thesis 2008 [2] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S A statistical approach to machine translation s.l : Computational Linguistics, 1990 [3] http://www.statmt.org/moses/ [4] MOSES Statistical Machine Translation System User Manual and Code Guide Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh 44 ... biểu toán Bài toán đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu. .. ngơn ngữ nguồn f Mơ hình dịch từ tiếng Anh sang tiếng Việt hình dung thơng qua biểu đồ dƣới đây: Hình 2.2-8 Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 3.2.1 Mô hình ngơn ngữ (Language... pháp dịch máy thống kê để giải toán Sử dụng luật Bayes để mơ hình lại khả dịch cho việc dịch câu không dấu f sang câu tiếng việt e nhƣ sau: Nó cho thể mơ hình ngơ ngữ e mơ hình dịch với p(f|e) 14

Ngày đăng: 15/03/2019, 10:09