Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
2,83 MB
Nội dung
-o0o - Sinh viên thực hiện: Đinh VănToản Giáo viên hƣớng dẫn: Mã số sinh viên: 110584 CHƢƠNG 1: THÔNG TIN LỜI CẢM ƠN Đầu tiên em xin chân thành cảm ơn đến thầy cô khoa Công nghệ thông tin Trƣờng Đại học dân lập Hải Phòng tận tình dạy bảo cho em suốt thời gian học tập trƣờng Em xin gửi lời biết ơn sâu sắc đến Ths.Nguyễn Thị Xuân Hƣơng dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp em hoàn thành luận văn tốt nghiệp Mặc dù em có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên khơng thể tránh khỏi thiếu sót, nên em mong nhận đƣợc đóng góp quý báu thầy bạn Hải Phòng, tháng 07 năm 2011 Sinh viên Đinh VănToản DANH MỤC HINH VẼ CHƢƠNG 1: 10 1.1.1 Phát biểu toán 10 1.1.2 Đặc điểm 10 1.2 Giới thiệu cơng trình có 11 1.2.1 AMPad 11 1.2.2 VietPad 11 1.2.3 viAccent 12 1.2.4 VietMarker 13 1.2.5 14 CHƢƠNG 2: 15 2.1 Giới thiệu 15 2.2 Nguyên lý thành phần: 17 2.2.1 18 2.3 Mơhình dịch: 21 2.3.1 Sự gióng hàng (alignment): 21 2.4 Giải mã (Decode) 2.4.1 Translation Options 28 29 2.4.2 Thuật toán (Core Algorithm) 30 2.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) 31 2.4.4 32 (Beam Search) 2.4.5 CHƢƠNG 3: - (N-Best Lists Generation) THỰC NGHIỆM 36 38 3.1 Cấu hình hệ điều hành 38 3.2 Các công cụ sử dụng 38 3.2.1 Bộ cơng cụ xây dựngmơhình ngơn ngữ - SRILM: 38 3.2.2 Bộ cơng cụ xây dựngmơhìnhdịchmáythốngkê – MOSES: 38 3.2.3 Các bƣớc huấn luyện dich kiểm tra 39 3.2.4 Chuẩn hóa liệu 40 3.2.5 Xây dựngmơhình ngơn ngữ 40 3.2.6 Huấn luyện mơ hình: 40 3.2.7 41 3.2.8 Đánh giá kết dịch 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HINH VẼ Hinh 1.2.1-1 Thêm dấutiếngViệt tự động AMPad 11 Hình 1.2.2-2 Gõ tiếngViệt không dấu VietPad 12 Hình 1.2.3-3 Văn sau thực chức thêm dấutiếngViệt VietPad 12 Hình 1.2.3-4 : Gõ tiếngviệt khơng dấu viAccent 13 Hình 1.2.4-5 Văn sau thực chức thêm dấu Vietmarker 14 2.1.1-6 Tăng kích cỡ LM cải thiện điểm BLEU 16 2.2.1-7 Kiến trúc hệ thống SMT 17 Hình 2.2-8Mơ hìnhdịchmáythốngkê từ tiếng Anh sang tiếngViệt 18 Hình 2.3.1-9 Sự tƣơng ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 2.3.1-10 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22 Hình 2.3.1-11 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 2.3.1-12 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 L ẦU Chữ viếttiếngViệt có có xuất dấudấu ký tự Điều giúp chotiếngViệt “thêm thanh, thêm điệu” Tuy nhiên, việc “thêm thanh, thêm điệu” Việt trở nên tốn nhiều thời gian làm cho việc gõ tiếng đƣợc nhiều e-mail r Chúng ta thật vất vả phải vừa đọc vừa đốn nội dung Chính phát triển công cụ giúp thêm dấutiếngViệt vào văn không dấu việc cần thiết thú vị : VietPad chƣơng trình text editor Việt Unicode phát triển Quân Nguyễn nhóm phát triển http://vietpad.sourceforge.net viAccess, phần mềm bỏdấutiếngviệt online địa chỉ: http://vietlabs.com/vietizer.html AMPad Trần Triết Tâm nâng cấp chƣơng trình “AutoMark” chuyển đổi xác đến khoảng 80% hơn.VietMarker, đƣợc phát triển nhóm nghiên cứu giảng viên sinh viên Học viện Cơng nghệ Bƣu Viễn thơng, đạt đƣợc độ tài hƣớng đến việc giải tốn thêm dấutiếngviệt theo mơhìnhdịchmáythốngkêDịchmáy phƣơng pháp thốngkê (Statistical Machine Translation) T xây dựng từ điển, luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thốngkê có đƣợc từ liệu Chính vậy, dịchmáy dựa vào thốngkê có tính khả chuyển cao, có khả áp dụng đƣợc cho cặp ngôn ngữ Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau: Chƣơng 1: Chƣơng 2: , Chƣơng , CHƢƠNG 2: 2.1.1 Phát biểu toánBài tốn đƣợc phát biểu nhƣ sau: Input: ChovăntiếngViệt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịchmáythốngkê để biên dịch 2.1.2 Đặc điểm xuất dấu nhƣ dấu ký tự làm phong phú thêm cho ngơn từ tiếng Việt, góp phần tăng độ biểu cảm tiếngViệtDấu phần “bất khả phân” âm tiết tiếngViệt Khi loại bỏdấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn dễ gây hiểu lầm Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ Bàitoán xác định ranh giới từ văntiếngViệt có dấu việc thử thách, khơng có dấu, việc nhận diện ranh giới từ tiếngViệt nhƣ số ngôn ngữ Châu Á khác, từ tả khơng tƣơng ứng với “từ” văn Đối với thứ tiếng Châu Âu, ta dễ dàng nhận từ, từ đƣợc phân cách khoảng trắng Điều lại không với tiếngViệt Trong tiếng Việt, tiếng_hay gọi âm tiết_đƣợc phân cách khoảng trắng, từ Sau nhận diện đƣợc ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể không dấu nhƣ Việc xác định gây nhiều khó khăn, từ từ khơng dấu có nhiều từ có dấu tƣơng ứng với Ví dụ 1-1 : Từ khơng dấu “me” có từ có dấu tƣơng ứng “mẹ”, “mẻ” “mè” Do đó, sau giải xong tốn tách từ tiếngViệt khơng dấu, ta cần phải giải thêm toán xác định từ có dấu thích hợp với từ khơng dấu 10 n dịch cụm từ đƣợc thêm vào Mỗi trạng thái tìm kiếm (giả thuyết) đƣợc thể bởi: Một liên kết ngƣợc trở lại với trạng thái trƣớc tốt (cần thiết cho việc tìm kiếm dịch tốt câu giải thuật quay lui thông qua trạng thái tìm kiếm) Các từ tiếng Anh cuối đƣợc sinh ( cần thiết cho việc tính tốn mơhình ngơn ngữ tiếp theo) (cần thiết tính tốn cho chi óp méo tƣơng lai) (đƣợc tính tốn trƣớc lƣu trữ phù hợp) khả dịch Phần mô tả làm tối ƣu việc tìm kiếm cách loại bỏ giả thuyết mà phần đƣờng dẫn khơng chodịch tốt Chúng ta giới thiệu khái niệm trạng thái so sánh đƣợc, cho phép định nghĩa cụm giả thuyết tốt cắt bỏ giả thuyết không phù hợp cụm 3.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) Kết hợp lại giả thuyết cách tốt để giảm khơng gian tìm kiếm hai giả thuyết đƣợc kết hợp lại thỏa mãn : Hai từ tiếng Anh cuối đƣợc sinh 31 , ví dụ Giả thuyết khơng phải phần đƣờng dẫn chodịch tốt loại bỏ Chú ý giả thuyết cấp thấp phần đƣờng dẫn chodịch tốt thứ hai điều quan trọng việc sinh danh sách n giả thuyết tốt 3.4.4 Tìm kiếm ch m (Beam Search) Chúng ta ƣớc lƣợng có giả thuyết đƣợc sinh trình tìm kiếm Xem xét giá trị cho thuộc tính giả thuyết nhất, ƣớc lƣợng cận số giả thuyết N Trong nf số từ tiếng nƣớc ngồi |Ve| kích thƣớc từ vựng tiếng Anh Thực tế số từ tiếng Anh đƣợc sinh nhỏ nhiều so với |Ve| Vấn đề bùng nổ hàm mũ đƣợc bao trùm giả thuyết xác định khả từ tiếng nƣớc số lƣợng từ tiếng nƣớc cắt bỏ giả thuyết cấp dƣới Chúng ta dựa việc xem xét giả thuyết cấp dƣới nằm đánh giá giả thuyết Tuy nhiên việc nhìn chung tiêu chuẩn tồn dịch dễ tìm thấy phần đầu câu nghiêng tìm kiếm Ví dụ có ba cụm từ tiếng ngồi mà dễ dàng dịch sang cụm từ tiếng Anh t tiếng Anh Việc phâ 32 nhân tố ((vd , ( vd: n = 100) Lƣu ý kiểu cắt tỉa rủi ro (trái ngƣợc với tái tổ hợp) Nếu chi phí tƣơng lai khơng đủ, chúng tơi đƣờng dẫn đến giả thuyết tốt Trong phiên đặc biệt chi phí tƣơng lai , nghĩa chi phí tƣơng lai khơng đủ giảm khơng gian tìm kiếm Trong thực tế, loại cắt tỉa Hình dƣới đƣa giả mã cho thuật toán sử dụngcho tìm kiếm Đối với số từ nƣớc , chồng giả thuyết Giả thuyết banđầu đƣợc đặt ngăn xếp cho Bắt đầu với giả thuyết này, giả thuyết khơng có tạo nƣớc đƣợc sinh sử dụng Mỗi giả thuyết có nguồn gốc đƣợc đặt ngăn xếp dựa số lƣợng từ nƣớc 33 initialize hypothesisStack[0 nf]; create initial hypothesis hyp_init; add to stack hypothesisStack[0]; for i=0 to nf-1: for each hyp in hypothesisStack[i]: for each new_hyp that can be derived from hyp: nf[new_hyp] = number of foreign words covered by new_hyp; add new_hyp to hypothesisStack[nf[new_hyp]]; prune hypothesisStack[nf[new_hyp]]; find best hypothesis best_hyp in hypothesisStack[nf]; output best path that leads to best_hyp; đƣợc c Để loại trừ giả thuyết từ chùm xem xét chi phí , mà ƣớc lƣợng chi phí tƣơng lai Trong tính tốn chi phí rẻ tƣơng lai cho giả thuyết, tính tốn đánh bại mục đích việc tìm kiếm chùm 34 Chi phí tƣơng lai gắn liền với từ nƣớc ngồi chƣa đƣợc dịch Trong khn khổ mơhình cụm từ, khơng từ đơn lẻ đƣợc dịch riêng lẻ, mà liên tiếp nhƣ cụm từ Mỗi hoạt động dịch mang chi phí dịch, Đối với chi phí mơhình ngơn ngữ, tƣơng lai, xem xét mơhìnhdịch ngơn ngữ Chi phí mơhình ngơn ngữ thƣờng đƣợc tính mơhình ngơn ngữ trigram Tuy nhiên, khơng biết từ tiếng Anh trƣớc cho tính tốn c dịch Vì vậy, gần chi phí cách mơhình ngơn ngữ cho từ tiếng Anh tạo Điều có nghĩa, có từ tiếng Anh đƣợc sinh xác suất unigram Nếu hai từ đƣợc tạo ra, xác suất unigram từ xác suất bigram từ thứ hai, Đối với chuỗi để nƣớc ngồi tính tốn chi phí cho tùy chọn dịch Cách rẻ phí cho tuỳ chọn đƣờng cho khái niệm Các tùy chọn mang theo : Cij Chi phí 01 12 tùy chọn dịch c c c = 1,9578 *10-7 25 35 3.4.5 - (N-Best Lists Generation) Thông thƣờng, hy vọng giải mã cung cấp chodịch tốt chođầu vào theo mơhình Nhƣng số ứng dụng, quan tâm dịch tốt thứ hai, dịch tốt thứ ba,… Một phƣơng pháp phổ biến nhận dạng giọng nói, xuất sử dụng hệ thống giải mã nhƣ mơhình sở để sinh tập hợp dịchứng cử cho câu đầu vào Sau đó, đƣợc sử dụng để dịch Một danh sách - dịchứng cử Nhƣ tập hợp dịch đại diện đồ thị từ (Ueffing et al., EMNLP 2002) rừng phân tích cú pháp (Langkilde, EACL 2002) Những cấu trúc liệu thay cho phép đại diện nhỏ gọn tập hợp lớn nhiều ứng cử Tuy nhiên, điều khó khăn nhiều để phát cấu trúc liệu Các cung đồ thị Tìm kiếm Trong trình mở rộng Các giả thuyết rộng liên kết tạo thành đồ thị ƣờng dẫn nhánh mở chọn dịchcho giả thuyết mà từ nhiều giả thuyết đƣợc sinh Đƣờng dẫn tham gia giả thuyết đƣợc kết hợp lại Thông thƣờng, kết hợp lại giả thuyết, đơn giản loại bỏ giả thuyết , khơng thể phần đƣờng tốt thơng qua đồ thị tìm kiếm (nói cách khác dịch tốt nhất) Nhƣng kể từ đơn giản quan tâm đến dịch tốt thứ hai, thông tin giả thuyết Nếu làm điều này, đồ thị tìm kiếm chứa đƣờng dẫn cho giả thuyết giả thuyết cuối ( ngoài) giả thuyết tất từ nƣớc 36 Nếu lƣu trữ thông tin nhiều cách để đạt đƣợc giả thuyết, số lƣợng đƣờng nhân thơng qua đồ thị Để giữ chothông tin kết hợp nhƣ : , lƣu giữ hồ sơ nhận dạng giả thuyết trƣớc nhận dạng giả thuyết chi phí thấp chi phí từ trƣớc đến chi phí giả thuyết cao Hình dƣới cho ví dụ cho hệ vòng cung nhƣ vậy: trƣờng hợp này, giả thuyết tƣơng đƣơng tìm kiếm heuristic Do đó, Nhƣng muốn giữ chothông tin đƣờng dẫn từ giả thuyết 2, vòng cung Cung chi phí thêm từ Lƣu ý chi phí từ giả thuyết giả thuyết khơng đƣợc lƣu trữ, đƣợc từ cấu trúc liệu giả thuyết 37 CHƢƠNG 4: THỰC NGHIỆM 4.1 Cấu hình hệ điều hành 4.2.1 CPU Core i3 2.1 GHz RAM 2G Hệ điều hành Ubuntu 11.04 SWAP 5G 4.2 Các công cụ sử dụngBộ cơng cụ xây dựngmơhình ngơn ngữ - SRILM: SRILM công cụ để xây dựng áp dụngmơhình ngơn ngữ thốngkê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thốngkê phân khúc, dịchmáythốngkêBộ công cụ đƣợc phát triển “Phòng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mơhình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựngmơhình ngơn ngữ, đào tạo thử nghiệm mơhình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ công cụ SRILM có nhiều chƣơng trình con, để xây dựngmơhình thêm dấuchovăntiếngviệt ta sử dụng chƣơng trình sau : 4.2.1.1 Ngram-count: Chƣơng trình Ngram-count thốngkê tần số xuất cụm Ngram Kết việc thốngkê đƣợc ghi lại vào tệp sử dụng chúng để xây dựngmơhình ngơn ngữ 4.2.2 Bộ cơng cụ xây dựngmơhìnhdịchmáythốngkê – MOSES: Moses hệ thốngdịchmáythốngkêcho phép ngƣời dùng xây dựngmơhìnhdịchcho cặp ngôn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học 38 - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mơhình ngơn ngữ, số lƣợng tối đa cụm từ ngơn ngữ đích đƣợc dịch cụm từ ngôn ngữ nguồn, Để xây dựng đƣợc mơhìnhdịchthống kê, ta sử dụng script: trainmodel.perl với số tham số sau: root-dir cài đặt thƣ mục gốc nơi lƣu trữ tệp đầu corpus tên tệp văn huấn luyện (bao gồm ngơn ngữ nguồn đích) e đuôi mở rộng tệp văn huấn luyện ngơn ngữ đích f mở rộng tệp văn huấn luyện ngôn ngữ nguồn lm language model: :: : thiết lập file cấu hìnhmơhình ngơn ngữ theo định dạng trình bày phần max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table Cơng cụ gióng hàng GIZA++ 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : VăntiếngViệt không dấuVăntiếngViệt có dấu Dữ liệu đơn ngữ VăntiếngViệt có dấu Xây dựngmơhình ngơn ngữ Xây dựngmơhìnhdịchDịchmáy Đánh giá kết dịch 39 4.2.4 Chuẩn hóa liệu Bộ cơng cụ , Tokenizer, lowercase, chuyển sang chữ thƣờng, … nhƣ: tách từ, tách câu, 4.2.5 Xây dựngmơhình ngơn ngữ Sử dụng cơng cụ SRILM để xây dựngmơhình ngôn ngữ Kết sau xây dựngmôhình ngơn ngữ tri-gam: Bảng thốngkê n-gram \data\ ngram 1=6773 ngram 2=162282 ngram 3=92846 \1-grams: -2.6378 ! -0.9554 -3.523143 " -0.2592531 -4.542355 $ -0.1713233 -3.916798 % -0.2839231 -2.823495 ' -0.4149792 -2.759014 ( -0.3535762 -2.827075 ) -0.4755327 4.2.6 Huấn luyện mơ hình: GIZA++ Mơhìnhdịch (phrase-table) 40 Kết file phrase-table : ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! '' Do la mot viec ||| ! '' Đó việc ||| 1 0.767028 2.718 ||| ||| 1 ! '' Do la mot ||| ! '' Đó ||| 1 0.767028 2.718 ||| ||| 1 ! '' Do la ||| ! '' Đó ||| 1 0.769353 2.718 ||| ||| 1 ! '' Do ||| ! '' Đó ||| 1 0.797297 2.718 ||| ||| 1 ! '' Duoc , neu anh ||| ! '' Đƣợc , anh ||| 1 0.897503 2.718 ||| ||| 1 ! '' Duoc , neu ||| ! '' Đƣợc , ||| 1 0.924477 2.718 ||| ||| 1 ! '' Duoc , ||| ! '' Đƣợc , ||| 1 0.986842 2.718 ||| ||| 1 ! '' Duoc ||| ! '' Đƣợc ||| 1 0.986842 2.718 ||| ||| 1 ! ''may cung the , ||| ! ''mày , ||| 1 0.0870583 2.718 ||| ||| 1 ! ''may cung the ||| ! ''mày ||| 1 0.0870583 2.718 ||| ||| 1 ! ''may cung ||| ! ''mày ||| 1 0.127426 2.718 ||| ||| 4.2.7 Đầu vào : văntiếng Kết trả đƣa vào Việt không dấu hệ thống thêm dấuVăn xác toi ngo rang co ta toi ngờ rang co ta ngờ cô ta khong noi cho toi biet không noi cho toi biết khơng nói cho tơi biết su_that sự_thật thật toi bi dau bao_tu toi bi đâu bao_tử bị đau bao tử du_doi toi dữ_dội hoan_toan toi dội hoàn_toàn tơi hồn tồn tin tin_tuong vao tai_nang cua tin_tƣởng vào tài_năng cua tƣởng vào tài cac bac_si bác_sĩ bác sĩ toi luc_nao cung toi lúc_nào cung lúc thich nghe_noi ve thích nghe_nói ve thích nghe nói phủ 41 chinh_phu my nhung co_phan chính_phủ my nhung cổ_phần mỹ cổ phần bang anh bay_gio dang_gia bang anh bây_giờ đáng_giá bảng anh đáng giá 2.75 bang 2.75 bang 2.75 bảng 10 bang anh la du 10 bang anh la du 10 bảng anh đủ tienxangchocuoc hanh_trinh cua chung_toi tiềnxăngchocuộc hành_trình cua chúng_tơi tiền xăng cho hành trình chúng_tơi 4.2.8 Đánh giá kết dịch Chỉ số BLEU Individual N-gram scoring 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram -BLEU: 0.0968 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 "ref" # Chỉ số BlEU:Là số đánh giá chất lƣợng dịchmáydịchthốngkê từ ngôn ngữ sang ngôn ngữ khác Nếu kết gần giống với cách hiểu tự nhiên chất lƣợng dịch tốt Điểm BlEU đƣợc tính cách so sánh câu cần dịch với tập hợp tham chiếu dịch tốt Sau lấy giá trị trung bình tƣơng ứng điểm số riêng lẻ Chỉ số nằm khoảng đến Nếu gần1 chất lƣợng dịch tốt (sát nghĩa) 42 KẾT LUẬN Bàitoán thêm dấutiếngViệt vào văn không dấu ƣớng tới tiếp cận tiếngViệt khác sử dụngmơhìnhdịchmáythốngkêcho k đƣợc mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên Tuy nhiên, luận văn đạt đƣợc số kết quả: Về lý thuyết: Tìm hiểu, nghiên cứu mơhìnhdịchmáythốngkê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựngmơhìnhdịchmáythốngkê Cài đặt ứngdụng đƣợc mơhìnhdịchmáythốngkêchotoánbỏdấutiếngViệt Do thời gian có hạn, nên k tơi Trong tƣơng lai, ê - t V 43 TÀI LIỆU THAM KHẢO Tài liệu tham khảo TiếngViệt [1] Thắng, Tơ Hồng NGRAM s.l : Khóa luận tốt nghiệp Trƣờng đại học Công Nghệ, 2007 Tài liệu tham khảo Tiếng Anh [1] Thắng, Tô Hồng Building language model for vietnamese and its application, graduation thesis 2008 [2] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S A statistical approach to machine translation s.l : Computational Linguistics, 1990 [3] http://www.statmt.org/moses/ [4] MOSES Statistical Machine Translation System User Manual and Code Guide Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh 44 ... biểu toán Bài toán đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu. .. ngơn ngữ nguồn f Mơ hình dịch từ tiếng Anh sang tiếng Việt hình dung thơng qua biểu đồ dƣới đây: Hình 2.2-8 Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 3.2.1 Mô hình ngơn ngữ (Language... pháp dịch máy thống kê để giải toán Sử dụng luật Bayes để mơ hình lại khả dịch cho việc dịch câu không dấu f sang câu tiếng việt e nhƣ sau: Nó cho thể mơ hình ngơ ngữ e mơ hình dịch với p(f|e) 14