Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
2,14 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Ứng dụng mơ hình dịch máy thống kê cho tốn bỏ dấu cho văn Tiếng Việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com -o0o - Sinh viên thực hiện: Đinh Văn Toản Giáo viên hƣớng dẫn: Mã số sinh viên: 110584 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 1: THÔNG TIN LỜI CẢM ƠN Đầu tiên em xin chân thành cảm ơn đến thầy cô khoa Công nghệ thông tin Trƣờng Đại học dân lập Hải Phịng tận tình dạy bảo cho em suốt thời gian học tập trƣờng Em xin gửi lời biết ơn sâu sắc đến Ths.Nguyễn Thị Xuân Hƣơng dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp em hoàn thành luận văn tốt nghiệp Mặc dù em có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên khơng thể tránh khỏi thiếu sót, nên em mong nhận đƣợc đóng góp quý báu thầy bạn Hải Phịng, tháng 07 năm 2011 Sinh viên Đinh Văn Toản LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HINH VẼ CHƢƠNG 1: 10 1.1.1 Phát biểu toán 10 1.1.2 Đặc điểm 10 1.2 Giới thiệu cơng trình có 11 1.2.1 AMPad 11 1.2.2 VietPad 11 1.2.3 viAccent 12 1.2.4 VietMarker 13 1.2.5 14 CHƢƠNG 2: 15 2.1 Giới thiệu 15 2.2 Nguyên lý thành phần: 17 2.2.1 18 2.3 Mơ hình dịch: 21 2.3.1 Sự gióng hàng (alignment): 21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.4 Giải mã (Decode) 28 2.4.1 Translation Options 29 2.4.2 Thuật toán (Core Algorithm) 30 2.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) 31 2.4.4 32 (Beam Search) 2.4.5 CHƢƠNG 3: - (N-Best Lists Generation) THỰC NGHIỆM 36 38 3.1 Cấu hình hệ điều hành 38 3.2 Các công cụ sử dụng 38 3.2.1 Bộ công cụ xây dựng mơ hình ngơn ngữ - SRILM: 38 3.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 38 3.2.3 Các bƣớc huấn luyện dich kiểm tra 39 3.2.4 Chuẩn hóa liệu 40 3.2.5 Xây dựng mơ hình ngơn ngữ 40 3.2.6 Huấn luyện mơ hình: 40 3.2.7 41 3.2.8 Đánh giá kết dịch 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HINH VẼ Hinh 1.2.1-1 Thêm dấu tiếng Việt tự động AMPad 11 Hình 1.2.2-2 Gõ tiếng Việt không dấu VietPad 12 Hình 1.2.3-3 Văn sau thực chức thêm dấu tiếng Việt VietPad 12 Hình 1.2.3-4 : Gõ tiếng việt khơng dấu viAccent 13 Hình 1.2.4-5 Văn sau thực chức thêm dấu Vietmarker 14 2.1.1-6 Tăng kích cỡ LM cải thiện điểm BLEU 16 2.2.1-7 Kiến trúc hệ thống SMT 17 Hình 2.2-8 Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 18 Hình 2.3.1-9 Sự tƣơng ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 2.3.1-10 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22 Hình 2.3.1-11 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 2.3.1-12 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com L Chữ viết tiếng Việt có ẦU có xuất dấu dấu ký tự Điều giúp cho tiếng Việt “thêm thanh, thêm điệu” Tuy nhiên, việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian đƣợc nhiều e-mail r Chúng ta thật vất vả phải vừa đọc vừa đốn nội dung Chính phát triển công cụ giúp thêm dấu tiếng Việt vào văn không dấu việc cần thiết thú vị : VietPad chƣơng trình text editor Việt Unicode phát triển Quân Nguyễn nhóm phát triển http://vietpad.sourceforge.net viAccess, phần mềm bỏ dấu tiếng việt online địa chỉ: http://vietlabs.com/vietizer.html AMPad Trần Triết Tâm nâng cấp chƣơng trình “AutoMark” chuyển đổi xác đến khoảng 80% hơn.VietMarker, đƣợc phát triển nhóm nghiên cứu giảng viên sinh viên Học viện Cơng nghệ Bƣu Viễn thơng, đạt đƣợc độ tài hƣớng đến việc giải tốn thêm dấu tiếng việt theo mơ hình dịch máy thống kê Dịch máy phƣơng pháp thống kê (Statistical Machine Translation) T xây dựng từ điển, luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả áp dụng đƣợc cho cặp ngôn ngữ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau: Chƣơng 1: Chƣơng 2: , Chƣơng , LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.2 Thuật toán (Core Algorithm) (beam search algorithm), câu tiếng Anh đầu đƣợc sinh từ trái sang phải dạng giả thiết Tiến trình đƣợc minh họa hình sau: Bắt đầu từ giả thuyết đầu tiên, mở rộng từ tiếng nƣớc ngồi Maria, đƣợc dịch Mary Từ tiếng nƣớc đƣợc đánh dấu đƣợc dịch (đánh dấu dấu hoa thị) Chúng ta mở rộng giả thuyết việc dịch từ nƣớc ví dụ nhƣ lựa chọn từ bruja Chúng ta sinh giả thuyết từ giả thuyết mở rộng Cho giả thuyết mở rộng ta sinh giả thuyết cách dịch từ no did not Trạng thái khởi tạo khơng có từ tiếng nƣớc ngồi đƣợc dịch sang từ tiếng Anh đƣợc sinh Một trạng thái đƣợc tạo cách mở rộng từ tiếng Anh đầu với dịch cụm từ từ đầu vào tiếng nƣớc chƣa đƣợc dịch 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com n dịch cụm từ đƣợc thêm vào Mỗi trạng thái tìm kiếm (giả thuyết) đƣợc thể bởi: Một liên kết ngƣợc trở lại với trạng thái trƣớc tốt (cần thiết cho việc tìm kiếm dịch tốt câu giải thuật quay lui thơng qua trạng thái tìm kiếm) Các từ tiếng Anh cuối đƣợc sinh ( cần thiết cho việc tính tốn mơ hình ngơn ngữ tiếp theo) (cần thiết tính tốn cho chi óp méo tƣơng lai) (đƣợc tính tốn trƣớc lƣu trữ phù hợp) khả dịch Phần mô tả làm tối ƣu việc tìm kiếm cách loại bỏ giả thuyết mà phần đƣờng dẫn khơng cho dịch tốt Chúng ta giới thiệu khái niệm trạng thái so sánh đƣợc, cho phép định nghĩa cụm giả thuyết tốt cắt bỏ giả thuyết không phù hợp cụm 3.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) Kết hợp lại giả thuyết cách tốt để giảm khơng gian tìm kiếm hai giả thuyết đƣợc kết hợp lại thỏa mãn : Hai từ tiếng Anh cuối đƣợc sinh 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com , ví dụ Giả thuyết phần đƣờng dẫn cho dịch tốt loại bỏ Chú ý giả thuyết cấp thấp phần đƣờng dẫn cho dịch tốt thứ hai điều quan trọng việc sinh danh sách n giả thuyết tốt 3.4.4 Tìm kiếm ch m (Beam Search) Chúng ta ƣớc lƣợng có giả thuyết đƣợc sinh q trình tìm kiếm Xem xét giá trị cho thuộc tính giả thuyết nhất, ƣớc lƣợng cận số giả thuyết N Trong nf số từ tiếng nƣớc ngồi |Ve| kích thƣớc từ vựng tiếng Anh Thực tế số từ tiếng Anh đƣợc sinh nhỏ nhiều so với |Ve| Vấn đề bùng nổ hàm mũ đƣợc bao trùm giả thuyết xác định khả từ tiếng nƣớc số lƣợng từ tiếng nƣớc cắt bỏ giả thuyết cấp dƣới Chúng ta dựa việc xem xét giả thuyết cấp dƣới nằm đánh giá giả thuyết Tuy nhiên việc nhìn chung tiêu chuẩn tồn nghiêng tìm kiếm dịch dễ tìm thấy phần đầu câu Ví dụ có ba cụm từ tiếng ngồi mà dễ dàng dịch sang cụm từ tiếng Anh t tiếng Anh Việc phâ 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhân tố ((vd , ( vd: n = 100) Lƣu ý kiểu cắt tỉa rủi ro (trái ngƣợc với tái tổ hợp) Nếu chi phí tƣơng lai khơng đủ, chúng tơi giả thuyết đƣờng dẫn đến tốt Trong phiên đặc biệt chi phí tƣơng lai , nghĩa khơng chi phí tƣơng lai không đủ Trong thực tế, loại cắt tỉa giảm khơng gian tìm kiếm Hình dƣới đƣa giả mã cho thuật tốn sử dụng cho tìm kiếm Đối với số từ nƣớc , chồng giả thuyết tạo Giả thuyết ban đầu đƣợc đặt ngăn xếp cho Bắt đầu với giả thuyết này, dụng giả thuyết khơng có nƣớc ngồi đƣợc sinh sử Mỗi giả thuyết có nguồn gốc đƣợc đặt ngăn xếp dựa số lƣợng từ nƣớc 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com initialize hypothesisStack[0 nf]; create initial hypothesis hyp_init; add to stack hypothesisStack[0]; for i=0 to nf-1: for each hyp in hypothesisStack[i]: for each new_hyp that can be derived from hyp: nf[new_hyp] = number of foreign words covered by new_hyp; add new_hyp to hypothesisStack[nf[new_hyp]]; prune hypothesisStack[nf[new_hyp]]; find best hypothesis best_hyp in hypothesisStack[nf]; output best path that leads to best_hyp; đƣợc c Để loại trừ giả thuyết từ chùm xem xét chi phí , mà cịn ƣớc lƣợng chi phí tƣơng lai Trong tính tốn chi phí rẻ tƣơng lai cho giả thuyết, tính tốn đánh bại mục đích việc tìm kiếm chùm 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chi phí tƣơng lai gắn liền với từ nƣớc chƣa đƣợc dịch Trong khn khổ mơ hình cụm từ, khơng từ đơn lẻ đƣợc dịch riêng lẻ, mà liên tiếp nhƣ cụm từ Mỗi hoạt động dịch mang chi phí dịch, Đối với mơ hình dịch chi phí mơ hình ngơn ngữ, tƣơng lai, xem xét ngôn ngữ Chi phí mơ hình ngơn ngữ thƣờng đƣợc tính mơ hình ngơn ngữ trigram Tuy nhiên, khơng biết từ tiếng Anh trƣớc cho dịch Vì vậy, gần chi phí cách tính tốn c mơ hình ngơn ngữ cho từ tiếng Anh tạo Điều có nghĩa, có từ tiếng Anh đƣợc sinh xác suất unigram Nếu hai từ đƣợc tạo ra, xác suất unigram từ xác suất bigram từ thứ hai, Đối với chuỗi nƣớc ngồi tính tốn chi phí cho tùy chọn dịch Cách rẻ để phí cho tuỳ chọn cho khái niệm Các tùy chọn đƣờng mang theo tùy chọn : Cij Chi phí dịch c01c12c25 = 1,9578 *10-7 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.5 - (N-Best Lists Generation) Thông thƣờng, hy vọng giải mã cung cấp cho dịch tốt cho đầu vào theo mơ hình Nhƣng số ứng dụng, quan tâm dịch tốt thứ hai, dịch tốt thứ ba,… Một phƣơng pháp phổ biến nhận dạng giọng nói, xuất sử dụng hệ thống giải mã nhƣ mơ hình sở để sinh tập hợp dịch ứng cử cho câu đầu vào Sau đó, đƣợc sử dụng để Một danh sách - dịch dịch ứng cử Nhƣ tập hợp dịch đại diện đồ thị từ (Ueffing et al., EMNLP 2002) rừng phân tích cú pháp (Langkilde, EACL 2002) Những cấu trúc liệu thay cho phép đại diện nhỏ gọn tập hợp lớn nhiều ứng cử Tuy nhiên, điều khó khăn nhiều để phát cấu trúc liệu Các cung đồ thị Tìm kiếm Trong trình mở rộng Các giả thuyết mở rộng liên kết tạo thành đồ thị ƣờng dẫn nhánh chọn dịch cho giả thuyết mà từ nhiều giả thuyết đƣợc sinh Đƣờng dẫn tham gia giả thuyết đƣợc kết hợp lại Thông thƣờng, kết hợp lại giả thuyết, đơn giản loại bỏ giả thuyết , phần đƣờng tốt thơng qua đồ thị tìm kiếm (nói cách khác dịch tốt nhất) Nhƣng kể từ đơn giản quan tâm đến dịch tốt thứ hai, thơng tin giả thuyết Nếu làm điều này, đồ thị tìm kiếm chứa đƣờng dẫn cho giả thuyết giả thuyết cuối ( giả thuyết tất từ nƣớc ngoài) 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nếu lƣu trữ thông tin nhiều cách để đạt đƣợc giả thuyết, số lƣợng đƣờng nhân thông qua đồ thị Để giữ cho thông tin kết hợp nhƣ , lƣu giữ hồ sơ : nhận dạng giả thuyết trƣớc nhận dạng giả thuyết chi phí thấp chi phí từ trƣớc đến chi phí giả thuyết cao Hình dƣới cho ví dụ cho hệ vòng cung nhƣ vậy: trƣờng hợp này, tƣơng đƣơng tìm kiếm heuristic Do đó, giả thuyết Nhƣng muốn giữ cho thông tin đƣờng dẫn từ giả thuyết 2, vòng cung Cung chi phí thêm từ Lƣu ý chi phí từ giả thuyết giả thuyết khơng đƣợc lƣu trữ, đƣợc từ cấu trúc liệu giả thuyết 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 4: THỰC NGHIỆM 4.1 Cấu hình hệ điều hành CPU Core i3 2.1 GHz RAM 2G Hệ điều hành Ubuntu 11.04 SWAP 5G 4.2 Các công cụ sử dụng 4.2.1 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: SRILM công cụ để xây dựng áp dụng mơ hình ngơn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ công cụ đƣợc phát triển “Phịng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mơ hình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ cơng cụ SRILM có nhiều chƣơng trình con, để xây dựng mơ hình thêm dấu cho văn tiếng việt ta sử dụng chƣơng trình sau : 4.2.1.1 Ngram-count: Chƣơng trình Ngram-count thống kê tần số xuất cụm Ngram Kết việc thống kê đƣợc ghi lại vào tệp sử dụng chúng để xây dựng mơ hình ngơn ngữ 4.2.2 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: Moses hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng mơ hình dịch cho cặp ngôn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mơ hình ngơn ngữ, số lƣợng tối đa cụm từ ngơn ngữ đích đƣợc dịch cụm từ ngôn ngữ nguồn, Để xây dựng đƣợc mơ hình dịch thống kê, ta sử dụng script: trainmodel.perl với số tham số sau: root-dir cài đặt thƣ mục gốc nơi lƣu trữ tệp đầu corpus tên tệp văn huấn luyện (bao gồm ngơn ngữ nguồn đích) e đuôi mở rộng tệp văn huấn luyện ngơn ngữ đích f mở rộng tệp văn huấn luyện ngôn ngữ nguồn lm language model: :: : thiết lập file cấu hình mơ hình ngơn ngữ theo định dạng trình bày phần max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table Cơng cụ gióng hàng GIZA++ 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mơ hình ngơn ngữ Xây dựng mơ hình dịch Dịch máy Đánh giá kết dịch 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.4 Chuẩn hóa liệu Bộ cơng cụ Tokenizer, lowercase, , nhƣ: tách từ, tách câu, chuyển sang chữ thƣờng, … 4.2.5 Xây dựng mơ hình ngơn ngữ Sử dụng cơng cụ SRILM để xây dựng mơ hình ngơn ngữ Kết sau xây dựng mơ hình ngơn ngữ tri-gam: Bảng thống kê n-gram \data\ ngram 1=6773 ngram 2=162282 ngram 3=92846 \1-grams: -2.6378 ! -0.9554 -3.523143 " -0.2592531 -4.542355 $ -0.1713233 -3.916798 % -0.2839231 -2.823495 ' -0.4149792 -2.759014 ( -0.3535762 -2.827075 ) -0.4755327 4.2.6 Huấn luyện mơ hình: GIZA++ Mơ hình dịch (phrase-table) 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết file phrase-table : ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ' Do la mot viec ||| ! ' ' Đó việc ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la mot ||| ! ' ' Đó ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la ||| ! ' ' Đó ||| 1 0.769353 2.718 ||| ||| 1 ! ' ' Do ||| ! ' ' Đó ||| 1 0.797297 2.718 ||| ||| 1 ! ' ' Duoc , neu anh ||| ! ' ' Đƣợc , anh ||| 1 0.897503 2.718 ||| ||| 1 ! ' ' Duoc , neu ||| ! ' ' Đƣợc , ||| 1 0.924477 2.718 ||| ||| 1 ! ' ' Duoc , ||| ! ' ' Đƣợc , ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' Duoc ||| ! ' ' Đƣợc ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' may cung the , ||| ! ' ' mày , ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung the ||| ! ' ' mày ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung ||| ! ' ' mày ||| 1 0.127426 2.718 ||| ||| 4.2.7 Đầu vào : văn tiếng Việt không dấu Kết trả đƣa vào hệ thống thêm dấu Văn xác toi ngo rang co ta toi ngờ rang co ta ngờ cô ta khong noi cho toi biet không noi cho toi biết khơng nói cho tơi biết su_that sự_thật thật toi bi dau bao_tu toi bi đâu bao_tử bị đau bao tử du_doi dữ_dội dội toi hoan_toan toi hồn_tồn tơi hồn tồn tin tin_tuong vao tai_nang cua tin_tƣởng vào tài_năng cua tƣởng vào tài cac bac_si bác_sĩ bác sĩ toi thich luc_nao nghe_noi cung toi lúc_nào ve thích nghe_nói cung tơi lúc ve thích nghe nói phủ 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com chinh_phu my chính_phủ my nhung co_phan mỹ nhung cổ_phần cổ phần bang anh bay_gio dang_gia bang anh bây_giờ đáng_giá bảng anh đáng giá 2.75 bang 2.75 bang 2.75 bảng 10 bang anh la du 10 bang anh la du tien xang cho cuoc tiền xăng cho hanh_trinh cua chung_toi hành_trình cua chúng_tơi 10 bảng anh đủ tiền xăng cho hành trình chúng_tơi 4.2.8 Đánh giá kết dịch Chỉ số BLEU Individual N-gram scoring 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram -BLEU: 0.0968 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 "ref" # Chỉ số BlEU:Là số đánh giá chất lƣợng dịch máy dịch thống kê từ ngôn ngữ sang ngôn ngữ khác Nếu kết gần giống với cách hiểu tự nhiên chất lƣợng dịch tốt Điểm BlEU đƣợc tính cách so sánh câu cần dịch với tập hợp tham chiếu dịch tốt Sau lấy giá trị trung bình tƣơng ứng điểm số riêng lẻ Chỉ số nằm khoảng đến Nếu gần1 chất lƣợng dịch tốt (sát nghĩa) 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Bài toán thêm dấu tiếng Việt vào văn không dấu ƣớng tới tiếp cận khác sử dụng mơ hình dịch máy thống kê cho tiếng Việt k đƣợc mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên Tuy nhiên, luận văn đạt đƣợc số kết quả: Về lý thuyết: Tìm hiểu, nghiên cứu mơ hình dịch máy thống kê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mơ hình dịch máy thống kê Cài đặt ứng dụng đƣợc mơ hình dịch máy thống kê cho toán bỏ dấu tiếng Việt Do thời gian có hạn, nên k tơi Trong tƣơng lai, ê - t V 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng Việt [1] Thắng, Tô Hồng NGRAM s.l : Khóa luận tốt nghiệp Trƣờng đại học Công Nghệ, 2007 Tài liệu tham khảo Tiếng Anh [1] Thắng, Tô Hồng Building language model for vietnamese and its application, graduation thesis 2008 [2] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S A statistical approach to machine translation s.l : Computational Linguistics, 1990 [3] http://www.statmt.org/moses/ [4] MOSES Statistical Machine Translation System User Manual and Code Guide Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... mơ hình dịch máy thống kê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mơ hình dịch máy thống kê Cài đặt ứng dụng đƣợc mơ hình dịch máy thống kê cho toán bỏ dấu. .. Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mơ hình ngơn ngữ Xây dựng mơ hình dịch Dịch máy Đánh giá kết dịch 39 LUAN VAN CHAT... biểu toán Bài tốn đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn khơng dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu