Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

62 5 0
Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - KIỀU CƠNG CHÍNH TỐI ƢU BẢNG CỤM TỪ ĐỂ CẢI TIẾN DỊCH MÁY THỐNG KÊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC MỞ ĐẦU CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ 1.1 Ngôn ngữ tự nhiên 1.2 Dịch máy 1.3 Dịch máy thống kê dựa vào cụm từ 1.3.1 Cơ sở phương pháp dịch máy thống kê 1.3.2 Gióng hàng từ, gióng hàng thống kê 1.3.3 Dịch máy thống kê dựa sở cụm từ 1.3.4 Mục đích việc dịch máy thống kê sở cụm từ 11 1.3.5 Đảo cụm từ dịch máy thống kê 13 1.3.6 Bảng cụm từ dịch máy thống kê 13 1.4 Mơ hình ngơn ngữ 14 CHƢƠNG II: PHƢƠNG PHÁP TỐI ƢU BẢNG CỤM TỪ 16 2.1 Quy trình sinh bảng cụm từ 16 2.2 Phƣơng pháp tối ƣu bảng cụm từ 19 2.2.1 Chỉ số cụm từ nguồn 19 2.2.2 Lưu trữ cụm từ mục tiêu 20 2.2.3 Nén ngữ liệu song ngữ 22 2.2.4 Nén bảng cụm từ 27 2.2.5 Mã hóa cụm từ 31 2.2.6 Giải mã cụm từ 33 CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES 36 3.1 Môi trƣờng triển khai 36 3.2 Xây dựng chƣơng trình dịch thực nén bảng cụm từ 36 3.2.1 Chuẩn hóa liệu 36 3.2.2 Xây dựng mơ hình ngơn ngữ, mơ hình dịch 37 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 3.2.3 Nén bảng cụm từ 37 3.2.4 Đánh giá kết dịch 38 3.3 Thực nghiệm đánh giá kết dịch tiếng Anh sang tiếng Việt 39 3.3.1 Thực nghiệm dịch với câu đơn giản 43 3.3.2 Thực nghiệm dịch đoạn văn từ tiếng Anh-Tiếng Việt 44 3.3.3 Đánh giá kết liệu huấn luyện bảng cụm từ 44 3.3.4 Đánh giá kết theo cỡ liệu huấn luyện 46 3.3.5 Đánh giá kết theo thời gian tải bảng cụm từ 47 PHỤ LỤC 50 Kết dịch máy câu đơn giản 50 Kết dịch máy liệu 51 Một số công cụ tiền xử lý thường hay sử dụng hệ dịch 52 Tài liệu tham khảo 54 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC HÌNH Hình 1.1: Sơ đồ hệ dịch phương pháp thống kê Hình 1.2: Gióng hàng với từ tiếng anh độc lập Hình 1.3: Gióng hàng với từ tiếng việt độc lập Hình 1.4: Gióng hàng tổng quát Hình 1.5: Mơ hình dịch từ Tiếng Anh- Tiếng Việt Hình 1.6: Mơ tả việc giải mã 12 Hình 2.1: Sơ đồ đơn giản hóa bảng cụm từ 19 Hình 2.2: Mơ tả q trình tạo Huffman 26 Hình 3.1: Dịch câu đơn giản với bảng cụm từ gốc 51 Hình 3.2: Dịch câu đơn giản với bảng cụm tối ưu 51 Hình 3.3: Điểm Bleu liệu bảng cụm từ gốc 52 Hình 3.4: Điểm Bleu liệu bảng cụm từ tối ưu 52 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v DANH MỤC BẢNG Bảng 2.1 : Một số phần tử bảng cụm từ 18 Bảng 2.2: Bảng mã hóa huffman 27 Bảng 2.3: Bảng tùy chọn mã Simple 28 Bảng 3.1: Ngữ liệu tiếng việt 40 Bảng 3.2: Ngữ liệu tiếng anh 40 Bảng 3.5: Dữ liệu đầu vào 42 Bảng 3.3: So sánh kết dịch máy với câu đơn 43 Bảng 3.4: So sánh hai phương pháp dịch với đầu vào văn 44 Bảng 3.5: So sánh liệu bảng cụm từ gốc bảng cụm sau nén 45 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC BIỂU ĐỒ Biểu đồ 3.1: Biểu đồ so sánh 1………………………………………………… 45 Biểu đồ 3.2: Biểu đồ so sánh …………………………………………………46 Biểu đồ 3.3: Biểu đồ so sánh ……………………………………………………48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH SÁCH CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ PB-SMT Cụm từ base Statistical Machine Translation SMT Statistical Machine Translation PR-Enc Cụm từ Rank Encoding Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Hiện giới có khoảng 5650 ngôn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thông tin, giao tiếp, đồng thời ngăn cản phát triển thương mại mậu dịch quốc tế Mặt khác, với việc bùng nổ Internet nay, có khối lượng văn khổng lồ Internet mà phần lớn tiếng Anh Do tính đa dạng mà việc hiểu văn hồn tồn khơng dễ chút Do việc có hệ dịch tự động Anh-Việt cần thiết Với khó khăn người ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Những cơng việc mang tính chất thủ cơng, nặng nhọc khối lượng văn cần dịch ngày nhiều Để khắc phục nhược điểm có nhiều hệ thống tự động dịch miễn phí mạng như: systran, google translate, vietgle, vdict Những hệ thống cho phép dịch tự động văn với cặp ngôn ngữ chọn trước (ví dụ dịch từ tiếng Anh sang tiếng Việt) [1] Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữ tự nhiên người Ngay từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy Công việc đưa mơ hình tự động cho việc dịch phát triển, chưa giải triệt để lớp ngôn ngữ tự nhiên Nhưng đời chúng khẳng định ích lợi to lớn mặt chiến luợc kinh tế, đồng thời vấn đề liên quan đến dịch máy chủ đề quan trọng ngành khoa học máy tính, chúng liên quan đến vấn đề xử lí ngơn ngữ tự nhiên, vấn đề có ý nghĩa mà trí tuệ nhân tạo có khả giải Người ta tin việc xử lí ngơn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc người khơng phải tiếp xúc với Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn máy qua dòng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy Với phát triển mạnh mẽ dịch máy tự động dịch máy thống kê (Statistical Machine Translation) chứng tỏ hướng tiếp cận đầy tiềm ưu điểm vượt trội so với phương pháp dịch máy dựa cú pháp truyền thống Kết thực tế hệ thống dịch máy thống kê tốt hơn, ngôn ngữ dịch ngày gần với ngôn ngữ người, giúp người trao đổi thông tin dễ dàng hơn, tốc độ nhanh với nhiều ngôn ngữ Hiện nay, phương pháp dịch thống kê dựa cụm từ phương pháp cho kết dịch tốt Để dịch hiệu bảng cụm từ phải lớn việc lưu trữ tìm kiếm bảng cụm từ quan trọng Chính thế, luận văn tơi lựa chọn thực đề tài “Tối ƣu bảng cụm từ để tiến dịch máy thống kê” Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ Hiện dịch máy thông kê dựa sở cụm từ hướng phát triển nhiều người quan tâm Dịch máy thống kê dựa cụm từ nhằm mục đích dịch văn từ ngơn ngữ nguồn sang ngơn ngữ đích dựa vào bảng ngữ cụm từ sau thực việc gióng hàng từ, gióng hàng thống kê, đảo cụm từ… kết hợp với mơ hình ngơn ngữ 1.1 Ngơn ngữ tự nhiên Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày nghe, nói, đọc, viết Mặc dù người dễ dàng hiểu học ngôn ngữ tự nhiên, việc làm cho máy hiểu ngôn ngữ tự nhiên khơng phải chuyện dễ dàng Sở dĩ có khó khăn ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngơn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hồn chỉnh, xác để máy hiểu ngơn ngữ tự nhiên việc tốn cơng sức địi hỏi người thực phải có hiểu biết sâu ngơn ngữ học Do cần phải tìm phương pháp dịch tư động tối ưu để làm giảm công sức vấn đề dịch ngơn ngữ nói chung 1.2 Dịch máy Dịch tự động hay gọi dịch máy ứng dụng quan trọng xử lý ngôn ngữ tự nhiên, kết hợp ngơn ngữ, dịch thuật khoa học máy tính Như tên gọi dịch tự động việc thực dịch ngôn ngữ đầu vào (ngôn ngữ gọi ngôn ngữ nguồn) sang nhiều ngôn ngữ khác (gọi ngơn ngữ đích) cơng cụ, phần mềm máy tính lập trình sẵn mà khơng cần có can thiệp người Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 41 Dữ liệu đầu vào: Dữ liệu Ngôn ngữ Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Dữ liệu huấn luyện Tiếng Anh Tiếng Việt Tiếng Anh Tiếng Việt Tiếng Anh Độ dài Câu Từ trung bình Tên tệp tin thực nghiệm 74642 1096072 14.68 50001b_train.en 74642 1140470 15.27 50001b_train.vn 54643 614578 11.24 50001b_train.en 54643 580754 10.62 50001b_train.vn 44638 498041 11.15 50001b_train.en 44638 463795 10.39 50001b_train.vn 34638 356602 10.29 50001b_train.en 34638 334097 9.64 50001b_train.vn 24638 253886 10.30 50001b_train.en Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 42 Tiếng Việt Tiếng Dữ liệu điều Anh Chỉnh tham số Tiếng Việt Tiếng Dữ liệu Anh đánh giá Tiếng Việt 24638 239951 9.73 50001b_train.vn 201 câu 2403 11.95 50001_dev.en 201 câu 2221 11.04 50001_dev.en 500 câu 5620 11.24 50001_test.en 500 câu 5264 10.52 50001_test.vn Bảng 3.5: Dữ liệu đầu vào Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 43 3.3.1 Thực nghiệm dịch với câu đơn giản “She is a student” echo „She is a student‟ | ~/moses/bin/moses -f model/moses.ini > out So sánh kết bảng cụm từ gốc sau tối ưu Tiêu chí so sánh Dung lượng bảng Thời gian tai vào nhớ Thời gian dịch Bảng cụm từ gốc Bảng cụm từ tối ưu 343.0 Mb 43.9 Mb (~ 12,8 %) 64,592s 33,550s 0.122s 0.034s câu Bảng 3.3: So sánh kết dịch máy với câu đơn Như ta thấy kết thu khả quan Từ bảng cụm từ có dung lượng lên tới 343.0 Mb ta thực nén xuống 43.9Mb điều đáng kể việc nén liệu Do thời gian load liệu vào hệ thống thời gian dịch hệ thống tăng lên đáng kể Với phương pháp nén bảng cụm từ mang lại kết khả quan việc nén liệu tăng tốc độ dịch máy Và phương pháp tốt nhiều người sử dụng thực tiễn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 44 3.3.2 Thực nghiệm dịch đoạn văn từ tiếng Anh-Tiếng Việt Bước ta trực tiếp so sánh dịch văn từ tiếng Anh sang tiếng Việt Dữ liệu đầu vào tối ưu chuẩn hóa để tăng tốc độ dịch máy Một số công cụ chuẩn hóa liệu đầu vào có ghi phụ lục khóa luận,tất chúng cung cấp dạng mã nguồn mở Thí dụ: Đầu vào file chuẩn hóa có tên 500001b_lower.en Gõ lệnh sau để dịch file đầu vào in kết ~/moses/bin/moses –f model/moses.ini file_out_put So sánh kết bảng cụm từ gốc sau tối ưu: Tiêu chí so sánh Bảng cụm từ gốc Dung lượng file/line Thời gian tai vào nhớ Bảng cụm từ tối ưu 6.8kb/100line 58.329(s) 57.325(s) 121(s) 87(s) Thời gian dịch câu Bảng 3.4: So sánh hai phương pháp dịch với đầu vào văn 3.3.3 Đánh giá kết liệu huấn luyện bảng cụm từ Dữ liệu huấn luyện thay đổi theo kích thước tập ngữ liệu đầu vào, việc thay đổi trình làm tăng giảm số câu (số dịng) cặp ngữ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 45 liệu đầu vào Việc thay đổi liệu huấn luyện làm ảnh hưởng đến mơ hình dịch, mơ hình ngơn ngữ, … từ ảnh hưởng lớn đến trình đánh giá chất lượng dịch máy Tiêu chí Dữ liệu huấn luyện Số câu Bảng cụm từ Bảng cụm từ tối ưu 74641 câu 343.0Mb 43.9Mb 54641 câu 162.7Mb 21.8Mb 44641 câu 129.9Mb 17.4Mb 34641 câu 93.0Mb 12.5Mb 24641 câu 68.0Mb 9.2Mb Bảng 3.5: So sánh liệu bảng cụm từ gốc bảng cụm sau nén Mb Biểu đồ liệu bảng cụm từ 400 350 300 250 200 150 100 50 Bảng cụm từ gốc Bảng cụm từ tối ưu 74642 54643 44638 34638 24628 Số câu Biểu đồ 3.1: Biểu đồ so sánh Nhìn vào biểu đồ 3.1 bảng cụm từ trước gốc bảng cụm từ sau nén ta thấy dung lượng bảng cải thiện đáng kể ~12% Ở xét tập ngữ liệu 70.000 câu kích cỡ bảng cụm từ 343.0 Mb, giả sử với tập ngữ liệu lên tới triệu câu dung lượng bảng cụm từ lên tới ~5.0 Gb (dữ liệu lớn) khơng tối ưu khơng thể đưa tồn liệu vảo nhớ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 46 máy tính Như vậy, kích thước liệu bảng cụm từ sau nén giảm đáng kể so với bảng cụm trước nén Chúng ta không cần phải dùng đến không gian nhớ lớn để lưu bảng cụm từ 3.3.4 Đánh giá kết theo cỡ liệu huấn luyện Ta thay đổi kích cỡ liệu huấn luyện 20.000, 30.000,…, 70.000 cặp câu, sau thực đánh giá chất lượng dịch dựa vào điểm BLEU Điểm BLEU cao chất lượng dịch tốt Câu 20.000 30.000 40.000 50.000 70.000 Bảng cụm gốc 22.29 25.39 29.81 31.87 31.95 Bảng cụm tối ưu 22.29 25.39 29.81 31.87 31.95 Điểm Bleu Bảng 3.7: So sánh điểm BLEU bảng cụm từ trước sau nén Biểu đồ cỡ liệu huấn luyện 35 30 Bleu 25 20 Bảng cụm gốc 15 Bảng cụm tối ưu 10 20.000 30.000 40.000 50.000 70.000 Số câu Biểu đồ 3.2: Biểu đồ so sánh Bảng 3.7 biểu đồ 3.2 cho thấy rằng, chất lượng dịch bạng cụm từ bảng cụm từ tối ưu nhau, với cỡ liệu lớn cho Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 47 chất lượng dịch tốt Với 20.000 cặp câu ngữ liệu đầu vào cho ta điểm BLEU 22.29, số điểm tương đối thấp, với số lượng 70.000 cặp câu số điểm BLEU 31.95, điểm tốt hệ dịch máy Vậy, kết luận là, chất lượng hệ dịch máy phụ thuộc nhiều vào kích cỡ liệu huấn luyện 3.3.5 Đánh giá kết theo thời gian tải bảng cụm từ Ta thay đổi kích cỡ liệu huấn luyện 20.000, 30.000,…, 70.000 cặp câu, sau thực đánh giá chất lượng dịch dựa vào thời gian tải bảng cụm từ Thời gian dịch đoạn văn nhỏ chất lượng dịch tốt Câu 20.000 30.000 40.000 50.000 70.000 Bảng cụm gốc 6.61 9.12 12.47 15.75 32.38 Bảng cụm tối ưu 6.75 9.96 12.29 15.98 30.12 Thời gian tải Bảng 3.8: So sánh thời gian tải bảng cụm từ trước sau nén Thời gian tải bảng cụm từ 35 Thời gian (s) 30 25 20 Bảng cụm từ gốc 15 Bảng cụm từ tối ưu 10 20000 30000 40000 50000 70000 Số câu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 48 Biểu đồ 3.3: Biểu đồ so sánh Nhìn vào bảng 3.8 biểu đồ 3.3 kết nhận thời gian tải bảng cụm từ lúc tăng lúc giảm Ta thấy với liệu đầu vào lớn thời gian giảm xuống tấc độ tìm kiếm tăng lên Trong nén cụm từ xếp thành tấc độ tìm kiếm nhanh so với trước nén (tìm kiếm tuần tự) Vậy, kết luận thời gian dịch cải tiến nén bảng cụm từ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 KẾT LUẬN Dịch máy thống kê phát triển giới, đặc biệt dịch máy thống kê dựa vào cụm từ Hướng tiếp cận dịch máy thống kê sở cụm từ khắc phục nhiều nhược điểm dịch máy dựa sở từ Qua ba chương, luận văn trình bày cách tiếp cận dịch máy thông kê dựa cụm từ, phương pháp nén bảng cụm từ đồng thời áp dụng vào toán dịch Anh – Việt Mặc dù chất lượng dịch chưa cao cải tiến mô hình dịch đồng thời huấn luyện với nhiều liệu hơn, chất lượng dịch nâng cao rõ rệt Hơn ta hồn tồn áp dụng cho chiều dịch Việt – Anh Các kết đạt đƣợc: - Trình bày cách tiếp cận dịch máy thống kê sở cụm từ - Trình bày trình sinh bảng cụm từ dịch máy thống kê - Áp dụng phương pháp nén tối ưu bảng cụm từ - Xây dựng chương trình thử nghiệm dịch Anh-Việt thống kê dựa hệ thống dịch máy Moses - Đánh giá kết trước sau áp dụng phương pháp nén bảng cụm từ Hƣớng phát triển: - Thử nghiệm với liệu đa dạng lớn - Tìm hiểu thêm phương pháp nén bảng cụm từ - Cải tiến thuật toán giải nén (decoding) hiệu - Áp dụng cho chiều dịch từ Việt – Anh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 PHỤ LỤC Luận văn nêu phương pháp quan trọng dịch máy thống kê với hệ thống Moses Với việc tập liệu ngôn ngữ lớn việc xử lý với lượng liệu tương ứng với thời gian dịch tăng Do việc tối ưu liệu hướng phát triển hàng đầu dịch máy Một điều quan trọng hầu hết hệ dịch máy online nhu cầu thời gian ngắn đặt lên hàng đầu Chúng ta để clients đợi hàng tiếng để dịch câu từ ngôn ngữ sang ngôn ngữ khác Với việc mã hóa bảng cụm từ, nén bảng cụm từ… Chúng ta có nhìn khái qt phương pháp phổ biến hệ dịch máy Điều giải thích nhiều câu hỏi mà nhiều người thường hay đặt (Tại số từ điển điện thoạimáy tính có vài chục Mb mà dịch tương đối tốt !) Đồng thời luận văn trình bày cách khái quát việc cài đặt sử dụng hệ thống dịch máy Moses hệ thống ổn định đem lại chất lượng tốt, thư viện cơng cụ có liên quan SRILM ,CMPH,BOOST… Kết dịch máy câu đơn giản Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 Hình 3.1: Dịch câu đơn giản với bảng cụm từ gốc Hình 3.2: Dịch câu đơn giản với bảng cụm tối ưu Kết dịch máy liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 Hình 3.3: Điểm Bleu liệu bảng cụm từ gốc Hình 4: Điểm Bleu liệu bảng cụm từ tối ưu Một số công cụ tiền xử lý thường hay sử dụng hệ dịch Công cụ tiền xử lý Bộ tokenizer: Sử dụng Tokenizer ngữ liệu Europarl corpus Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Koehn[9] phát triển Bộ tách từ: Sử dụng công cụ JvnSegmenter cung cấp dạng mã nguồn mở nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kỹ thuật Conditional Random Field Chất lượng tách từ 94% Bộ gán nhãn từ loại (Postagger): Sử dụng công cụ CRFTagger cung cấp dạng mã nguồn mở nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kĩ thuật Conditional Random Field Chất lượng gán nhãn theo tác giả cung cấp lên tới 97% Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tự động AnhViệt phương pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tài liệu tiếng Anh [2] W Weaver (1955) Translation (1949) In: Machine Translation of Languages, MIT Press, Cambridge, MA [3] P Koehn, F.J Och, and D Marcu (2003) Statistical phrase table based translation In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL) [4] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), Moses: Open Source Toolkit for Statistical Machine Translation ACL 2007, Demonstration Session, Prague, Czech Republic [5] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Bảng cụm từ Translation”, In proceedings of NAACL [6] Brown, P., Cocke, J., Pietra, S D., Jelinek, J., Lafferty and Roossina, P (1990), “A statistical approach to machine translation”, Computational Linguistics, 16(2), pp 79-85 [7] D Chiang (2005) A Hierarchical phrase Model for Statistical Machine Translation In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 [8] Marcin Junczys-Dowmunt (2012) Phrasal Rank-Encoding: Exploiting phrase Redundancy and Translational Relations for phrase Table Compression [9] Franz Joset Och and Hermann Ney (2002), Discriminative training and maximum entropy models for statistical machine translation, In Processdings of the 40th Anuual Meeting of the ACL, pages 295-302, Philadelphia, PA [10] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu (2002), BLEU: a method for automatic evaluation of machine translation In Proceedings of the 40th Annual Meeting of the ACL, pages 311-318, Philadelphia, PA Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... 1.3.6 Bảng cụm từ dịch máy thống kê Đối với dịch máy thống kê sở cụm từ, ta cần phải có ngữ liệu liên quan đến cụm từ Chính bảng cụm từ xây dựng Bảng cụm từ sử dụng dịch máy thống kê dựa cụm từ. .. hình dịch theo phương pháp bảng cụm từ Dịch máy thống kê sở cụm từ [5] có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ. .. từ, gióng hàng thống kê 1.3.3 Dịch máy thống kê dựa sở cụm từ 1.3.4 Mục đích việc dịch máy thống kê sở cụm từ 11 1.3.5 Đảo cụm từ dịch máy thống kê 13 1.3.6 Bảng cụm từ dịch

Ngày đăng: 24/03/2021, 08:53

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan