Luận văn thạc sĩ nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng việt sang tiếng anh

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG BÙI THANH THUỶ NGHIÊN CỨU VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ ỨNG DỤNG DỊCH TỪ TIẾNG VIỆT SANG TIẾNG ANH LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Ngun - 2015 Số hố Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Trong luận văn tơi có sử dụng số tài liệu tham khảo nhƣ trình bày phần tài liệu tham khảo Ngƣời viết luận văn Bùi Thanh Thủy Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn chân thành đến TS Nguyễn Văn Vinh tận tình hƣớng dẫn, bảo cho tơi suốt q trình làm luận văn Em xin cam ơn anh Trần Hồng Việt, nghiên cứu sinh Trƣờng đại học công nghệ, giảng viên Trƣờng Đại học Kinh tế kỹ thuật công nghiệp giúp đỡ em q trình làm luận văn Tơi xin gửi lời cảm ơn đến thầy cô trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ tơi suốt q trình học Tôi xin gửi lời cảm ơn tới Ban giám hiệu, Phòng Đào tạo, đồng nghiệp trƣờng Cao đẳng nghề Phú Thọ, gia đình bạn bè ngƣời động viên tạo điều kiện giúp đỡ để hồn thành luận văn Số hố Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỤC LỤC LỜI CAM ĐOAN………………………………………………………………… ….1 LỜI CẢM ƠN………………………………………………………………….……… MỤC LỤC………………………………………………………………………… ….4 MỞ ĐẦU……………………………………………………………………….… … 1.Lý chon đề tài Hƣớng nghiên cứu đề tài .2 Phƣơng pháp nghiên cứu .2 Ý nghĩa khoa học đề tài Cấu trúc luận văn CHƢƠNG – TỔNG QUAN VỀ DỊCH MÁY………………………….…………4 1.1 Khái niệm hệ dịch máy 1.1.1 Định nghĩa 1.1.2 Vai trò dịch máy 1.1.3 Sơ đồ tổng quan hệ dịch máy .5 1.2 Dịch máy thống kê gì? 1.2.1 Tổng quan dịch thống kê .6 1.2.1.1 Mơ hình kênh nguồn 1.2.1.2 Cách tiếp cận Maximum mơ hình gióng hàng 1.2.1.3 Nhiệm vụ dịch thống kê .7 1.2.1.4.Ƣu điểm phƣơng pháp dịch thống kê 1.3 Phân loại dịch máy thống kê 12 1.3.1 Dịch máy thống kê dựa vào từ (word-based) 12 1.3.2 Dịch máy thống kê dựa cụm từ (phrase-based) 12 1.3.3 Dịch máy thông kê dựa cú pháp .13 1.3.4 Một số công cụ nhóm nghiên cứu Internet SMT .13 CHƢƠNG – MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ VÀ ÁP DỤNG CHO NGÔN NGỮ VIỆT _ ANH………………………………………………… 15 2.1 Giới thiệu mơ hình dịch máy dựa cụm từ 15 2.2 Kiến trúc mơ hình dịch dựa cụm từ 15 2.2.1 Mơ hình log-linenear 16 2.2.2 Mơ hình dịch 20 2.2.3 Mơ hình ngơn ngữ 24 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2.3 Giải mã 29 2.3.1 Đặt vấn đề 29 2.3.2 Mơ tả thuật tốn .30 2.4 Đánh giá chất lƣợng dịch 33 2.5 Phần mềm mã nguồn mở Moses .34 2.6 Quá trình giải mã 37 2.6.1 Huấn luyện cực tiểu sai số (MERT) 37 2.7 Áp dụng với cặp ngôn ngữ Việt – Anh 40 2.7.1.Xây dựng ngữ liệu (corpus) 40 2.7.1.1 Tạo corpus thô 40 2.7.1.2 Tạo corpus song ngữ 42 2.7.2 Phân đoạn từ corpus tiếng Việt (Segmentation) .42 2.7.2.1 Phƣơng pháp Maximum Matching 43 2.7.2.2 Phƣơng pháp Transformation-based Learning (TBL) 43 2.7.2.3 Phƣơng pháp dựa thống kê từ Internet thuật giải di truyền 44 2.7.3 Đánh giá theo liệu huấn luyện 44 2.7.4 Đánh giá theo mơ hình gióng hàng từ văn 44 CHƢƠNG3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ……………………….………….46 3.1 Công cụ tiền xử lý cho hệ dịch 46 3.1.1 Môi trƣờng triển khai 46 3.1.2 Chuẩn bị liệu đầu vào cho hệ dịch 46 3.1.3 Huấn luyện mơ hình dịch 46 3.2 Kết thực nghiệm .47 3.2.1 Dữ liệu đầu vào 47 3.2.2 Quá trình chuẩn bị liệu huấn luyện 48 3.2.2.1 Chuẩn bị liệu 48 KẾT LUẬN……………………………………………………………… ………… 53 TÀI LIỆU THAM KHẢO 54 Tài liệu tiếng Việt 54 Tài liệu tiếng Anh 54 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH Hình 1.1: Sơ đồ tổng quan hệ dịch máy……………………… …………… Hình 1.2: Chu kì phát triển hệ thống dịch thống kê………… …… …….10 Hình 2.1 Kiến trúc mơ hình dịch dựa cụm từ……………… ……………15 Hình 2.2: Ví dụ mơ hình dóng hàng………………………… ……….……… 20 Hình 2.3: Thuật tốn giải mã A* cho dịch máy…………………………… …31 Hình 2.4: Giải thuật tìm kiếm beam sử dụng đa ngăn xếp Pharaoh….32 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.Lý chon đề tài Trong q trình phát triển hội nhập văn hóa, kinh tế giới Quá trình giao lƣu ngƣời Việt Nam ngƣời nƣớc ngày nhiều dẫn đến khó khăn q trình giao tiếp sử dụng văn tài liệu tiếng Anh Hiện có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: google translate, vietgle, vdict, lạc việt,… Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữ tự nhiên ngƣời Vào năm gần đây, dịch máy nói chung, dịch máy thống kê nói riêng đƣợc phát triển mạnh ứng dụng rộng rãi Kết thực tế hệ thống dịch tốt Ngôn ngữ máy dịch ngày gần với ngơn ngữ ngƣời Ngồi với hệ thống dịch máy thống kê, sản phẩm ứng dụng ngày nhiều giúp ngƣời trao đổi thông tin dễ dàng hơn, tốc độ nhanh với nhiều ngôn ngữ Hiện nay, phƣơng pháp dịch thống kê dựa cụm từ phƣơng pháp cho kết dịch tốt Điều đƣợc thể qua hệ dịch máy Google, Vietgle Hơn việc dịch tiếng Việt sang tiếng Anh cần thiết khối lƣợng văn tiếng Anh ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Chính lý đó, tơi lựa chọn thực đề tài “Nghiên cứu dịch thống kê dựa vào cụm từ áp dụng cho dịch từ tiếng Việt sang tiếng Anh” Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Nghiên cứu phƣơng pháp, mơ hình dịch máy thống kê Thử nghiệm đánh giá kết dịch từ tiếng Việt sang tiếng Anh Phạm vi nghiên cứu: Đề tài tập trung vào nghiên cứu phƣơng pháp dịch thống kê dựa vào cụm từ ứng dụng dịch tài liệu, văn tiếng Việt, tiếng Anh Hƣớng nghiên cứu đề tài Nghiên cứu, tìm hiểu, phân tích dịch máy thống kê sở cụm từ kế Cài đặt thử nghiệm tối ƣu hóa cụm từ hệ dịch máy thống Moses - Phƣơng pháp nghiên cứu Tìm hiểu hệ dịch tự động có để tìm phƣơng pháp dịch máy mà hệ dịch sử dụng - Nghiên cứu đánh giá phƣơng pháp dịch máy, ƣu điểm hạn chế, sau tìm phƣơng pháp có hiệu đề xuất áp dụng cho toán đề tài đặt - Nghiên cứu phƣơng pháp đánh giá chất lƣợng dịch máy để đánh giá hiệu dịch cho hệ thống đề tài xây dựng 41 - Lấy text: khơng muốn viết phân tích file HTML (HTML parser), ta sử dụng COMPONENT đọc file HTML Microsoft (mshtml) - Chuẩn hố: cơng việc chuẩn hố bao gồm: + Chuyển mã tiếng Việt (nếu cần) + Lọc bỏ file chứa text xấu (trang quảng cáo, tìm việc, v.v.) heuristics + Lọc bỏ text xấu file (tiêu đề, quảng cáo, v.v.) heuristics + Chuẩn hố bỏ dấu (hịa > hồ, v.v.) Đánh dấu văn bản: Chúng tơi đơn giản thực đánh dấu câu từ Sau cắt câu phân đoạn từ, câu kết đƣợc lƣu file sử dụng nhãn đánh dấu câu () từ (#) Ví dụ: Phần mềm#máy tính#tự#khắc phục#sự cố#của#IBM Tập đồn#IBM#cho biết#sẽ#tung ra#thị trƣờng#các#phiên bản#mới#của#hai#phần mềm#dựa trên#cơng nghệ#điện tốn#tự động#,#góp phần#thực hiện#mục tiêu#xây dựng#cơng nghệ#tự#sửa#của#ngành cơng nghiệp#máy tính#. Hơm qua#,#IBM#bắt đầu#bán#phiên bản#mới#DB2 Version 8#của#phần mềm#cơ sở liệu#. Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 42 2.7.1.2 Tạo corpus song ngữ Một cách tiếp cận hiệu rẻ thu thập văn song ngữ từ Internet Chúng ta thực bƣớc sau để xây dựng Corpus song ngữ AnhViệt từ Internet (cũng áp dụng cho cặp ngơn ngữ khác): - Download liệu văn Internet song ngữ Anh-Việt dƣới dạng file HTML - Thực gióng hàng liệu văn mức file (tƣơng ứng tên file liệu tiếng Việt tƣơng ứng với tên file liệu tiếng Anh) Trích lọc tất đoạn text từ file HTML tƣơng ứng Anh-Việt Tƣơng tự nhƣ bƣớc việc xây dựng Corpus thơ - Thực việc gióng hàng đoạn hai ngôn ngữ Anh-Việt, sau bƣớc này, ta đƣợc đoạn song ngữ tƣơng ứng Anh-Việt - Thực việc gióng hàng câu, sau bƣớc ta thu đƣợc cặp câu song ngữ Anh-Việt - Từ Corpus song ngữ này, loại bỏ câu sai (kiểm tra thủ công) Chỉ giữ lại cặp câu mà chắn - Thực tiền xử lý hai ngôn ngữ Anh-Việt Công việc bao gồm: phân tích từ vựng tiếng Anh, phân đoạn tiếng Việt, phân tích hình thái, … 2.7.2 Phân đoạn từ corpus tiếng Việt (Segmentation) Bài toán phân đoạn từ tiếng Việt cho trƣớc văn tiếng Việt, cần xác định văn ranh giới từ câu Nhƣng khác với số tiếng nƣớc ngồi nhƣ tiếng Anh, tiếng Việt ranh giới từ nhiều trƣờng hợp dấu cách trống Ví dụ, câu nói Số hố Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 43 “phân_đoạn từ tiếng_Việt bài_tốn quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Hiện có nhiều phƣơng pháp phân đoạn từ tiếng Việt, là: 2.7.2.1 Phƣơng pháp Maximum Matching Phƣơng pháp khớp tối đa (MM-Maximum Matching) hay gọi LRMM-Left Right Maximum Matching Phƣơng pháp duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển thực lặp lại nhƣ hết câu Dạng đơn giản phƣơng pháp dùng để giải nhập nhằng từ đơn Giả sử có chuỗi ký tự C1, C2, …, Cn Chúng ta áp dụng phƣơng pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải từ hay khơng, sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục thực nhƣ tìm đƣợc từ dài Dạng phức tạp: Quy tắc dạng phân đoạn từ Thông thƣờng ngƣời ta chọn phân đoạn ba từ có chiều dài tối đa Thuật toán dạng đơn giản, cụ thể phát cách tách từ gây nhập nhằng, nhƣ ví dụ trên, giả sử C1 từ C1C2 từ, kiểm tra ký tự chuỗi C1, C2, , Cn để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 2.7.2.2 Phƣơng pháp Transformation-based Learning (TBL) Phƣơng pháp học cải biến (TBL) tiếp cận dựa tập ngữ liệu đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính nhận biết ranh giới từ, ta cho máy “học” câu mẫu tập ngữ liệu đƣợc đánh dấu ranh giới từ Rõ ràng thấy phƣơng pháp đơn giản, cần cho máy học tập câu mẫu sau máy tự rút quy Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 44 luật ngơn ngữ để từ áp dụng xác có câu theo luật mà máy rút Và rõ ràng để tách từ đƣợc hồn tồn xác trƣờng hợp địi hỏi phải có tập ngữ liệu tiếng Việt thật đầy đủ phải đƣợc huấn luyện lâu để rút luật đầy đủ 2.7.2.3 Phƣơng pháp dựa thống kê từ Internet thuật giải di truyền Phƣơng pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) hƣớng tiếp cận tách từ với mục đích phân loại văn mà không cần dùng đến từ điển hay tập ngữ liệu học Hƣớng tiếp cận kết hợp thuật toán di truyền (Genetics Algorithm - GA) với liệu thống kê đƣợc lấy từ Internet 2.7.3 Đánh giá theo liệu huấn luyện Đánh giá theo liệu huấn luyện việc ta thay đổi kích thƣớc tập ngữ liệu đầu vào, việc thay đổi trình làm tăng giảm số câu (số dịng) cặp ngữ liệu đầu vào Việc thay đổi liệu huấn luyện làm ảnh hƣởng đến mơ hình dịch, mơ hình ngơn ngữ, … từ ảnh hƣởng lớn đến q trình đánh giá chất lƣợng dịch máy 2.7.4 Đánh giá theo mơ hình gióng hàng từ văn Cơng cụ dùng để gióng hàng từ phổ biến GIZA++ Ban đầu, ngữ liệu song ngữ Anh – Việt đƣợc gióng hàng từ hai phía, từ tiếng Anh sang tiếng Việt từ tiếng Việt sang tiếng Anh Q trình tạo hai gióng hàng từ Lấy phần giao hai gióng hàng từ có gióng hàng từ với độ xác cao (high-precision) Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 45 Trong dịch máy thống kê, sử dụng GIZA++ để gióng hàng, ngƣời ta cịn sử dụng gióng hàng Cross-EMword Aligner (Berkerly) CrossEMword Aligner phần mềm gióng mã nguồn mở dựa phƣơng pháp gióng hàng Alignment by Agreement Phƣơng pháp dựa quan sát, dự đốn phần giao mơ hình so với mơ hình riêng rẽ Sau dự đốn mơ hình thống nhất, thêm bƣớc thứ ba “thỏa thuận” mơ hình Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 46 CHƢƠNG – THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Công cụ tiền xử lý cho hệ dịch 3.1.1 Môi trƣờng triển khai Phần cứng: Bộ xử lý Core i5, RAM 3GB, HDD free 250GB Phần mềm: Hệ điều hành Ubuntu 12.04 64 bit 3.1.2 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữ Việt – Anh Sử dụng gần 70.000 cặp câu Việt – Anh 3.1.3 Huấn luyện mơ hình dịch - Sử dụng công cụ mã nguồn mở Moses ( đƣợc trình bày chƣơng 3) - Sử dụng mơ hình ngơn ngữ SRILM - GIZA++ chƣơng trình dùng để gióng hàng từ trình tự từ corpus song ngữ nhằm mục đích liên kết mơ hình phụ thuộc vào lớp từ GIZA++ thực thi mơ hình dóng hàng HMM: Baum Welch training, thuật tốn Forward-Backward…; GIZA++ biến thể mơ hình IBM GIZA đƣợc thiết kế viết Franz Josef Och Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 47 3.2 Kết thực nghiệm 3.2.1 Dữ liệu đầu vào Dữ liệu Dữ liệu huấn luyện Dữ liệu điều Chỉnh tham số Dữ liệu đánh giá Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 48 3.2.2 Quá trình chuẩn bị liệu huấn luyện 3.2.2.1 Chuẩn bị liệu ~/tools/moses/scripts/tokenizer/tokenizer.perl -l ~/tools//Work/50001_utf8/Baseline/data/50001b_train.tok.vn ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001b_train.lower.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001b_train.lower.en 3.2.2.2 Huấn luyện mơ hình ngơn ngữ ~/tools/srilm/bin/i686m64/ngram-count -order -interpolate -kndiscount - unk -text ~/tools/Work/50001_utf8/Baseline/lm/50001b_train.lower.en -lm ~/tools/Work/50001_utf8/Baseline/lm/5001b.srilm 3.2.2.3 Sinh bảng cụm từ ~/tools/moses/scripts/trainning/train-model.perl -roor-dir ~/tools/Work/50001_utf8/Baseline -corpus ~/tools/Work/50001_utf8/Baseline /data/50001b_train.lower \-f -e en alignment grow-diag-final-and -reordering msd-bidirectionnal-fe \-lm 0:3:HOME/Work/50001_utf8/Baseline/lm/50001b.srilm:8 -external-bin-dir ~/tools/bin >& ~/tools/Work/50001_utf8/Baseline/tranning.out & Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.en ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en Work/50001_utf8/Baseline/data/50001_dev.tok.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001_dev.lower.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001_dev.lower.en ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr < ~/tools/Work/50001_utf8/Baseline/data/50001_test.vn.1 > ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.vn ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en < ~/tools/Work/50001_utf8/Baseline/data/50001_test.en.1 > ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.en ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001_test.lower.en ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001_test.lower.vn Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 3.2.2.4 Training tham số mơ hình dịch máy ~/tools/Work/corpus5000 nohup nine ~/tools/moses/scripts/training/mert-moses.pl ~/tools/Work/50001_utf8/Baseline/tuning/50001_dev.lower.vn ~/tools/Work/50001_utf8/Baseline/tuning/50001_dev.lower.en ~/tools/moses/bin/moses ~/tools/Work/50001_utf8/Baseline/moses.ini -mertdir ~/tools/moses/bin/&> ~/tools/Work/50001_utf8/Baseline/tuning/mert.out & ~/tools/moses/scripts/reuse-weights.perl ~/tools/Work/50001_utf8/Baseline/tuning/moses.ini < ~/tools/Work/50001_utf8/Baseline/model/moses.ini > ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini ~/tools/moses/scripts/training/filter-model-given-input.pl ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 3.2.2.5 Dich văn tiếng anh :~/tools/Work/50001_utf8/Baseline$ nohup nice ~/tools/moses/bin/moses config ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini -input-file ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 1> ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tuned.output 2> ~/tools/Work/50001_utf8/Baseline/evaluation/tuned.decode.out & ~/tools/moses/bin/moses -config ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower/moses.ini input-file ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 1> ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tuned- Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 filtered.output 2> ~/tools/Work/50001_utf8/Baseline/evaluation/tunedfiltered.decode.out & ~/tools/moses/scripts/recaser/recase.perl -model ~/tools/Work/50001_utf8/Baseline/recaser/moses.ini -in ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output -moses ~/tools/moses/bin/moses > ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.recased ~/tools/scripts/detokenizer.perl -l < ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.recased > ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.detokenized 3.2.2.6 Đánh giá kết ~/tools/Work/50001_utf8/Baseline/plain2sgm -r test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/data/50001_test.vn.1 ~/tools/Work/50001_utf8/Baseline/50001_test.vn.sgm ~/tools/Work/50001_utf8/Baseline/plain2sgm -s test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/data/50001_test.en.1 ~/tools/Work/50001_utf8/Baseline/50001_test.en.sgm ~/tools/Work/50001_utf8/Baseline/plain2sgm -t test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output ~/tools/Work/50001_utf8/Baseline/50001_test.tunedfiltered.output.sgm Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 ~/tools/Work/50001_utf8/Baseline/mteval-v11b.pl -r ~/tools/Work/50001_utf8/Baseline/50001_test.vn.sgm -s ~/tools/Work/50001_utf8/Baseline/50001_test.en.sgm -t ~/tools/Work/50001_utf8/Baseline/50001_test.tuned-filtered.output.sgm -c 3.3 Đánh gía phân tích kết theo số tiêu chí nhƣ cỡ liệu huấn luyện, chiều tăng độ dài cụm từ 3.3.1 Đánh giá phân tích keeys theo cỡ liệu huấn luyện Ta thay đổi kích cỡ liệu huấn luyện lần lƣợt 20.000, 30.000,40000, 50.000 , 70000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Điểm BLEU cao chất lƣợng dịch tốt Câu Điểm Bleu Bảng 6: So sánh điểm BLEU bảng cụm từ Một số kết sau dịch từ tiếng Việt sang tiếng Anh xin chào yêu em đƣợc đƣa cho đĩa kỳ nghỉ mát Ai Cập hôm trời mƣa cửa hàng anh bơi chị giáo viên Em gái bác sĩ Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 KẾT LUẬN Luận văn đƣa phƣơng pháp dịch máy thống kê dựa cụm từ phƣơng pháp dịch đƣợc áp dụng rộng rãi giới ví dụ nhƣ Google, Vietgle, Systran vvv khắc phục đƣợc nhƣợc điểm dịch máy dựa vào từ dựa vào luật.Từ mô hình tơi nghiên cứu ứng dụng vào dịch ngôn ngữ Việt _ Anh Mặc dù chất lƣợng dịch chƣa cao, nhƣng cải tiến mô hình dịch đồng thời đƣa nhiều liệu nguồn nữa, chất lƣợng dịch đƣợc nâng lên Các cơng việc đạt đƣợc luận văn - Trình bày đƣợc tổng quan hệ dịch máy đặc biệt dịch máy thống kê dựa vào cụm từ - Giải thích đƣợc cơng cụ mã nguồn mở Moses Thử nghiệm mơ hình dịch máy cho kết tƣơng đối khả quan Hƣớng phát triển Với kết đạt đƣợc luận văn này, tƣơng lai hi vọng cải thiện đƣợc chất lƣợng dịch thời gian dịch cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để trình huấn luyện mơ hình đƣợc tốt hơn, cải tiến số mơ hình đảo cụm… Số hố Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Văn Vinh (2005) “Xây dựng chƣơng trình dịch tự động Anh-Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN [2] Đào Ngọc Tú (2012) “ Nghiên cứu dịch máy thống kê dựa vào cụm từ thừ nghiệm với cặp ngôn ngữ Anh _ Việt” Luận văn Thạc sĩ Học viện cơng nghệ bƣu viễn thông Tài liệu tiếng Anh [3] W Weaver (1955) Translation (1949) In: Machine Translation of Languages, MIT Press, Cambridge, MA [4] F Och and H Ney (2003) A Systematic Comparison of Various Statistical Alignment Models Computational Linguistics, pp 29(1):19-51 [5] P Koehn, F.J Och, and D Marcu (2003) Statistical phrase based translation In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL) [6] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), Re-evaluating the Role of Bleuin Machine Translation Research [7] D Chiang (2005) A Hierarchical Phrase-Based Model for Statistical Machine Translation In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... dịch từ tiếng Việt sang tiếng Anh Phạm vi nghiên cứu: Đề tài tập trung vào nghiên cứu phƣơng pháp dịch thống kê dựa vào cụm từ ứng dụng dịch tài liệu, văn tiếng Việt, tiếng Anh Hƣớng nghiên cứu. .. dịch máy 1.3 Phân loại dịch máy thống kê 1.3.1 Dịch máy thống kê dựa vào từ (word-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng. .. 1.3.2 Dịch máy thống kê dựa cụm từ (phrase-based) Dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm

Luận văn thạc sĩ nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng việt sang tiếng anh

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan