1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) sử dụng mô hình ngôn ngữ bloom filter trong cải tiến dịch máy thống kê

79 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TT SỬ DỤNG MƠ HÌNH NGƠN NGỮ BLOOM FILTER TRONG CẢI TIẾN DỊCH MÁY THỐNG KÊ lu an n va tn to p ie gh TRẦN TIẾN THÀNH d oa nl w oi lm ul nf va an lu z at nh THÁI NGUYÊN 2015 z m co l gm @ an Lu n va ac th si LỜI CAM ĐOAN Em - Trần Tiến Thành, học viên lớp Cao học K12E Trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên - cam kết Luận văn thạc sỹ khoa học máy tính: “Sử dụng mơ hình ngơn ngữ Bloom Filter cải tiến dịch máy thống kê” cơng trình nghiên cứu thân em hướng dẫn thầy giáo TS Nguyễn Văn Vinh, Bộ mơn Khoa học máy tính, Khoa Cơng nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia lu Hà Nội an va n Các kết luận văn tốt nghiệp trung thực, khơng chép p ie gh tn to tồn văn cơng trình khác w Thái Nguyên, ngày 05 tháng 10 năm 2015 d oa nl TÁC GIẢ u nf va an lu ll Trần Tiến Thành oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, TS Nguyễn Văn Vinh, Bộ môn Khoa học máy tinh, Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội khuyến khích tận tình hướng dẫn em suốt trình thực luận văn Em xin cảm ơn anh Trần Hồng Việt, nghiên cứu sinh Trường Đại học Công nghệ, giảng viên Trường Đại học Kinh tế kĩ thuật công nghiệp hết lịng giúp đỡ em q trình thực đề tài Nhờ quan tâm bảo ý kiến đóng góp quý báu lu thầy anh em hồn thành luận văn an n va Em xin chân thành cảm ơn tập thể thầy, cô giáo Trường Đại học truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt gh tn to Công nghệ thông tin Truyền thơng Thái Ngun tận tình giảng dạy p ie năm học vừa qua Em xin cảm ơn Sở Giáo dục Đào tạo Phú Thọ, Trường THPT oa nl w Minh Đài tạo điều kiện kinh phí thời gian để em học tập d hồn thành luận văn an lu Cuối em xin chân thành cảm ơn gia đình, người thân hết lịng u nf va giúp đỡ, hỗ trợ vật chất lẫn tinh thần giúp em yên tâm học tập nghiên ll cứu suốt trình học tập thực luận văn oi m Trong khoảng thời gian có hạn, kiến thức nhiều hạn chế z at nh luận văn khơng tránh khỏi sai sót nội dung hình thức Kính mong nhận góp ý q thầy cơ, bạn bè đồng nghiệp z @ gm Thái Nguyên, ngày 05 tháng 10 năm 2015 m co l TÁC GIẢ an Lu Trần Tiến Thành n va ac th si DANH SÁCH CÁC TỪ VIẾT TẮT Đầy đủ Viết tắt lu an n va Bloom Filter BF-LM Mơ hình ngơn ngữ dựa Bloom Filter LF-BF-LM Mơ hình ngơn ngữ Log-Frequency Bloom Filter LM Mơ hình ngơn ngữ MKN Phương pháp làm mịn Kneser-Ney cải tiến MLE Ước lượng cực đại hóa khả MSE Lỗi trung bình bình phương MT Dịch máy NLP Xử lý ngôn ngữ tự nhiên PDS Cấu trúc liệu xác suất RDS Cấu trúc liệu ngẫu nhiên p ie gh tn to BF Dịch máy phương pháp thống kê d oa nl w SMT ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC HÌNH VẼ Hình Tên hình Trang Hình Kiến trúc hệ thống SMT 14 Hình Minh họa dịch máy thống kê dựa vào cụm Ví dụ hàm băm Các xâu ký tự chuyển thành chữ Hình ký đại diện 15 35 lu an n va Cặp khóa ki giá trị tập S ánh xạ thơng qua Hình hàm băm vào bảng băm Xuất xung đột phần tử k1 k3 36 Hình Huấn luyện Bloom Filter 37 Hình Truy vấn Bloom Filter 38 Hình Lỗi phía Bloom Filter 39 p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC MỞ ĐẦU Đặt vấn đề Đối tượng phạm vi nghiên cứu 10 Nhiệm vụ nghiên cứu 10 Những nội dung nghiên cứu 10 NỘI DUNG 11 CHƯƠNG I 11 lu an TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 11 n va VÀ MƠ HÌNH NGƠN NGỮ 11 tn to 1.1 Dịch máy thống kê dựa cụm từ 11 gh 1.1.1 Dịch máy dịch máy thống kê 11 p ie 1.1.2 Dịch máy thống kê dựa cụm 15 w 1.2.1 N-gram 17 oa nl 1.2.2 Mô hình ngơn ngữ 19 d 1.2.3 Huấn luyện mơ hình ngôn ngữ 21 lu va an 1.2.3.1 Ước lượng cực đại hóa khả (Maximium Likelihood Estimation - u nf MLE) 21 ll 1.2.3.2 Các phương pháp làm mịn 22 m oi 1.2.3.2.1 Kneser-Ney 24 1.2.3.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney - MKN) 25 1.2.3.2.3 Stupid Backoff 26 1.3 Đánh giá mô hình ngơn ngữ 27 z at nh z gm @ 1.3.1 Entropy – Độ đo thông tin 27 l 1.3.2 Độ hỗn loạn thông tin (Perplexity) 29 m co 1.3.3 Tỉ lệ lỗi (Error rate) 30 an Lu 1.4 Đánh giá chất lượng dịch tự động dựa điểm BLEU 31 CHƯƠNG 32 n va ac th si MƠ HÌNH NGÔN NGỮ BLOOM FILTER 32 2.1 Các cấu trúc liệu xác suất (PDS) 33 2.2 Hàm băm (Hash function) 35 2.3 Bloom Filter 37 2.4 Mơ hình ngơn ngữ Bloom Filter 43 2.4.1 Bloom Filter tần số log (Log-frequency Bloom Filter) 43 2.4.2 Bộ lọc dựa vào chuỗi (sub-sequence filtering) 45 CHƯƠNG 47 lu ỨNG DỤNG BLOOM FILTER CHO HỆ DỊCH MÁY THỐNG KÊ DỰA an VÀO CỤM TỪ 47 va n 3.1 Hệ dịch máy thống kê mã nguồn mở Moses 47 gh tn to 3.2 Tích hợp Mơ hình ngơn ngữ Bloom Filter vào hệ thống Moses 48 p ie 3.2.1 Xây dựng LM với RandLM SRILM 48 d oa nl w 3.2.1.1 Ngữ liệu 49 3.2.1.2 Thuật toán làm mịn 53 3.2.1.3 Xây dựng LM với SRILM RandLM 53 3.3 Thử nghiệm đánh giá 65 an lu KẾT LUẬN 78 ll u nf va TÀI LIỆU THAM KHẢO 79 oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Đặt vấn đề Mơ hình ngơn ngữ (Language Model - LM) phần thiếu lĩnh vực xử lý ngơn ngữ tự nhiên Mơ hình ngơn ngữ sử dụng lĩnh vực xử lý ngơn ngữ tự nhiên như: nhận dạng tiếng nói, kiểm lỗi tả, phân đoạn từ hay dịch máy thống kê… Để ứng dụng tốt mơ hình ngơn ngữ phải lớn, mà việc tìm kiếm không gian lưu lu trữ vô quan trọng mơ hình ngơn ngữ Chính thế, luận văn an va lựa chọn thực đề tài: “Sử dụng mơ hình ngơn ngữ Bloom Filter n cải tiến dịch máy thống kê” tn to ie gh Trong luận văn này, nghiên cứu tìm hiểu mơ hình ngơn p ngữ xây dựng dựa cấu trúc liệu Bloom Filter Không lưu trữ toàn nl w tập n-gram giống mơ hình truyền thống, loại mơ hình ngơn ngữ oa sử dụng quy trình mã hóa đặc biệt, cho phép chia sẻ cách hiệu d bit lưu trữ thông tin thống kê n-gram, nhờ tiết kiệm đáng kể lu va an nhớ Sau tìm hiểu sơ lược mơ hình ngơn ngữ, nghiên cứu u nf kiểu cấu trúc liệu dựa Bloom Filter Bloom Map Qua thử ll nghiệm, ưu việt mơ hình ngơn ngữ dựa m oi Bloom Filter phương diện dung lượng tính hiệu ứng dụng z at nh thực tế, cụ thể hệ thống dịch máy phương pháp thống kê z với Moses [2] m co l gm @ an Lu n va ac th si 10 Đối tượng phạm vi nghiên cứu - Luận văn nghiên cứu n-gram cách ước lượng, tính tốn biễu diễn mơ hình ngơn ngữ - Thực thử nghiệm với liệu tiếng Việt Nhiệm vụ nghiên cứu - Thơng qua luận văn, trình bày hiểu biết cần biết mơ hình ngơn ngữ n-gram, thuật toán làm mịn sử dụng mơ hình ngơn lu ngữ thước đo để đánh giá mơ hình ngơn ngữ an n va - Luận văn tập trung nghiên cứu trúc liệu dựa Bloom Filter tn to sử dụng cho mơ hình ngơn ngữ cụ thể Log-Frequency Bloom Filter - Thực thử nghiệm xây dựng mô hình ngơn ngữ ngữ liệu tiếng gh p ie Việt ngữ liệu tiếng Anh w - Ngồi ra, luận văn cịn giới thiệu sơ lược dịch máy thống kê, thử nghiệm oa nl dịch máy thống kê với hệ thống dịch máy mã nguồn mở Moses sử dụng d mơ hình ngơn ngữ xây dựng chương lu va an Những nội dung nghiên cứu oi z at nh NỘI DUNG m MỞ ĐẦU ll u nf Luận văn trình bày thành phần: Chương - Tổng quan dịch máy thống kê dựa vào cụm từ mơ z hình ngơn ngữ gm @ Chương - Mơ hình ngơn ngữ Bloom Filter cụm từ an Lu KẾT LUẬN m co l Chương - Ứng dụng Bloom Filter cho hệ dịch máy thống kê dựa vào n va ac th si 11 NỘI DUNG CHƯƠNG I TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ MƠ HÌNH NGƠN NGỮ 1.1 Dịch máy thống kê dựa cụm từ 1.1.1 Dịch máy dịch máy thống kê Dịch máy (Machine Translation - MT) xuất từ thập kỷ 50 kỷ trước đặc biệt phát triển mạnh mẽ từ thập kỷ 80 ngày lu an Trên giới, có nhiều hệ dịch máy thương mại tiếng n va Systrans, Kant, … hay hệ dịch máy mở tiêu biểu hệ dịch tn to Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến Anh-Pháp, Anh-Trung, gh Anh-Nhật, Hoa-Nhật, … Các cách tiếp cận MT chia làm bốn lớp dịch p ie trực tiếp (direct), dịch dựa luật chuyển đổi (transfer), dịch liên ngữ w (interlingua) dịch dựa vào thống kê (statistical MT) Trước đây, phương oa nl pháp dịch dựa luật chuyển đổi dịch liên ngữ chủ yếu dựa vào cú pháp d có thời gian phát triển dài sử dụng phổ biến lu va an nhiều hệ dịch thương mại Những hệ dịch máy loại này đạt kết u nf tốt với cặp ngôn ngữ tương đồng cú pháp Anh- ll Pháp, Anh-Tây Ban Nha, … gặp nhiều hạn chế cặp m oi ngơn ngữ có cú pháp khác Anh-Trung, Anh-Nhật, … z at nh Dịch Anh-Việt, Việt-Anh nước ta vấp phải khó khăn z tương tự khác biệt mặt cấu trúc ngữ pháp tính nhập nhằng gm @ ngữ nghĩa Hệ thống dịch Anh-Việt dựa luật chuyển đổi thương mại l hóa Việt Nam EVTran Nhiều nghiên cứu với yêu cầu tăng chất an Lu điểm cặp ngôn ngữ khác m co lượng dịch thực thích nghi với đặc n va ac th si 66 tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/t_train.tok.en > ~/tools/Work/50001_utf8/Baseline/data/t_train.lower en 3.3.2 Huấn luyện mơ hình ngơn ngữ - Với mơ hình ngơn ngữ chuẩn ta thực lệnh sau: lu tranthanh@tranthanh:~$ ~/tools/srilm/bin/i686- an m64/ngram-count -order -interpolate -kndiscount - va n unk -text tn to ~/tools/Work/50001_utf8/Baseline/lm/t_train.lower.vn p ie gh -lm ~/tools/Work/50001_utf8/Baseline/lm/t.srilm - Với mơ hình ngôn ngữ Bloom Filter ta thực lệnh sau: w oa nl tranthanh@tranthanh:~$~/tools/Work/corpus$ d ~/tools/randlm-0.2.5/bin/buildlm -struct BloomMap - lu va an falsepos -values -output-prefix model -order < u nf ~/tools/Work/corpus/t_train.lower.vn ll 3.3.3 Sinh bảng cụm từ m oi - Với mơ hình ngơn ngữ chuẩn sinh trên, sinh bảng cụm từ thực z at nh lệnh sau (quá trình chiếm khoảng 40 phút): z tranthanh@tranthanh:~$ gm @ ~/tools/Work/50001_utf8/Baseline$ nohup nice l ~/tools/moses/scripts/training/train-model.perl - m co root-dir ~/tools/Work/50001_utf8/Baseline -corpus an Lu ~/tools/Work/50001_utf8/Baseline/data/t_train.lower \-f en -e -alignment grow-diag-final-and - n va ac th si 67 reordering msd-bidirectional-fe \-lm 0:3:/home/tranthanh/tools/Work/50001_utf8/Baseline/l m/t.srilm:8 -external-bin-dir ~/tools/bin >& ~/tools/Work/50001_utf8/Baseline/training.out & Tiếp theo ta tiến hành thực lệnh: tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en lu an ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.en n va tn to tranthanh@tranthanh:~$ gh ~/tools/Work/50001_utf8/Baseline$ p ie ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en w d oa nl ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.vn lu va an tranthanh@tranthanh:~$ u nf ~/tools/moses/scripts/tokenizer/lowercase.perl < ll ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.vn > m oi ~/tools/Work/50001_utf8/Baseline/data/t_dev.lower.vn z at nh tranthanh@tranthanh:~$ z gm @ ~/tools/moses/scripts/tokenizer/lowercase.perl < l ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.en > m co ~/tools/Work/50001_utf8/Baseline/data/t_dev.lower.en an Lu n va ac th si 68 tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr < ~/tools/Work/50001_utf8/Baseline/data/t_test.vn.1 > ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.vn tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en lu < ~/tools/Work/50001_utf8/Baseline/data/t_test.en.1 an > va n ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.en tn to ie gh tranthanh@tranthanh:~$ p ~/tools/moses/scripts/tokenizer/lowercase.perl < d oa > nl w ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.en u nf va n an lu ~/tools/Work/50001_utf8/Baseline/data/t_test.lower.e ll tranthanh@tranthanh:~$ oi m z at nh ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.vn z > @ m co l n gm ~/tools/Work/50001_utf8/Baseline/data/t_test.lower.v an Lu n va ac th si 69 - Với mơ hình ngơn ngữ Bloom Filter sinh trên, sinh bảng cụm từ thực lệnh sau: tranthanh@tranthanh:~$ ~/tools/Work/50001_utf8/Baseline$ nohup nice ~/tools/moses/scripts/training/train-model.perl root-dir ~/tools/Work/50001_utf8/Baseline -corpus ~/tools/Work/50001_utf8/Baseline/data/t_train.lower \-f en -e -alignment grow-diag-final-and - lu reordering msd-bidirectional-fe \-lm an 0:3:/home/tranthanh/tools/Work/50001_utf8/Baseline/l va n m/model.BloomMap:8 -external-bin-dir ~/tools/bin >& tn to ~/tools/Work/50001_utf8/Baseline/training.out & ie gh Sau ta thực lệnh: p tranthanh@tranthanh:~$ nl w ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en d oa va an lu ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.en ll u nf tranthanh@tranthanh:~$ oi m ~/tools/Work/50001_utf8/Baseline$ z at nh ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en z ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.vn m co l gm @ tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/lowercase.perl < an Lu n va ac th si 70 ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/t_dev.lower.vn tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/t_dev.tok.en > ~/tools/Work/50001_utf8/Baseline/data/t_dev.lower.en lu tranthanh@tranthanh:~$ an ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr va n < ~/tools/Work/50001_utf8/Baseline/data/t_test.vn.1 tn to > p ie gh ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.vn nl w tranthanh@tranthanh:~$ d oa ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en va > an lu < ~/tools/Work/50001_utf8/Baseline/data/t_test.en.1 ll u nf ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.en oi m z at nh tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/lowercase.perl < z ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.en gm @ > n m co l ~/tools/Work/50001_utf8/Baseline/data/t_test.lower.e an Lu n va ac th si 71 tranthanh@tranthanh:~$ ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/t_test.lower.v n 3.3.4 Huấn luyện tham số mơ hình dịch máy Ta thực lệnh sau (quá trình chiếm khoảng 10 phút): lu tranthanh@tranthanh:~/tools/Work/50001_utf8/Baseline an $ nohup nice ~/tools/moses/scripts/training/mert- va n moses.pl tn to ~/tools/Work/50001_utf8/Baseline/tuning/t_dev.lower ie gh en p ~/tools/Work/50001_utf8/Baseline/tuning/t_dev.lower nl w ~/tools/moses/bin/moses d oa ~/tools/Work/50001_utf8/Baseline/model/moses.ini an lu mertdir ~/tools/moses/bin/ &> va ~/tools/Work/50001_utf8/Baseline/tuning/mert.out & ll u nf Sau thực lệnh ta tiến hành copy file moses.ini sau: z at nh Vào: oi m home/tools/Work/50001_utf8/Baseline/mert-work/moses.ini home/tranthanh/tools/Work/50001_utf8/Baseline/tuning z Sau ta thực lệnh sau: @ m co l weights.perl gm tranthanh@tranthanh:~$ ~/tools/moses/scripts/reuse~/tools/Work/50001_utf8/Baseline/tuning/moses.ini < an Lu ~/tools/Work/50001_utf8/Baseline/model/moses.ini > n va ac th si 72 ~/tools/Work/50001_utf8/Baseline/tuning/mosestuned.ini tranthanh@tranthanh:~$ ~/tools/moses/scripts/training/filter-model-giveninput.pl ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.l ower ~/tools/Work/50001_utf8/Baseline/tuning/moses- lu tuned.ini an ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.l va n ower.en tn to ie gh tranthanh@tranthanh:~$ p ~/tools/moses/scripts/recaser/train-recaser.perl - nl w train-script ~/tools/moses/scripts/training/train- d oa model.perl -ngram-count ~/tools/srilm/bin/i686- an lu m64/ngram-count -corpus u nf -dir va ~/tools/Work/50001_utf8/Baseline/data/t_test.tok.en ll /home/tranthanh/tools/Work/50001_utf8/Baseline/recas oi m z at nh er -scripts-root-dir ~/tools/moses/scripts - Riêng hệ dịch máy thống kê Moses sử dụng mơ hình ngơn ngữ z Bloom Filter ta thực cấu hình lại tham số file moses.ini sau: @ an Lu Ta thực lệnh sau: m co 3.3.5 Dịch văn l RANDLM path=filename.irstlm … gm Mở tệp moses.ini phần [feature] thay KENLM path=filename.arpa … n va ac th si 73 tranthanh@tranthanh:~$ ~/tools/Work/50001_utf8/Baseline$ nohup nice ~/tools/moses/bin/moses -config ~/tools/Work/50001_utf8/Baseline/tuning/mosestuned.ini -input-file ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.l ower.en 1> ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t lu uned.output 2> an ~/tools/Work/50001_utf8/Baseline/evaluation/tuned.de va n code.out & tn to ie gh tranthanh@tranthanh:~$ nohup nice p ~/tools/moses/bin/moses -config nl w ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.l d oa ower/moses.ini -input-file va ower.en 1> an lu ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.l u nf ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t ll uned-filtered.output 2> oi m filtered.decode.out & z at nh ~/tools/Work/50001_utf8/Baseline/evaluation/tuned- z gm @ tranthanh@tranthanh:~$ m co l ~/tools/moses/scripts/recaser/recase.perl -model ~/tools/Work/50001_utf8/Baseline/recaser/moses.ini - an Lu in n va ac th si 74 ~/tools/Work/50001_utf8/Baseline/evaluation/50001_te st.tuned-filtered.output -moses ~/tools/moses/bin/moses > ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t uned-filtered.output.recased tranthanh@tranthanh:~$ ~/tools/moses/scripts/detokenizer.perl -l < lu ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t an uned-filtered.output.recased > va n ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t tn to uned-filtered.output.detokenized Ta thực lệnh: p ie gh 3.3.6 Đánh giá kết nl w tranthanh@tranthanh:~$ d oa ~/tools/Work/50001_utf8/Baseline/plain2sgm -r test an lu ~/tools/Work/50001_utf8/Baseline va ~/tools/Work/50001_utf8/Baseline ll u nf ~/tools/Work/50001_utf8/Baseline/data/t_test.vn.1 oi m ~/tools/Work/50001_utf8/Baseline/t_test.vn.sgm z at nh tranthanh@tranthanh:~$ z ~/tools/Work/50001_utf8/Baseline/plain2sgm -s test @ ~/tools/Work/50001_utf8/Baseline m co l gm ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/data/t_test.en.1 an Lu ~/tools/Work/50001_utf8/Baseline/t_test.en.sgm n va ac th si 75 tranthanh@tranthanh:~$ ~/tools/Work/50001_utf8/Baseline/plain2sgm -t test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/evaluation/t_test.t uned-filtered.output ~/tools/Work/50001_utf8/Baseline/t_test.tunedfiltered.output.sgm lu an tranthanh@tranthanh:~$ va n ~/tools/Work/50001_utf8/Baseline/mteval-v11b.pl -r tn to ~/tools/Work/50001_utf8/Baseline/t_test.vn.sgm -s ie gh ~/tools/Work/50001_utf8/Baseline/t_test.en.sgm -t p ~/tools/Work/50001_utf8/Baseline/t_test.tuned- nl w filtered.output.sgm -c d oa Bảng 6: Thống kê ngữ liệu sử dụng dịch thử nghiệm lu Ngôn ngữ Độ dài Câu Từ 44,638 498,041 11.15 463,795 10.39 trung bình Tiếng Anh 44,638 Ngữ liệu điều chỉnh Tiếng Anh 201 2,403 11.95 tham số Tiếng Việt 201 2,221 11.04 500 5,620 11.24 500 5,264 10.52 z at nh m co l gm Tiếng Việt @ Tiếng Anh z Ngữ liệu đánh giá Tiếng Việt oi m ll Ngữ liệu huấn luyện u nf va an Ngữ liệu Thời gian để dịch hết 500 câu sử dụng mơ hình ngơn ngữ an Lu SRILM 415 giây, LF-BF-LM 539 giây Như sử dụng n va ac th si 76 loại BF-LM, thời gian dịch lâu sử dụng mô hình ngơn ngữ chuẩn khoảng 1.3 lần Khoảng thời gian dịch lâu tồi ta xem xét đến phần nhớ tiết kiệm nhờ sử dụng LM dựa Bloom Filter Bảng 7: Thời gian dịch 500 câu tiếng Anh sử dụng loại LM khác lu Loại LM gram SRI-LM LF-BF-LM an Thời gian dịch (giây) 415 539 va n Để đánh giá kết dịch, sử dụng điểm BLEU Do đó, sau gh tn to dịch, kết đóng gói lại theo định dạng XML hệ thống tính p ie điểm NIST MT Script MTeval sử dụng ba đầu vào để đánh giá kết dịch: file chứa văn ngôn ngữ nguồn, file chứa kết dịch ngôn ngữ đích oa nl w file dịch chuẩn dùng để tham chiếu d Điểm BLEU cho kết dịch với LM khác thể an lu bảng Các mơ hình ngơn ngữ xây dựng từ tập ngữ liệu u nf va Set gồm 131.9 MB ngữ liệu tiếng Việt Nhìn vào kết ta thấy sử dụng mơ hình 3-gram hệ thống dịch sử dụng mơ hình ll oi m ngơn ngữ SRI-LM có điểm cao sử dụng mơ hình mơ hình z at nh RandLM Nhưng chênh lệch lớn, trường hợp SRILM cho điểm cao LF-BF-LM 0,79 nên ta coi điểm số z gm @ tương đương với bậc n-gram Thế nhưng, nói phần trên, với cấu hình máy tính dùng cho thử nghiệm, ta xây dựng mơ l m co hình ngơn ngữ 4-gram sử dụng BF-LM Sử dụng mơ hình ngơn ngữ 4gram BF-LM hệ thống dịch cho điểm số 31.90, cao rõ rệt an Lu sử dụng mơ hình ngơn ngữ SRI-LM với 30.25 điểm n va ac th si 77 Bảng 8: Điểm BLEU cho kết dịch với LM khác Điểm BLEU 30.25 29.46 31.90 Cỡ LM 173 MB 35.17 MB 58.46 MB SRI-LM 3-gram LF-BF-LM 3-gram LF-BF-LM 4-gram Nhìn vào kết này, ta thấy rõ ưu vượt trội của cấu trúc liệu LF-BF-LM so với cấu trúc liệu SRI-LM, vừa sử dụng nhớ hơn, vừa hiệu lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 78 KẾT LUẬN Dịch máy vấn đề khó lĩnh vực xử lý ngơn ngữ tự nhiên Hiện vấn đề thách thức có nhiều cơng việc cần giải nhà tin học Hướng tiếp cận thống kê hướng tiếp cận dựa vào liệu phát triển mạnh từ cuối kỉ XX Hướng tiếp cận khắc phục nhược điểm cách tiếp cận dựa vào luật (dịch chuyển đổi) Qua ba chương, luận văn trình bày cách tiếp cận, phương pháp giải cho vấn đề dịch máy thống kê đồng lu thời cải tiến mơ hình ngôn ngữ hệ dịch nhằm giảm thiểu dung lượng an n va nhớ mà mơ hình ngơn ngữ chiếm dụng Tuy chất lượng dịch chưa cao nâng cao Mặt khác ta hồn tồn áp dụng cho chiều dịch ngược lại gh tn to huấn luyện với nhiều liệu hơn, chất lượng dịch p ie Việt-Anh nl w 1- Các kết đạt d oa - Trình bày cách tiếp cận dịch máy thống kê; lu va an - Xây dựng mơ hình ngơn ngữ SRI-LM RAND-LM; ll u nf - Áp dụng cách tiếp cận vào toán dịch Anh-Việt; oi m - Xây dựng chương trình thử nghiệm dịch Anh-Việt z gm @ 2- Hướng phát triển z at nh thống kê Tiếp tục cải tiến mơ hình dịch cho toán dịch Anh-Việt; - Thử nghiệm với ngữ liệu đa dạng lớn hơn; - Áp dụng cho chiều dịch từ Việt – Anh m co l - an Lu n va ac th si 79 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tự động Anh-Việt phương pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tiếng Anh lu an n va p ie gh tn to [2] Brants, T., Popat, A C., Xu, P., Och, F J., and Dean, J “Large language models in machine translation” In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007, pages 858–867 [3] Callison-Burch, Chris, Miles Osborne, and Philipp Koehn “Reevaluating the role of Bleu in machine translation research” In EACL 2006: Proceedings the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, 2006 [4] Costa, L H M K., Fdida, S., and Duarte, O C M B “Incremental service deployment using the hop-by-hop multicast routing protocol” IEEE/ACM Trans Netw., 2006, 14(3): pages 543–556 [5] de Laplace, M “A Philosophical Essay on Probabilities” Dover Publications, 1996 [6] To Hong Thang “Building language model for Vietnamese and its application” Dissertation, Bachelor of IT, College of Technology, Vietnam National University, 2008 [7] Koehn, P “Empirical Methods in Natural Language Processing” From course slides at http://www.inf.ed.ac.uk/teaching/courses/emnlp/, 2007 [8] Talbot, D and Talbot, J “Bloom maps” In Proceedings of the Fourth Workshop on Analytic Algorithmics and Combinatorics (ANALCO) Society for Industrial and Applied Mathematics, 2008 [9] Koehn, P and Hoang, H “Factored translation models” In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 80 lu an n va p ie gh tn to Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007, pages 868–876 [10] Levenberg, A D “Bloom filter and lossy dictionary based language models” Dissertation, master of science, School of Informatics, University of Edinburgh, 2007 [11] Masao Utiyama “A survey of statistical machine translation” Lecture slides, Kyoto University, 2006 [12] Och, F “The Google Statistical Machine Translation System for the 2005 NIST MT Evaluation” Oral presentation at the 2005 NIST MT Evaluation workshop, 2005 [13] Pagh, A., Pagh, R., and Rao, S S “An optimal bloom filter replacement” In SODA ’05: Proceedings of the sixteenth annual ACM-SIAM symposium on Discrete algorithms, Philadelphia, PA, USA Society for Industrial and Applied Mathematics, 2005, pages 823–829 [14] Talbot, D and Osborne, M., “Randomised language modelling for statistical machine translation” In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic Association for Computational Linguistics, 2007a, pages 512–519 [15] Talbot, D and Osborne, M., “Smoothed Bloom filter language models: Tera-scaleLMs on the cheap” In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007b, pages 468–476 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 24/07/2023, 09:36

Xem thêm: