Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
866,5 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LƢU TIẾN TRUNG ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TIEU LUAN MOI download : skknchat@gmail.com LƢU TIẾN TRUNG ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN VINH HÀ NỘI – 2015 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới hƣớng dẫn TS Nguyễn Văn Vinh Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Học viên Lƣu Tiến Trung TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tôi xin chân thành cảm ơn thày cô khoa Công nghệ thông tin, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội giúp đỡ tơi nhiều q trình học tập, nghiên cứu, truyền đạt cho kiến thức quý báu năm học vừa qua Tơi xin bày tỏ lịng biết ơn sâu sắc đến giáo viên hƣớng dẫn tơi - TS Nguyễn Văn Vinh, ngƣời tận tình bảo tơi, định hƣớng cho tơi q trình nghiên cứu, giúp đỡ mặt phƣơng pháp luận nhƣ kiểm tra cuối luận văn Tôi muốn gửi lời cám ơn tới ThS Trần Hồng Việt chia sẻ với nhiều kinh nghiệm, truyền đạt cho nhiều kiến thức trình thực luận văn Cuối gửi lời cảm ơn chân thành tới tất ngƣời thân bạn bè giúp đỡ, động viên tơi nhiều q trình học tập nhƣ thực đề tài Học viên Lƣu Tiến Trung TIEU LUAN MOI download : skknchat@gmail.com Mục lục CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 10 Dịch máy 10 Dịch máy thống kê 11 a) Giới thiệu tổng quan 11 b) Mơ hình ngơn ngữ 15 c) Bộ giải mã 16 d) Chu kỳ phát triển hệ thống dịch thống kê 17 e) Phƣơng thức đánh giá 18 CHƢƠNG 2: MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC 22 Mơ hình dịch máy 23 a) Dịch máy thống kê dựa vào từ 23 b) Dịch máy thống kê dựa cụm từ 25 c) Dịch máy thống kê dựa cú pháp 27 Cụm từ không liên tục 27 Mơ hình dịch máy dựa cụm từ khơng liên tục 28 a) Chích xuất cụm từ không liên tục 28 b) Giải mã 29 c) Đặc trƣng 31 CHƢƠNG 3: ÁP DỤNG MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH-VIỆT 33 Tổng quan 33 TIEU LUAN MOI download : skknchat@gmail.com Chuẩn bị liệu 34 Công cụ cho việc thử nghiệm, đánh giá 36 KẾT LUẬN 43 PHỤ LỤC 44 TÀI LIỆU THAM KHẢO 53 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CHỮ VIẾT TẮT Viết tắt MT SMT BLEU NIST IWSLT Tiếng Anh Machine Translation Statistic Machine Translation Bilingual Evaluation Understudy National Institute of Standards and Technology The International Workshop on Spoken Language Translation Tiếng Việt Dịch máy Dịch máy thống kê TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH VẼ Hình 1.1: Mơ hình hóa hệ dịch máy 13 Hình 1.2: Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 14 Hình 2.1: Minh họa dịch máy thống kê dựa vào cụm từ 25 Hình 2.2: Dịch máy dựa cụm từ không liên tục 30 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC BẢNG Bảng 3-1: Tóm tắt liệu huấn luyện 35 Bảng 3-2: Các thử nghiệm theo chiều dịch Anh-Việt 39 Bảng 3-3: Các thử nghiệm theo chiều dịch Việt-Anh 40 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Theo điều tra báo cáo UNESCO Liên Hiệp Quốc giới có 2750 thứ tiếng Với nhu cầu trao đổi thông tin thƣờng xuyên liên tục, ngƣời gặp phải khơng khó khăn bất đồng ngôn ngữ Ngƣời ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nƣớc sang tiếng nƣớc khác Để khắc phục nhƣợc điểm ngƣời nghĩ đến việc thiết kế mơ hình dịch tự động Cơng việc đƣa mơ hình dịch tự động đƣợc phát triển trở thành đề tài nghiên cứu đƣợc nhiều nhà khoa học quan tâm Trên giới có nhiều nƣớc cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ nhƣng Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt cịn mẻ gặp nhiều khó khăn Mơ hình dịch thành phần quan trọng hệ thống dịch máy Cải thiện mơ hình dịch tăng hiệu lớn hệ thống dịch máy Vì vậy, giới có nhiều nghiên cứu đƣợc cơng bố mơ hình dịch đem lại hiệu tích cực Ở Việt Nam, dịch máy trở thành đề tài đƣợc số nhóm tập trung nghiên cứu nhiên chất lƣợng nhƣ phạm vi ứng dụng hệ dịch cịn nhiều hạn chế Những khó khăn đến từ cách thức tiếp cận, cấu trúc ngữ pháp nhập nhằng ngữ nghĩa tiếng Việt Dịch máy dựa cụm từ mơ hình dịch đem lại hiệu cao đƣợc sử dụng rộng rãi (Google, Bing, ) Mặc dù vậy, dịch cụm từ cịn có hạn chế mà dịch cụm từ thông thƣờng không đem lại kết cao liệu huấn luyện chứa thành phần dịch mà không nằm cạnh nhƣng lại có liên kết tới Khi thành phần bị dịch riêng rẽ đƣa kết khơng xác Chính điều gợi ý thúc TIEU LUAN MOI download : skknchat@gmail.com automatically balancing a pole thăng_bằng entropica tự_động using a cart sử_dụng xe golf This behavior is remarkable in hành_vi điều đáng part because we never gave chú_ý phần bởi_vì chúng_ta Entropica a goal không_bao_giờ đƣa entropica mục_tiêu It simply decided on its own to đơn_giản tự quyết_định để balance the pole cân_bằng cực This tool use ability will have cơng_cụ applications khả_năng có ứng_dụng cho smart sử_dụng manufacturing and agriculture sản_xuất thơng_minh This cooperative ability has khả_năng hợp_tác có interesting for ý_nghĩa thú_vị cho kế_hoạch a kinh_tế nhiều economic for implications planning and variety of other fields lĩnh_vực khác For example , here we see it ví_dụ , chúng_ta thấy successfully playing a game of thành_cơng chơi trị pong pong against itself , illustrating chống its potential for gaming bản_thân , minh_hoạ cho chơi tiềm_năng game Here we see Entropica chúng_ta thấy entropica orchestrating new connections orchestrating liên_kết on a social network where mạng xã_hội nơi friends are constantly falling bạn_bè liên_tục rơi khỏi 41 TIEU LUAN MOI download : skknchat@gmail.com thành_công out of touch and successfully chạm keeping mạng_lƣới kết_nối the network well giữ connected 10 This same network orchestration khả_năng tƣơng_tự orchestration ability also has mạng_lƣới applications in health care , có_thể đƣợc ứng_dụng energy , and intelligence chăm_sóc năng_lƣợng sức_khoẻ , , trí thơng_minh Kết luận chƣơng Trong chƣơng này, chung mô tả rõ ràng việc áp dụng mơ hình học máy dựa cụm từ khơng liên tục cho tốn dịch máy Chúng mô tả việc chuẩn bị liệu nhƣ thử nghiệm thực nghiệm nhƣ đánh giá kết sử dụng đồng thời công cụ Moses công cụ Phrasal Cuối chƣơng, đƣa hƣớng nghiên cứu đề tài 42 TIEU LUAN MOI download : skknchat@gmail.com KẾT LUẬN Trong đề tài nghiên cứu đề cập tiến hành thực nghiệm mơ hình dịch dựa cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt với việc sử dụng công cụ Phrasal Thử nghiệm đƣợc mở rộng tập liệu đơn ngữ để xây dựng mơ hình ngơn ngữ nhƣ tập liệu song ngữ phục vụ cho công tác huấn luyện Luận văn đạt đƣợc kết nhƣ sau: - Đã tiến hành cài đặt tiến hành thử nghiệm nhƣ đƣa so sánh sử dụng đồng thời công cụ Moses Phrasal - Sau thực nghiệm, kết thử nghiệm cho thấy Phrasal đƣa đƣợc kết tốt Thể mặt thống kê điểm BLEU Do thời gian có hạn, nên luận văn dừng lại mức độ nghiên cứu đƣợc độ tin cậy phƣơng hƣớng nghiên cứu Với kết đạt đƣợc luận văn này, nỗ lực việc cải thiện đƣợc chất lƣợng dịch phƣơng pháp nhƣ: tăng kích thƣớc chất lƣợng liệu huấn luyện, xây dựng mơ hình ngơn ngữ tốt hơn, nghiên cứu thay đổi vài tham số công cụ Phrasal để q trình huấn luyện mơ hình đƣợc tốt mong muốn xây dựng đƣợc ứng dụng hoàn chỉnh sử dụng cho dịch máy 43 TIEU LUAN MOI download : skknchat@gmail.com PHỤ LỤC Cấu hình Berkeley Aligner # aligner.conf # # Generic conf file for Berkeley aligner v2.1 # ########################################## # Training: Defines the training regimen # ########################################## forwardModels MODEL1 HMM reverseModels MODEL1 HMM mode JOINT JOINT iters 22 ############################################### # Execution: Controls output and program flow # ############################################### execDir /root/run01/models create overwriteExecDir 44 TIEU LUAN MOI download : skknchat@gmail.com saveParams true numThreads msPerLine 10000 alignTraining #leaveTrainingOnDisk safeConcurrency true ################# # Language/Data # ################# foreignSuffix vi.tok englishSuffix en.tok #lowercase # Choose the training sources, which can either be directories or files that list files/directories # Note that training on the test set does not peek at the correct answers (no cheating) trainSources /root/run01/data/training sentences MAX # The test sources must have hand alignments for all sentence pairs testSources 45 TIEU LUAN MOI download : skknchat@gmail.com maxTestSentences MAX offsetTestSentences ############## # Evaluation # ############## competitiveThresholding Trong đó: - execDir: Đƣờng dẫn xuất - foreignSuffix: Hậu tố ngôn ngữ nguồn - englishSuffix: Hậu tố ngơn ngữ đích - #lowercase: Bỏ comment có xử lý lowercase Cấu hình Crawl liệu urls = http://vnexpress.net/, http://eva.vn, http://24h.com.vn, http://dantri.com same.domain = true; output.type = file output.folder = /output2/ output.file = /output.txt max.item.check = 10000 id.containers = wrapper_container,body class.containers = container,content,pContent,main 46 TIEU LUAN MOI download : skknchat@gmail.com Trong đó: - urls: Url website để lấy liệu - same.domain: Chỉ lấy liệu từ domain định, không trỏ sang domain khác - output.type: giá trị file | folder - output.folder: output folder - output.file: output file - max.item.check: số lƣợng item kiểm tra khơng trùng lặp trƣớc - id.containers: lấy liệu ID - class.containers: lấy liệu class Cấu hình Phrasal File vars # # Online parameter tuning with with phrasal-train-tune.sh # # General parameters # HOST=`hostname -s` MEM=6g JAVA_OPTS="-server -ea -Xmx${MEM} -Xms${MEM} -XX:+UseParallelGC XX:+UseParallelOldGC" DECODER_OPTS="-Djava.library.path=/root/phrasal/src-cc" 47 TIEU LUAN MOI download : skknchat@gmail.com # Set if you want to receive an email when a run completes # Assumes that the 'mail' unix program is installed and # configured on your system EMAIL_ADDRESS=trunglt1311@gmail.com # Resource locations # REFDIR=/root/run01/data CORPUSDIR=/root/run01/data CORPUS_SRC=${CORPUSDIR}/train.tags.vi-en.vi.tok.filt.gz CORPUS_TGT=${CORPUSDIR}/train.tags.vi-en.en.tok.filt.gz CORPUS_EF=${CORPUSDIR}/training.en-vi.A3 CORPUS_FE=${CORPUSDIR}/training.vi-en.A3 # Directory for reporting system #REPORTING_DIR= #RESULTS_FILE=$REPORTING_DIR/results.html # # Phrase extraction parameters # 48 TIEU LUAN MOI download : skknchat@gmail.com # Mandatory extraction set format See Usage of mt.train.PhraseExtract # for the several different extraction set formats EXTRACT_SET="-fCorpus $CORPUS_SRC -eCorpus $CORPUS_TGT -feAlign $CORPUS_FE -efAlign $CORPUS_EF -symmetrization grow-diag" THREADS_EXTRACT=2 MAX_PHRASE_LEN=5 OTHER_EXTRACT_OPTS="-phiFilter 1e-4 -maxELen $MAX_PHRASE_LEN" # Feature extractors EXTRACTORS=edu.stanford.nlp.mt.train.MosesPharoahFeatureExtractor=phrasetable.gz:edu.stanford.nlp.mt.train.CountFeatureExtractor=phrasetable.gz:edu.stanford.nlp.mt.train.LexicalReorderingFeatureExtractor=lo-hier.msd2bidirectional-fe.gz EXTRACTOR_OPTS="" # Lexicalized re-ordering models LO_ARGS="-hierarchicalOrientationModel true -orientationModelType msd2- bidirectional-fe" # Online tuning parameters TUNE_MODE=online TUNE_SET_NAME=IWSLT15.TED.dev2010.vi-en TUNE_SET=${CORPUSDIR}/"$TUNE_SET_NAME".vi.tok 49 TIEU LUAN MOI download : skknchat@gmail.com TUNE_REF=${REFDIR}/"$TUNE_SET_NAME"/ref0 INITIAL_WTS=vi-en.initial.binwts TUNE_NBEST=100 #Options to pass directly to OnlineTuner METRIC=smoothbleu ONLINE_OPTS="-e -ef 20 -b 20 -uw -m $METRIC -o pro-sgd 1,5000,50,0.5,Infinity,0.02,adagradl1f,0.1" # Decoding parameters for dev/test set DECODE_SET_NAME=IWSLT15.TED.tst2015.vi-en DECODE_SET=${CORPUSDIR}/"$DECODE_SET_NAME".vi.tok NBEST=1 Trong đó: - REFDIR: Đƣờng dẫn liệu tham chiếu - CORPUSDIR: Đƣờng dẫn liệu đầu vào - CORPUS_SRC: Đƣờng dẫn file nguồn liệu training - CORPUS_TGT: Đƣờng dẫn file đích liệu training - CORPUS_EF: Đƣờng dẫn file A3 chiều nghịch (dóng câu) - CORPUS_FE: Đƣờng dẫn file A3 chiều thuận (dóng câu) File ini # Example Phrasal ini file # These options are described by the usage statement # that is shown on the command line (use the "-help" option) 50 TIEU LUAN MOI download : skknchat@gmail.com -of # # phrasal.sh will modify this template depending on the steps # selected to run # # phrasal.sh replaces the token SETID with the # dev or test set name [ttable-file] SETID.tables/phrase-table.gz # The 'kenlm:' enables the KenLM loader Remove the # prefix for the standard Java ARPA loader [lmodel-file] kenlm:/root/run01/data/4gm.bin [ttable-limit] 20 [distortion-limit] # The dense Moses feature set is loaded by default # Also load the hierarchical re-ordering model of Galley and Manning (2008) 51 TIEU LUAN MOI download : skknchat@gmail.com [reordering-model] hierarchical SETID.tables/lo-hier.msd2-bidirectional-fe.gz msd2-bidirectional-fe hierarchical hierarchical bin # Number of decoding threads [threads] Trong đó: - kenlm: Đƣờng dẫn đến file kết xuất mơ hình ngơn ngữ Một vài dịch từ Phrasal 52 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sĩ, Học viện công nghệ bƣu viễn thơng [2] Nguyễn Văn Vinh (2005) “Xây dựng chƣơng trình dịch tự động Anh Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tiếng Anh [3] Michel Galley, Christopher D Manning, “Accurate Non-Hierarchical Phrase-Based Translation”, Computer Science Department, Stanford University [4] Percy Liang, Ben Taskar, Dan Klein, “Alignment By Agreement”, NAACL, 2006 [5] John DeNero, Dan Klein, “Tailoring Word Alignments to Syntactic Machine Translation”, ACL, 2007 [6] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2008 [7] Kenneth Heafield, Faster and Smaller Language Model Querie, WMT EMNLP, Edinburgh, Scotland, Vƣơng quốc Anh, 2011 [8] Cer, D., Galley, M., Jurafsky, D., and Manning, C D, “Phrasal: A Statistical Machine Translation Toolkit for Exploring New Model Features”, In 53 TIEU LUAN MOI download : skknchat@gmail.com Proceedings of the NAACL HLT 2010 Demonstration Session, pages 9–12, Los Angeles, CA, USA, 2010 [9] Phrasal: A Toolkit for New Directions in Statistical Machine Translation 2014 Spence Green, Daniel Cer, and Christopher D Manning In WMT [10] Spence Green, Daniel Cer, and Christopher D Manning, “Phrasal: A Toolkit for New Directions in Statistical Machine Translation”, Computer Science Department, Stanford University [11] D Chiang (2005), “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [12] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), “Reevaluating the Role of Bleuin Machine Translation Research” [13] Koehn, P (2004), “Pharaoh: a beam search decoder for phrasebased”, 2004 [14] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), “Moses: Open Source Toolkit for Statistical Machine Translation”, ACL 2007, Demonstration Session, Prague, Czech Republic [15] Koehn, P., et al (2006), “Moses: Open Source Toolkit for Statistical Machine Translation” [16] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL 54 TIEU LUAN MOI download : skknchat@gmail.com [17] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S (1990), “A statistical approach to machine translation.”, Computational Linguistics Website [12] http://www.statmt.org/ [13] http://nlp.stanford.edu/ [14] http://viet.jnlp.org/ [15] http://www.systransoft.com 55 TIEU LUAN MOI download : skknchat@gmail.com ... sâu vào mơ hình dịch máy dựa cụm từ không liên tục Chƣơng 3: Áp dụng mơ hình dịch dựa vào cụm từ khơng liên tục cho cặp ngơn ngữ Anh- Việt Nội dung chƣơng mơ tả việc áp dụng mơ hình học máy dựa cụm. .. 3: ÁP DỤNG MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH- VIỆT Nội dung chương mơ tả việc áp dụng mơ hình học máy dựa cụm từ khơng liên tục cho tốn dịch máy Chương tày mô. .. không liên tục Một giải pháp đƣợc đƣa nhằm giải cho vấn đề thay sử dụng cụm từ liên tục, thay vào cụm từ không liên tục, đơn vị dịch lúc cụm từ nhƣng chúng không liên tục câu Lúc này, cặp cụm câu