Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
770,81 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LƢU TIẾN TRUNG ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LƢU TIẾN TRUNG ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN VINH HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới hƣớng dẫn TS Nguyễn Văn Vinh Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Học viên Lƣu Tiến Trung LỜI CẢM ƠN Tôi xin chân thành cảm ơn thày cô khoa Công nghệ thông tin, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội giúp đỡ nhiều trình học tập, nghiên cứu, truyền đạt cho kiến thức quý báu năm học vừa qua Tôi xin bày tỏ lòng biết ơn sâu sắc đến giáo viên hƣớng dẫn - TS Nguyễn Văn Vinh, ngƣời tận tình bảo tôi, định hƣớng cho trình nghiên cứu, giúp đỡ mặt phƣơng pháp luận nhƣ kiểm tra cuối luận văn Tôi muốn gửi lời cám ơn tới ThS Trần Hồng Việt chia sẻ với nhiều kinh nghiệm, truyền đạt cho nhiều kiến thức trình thực luận văn Cuối gửi lời cảm ơn chân thành tới tất ngƣời thân bạn bè giúp đỡ, động viên nhiều trình học tập nhƣ thực đề tài Học viên Lƣu Tiến Trung Mục lục CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 10 Dịch máy 10 Dịch máy thống kê 11 a) Giới thiệu tổng quan 11 b) Mô hình ngôn ngữ 15 c) Bộ giải mã 16 d) Chu kỳ phát triển hệ thống dịch thống kê 17 e) Phƣơng thức đánh giá 18 CHƢƠNG 2: MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC 22 Mô hình dịch máy 23 a) Dịch máy thống kê dựa vào từ 23 b) Dịch máy thống kê dựa cụm từ 25 c) Dịch máy thống kê dựa cú pháp 27 Cụm từ không liên tục 27 Mô hình dịch máy dựa cụm từ không liên tục 28 a) Chích xuất cụm từ không liên tục 28 b) Giải mã 29 c) Đặc trƣng 31 CHƢƠNG 3: ÁP DỤNG MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH-VIỆT 33 Tổng quan 33 Chuẩn bị liệu 34 Công cụ cho việc thử nghiệm, đánh giá 36 KẾT LUẬN 43 PHỤ LỤC 44 TÀI LIỆU THAM KHẢO 53 DANH MỤC CHỮ VIẾT TẮT Viết tắt MT SMT BLEU NIST IWSLT Tiếng Anh Machine Translation Statistic Machine Translation Bilingual Evaluation Understudy National Institute of Standards and Technology The International Workshop on Spoken Language Translation Tiếng Việt Dịch máy Dịch máy thống kê DANH MỤC HÌNH VẼ Hình 1.1: Mô hình hóa hệ dịch máy 13 Hình 1.2: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 14 Hình 2.1: Minh họa dịch máy thống kê dựa vào cụm từ 25 Hình 2.2: Dịch máy dựa cụm từ không liên tục 30 DANH MỤC BẢNG Bảng 3-1: Tóm tắt liệu huấn luyện 35 Bảng 3-2: Các thử nghiệm theo chiều dịch Anh-Việt 39 Bảng 3-3: Các thử nghiệm theo chiều dịch Việt-Anh 40 MỞ ĐẦU Theo điều tra báo cáo UNESCO Liên Hiệp Quốc giới có 2750 thứ tiếng Với nhu cầu trao đổi thông tin thƣờng xuyên liên tục, ngƣời gặp phải không khó khăn bất đồng ngôn ngữ Ngƣời ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nƣớc sang tiếng nƣớc khác Để khắc phục nhƣợc điểm ngƣời nghĩ đến việc thiết kế mô hình dịch tự động Công việc đƣa mô hình dịch tự động đƣợc phát triển trở thành đề tài nghiên cứu đƣợc nhiều nhà khoa học quan tâm Trên giới có nhiều nƣớc công bố nghiên cứu mô hình ngôn ngữ áp dụng cho ngôn ngữ họ nhƣng Việt Nam, việc nghiên cứu xây dựng mô hình ngôn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Mô hình dịch thành phần quan trọng hệ thống dịch máy Cải thiện mô hình dịch tăng hiệu lớn hệ thống dịch máy Vì vậy, giới có nhiều nghiên cứu đƣợc công bố mô hình dịch đem lại hiệu tích cực Ở Việt Nam, dịch máy trở thành đề tài đƣợc số nhóm tập trung nghiên cứu nhiên chất lƣợng nhƣ phạm vi ứng dụng hệ dịch nhiều hạn chế Những khó khăn đến từ cách thức tiếp cận, cấu trúc ngữ pháp nhập nhằng ngữ nghĩa tiếng Việt Dịch máy dựa cụm từ mô hình dịch đem lại hiệu cao đƣợc sử dụng rộng rãi (Google, Bing, ) Mặc dù vậy, dịch cụm từ có hạn chế mà dịch cụm từ thông thƣờng không đem lại kết cao liệu huấn luyện chứa thành phần dịch mà không nằm cạnh nhƣng lại có liên kết tới Khi thành phần bị dịch riêng rẽ đƣa kết không xác Chính điều gợi ý thúc automatically balancing a pole thăng_bằng entropica tự_động using a cart sử_dụng xe golf This behavior is remarkable in hành_vi điều đáng part because we never gave chú_ý phần bởi_vì chúng_ta Entropica a goal không_bao_giờ đƣa entropica mục_tiêu It simply decided on its own to đơn_giản tự quyết_định để balance the pole cân_bằng cực This tool use ability will have công_cụ applications khả_năng có ứng_dụng cho smart sử_dụng manufacturing and agriculture sản_xuất thông_minh This cooperative ability has khả_năng hợp_tác có interesting for ý_nghĩa thú_vị cho kế_hoạch a kinh_tế nhiều economic for implications planning and variety of other fields lĩnh_vực khác For example , here we see it ví_dụ , chúng_ta thấy successfully playing a game of thành_công chơi trò pong pong against itself , illustrating chống its potential for gaming bản_thân , minh_hoạ cho chơi tiềm_năng game Here we see Entropica chúng_ta thấy entropica orchestrating new connections orchestrating on a social network where mạng xã_hội nơi friends are constantly falling bạn_bè liên_tục rơi khỏi 41 liên_kết thành_công out of touch and successfully chạm keeping mạng_lƣới kết_nối the network well giữ connected 10 This same network orchestration khả_năng tƣơng_tự orchestration ability also has mạng_lƣới applications in health care , có_thể đƣợc ứng_dụng energy , and intelligence chăm_sóc năng_lƣợng sức_khoẻ , , trí thông_minh Kết luận chƣơng Trong chƣơng này, chung mô tả rõ ràng việc áp dụng mô hình học máy dựa cụm từ không liên tục cho toán dịch máy Chúng mô tả việc chuẩn bị liệu nhƣ thử nghiệm thực nghiệm nhƣ đánh giá kết sử dụng đồng thời công cụ Moses công cụ Phrasal Cuối chƣơng, đƣa hƣớng nghiên cứu đề tài 42 KẾT LUẬN Trong đề tài nghiên cứu đề cập tiến hành thực nghiệm mô hình dịch dựa cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt với việc sử dụng công cụ Phrasal Thử nghiệm đƣợc mở rộng tập liệu đơn ngữ để xây dựng mô hình ngôn ngữ nhƣ tập liệu song ngữ phục vụ cho công tác huấn luyện Luận văn đạt đƣợc kết nhƣ sau: - Đã tiến hành cài đặt tiến hành thử nghiệm nhƣ đƣa so sánh sử dụng đồng thời công cụ Moses Phrasal - Sau thực nghiệm, kết thử nghiệm cho thấy Phrasal đƣa đƣợc kết tốt Thể mặt thống kê điểm BLEU Do thời gian có hạn, nên luận văn dừng lại mức độ nghiên cứu đƣợc độ tin cậy phƣơng hƣớng nghiên cứu Với kết đạt đƣợc luận văn này, nỗ lực việc cải thiện đƣợc chất lƣợng dịch phƣơng pháp nhƣ: tăng kích thƣớc chất lƣợng liệu huấn luyện, xây dựng mô hình ngôn ngữ tốt hơn, nghiên cứu thay đổi vài tham số công cụ Phrasal để trình huấn luyện mô hình đƣợc tốt mong muốn xây dựng đƣợc ứng dụng hoàn chỉnh sử dụng cho dịch máy 43 PHỤ LỤC Cấu hình Berkeley Aligner # aligner.conf # # Generic conf file for Berkeley aligner v2.1 # ########################################## # Training: Defines the training regimen # ########################################## forwardModels MODEL1 HMM reverseModels MODEL1 HMM mode JOINT JOINT iters 22 ############################################### # Execution: Controls output and program flow # ############################################### execDir /root/run01/models create overwriteExecDir 44 saveParams true numThreads msPerLine 10000 alignTraining #leaveTrainingOnDisk safeConcurrency true ################# # Language/Data # ################# foreignSuffix vi.tok englishSuffix en.tok #lowercase # Choose the training sources, which can either be directories or files that list files/directories # Note that training on the test set does not peek at the correct answers (no cheating) trainSources /root/run01/data/training sentences MAX # The test sources must have hand alignments for all sentence pairs testSources 45 maxTestSentences MAX offsetTestSentences ############## # Evaluation # ############## competitiveThresholding Trong đó: - execDir: Đƣờng dẫn xuất - foreignSuffix: Hậu tố ngôn ngữ nguồn - englishSuffix: Hậu tố ngôn ngữ đích - #lowercase: Bỏ comment có xử lý lowercase Cấu hình Crawl liệu urls = http://vnexpress.net/, http://eva.vn, http://24h.com.vn, http://dantri.com same.domain = true; output.type = file output.folder = /output2/ output.file = /output.txt max.item.check = 10000 id.containers = wrapper_container,body class.containers = container,content,pContent,main 46 Trong đó: - urls: Url website để lấy liệu - same.domain: Chỉ lấy liệu từ domain định, không trỏ sang domain khác - output.type: giá trị file | folder - output.folder: output folder - output.file: output file - max.item.check: số lƣợng item kiểm tra không trùng lặp trƣớc - id.containers: lấy liệu ID - class.containers: lấy liệu class Cấu hình Phrasal File vars # # Online parameter tuning with with phrasal-train-tune.sh # # General parameters # HOST=`hostname -s` MEM=6g JAVA_OPTS="-server -ea -Xmx${MEM} -Xms${MEM} -XX:+UseParallelGC XX:+UseParallelOldGC" DECODER_OPTS="-Djava.library.path=/root/phrasal/src-cc" 47 # Set if you want to receive an email when a run completes # Assumes that the 'mail' unix program is installed and # configured on your system EMAIL_ADDRESS=trunglt1311@gmail.com # Resource locations # REFDIR=/root/run01/data CORPUSDIR=/root/run01/data CORPUS_SRC=${CORPUSDIR}/train.tags.vi-en.vi.tok.filt.gz CORPUS_TGT=${CORPUSDIR}/train.tags.vi-en.en.tok.filt.gz CORPUS_EF=${CORPUSDIR}/training.en-vi.A3 CORPUS_FE=${CORPUSDIR}/training.vi-en.A3 # Directory for reporting system #REPORTING_DIR= #RESULTS_FILE=$REPORTING_DIR/results.html # # Phrase extraction parameters # 48 # Mandatory extraction set format See Usage of mt.train.PhraseExtract # for the several different extraction set formats EXTRACT_SET="-fCorpus $CORPUS_SRC -eCorpus $CORPUS_TGT -feAlign $CORPUS_FE -efAlign $CORPUS_EF -symmetrization grow-diag" THREADS_EXTRACT=2 MAX_PHRASE_LEN=5 OTHER_EXTRACT_OPTS="-phiFilter 1e-4 -maxELen $MAX_PHRASE_LEN" # Feature extractors EXTRACTORS=edu.stanford.nlp.mt.train.MosesPharoahFeatureExtractor=phrasetable.gz:edu.stanford.nlp.mt.train.CountFeatureExtractor=phrasetable.gz:edu.stanford.nlp.mt.train.LexicalReorderingFeatureExtractor=lo-hier.msd2bidirectional-fe.gz EXTRACTOR_OPTS="" # Lexicalized re-ordering models LO_ARGS="-hierarchicalOrientationModel true -orientationModelType bidirectional-fe" # Online tuning parameters TUNE_MODE=online TUNE_SET_NAME=IWSLT15.TED.dev2010.vi-en TUNE_SET=${CORPUSDIR}/"$TUNE_SET_NAME".vi.tok 49 msd2- TUNE_REF=${REFDIR}/"$TUNE_SET_NAME"/ref0 INITIAL_WTS=vi-en.initial.binwts TUNE_NBEST=100 #Options to pass directly to OnlineTuner METRIC=smoothbleu ONLINE_OPTS="-e -ef 20 -b 20 -uw -m $METRIC -o pro-sgd 1,5000,50,0.5,Infinity,0.02,adagradl1f,0.1" # Decoding parameters for dev/test set DECODE_SET_NAME=IWSLT15.TED.tst2015.vi-en DECODE_SET=${CORPUSDIR}/"$DECODE_SET_NAME".vi.tok NBEST=1 Trong đó: - REFDIR: Đƣờng dẫn liệu tham chiếu - CORPUSDIR: Đƣờng dẫn liệu đầu vào - CORPUS_SRC: Đƣờng dẫn file nguồn liệu training - CORPUS_TGT: Đƣờng dẫn file đích liệu training - CORPUS_EF: Đƣờng dẫn file A3 chiều nghịch (dóng câu) - CORPUS_FE: Đƣờng dẫn file A3 chiều thuận (dóng câu) File ini # Example Phrasal ini file # These options are described by the usage statement # that is shown on the command line (use the "-help" option) 50 -of # # phrasal.sh will modify this template depending on the steps # selected to run # # phrasal.sh replaces the token SETID with the # dev or test set name [ttable-file] SETID.tables/phrase-table.gz # The 'kenlm:' enables the KenLM loader Remove the # prefix for the standard Java ARPA loader [lmodel-file] kenlm:/root/run01/data/4gm.bin [ttable-limit] 20 [distortion-limit] # The dense Moses feature set is loaded by default # Also load the hierarchical re-ordering model of Galley and Manning (2008) 51 [reordering-model] hierarchical SETID.tables/lo-hier.msd2-bidirectional-fe.gz msd2-bidirectional-fe hierarchical hierarchical bin # Number of decoding threads [threads] Trong đó: - kenlm: Đƣờng dẫn đến file kết xuất mô hình ngôn ngữ Một vài dịch từ Phrasal 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sĩ, Học viện công nghệ bƣu viễn thông [2] Nguyễn Văn Vinh (2005) “Xây dựng chƣơng trình dịch tự động Anh Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tiếng Anh [3] Michel Galley, Christopher D Manning, “Accurate Non-Hierarchical Phrase-Based Translation”, Computer Science Department, Stanford University [4] Percy Liang, Ben Taskar, Dan Klein, “Alignment By Agreement”, NAACL, 2006 [5] John DeNero, Dan Klein, “Tailoring Word Alignments to Syntactic Machine Translation”, ACL, 2007 [6] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2008 [7] Kenneth Heafield, Faster and Smaller Language Model Querie, WMT EMNLP, Edinburgh, Scotland, Vƣơng quốc Anh, 2011 [8] Cer, D., Galley, M., Jurafsky, D., and Manning, C D, “Phrasal: A Statistical Machine Translation Toolkit for Exploring New Model Features”, In 53 Proceedings of the NAACL HLT 2010 Demonstration Session, pages 9–12, Los Angeles, CA, USA, 2010 [9] Phrasal: A Toolkit for New Directions in Statistical Machine Translation 2014 Spence Green, Daniel Cer, and Christopher D Manning In WMT [10] Spence Green, Daniel Cer, and Christopher D Manning, “Phrasal: A Toolkit for New Directions in Statistical Machine Translation”, Computer Science Department, Stanford University [11] D Chiang (2005), “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [12] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), “Reevaluating the Role of Bleuin Machine Translation Research” [13] Koehn, P (2004), “Pharaoh: a beam search decoder for phrasebased”, 2004 [14] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), “Moses: Open Source Toolkit for Statistical Machine Translation”, ACL 2007, Demonstration Session, Prague, Czech Republic [15] Koehn, P., et al (2006), “Moses: Open Source Toolkit for Statistical Machine Translation” [16] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL 54 [17] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S (1990), “A statistical approach to machine translation.”, Computational Linguistics Website [12] http://www.statmt.org/ [13] http://nlp.stanford.edu/ [14] http://viet.jnlp.org/ [15] http://www.systransoft.com 55 [...]... máy, phân loại các mô hình dịch máy hiện nay Cùng với đó, chúng tôi đã trình bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục Chƣơng 3: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh- Việt Nội dung chính của chƣơng này là mô tả việc áp dụng mô hình học máy dựa trên cụm từ không liên tục cho bài toán dịch máy Chƣơng tày cũng sẽ mô tả về công cụ Phrasal... trình bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục 32 CHƢƠNG 3: ÁP DỤNG MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH- VIỆT Nội dung chính của chương này là mô tả việc áp dụng mô hình học máy dựa trên cụm từ không liên tục cho bài toán dịch máy Chương tày cũng sẽ mô tả về công cụ Phrasal cùng các thực nghiệm sử dụng công cụ này, đưa ra các kết... máy dựa trên cụm từ không liên tục 1 Mô hình dịch máy Mô hình dịch có 3 hƣớng tiếp cận chính: - Mô hình dịch dựa trên từ (word-based) - Mô hình dịch dựa trên cụm từ (phrase-based) - Mô hình dịch dựa trên cú pháp (syntax-based) Cả 3 hƣớng tiếp cận trên đều dựa trên một tƣ tƣởng Đó là sự tƣơng ứng giữa hai câu (alignment) a) Dịch máy thống kê dựa vào từ Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô. .. với cú pháp của câu ngôn ngữ đích Sau đó, một số từ mới có thể đƣợc chèn vào cây hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ đích Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn sẽ đƣợc dịch sang ngôn ngữ đích và ta thu đƣợc câu ngôn ngữ đích từ cây cú pháp trên 2 Cụm từ không liên tục Mô hình dịch máy dựa trên cụm từ thay vì sử dụng các đơn vị nguyên tử trong bảng dịch từ từ (word)... pháp Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tƣơng ứng và ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ pháp, hình thái của cả hai câu Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu Với mô hình dịch này, một câu ngôn ngữ nguồn e sẽ đƣợc phân tích thành cây cú pháp Cây cú pháp... pháp thống kê thông thƣờng sẽ bao gồm 3 thành phần: - Mô hình ngôn ngữ: Tính toán đƣợc xác suất của câu ngôn ngữ nguồn - Mô hình dịch: Cho biết xác suất của câu ngôn ngữ nguồn là bản dịch từ câu ngôn ngữ đích - Bộ giải mã: Tìm kiếm tất cả các câu ngôn ngữ đích e có thể có từ câu ngôn ngữ nguồn f Mô hình dịch từ tiếng Anh sang tiếng Việt có thể hình dung thông qua biểu đồ dƣới đây: Hình 0.2: Mô hình dịch. .. là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến nhƣ AnhPháp, Anh- Trung, Anh- Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu Các hệ dịch máy này đã đạt đƣợc kết quả khá tốt với những cặp ngôn ngữ tƣơng đồng nhau về cú pháp nhƣ các cặp ngôn ngữ AnhPháp, Anh- Tây Ban Nha, … và còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có... nhiều các cụm từ có liên quan đến nhau, riêng rẽ chúng thì lại khá ngắn Các hệ dịch thông thƣờng sẽ chia tách chúng và tìm các bản dịch riêng rẽ thay vì cùng nhau 27 3 Mô hình dịch máy dựa trên cụm từ không liên tục Một giải pháp đƣợc đƣa ra nhằm giải quyết cho vấn đề trên đó là thay vì chỉ sử dụng các cụm từ liên tục, thay vào đó là các cụm từ không liên tục, đơn vị dịch lúc này vẫn sẽ là các cụm từ nhƣng... máy thống kê từ tiếng Anh sang tiếng Việt Mô hình dịch của mô hình ngôn ngữ sẽ đƣợc trình bày ở chƣơng sau của luận văn Ở phần này, luận văn chỉ đề cập đến hai thành phần còn lại của mô hình dịch máy thống kê 14 b) Mô hình ngôn ngữ Mô hình ngôn ngữ là một phân bố xác suất trên các tập văn bản Nói đơn giản, mô hình ngôn ngữ có thể cho biết xác suất một câu (hoặc cụm từ) thuộc một ngôn ngữ là bao nhiêu... xử lý các cụm từ con liên tục của mỗi cụm từ không liên tục nhƣ thể chúng là các cụm từ liên tục của chính mình Cụ thể, chúng ta hãy S = (s1, , SL) là danh sách của L (tối đa) subphrases liên tục của các cụm từ nguồn K (L ≥ K) đƣợc lựa chọn cho một giả thuyết đƣợc đƣa ra dịch Các cụm từ liên tục con trong S đƣợc liệt kê theo thứ tự của chúng trong ngôn ngữ đích, mà có thể khác nhau từ ngôn ngữ nguồn