Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng.
Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113 MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGƠN NGỮ VÀO HỆ DỊCH MÁY THỐNG KÊ Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3 Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội Trường Đại học Công nghệ thông tin Truyền thông – ĐH Thái Nguyên Trường Đại học Dân lập Hải Phịng TĨM TẮT Mơ hình dịch thống kê dựa vào cụm (MHTKC) [6] mơ hình dịch tự động tốt Tuy nhiên hạn chế mô hình MHTKC xem xét cụm dãy liên tiếp từ hồn tồn bỏ qua thông tin ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…) Để giải vấn đề này, báo này, tập trung vào nghiên cứu cải tiến mơ hình đảo trật tự từ vựng Chúng tơi mở rộng mơ hình đảo trật tự cụm có phân cấp [2] sử dụng mơ hình Maximum Entropy (ME) để đoán hướng ước lượng xác suất Với mơ hình này, tích hợp thông tin giàu tri thức ngôn ngữ vào thuộc tính địa phương tồn cục Hơn nữa, xác suất ước lượng mơ hình ME xác mịn so với ước lượng dựa vào cách tiếp cần tần suất tương đối Kết thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận tốt so với cách tiếp cận sử dụng mơ hình từ vựng phân cấp [2] Từ khóa: Mơ hình dịch thống kê, trí thức ngơn ngữ ĐẶT VẤN ĐỀ* Những năm gần đây, bùng nổ cách tiếp cận dịch máy thống kê dựa vào cụm tạo sản phẩm thương mại sử dụng rộng rãi giới (hệ dịch google, microsoft, …) [14][15] Một vấn đề quan trọng dịch máy thống kê dựa vào cụm liên quan đến việc làm để sinh thứ tự từ (cụm) xác ngơn ngữ đích Hình Hướng cụm (M, S, D) cho ví dụ dịch Anh-Việt Để giải vấn đề trên, gần đây, [4][5], mô hình đảo trật tự từ vựng (LRMs) phát triển để dự đoán hướng cặp cụm dựa vào cụm đích liền kề Những mơ hình phân biệt ba hướng cặp cụm theo * Tel: 0925009989 cụm đích phía trước: (1) monotone (M) – cụm nguồn phía trước liền kề trước cụm nguồn tại, (2) swap (S) – cụm nguồn phía trước liền kề sau cụm nguồn (3) discontinuous (D) – khơng phải S M Hình (1) biểu diễn ví dụ mà mơ hình hiệu việc swap cụm tính từ “nice new” cụm “house” cụm “a” monotone với cụm “This is” Những mơ hình đảo trật tự từ vựng cho chất lượng tốt so với MHTKC Tuy nhiên mơ hình giải đảo trật tự từ cụm cạnh nhau, chúng thường thất bại cụm từ mà vị trị đảo nằm xa Ví dụ hình (2), hướng cụm “Tom’s” nên swap với phần lại cụm danh từ, nhiên LRM đoán hướng discontinuous (D) Galley and Manning [2] mở rộng mơ hình LRMs cách đề xuất mơ hình đảo cụm phân cấp (HRM) Mơ hình dựa vào cấu trúc phân cấp giải trường hợp đảo vị trí cụm xa Ví dụ hình 1(2) mơ hình họ giải cụm liền kề “two” “blue books” cụm thay “Tom’s” theo cụm giải swap(S) Tuy nhiên, mơ hình họ có vài nhược điểm sau: 107 Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ • Mơ hình ước lượng xác suất dựa vào cách tiếp cận quan hệ tần suất, mà chụi ảnh hưởng vấn đề liệu thưa Một lý hầu hết ví dụ cụm xuất lần liệu huấn luyện (96.5% ví dụ cụm xuất lần kho liệu “General”) • Mơ hình không sử dụng thông tin ngôn ngữ Điều làm thiếu thông tin ngữ cảnh việc dự đoán hướng ước lượng xác suất cặp cụm Chúng tập trung vào nghiên cứu cải tiến mơ hình đảo trật tự từ vựng Chúng tơi mở rộng mơ hình đảo trật tự cụm có phân cấp [2] sử dụng mơ hình Maximum Entropy (ME) để đốn hướng ước lượng xác suất Với mơ hình này, tích hợp thơng tin giàu trí thức ngơn ngữ vào thuộc tính địa phương toàn cục Hơn nữa, xác suất ước lượng mơ hình ME xác mịn so với ước lượng dựa vào cách tiếp cần tần suất tương đối Kết thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận tốt so với cách tiếp cận sử dụng mơ hình từ vựng phân cấp [2] MỘT SỐ NGHIÊN CỨU LIÊN QUAN Quá trình giải mã MHTKC xây dựng câu đích từ trái qua phải Từ giả thuyết tại, điều quan trọng phải xác định cụm nguồn cần dịch Một vài nhà nghiên cứu [11], [4] đề xuất mơ hình mạnh gọi mơ hình đảo trật tự từ vựng cho việc dự đoán hướng cụm nguồn mô tả phần LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất cặp cụm song ngữ từ liệu huấn luyện [12][13] ứng dụng mơ hình Maximum Entropy cho đảo trật tự cụm Họ sử dụng ME ước lượng xác suất đảo cụm Tuy nhiên họ sử dụng đặc trưng đơn giản áp dụng vào mơ hình khác dịch máy Galley and Manning [2] mở rộng mơ hình LRMs cách đề xuất mơ hình đảo cụm phân cấp (HRM) Mơ hình dựa vào cấu trúc phân cấp giải 108 113(13): 107 - 113 trường hợp đảo vị trí cụm xa Tuy nhiên mơ hình họ số nhược điểm nêu phần MƠ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG Để cải tiến mơ hình đảo cụm dựa vào khoảng cách, [4] [11] đề xuất mơ hình đảo trật tự từ vựng Mơ hình dựa vào quan hệ vị trí với cụm liền kề cụm đích từ tính xác suất cặp cụm tương ứng Cho câu nguồn f, mà dịch thành câu ngơn ngữ đích e Hệ thống dịch thống kê dựa vào cụm tốt mơ hình tuyến tính logarit xác suất điều kiện Pr(f|e): e x p ∑ i λ i hi ( e , f ) (1) P r( f | e ) = ∑ e ' e x p λ i hi ( e ', f ) Ở hi (e, f ) hàm đặc trưng cặp câu (e,f) Tham số λ trọng số hàm đặc trưng hi (e, f ) Quá trình tìm kiếm giải mã tìm câu dịch tốt ê thỏa mãn công thức sau: (2) ê = exp λ h (e, f ) arg max e ∑ i i i Các đặc trưng bao gồm mơ hình đảo trật tự từ vựng đươc tham số hóa sau: cho trước câu nguồn f, dãy cụm ngơn ngữ đích e = (e1 , ., en ) giả thuyết q trình giải mã gióng hàng cụm a = (a1 , , an ) xác định cho cụm nguồn f tương ứng với cụm dịch cụm đích ei Những mơ hình ước lượng xác suất dãy hướng (o = o1, …, on ) sau: P r( o | e , f ) = n ∏ i =1 p ( oi | e i , f ) oi nhận giá trị hướng ∆ = M , S , D Trong tuyển tập cặp cụm, phân loại chúng thành hướng sau: • oi = M – -1 = • oi = S – -1 = -1 • oi = D (ai – -1 ≠ – -1 ≠ -1) Trong bước trình giải mã, dựa vào cách tiếp cận Moses mà Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ gán cho ba tham số phân biệt (λm, λs, λd ) với ba hàm đặc trưng tương ứng: fm = ∑ i =1 log p ( oi = M |e i , f ) n f s = ∑ i =1 log p ( oi = S |e i , f ) n f d = ∑ i =1 log p ( oi = D |e i , f ) n Để tích hợp p (oi | e i , f ) vào cơng thức (1) q trình giải mã, cần tính giá trị xác suất Cách đơn giản để tính ta dựa vào tần xuất xuất sau: p (oi | e i , f )= C o u n t (oi , e i , f ) ∑ C o u n t ( o , e i , f ) Count(x) số lần xuất x liệu huấn luyện Chúng tơi tính p (oi | e i , f ) dựa vào gióng hàng cụm trước ai-1 Chúng ta giả sử có m gióng hàng cụm trước Ta có: ∑ Count ( o , e i , f , a ) ∑ ∑ Count ( o , e , f , a ) m p ( oi | e i , f ) = k =1 i k i −1 m k =1 i k i −1 Tuy nhiên, cách tính gặp số vấn đề liệu thưa cách hợp lý ta sử dụng mơ hình Maximum Entropy để tích hợp đặc trưng tính xác suất sau: p ( oi | e i , f )= exp( ∑ j θ j h j ( oi , e i , f ∑ exp( ∑ j θ j h j ( oi , e i , f )) )) TÍCH HỢP MƠ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA VÀO CỤM SỬ DỤNG MƠ HÌNH MAXIMUM ENTROPY 113(13): 107 - 113 Mơ hình Trong phần chúng tập trung sử dụng thông tin ngữ cảnh để giúp HRM tính xác suất dự đốn hướng cụm Chúng tơi xem hướng cụm tốn phân lớp: Hướng cụm (M, S, D) nhãn Vì trình giải mã, cách hiệu để giải toán phân lớp cách tiếp cận dựa vào Maximum Entropy: p (oi | e i , f ) = exp( ∑ j θ j h j ( oi , e i , f )) ∑ exp(∑ j θ j h j ( oi , e i , f )) Định nghĩa đặc trưng 1) Từ cụm (HW) Ví dụ cụm “social sciences”, HW “sciences” 2) Một phần chức ngữ pháp (POS) từ (TG) Ví dụ cụm “social sciences”, TG NNS 3) Nhãn cú pháp cụm (SL) Ví dụ với cụm “social sciences”, SL NP 4) Đặc trưng nút mẹ (Parent Features) Nút mẹ ST phân tích câu nguồn Với câu nguồn có nút mẹ khác ví dụ huấn luyện Và đặc trưng cung cấp thơng tin để phân biệt câu nguồn Hình 2a biểu diễn nút mẹ ST (“social sciences”) nút VP hình thoi 5) Đặc trưng nút anh em (Sibling Features) Nút anh em nút gốc ST (“social sciences”) Đặc trưng xem xét nút anh em (nút VBD hình thoi) mà nút mẹ (VP) Được biểu diễn hình 2b Hình Minh họa số đặc trưng 109 Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ Trong q trình trích trọn đặc trưng, phải gán nhãn cho cặp cụm mà cho cụm nguồn phân tích Sự thực gán nhãn cụm sau: • Nếu (subtree) ST phủ xác cụm p xác định (HW, TG, SL, PF, SBF) từ • Nếu mà khơng phủ tồn cụm p (cụm p khơng thành phần ngữ pháp) ta chọn nhỏ SST mà chứa p Ta xác định (HW, TG, SL, PF, SBF) từ SST cho cụm p (nếu HW ∉ p, chọn từ cụm p làm HW) Chúng tơi tính p (oi | e i , f Để tính tốn xác suất này, mơ hình phải xác định khối liên tiếp M S mà kết hợp với thành khối phân cấp Chúng sử dụng thuật tốn mơ tả [2] để tính xác suất ) dựa vào gióng hàng cụm trước ai-1 Với (e i , f ) chung ta có m ví dụ cặp cụm (ei , f , aik−1 , ) (k = 1, , m) Mỗi ví dụ cặp cụm, trích trọn đặc trưng dựa vào ST f f ak i −1 Chúng sử dụng mẫu đặc trưng đặc trưng kết hợp đặc trưng Huấn luyện Đầu tiên cặp cụm, ta trích trọn ví dụ từ cặp cụm Thứ hai, tính tốn p(oi | e i , f ) sử dụng mơ hình Maximum Entropy Tất ví dụ cặp cụm mơ hình trích trọn theo thuật tốn trích cụm [10] với độ dài cụm Chúng tơi trích trọn đặc trưng mơ tả từ ví dụ cặp cụm Sau chúng tơi sử dụng cơng cụ mã nguồn mở Maximum Entropy để huấn luyện mơ hình Maximum Entropy cho mơ hình đảo trật tự Chúng tơi thiết lập số vòng lặp 100 tham số ưu tiên Gaussian Quá trình giải mã Trong trình giải mã, cần tìm theo ê công thức (2) Chúng phát triển công cụ giải mã cho dịch thống kê dựa vào cụm dưa vào cơng cụ giải mã Pharaoh [3] Để tích hợp mơ hình HRM vào q trình giải mã, chúng tơi tính điểm đảo trật tự cụm với mơ hình HRM (xác định p (oi | e i , f 110 113(13): 107 - 113 ) ) Hình Cụm phân cấp h1 h2 biểu diễn “may gio” and “khong” có hướng Swap (S) Trong h3 biểu diễn “?” có hướng Monotone (M) Chúng tơi sử dụng thể thuật tốn phân tích shift-reduce dựa vào ngăn xếp (Stk) chứa chuỗi xâu nguồn mà dịch Mỗi lần, trình giải mã thêm khối vào giả thuyết dịch thời, chuyển khối ngơn ngữ nguồn vào Stk, sau lặp lặp lại việc kết hợp hai phần tử đỉnh ngăn xếp Stk chúng liên tiếp Chúng ta không cần lưu trữ ngôn ngữ đích q trình giải mã thực từ trái qua phải khối thành công luôn liên ngơn ngữ đích Với ví dụ: Cho ngôn ngữ nguồn tiếng Anh “Do you know what time the film begins?” câu dịch tương ứng tiếng Việt là: “Ban biet bo_phim bat_dau may gio khong ?” Chúng minh họa bước trình dịch Hình mơ tả bước thực thi thuật toán mà kết dịch thể hình mà thực q trình giải mã MHTKC tích hợp mơ hình đảo trật tự cụm phân cấp Cột biểu diễn cụm đích mà q trình giải mã thực từ trái qua phải Cột thứ bao gồm toán tử chuyển- shift (S), kết hợp- reduce (R) chấp nhận (A) ngăn xếp Stk Cột ngăn xếp (Stk) cột cụm nguồn bao gồm cận (span) cụm nguồn (vị trí từ cụm nguồn câu nguồn) mà Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ thơng tin cần thiết để xác định hai khối có liên tiếp hay không Cột oi biểu diễn nhãn dự đốn mơ hình phân cấp cách so sánh khối với khối phân cấp đỉnh Stk Cụm nguồn Ban Biet bo_phim Source spans [2-2] [3-3] [6-7] Thực S R S Oi bat_dau [8-8] R M may_gio [4-5] R S khong ? [1-1] [9] R,R R,A S M M M D Ngăn xếp (Stk) [2-2] [2-3] [6-7], [2-3] [6-8], [2-3] [2-8] [1-8] Hình Thuật tốn phân tích shift - reducefor xác định khối phân cấp với ví dụ hình Q trình giải mã thành cơng đặt vào Stk cận cụm nguồn [2-2], [3-3] mà kết hợp cụm thành [2-3] chúng tương ứng có hướng monotone (M) Tiếp theo khối [6-7] tương ứng hướng (D) nên ta đặt vào Stk Tiếp theo, trình giải mã kết hợp khối [8-8] với [6-7] thành [6-8] với hướng M sau kết hợp [4-5] với [6-8] thành [4-8] với hướng S Và cuối trình giải mã thực tới cụm “khong”, tương ứng với cận cụm nguồn [1-1] mà kết hợp thành công với [2-8] sinh ngăn xếp Stk bao gồm [1-8] Bảng Kho liệu tập liệu (đơn vị số câu) Sentence Training Dev Test Corpus pairs set set set General 55,341 54,642 200 499 KẾT QUẢ THỬ NGHIỆM Tập liệu Chúng thử nghiệm với cặp ngôn ngữ AnhViệt Chúng sử dụng kho liệu song ngữ Anh-Việt tập hợp từ báo hàng ngày [10] Kho liệu bao gồm 55,341 cặp câu song ngữ, chia tập: huấn luyện, tập phát triển tập thử nghiệm Tập liệu 113(13): 107 - 113 mô tả chi tiết bảng thông tin thống kê mô tả bảng Điểm BLEU Chúng thử nghiệm PC với vi xử lý Core 2- Duo 2.4 GZ, nhớ GB Kết thể bảng Chúng chạy GIZA++[7] kho liệu huấn luyện với hai hướng sử dụng tham số mặc định, ứng dụng luật “grow-diag-final” [6] để tạo gióng hàng từ tương ứng nhiều-nhiều cho cặp câu Anh-Việt Về mơ hình ngơn ngữ sử dụng công cụ mã nguồn mở SRILM [9] Về đánh giá chất lượng dịch, sử dụng độ đo BLEU [8] mà tính cơng cụ Nist phiên 11b Về phân tích câu tiếng Anh tập huấn luyện, sử dụng phân tích thống kê tốt [1] Sau chúng tơi trích trọn đặc trưng cặp ví dụ theo phương pháp chúng tơi mô tả Kết chất lượng dịch mô tả bảng Hệ thống baseline hệ thông dịch thống kê dựa vào cụm thông thường [3] Thêm vào đó, chúng tơi so sánh hệ thống với hai hệ thống: (1) hệ thông dịch dựa vào cụm tốt – Moses [5] mà có sử dụng mơ hình đảo trật tự từ vựng; (2) hệ thống HRM mà hệ thống sử dụng mơ hình đảo trật tự từ vựng phân cấp [2] Ở đánh giá hệ thống với loại đặc trưng bao gồm địa phương lẫn toàn cục Để đánh giá ảnh hưởng đặc trựng địa phương tồn cục, chúng tơi thử nghiệm với hệ thống sử dụng phương pháp bao gồm: “HW + TG + SL”, “HW + TG + SL + PF”, “HW + TG + SL + SBF”, HW + TG + SL + PF + SBF (tất đặc trưng)” Điểm BLEU hệ thống HRM bốn hệ thống MEM tương ứng 35.39, 36.14, 36.35, 36.51, 36.76 mà cải tiến 0.64, 1.39, 1.67, 1.58, 2.01 điểm so với hệ thống Moses Điểm BLEU hệ thống “HW + TG + SL” “HW + TG + SL + PF + SBF” cải tiến 0.75 1.37 điểm BLUE so với hệ thống HRM Bảng Thống kê thông tin kho liệu Anh – Việt 111 Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113 English Training Test Setences Average sentence length Words Vocabulary Sentences Average sentence length Words Vocabulary Bảng Kết dịch với cặp ngôn ngữ Anh – Việt sử dụng tập đặc trưng khác Corpus Method BLEU score General Baseline 34.07 Moses 34.75 HRM 35.39 HW+TG+SL 36.14 HW+TG+SL+PF 36.51 HW+TG+SL+SBF 36.42 HW+TG+SL+PF+SBF (all) 36.76 Vietnamese 54,642 11.2 614,578 23,804 10.6 580,754 24,097 499 11.2 5620 1844 10.5 6240 1851 96.5% Vì vậy, dẫn đến cách tính xác suất dựa vào tần suất với mơ hình HRM lỗi tượng thưa liệu KẾT LUẬN Trong báo này, tập trung vào nghiên cứu cải tiến mơ hình đảo trật tự từ vựng Chúng tơi mở rộng mơ hình đảo trật tự cụm có phân cấp [2] sử dụng mơ hình Maximum Entropy (ME) để đốn hướng ước lượng xác suất Với mơ hình này, tích hợp thơng tin giàu trí thức ngơn ngữ vào thuộc tính địa phương tồn cục Kết thử nghiệm với cặp ngơn ngữ Anh-Việt cho thấy cách tiếp cận tốt so với cách tiếp cận sử dụng mơ hình từ vựng phân cấp [2] Trong tương lai tiếp tục thử nghiệm với liệu lớn cặp ngôn ngữ khác Việt-Nhật, Việt-Trung Phương pháp hiệu (HW + TG + SL + PF + SBF – kết hợp tất đặc trưng) cải tiến đáng kể so với mô hình HRM với 1.37 điểm BLEU tốt Một nguyên nhân số ví dụ cặp cụm xuất lớn 10 lần 0.1 % số ví dụ cặp cụm xuất lần SUMMARY AN INTEGRATED APPROACH TO LANGUAGE OF INTELLECTUAL INTO THE STATISTICAL MACHINE TRANSLATION Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3 Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội Trường Đại học Công nghệ thông tin Truyền thông – ĐH Thái Nguyên Trường Đại học Dân lập Hải Phòng In this paper, we present a reordering model based on Maximum Entropy with local and non-local features This model is extended from a hierarchical reordering model with PBSMT [2], which integrates rich syntactic information directly in decoder as local and non-local features of Maximum Entropy model The advantages of this model are (1) maintaining the strength of phrase based approach with a hierarchical reordering model, (2) many kinds of rich linguistic information integrated in PBSMT as local and non-local features of MaxEntropy model The experiment results with English-Vietnamese pair showed that our approach achieves significant improvements over the system which uses a lexical hierarchical reordering model [2] Keywwords: Reordering model based, intellectual language * Tel: 0925009989 112 Nguyễn Văn Vinh Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ TÀI LIỆU THAM KHẢO [1] E Charniak, “A maximum-entropy-inspired parser,” in Proceedings of the ANLP-NAACL 2000, 2000, pp 132–139 [2] M Galley and C D Manning, “A simple and effective hierarchical phrase reordering model,” in Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp 848–856 [3] P Koehn, “Pharaoh: A beam search decoder for phrase-based statistical machine translation models,” in Proceedings of AMTA, 2004, pp 115–124 [4] P Koehn, A Axelrod, A B Mayne, C Callison-Burch, M Osborne, D Talbot, and M White, “Edinburgh system description for the 2005 nist mt evaluation,” in Proceedings of Machine Translation Evaluation Workshop 2005 [5] P Koehn, H Hoang, A Birch, C CallisonBurch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, and E Herbst, “Moses: Open source toolkit for statistical machine translation,” in Proceedings of ACL, Demonstration Session, 2007 [6] P Koehn, F J Och, and D Marcu, “Statistical phrase-based translation,” in Proceedings of HLT-NAACL 2003 Edmonton, Canada, 2003, pp 127–133 [7] F J Och and H Ney, “A systematic comparison of various statistical alignment 113(13): 107 - 113 models,” Computational Linguistics, vol 29, no 1, pp 19–51, 2003 [8] K Papineni, S Roukos, T Ward, and W J Z 2002, “Bleu: a method for automatic evaluation of machine translation,” in Proc of the 40th Annual Meeting of the Association for Computational Linguistics (ACL) Philadelphia, PA, July, 2002, pp 311–318 [9] A Stolcke, “Srilm - an extensible language modeling toolkit,” in Proceedings of International Conference on Spoken Language Processing, vol 29, 2002, pp 901–904 [10] P T Nguyen, A Shimazu, L.M Nguyen, and V V Nguyen, “A syntactic transformation model for statistical machine translation,” International Journal of Computer Processing of Oriental Languages (IJCPOL), vol 20, no 2, pp 1–20, 2007 [11] C Tillmann, “A unigram orientation model for statistical machine translation,” in Proceedings of HLT-NAACL 2004: Short Papers, pp 101–104 [12] D Xiong, Q Lui, and S Lin, “Maximum entropy based phrase reordering model for statistical machine translation,” in Proceedings of ACL’06, 2006, pp 521–528 [13] R Zens and H Hey, “Discriminative reordering models for statistical machine translation,” in Proceeding of the Workshop on Statistical Machine Translation, 2006, pp 55–63 [14] http://translate.google.com [15] http://www.microsofttranslator.com/ Ngày nhận bài: 12/9/2013; Ngày phản biện: 05/10/2013; Ngày duyệt đăng: 18/11/2013 Phản biện khoa học: TS Vũ Vinh Quang – Trường ĐH Công nghệ thông tin & TT – ĐHTN 113 ... Với mơ hình này, tích hợp thơng tin giàu trí thức ngơn ngữ vào thuộc tính địa phương toàn cục Kết thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận tốt so với cách tiếp cận sử dụng mơ... thường [3] Thêm vào đó, chúng tơi so sánh hệ thống với hai hệ thống: (1) hệ thông dịch dựa vào cụm tốt – Moses [5] mà có sử dụng mơ hình đảo trật tự từ vựng; (2) hệ thống HRM mà hệ thống sử dụng... sử dụng phân tích thống kê tốt [1] Sau chúng tơi trích trọn đặc trưng cặp ví dụ theo phương pháp mô tả Kết chất lượng dịch mô tả bảng Hệ thống baseline hệ thông dịch thống kê dựa vào cụm thơng