Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,34 MB
Nội dung
2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRẦN THU PHƯƠNG PHƯƠNG PHÁP GIÓNG HÀNG TỪ, CỤM TỪ TRONG DỊCH MÁY THỐNG KÊ Chuyên nghành: CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Trần Xuân Sang Nghệ An, 06/2017 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Vinh, ngày 30 tháng 05 năm 2017 Trần Thu Phương LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành tri ân sâu sắc Thầy Cô khoa CNTT, trường Đại Học Vinh truyền đạt cho em tri thức tâm huyết suốt thời gian năm em theo học Cao học Trường Và em đăc biệt xin gửi lời cảm ơn đến TS Trần Xuân Sang, người Thầy tận tình hướng dẫn, giúp đỡ em suốt trình thực luận văn tạo điều kiện để em hồn thành luận văn Trong q trình hồn thiện luận văn, em biết khó tránh khỏi sai sót, em mong nhân nhiều ý kiến đóng góp Thầy Cơ để em hồn thiện luận văn Một lần em xin cảm ơn tất người dành cho em hỗ trợ tốt Kính chúc Thầy Cơ dồi sức khỏe thành công nghiệp cao quý MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC HÌNH MỞ ĐẦU - Sự cần thiết vấn đề nghiên cứu -8 Mục tiêu nghiên cứu -9 2.1 Mục tiêu tổng quát 2.2 Mục tiêu cụ thể Đối tượng phạm vi nghiên cứu -9 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Nội dung nghiên cứu -9 Cấu trúc luận văn - 10 CHƯƠNG DỊCH MÁY 11 1.1 Giới thiệu dịch máy dịch máy thống kê 11 1.1.1 Dịch máy 11 1.1.2 Dịch máy thống kê 13 1.2 Nguyên lý thành phần Dịch máy thống kê 14 1.2.1 Nguyên lý 14 1.2.2 Các thành phần hệ dịch máy thống kê 16 1.3 Đánh giá chất lượng dịch - 17 1.3.1 Đánh giá trực tiếp người 17 1.3.2 Đánh giá tự động: Phương pháp BLEU 18 1.4 Đặc điểm phương pháp dịch thống kê 19 CHƯƠNG MƠ HÌNH GIĨNG HÀNG IBM 21 2.1 Giới thiệu 21 2.1.1 Bài tốn gióng hàng 21 2.1.2 Mơ hình gióng hàng IBM 22 2.2 Mơ hình ngơn ngữ - 22 2.2.1 Mơ hình N-gram 22 2.2.2 Công thức tính “xác suất thơ” 24 2.2.3 Khó khăn xây dựng mơ hình ngơn ngữ N-Gram 24 2.2.3.1 Phân bố không - 24 2.2.3.2 Kích thước nhớ mơ hình ngơn ngữ 24 2.2.4 Các phương pháp làm mịn 25 2.3 Mơ hình dịch 25 2.3.1 Mơ hình dịch dựa từ (word-based) 25 2.3.2 Mơ hình dịch dựa cụm từ (phrase-based) 29 2.3.3 Mơ hình dịch dựa cú pháp (systax-based) 34 2.4 Bộ giải mã 37 2.4.1 Một số kỹ thuật giải mã 38 2.4.1.1 Thuật toán Stack 38 2.4.1.2 Tìm kiếm đa stack (multi-stack) 39 2.4.2 Giải mã dùng thuật toán di truyền 39 2.4.2.1 Dữ liệu 39 2.4.2.2 Thuật toán giải mã di truyền 40 CHƯƠNG THUẬT TỐN GIĨNG HÀNG - 43 3.1 Mơ hình hóa tốn gióng hàng - 43 3.2 Thuật toán quy hoạch động 46 3.2.1 Nguyên tắc thuật toán 46 3.2.2 Áp dụng thuật tốn quy hoach động cho tốn gióng hàng 49 3.2.2.1 Bước khởi tạo - 51 3.2.2.2 Bước điền đầy ma trận - 52 3.2.2.3 Bước quay lui 53 3.2.2.4 Độ đo khoảng cách w 54 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ - 56 4.1 Chuẩn bị liệu 56 4.2 Cài đặt thuật tốn gióng hàng cho cặp ngơn ngữ Anh – Việt - 56 4.2.1 Khai báo biến 57 4.2.2 Thuật toán 57 4.3 Kết thu - 60 KẾT LUẬN - 63 TÀI LIỆU THAM KHẢO 64 DANH MỤC CÁC HÌNH Hình 1.1:Các cách tiếp cận cổ điển cho hệ dịch máy Hình 1.2:Sơ đồ nguyên lý hệ Dịch máy thống kê Hình 1.3:Các thành phần hệ Dịch máy thống kê Hình 2.1:Sự tương ứng 1-1 câu Tiếng Anh câu Tiếng Pháp Hình 2.2:Sự tương ứng câu Tiếng Anh Tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu Tiếng Anh Hình 2.3 Sự tương ứng – nhiều câu Tiếng Anh câu Tiếng Pháp Hình 2.4: Sự tương ứng nhiều–nhiều câu Tiếng Anh với câu Tiếng Pháp Hình 2.5: Gióng hàng cụm từ cụ thể Hình 2.6: Đối sánh – nhiều Hình 2.7: Mơ hình dịch dựa vào cú pháp(1) Hình 2.8: Mơ hình dịch dựa vào cú pháp(2) Hình 2.9: Mơ hình dịch dựa vào cú pháp(3) Hình 2.10: Sự tương quan thuật tốn di truyền giải mã di truyền Hình 3.1: Gióng hàng mức câu Hình 3.2: Gióng hàng cụm từ với cụm từ Hình 3.3: Ma trận ban đầu Hình 3.4: Khởi tạo ma trận Hình 3.5: Ma trận điền đầy Hình 3.6 Bước quay lui cực đại ma trận điểm Hình 4.1: Kết gióng hàng cặp trình tự thứ Hình 4.2: Kết gióng hàng cặp trình tự thứ Hình 4.3: Kết gióng hàng cặp trình tự thứ MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Hiện giới có 5000 ngơn ngữ khác nhau, gây khó khăn lớn cho việc giao tiếp người có ngơn ngữ địa khác khó khăn cho việc học tập, làm việc tiếp cận với tri thức viết ngôn ngữ khác với ngôn ngữ mẹ đẻ Cách khắc phục phổ biến học chung ngôn ngữ quốc tế Tiếng Anh Tuy nhiên, cách yêu cầu dành nhiều thời gian kiên trì thành cơng Vì vậy, việc có ứng dụng giúp người dịch tự động ngôn ngữ (tự nhiên) sang ngôn ngữ (tự nhiên) khác để phục vụ cho công việc, học tập, giao tiếp, mà không nhiều thời gian, công sức nhu cầu vô cần thiết Dựa phát triển máy tính CNTT mơ hình dịch tự động sử dụng máy tính ngày ứng dụng phát triển, gọi mơ hình dịch máy Trong đó, phương pháp dịch máy mà dịch tạo sở mơ hình thống kê có tham số bắt nguồn từ việc phân tích cặp câu song ngữ, gọi Dịch máy thống kê (Statistical Machine Translate) Trong dịch máy thống kê có: + Dịch máy thống kê theo từ (word-based) + Dịch máy thống kế theo cụm từ (phrase-based) + Dịch máy thống kê theo cú pháp Trong phương pháp trên, phải dựa vào mơ hình dịch, nghĩa tìm xác suất dịch từ hay cụm từ; cịn gọi gióng hàng từ, cụm từ dựa vào ngữ liệu song ngữ Đây vấn đề mang tính chất then chốt Dịch máy thống kê, tơi chọn “Phương pháp gióng hàng Từ, Cụm Từ áp dụng dịch máy thống kê” làm đề tài luận văn Thạc sĩ Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu phương pháp gióng hàng Từ, Cụm Từ Dịch máy thống kê 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu sau: Nghiên cứu mơ hình gióng hàng IBM cho ngữ liệu song ngữ (i) từ ngữ liệu thơ (ii) Nghiên cứu cài đặt thuật tốn gióng hàng Từ, Cụm Từ Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu (a) Nghiên cứu lý thuyết - Các tài liệu gióng hàng Từ, Cụm từ cơng bố ngồi nước - Các tài liệu gióng hàng Từ, Cụm Từ (b) Nghiên cứu thực nghiệm - Bộ ngữ liệu song ngữ - Thuật tốn gióng hàng Từ, Cụm Từ 3.2 Phạm vi nghiên cứu Phạm vi nghiên cứu luận văn nghiên cứu phương pháp gióng hàng Từ, Cụm từ theo mơ hình gióng hàng IBM Nội dung nghiên cứu - Nghiên cứu tổng quan dịch máy dịch máy thống kê 10 - Phân tích nguyên lý thành phần dịch máy thống kê, việc ứng dụng mơ hình dịch vào dịch máy thống kê - Đi sâu vào nghiên cứu mô hình gióng hàng IBM - Lập trình thuật tốn gióng hàng máy tính đánh giá hiệu thuật toán Cấu trúc luận văn Luận văn tổ chức sau: Chương 1: Trình bày hệ thống dịch máy, dịch máy thống kê Bao gồm lịch sử dịch máy; thành phần; nguyên lý dịch máy thống kê; phương pháp đánh giá dịch cuối đặc điểm chung dịch máy thống kê Chương 2: Trình bày mơ hình gióng hàng IBM Bao gồm mơ tả tốn gióng hàng; trình bày cụ thể thành phần mơ hình gióng hàng IBM, đặc biệt sâu vào phần mơ hình dịch cốt lõi tốn gióng hàng Chương 3: Giới thiệu thuật toán quy hoạch động áp dụng vào tốn gióng hàng Từ đó, đưa mơ hình thích hợp cho tốn gióng hàng dựa đặc trưng tốn Sau đưa độ đo thích hợp để tính tương độ tự hai văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm cách gióng hàng hợp lý Chương 4: Trình bày thực nghiệm, bao gồm bước xây dựng tập liệu phục vụ trình thử nghiệm hiệu suất, viết chương trình thuật tốn trình bày kết thu 11 CHƯƠNG DỊCH MÁY 1.1 Giới thiệu dịch máy dịch máy thống kê 1.1.1 Dịch máy “Dịch máy” nói chung thập niên 50, số cơng việc tìm thấy thời kỳ trước Thí nghiệm Georgetown-IBM năm 1954 liên quan hồn tồn đến trình dịch máy 60 câu tiếng Nga sang tiếng Anh Thí nghiệm thành cơng lớn mở kỷ nguyên với kinh phí ấn tượng cho nghiên cứu dịch máy Hoa Kỳ Những sáng chế cho "máy dịch tự động" cấp vào năm 1930 Một đề xuất, Georges Artsrouni đơn giản từ điển song ngữ tự động sử dụng bìa đục lỗ Một đề xuất khác, Peter Troyanskii, bao gồm từ điển song ngữ kết hợp với phương pháp xử lý vai trị ngữ pháp ngơn ngữ, dựa tiếng Esperanto Hình 1.1: Các cách tiếp cận cổ điển cho hệ dịch máy 50 Gióng hàng địa phương: tìm chuỗi có khả có trình tự tương tự chí giống hệt trình tự gốc Giải thuật tìm kiếm cực trị địa phương cho kết chuỗi có độ tương tự cao Hai phương pháp gióng hàng xác định với thuật toán khác nhau, sử dụng ma trận điểm để gióng hàng hai chuỗi ký tự khác hai thành phần mẫu (pattern) Trong phạm vi luận văn, xét phương pháp gióng hàng dùng thuật tốn Smith – Waterman Xét hai trình tự: PHTHBBTTPBT (trình tự # 1) HBPTTBP (trình tự # 2) Chiều dài (trong ví dụ số lượng ký tự) trình tự A = 11 trình tự B = Ma trận ban đầu tạo với A + cột B + dòng Thêm hàng cột để phù hợp với khoảng cách, thời điểm bắt đầu ma trận Hình 16 Hình 3.3: Ma trận ban đầu 51 Sau tạo ma trận ban đầu, q trình tính điểm xác định cụ thể với tốn cụ thể Điểm ban đầu cho đơn giản sau: hai thành phần vị trí thứ i thứ j giống nhau, điểm phù hợp ( S (i, j) = 5) hai thành phần i thứ j không giống nhau, điểm không phù hợp giả thiết -3 (S (i, j) = −3) Điểm số khoảng cách (w) phạt khoảng cách giả thiết -4 Điểm khoảng cách xem điểm phạt tốn gióng hàng, chúng có tượng chèn vào xóa Tính tốn ma trận quy hoạch động theo ba bước: – Khởi tạo ma trận với số điểm ban đầu – Điền ma trận – Quay lui tìm chuỗi gióng hàng thích hợp 3.2.2.1 Bước khởi tạo Hai trình tự xếp theo dạng ma trận với i + cột j + hàng Các giá trị hàng cột thiết lập Hình 17 Hình 3.4: Khởi tạo ma trận 52 Ký hiệu sử dụng: – i, j hàng cột ma trận – M ma trận giá trị – S số điểm ô (i,j) ma trận – w điểm phạt cho khoảng cách sinh 3.2.2.2 Bước điền đầy ma trận Bước thứ hai bước quan trọng thuật tốn, bước điền đầy tồn ma trận, điều quan trọng phải biết giá trị hàng xóm (đường chéo, phía bên trái) để tính giá trị cần điền: … Mi,j = Max (Mi-1,j-1 + Si,j, Mi,j-1 + w, Mi-1,j + w, 0) Theo giả thiết nêu, lấp đầy toàn ma trận cách sử dụng cơng thức tính điểm giá trị khởi tạo ban đầu Điền vào dòng cột với ma trận điểm sau Cặp thành phần hai trình tự “P” “H”, số điểm ứng với trường hợp phù hợp số điểm ứng với trường hợp không hợp thêm vào giá trị láng giềng đường chéo Các giá trị phía bên trái bổ sung thêm số điểm phạt từ khoảng cách Vì vậy, phương trình tính giá trị cho ô (1,1) thể sau: M1,1 = Max (M0,0 + S1,1, M1,0 + w, M0,1 + w, 0) = Max (0 + (-3), + (-4), + (-4), 0) = Max (-3, -4, -4, 0) =0 53 Từ phép tính ta thu giá trị lớn Tìm giá trị lớn Mi,j kết hợp với giá trị 0, nhận thấy khơng có khả để ma trận nhận giá trị âm Với ví dụ bên ma trận sau điền đầy Mỗi ô trỏ ngược lại nhiều trỏ tới nơi số điểm cực đại thu Hình 3.5: Ma trận điền đầy 3.2.2.3 Bước quay lui Bước cuối thuật tốn gióng hàng lần ngược tìm thành phần đánh dấu Đầu tiên phải tìm số điểm cực đại đạt toàn ma trận Giá trị cực đại có mặt nhiều ơ, tức có hai nhiều xếp tốt Trong ví dụ này, thấy giá trị cực đại ma trận 18, tương ứng có hai vị trí ma trận điểm 54 Quá trình quay lui vị trí có giá trị cao nhất, dựa vào trỏ để tìm ô đến nó, sau di chuyển với tiếp tục đạt giá trị Hình 3.6 Bước quay lui cực đại ma trận điểm 3.2.2.4 Độ đo khoảng cách w Để gán trọng số cho cung mô tả trên, cần phải tính tốn giống hai từ/ cụm từ Dựa vào nhận xét rằng, phần tương ứng văn đặt khoảng cách tương đối giống tính từ đầu văn Nên khoảng cách ban đầu hai phần văn bản, ngôn ngữ A ngôn ngữ B định nghĩa sau: Distance (TA, TB) = |Start (TA ) – Start (TB)| + |End(TA) – End (TB)| Với Start (Tx) vị trí tương đối từ văn Tx đo tỷ lệ phần trăm tổng số từ văn ngôn ngữ tương ứng, tương tự cho End (Tx) Chúng ta sử dụng vị trí đoạn văn thay từ; tức tỷ lệ phần trăm tổng số đoạn văn bản; biện pháp dựa 55 số từ công bố tốt so với việc dựa số lượng đoạn, phù hợp với quan sát 56 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Chuẩn bị liệu Chương trình demo mơ gióng hàng trình tự mức đơn giản Đầu vào thử nghiêm với cặp trình tự khác đưa gióng hàng cho cặp Trên thực tế, liệu ngữ liệu song ngữ mức thô Để có liệu chuẩn trước chạy thuật tốn cần phải trải qua bước tiền xử lý như: chuyển đổi từ định dạng PDF thành dạng văn Để làm công việc này, luận văn sử dụng cơng cụ miễn phí PDF to Text Sau chuyển đổi thành dạng chữ, liệu đầu vào tiếp tục chỉnh sửa định dạng ngắt dịng chuẩn Sau tiến hành áp dụng thuật tốn gióng hàng để huấn lun ngữ liệu song ngữ thô ban đầu trở thành ngữ liệu gióng hàng (hay huấn luyện) cặp trình tự dùng cho sản phẩm demo sau: Cặp trình tự thứ 1: #1: ANHNOOHHAOH #2: NOAHHOA Cặp trình tự thứ 2: #1:ATCGAGGCTAATCACACT ` #2: ATCGACTATAATACACT Cặp trình tự thứ 3: #1: ATATGCTAAG #2: ACTACTTAGG 4.2 Cài đặt thuật tốn gióng hàng cho cặp ngơn ngữ Anh – Việt 57 Thuật tốn quy hoạch động áp dụng cho demo đưa gióng hàng cặp trình tự cho trước viết sau: 4.2.1 Khai báo biến Char[] s1, s2: biên chuỗi kí tự để chứa trình tự nhập vào Int[][] A; ma trận điểm (tính toàn dùng quy hoạch động) Int m,n: độ dài trình tự Int s: số đo độ tương tự Int w: điểm phạt khoảng cách Int i, j: biến chạy 4.2.2 Thuật toán Bước 1: Nhập liệu - Nhập chuỗi trình tự thứ s1: input(s1); - Gán m = length(s1); //ma trận có m cột - Nhập chuỗi trình tự thứ s1: input(s2); - Gán n = length(s2); //ma trận có n dịng Bước 2: Khởi tạo ma trận //Gán giá trị cho điểm khoảng cách w := -4; //Khởi tạo ma trận For j=0 to m A[0,j] = 0; For i=0 to n 58 A[i,0] = 0; Bước 3: Điền đầy ma trận (sử dụng thuật toán quy hoạch động) For i=1 to n // biến i chạy theo dòng For j=1 to m // biến j chạy theo cột Begin If (s1[j] == s2[i]) s : = 5; else s := -3; A[i,j] := max( A[ i-1, j-1] + s, A[ i, j-1] + w, A[ i-1, j] + w); End Bước 4: Quay lui tìm kết (các cặp gióng hàng) // Khai báo số dòng cột chứa giá trị cực đại giá trị cực đại ma trận Int q, t, max; q :=1; t :=1; Max : =0; // Tìm cực đại tồn ma trận For i=1 to n For j=1 to m If (a[ i, j ] > max) 59 Begin max= a[ i, j ]; q = i; t = j; End; // Quay lui tìm cặp gióng hàng Writeln (“ Cac cap giong hang:”); Writeln (s1[t] + “ ” + s2[q] ); While (max 0) Begin If (s1[t-1] == s2[q-1]) s:=5 else s:=3; If (A[ q-1, t -1] + s == max) Begin Writeln (s1[t-1] + “ ” + s2[q-1] ); Max := A[q-1, t-1]; q := q-1; t := t-1; End Else If (A[ q-1, t] + w == max) Begin Writeln (s1[t] + “ ” + s2[q-1] ); 60 Max := A[q-1, t]; q := q-1; End Else Begin Writeln (s1[t-1] + “ ” + s2[q] ); Max := A[q, t-1]; t := t-1; End End 4.3 Kết thu Kết thu sau chạy thử chương trình mơ tốn gióng hàng cặp trình tự, ta có kết gióng hàng sau: Cặp trình tự thứ 1: Hình 4.1: Kết gióng hàng cặp trình tự thứ 61 Cặp trình tự thứ 2: Hình 4.2: Kết gióng hàng cặp trình tự thứ Cặp trình tự thứ 3: 62 Hình 4.3: Kết gióng hàng cặp trình tự thứ 63 KẾT LUẬN Luận văn trình bày đầy đủ hệ thống dịch máy phương pháp thống kê, sâu tìm hiểu mơ hình gióng hàng Từ, Cụm Từ vấn đề cốt lõi phương pháp Dịch máy Bên cạnh luận văn đề xuất thuật tốn mơ gióng hàng cho cặp câu song ngữ Mặc dù kết thu khả quan, nhiên tồn số vấn đề mà luận văn chưa giải như: - Định nghĩa xác gọi Từ, Cụm từ Việc tách Từ, Cụm Từ phải làm phương pháp thủ công - Việc xác định tham số phù hợp để tính toán độ tương tự Từ, Cụm từ thuộc ngôn ngữ khác chưa giải Hướng phát triển luận văn tiếp tục nghiên cứu tìm hiểu cơng thức xác đinh mức độ tương tự cụm từ để từ tìm cơng thức tính hiệu nhất, từ thực việc gióng hàng thật Từ, Cụm từ cặp câu song ngữ (thay trình tự demo) Bộ ngữ liệu lớn, chứa nhiều cặp câu song ngữ tốt việc gióng hàng xác, từ giúp cho việc giải mã hệ dịch máy phương pháp thống kê hiệu quả, câu dịch xác Tóm lại, luận văn tin với kiến thức nghiên cứu thuật toán gióng hàng đề xuất làm tăng đáng kể nguồn tài nguyên song ngữ cho hệ dịch máy tiếng Việt nói riêng hệ dịch máy giới nói chung Trong tương lai gần, tác giả cố gắng hồn thiện thuật tốn để nâng cao hiệu suất lên 64 TÀI LIỆU THAM KHẢO [1] W A Gale and K W Church, A program for aligning sentences in bilingual corpora, Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics (ACL) Morristown, NJ, USA: Association for Computational Linguistics, 1991, tr 177–184 [2] Aligned Hansards of the 36th Parliament of Canada, September 2007 [Online] http://www.isi.edu/natural-language/download/hansard/ [3] P Koehn, Europarl: A parallel corpus for statistical machine translation, MT Summit, 2005 [Online] http://www.statmt.org/europarl/ [4] The English - Norwegian parallel corpus, September 2007 [Online] http://www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc/ [5] F Nevado, F Casacuberta, and E Vidal, Parallel corpora segmentation by using anchor words, Proceedings of EACL 2003 workshop on EAMT, 11th Conference of the European Chapter of the Association for Computational Linguistics, April 2003 [6] W Aroonmanakun, Collocation and Thai word segmentation, Joint International Conference of SNLP-Oriental COCOSDA, 2002 [7] Ma, X 2006 Champollion: A Robust Parallel Text Sentence Aligner Proceedings of Fifth International Conference on Language Resources and Evaluation, p489–492 ... cho cặp ngơn ngữ Trong dịch máy thống kê có: + Dịch máy thống kê theo từ (word-based) + Dịch máy thống kê theo cụm từ (phrase-based) + Dịch máy thống kê theo cú pháp Trong phương pháp trên, phải... gọi Dịch máy thống kê (Statistical Machine Translate) Trong dịch máy thống kê có: + Dịch máy thống kê theo từ (word-based) + Dịch máy thống kế theo cụm từ (phrase-based) + Dịch máy thống kê theo... máy thống kê, tơi chọn ? ?Phương pháp gióng hàng Từ, Cụm Từ áp dụng dịch máy thống kê? ?? làm đề tài luận văn Thạc sĩ Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu phương pháp gióng hàng Từ,