Luận án tiến sĩ khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt (TT)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2016 Hà Nội – 2014 Công trình hoàn thành tại: Trường Đa ̣i ho ̣c Công nghê ̣ , Đa ̣i ho ̣c Quố c gia Hà Nô ̣i Người hướng dẫn khoa học: PGS.TS Lê Anh Cường PGS.TS Huỳnh Văn Nam Phản biện 1: PGS.TS Nguyễn Kim Anh Phản biện 2: TS Nguyễn Đức Dũng Phản biện 3: TS Lê Hồng Phương Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Trường Đa ̣i ho ̣c Công nghê ̣ , Đại học Quốc gia Hà Nội vào hồi ngày 12 tháng 01 năm 2016 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội Mở đầu Tính cấp thiết luận án Ý tưởng dịch máy (machine translation - MT) đời từ năm 1949 Từ đến nay, sau 60 năm nghiên cứu phát triển, dịch vụ dịch máy trở nên phổ biến rộng rãi Hiện nay, dịch máy dựa cách tiếp cận thống kê hướng phát triển đầy tiềm ưu điểm vượt trội so với cách tiếp cận khác Đối với hệ thống dịch máy thống kê (statistical machine translation - SMT), chất lượng dịch tỷ lệ thuận với số lượng chất lượng ngữ liệu song ngữ sử dụng để xây dựng hệ thống dịch Tuy nhiên, ngữ liệu song ngữ hạn chế kích thước lẫn chất lượng, ngôn ngữ Ngoài ra, cặp ngôn ngữ có nhiều khác biệt cấu trúc ngữ pháp (ví dụ, Anh - Việt), vấn đề chất lượng dịch thách thức nhà nghiên cứu dịch máy nhiều năm qua Vì vậy, nghiên cứu nhằm khai thác thêm ngữ liệu song ngữ phát triển phương pháp hiệu dựa ngữ liệu có để tăng chất lượng dịch cho SMT vấn đề cấp thiết mang tính thời lĩnh vực xử lý ngôn ngữ tự nhiên Điều động lực để lựa chọn nghiên cứu đề tài "Khai phá tri thức song ngữ ứng dụng dịch máy Anh - Việt" Mục tiêu luận án Trong luận án này, đặt hai mục tiêu chính: • Thứ nhất, nghiên cứu đề xuất số phương pháp để khai thác tri thức song ngữ nhằm bổ sung nguồn ngữ liệu cho SMT • Thứ hai, nghiên cứu đề xuất số phương pháp để làm tăng chất lượng dịch cho SMT dựa ngữ liệu có Đóng góp luận án • Đề xuất số phương pháp để xây dựng ngữ liệu song ngữ cho dịch máy thống kê từ Web sách điện tử song ngữ Đối với nguồn từ Web, đề xuất hai phương pháp thiết kế đặc trưng dựa nội dung: sử dụng cognate sử dụng phân đoạn dịch Đối với nguồn từ sách điện tử, đề xuất phương pháp dựa nội dung, sử dụng số mẫu liên kết khối văn hai ngôn ngữ để rút trích câu song ngữ • Đề xuất số cải tiến mô hình gióng hàng IBM theo cách tiếp cận dựa ràng buộc, bao gồm: ràng buộc neo, ràng buộc vị trí từ, ràng buộc từ loại ràng buộc cụm từ Những cải tiến giúp nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt • Đề xuất phương pháp xác định cụm từ song ngữ cho dịch máy thống kê Trước hết, sử dụng tập mẫu cú pháp ngôn ngữ để phát cụm từ nguồn Sau đó, tìm dịch cụm từ nguồn sử dụng mô hình gióng hàng từ ràng buộc Các cụm từ song ngữ ứng dụng vào việc nâng cao chất lượng dịch cho dịch máy thống kê Anh Việt Các nội dung kết nghiên cứu trình bày luận án (từ Chương đến Chương 4) công bố công trình Trong đó, báo tạp chí quốc tế có phản biện, xuất IGI Global; báo cáo kỷ yếu hội nghị quốc tế có phản biện, xuất IEEE Springer; báo cáo kỷ yếu hội thảo quốc gia có phản biện báo tạp chí nước có phản biện Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức thành chương: • Chương Giới thiệu tổng quan vấn đề nghiên cứu luận án Chúng phân tích, đánh giá công trình nghiên cứu liên quan; nêu số vấn đề tồn mà luận án tập trung giải quyết; xác định nội dung nghiên cứu luận án • Chương Trình bày nội dung, kết nghiên cứu xây dựng ngữ liệu song ngữ cho dịch máy thống kê • Chương Trình bày nội dung, kết nghiên cứu số cải tiến mô hình IBM để gióng hàng từ cho dịch máy thống kê • Chương Trình bày nội dung, kết nghiên cứu xác định cụm từ song ngữ cho dịch máy thống kê Chương Tổng quan 1.1 Khai phá tri thức song ngữ Nhiệm vụ khai phá tri thức song ngữ tự động tìm thành phần có ngữ nghĩa tương ứng văn hai ngôn ngữ khác Tri thức song ngữ gồm nhiều khía cạnh: song ngữ từ, song ngữ cụm từ, song ngữ cấu trúc, vv 1.1.1 Xây dựng ngữ liệu song ngữ Ngữ liệu song ngữ tập hợp văn song ngữ Web nguồn sở liệu khổng lồ chứa tài liệu đa ngôn ngữ, nguồn liệu sử dụng cho ứng dụng xử lý văn song ngữ Ngoài ra, nhiều sách điện tử song ngữ chứa số lượng lớn văn song ngữ dịch cẩn thận Đây nguồn liệu tiềm để bổ sung ngữ liệu song ngữ cho SMT, đặc biệt cặp ngôn ngữ hạn chế ngữ liệu song ngữ Anh - Việt, Nhật - Việt, vv 1.1.2 Gióng hàng văn 1.1.2.1 Gióng hàng đoạn/câu Nhiệm vụ gióng hàng đoạn/câu liên kết đoạn/câu văn ngôn ngữ với đoạn/câu dịch tương ứng văn ngôn ngữ khác 1.1.2.2 Gióng hàng từ Gióng hàng từ nhiệm vụ xác định tương ứng từ văn song ngữ Đây bước hầu hết cách tiếp cận SMT Chất lượng gióng hàng từ đóng vai trò quan trọng cho thành công hệ thống SMT 1.1.3 Xác định cụm từ song ngữ Các cụm từ song ngữ hữu ích cho nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên truy xuất thông tin liên ngữ, phân tích cú pháp, khai phá văn đặc biệt cho MT Trong hệ thống SMT, chất lượng dịch phụ thuộc chủ yếu vào chất lượng cặp cụm từ song ngữ rút trích từ ngữ liệu song ngữ 1.2 Sơ lược dịch máy Không lâu sau máy tính điện tử đời, Warren Weaver (1949) đưa ý tưởng rằng, ngày máy tính nhận đầu vào tài liệu viết số ngôn ngữ (ngôn ngữ nguồn) tự động tạo tài liệu tương đương viết số ngôn ngữ khác (ngôn ngữ đích) nhiệm vụ mà gọi MT Từ đến nay, sau 60 năm nghiên cứu phát triển, dịch vụ MT trở nên phổ biến rộng rãi sử dụng miễn phí 1.3 Dịch máy thống kê 1.3.1 Mô hình hóa toán Brown cộng (1993) sử dụng quy tắc Bayes để xây dựng công thức tính xác suất dịch câu nguồn f sang câu đích e sau: e∗ = arg max P r(e|f) = arg max e e P r(f|e)P r(e) = arg max P r(f|e)P r(e) P r(f) e (1.1) Trong đó, P r(e) mô hình ngôn ngữ P r(f|e) mô hình dịch 1.3.2 Mô hình ngôn ngữ Một cách hình thức, mô hình ngôn ngữ hàm nhận tham số đầu vào câu trả xác suất câu thuộc ngôn ngữ Mô hình ngôn ngữ hỗ trợ định khó khăn trật tự từ (word order) dịch từ (word translation) Phương pháp hàng đầu cho mô hình ngôn ngữ mô hình ngôn ngữ n-gram 1.3.3 Mô hình dịch Mô hình dịch (translation model) giúp tính toán xác suất có điều kiện P r(f|e) Xác suất ước lượng từ ngữ liệu song ngữ cặp ngôn ngữ nguồn - đích 1.3.3.1 Mô hình dịch dựa từ Mô hình dịch dựa từ hệ SMT, nghiên cứu phát triển IBM Mô hình dịch dựa tương ứng từ theo tương ứng một Mô hình dịch dựa đơn vị từ không cho kết tốt trường hợp kết nối nhiều-1 nhiều-nhiều với trật tự từ câu tương ứng khác Khi đó, mô hình dựa đơn vị cụm từ đề xuất để giải vấn đề 1.3.3.2 Mô hình dịch dựa cụm từ Cách tiếp cận thành công với SMT sử dụng cách dịch theo cụm từ Ở đây, cụm từ chuỗi từ liền kề không thiết cụm từ ngôn ngữ học Trong phương pháp này, câu đầu vào chia thành chuỗi cụm từ; cụm từ ánh xạ một-một đến cụm từ đầu ra, xếp lại thứ tự cụm từ Thông thường, mô hình cụm từ ước lượng từ ngữ liệu song ngữ gióng hàng từ Tất cặp cụm từ quán với gióng hàng từ rút trích gán với xác suất tương ứng 1.3.3.3 Mô hình dịch dựa cú pháp Khác với hai mô hình dịch dựa từ cụm từ trình bày trên, mô hình dịch dựa cú pháp sử dụng thông tin cú pháp ngôn ngữ Các mô hình dịch dựa cú pháp đa dạng, sử dụng hình thức đặc trưng ngữ pháp khác Một số cách tiếp cận thực phân tích cú pháp cho câu nguồn (tree to string - dịch từ cú pháp sang chuỗi), số khác tạo cú pháp sinh câu đích (string to tree - dịch từ chuỗi sang cú pháp) số kết hợp hai (tree to tree - dịch từ cú pháp sang cú pháp) 1.3.4 Giải mã Mục tiêu giải mã tìm dịch với số điểm tốt Trong trình giải mã, xây dựng dịch theo từ một, từ đầu đến cuối Bộ giải mã mô hình SMT thường áp dụng thuật toán tìm kiếm tối ưu Thuật toán mà giải mã thường áp dụng A*, kỹ thuật tìm kiếm chuẩn trí tuệ nhân tạo 1.3.5 Đánh giá chất lượng dịch Có số phương pháp đánh giá tự động chất lượng dịch BLEU, NIST TER Trong đó, phương pháp BLEU sử dụng phổ biến Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch mẫu người, MT giống với dịch mẫu người dịch xác Việc so sánh thực dựa vào kết thống kê trùng khớp n-gram hai dịch có tính đến thứ tự chúng câu 1.4 Thảo luận Từ phân tích, đánh giá nghiên cứu liên quan trên, nhận thấy số vấn đề tồn tại, cụ thể sau: Thứ nhất, toán xây dựng ngữ liệu cho SMT, khai thác từ hai nguồn: Web sách điện tử song ngữ Thứ hai, gióng hàng từ đóng vai trò quan trọng cho thành công hệ thống SMT Sử dụng thêm nguồn tri thức bên thông tin từ vựng, thông tin cú pháp thật cần thiết để cải thiện chất lượng gióng hàng Thứ ba, cụm từ song ngữ sử dụng để bổ sung nguồn tri thức song ngữ cho hệ thống SMT Bouamor cộng (2012) rằng, cụm từ song ngữ sử dụng để cải thiện chất lượng dịch cho SMT Chương Xây dựng ngữ liệu song ngữ cho dịch máy thống kê 2.1 2.1.1 Rút trích văn song ngữ từ Web Thu thập liệu Để thực việc thu thập tài liệu HTML từ Web, sử dụng công cụ Teleport-Pro Ở đây, chọn URL từ ba web-site: BBC, VietnamPlus VOA News 2.1.2 Thiết kế đặc trưng dựa vào nội dung 2.1.2.1 Sử dụng cognate Phương pháp sử dụng từ nguồn gốc (cognate) hay gọi từ bất biến hai ngôn ngữ Với cặp văn (Etext, V text), đó: Etext viết tắt văn tiếng Anh V text viết tắt văn tiếng Việt, xác định tập T1 T2 chứa cognate Etext V text Độ tương tự cognate V text với Etext xác định theo công thức (2.1)1 simcognate (Etext, V text) = |T1 ∩ T 2| |T1 | (2.1) Lưu ý, theo cách tính simcognate (Etext, V text) = simcognate (V text, Etext) 2.2 2.2.1 Rút trích câu song ngữ từ sách điện tử Tiền xử lý Sách điện tử ban đầu định dạng PDF chuyển đổi sang định dạng Text Sau đó, tiến hành khôi phục lại ranh giới đoạn Tiếp theo, sử dụng hệ thống SMT để dịch văn sách tiếng Anh sang tiếng Việt 2.2.2 Đo độ tương tự Giả sử làm việc với sách điện tử song ngữ Anh - Việt Sách tiếng Anh E chứa I khối (văn bản) ue1 , , ueI sách tiếng Việt V chứa J khối uv1 , , uvJ Gọi T dịch tiếng Việt E uti dịch tiếng Việt khối uei (trong E ) Gọi Sn (uti ) Dn (uvj ) tập n − gram khối uti uvj Độ tương tự khối uti uvj định nghĩa công thức (3.2) Similarityn (uti , uvj ) = |Sn (uti ) ∩ Dn (uvj )| |Sn (uti ) ∪ Dn (uvj )| (2.3) Trong công thức này, Similarityn (uti , uvj ) độ tương tự hai khối văn uti uvj phân chia theo n, ≤ Similarityn (uti , uvj ) ≤ 2.2.3 Gióng hàng đoạn Chúng tính toán độ tương tự khối theo mẫu − 1, − 2, − 3, − − cách sử dụng hàm Similarityn (uti , uvj ) công thức (??) Sau đó, cặp khối (us , ut ) có độ tương tự lớn chọn theo công thức (3.3)   Similarityn (pti , pvj )        Similarityn (pti , pvj pvj+1 ) (us , ut ) = arg max Similarityn (pti , pvj pvj+1 pvj+2 )     Similarityn (pti pti+1 , pvj )     Similarity (pt pt pt , pv ) n 10 i i+1 i+2 j (2.4) 2.2.4 Gióng hàng câu Nhiệm vụ cần tìm câu vị trí thứ x đoạn pe dịch câu vị trí thứ y đoạn pv Cặp câu (sex , svy ) có độ tương tự lớn lựa chọn công thức (2.5) (sex , svy ) = arg max 2.3 2.3.1                    Similarityn (sti , svj ) Similarityn (sti , svj+1 ) Similarityn (sti , svj+2 ) Similarityn (sti+1 , svj ) Similarityn (sti+2 , svj )     Similarityn (sti , svj svj+1 )      Similarityn (sti , svj svj+1 svj+2 )      Similarityn (sti sti+1 , svj )     Similarityn (sti sti+1 sti+2 , svj ) (2.5) Thực nghiệm Thực nghiệm rút trích văn song ngữ từ Web Chúng tải 64.323 trang web từ ba web-site: BBC, VOA, VietnamPlus Tiếp theo, tạo cặp ứng viên từ nguồn liệu thu thập sử dụng số ngưỡng: simcognate > 0, distancedate ≤1 Từ đó, nhận 1.170 cặp ứng viên Tiếp theo, thiết kế đặc trưng nội dung cấu trúc cho tất cặp ứng viên trình bày phần trước Các kết thực nghiệm cho thấy, hai phương pháp đề xuất đạt kết tốt (độ xác 88,2% 90,0%) so với phương pháp sử dụng đặc trưng dựa vào cấu trúc trang web Resnik (độ xác 44,4%) phương pháp sử dụng từ điển Ma (độ xác 65,2%) 2.3.2 Thực nghiệm rút trích câu song ngữ từ sách điện tử Chúng sử dụng bốn sách điện tử song ngữ Anh - Việt làm liệu thực nghiệm Để đo độ tương tự hai khối văn (uti and uvj ), sử dụng 11 công thức (3.2) với n = Chúng chọn ngẫu nhiên 200 mẫu (của đoạn) từ liệu thực nghiệm để đánh giá hiệu suất phương pháp đề xuất Kết thực nghiệm đạt độ xác 97% Chúng thiết kế liệu gồm 40 đoạn song ngữ có chứa 202 câu song ngữ Phương pháp Gale sử dụng phương pháp baseline Phương pháp đạt điểm số cao hai độ đo precision recall 2.3.3 Thực nghiệm bổ sung ngữ liệu song ngữ cho dịch máy Chúng bổ sung 21.072 câu song ngữ Anh - Việt (từ nguồn ngữ liệu song ngữ xây dựng được) vào hệ thống SMT Anh - Việt xây dựng tập liệu huấn luyện gồm 90.000 câu song ngữ Anh - Việt cho mô hình dịch 100.000 câu tiếng Việt cho mô hình ngôn ngữ Kết quả, chất lượng dịch tăng lên 3% (tương đương với 0,6 điểm BLEU) so với hệ thống SMT ban đầu 2.4 Kết luận chương Chúng trình bày nội dung, kết nghiên cứu xây dựng ngữ liệu song ngữ cho SMT Trong nghiên cứu chúng tôi, ngữ liệu song ngữ khai thác từ Web sách điện tử song ngữ Các kết đạt cho thấy, đạt ngữ liệu song ngữ Anh - Việt đủ để xây dựng hệ thống SMT thông qua việc khai thác ngữ liệu song ngữ từ hai nguồn 12 Chương Gióng hàng từ cho dịch máy thống kê 3.1 3.1.1 Cơ sở lý thuyết Định nghĩa từ Theo Diệp Quang Ban, mặt nghiên cứu chung, người ta gặp không khó khăn việc xác định nêu định nghĩa từ Về mặt ngữ pháp, hiểu từ đơn vị nhỏ có nghĩa hoạt động tự câu 3.1.2 Định nghĩa toán gióng hàng từ Cho câu f ngôn ngữ nguồn (câu nguồn) chứa J từ f1 , , fJ câu e ngôn ngữ đích (câu đích) chứa I từ e1 , , eI , định nghĩa liên kết l = (i, j) tồn ei fj dịch (hoặc dịch phần) Khi đó, gióng hàng từ a (giữa f e) ánh xạ từ vị trí từ f đến vị trí từ e: a : j → i, với j = 1, , J i = 0, , I 13 (3.1) 3.1.3 Các mô hình IBM Cho câu nguồn f = f1 , f2 , fJ với độ dài J, câu đích e = e1 , e2 , eI với độ dài I tập hợp gióng hàng từ a Khi đó, với mô hình IBM xác suất P (f, a|e) tính theo công thức (3.2) ε P r(f, a|e) = (I + 1)J J t(fj |eaj ) (3.2) j=1 Khi mô hình IBM cải tiến, kết thu từ mô hình chuyển đến mô hình IBM cao (IBM 2-5) Vì vậy, tổng thể, cải tiến mô hình IBM 3.1.4 Thuật toán cực đại kỳ vọng cho mô hình IBM Thuật toán EM cho mô hình IBM bao gồm hai bước: (i) bước E: áp dụng mô hình đến liệu, xác suất gióng hàng tính toán từ tham số mô hình; (ii) bước M: ước lượng mô hình từ liệu, giá trị tham số ước lượng lại dựa xác suất gióng hàng liệu 3.2 Một số cải tiến mô hình IBM theo cách tiếp cận dựa ràng buộc 3.2.1 Cải tiến mô hình IBM sử dụng ràng buộc neo Gióng hàng hai từ điểm neo tạo cách thiết lập xác suất dịch không vị trí cho tất từ khác Chúng lựa chọn từ không dịch xuất cặp câu song ngữ (ví dụ: chữ viết tắt, chữ số, ) Ngoài ra, sử dụng thêm cặp từ song ngữ (từ liệu huấn luyện) Chúng định nghĩa danh sách L tập hợp cặp từ song ngữ sau: L = {(fj , ei )|t(fj |ei ) > α, count(fj , ei ) > β} (3.3) Ở đây, ei từ ngôn ngữ nguồn, fj từ ngôn ngữ đích α, β ngưỡng xác định trước 14 3.2.2 Cải tiến mô hình IBM sử dụng ràng buộc vị trí từ Ràng buộc vị trí từ giới hạn phạm vi gióng hàng từ cặp câu song ngữ Với cặp từ (f,e) cặp câu (f,e), gán trọng số cao ràng buộc vị trí từ thỏa mãn trọng số thấp trường hợp ngược lại Tức là, xác suất gióng hàng f e nhân với trọng số λ ràng buộc thỏa mãn nhân với (1 − λ) ràng buộc không thỏa mãn 3.2.3 Cải tiến mô hình IBM sử dụng ràng buộc từ loại Ký hiệu R tập hợp quan hệ POS tiếng Anh tiếng Việt, sau: R = {(x → y)|x ∈ X, y ∈ Y } (3.4) Trong đó, X Y tương ứng tập chứa thẻ POS tiếng Anh tiếng Việt Ở đây, ràng buộc POS đòi hỏi từ nguồn fj gióng hàng với các từ đích ei có quan hệ POS Ký hiệu P (fj ), P (ei ) tương ứng với thẻ POS từ nguồn fj từ đích ei Khi đó, cặp từ (fj , ei ) thỏa mãn ràng buộc POS P (fj ) → P (ei ) ∈ R 3.2.4 Cải tiến mô hình IBM sử dụng ràng buộc cụm từ Giả sử rằng, có cặp câu (f,e) ngữ liệu song ngữ so khớp với mẫu cú pháp song ngữ vị trí (j1 , j2 ) câu nguồn (i1 , i2 ) câu đích Bây giờ, tách câu thành ba phần f = f1 , f2 , f3 e = e1 , e2 , e3 Ở đây, ràng buộc cụm từ yêu cầu từ fj cụm từ nguồn f2 gióng hàng với từ ei cụm từ đích e2 Tương tự, từ cụm từ nguồn gióng hàng với từ cụm từ đích 15 3.2.5 Kết hợp ràng buộc Gọi C = {c1 , c2 , , cK } tập ràng buộc Cặp từ (f, e) (trong cặp câu (f,e)) gọi thỏa mãn ràng buộc thỏa mãn ràng buộc ck ∈ C bất kỳ, ≤ k ≤ K (tức là, thỏa mãn ràng buộc c1 c2 , , cK ) Gọi EC = {e1 , e2 , , en } tập hợp từ e thỏa mãn ràng buộc Khi đó, hàm c định nghĩa lại sau: c(f |e; f, e, C) = t(f |e) ek ∈EC t(f |ek ) J I δ(f, fj ) j=1 δ(e, ei ) (3.5) i=0 Về bản, việc ước lượng xác suất dịch t(f |e) tích hợp tập ràng buộc C vào thuật toán EM cho mô hình IBM thực tương tự với ràng buộc trình bày 3.3 Thực nghiệm Quá trình thực nghiệm, đánh giá gióng hàng từ thực hệ thống SMT Anh - Việt (dịch từ tiếng Anh sang tiếng Việt) Chúng thiết kế bốn tập liệu huấn luyện chứa 60.000, 70.000, 80.000 90.000 câu song ngữ Anh - Việt Tập liệu gồm 1.000 câu song ngữ Anh - Việt sử dụng để đánh giá chất lượng dịch 3.3.1 Kết thực nghiệm với ràng buộc neo ràng buộc vị trí từ Mô hình IBM cải tiến với việc sử dụng hai ràng buộc đạt điểm BLEU cao so với mô hình IBM gốc bốn tập liệu huấn luyện Cụ thể, điểm BLEU tăng trung bình 0,67 điểm với ràng buộc neo 1,48 điểm với ràng buộc vị trí từ Ngoài ra, so với Giza++, tính trung bình bốn tập liệu, phương pháp đạt điểm BLEU cao 0,28 điểm sử dụng ràng buộc neo 1,08 điểm sử dụng ràng buộc vị trí từ 16 3.3.2 Kết thực nghiệm với ràng buộc từ loại Sử dụng ràng buộc từ loại đạt điểm BLEU cao tất tập liệu huấn luyện so với mô hình IBM gốc Giza++ Cụ thể, sử dụng ràng buộc từ loại điểm BLEU tăng trung bình 0,98 điểm, tương đương với việc chất lượng MT tăng 4,31% so với mô hình IBM gốc Ngoài ra, so với sử dụng Giza++, phương pháp dùng ràng buộc từ loại đạt chất lượng dịch tốt 2,50% 3.3.3 Kết thực nghiệm với ràng buộc cụm từ Kết thực nghiệm cho thấy, cải tiến đạt điểm BLEU cao so với mô hình IBM gốc tất tập liệu huấn luyện Cụ thể, điểm BLEU tăng trung bình 0, 45 điểm so với mô hình IBM gốc không sử dụng ràng buộc So sánh với Giza++, phương pháp dùng ràng buộc cụm từ đạt điểm BLEU cao trung bình 0, 05 điểm 3.3.4 Kết thực nghiệm kết hợp ràng buộc Khi kết hợp ràng buộc vị trí từ với ràng buộc từ loại, chất lượng dịch tốt so với việc sử dụng riêng lẻ ràng buộc Cụ thể, so với mô hình IBM gốc điểm BLEU tăng trung bình 1,63 điểm kết hợp ràng buộc, tương đương với việc chất lượng MT tăng 7,16% với độ tin cậy p ≤ 0, 0007 So với việc sử dụng Giza++, phương pháp kết hợp ràng buộc đạt điểm BLEU cao trung bình 1,23 điểm với độ tin cậy p ≤ 0, 0034 3.4 Kết luận chương Chúng đề xuất số cải tiến mô hình IBM theo cách tiếp cận dựa ràng buộc, cụ thể là: ràng buộc neo, ràng buộc vị trí từ, ràng buộc từ loại ràng buộc cụm từ Các ràng buộc sau sử dụng để ước lượng tham số mô hình thuật toán EM Kết thực nghiệm cho thấy cải tiến cải thiện hiệu suất dịch cho hệ thống SMT Anh - Việt 17 Chương Xác định cụm từ song ngữ cho dịch máy thống kê 4.1 Bài toán rút trích cụm từ song ngữ Cho cụm từ pe ngôn ngữ nguồn (tiếng Anh) cụm từ pv ngôn ngữ đích (tiếng Việt) Chúng định nghĩa cặp cụm từ p = (pe, pv) cụm từ song ngữ cụm từ nguồn pe cụm từ đích pv dịch nhau, tức là, bổ sung từ cụm từ đích mà tìm thấy từ tương ứng cụm từ nguồn ngược lại Cho ngữ liệu C = {(f(l) , e(l) )} chứa câu song ngữ Anh - Việt Trong đó, ≤ l ≤ N N kích thước ngữ liệu Bài toán đặt tìm rút trích cụm từ song ngữ ngữ liệu C 4.2 Phương pháp rút trích cụm từ song ngữ Phương pháp mở rộng ý tưởng Vogel gióng hàng từ ràng buộc Trong phần này, trình bày chi tiết ba bước để rút trích cụm từ song ngữ sau: (i) xác định cụm từ, (ii) tìm cụm từ đích (iii) rút trích cụm từ song ngữ 18 4.2.1 Xác định cụm Chúng sử dụng mẫu cú pháp xác định trước để phát rút trích cụm từ song ngữ từ ngữ liệu song ngữ Anh - Việt Giả sử có cặp câu (f,e) từ ngữ liệu song ngữ so khớp với cặp mẫu cú pháp vị trí (j1 , j2 ) câu nguồn (i1 , i2 ) câu đích Từ đó, rút trích cụm từ nguồn pe = fj1 fj2 cụm từ đích pv = ei1 ei2 Trong trường hợp so khớp phía (trong câu f e), ta xác định cụm từ (chúng gọi cụm từ nguồn) tìm cụm từ lại (chúng gọi cụm từ đích) 4.2.2 Tìm cụm từ đích Giả sử, cho cặp câu (f,e) cụm nguồn pe = fj1 fj2 , cần tìm chuỗi từ ei1 ei2 câu đích, dịch cụm từ nguồn Để thực công việc này, sử dụng mô hình gióng hàng từ ràng buộc mô tả công thức (4.1) j1 −1 P ri1 ,i2 (f|e) = j=1 i∈(i1 i2 ) j2 t(fj |ei ) I −k i2 × j=j1 i=i1 J × j=j2 +1 i∈(i1 i2 ) t(fj |ei ) k (4.1) t(fj |ei ) I −k Ranh giới i1 i2 cụm từ pv câu đích xác định công thức (4.2) (i1 , i2 ) = arg max{P ri1 ,i2 (f|e)} i1 ,i2 4.2.3 Rút trích cụm từ Chúng thực rút trích ứng viên cụm từ song ngữ, sau: • Ước lượng xác suất t(f |e) • Với cặp câu (f(l) , e(l) ), ≤ l ≤ N : N kích thước ngữ liệu 19 (4.2) – Với cặp mẫu cú pháp tập mẫu cú pháp xác định trước: ∗ Nếu cặp mẫu cú pháp so khớp (pe, pv) ứng viên cụm từ song ngữ ∗ Ngoài ra, mẫu cú pháp ngôn ngữ nguồn so khớp rút trích cụm từ nguồn pe tìm kiếm cụm từ đích pv dùng công thức (4.2) Để lọc cụm từ song ngữ (loại bỏ cụm sai), tính xác suất dịch cụm từ cách sử dụng tần suất tương đối: P r(pv|pe) = N (pv, pe) N (pe) (4.3) Trong công thức (4.3), pe pv cụm từ nguồn đích N (pe, pv) số lần cụm pe dịch pv N (pe) số lần pe xuất ngữ liệu Để tăng độ tin cậy, sử dụng giá trị nhỏ hai tần suất tương đối xác suất dịch cụm từ, thể công thức (4.4) P r(pv|pe) = min(P r(pv|pe), P r(pe|pv)) 4.3 (4.4) Tích hợp cụm từ song ngữ vào dịch máy Chúng tích hợp cụm từ song ngữ sau rút trích từ ngữ liệu vào hệ thống SMT Anh - Việt theo hai cách: (i) xây dựng thêm bảng cụm từ từ cụm từ song ngữ rút trích tự động (ii) sử dụng cụm từ song ngữ rút trích tự động cặp câu song ngữ thêm chúng vào liệu huấn luyện, sau huấn luyện lại mô hình dịch 20 4.4 Thực nghiệm 4.4.1 Thực nghiệm rút trích cụm từ song ngữ 4.4.1.1 Cài đặt thực nghiệm Các thực nghiệm rút trích cụm từ song ngữ thực 5.000 câu song ngữ Anh - Việt Để gán nhãn từ loại cho liệu thực nghiệm, sử dụng công cụ: vnTagger cho văn tiếng Việt posTagger-1.0 cho văn tiếng Anh Chúng xây dựng tập hợp cặp mẫu cú pháp tiếng Anh tiếng Việt, tập bao gồm 10 cặp mẫu 4.4.1.2 Kết thực nghiệm Theo kết từ thực nghiệm, thấy với ngưỡng θ = 0, 25 đạt kết tốt nhất, cân precision recall đảm bảo Ngoài ra, so sánh phương pháp đề xuất với phương pháp so khớp mẫu cú pháp hai phía baseline Kết quả, đạt điểm số cao hai độ đo precision recall Điểm Fscore phương pháp 36, 07 Fscore baseline 20, 07 Phương pháp tăng 79, 72% điểm Fscore so sánh với baseline Các kết cho thấy phương pháp đề xuất hiệu 4.4.2 Thực nghiệm tích hợp cụm từ song ngữ vào dịch máy 4.4.2.1 Cài đặt thực nghiệm Chúng sử dụng 200.000 câu song ngữ Anh - Việt thu thập từ web-site sách điện tử song ngữ Hệ thống SMT Anh - Việt dựa cụm từ xây dựng với thành phần sau: (i) Mô hình ngôn ngữ với công cụ SRILM: Chúng xây dựng mô hình ngôn ngữ 3-gram sử dụng kỹ thuật làm trơn Kneyser-Ney ngữ liệu 1.430.177 câu tiếng Việt chứa 22.056.253 từ 317.028 từ vựng; (ii) Mô hình dịch giải mã sử dụng công cụ MOSES Tập liệu bao gồm 1.000 cặp câu sử dụng để đánh giá chất lượng dịch theo độ đo BLEU 21 4.4.2.2 Kết thực nghiệm Chúng tích hợp cụm từ song ngữ rút trích tự động từ hai tập ngữ liệu: 100.000 200.000 câu song ngữ vào hệ thống SMT Anh - Việt Chất lượng dịch tăng tương ứng 0,35 0,41 điểm BLEU thêm cụm từ vào liệu huấn luyện (sau huấn luyện lại mô hình dịch) xây dựng thêm bảng cụm từ (từ cụm từ song ngữ rút trích tự động) Ngoài ra, kết hợp hai phương pháp đạt kết cao với điểm BLEU tăng 0,53 4.5 Kết luận chương Chúng trình bày phương pháp dựa cách tiếp cận lai để rút trích cụm từ song ngữ từ ngữ liệu song ngữ Anh - Việt ứng dụng cho SMT Phương pháp kết hợp mẫu cú pháp xác định trước xác suất dịch cụm từ để rút trích cụm từ song ngữ Bằng cách sử dụng mẫu cú pháp phía áp dụng mô hình gióng hàng từ ràng buộc để tìm dịch cụm từ nguồn, rút trích nhiều cụm từ song ngữ Các kết thu cho thấy hiệu đề xuất Khi tích hợp cụm từ song ngữ rút trích tự động vào hệ thống SMT, chất lượng dịch cải thiện đáng kể 22 Kết luận Luận án tập trung vào việc khai phá tri thức song ngữ ứng dụng dịch máy Anh- Việt Chúng đề xuất số phương pháp để xây dựng ngữ liệu song ngữ cho dịch máy thống kê, đưa số cải tiến mô hình IBM để gióng hàng từ cho dịch máy thống kê xác định cụm từ song ngữ cho dịch máy thống kê Các đóng góp luận án tóm tắt sau: Thứ nhất, đề xuất số phương pháp để xây dựng ngữ liệu song ngữ cho SMT Cụ thể, khai thác từ hai nguồn: Web sách điện tử song ngữ Đối với nguồn từ Web, rút trích văn song ngữ từ trang web song ngữ Anh - Việt; đưa hai phương pháp thiết kế đặc trưng dựa nội dung: dựa cognate dựa việc xác định phân đoạn dịch Các phương pháp đề xuất đạt kết tốt (độ xác 88,2% 90,0%) so với phương pháp sử dụng đặc trưng dựa vào cấu trúc trang web (độ xác 44,4%) phương pháp sử dụng từ điển (độ xác 65,2%) Đối với nguồn từ sách điện tử song ngữ, sử dụng số mẫu liên kết khối văn hai ngôn ngữ để rút trích câu song ngữ Các thực nghiệm rút trích câu song ngữ từ sách điện tử theo phương pháp đề xuất đạt 95, 0% theo độ đo Fscore Thứ hai, đề xuất số cải tiến mô hình IBM theo cách tiếp cận dựa ràng buộc, bao gồm: ràng buộc neo, ràng buộc vị trí từ, ràng buộc từ loại ràng buộc cụm từ Với ràng buộc, đưa phương pháp tổng quát để tích hợp vào thuật toán EM trình ước lượng tham số mô hình Việc cải tiến giúp nâng cao chất lượng dịch cho hệ thống SMT Cụ thể, với phương pháp kết hợp ràng buộc, chất lượng MT tăng 7,16% so với mô hình IBM gốc tăng 5,31% so với sử dụng Giza++ Thứ ba, đề xuất phương pháp rút trích cụm từ song ngữ từ ngữ liệu song ngữ, sử dụng mẫu cú pháp kết hợp với gióng hàng cụm từ Các cụm từ song ngữ ứng dụng vào việc tăng chất lượng SMT Các thực nghiệm thực hệ thống SMT Anh - Việt cho thấy phương pháp xác định cụm từ song ngữ đưa đạt chất lượng dịch tốt so với không xử lý cụm từ, cụ thể trường hợp tốt điểm BLEU tăng 0,53 23 Danh mục công trình khoa học tác giả liên quan đến luận án [1] Le Quang Hung and Le Anh Cuong (2010), "Extracting parallel texts from the web", Proceedings of the Second International Conference on Knowledge and Systems Engineering, IEEE Computer Society, pages 147-151 [2] Le Quang Hung and Le Anh Cuong (2012), "Improving Word Alignment for Statistical Machine Translation Based on Constraints", Asian Language Processing (IALP), International Conference on, IEEE Computer Society, pages 113-116 [3] Le Quang Hung and Le Anh Cuong (2012), "Statistical Word Alignment with Part-of-Speech Constraint", Kỷ yếu hội thảo Quốc gia lần thứ XV "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông", trang 410-416 [4] Quang-Hung LE, Duy-Cuong NGUYEN, Duc-Hong PHAM, Anh-Cuong LE, and Van-Nam HUYNH (2013), "Paragraph Alignment for English-Vietnamese Parallel E-Books", In Knowledge and Systems Engineering, Springer International Publishing, pages 251-259 [5] Quang-Hung LE, Anh-Cuong LE, and Van-Nam HUYNH (2013), "Parallel phrase extraction from English-Vietnamese parallel corpora", In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 IEEE RIVF International Conference on, pages 175-179 [6] Le Quang Hung and Le Anh Cuong (2013), "An effective method to sentence alignment for the English-Vietnamese parallel e-book", Kỷ yếu hội thảo Quốc gia lần thứ XVI "Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông", trang 12-16 [7] Le Quang Hung (2014), "A new approach to extract parallel corpus", Tạp chí khoa học Trường Đại học Quy Nhơn, Số 4, Tập VIII, trang 12-24 [8] Quang-Hung LE and Anh-Cuong LE (2014), "Syntactic pattern based Word Alignment for Statistical Machine Translation", The International Journal of Knowledge and Systems Science (IJKSS), IGI Global Publishing, Volume Issue 3, pages 36-45 24 [...]... bản dịch của cụm từ nguồn, chúng tôi có thể rút trích nhiều cụm từ song ngữ hơn Các kết quả thu được đã cho thấy hiệu quả của đề xuất này Khi tích hợp các cụm từ song ngữ được rút trích tự động vào hệ thống SMT, chất lượng dịch đã cải thiện đáng kể 22 Kết luận Luận án chúng tôi tập trung vào việc khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh- Việt Chúng tôi đã đề xuất một số phương pháp... trên cả hai độ đo precision và recall 2.3.3 Thực nghiệm về bổ sung ngữ liệu song ngữ cho dịch máy Chúng tôi bổ sung 21.072 câu song ngữ Anh - Việt (từ nguồn ngữ liệu song ngữ xây dựng được) vào hệ thống SMT Anh - Việt được xây dựng trên tập dữ liệu huấn luyện gồm 90.000 câu song ngữ Anh - Việt cho mô hình dịch và 100.000 câu tiếng Việt cho mô hình ngôn ngữ Kết quả, chất lượng dịch tăng lên 3% (tương đương... tôi tiến hành khôi phục lại ranh giới giữa các đoạn Tiếp theo, chúng tôi sử dụng một hệ thống SMT để dịch văn bản trong sách tiếng Anh sang tiếng Việt 2.2.2 Đo độ tương tự Giả sử chúng ta đang làm việc với sách điện tử song ngữ Anh - Việt Sách tiếng Anh E chứa I khối (văn bản) ue1 , , ueI và sách tiếng Việt V chứa J khối uv1 , , uvJ Gọi T là bản dịch tiếng Việt của E và uti là bản dịch tiếng Việt. .. và cụm từ đích pv là bản dịch của nhau, tức là, không có bổ sung từ trong cụm từ đích mà không thể tìm thấy từ tương ứng trong cụm từ nguồn và ngược lại Cho ngữ liệu C = {(f(l) , e(l) )} chứa các câu song ngữ Anh - Việt Trong đó, 1 ≤ l ≤ N và N là kích thước của ngữ liệu Bài toán đặt ra ở đây là tìm và rút trích các cụm từ song ngữ trong ngữ liệu C 4.2 Phương pháp rút trích cụm từ song ngữ Phương pháp... pháp đạt được kết quả cao hơn với điểm BLEU tăng 0,53 4.5 Kết luận chương Chúng tôi đã trình bày phương pháp dựa trên cách tiếp cận lai để rút trích cụm từ song ngữ từ ngữ liệu song ngữ Anh - Việt và ứng dụng cho SMT Phương pháp của chúng tôi kết hợp giữa các mẫu cú pháp được xác định trước và xác suất dịch cụm từ để rút trích các cụm từ song ngữ Bằng cách sử dụng các mẫu cú pháp ở một phía và áp dụng. .. để xây dựng ngữ liệu song ngữ cho dịch máy thống kê, đưa ra một số cải tiến mô hình IBM để gióng hàng từ cho dịch máy thống kê và xác định cụm từ song ngữ cho dịch máy thống kê Các đóng góp chính của luận án có thể được tóm tắt như sau: Thứ nhất, chúng tôi đã đề xuất một số phương pháp để xây dựng ngữ liệu song ngữ cho SMT Cụ thể, chúng tôi khai thác từ hai nguồn: Web và sách điện tử song ngữ Đối với... hiện trên hệ thống SMT Anh - Việt (dịch từ tiếng Anh sang tiếng Việt) Chúng tôi thiết kế bốn tập dữ liệu huấn luyện lần lượt chứa 60.000, 70.000, 80.000 và 90.000 câu song ngữ Anh - Việt Tập dữ liệu gồm 1.000 câu song ngữ Anh - Việt được sử dụng để đánh giá chất lượng dịch 3.3.1 Kết quả thực nghiệm với ràng buộc neo và ràng buộc về vị trí của từ Mô hình IBM được cải tiến với việc sử dụng hai ràng buộc... mô hình trong thuật toán EM Kết quả thực nghiệm cho thấy các cải tiến của chúng tôi cải thiện hiệu suất dịch cho hệ thống SMT Anh - Việt 17 Chương 4 Xác định cụm từ song ngữ cho dịch máy thống kê 4.1 Bài toán rút trích cụm từ song ngữ Cho một cụm từ pe ở ngôn ngữ nguồn (tiếng Anh) và một cụm từ pv ở ngôn ngữ đích (tiếng Việt) Chúng tôi định nghĩa một cặp cụm từ p = (pe, pv) là một cụm từ song ngữ nếu... Sử dụng các phân đoạn dịch Ký hiệu Epage, Etext, V page và V text lần lượt là trang web tiếng Anh, nội dung của trang web tiếng Anh, trang web tiếng Việt, nội dung của trang web tiếng Việt Khi đó, Etext được biểu diễn như là một chuỗi các đoạn pe1 pe2 pen và V text được biểu diễn như là một chuỗi các đoạn pv1 pv2 pvm Trong đó, pei và pvj tương ứng là các đoạn trong văn bản tiếng Anh và tiếng Việt. .. SMT ban đầu 2.4 Kết luận chương Chúng tôi đã trình bày các nội dung, kết quả nghiên cứu về xây dựng ngữ liệu song ngữ cho SMT Trong nghiên cứu của chúng tôi, ngữ liệu song ngữ được khai thác từ Web và sách điện tử song ngữ Các kết quả đạt được cho thấy, chúng tôi có thể đạt được ngữ liệu song ngữ Anh - Việt đủ để xây dựng một hệ thống SMT thông qua việc khai thác ngữ liệu song ngữ từ hai nguồn này

Định dạng
Số trang	26
Dung lượng	435,57 KB