Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
845,84 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁTTRIỂNCÔNGCỤGIÓNGHÀNGVĂNBẢNSONGNGỮ LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁTTRIỂNCÔNGCỤGIÓNGHÀNGVĂNBẢNSONGNGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – 2016 Lời cảm ơn Trong trình thực luận văn năm học vừa qua, em nhận bảo hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin gửi tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên Khoa Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula tận tình dạy dỗ giúp đỡ em năm giảng đường đại học cao học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu thực nên luận văn chắn nhiều thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2016 Học viên Nguyễn Minh Hải Mục lục Lời cảm ơn MỞ ĐẦU 1 CÁC CÁCH TIẾP CẬN GIÓNGHÀNG 1.1 Kiến thức chuẩn bị 1.2 Bối cảnh 1.3 Các hướng tiếp cận giónghàng 1.3.1 Phương pháp giónghàng dựa vào chiều dài câu 1.3.2 Phương pháp giónghàng dựa vào điểm tương đồng 16 1.3.3 Phương pháp giónghàng dựa vào từ vựng 19 1.3.4 Kết hợp phương pháp 26 1.4 Một số côngcụgiónghàng 29 1.4.1 NATools 30 1.4.2 GIZA++ 1.4.3 hunalign 30 1.4.4 Per-Fide 30 1.4.5 cwb-align 31 1.4.6 WinAlign 31 30 GIÓNGHÀNGVĂNBẢNSONGNGỮ ANH - VIỆT 2.1 33 Đặc điểm tiếng Anh tiếng Việt 33 2.2 Các nghiên cứu côngcụgiónghàngvănsongngữ mức câu tiếng Việt 36 2.3 Côngcụ XAlign 40 2.3.1 Thuật toán quy hoạch động 41 2.3.2 Cấu trúc chương trình 42 2.3.3 Tiền xử lý liệu 43 2.3.4 Các cải tiến thuật toán tham số côngcụ viXAlign 43 2.3.5 Một số hướng cải tiến côngcụ tiến hành 46 2.4 Thu thập liệu 47 2.5 Kết 48 2.6 Ứng dụng 50 2.6.1 Sử dụng kho ngữ liệu songngữ huấn luyện hệ thống dịch máy Moses 50 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 Danh sách bảng 1.1 Thống kê số lượng giónghàng loại 1.2 Ví dụ giónghàng 1.3 Các loại gói câu 11 1.4 Ước lượng tham số 12 1.5 Thống kê số lượng giónghàng loại 14 1.6 Kết chạy thuật toán Gale-Church 15 1.7 Kết chạy chương trình khác Simard Plamondon 19 1.8 Độ xác số cặp giónghàng theo số bước lặp khác thuật toán Kay 23 2.1 Bảng tỉ lệ câu chứa điểm tương đồng đơn giản 36 2.2 Chi tiết kho ngữ liệu EVB 37 2.3 Kết thử nghiệm liệu thuật toán Nguyễn Quang Huy 40 2.4 Tỉ lệ giónghàng giá trị phạt 45 2.5 Kết chạy côngcụ XAlign trước sau cải tiến 49 2.6 Tỉ lệ xác loại giónghàng 49 2.7 Điểm Bleu hệ thống 52 Danh sách hình vẽ 1.1 Mô hình Markov sinh gói câu 11 1.2 Cơ chế Jacal 17 1.3 Thuật toán Kay 20 1.4 Khởi tạo bảng AST 21 1.5 Cập nhật bảng AST 22 2.1 Biểu đồ độ dài câu tiếng Việt 34 2.2 Biểu đồ độ dài câu tiếng Anh 35 2.3 Biểu đồ độ dài cặp giónghàng 35 2.4 Thuật toán EVS 37 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (XLNNTN) lĩnh vực pháttriển mạnh mẽ Theo tổ chức MarketsAndMarkets tổng giá trị thị trường XLNNTN toàn giới tăng từ 7,63 tỉ đô la vào năm 2016 đến 16,07 tỷ đô-la vào năm 20211 Các lĩnh vực nhỏ XLNNTN đa dạng Trong đó, dịch máy lĩnh vực xuất lĩnh vực khó XLNNTN Để xây dựng hệ thống dịch máy tốt cần có kho liệu songngữ lớn Sau thu thập kho ngữ liệu ấy, cần phải tiến hành giónghàngGiónghàng có nghĩa đặt tương ứng khối văn với dịch ngôn ngữ khác Khối văn có nhiều mức mức văn bản, mức đoạn văn, mức câu, mức cụm từ, mức từ Trong giónghàng mức câu đóng vai trò quan trọng Những thuật toán hệ thống giónghàng mức câu đời vào năm cuối thập kỷ 1980 đầu 1990 ban đầu dành cho cặp ngôn ngữ châu Âu tiếng Anh, tiếng Pháp, tiếng Đức mở rộng dần cho nhiều ngôn ngữ khác tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Các công trình đa dạng cách tiếp cận chất lượng ngày tốt Đối với tiếng Việt, nghiên cứu lĩnh vực dịch máy nói chung giónghàng nói riêng chưa thử nghiệm nhiều liệu khác với kích thước đủ lớn Đặc điểm tiếng Việt khác với ngôn ngữ châu Âu, nhiều thuật toán làm việc tốt cặp ngôn ngữ châu Âu cho kết cặp ngôn ngữ có tiếng Việt Ngoài kho ngữ liệu songngữ có tiếng Việt nhỏ Tham khảo báo cáo "Natural language processing market by type & technologies" trang web: http://www.marketsandmarkets.com/Market-Reports/natural-language-processing-nlp825.html?gclid=CMbTxdGo0s8CFUYIvAodRgAEhg bé hạn chế sức người sức Bởi thế, nghiên cứu giónghàng tiếng Việt nhiều vấn đề phải giải Đó lý tác giả chọn đề tài "Phát triểncôngcụgiónghàngvănsong ngữ" Trong số ngôn ngữ giới, tiếng Anh ngôn ngữ sử dụng phổ biến nhất, ngôn ngữ lĩnh vực ngoại giao, kinh tế, văn hóa, Chính đề tài tập trung vào songngữ Anh - Việt Mục tiêu luận văn gồm có: • Khảo sát hướng nghiên cứu công trình sẵn có giónghàngvănsongngữ mức câu giới Việt Nam • Xây dựng kho ngữ liệu songngữ Anh - Việt giónghàng mức câu • Cải tiến côngcụgiónghàngvănsongngữ Anh - Việt XAlign cải thiện độ xác độ phủ • Phân tích kết đạt đề hướng nhằm nâng cao kết mở rộng cho cặp ngôn ngữ khác Cấu trúc luận văn gồm có phần chính: • Mở đầu: Giới thiệu đề tài, lý lựa chọn, mục tiêu cấu trúc luận văn • Chương 1: Tóm tắt lịch sử nhu cầu giónghàngvănsongngữ mức câu; sở lý thuyết; khảo sát chi tiết số công trình nghiên cứu côngcụgiónghàngvănsongngữ mức câu • Chương 2: Khảo sát công trình giónghàngvănsongngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích phương pháp, thuật toán, cấu trúc côngcụ XAlign; báo cáo cải tiến tác giả cộngcôngcụ kết đạt • Kết luận: Tổng kết lại nội dung trình bày luận văn, kết đạt hướng nghiên cứu pháttriển tới Chương CÁC CÁCH TIẾP CẬN GIÓNGHÀNG Trong chương này, luận văn đưa số kiến thức chuẩn bị; bối cảnh cần thiết giónghàngvănsongngữ mức câu; số hướng tiếp cận; tiêu chuẩn đánh giá độ hiệu hệ thống khảo sát số côngcụgiónghàngvănsongngữ mức câu 1.1 Kiến thức chuẩn bị Vănsongngữ (parallel corpus) văn nhiều dịch ngôn ngữ khác Vănsongngữ tồn nhiều Điển hình sách Kinh Thánh dịch nhiều thứ tiếng; văn Liên Hợp Quốc vốn viết nhiều thứ tiếng; viết songngữ trang web Trong luận văn, xét văn dịch nó, không quan tâm đến văn gốc văn dịch lại Nếu thích thêm, nói đến vănsong ngữ, hiểu văn dịch Giónghàngvănsongngữ (parallel corpus alignment) đặt tương ứng khối văn ngôn ngữ với dịch ngôn ngữ khác Tùy theo phạm vi khối văn ta có mức giónghàng khác Mức rộng giónghàngvăn l1 , l2 tính theo công thức l1 = l1 − l¯1 l2 − l¯2 , l2 = σ1 σ2 giả thiết l1 ≤ l2 Độ đo làm việc tốt so với Church Gale cặp ngôn ngữ khác Pháp - Ả-rập Cải tiến giónghàng khối lớn cặp văn trước giónghàng mức câu tỉ lệ lỗi giảm đồng thời tốc độ thực thuật toán quy hoạch động tăng lên Ví dụ giónghàng mức chương, sau giónghàng mức đoạn văn cuối giónghàng mức câu Tuy vậy, hai văn khác câu trúc mức giónghàng không hiệu Ví dụ, văn chia thành chương chương chia thành đoạn văn, dịch chia thành chương Để khắc phục, trước định có giónghàng mức câu hay không, hệ thống kiểm tra xem văn có cấu trúc mức không, không không tiến hành giónghàng mức Nếu câu trả lời có, hệ thống kiểm tra xem tỉ lệ số đoạn hai văn có cân đối không, tỉ lệ cân đối nằm khoảng từ 0,5 đến giónghàng mức 2.3.2 Cấu trúc chương trình Chương trình viết ngôn ngữ Java Đầu vào tệp văn dịch ngôn ngữ khác tách câu cấu trúc theo định dạng XML Văn đầu vào phân đoạn mức đoạn văn, chương, văn bản, điều không bắt buộc Các tham số chương trình để tệp threshold.xml xác định giá trị số tham số đầu vào chương trình Các lớp chương trình gồm có Lớp Parameters đọc tham số từ tệp threshold.xml để chạy chương trình Lớp TextDiv biểu diễn cấu trúc kiểu đệ quy khối văn Lớp bao gồm thuộc tính: father TextDiv cha mức cao chứa khối Mảng TextDiv[] daughters khối khối tại, mảng TextDiv[] alignedDaughters 42 khối giónghàng với khối Ví dụ, ta xét khối văn đoạn văn father chương chứa nó, daughters câu chứa Ngoài ra, có thuộc tính ghi lại vị trí tương đối so với toàn tệp văn từ từ cuối khối văn Các thuộc tính quan trọng bao gồm có mảng count[] số lượng khối con, accu[] độ dài con, sigma[] phương sai độ dài cháu TextDiv có phương thức như: computeStatistics để tính giá trị trung bình phương sai độ dài khối Lớp TextStructure nhận đầu vào tệp văn (tệp nguồn tệp đích) sau dựa theo cấu trúc XML tệp để phân thành đối tượng TextDiv lồng Lớp DbAlign tạo đối tượng để chạy thuật toán quy hoạch động đệ quy giónghàng mức cấu trúc (từng mức khối văn bản) Kết mức giónghàng mức đó, sau chương trình vào khối mức giónghàng khối mức thấp hơn, xong mức câu dừng lại Kết đầu ghi lại tệp text_align_0 2.3.3 Tiền xử lý liệu Dữ liệu dạng văn cấu trúc XML dạng chia thành chương, đoạn trải qua bước tiền xử lý tách câu Chúng dùng côngcụ vnSentDetector1 tác giả Lê Hồng Phương để tách câu Các văn tách câu, đoạn chưa gán nhãn chương trình yêu cầu trải qua bước để gán nhãn lại cho thống với định dạng đầu vào Hai tệp văn hai ngôn ngữ khác có cấu trúc XML tách đoạn đến mức câu làm đầu vào chương trình chạy 2.3.4 Các cải tiến thuật toán tham số côngcụ viXAlign Tác giả cộng tiến hành cải tiến quan trọng cho côngcụ viXAlign Qua thống kê cho thấy, số lượng giónghàng 3:1, 1:3, 3:3 chiếm khoảng 1,7%, giónghàng có từ Côngcụ chia sẻ miễn phí http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnSentDetector 43 câu ngôn ngữ trở lên chiếm lượng khoảng 0,28 % Do đó, tác giả đồng nghiệp mở rộng đến 1:3, 3:1, 2:3, 3:2 3:3 Như công thức truy hồi ma trận chi phí viết lại là: D(i, j − 1) + d(0, 0, 0; tj , 0, 0) + penalty01 D(i − 1, j) + d(si , 0, 0; 0, 0, 0) + penalty10 D(i − 1, j − 1) + d(si , 0, 0; tj , 0, 0) D(i − 1, j − 2) + d(si , 0, 0; tj , tj−1 , 0) + penalty12 D(i − 2, j − 1) + d(si , si−1 , 0; tj , 0, 0) + penalty21 D(i, j) = D(i − 2, j − 2) + d(si , si−1 , 0; tj , tj−1 , 0) + penalty22 D(i − 1, j − 3) + d(si , 0, 0; tj , tj−1 , tj−2 ) + penalty13 D(i − 3, j − 1) + d(si , si−1 , si−2 ; tj , 0, 0) + penalty31 D(i − 2, j − 3) + d(si , si−1 , 0; tj , tj−1 , tj−2 ) + penalty23 D(i − 3, j − 2) + d(si , si−2 , si−2 ; tj , tj−1 , 0) + penalty32 D(i − 3, j − 3) + d(si , si−1 , si−2 ; tj , tj−1 , tj−2 ) + penalty33 (2.3.1) Cải tiến thứ hai điều chỉnh giá trị penalty loại giónghàng Dựa vào kho ngữ liệu Anh - Việt gồm 5027 câu tiếng Anh 4843 câu tiếng Việt giónghàng xác thủ công để tính xác suất loại giónghàng câu so với hàng 1:1, từ điều chỉnh lại giá trị Penalty cho phù hợp Loại giónghàng 1:1 chọn làm mốc để so sánh giónghàng loại chiếm gần 90% văn Do penalty11 = 0, tham số loại giónghàng khác tính theo công thức: penaltyij = −100ln P (match(i : j)) + 177, P (match(1 : 1)) đó, ≤ i, j ≤ 3, P (match(i : j)) xác suất giónghàng i : j kho ngữ liệu songngữ Giá trị 177 xác định cách thử nhiều giá trị khác giá trị cho kết giónghàng tốt Bảng tham số penaltyij cho bảng 2.3.4 Loại giónghàng i : j xảy có giá trị penaltyij lớn 44 Loại giónghàng Tỉ lệ Tham số 1:0 0,0021 penalty10 482 0:1 0,0058 penalty01 547 1:1 0,8908 _ 2:1 0,0536 penalty21 200 1:2 0,0298 penalty12 -177 2:2 0,0024 penalty22 44 3:1 0,0086 penalty31 426 1:3 0,0030 penalty13 -265 3:2 0,0011 penalty32 657 2:3 0,0018 penalty23 795 3:3 0,0002 penalty33 4691 từ trở lên 0,0028 _ _ _ Giá trị Bảng 2.4: Tỉ lệ giónghàng giá trị phạt 45 2.3.5 Một số hướng cải tiến côngcụ tiến hành Sử dụng điểm tương đồng để cải tiến Thống kê tỉ lệ điểm tương đồng câu tiếng Anh tiếng Việt ta thấy số câu có chứa điểm tương đồng dạng đơn giản khoảng 10% Do tác giả đề nghị hướng cải tiến thuật toán dựa thông tin điểm tương đồng Cụ thể cặp giónghàng có chứa điểm tương đồng, ta cộng vào hàm chi phí ma trận giá trị âm wc Chẳng hạn, hàm chi phí cho giónghàng 1:2 công thức 2.3.1 là: D(i − 1, j − 2) + d(si , tj ; 0, tj−1 ; 0, 0) + penalty12 , điểm tương đồng D(i, j) = D(i − 1, j − 2) + d(si , tj ; 0, tj−1 ; 0, 0) + penalty12 + wc , có điểm tương đồng (2.3.2) áp dụng tương tự cho loại giónghàng khác Sử dụng thuật toán Maximum Entropy Một hướng cải tiến cho côngcụphát cặp giónghàng 1:1 với xác suất cao nhằm làm điểm neo phân chia văn thành đoạn sử dụng kết hợp thuộc tính dựa thông tin từ vựng Xét văn S T có n m câu, với câu si văn S, ta xác định √ √ √ 2α n câu tj xung quanh vị trí i×m (nghĩa i×m − α n ≤ j ≤ i×m + α n) tạo thành n n n cặp ứng viên (si , tj ) Với cặp (si , tj ), ta tính hàm tiên nghiệm p(1|(si , tj ) theo phương pháp Maximum Entropy với thuộc tính là: • Tỉ lệ độ dài câu • Tỉ lệ vị trí câu văn so với đường chéo • Số cặp từ dịch theo từ điển songngữ • Số lượng cặp điểm tương đồng 46 Tùy biến tham số tùy theo chủ đề văn Qua tìm hiểu các kết giónghàngvăn khác nhau, tác giả nhận thấy tham số trung bình độ dài câu, tỉ lệ giónghàng loại 1:1, 1:0, 0:1, 2:2 thay đổi tùy theo chủ đề Do hướng tiếp cận để cải tiến côngcụ viXAlign xây dựng tham số khác tùy theo chủ đề văn đưa vào Những việc cần làm cho hướng tiếp cận là: • Xây dựng kho ngữ liệu songngữ Anh - Việt giónghàng mức câu tùy theo chủ đề • Tiến hành thống kê tham số tỉ lệ giónghàng kho ngữ liệu • Cài đặt phát chủ đề văn cho viXAlign tùy theo chủ đề áp dụng riêng tham số cho chủ đề Trên số hướng cải tiến côngcụ mà tác giả đề xuất tiến hành Do thời gian không cho phép nên kết chưa thu không trình bày luận văn 2.4 Thu thập liệu Các tham số chương trình huấn luyện từ kho ngữ liệu, kho ngữ liệu lớn phong phú cần thiết Việc thu thập thêm liệu phần cải tiến côngcụ Tác giả đồng nghiệp tiến hành thu thập thêm liệu songngữ Anh Việt lĩnh vực du lịch Hiện nay, lượng khách du lịch nước đến du lịch Việt Nam lớn, theo thống kê Tổng cục Du lịch Việt Nam, tháng đầu năm 2016, lượng khách quốc tế đến Việt Nam 7.265.380 lượt khách Nhu cầu tra cứu thông tin du lịch hầu hết tiếng Anh Đó lý chủ đề du lịch chọn Dữ liệu kết hợp với kho ngữ liệu có songngữ "Hoàng tử bé", "Lược sử thời gian" "Kinh Thánh" để huấn luyện liệu Các liệu du lịch thu thập chủ yếu thủ công từ nguồn sau: 47 • Tài liệu giấy: sổ tay du lịch địa danh, sách luật du lịch, tạp chí du lịch, tờ rơi, tờ gấp quảng cáo du lịch, sổ tay hướng dẫn sử dụng khách sạn, sách dạy hội thoại tiếng Anh với du khách • Các vănsongngữ giới thiệu di tích ghi bia, bảng giới thiệu di tích, địa điểm du lịch • Các tệp liệu: bao gồm nguồn mục Tài liệu giấy dạng tệp tin văn bản; phần có có thêm văn hồ sơ đề nghị công nhận di sản văn hóa Việt Nam, văn hợp tác du lịch với quốc gia • Một số trang web songngữ giới thiệu du lịch Việt Nam Các liệu sau thu thập tinh chỉnh để thành tệp văn Ví dụ, sách trải qua trình scan cho ảnh chương trình trích rút văn từ Sau văn chỉnh sửa lại thủ công cho xác Để tạo liệu huấn luyện, tiến hành giónghàng đoạn văn Loại bỏ tất đoạn giónghàng kiểu xóa 1:0 chèn 0:1 Dữ liệu sau giónghàng mức câu côngcụ viXAlign kết hiệu chỉnh lại thủ công Hiện tại, tạo kho ngữ liệu songngữ du lịch gồm 5027 câu tiếng Anh 4843 câu tiếng Việt 2.5 Kết Côngcụgiónghàng viXAlign sau cải tiến lần chạy thử ngữ liệu songngữ tác phẩm "Hoàng tử bé" có chứa 1663 câu tiếng Việt 1660 câu tiếng Anh kho ngữ liệu du lịch songngữ Việt - Anh, thu kết bảng 2.5 (kết so sánh với côngcụ chưa cải tiến) Kết giónghàng cho loại giónghàng liệt kê bảng 2.6 Thống kê loại gióng hàng, thuật toán cho kết tốt với giónghàng 1:1, giónghàng 1:0 hay 0:1 hay 2:2 cho kết Điều hàm phạt chọn cho loại giónghàng 1:0, 0;1 hay 2:2 chưa tốt cần nghiên cứu 48 độ xác độ phủ độ đo F1 kho ngữ liệu trước 0,8142 0,7621 0,7873 Hoàng tử bé sau 0,8915 0,8818 0,8866 Hoàng tử bé trước 0,7417 0,8082 0,7735 Dữ liệu du lịch sau 0,9255 0,9271 0,9263 Dữ liệu du lịch Bảng 2.5: Kết chạy côngcụ XAlign trước sau cải tiến Loại Tỉ lệ xác 1:0 0:1 1:1 0,9588 1:2 0,8561 2:1 0,7840 2:2 1:3 0,2857 3:1 0,575 2:3 3:2 3:3 từ trở lên Bảng 2.6: Tỉ lệ xác loại giónghàng 49 cải thiện thêm Tổng kết lại, viXAlign cải thiện kết trung bình từ 7-10% độ xác, độ phủ độ đo F1 so với XAlign 2.6 Ứng dụng 2.6.1 Sử dụng kho ngữ liệu songngữ huấn luyện hệ thống dịch máy Moses Dịch tự động gọi dịch máy (Machine translation)1 hệ thống tự động dịch văn ngôn ngữ tự nhiên (nguồn) thành dịch tương đương ngôn ngữ tự nhiên khác (đích) Các hướng tiếp cận dịch máy đa dạng, bao gồm có: dựa luật, dịch máy thống kê, hướng lai hai phương pháp luật dịch máy thống kê, sử dụng học máy sâu (deep learning) Trong phương pháp trên, phương pháp dịch máy thống kê đời lâu Warren Weaver giới thiệu năm 1949, pháttriển mạnh từ cuối năm 1980 tỏ côngcụ hiệu lĩnh vực dịch máy sử dụng rộng rãi tiếp tục nhiều nhà nghiên cứu quan tâm Ý tưởng dịch máy thống kê sử dụng xác suất p(e|f ) để chuỗi e ngôn ngữ đích dịch chuỗi f ngôn ngữ nguồn Moses2 hệ thống dịch máy thống kê đời vào năm 2005 chia sẻ miễn phí Dữ liệu huấn luyện Moses ngữ liệu songngữgiónghàng mức câu với số lượng lớn ngữ liệu đơn ngữ lớn (để hệ thống học hình thức ngôn ngữ đầu ra) Ở pha huấn luyện, Moses trích rút từ cặp câu giónghàng từ cụm từ để xác định cặp từ cụm từ tương ứng Ở pha dịch, Moses ghép chuỗi cụm từ tương ứng với gốc Đầu chỉnh sửa nhờ vào việc học nguồn liệu đơn ngữ ngôn ngữ đích Điều mấu chốt cho tính hiệu Moses nói riêng hệ thống dịch máy thống kê nói chung liệu huấn luyện phải tốt, nhiều đa dạng Chính côngcụ viXAlign dùng để tạo kho ngữ liệu songngữ Anh - Việt giónghàng mức câu để huấn luyện Moses dịch từ tiếng Anh sang tiếng Việt Tham khảo từ nguồn Wikipedia: https://en.wikipedia.org/wiki/Machine_translation Tham khảo từ trang web Moses: http://www.statmt.org/moses/?n=Moses.Overview 50 Để đánh giá chất lượng dịch máy, ta dùng điểm Bleu Papineni đề xuất vào năm 2001 [13] Bleu đánh giá chất lượng dịch máy dựa việc so sánh dịch máy với tập dịch chuẩn chuyên gia dịch Bản dịch máy sát với dịch chuẩn đánh giá cao Điểm tương đồng đoạn văn dịch máy (thường mức câu) với tập đoạn dịch chuẩn tương ứng tính dựa số từ mà đoạn chung sau lấy giá trị trung bình điểm Vấn đề mức độ dễ hiểu xác ngữ pháp không xem xét Cụ thể điểm Bleu tính theo công thức sau: Bleu = BP × e N n=1 wn log(pn ) Trong đó: • pn số n-gram dịch máy mà xuất tập dịch tham chiếu chia cho tổng n-gram dịch máy • wn trọng số dương (có tổng N n=1 wn = 1) • BP trọng số phạt ngắn để phát dịch ngắn so với gốc, phạt ngắn tính toán toàn kho ngữ liệu lựa chọn hàm số mũ giảm r/c với c độ dài dịch ứng viên r độ dài dịch tham chiếu: 1 c > r BP = e1− rc c ≤ r Điểm Bleu xác định nằm khoảng từ đến 100, gần với 100 dịch máy đánh giá có chất lượng Chúng sử dụng 5000 cặp câu songngữ du lịch Việt-Anh mà thu thập để làm ngữ liệu huấn luyện Hệ thống dịch máy Việt–Anh Moses Cách tiến hành thực nghiệm sau: Chia 5000 cặp câu songngữ du lịch Việt-Anh thành phần, giữ lại phần (1000 cặp câu) để làm liệu kiểm tra phần lại (4000 cặp câu) huấn luyện Hệ thống dịch máy Ta thu Hệ thống dịch máy khác đánh số 2, 3, 4, 5, 51 Hệ thống Bleu Hệ thống Bleu (+) 1,05 4,16 3,11 3,70 10,23 6,53 5,06 12,88 7,82 3,12 4,40 1,28 2,83 14,29 11,46 Bảng 2.7: Điểm Bleu hệ thống Huấn luyện Hệ thống dịch máy Kho ngữ liệu 58020 cặp câu songngữ Việt-Anh, với câu songngữ thuộc nhiều lĩnh vực khác để làm liệu huấn luyện hệ thống dịch máy Chúng sử dụng cặp Hệ thống dịch máy Việt – Anh (1, 2), (1,3), (1,4), (1,5), (1,6) để dịch 1000 câu tiếng Việt mà để lại lần chia kho ngữ liệu songngữ du lịch Việt - Anh Sau dùng côngcụ tính điểm Bleu Moses để tính điểm cho hệ dịch so sánh kết tính Kết cho thấy hệ thống 2, 3, 4, 5, cải thiện điểm so với hệ thống bảng 2.7 Kết trung bình cải thiện 6,04 điểm Bleu Kết điểm Bleu huấn luyện kho ngữ liệu songngữ lĩnh vực hẹp du lịch cho thấy hệ thống dịch máy thống kê biết cách nhận biết văn cần dịch thuộc lĩnh vực sử dụng riêng tham số cho lĩnh vực cải thiện chất lượng dịch nhiều Vấn đề lại cần xây dựng kho ngữ liệu songngữ Anh - Việt giónghàng mức câu chuyên biệt cho lĩnh vực Và tác giả tích cực xây dựng kho ngữ liệu này, côngcụgiónghàng viXAlign đóng vai trò lớn 52 KẾT LUẬN Luận văn giới thiệu toán giónghàngvănsongngữ mức câu, lược sử giải toán nghiên cứu giới giónghàngvănsongngữ mức câu như: dựa độ dài câu, điểm tương đồng, thông tin từ vựng kết hợp Một số côngcụ kho ngữ liệu songngữ bật dành cho cặp ngôn ngữ trình bày luận văn Đối với tiếng Việt, luận văn phân tích đặc điểm ảnh hưởng đến giónghàng mức câu tiếng Việt, đặc biệt mối tương quan với tiếng Anh, công trình toán giónghàngvănsongngữ Anh - Việt mức câu số kho ngữ liệu songngữ Anh - Việt có Các đóng góp tác giả trình bày phần cải tiến côngcụ viXAlign nâng cao độ xác độ phủ côngcụ viXAlign thêm 6-10% thu thập liệu songngữ Anh - Việt lĩnh vực du lịch 5027 câu tiếng Anh 4843 câu tiếng Việt Một số ứng dụng sử dụng kho ngữ liệu songngữ thu thập đẻ huấn luyện hệ dịch máy Moses giúp nâng cao điểm Bleu trình bày Các hướng nghiên cứu để cải thiện kết giónghàng mức câu cho vănsongngữ có tiếng Việt: • Áp dụng điểm tương đồng để tăng độ xác tính ổn định thuật toán giónghàng đặc biệt văn không phân đoạn • Áp dụng thông tin từ vựng khác nhãn từ loại, cụm từ vào giónghàngvăn mức câu • Xây dựng từ điển songngữ xác suất để áp dụng thuật toán giónghàng dựa vào thông tin từ vựng 53 • Tiếp tục hoàn thiện kho ngữ liệu du lịch songngữ Anh - Việt • Khảo sát tham số giónghàng với thuật toán dựa chiều dài câu chủ đề văn khác như: văn học, du lịch, khoa học, tin tức, kinh tế Về mặt ứng dụng, để đóng góp thêm côngcụ liệu cho cộng đồng xử lý ngôn ngữ tiếng Việt, tác giả thực công việc sau: • Chia sẻ mã nguồn côngcụ viXAlign • Xây dựng ứng dụng web giónghàngvăn mức câu cho songngữ có tiếng Việt sinh từ điển songngữ xác suất • Xây dựng côngcụ thu thập liệu songngữ có tiếng Việt từ web • Tiếp tục thu thập liệu songngữ lĩnh vực du lịch lĩnh vực khác Những nghiên cứu đóng góp luận văn cho toán giónghàngvănsongngữ tiếng Việt bước mở đầu cho nghiên cứu toán dịch máy tự động cho tiếng Việt Đây toán khó đòi hỏi nghiên cứu lâu dài Côngcụgiónghàngvănsongngữ mức câu côngcụgiónghàngvănsongngữ mức từ với việc thu thập kho ngữ liệu songngữ từ điển songngữ đầu vào hiệu cho hệ thống dịch máy tự động 54 Tài liệu tham khảo Tiếng Anh [1] Brown, Peter F and Lai, Jennifer C and Mercer, Robert L Aligning sentences in parallel corpora Proceedings of the 29th annual meeting on Association for Computational Linguistics, 169–176, 1991 [2] Brown, Peter F and Desouza, Peter V and Mercer, Robert L and Pietra, Vincent J Della and Lai, Jenifer C Class-based n-gram models of natural language Computational linguistics, vol 18, 4, 467–479, 1992 [3] Stanley F Chen Aligning sentences in bilingual corpora using lexical information Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993 [4] Dinh Dien and Hoang Kiem Building an annotated English-Vietnamese parallel corpus for training vietnamese-related NLPs 2002 [5] William A Gale and Kenneth W Church A program for aligning sentences in bilingual corpora Computational Linguistics, 19:75–102, 1993 [6] Hai-Long Trieu, Phuong-Thai Nguyen and Le-Minh Nguyen A new feature to improve Moore’s sentence alignment method VNU Journal of Science: Comp Science & Com Eng Vol 31 No 32-44, 2015 [7] Nguyen T.M.H and Rossignol M A language-independent method for the alignment of parallel corpora 2004 55 [8] Martin Kay Text-translation alignment ACH/ALLC ’91: "Making Connections" Conference Handbook, Tempe, Arizona, March 1991 [9] Kutuzov A.B Increasing sentence alignment quality in parallel English - Russian corpus through the use of part-of-speech tagging, 2013 [10] Moore, Robert C Fast and Accurate Sentence Alignment of Bilingual Corpora Proceedings of the annual meetings of the Association for Machine Translation in the Americas, 2002 [11] André Santos A survey on parallel corpora alignment, MI-Star, 2011 [12] Simard M and Plamondon P Bilingual sentence alignment: balancing robustness and accuracy Machine Translation 13, 1, 59-80, 1998 [13] K Papipeni, S Roukos, T Ward, and W Zhu Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia pp 311-318, 2002 [14] Yong Xu, Aurelien Max, Francois Yvon Sentence alignment for literary texts: the state-ofthe-art and beyond LiLT volume 12, 6, October 2015 Tiếng Việt [15] Nguyễn Quang Huy, Nguyễn Văn Vĩnh, Phạm Nghĩa Luân, Nguyễn Quỳnh Anh Nghiên cứu phương pháp dóng hàng câu cho cặp ngôn ngữ Anh - Việt Hội thảo quốc gia lần thứ XVII, 2014 56 ... mức cụm từ thấp gióng hàng mức từ Gióng hàng văn song ngữ thực thủ công máy Trong luận văn quan tâm đến phương pháp gióng hàng văn song ngữ máy mức câu Độ xác thuật toán gióng hàng văn song ngữ. .. ngôn ngữ cho văn bản, gióng hàng mức văn xác định văn dịch văn Ở mức thấp gióng hàng mức chương (nếu văn chia làm nhiều chương) nghĩa gióng hàng chương với chương; đến gióng hàng mức đoạn văn, ... thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích