Phát triển công cụ gióng hàng văn bản song ngữ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	63
Dung lượng	845,84 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – 2016 Lời cảm ơn Trong trình thực luận văn năm học vừa qua, em nhận bảo hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin gửi tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên Khoa Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula tận tình dạy dỗ giúp đỡ em năm giảng đường đại học cao học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu thực nên luận văn chắn nhiều thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2016 Học viên Nguyễn Minh Hải Mục lục Lời cảm ơn MỞ ĐẦU 1 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG 1.1 Kiến thức chuẩn bị 1.2 Bối cảnh 1.3 Các hướng tiếp cận gióng hàng 1.3.1 Phương pháp gióng hàng dựa vào chiều dài câu 1.3.2 Phương pháp gióng hàng dựa vào điểm tương đồng 16 1.3.3 Phương pháp gióng hàng dựa vào từ vựng 19 1.3.4 Kết hợp phương pháp 26 1.4 Một số công cụ gióng hàng 29 1.4.1 NATools 30 1.4.2 GIZA++ 1.4.3 hunalign 30 1.4.4 Per-Fide 30 1.4.5 cwb-align 31 1.4.6 WinAlign 31 30 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT 2.1 33 Đặc điểm tiếng Anh tiếng Việt 33 2.2 Các nghiên cứu công cụ gióng hàng văn song ngữ mức câu tiếng Việt 36 2.3 Công cụ XAlign 40 2.3.1 Thuật toán quy hoạch động 41 2.3.2 Cấu trúc chương trình 42 2.3.3 Tiền xử lý liệu 43 2.3.4 Các cải tiến thuật toán tham số công cụ viXAlign 43 2.3.5 Một số hướng cải tiến công cụ tiến hành 46 2.4 Thu thập liệu 47 2.5 Kết 48 2.6 Ứng dụng 50 2.6.1 Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 Danh sách bảng 1.1 Thống kê số lượng gióng hàng loại 1.2 Ví dụ gióng hàng 1.3 Các loại gói câu 11 1.4 Ước lượng tham số 12 1.5 Thống kê số lượng gióng hàng loại 14 1.6 Kết chạy thuật toán Gale-Church 15 1.7 Kết chạy chương trình khác Simard Plamondon 19 1.8 Độ xác số cặp gióng hàng theo số bước lặp khác thuật toán Kay 23 2.1 Bảng tỉ lệ câu chứa điểm tương đồng đơn giản 36 2.2 Chi tiết kho ngữ liệu EVB 37 2.3 Kết thử nghiệm liệu thuật toán Nguyễn Quang Huy 40 2.4 Tỉ lệ gióng hàng giá trị phạt 45 2.5 Kết chạy công cụ XAlign trước sau cải tiến 49 2.6 Tỉ lệ xác loại gióng hàng 49 2.7 Điểm Bleu hệ thống 52 Danh sách hình vẽ 1.1 Mô hình Markov sinh gói câu 11 1.2 Cơ chế Jacal 17 1.3 Thuật toán Kay 20 1.4 Khởi tạo bảng AST 21 1.5 Cập nhật bảng AST 22 2.1 Biểu đồ độ dài câu tiếng Việt 34 2.2 Biểu đồ độ dài câu tiếng Anh 35 2.3 Biểu đồ độ dài cặp gióng hàng 35 2.4 Thuật toán EVS 37 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (XLNNTN) lĩnh vực phát triển mạnh mẽ Theo tổ chức MarketsAndMarkets tổng giá trị thị trường XLNNTN toàn giới tăng từ 7,63 tỉ đô la vào năm 2016 đến 16,07 tỷ đô-la vào năm 20211 Các lĩnh vực nhỏ XLNNTN đa dạng Trong đó, dịch máy lĩnh vực xuất lĩnh vực khó XLNNTN Để xây dựng hệ thống dịch máy tốt cần có kho liệu song ngữ lớn Sau thu thập kho ngữ liệu ấy, cần phải tiến hành gióng hàng Gióng hàng có nghĩa đặt tương ứng khối văn với dịch ngôn ngữ khác Khối văn có nhiều mức mức văn bản, mức đoạn văn, mức câu, mức cụm từ, mức từ Trong gióng hàng mức câu đóng vai trò quan trọng Những thuật toán hệ thống gióng hàng mức câu đời vào năm cuối thập kỷ 1980 đầu 1990 ban đầu dành cho cặp ngôn ngữ châu Âu tiếng Anh, tiếng Pháp, tiếng Đức mở rộng dần cho nhiều ngôn ngữ khác tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Các công trình đa dạng cách tiếp cận chất lượng ngày tốt Đối với tiếng Việt, nghiên cứu lĩnh vực dịch máy nói chung gióng hàng nói riêng chưa thử nghiệm nhiều liệu khác với kích thước đủ lớn Đặc điểm tiếng Việt khác với ngôn ngữ châu Âu, nhiều thuật toán làm việc tốt cặp ngôn ngữ châu Âu cho kết cặp ngôn ngữ có tiếng Việt Ngoài kho ngữ liệu song ngữ có tiếng Việt nhỏ Tham khảo báo cáo "Natural language processing market by type & technologies" trang web: http://www.marketsandmarkets.com/Market-Reports/natural-language-processing-nlp825.html?gclid=CMbTxdGo0s8CFUYIvAodRgAEhg bé hạn chế sức người sức Bởi thế, nghiên cứu gióng hàng tiếng Việt nhiều vấn đề phải giải Đó lý tác giả chọn đề tài "Phát triển công cụ gióng hàng văn song ngữ" Trong số ngôn ngữ giới, tiếng Anh ngôn ngữ sử dụng phổ biến nhất, ngôn ngữ lĩnh vực ngoại giao, kinh tế, văn hóa, Chính đề tài tập trung vào song ngữ Anh - Việt Mục tiêu luận văn gồm có: • Khảo sát hướng nghiên cứu công trình sẵn có gióng hàng văn song ngữ mức câu giới Việt Nam • Xây dựng kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu • Cải tiến công cụ gióng hàng văn song ngữ Anh - Việt XAlign cải thiện độ xác độ phủ • Phân tích kết đạt đề hướng nhằm nâng cao kết mở rộng cho cặp ngôn ngữ khác Cấu trúc luận văn gồm có phần chính: • Mở đầu: Giới thiệu đề tài, lý lựa chọn, mục tiêu cấu trúc luận văn • Chương 1: Tóm tắt lịch sử nhu cầu gióng hàng văn song ngữ mức câu; sở lý thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích phương pháp, thuật toán, cấu trúc công cụ XAlign; báo cáo cải tiến tác giả cộng công cụ kết đạt • Kết luận: Tổng kết lại nội dung trình bày luận văn, kết đạt hướng nghiên cứu phát triển tới Chương CÁC CÁCH TIẾP CẬN GIÓNG HÀNG Trong chương này, luận văn đưa số kiến thức chuẩn bị; bối cảnh cần thiết gióng hàng văn song ngữ mức câu; số hướng tiếp cận; tiêu chuẩn đánh giá độ hiệu hệ thống khảo sát số công cụ gióng hàng văn song ngữ mức câu 1.1 Kiến thức chuẩn bị Văn song ngữ (parallel corpus) văn nhiều dịch ngôn ngữ khác Văn song ngữ tồn nhiều Điển hình sách Kinh Thánh dịch nhiều thứ tiếng; văn Liên Hợp Quốc vốn viết nhiều thứ tiếng; viết song ngữ trang web Trong luận văn, xét văn dịch nó, không quan tâm đến văn gốc văn dịch lại Nếu thích thêm, nói đến văn song ngữ, hiểu văn dịch Gióng hàng văn song ngữ (parallel corpus alignment) đặt tương ứng khối văn ngôn ngữ với dịch ngôn ngữ khác Tùy theo phạm vi khối văn ta có mức gióng hàng khác Mức rộng gióng hàng văn l1 , l2 tính theo công thức l1 = l1 − l¯1 l2 − l¯2 , l2 = σ1 σ2 giả thiết l1 ≤ l2 Độ đo làm việc tốt so với Church Gale cặp ngôn ngữ khác Pháp - Ả-rập Cải tiến gióng hàng khối lớn cặp văn trước gióng hàng mức câu tỉ lệ lỗi giảm đồng thời tốc độ thực thuật toán quy hoạch động tăng lên Ví dụ gióng hàng mức chương, sau gióng hàng mức đoạn văn cuối gióng hàng mức câu Tuy vậy, hai văn khác câu trúc mức gióng hàng không hiệu Ví dụ, văn chia thành chương chương chia thành đoạn văn, dịch chia thành chương Để khắc phục, trước định có gióng hàng mức câu hay không, hệ thống kiểm tra xem văn có cấu trúc mức không, không không tiến hành gióng hàng mức Nếu câu trả lời có, hệ thống kiểm tra xem tỉ lệ số đoạn hai văn có cân đối không, tỉ lệ cân đối nằm khoảng từ 0,5 đến gióng hàng mức 2.3.2 Cấu trúc chương trình Chương trình viết ngôn ngữ Java Đầu vào tệp văn dịch ngôn ngữ khác tách câu cấu trúc theo định dạng XML Văn đầu vào phân đoạn mức đoạn văn, chương, văn bản, điều không bắt buộc Các tham số chương trình để tệp threshold.xml xác định giá trị số tham số đầu vào chương trình Các lớp chương trình gồm có Lớp Parameters đọc tham số từ tệp threshold.xml để chạy chương trình Lớp TextDiv biểu diễn cấu trúc kiểu đệ quy khối văn Lớp bao gồm thuộc tính: father TextDiv cha mức cao chứa khối Mảng TextDiv[] daughters khối khối tại, mảng TextDiv[] alignedDaughters 42 khối gióng hàng với khối Ví dụ, ta xét khối văn đoạn văn father chương chứa nó, daughters câu chứa Ngoài ra, có thuộc tính ghi lại vị trí tương đối so với toàn tệp văn từ từ cuối khối văn Các thuộc tính quan trọng bao gồm có mảng count[] số lượng khối con, accu[] độ dài con, sigma[] phương sai độ dài cháu TextDiv có phương thức như: computeStatistics để tính giá trị trung bình phương sai độ dài khối Lớp TextStructure nhận đầu vào tệp văn (tệp nguồn tệp đích) sau dựa theo cấu trúc XML tệp để phân thành đối tượng TextDiv lồng Lớp DbAlign tạo đối tượng để chạy thuật toán quy hoạch động đệ quy gióng hàng mức cấu trúc (từng mức khối văn bản) Kết mức gióng hàng mức đó, sau chương trình vào khối mức gióng hàng khối mức thấp hơn, xong mức câu dừng lại Kết đầu ghi lại tệp text_align_0 2.3.3 Tiền xử lý liệu Dữ liệu dạng văn cấu trúc XML dạng chia thành chương, đoạn trải qua bước tiền xử lý tách câu Chúng dùng công cụ vnSentDetector1 tác giả Lê Hồng Phương để tách câu Các văn tách câu, đoạn chưa gán nhãn chương trình yêu cầu trải qua bước để gán nhãn lại cho thống với định dạng đầu vào Hai tệp văn hai ngôn ngữ khác có cấu trúc XML tách đoạn đến mức câu làm đầu vào chương trình chạy 2.3.4 Các cải tiến thuật toán tham số công cụ viXAlign Tác giả cộng tiến hành cải tiến quan trọng cho công cụ viXAlign Qua thống kê cho thấy, số lượng gióng hàng 3:1, 1:3, 3:3 chiếm khoảng 1,7%, gióng hàng có từ Công cụ chia sẻ miễn phí http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnSentDetector 43 câu ngôn ngữ trở lên chiếm lượng khoảng 0,28 % Do đó, tác giả đồng nghiệp mở rộng đến 1:3, 3:1, 2:3, 3:2 3:3 Như công thức truy hồi ma trận chi phí viết lại là:     D(i, j − 1) + d(0, 0, 0; tj , 0, 0) + penalty01        D(i − 1, j) + d(si , 0, 0; 0, 0, 0) + penalty10        D(i − 1, j − 1) + d(si , 0, 0; tj , 0, 0)        D(i − 1, j − 2) + d(si , 0, 0; tj , tj−1 , 0) + penalty12         D(i − 2, j − 1) + d(si , si−1 , 0; tj , 0, 0) + penalty21    D(i, j) = D(i − 2, j − 2) + d(si , si−1 , 0; tj , tj−1 , 0) + penalty22       D(i − 1, j − 3) + d(si , 0, 0; tj , tj−1 , tj−2 ) + penalty13        D(i − 3, j − 1) + d(si , si−1 , si−2 ; tj , 0, 0) + penalty31         D(i − 2, j − 3) + d(si , si−1 , 0; tj , tj−1 , tj−2 ) + penalty23        D(i − 3, j − 2) + d(si , si−2 , si−2 ; tj , tj−1 , 0) + penalty32       D(i − 3, j − 3) + d(si , si−1 , si−2 ; tj , tj−1 , tj−2 ) + penalty33 (2.3.1) Cải tiến thứ hai điều chỉnh giá trị penalty loại gióng hàng Dựa vào kho ngữ liệu Anh - Việt gồm 5027 câu tiếng Anh 4843 câu tiếng Việt gióng hàng xác thủ công để tính xác suất loại gióng hàng câu so với hàng 1:1, từ điều chỉnh lại giá trị Penalty cho phù hợp Loại gióng hàng 1:1 chọn làm mốc để so sánh gióng hàng loại chiếm gần 90% văn Do penalty11 = 0, tham số loại gióng hàng khác tính theo công thức: penaltyij = −100ln P (match(i : j)) + 177, P (match(1 : 1)) đó, ≤ i, j ≤ 3, P (match(i : j)) xác suất gióng hàng i : j kho ngữ liệu song ngữ Giá trị 177 xác định cách thử nhiều giá trị khác giá trị cho kết gióng hàng tốt Bảng tham số penaltyij cho bảng 2.3.4 Loại gióng hàng i : j xảy có giá trị penaltyij lớn 44 Loại gióng hàng Tỉ lệ Tham số 1:0 0,0021 penalty10 482 0:1 0,0058 penalty01 547 1:1 0,8908 _ 2:1 0,0536 penalty21 200 1:2 0,0298 penalty12 -177 2:2 0,0024 penalty22 44 3:1 0,0086 penalty31 426 1:3 0,0030 penalty13 -265 3:2 0,0011 penalty32 657 2:3 0,0018 penalty23 795 3:3 0,0002 penalty33 4691 từ trở lên 0,0028 _ _ _ Giá trị Bảng 2.4: Tỉ lệ gióng hàng giá trị phạt 45 2.3.5 Một số hướng cải tiến công cụ tiến hành Sử dụng điểm tương đồng để cải tiến Thống kê tỉ lệ điểm tương đồng câu tiếng Anh tiếng Việt ta thấy số câu có chứa điểm tương đồng dạng đơn giản khoảng 10% Do tác giả đề nghị hướng cải tiến thuật toán dựa thông tin điểm tương đồng Cụ thể cặp gióng hàng có chứa điểm tương đồng, ta cộng vào hàm chi phí ma trận giá trị âm wc Chẳng hạn, hàm chi phí cho gióng hàng 1:2 công thức 2.3.1 là:   D(i − 1, j − 2) + d(si , tj ; 0, tj−1 ; 0, 0) + penalty12 , điểm tương đồng D(i, j) =  D(i − 1, j − 2) + d(si , tj ; 0, tj−1 ; 0, 0) + penalty12 + wc , có điểm tương đồng (2.3.2) áp dụng tương tự cho loại gióng hàng khác Sử dụng thuật toán Maximum Entropy Một hướng cải tiến cho công cụ phát cặp gióng hàng 1:1 với xác suất cao nhằm làm điểm neo phân chia văn thành đoạn sử dụng kết hợp thuộc tính dựa thông tin từ vựng Xét văn S T có n m câu, với câu si văn S, ta xác định √ √ √ 2α n câu tj xung quanh vị trí i×m (nghĩa i×m − α n ≤ j ≤ i×m + α n) tạo thành n n n cặp ứng viên (si , tj ) Với cặp (si , tj ), ta tính hàm tiên nghiệm p(1|(si , tj ) theo phương pháp Maximum Entropy với thuộc tính là: • Tỉ lệ độ dài câu • Tỉ lệ vị trí câu văn so với đường chéo • Số cặp từ dịch theo từ điển song ngữ • Số lượng cặp điểm tương đồng 46 Tùy biến tham số tùy theo chủ đề văn Qua tìm hiểu các kết gióng hàng văn khác nhau, tác giả nhận thấy tham số trung bình độ dài câu, tỉ lệ gióng hàng loại 1:1, 1:0, 0:1, 2:2 thay đổi tùy theo chủ đề Do hướng tiếp cận để cải tiến công cụ viXAlign xây dựng tham số khác tùy theo chủ đề văn đưa vào Những việc cần làm cho hướng tiếp cận là: • Xây dựng kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu tùy theo chủ đề • Tiến hành thống kê tham số tỉ lệ gióng hàng kho ngữ liệu • Cài đặt phát chủ đề văn cho viXAlign tùy theo chủ đề áp dụng riêng tham số cho chủ đề Trên số hướng cải tiến công cụ mà tác giả đề xuất tiến hành Do thời gian không cho phép nên kết chưa thu không trình bày luận văn 2.4 Thu thập liệu Các tham số chương trình huấn luyện từ kho ngữ liệu, kho ngữ liệu lớn phong phú cần thiết Việc thu thập thêm liệu phần cải tiến công cụ Tác giả đồng nghiệp tiến hành thu thập thêm liệu song ngữ Anh Việt lĩnh vực du lịch Hiện nay, lượng khách du lịch nước đến du lịch Việt Nam lớn, theo thống kê Tổng cục Du lịch Việt Nam, tháng đầu năm 2016, lượng khách quốc tế đến Việt Nam 7.265.380 lượt khách Nhu cầu tra cứu thông tin du lịch hầu hết tiếng Anh Đó lý chủ đề du lịch chọn Dữ liệu kết hợp với kho ngữ liệu có song ngữ "Hoàng tử bé", "Lược sử thời gian" "Kinh Thánh" để huấn luyện liệu Các liệu du lịch thu thập chủ yếu thủ công từ nguồn sau: 47 • Tài liệu giấy: sổ tay du lịch địa danh, sách luật du lịch, tạp chí du lịch, tờ rơi, tờ gấp quảng cáo du lịch, sổ tay hướng dẫn sử dụng khách sạn, sách dạy hội thoại tiếng Anh với du khách • Các văn song ngữ giới thiệu di tích ghi bia, bảng giới thiệu di tích, địa điểm du lịch • Các tệp liệu: bao gồm nguồn mục Tài liệu giấy dạng tệp tin văn bản; phần có có thêm văn hồ sơ đề nghị công nhận di sản văn hóa Việt Nam, văn hợp tác du lịch với quốc gia • Một số trang web song ngữ giới thiệu du lịch Việt Nam Các liệu sau thu thập tinh chỉnh để thành tệp văn Ví dụ, sách trải qua trình scan cho ảnh chương trình trích rút văn từ Sau văn chỉnh sửa lại thủ công cho xác Để tạo liệu huấn luyện, tiến hành gióng hàng đoạn văn Loại bỏ tất đoạn gióng hàng kiểu xóa 1:0 chèn 0:1 Dữ liệu sau gióng hàng mức câu công cụ viXAlign kết hiệu chỉnh lại thủ công Hiện tại, tạo kho ngữ liệu song ngữ du lịch gồm 5027 câu tiếng Anh 4843 câu tiếng Việt 2.5 Kết Công cụ gióng hàng viXAlign sau cải tiến lần chạy thử ngữ liệu song ngữ tác phẩm "Hoàng tử bé" có chứa 1663 câu tiếng Việt 1660 câu tiếng Anh kho ngữ liệu du lịch song ngữ Việt - Anh, thu kết bảng 2.5 (kết so sánh với công cụ chưa cải tiến) Kết gióng hàng cho loại gióng hàng liệt kê bảng 2.6 Thống kê loại gióng hàng, thuật toán cho kết tốt với gióng hàng 1:1, gióng hàng 1:0 hay 0:1 hay 2:2 cho kết Điều hàm phạt chọn cho loại gióng hàng 1:0, 0;1 hay 2:2 chưa tốt cần nghiên cứu 48 độ xác độ phủ độ đo F1 kho ngữ liệu trước 0,8142 0,7621 0,7873 Hoàng tử bé sau 0,8915 0,8818 0,8866 Hoàng tử bé trước 0,7417 0,8082 0,7735 Dữ liệu du lịch sau 0,9255 0,9271 0,9263 Dữ liệu du lịch Bảng 2.5: Kết chạy công cụ XAlign trước sau cải tiến Loại Tỉ lệ xác 1:0 0:1 1:1 0,9588 1:2 0,8561 2:1 0,7840 2:2 1:3 0,2857 3:1 0,575 2:3 3:2 3:3 từ trở lên Bảng 2.6: Tỉ lệ xác loại gióng hàng 49 cải thiện thêm Tổng kết lại, viXAlign cải thiện kết trung bình từ 7-10% độ xác, độ phủ độ đo F1 so với XAlign 2.6 Ứng dụng 2.6.1 Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses Dịch tự động gọi dịch máy (Machine translation)1 hệ thống tự động dịch văn ngôn ngữ tự nhiên (nguồn) thành dịch tương đương ngôn ngữ tự nhiên khác (đích) Các hướng tiếp cận dịch máy đa dạng, bao gồm có: dựa luật, dịch máy thống kê, hướng lai hai phương pháp luật dịch máy thống kê, sử dụng học máy sâu (deep learning) Trong phương pháp trên, phương pháp dịch máy thống kê đời lâu Warren Weaver giới thiệu năm 1949, phát triển mạnh từ cuối năm 1980 tỏ công cụ hiệu lĩnh vực dịch máy sử dụng rộng rãi tiếp tục nhiều nhà nghiên cứu quan tâm Ý tưởng dịch máy thống kê sử dụng xác suất p(e|f ) để chuỗi e ngôn ngữ đích dịch chuỗi f ngôn ngữ nguồn Moses2 hệ thống dịch máy thống kê đời vào năm 2005 chia sẻ miễn phí Dữ liệu huấn luyện Moses ngữ liệu song ngữ gióng hàng mức câu với số lượng lớn ngữ liệu đơn ngữ lớn (để hệ thống học hình thức ngôn ngữ đầu ra) Ở pha huấn luyện, Moses trích rút từ cặp câu gióng hàng từ cụm từ để xác định cặp từ cụm từ tương ứng Ở pha dịch, Moses ghép chuỗi cụm từ tương ứng với gốc Đầu chỉnh sửa nhờ vào việc học nguồn liệu đơn ngữ ngôn ngữ đích Điều mấu chốt cho tính hiệu Moses nói riêng hệ thống dịch máy thống kê nói chung liệu huấn luyện phải tốt, nhiều đa dạng Chính công cụ viXAlign dùng để tạo kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu để huấn luyện Moses dịch từ tiếng Anh sang tiếng Việt Tham khảo từ nguồn Wikipedia: https://en.wikipedia.org/wiki/Machine_translation Tham khảo từ trang web Moses: http://www.statmt.org/moses/?n=Moses.Overview 50 Để đánh giá chất lượng dịch máy, ta dùng điểm Bleu Papineni đề xuất vào năm 2001 [13] Bleu đánh giá chất lượng dịch máy dựa việc so sánh dịch máy với tập dịch chuẩn chuyên gia dịch Bản dịch máy sát với dịch chuẩn đánh giá cao Điểm tương đồng đoạn văn dịch máy (thường mức câu) với tập đoạn dịch chuẩn tương ứng tính dựa số từ mà đoạn chung sau lấy giá trị trung bình điểm Vấn đề mức độ dễ hiểu xác ngữ pháp không xem xét Cụ thể điểm Bleu tính theo công thức sau: Bleu = BP × e N n=1 wn log(pn ) Trong đó: • pn số n-gram dịch máy mà xuất tập dịch tham chiếu chia cho tổng n-gram dịch máy • wn trọng số dương (có tổng N n=1 wn = 1) • BP trọng số phạt ngắn để phát dịch ngắn so với gốc, phạt ngắn tính toán toàn kho ngữ liệu lựa chọn hàm số mũ giảm r/c với c độ dài dịch ứng viên r độ dài dịch tham chiếu:   1 c > r BP =  e1− rc c ≤ r Điểm Bleu xác định nằm khoảng từ đến 100, gần với 100 dịch máy đánh giá có chất lượng Chúng sử dụng 5000 cặp câu song ngữ du lịch Việt-Anh mà thu thập để làm ngữ liệu huấn luyện Hệ thống dịch máy Việt–Anh Moses Cách tiến hành thực nghiệm sau: Chia 5000 cặp câu song ngữ du lịch Việt-Anh thành phần, giữ lại phần (1000 cặp câu) để làm liệu kiểm tra phần lại (4000 cặp câu) huấn luyện Hệ thống dịch máy Ta thu Hệ thống dịch máy khác đánh số 2, 3, 4, 5, 51 Hệ thống Bleu Hệ thống Bleu (+) 1,05 4,16 3,11 3,70 10,23 6,53 5,06 12,88 7,82 3,12 4,40 1,28 2,83 14,29 11,46 Bảng 2.7: Điểm Bleu hệ thống Huấn luyện Hệ thống dịch máy Kho ngữ liệu 58020 cặp câu song ngữ Việt-Anh, với câu song ngữ thuộc nhiều lĩnh vực khác để làm liệu huấn luyện hệ thống dịch máy Chúng sử dụng cặp Hệ thống dịch máy Việt – Anh (1, 2), (1,3), (1,4), (1,5), (1,6) để dịch 1000 câu tiếng Việt mà để lại lần chia kho ngữ liệu song ngữ du lịch Việt - Anh Sau dùng công cụ tính điểm Bleu Moses để tính điểm cho hệ dịch so sánh kết tính Kết cho thấy hệ thống 2, 3, 4, 5, cải thiện điểm so với hệ thống bảng 2.7 Kết trung bình cải thiện 6,04 điểm Bleu Kết điểm Bleu huấn luyện kho ngữ liệu song ngữ lĩnh vực hẹp du lịch cho thấy hệ thống dịch máy thống kê biết cách nhận biết văn cần dịch thuộc lĩnh vực sử dụng riêng tham số cho lĩnh vực cải thiện chất lượng dịch nhiều Vấn đề lại cần xây dựng kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu chuyên biệt cho lĩnh vực Và tác giả tích cực xây dựng kho ngữ liệu này, công cụ gióng hàng viXAlign đóng vai trò lớn 52 KẾT LUẬN Luận văn giới thiệu toán gióng hàng văn song ngữ mức câu, lược sử giải toán nghiên cứu giới gióng hàng văn song ngữ mức câu như: dựa độ dài câu, điểm tương đồng, thông tin từ vựng kết hợp Một số công cụ kho ngữ liệu song ngữ bật dành cho cặp ngôn ngữ trình bày luận văn Đối với tiếng Việt, luận văn phân tích đặc điểm ảnh hưởng đến gióng hàng mức câu tiếng Việt, đặc biệt mối tương quan với tiếng Anh, công trình toán gióng hàng văn song ngữ Anh - Việt mức câu số kho ngữ liệu song ngữ Anh - Việt có Các đóng góp tác giả trình bày phần cải tiến công cụ viXAlign nâng cao độ xác độ phủ công cụ viXAlign thêm 6-10% thu thập liệu song ngữ Anh - Việt lĩnh vực du lịch 5027 câu tiếng Anh 4843 câu tiếng Việt Một số ứng dụng sử dụng kho ngữ liệu song ngữ thu thập đẻ huấn luyện hệ dịch máy Moses giúp nâng cao điểm Bleu trình bày Các hướng nghiên cứu để cải thiện kết gióng hàng mức câu cho văn song ngữ có tiếng Việt: • Áp dụng điểm tương đồng để tăng độ xác tính ổn định thuật toán gióng hàng đặc biệt văn không phân đoạn • Áp dụng thông tin từ vựng khác nhãn từ loại, cụm từ vào gióng hàng văn mức câu • Xây dựng từ điển song ngữ xác suất để áp dụng thuật toán gióng hàng dựa vào thông tin từ vựng 53 • Tiếp tục hoàn thiện kho ngữ liệu du lịch song ngữ Anh - Việt • Khảo sát tham số gióng hàng với thuật toán dựa chiều dài câu chủ đề văn khác như: văn học, du lịch, khoa học, tin tức, kinh tế Về mặt ứng dụng, để đóng góp thêm công cụ liệu cho cộng đồng xử lý ngôn ngữ tiếng Việt, tác giả thực công việc sau: • Chia sẻ mã nguồn công cụ viXAlign • Xây dựng ứng dụng web gióng hàng văn mức câu cho song ngữ có tiếng Việt sinh từ điển song ngữ xác suất • Xây dựng công cụ thu thập liệu song ngữ có tiếng Việt từ web • Tiếp tục thu thập liệu song ngữ lĩnh vực du lịch lĩnh vực khác Những nghiên cứu đóng góp luận văn cho toán gióng hàng văn song ngữ tiếng Việt bước mở đầu cho nghiên cứu toán dịch máy tự động cho tiếng Việt Đây toán khó đòi hỏi nghiên cứu lâu dài Công cụ gióng hàng văn song ngữ mức câu công cụ gióng hàng văn song ngữ mức từ với việc thu thập kho ngữ liệu song ngữ từ điển song ngữ đầu vào hiệu cho hệ thống dịch máy tự động 54 Tài liệu tham khảo Tiếng Anh [1] Brown, Peter F and Lai, Jennifer C and Mercer, Robert L Aligning sentences in parallel corpora Proceedings of the 29th annual meeting on Association for Computational Linguistics, 169–176, 1991 [2] Brown, Peter F and Desouza, Peter V and Mercer, Robert L and Pietra, Vincent J Della and Lai, Jenifer C Class-based n-gram models of natural language Computational linguistics, vol 18, 4, 467–479, 1992 [3] Stanley F Chen Aligning sentences in bilingual corpora using lexical information Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993 [4] Dinh Dien and Hoang Kiem Building an annotated English-Vietnamese parallel corpus for training vietnamese-related NLPs 2002 [5] William A Gale and Kenneth W Church A program for aligning sentences in bilingual corpora Computational Linguistics, 19:75–102, 1993 [6] Hai-Long Trieu, Phuong-Thai Nguyen and Le-Minh Nguyen A new feature to improve Moore’s sentence alignment method VNU Journal of Science: Comp Science & Com Eng Vol 31 No 32-44, 2015 [7] Nguyen T.M.H and Rossignol M A language-independent method for the alignment of parallel corpora 2004 55 [8] Martin Kay Text-translation alignment ACH/ALLC ’91: "Making Connections" Conference Handbook, Tempe, Arizona, March 1991 [9] Kutuzov A.B Increasing sentence alignment quality in parallel English - Russian corpus through the use of part-of-speech tagging, 2013 [10] Moore, Robert C Fast and Accurate Sentence Alignment of Bilingual Corpora Proceedings of the annual meetings of the Association for Machine Translation in the Americas, 2002 [11] André Santos A survey on parallel corpora alignment, MI-Star, 2011 [12] Simard M and Plamondon P Bilingual sentence alignment: balancing robustness and accuracy Machine Translation 13, 1, 59-80, 1998 [13] K Papipeni, S Roukos, T Ward, and W Zhu Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia pp 311-318, 2002 [14] Yong Xu, Aurelien Max, Francois Yvon Sentence alignment for literary texts: the state-ofthe-art and beyond LiLT volume 12, 6, October 2015 Tiếng Việt [15] Nguyễn Quang Huy, Nguyễn Văn Vĩnh, Phạm Nghĩa Luân, Nguyễn Quỳnh Anh Nghiên cứu phương pháp dóng hàng câu cho cặp ngôn ngữ Anh - Việt Hội thảo quốc gia lần thứ XVII, 2014 56 ... mức cụm từ thấp gióng hàng mức từ Gióng hàng văn song ngữ thực thủ công máy Trong luận văn quan tâm đến phương pháp gióng hàng văn song ngữ máy mức câu Độ xác thuật toán gióng hàng văn song ngữ. .. ngôn ngữ cho văn bản, gióng hàng mức văn xác định văn dịch văn Ở mức thấp gióng hàng mức chương (nếu văn chia làm nhiều chương) nghĩa gióng hàng chương với chương; đến gióng hàng mức đoạn văn, ... thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích

Ngày đăng: 12/09/2017, 11:19

Xem thêm