Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
493,87 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁTTRIỂNCÔNGCỤGIÓNGHÀNGVĂNBẢNSONGNGỮ LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁTTRIỂNCÔNGCỤGIÓNGHÀNGVĂNBẢNSONGNGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – 2016 Lời cảm ơn Trong trình thực luận văn năm học vừa qua, em nhận bảo hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin gửi tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên Khoa Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula tận tình dạy dỗ giúp đỡ em năm giảng đường đại học cao học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu thực nên luận văn chắn nhiều thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2016 Học viên Nguyễn Minh Hải Mục lục Lời cảm ơn MỞ ĐẦU 1 CÁC CÁCH TIẾP CẬN GIÓNGHÀNG 1.1 Kiến thức chuẩn bị 1.2 Bối cảnh 1.3 Các hướng tiếp cận giónghàng 1.3.1 Phương pháp giónghàng dựa vào chiều dài câu 1.3.2 Phương pháp giónghàng dựa vào điểm tương đồng 16 1.3.3 Phương pháp giónghàng dựa vào từ vựng 19 1.3.4 Kết hợp phương pháp 26 1.4 Một số côngcụgiónghàng 29 1.4.1 NATools 30 1.4.2 GIZA++ 1.4.3 hunalign 30 1.4.4 Per-Fide 30 1.4.5 cwb-align 31 1.4.6 WinAlign 31 30 GIÓNGHÀNGVĂNBẢNSONGNGỮ ANH - VIỆT 2.1 33 Đặc điểm tiếng Anh tiếng Việt 33 2.2 Các nghiên cứu côngcụgiónghàngvănsongngữ mức câu tiếng Việt 36 2.3 Côngcụ XAlign 40 2.3.1 Thuật toán quy hoạch động 41 2.3.2 Cấu trúc chương trình 42 2.3.3 Tiền xử lý liệu 43 2.3.4 Các cải tiến thuật toán tham số côngcụ viXAlign 43 2.3.5 Một số hướng cải tiến côngcụ tiến hành 46 2.4 Thu thập liệu 47 2.5 Kết 48 2.6 Ứng dụng 50 2.6.1 Sử dụng kho ngữ liệu songngữ huấn luyện hệ thống dịch máy Moses 50 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 Danh sách bảng 1.1 Thống kê số lượng giónghàng loại 1.2 Ví dụ giónghàng 1.3 Các loại gói câu 11 1.4 Ước lượng tham số 12 1.5 Thống kê số lượng giónghàng loại 14 1.6 Kết chạy thuật toán Gale-Church 15 1.7 Kết chạy chương trình khác Simard Plamondon 19 1.8 Độ xác số cặp giónghàng theo số bước lặp khác thuật toán Kay 23 2.1 Bảng tỉ lệ câu chứa điểm tương đồng đơn giản 36 2.2 Chi tiết kho ngữ liệu EVB 37 2.3 Kết thử nghiệm liệu thuật toán Nguyễn Quang Huy 40 2.4 Tỉ lệ giónghàng giá trị phạt 45 2.5 Kết chạy côngcụ XAlign trước sau cải tiến 49 2.6 Tỉ lệ xác loại giónghàng 49 2.7 Điểm Bleu hệ thống 52 Danh sách hình vẽ 1.1 Mô hình Markov sinh gói câu 11 1.2 Cơ chế Jacal 17 1.3 Thuật toán Kay 20 1.4 Khởi tạo bảng AST 21 1.5 Cập nhật bảng AST 22 2.1 Biểu đồ độ dài câu tiếng Việt 34 2.2 Biểu đồ độ dài câu tiếng Anh 35 2.3 Biểu đồ độ dài cặp giónghàng 35 2.4 Thuật toán EVS 37 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (XLNNTN) lĩnh vực pháttriển mạnh mẽ Theo tổ chức MarketsAndMarkets tổng giá trị thị trường XLNNTN toàn giới tăng từ 7,63 tỉ đô la vào năm 2016 đến 16,07 tỷ đô-la vào năm 20211 Các lĩnh vực nhỏ XLNNTN đa dạng Trong đó, dịch máy lĩnh vực xuất lĩnh vực khó XLNNTN Để xây dựng hệ thống dịch máy tốt cần có kho liệu songngữ lớn Sau thu thập kho ngữ liệu ấy, cần phải tiến hành giónghàngGiónghàng có nghĩa đặt tương ứng khối văn với dịch ngôn ngữ khác Khối văn có nhiều mức mức văn bản, mức đoạn văn, mức câu, mức cụm từ, mức từ Trong giónghàng mức câu đóng vai trò quan trọng Những thuật toán hệ thống giónghàng mức câu đời vào năm cuối thập kỷ 1980 đầu 1990 ban đầu dành cho cặp ngôn ngữ châu Âu tiếng Anh, tiếng Pháp, tiếng Đức mở rộng dần cho nhiều ngôn ngữ khác tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Các công trình đa dạng cách tiếp cận chất lượng ngày tốt Đối với tiếng Việt, nghiên cứu lĩnh vực dịch máy nói chung giónghàng nói riêng chưa thử nghiệm nhiều liệu khác với kích thước đủ lớn Đặc điểm tiếng Việt khác với ngôn ngữ châu Âu, nhiều thuật toán làm việc tốt cặp ngôn ngữ châu Âu cho kết cặp ngôn ngữ có tiếng Việt Ngoài kho ngữ liệu songngữ có tiếng Việt nhỏ Tham khảo báo cáo "Natural language processing market by type & technologies" trang web: http://www.marketsandmarkets.com/Market-Reports/natural-language-processing-nlp825.html?gclid=CMbTxdGo0s8CFUYIvAodRgAEhg bé hạn chế sức người sức Bởi thế, nghiên cứu giónghàng tiếng Việt nhiều vấn đề phải giải Đó lý tác giả chọn đề tài "Phát triểncôngcụgiónghàngvănsong ngữ" Trong số ngôn ngữ giới, tiếng Anh ngôn ngữ sử dụng phổ biến nhất, ngôn ngữ lĩnh vực ngoại giao, kinh tế, văn hóa, Chính đề tài tập trung vào songngữ Anh - Việt Mục tiêu luận văn gồm có: • Khảo sát hướng nghiên cứu công trình sẵn có giónghàngvănsongngữ mức câu giới Việt Nam • Xây dựng kho ngữ liệu songngữ Anh - Việt giónghàng mức câu • Cải tiến côngcụgiónghàngvănsongngữ Anh - Việt XAlign cải thiện độ xác độ phủ • Phân tích kết đạt đề hướng nhằm nâng cao kết mở rộng cho cặp ngôn ngữ khác Cấu trúc luận văn gồm có phần chính: • Mở đầu: Giới thiệu đề tài, lý lựa chọn, mục tiêu cấu trúc luận văn • Chương 1: Tóm tắt lịch sử nhu cầu giónghàngvănsongngữ mức câu; sở lý thuyết; khảo sát chi tiết số công trình nghiên cứu côngcụgiónghàngvănsongngữ mức câu • Chương 2: Khảo sát công trình giónghàngvănsongngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích phương pháp, thuật toán, cấu trúc côngcụ XAlign; báo cáo cải tiến tác giả cộngcôngcụ kết đạt • Kết luận: Tổng kết lại nội dung trình bày luận văn, kết đạt hướng nghiên cứu pháttriển tới Chương CÁC CÁCH TIẾP CẬN GIÓNGHÀNG Trong chương này, luận văn đưa số kiến thức chuẩn bị; bối cảnh cần thiết giónghàngvănsongngữ mức câu; số hướng tiếp cận; tiêu chuẩn đánh giá độ hiệu hệ thống khảo sát số côngcụgiónghàngvănsongngữ mức câu 1.1 Kiến thức chuẩn bị Vănsongngữ (parallel corpus) văn nhiều dịch ngôn ngữ khác Vănsongngữ tồn nhiều Điển hình sách Kinh Thánh dịch nhiều thứ tiếng; văn Liên Hợp Quốc vốn viết nhiều thứ tiếng; viết songngữ trang web Trong luận văn, xét văn dịch nó, không quan tâm đến văn gốc văn dịch lại Nếu thích thêm, nói đến vănsong ngữ, hiểu văn dịch Giónghàngvănsongngữ (parallel corpus alignment) đặt tương ứng khối văn ngôn ngữ với dịch ngôn ngữ khác Tùy theo phạm vi khối văn ta có mức giónghàng khác Mức rộng giónghàngvăn Hình 1.3: Thuật toán Kay thuật toán hình vẽ 1.3 Giai đoạn tiền xử lý ngữ liệu tách từ vănsong ngữ; ngôn ngữ biến hình cần chuyển từ thành dạng nguyên thể Các câu văn đánh số từ đến hết Các tham số thuật toán: • < a, b > cặp giónghàng a tương ứng với dịch b • W SI (Word-Sentence Index) bảng mà phần tử từ (phân biệt) kèm với mảng số câu mà từ xuất hiện; • AST (Alignable Sentence Table) bảng gồm cặp câu có khả tương ứng với nhau, làm đầu vào cho bước lặp giónghàng • W AT (Word Alignment Table) bảng gồm cặp từ kèm với độ tương tự tần suất xuất văn • SAT (Sentence Alignment Table) bảng ghi lại cặp câu gióng với số lần chúng thêm vào bảng sau bước lặp 20 Hình 1.4: Khởi tạo bảng AST Trước bắt đầu thuật toán, bảng W SI, AST khởi tạo AST khởi tạo sau (xem hình 1.4): cặp câu cuối mặc định có khả gióng với nhau; √ câu thứ i văn nguồn (s) đưọc cho có khả gióng với O( n) câu xung quang vị trí i m văn đích, m, n số câu văn nguồn văn n đích Bảng cập nhật qua bước lặp thuật toán Bảng W AT xây dựng sau Xét cặp câu < s, t > cho có khả gióng với (có mặt bảng AST ) Xét cặp từ (v, w) v từ thuộc câu s w từ thuộc câu t Độ tương tự cặp từ (v, w) tính công thức 2c , Nsource (v) + Ntarget (w) đó, Nsource (v), Ntarget (w) số lần xuất từ v, w văn nguồn đích; c lực lượng tập cực đại T cặp số câu < i, j >∈ AST cho • câu i chứa v, câu j w • không chồng lấn nghĩa < a, b >, < c, d >∈ T a = c, b = d Các cặp từ có độ tương tự lớn ngưỡng θ cho vào bảng W AT , kèm theo số lần xuất số cặp câu AST chứa cặp từ Trong bảng W AT , cặp từ xếp theo thứ tự giảm dần độ tương tự tần số Sau bảng SAT cập nhật lại sau Xét cặp từ < v, w > bảng W AT lấy ưu tiên theo thứ tự xếp, xây dựng tập T cặp câu chứa cặp từ cho: 21 Hình 1.5: Cập nhật bảng AST • tuân thủ theo quy tắc xây dựng tập T • cặp câu T mà "cắt" cặp câu có SAT (tạo thành giónghàng chéo) ta bỏ qua cặp từ < v, w > Sau thêm câu tập T vào tập SAT kèm theo số bước lặp mà thêm vào bảng SAT Bảng AST sau cập nhật lại Những cặp câu bảng SAT với số lần xuất lớn ngưỡng N thêm vào AST để tạo thành điểm neo Các câu nằm điểm neo gióng theo cách tạo AST trước vào vòng lặp, xem hình 1.5 Thuật toán lặp lại hội tụ, nghĩa hai trường hợp xảy ra: tất câu văn nguồn đích gióng hàng; bảng SAT cập nhật thêm Các cặp câu SAT kết giónghàng Thuật toán chạy liệu songngữ Anh - Đức Đầu tiên, huấn luyện số tham số báo songngữ Anh - Đức gồm 214 162 câu, sau thuật toán giónghàng báo Anh - Đức gồm 255 300 câu Kết trình bày bảng 1.8 Thuật toán cho độ xác cao, chi phí tính toán lưu trữ lớn, thích hợp cho ngữ liệu kích thước nhỏ 22 Số bước lặp Độ xác SAT Độ phủ SAT Giới hạn AST 1,0 0,12 0,04 1,0 0,47 0,17 1,0 0,89 0,38 0,997 0,96 0,41 Bảng 1.8: Độ xác số cặp giónghàng theo số bước lặp khác thuật toán Kay Thuật toán Kutuzov Phương pháp giónghàng Kutuzov, 2013 [9] dựa thông tin nhãn POS câu để giónghàngvănsongngữ Anh – Nga mức câu Xét cặp câu để phân loại có giónghàng hay không Các từ mang nghĩa thông tin như: danh từ, tính từ, động từ đại từ gán nhãn Các nhãn câu tạo thành từ, ví dụ câu “Imagine three happy people each win $1 million in the lottery.” cho từ chuỗi nhãn VANVNN Hai chuỗi nhãn cặp câu khảo sát tính khoảng cách Damerau-Levenshtein chuẩn hóa (khoảng cách Damerau-Levenshtein chia cho độ dài chuỗi nhãn câu đích) Khoảng cách Damerau-Levenshtein chuỗi ký tự số lần áp dụng phép toán để chuyển từ chuỗi thành chuỗi Phép toán thuộc dạng: chèn, xóa, thay kí tự đổi chỗ kí tự liên tiếp cạnh Ví dụ: • Khoảng cách hai chuỗi PVPVAA ANAN • Khoảng cách hai chuỗi NNNNVAANNVVNNVNNNVV NNNNVANANPANNANVN Thông thường cặp câu dài có khoảng cách lớn so với cặp câu ngắn Chính cần chuẩn hóa khoảng cách theo công thức sau: DLnorm = DL[sP, tP ] , ltP 23 DL[sP, tP ] khoảng cách chuỗi nhãn sP , tP câu nguồn đích, ltP độ dài chuỗi nhãn câu đích Khoảng cách so sánh với ngưỡng để phân loại cặp câu có giónghàng hay không, ngưỡng xác định cách thông kê liệu sinh phương pháp kiểm chứng chéo (cross validation) Kết đạt cao qua nhiều thử nghiệm với ngưỡng khác lựa chọn tập từ loại để gán nhãn độ xác 0,813 độ phủ 0,803 độ đo F1 0,808 Thuật toán Chen S Phương pháp giónghàng Chen S., 1993 dựa vào đặc trưng từ vựng đạt cải thiện đáng kể so với phương pháp dựa vào chiều dài câu Phương pháp phụ thuộc vào cặp ngôn ngữ lựa chọn Cặp ngôn ngữcông trình Anh - Pháp Vì cặp vănsongngữ kí hiệu E F Xác suất để thực phép giónghàng A P (E, F, A) A chọn làm cực đại giá trị P (E, F, A) Khái niệm gói (bead) thuật toán Brown dùng lại A chuỗi L gói, A = ([Ep1 ; Fp1 ], , [Ep2 ; Fp2 ], , [EpL ; FpL ]), Epi ; Fpi gồm không, nhiều câu Giả thiết gói sinh độc lập nhau, ta có: L P ([Epi ; Fpi ]) P (E, F, A) = p(L) i=1 đó, p(L) xác suất để văn chứa L gói giónghàng Để tính P ([Epi ; Fpi ]), ta xét giónghàng câu 1:1 Xét gói giónghàng câu 1:1 [E; F ], giả sử câu E có n từ câu F có m từ: E = e1 en , F = f1 fm , đó: n P ([E; F ]) = p(n)p(m) m p(ek ) k=1 p(fl ) l=1 đó, p(n) xác suất câu tiếng Anh có n từ, p(m) xác suất câu tiếng Pháp có m từ; p(ek ) xác suất từ ek xuất tiếng Anh, p(fl ) xác suất từ fl tiếng Pháp Tuy vậy, xuất từ e, f giónghàng phụ thuộc vào nhau, ta thay p(e), p(f ) p(e, f ) Để tính p(e, f ) ta đưa khái niệm gói từ (word bead) Một gói từ bao gồm từ tiếng Anh, từ tiếng Pháp 24 từ tiếng Anh từ tiếng Pháp kí hiệu 1:0, 0:1 1:1 Ta xét mô hình sau, l P ∗ (B) = p(l) p(bi ) i=1 B = {b1 , , bl } tập đa trị gói từ, p(l) xác suất để gói câu gồm câu tiếng Anh câu tiếng Pháp có l gói từ, p(bi ) xác suất xuất gói từ bi Để đảm bảo B P ∗ (B) = 1, ta chuẩn hóa số công thức: p(l) P (B) = Cl l ∗ p(bi ) i=1 Do B tập đa trị không thứ tự Trong thứ tự từ quan trọng tiếng Anh, tiếng Pháp Vì thế, giả định thứ tự từ phân phối thu công thức: p(l) P ([E; F ], B) = Cl n!m! l p(bi ) i=1 suy ra: l p(l) Cl n!m! P ([E; F ]) = B p(bi ) i=1 đó, B chạy tập gói từ tạo [E; F ] Tổng quát, xét gói giónghàng câu dạng 1:1, 1:0, 0:1, 1:1, 2:1 1:2 ta có công thức sau cho giónghàng 1:1, 1:0, 2:1, công thức lại tương tự: p1:1 (l) Cl,1:1 n!m! P ([E; F ]) = p1:1 B p1:0 (l) P ([E]) = p1:0 Cl,1:0 n! P ([E1 , E2 ; F ]) = p2:1 B l p(bi ) i=1 l p(ei ) i=1 p2:1 (l) Cl,2:1 n1 !n2 !m! l p(bi ) i=1 Các tham số ước lượng dựa vào thống kê kho ngữ liệu sẵn có giả thiết sau: 25 • Các tham số dựa độ dài câu giả định sử dụng phân phối Poisson, ví dụ p1:0 (l) = λl1:0 l!eλ1:0 tương tự cho loại giónghàng lại, tham số λ giả định phụ thuộc vào sau: λ1:0 = λ0:1 = λ1:1 λ2:1 λ1:2 = = 3 • Với p(L) giả định xác suất vănsongngữ có chứa L gói câu phân phối đều, ta bỏ qua • Tham số gói từ 0:1 1:0 tính dựa theo giónghàng 1:0 0:1, 1:1, 1:2, 2:1 2:2 tính dựa giónghàng lại; để đơn giản phân phối gói từ gói câu 1:1, 1:2 2:1 phân phối gói từ gói câu 1:0 0:1 nhau; ta có pe (e) = pb (e) , e ∈ Be e ∈Be pb (e ) đó, Be tập gói từ 1:0 từ vựng Giónghàng tối ưu tìm nhờ thuật toán quy hoạch động Thuật toán Chen thực hành kho liệu Hansards Nếu thuật toán Brown kho ngữ liệu có tỉ lệ lỗi 0,6% Chen 0,4% Ngoài ra, khoảng 10% kho ngữ liệu bị Brown bỏ qua khó giónghàng thuật toán Chen giónghàng toàn văn 1.3.4 Kết hợp phương pháp Các mục tìm hiểu hướng tiếp cận cụ thể giónghàng dựa vào độ dài câu, điểm tương đồng thông tin từ vựng Tuy vậy, để có giónghàng tốt cần phải kết hợp phương pháp Bản thân số thuật toán tìm hiểu có kết hợp phương pháp Ví dụ thuật toán Simard - Plamondon 1998, ban đầu dùng điểm tương đồng để phân chia văn thành đoạn nhỏ hơn, sau 26 áp dụng quy hoạch động dựa chiều dài câu thông tin số lượng cặp từ tương ứng để giónghàng câu lại Qua tìm hiểu, có cách kết hợp hướng tiếp cận: • Sử dụng hướng tiếp cận bước riêng biệt, ví dụ thuật toán Simard Plamondon 1998 vừa phân tích trên; thuật toán Moore 2002 [10] (xem giới thiệu thuật toán mục 2.2) ban đầu dùng đặc điểm chiều dài câu để tìm cặp câu giónghàng 1:1 với xác suất cao dùng câu xây dựng từ điển songngữ xác suất dùng làm cho bước giónghàng thứ dựa vào từ điển songngữ • Kết hợp hướng tiếp cận bước nhất; với cách làm này, đặc điểm đoạn văn chiều dài, số lượng điểm tương đồng, số cặp từ tương ứng; chuỗi nhãn từ loại trở thành thuộc tính (feature) cho thuật toán giám sát để phân loại đoạn có giónghàng hay không; thuật toán tiêu biểu cho xu hướng mà ta tìm hiểu Yong Xu cộng 2015 [14] Thuật toán Yong Xu Thuật toán Yong Xu cộng thực thành bước: • Tìm điểm giónghàng 1:1 thuật toán Moore 2002; điểm giónghàng có xác suất cao tạo thành điểm neo chia văn thành khối chưa giónghàng kích thước nhỏ nhiều, tạo điều kiện để thực bước thứ hai đoạn vốn có chi phí tính toán lớn kích thước đầu vào lớn • Bước thứ hai sử dụng mô hình Maximum Entropy để giónghàng nốt đoạn nằm điểm neo chưa gióng hàng; chi tiết bước mô tả phần sau mục 27 Entropy giónghàng đoạn văn thành n gói câu b1 , , bn , bi = (ei , fi ) xác định sau n i=1 p(y = 1|bi = (ei , fi )) α × size(bi ) (1.3.1) đó, p(y|e, f ) xác suất tiên nghiệm với y biến nhị phân; size(bi ) tính tích số câu ei fi coi giá trị phạt gói câu có kích thước lớn (số câu nhiều) α biến mô hình nhằm điều chỉnh trọng lượng entropy cách đánh giá điểm giónghàngTấtgiónghàng xét giónghàng làm cực đại entropy chọn Trong công trình tác giả thử nghiệm phương pháp chọn giónghàng làm cực đại entropy, dùng thuật toán tham lam hai dùng thuật toán quy hoạch động Thuật toán tham lam sinh tất gói câu có thể, tính điểm số gói câu theo công thức entropy 1.3.1 cho vào danh sách L, sau chọn gói câu ưu tiên độ lớn entropy đồng thời xóa tất gói câu giao cắt gói câu L; trình chọn lặp lại L rỗng, câu lại chưa giónghàng gán giónghàng 1:0 0:1 Thuật toán quy hoạch động tương tự thuật toán Gale - Church khác thay dùng điểm số dựa chiều dài câu dùng công thức entropy 1.3.1 Phần cốt yếu công thức 1.3.1 cách xác định thuộc tính (feature) để tính hàm tiên nghiệm Nhóm tác giả sử dụng nhóm (họ) thuộc tính sau: • Độ dài đoạn tính theo số kí tự e f tỉ lệ độ dài rời rạc hóa phân hoạch đoạn [0, 1] thành 10 miền rời nhau; tổng cộng có 12 thuộc tính thuộc loại • Số lượng từ tố đồng (identical token) e f , có thuộc tính đặc trưng cho giá trị (0, 1, 2, 3, 4+) • Số lượng điểm tương đồng có thuộc tính đặc trưng cho giá trị (0, 1, 2, 3, 4+) • Số lượng cặp từ tương ứng (cặp từ dịch nhau) xuất e f 28 • Điểm dịch cặp câu tính theo điểm Mô hình IBM Model sau rời rạc hóa phân hoạch đoạn [0, 1] thu 10 thuộc tính • Miền phủ dài nhất: từ vi phủ tồn từ wj cho xác suất t(vi |wj ) Mô hình IMB lớn ngưỡng 10−6 ; độ dài chuỗi dài từ phủ hai vế tính đem chuẩn hóa theo độ dài câu chứa chúng; loại thuộc tính có 20 thuộc tính • Các từ không phủ: đếm số lượng từ không phủ (định nghĩa họ Miền phủ dài nhất) đem chuẩn hóa theo độ dài câu thu 20 thuộc tính • Số lượng từ không gióng (theo phép gióng IBM Model 1) liên tiếp dài chuẩn hóa theo độ dài câu thu 20 thuộc tính; giải thích thêm khái niệm gióng sau: từ ei coi gióng tồn phép gióng từ a cho tồn số j mà aj = i • Thuộc tính fertility: fertility từ ei số số j cho aj = i; vế giá trị fertility lớn chọn chuẩn hóa theo chiều dài câu rời rạc hóa tạo 60 thuộc tính Tính hiệu thuật toán thử nghiệm kho ngữ liệu songngữ Anh - Pháp, Anh - Tây Ban Nha, kho ngữ liệu songngữ BAF (trong mô tả thuật toán Simard Plamondon có nhắc đến kho ngữ liệu này) Phần lớn ngữ liệu văn học vốn văn khó giónghàng Kết đạt thấp chút cao 1% so với phương pháp giónghàng kết hợp khác có 1.4 Một số côngcụgiónghàng Phần luận văn khảo sát số côngcụgiónghàng Tài liệu tham khảo chủ yếu từ Santos [11] 29 1.4.1 NATools Đây nhóm côngcụ để xử lý, phân tích trích rút nguồn ngữ liệu cho dịch máy từ vănsong ngữ, đại học Universidade Minho pháttriển Nó bao gồm giónghàng mức câu mức từ, trích rút từ điển songngữ xác suất (probabilistic translation dictionary) viết tắt theo từ tiếng Anh PTD, server ngữ liệu, côngcụ truy vấnngữ liệu từ điển côngcụ khác để trích rút nguồn songngữ 1.4.2 GIZA++ GIZA++ chương trình mở rộng GIZA Đây côngcụgiónghàng xác suất, có cài đặt số mô hình Markov ẩn kỹ thuật khác nhằm cải thiện kết giónghàngCôngcụ dừng pháttriển lâu 1.4.3 hunalign hunalign côngcụgiónghàng mức câu viết ngôn ngữ C++ với pha gióng hàng: pha sử dụng thông tin độ dài câu nghiên cứu Gale Church [5]; pha thứ hai sử dụng hướng tiếp cận Moore 2002 dựa xác suất cặp từ dịch văn Đầu vào văn tách từ tách câu, đầu cặp câu giónghàng hunalign cho phép lựa chọn cài đặt thêm từ điển để giúp cho trình giónghàng Nếu từ điển, ban đầu hunalign giónghàng câu dựa thông tin độ dài câu, sau dựa vào giónghàng để tự động sinh từ điển giónghàng lại sử dụng thêm từ điển hunalign không xử lý trường hợp giónghàng chéo Côngcụ liên tục cập nhật 1.4.4 Per-Fide Per-Fide dự án đại học Universidade Minho với mục tiêu phân tích ngữ liệu songngữ tiếng Bồ Đào Nha với thứ tiếng khác gồm có: tiếng Tây Ban Nha, tiếng Nga, tiếng Pháp, tiếng Italia, tiếng Đức tiếng Anh Nguồn ngữ liệu bao 30 gồm nhiều thể loại văn học, tôn giáo, du lịch, luật pháp kỹ thuật Ngữ liệu giónghàng mức câu bao gồm ghi từ vựng ngôn ngữ Việc trích rút tự động từ tài nguyên cài đặt kết công khai mạng internet 1.4.5 cwb-align Còn biết đến với tên gọi easy-align, côngcụ tích hợp IMS CWB Open Corpus Workbench, tập hợp côngcụ mã nguồn mở nhằm quản lý truy vấnngữ liệu lớn với ghi ngôn ngữ, dựa xử lý truy vấn hiệu tên CQP 1.4.6 WinAlign WinAlign giải pháp thương mại cài đặt phần mềm Trados, pháttriển chuyên dành cho dịch giả Nó cho phép ghi nhớ liệu dịch có để lần chạy giónghàng tốt Chương giới thiệu đầy đủ toán giónghàngvănsongngữ mức câu nội dung, tầm quan trọng lược sử giải toán côngcụ tiêu biểu Câu hỏi đặt toán giónghàngvănsongngữ giải trọn vẹn chưa, hay cho kết đủ tốt để ta không cần quan tâm đến Những kết cao (98-99%) thuật toán dựa vào độ dài câu chạy văn hành chính, pháp luật (ví dụ Hansards) dễ cho cảm nhận câu trả lời có Tuy vậy, nêu trên, văn hành chính, pháp luật kể kinh tế, khoa học, kỹ thuật văn dễ giónghàng Các tượng lược dịch, dịch chèn thêm câu mới, dịch gộp hay dịch tách chiếm tỉ lệ Thêm tỉ lệ xác cao tính giónghàng 1-1 Như trình bày phần thuật toán Yong Xu, tác giả thực nghiệm vănvăn học kết trung bình khoảng 60-70% Để nâng cao độ xác, bắt buộc phải kết hợp thêm thông tin từ vựng ngữ nghĩa Tuy vậy, kèm theo chi phí chạy thuật toán tăng lên nhanh công việc số hóa hiểu biết từ vựng ngữ nghĩa giai đoạn hoàn thành Còn vấn 31 đề nữa, nghiên cứu cài đặt côngcụ cho songngữ ngôn ngữ phổ biến tiếng Anh, tiếng Pháp, tiếng Trung Quốc kết tốt ngôn ngữ khác, chẳng hạn tiếng Việt khiêm tốn Do toán giónghàngcông việc cần giải lại nhiều Sang chương 2, tác giả mô tả tình hình giải toán giónghàngvănsongngữ có tiếng Việt đóng góp tác giả cho toán 32 Tài liệu tham khảo Tiếng Anh [1] Brown, Peter F and Lai, Jennifer C and Mercer, Robert L Aligning sentences in parallel corpora Proceedings of the 29th annual meeting on Association for Computational Linguistics, 169–176, 1991 [2] Brown, Peter F and Desouza, Peter V and Mercer, Robert L and Pietra, Vincent J Della and Lai, Jenifer C Class-based n-gram models of natural language Computational linguistics, vol 18, 4, 467–479, 1992 [3] Stanley F Chen Aligning sentences in bilingual corpora using lexical information Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993 [4] Dinh Dien and Hoang Kiem Building an annotated English-Vietnamese parallel corpus for training vietnamese-related NLPs 2002 [5] William A Gale and Kenneth W Church A program for aligning sentences in bilingual corpora Computational Linguistics, 19:75–102, 1993 [6] Hai-Long Trieu, Phuong-Thai Nguyen and Le-Minh Nguyen A new feature to improve Moore’s sentence alignment method VNU Journal of Science: Comp Science & Com Eng Vol 31 No 32-44, 2015 [7] Nguyen T.M.H and Rossignol M A language-independent method for the alignment of parallel corpora 2004 55 [8] Martin Kay Text-translation alignment ACH/ALLC ’91: "Making Connections" Conference Handbook, Tempe, Arizona, March 1991 [9] Kutuzov A.B Increasing sentence alignment quality in parallel English - Russian corpus through the use of part-of-speech tagging, 2013 [10] Moore, Robert C Fast and Accurate Sentence Alignment of Bilingual Corpora Proceedings of the annual meetings of the Association for Machine Translation in the Americas, 2002 [11] André Santos A survey on parallel corpora alignment, MI-Star, 2011 [12] Simard M and Plamondon P Bilingual sentence alignment: balancing robustness and accuracy Machine Translation 13, 1, 59-80, 1998 [13] K Papipeni, S Roukos, T Ward, and W Zhu Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia pp 311-318, 2002 [14] Yong Xu, Aurelien Max, Francois Yvon Sentence alignment for literary texts: the state-ofthe-art and beyond LiLT volume 12, 6, October 2015 Tiếng Việt [15] Nguyễn Quang Huy, Nguyễn Văn Vĩnh, Phạm Nghĩa Luân, Nguyễn Quỳnh Anh Nghiên cứu phương pháp dóng hàng câu cho cặp ngôn ngữ Anh - Việt Hội thảo quốc gia lần thứ XVII, 2014 56 ... mức cụm từ thấp gióng hàng mức từ Gióng hàng văn song ngữ thực thủ công máy Trong luận văn quan tâm đến phương pháp gióng hàng văn song ngữ máy mức câu Độ xác thuật toán gióng hàng văn song ngữ. .. ngôn ngữ cho văn bản, gióng hàng mức văn xác định văn dịch văn Ở mức thấp gióng hàng mức chương (nếu văn chia làm nhiều chương) nghĩa gióng hàng chương với chương; đến gióng hàng mức đoạn văn, ... thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích