Phát triển công cụ gióng hàng văn bản song ngữ (Tóm tắt trích đoạn)

41 258 0
Phát triển công cụ gióng hàng văn bản song ngữ (Tóm tắt  trích đoạn)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - NGUYỄN MINH HẢI PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN BẢN SONG NGỮ Chuyên ngành: Cơ sở Toán cho Tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền Hà Nội – 2016 Lời cảm ơn Trong trình thực luận văn năm học vừa qua, em nhận bảo hướng dẫn tận tâm TS Nguyễn Thị Minh Huyền Em xin gửi tới cô lời cảm ơn chân thành sâu sắc Ngoài ra, em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán bộ, nhân viên Khoa Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula tận tình dạy dỗ giúp đỡ em năm giảng đường đại học cao học Nhân dịp này, em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập trình thực luận văn Do hạn chế kiến thức, kinh nghiệm, thời gian tìm hiểu thực nên luận văn chắn nhiều thiếu sót Em mong nhận nhiều ý kiến đóng góp thầy, cô bạn để em có nhìn sâu sắc vấn đề Hà Nội, tháng 12 năm 2016 Học viên Nguyễn Minh Hải Mục lục Lời cảm ơn MỞ ĐẦU 1 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG 1.1 Kiến thức chuẩn bị 1.2 Bối cảnh 1.3 Các hướng tiếp cận gióng hàng 1.3.1 Phương pháp gióng hàng dựa vào chiều dài câu 1.3.2 Phương pháp gióng hàng dựa vào điểm tương đồng 16 1.3.3 Phương pháp gióng hàng dựa vào từ vựng 19 1.3.4 Kết hợp phương pháp 26 1.4 Một số công cụ gióng hàng 29 1.4.1 NATools 30 1.4.2 GIZA++ 1.4.3 hunalign 30 1.4.4 Per-Fide 30 1.4.5 cwb-align 31 1.4.6 WinAlign 31 30 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT 2.1 33 Đặc điểm tiếng Anh tiếng Việt 33 2.2 Các nghiên cứu công cụ gióng hàng văn song ngữ mức câu tiếng Việt 36 2.3 Công cụ XAlign 40 2.3.1 Thuật toán quy hoạch động 41 2.3.2 Cấu trúc chương trình 42 2.3.3 Tiền xử lý liệu 43 2.3.4 Các cải tiến thuật toán tham số công cụ viXAlign 43 2.3.5 Một số hướng cải tiến công cụ tiến hành 46 2.4 Thu thập liệu 47 2.5 Kết 48 2.6 Ứng dụng 50 2.6.1 Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 Danh sách bảng 1.1 Thống kê số lượng gióng hàng loại 1.2 Ví dụ gióng hàng 1.3 Các loại gói câu 11 1.4 Ước lượng tham số 12 1.5 Thống kê số lượng gióng hàng loại 14 1.6 Kết chạy thuật toán Gale-Church 15 1.7 Kết chạy chương trình khác Simard Plamondon 19 1.8 Độ xác số cặp gióng hàng theo số bước lặp khác thuật toán Kay 23 2.1 Bảng tỉ lệ câu chứa điểm tương đồng đơn giản 36 2.2 Chi tiết kho ngữ liệu EVB 37 2.3 Kết thử nghiệm liệu thuật toán Nguyễn Quang Huy 40 2.4 Tỉ lệ gióng hàng giá trị phạt 45 2.5 Kết chạy công cụ XAlign trước sau cải tiến 49 2.6 Tỉ lệ xác loại gióng hàng 49 2.7 Điểm Bleu hệ thống 52 Danh sách hình vẽ 1.1 Mô hình Markov sinh gói câu 11 1.2 Cơ chế Jacal 17 1.3 Thuật toán Kay 20 1.4 Khởi tạo bảng AST 21 1.5 Cập nhật bảng AST 22 2.1 Biểu đồ độ dài câu tiếng Việt 34 2.2 Biểu đồ độ dài câu tiếng Anh 35 2.3 Biểu đồ độ dài cặp gióng hàng 35 2.4 Thuật toán EVS 37 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (XLNNTN) lĩnh vực phát triển mạnh mẽ Theo tổ chức MarketsAndMarkets tổng giá trị thị trường XLNNTN toàn giới tăng từ 7,63 tỉ đô la vào năm 2016 đến 16,07 tỷ đô-la vào năm 20211 Các lĩnh vực nhỏ XLNNTN đa dạng Trong đó, dịch máy lĩnh vực xuất lĩnh vực khó XLNNTN Để xây dựng hệ thống dịch máy tốt cần có kho liệu song ngữ lớn Sau thu thập kho ngữ liệu ấy, cần phải tiến hành gióng hàng Gióng hàng có nghĩa đặt tương ứng khối văn với dịch ngôn ngữ khác Khối văn có nhiều mức mức văn bản, mức đoạn văn, mức câu, mức cụm từ, mức từ Trong gióng hàng mức câu đóng vai trò quan trọng Những thuật toán hệ thống gióng hàng mức câu đời vào năm cuối thập kỷ 1980 đầu 1990 ban đầu dành cho cặp ngôn ngữ châu Âu tiếng Anh, tiếng Pháp, tiếng Đức mở rộng dần cho nhiều ngôn ngữ khác tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Các công trình đa dạng cách tiếp cận chất lượng ngày tốt Đối với tiếng Việt, nghiên cứu lĩnh vực dịch máy nói chung gióng hàng nói riêng chưa thử nghiệm nhiều liệu khác với kích thước đủ lớn Đặc điểm tiếng Việt khác với ngôn ngữ châu Âu, nhiều thuật toán làm việc tốt cặp ngôn ngữ châu Âu cho kết cặp ngôn ngữ có tiếng Việt Ngoài kho ngữ liệu song ngữ có tiếng Việt nhỏ Tham khảo báo cáo "Natural language processing market by type & technologies" trang web: http://www.marketsandmarkets.com/Market-Reports/natural-language-processing-nlp825.html?gclid=CMbTxdGo0s8CFUYIvAodRgAEhg bé hạn chế sức người sức Bởi thế, nghiên cứu gióng hàng tiếng Việt nhiều vấn đề phải giải Đó lý tác giả chọn đề tài "Phát triển công cụ gióng hàng văn song ngữ" Trong số ngôn ngữ giới, tiếng Anh ngôn ngữ sử dụng phổ biến nhất, ngôn ngữ lĩnh vực ngoại giao, kinh tế, văn hóa, Chính đề tài tập trung vào song ngữ Anh - Việt Mục tiêu luận văn gồm có: • Khảo sát hướng nghiên cứu công trình sẵn có gióng hàng văn song ngữ mức câu giới Việt Nam • Xây dựng kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu • Cải tiến công cụ gióng hàng văn song ngữ Anh - Việt XAlign cải thiện độ xác độ phủ • Phân tích kết đạt đề hướng nhằm nâng cao kết mở rộng cho cặp ngôn ngữ khác Cấu trúc luận văn gồm có phần chính: • Mở đầu: Giới thiệu đề tài, lý lựa chọn, mục tiêu cấu trúc luận văn • Chương 1: Tóm tắt lịch sử nhu cầu gióng hàng văn song ngữ mức câu; sở lý thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích phương pháp, thuật toán, cấu trúc công cụ XAlign; báo cáo cải tiến tác giả cộng công cụ kết đạt • Kết luận: Tổng kết lại nội dung trình bày luận văn, kết đạt hướng nghiên cứu phát triển tới Chương CÁC CÁCH TIẾP CẬN GIÓNG HÀNG Trong chương này, luận văn đưa số kiến thức chuẩn bị; bối cảnh cần thiết gióng hàng văn song ngữ mức câu; số hướng tiếp cận; tiêu chuẩn đánh giá độ hiệu hệ thống khảo sát số công cụ gióng hàng văn song ngữ mức câu 1.1 Kiến thức chuẩn bị Văn song ngữ (parallel corpus) văn nhiều dịch ngôn ngữ khác Văn song ngữ tồn nhiều Điển hình sách Kinh Thánh dịch nhiều thứ tiếng; văn Liên Hợp Quốc vốn viết nhiều thứ tiếng; viết song ngữ trang web Trong luận văn, xét văn dịch nó, không quan tâm đến văn gốc văn dịch lại Nếu thích thêm, nói đến văn song ngữ, hiểu văn dịch Gióng hàng văn song ngữ (parallel corpus alignment) đặt tương ứng khối văn ngôn ngữ với dịch ngôn ngữ khác Tùy theo phạm vi khối văn ta có mức gióng hàng khác Mức rộng gióng hàng văn Hình 1.3: Thuật toán Kay thuật toán hình vẽ 1.3 Giai đoạn tiền xử lý ngữ liệu tách từ văn song ngữ; ngôn ngữ biến hình cần chuyển từ thành dạng nguyên thể Các câu văn đánh số từ đến hết Các tham số thuật toán: • < a, b > cặp gióng hàng a tương ứng với dịch b • W SI (Word-Sentence Index) bảng mà phần tử từ (phân biệt) kèm với mảng số câu mà từ xuất hiện; • AST (Alignable Sentence Table) bảng gồm cặp câu có khả tương ứng với nhau, làm đầu vào cho bước lặp gióng hàng • W AT (Word Alignment Table) bảng gồm cặp từ kèm với độ tương tự tần suất xuất văn • SAT (Sentence Alignment Table) bảng ghi lại cặp câu gióng với số lần chúng thêm vào bảng sau bước lặp 20 Hình 1.4: Khởi tạo bảng AST Trước bắt đầu thuật toán, bảng W SI, AST khởi tạo AST khởi tạo sau (xem hình 1.4): cặp câu cuối mặc định có khả gióng với nhau; √ câu thứ i văn nguồn (s) đưọc cho có khả gióng với O( n) câu xung quang vị trí i m văn đích, m, n số câu văn nguồn văn n đích Bảng cập nhật qua bước lặp thuật toán Bảng W AT xây dựng sau Xét cặp câu < s, t > cho có khả gióng với (có mặt bảng AST ) Xét cặp từ (v, w) v từ thuộc câu s w từ thuộc câu t Độ tương tự cặp từ (v, w) tính công thức 2c , Nsource (v) + Ntarget (w) đó, Nsource (v), Ntarget (w) số lần xuất từ v, w văn nguồn đích; c lực lượng tập cực đại T cặp số câu < i, j >∈ AST cho • câu i chứa v, câu j w • không chồng lấn nghĩa < a, b >, < c, d >∈ T a = c, b = d Các cặp từ có độ tương tự lớn ngưỡng θ cho vào bảng W AT , kèm theo số lần xuất số cặp câu AST chứa cặp từ Trong bảng W AT , cặp từ xếp theo thứ tự giảm dần độ tương tự tần số Sau bảng SAT cập nhật lại sau Xét cặp từ < v, w > bảng W AT lấy ưu tiên theo thứ tự xếp, xây dựng tập T cặp câu chứa cặp từ cho: 21 Hình 1.5: Cập nhật bảng AST • tuân thủ theo quy tắc xây dựng tập T • cặp câu T mà "cắt" cặp câu có SAT (tạo thành gióng hàng chéo) ta bỏ qua cặp từ < v, w > Sau thêm câu tập T vào tập SAT kèm theo số bước lặp mà thêm vào bảng SAT Bảng AST sau cập nhật lại Những cặp câu bảng SAT với số lần xuất lớn ngưỡng N thêm vào AST để tạo thành điểm neo Các câu nằm điểm neo gióng theo cách tạo AST trước vào vòng lặp, xem hình 1.5 Thuật toán lặp lại hội tụ, nghĩa hai trường hợp xảy ra: tất câu văn nguồn đích gióng hàng; bảng SAT cập nhật thêm Các cặp câu SAT kết gióng hàng Thuật toán chạy liệu song ngữ Anh - Đức Đầu tiên, huấn luyện số tham số báo song ngữ Anh - Đức gồm 214 162 câu, sau thuật toán gióng hàng báo Anh - Đức gồm 255 300 câu Kết trình bày bảng 1.8 Thuật toán cho độ xác cao, chi phí tính toán lưu trữ lớn, thích hợp cho ngữ liệu kích thước nhỏ 22 Số bước lặp Độ xác SAT Độ phủ SAT Giới hạn AST 1,0 0,12 0,04 1,0 0,47 0,17 1,0 0,89 0,38 0,997 0,96 0,41 Bảng 1.8: Độ xác số cặp gióng hàng theo số bước lặp khác thuật toán Kay Thuật toán Kutuzov Phương pháp gióng hàng Kutuzov, 2013 [9] dựa thông tin nhãn POS câu để gióng hàng văn song ngữ Anh – Nga mức câu Xét cặp câu để phân loại có gióng hàng hay không Các từ mang nghĩa thông tin như: danh từ, tính từ, động từ đại từ gán nhãn Các nhãn câu tạo thành từ, ví dụ câu “Imagine three happy people each win $1 million in the lottery.” cho từ chuỗi nhãn VANVNN Hai chuỗi nhãn cặp câu khảo sát tính khoảng cách Damerau-Levenshtein chuẩn hóa (khoảng cách Damerau-Levenshtein chia cho độ dài chuỗi nhãn câu đích) Khoảng cách Damerau-Levenshtein chuỗi ký tự số lần áp dụng phép toán để chuyển từ chuỗi thành chuỗi Phép toán thuộc dạng: chèn, xóa, thay kí tự đổi chỗ kí tự liên tiếp cạnh Ví dụ: • Khoảng cách hai chuỗi PVPVAA ANAN • Khoảng cách hai chuỗi NNNNVAANNVVNNVNNNVV NNNNVANANPANNANVN Thông thường cặp câu dài có khoảng cách lớn so với cặp câu ngắn Chính cần chuẩn hóa khoảng cách theo công thức sau: DLnorm = DL[sP, tP ] , ltP 23 DL[sP, tP ] khoảng cách chuỗi nhãn sP , tP câu nguồn đích, ltP độ dài chuỗi nhãn câu đích Khoảng cách so sánh với ngưỡng để phân loại cặp câu có gióng hàng hay không, ngưỡng xác định cách thông kê liệu sinh phương pháp kiểm chứng chéo (cross validation) Kết đạt cao qua nhiều thử nghiệm với ngưỡng khác lựa chọn tập từ loại để gán nhãn độ xác 0,813 độ phủ 0,803 độ đo F1 0,808 Thuật toán Chen S Phương pháp gióng hàng Chen S., 1993 dựa vào đặc trưng từ vựng đạt cải thiện đáng kể so với phương pháp dựa vào chiều dài câu Phương pháp phụ thuộc vào cặp ngôn ngữ lựa chọn Cặp ngôn ngữ công trình Anh - Pháp Vì cặp văn song ngữ kí hiệu E F Xác suất để thực phép gióng hàng A P (E, F, A) A chọn làm cực đại giá trị P (E, F, A) Khái niệm gói (bead) thuật toán Brown dùng lại A chuỗi L gói, A = ([Ep1 ; Fp1 ], , [Ep2 ; Fp2 ], , [EpL ; FpL ]), Epi ; Fpi gồm không, nhiều câu Giả thiết gói sinh độc lập nhau, ta có: L P ([Epi ; Fpi ]) P (E, F, A) = p(L) i=1 đó, p(L) xác suất để văn chứa L gói gióng hàng Để tính P ([Epi ; Fpi ]), ta xét gióng hàng câu 1:1 Xét gói gióng hàng câu 1:1 [E; F ], giả sử câu E có n từ câu F có m từ: E = e1 en , F = f1 fm , đó: n P ([E; F ]) = p(n)p(m) m p(ek ) k=1 p(fl ) l=1 đó, p(n) xác suất câu tiếng Anh có n từ, p(m) xác suất câu tiếng Pháp có m từ; p(ek ) xác suất từ ek xuất tiếng Anh, p(fl ) xác suất từ fl tiếng Pháp Tuy vậy, xuất từ e, f gióng hàng phụ thuộc vào nhau, ta thay p(e), p(f ) p(e, f ) Để tính p(e, f ) ta đưa khái niệm gói từ (word bead) Một gói từ bao gồm từ tiếng Anh, từ tiếng Pháp 24 từ tiếng Anh từ tiếng Pháp kí hiệu 1:0, 0:1 1:1 Ta xét mô hình sau, l P ∗ (B) = p(l) p(bi ) i=1 B = {b1 , , bl } tập đa trị gói từ, p(l) xác suất để gói câu gồm câu tiếng Anh câu tiếng Pháp có l gói từ, p(bi ) xác suất xuất gói từ bi Để đảm bảo B P ∗ (B) = 1, ta chuẩn hóa số công thức: p(l) P (B) = Cl l ∗ p(bi ) i=1 Do B tập đa trị không thứ tự Trong thứ tự từ quan trọng tiếng Anh, tiếng Pháp Vì thế, giả định thứ tự từ phân phối thu công thức: p(l) P ([E; F ], B) = Cl n!m! l p(bi ) i=1 suy ra: l p(l) Cl n!m! P ([E; F ]) = B p(bi ) i=1 đó, B chạy tập gói từ tạo [E; F ] Tổng quát, xét gói gióng hàng câu dạng 1:1, 1:0, 0:1, 1:1, 2:1 1:2 ta có công thức sau cho gióng hàng 1:1, 1:0, 2:1, công thức lại tương tự: p1:1 (l) Cl,1:1 n!m! P ([E; F ]) = p1:1 B p1:0 (l) P ([E]) = p1:0 Cl,1:0 n! P ([E1 , E2 ; F ]) = p2:1 B l p(bi ) i=1 l p(ei ) i=1 p2:1 (l) Cl,2:1 n1 !n2 !m! l p(bi ) i=1 Các tham số ước lượng dựa vào thống kê kho ngữ liệu sẵn có giả thiết sau: 25 • Các tham số dựa độ dài câu giả định sử dụng phân phối Poisson, ví dụ p1:0 (l) = λl1:0 l!eλ1:0 tương tự cho loại gióng hàng lại, tham số λ giả định phụ thuộc vào sau: λ1:0 = λ0:1 = λ1:1 λ2:1 λ1:2 = = 3 • Với p(L) giả định xác suất văn song ngữ có chứa L gói câu phân phối đều, ta bỏ qua • Tham số gói từ 0:1 1:0 tính dựa theo gióng hàng 1:0 0:1, 1:1, 1:2, 2:1 2:2 tính dựa gióng hàng lại; để đơn giản phân phối gói từ gói câu 1:1, 1:2 2:1 phân phối gói từ gói câu 1:0 0:1 nhau; ta có pe (e) = pb (e) , e ∈ Be e ∈Be pb (e ) đó, Be tập gói từ 1:0 từ vựng Gióng hàng tối ưu tìm nhờ thuật toán quy hoạch động Thuật toán Chen thực hành kho liệu Hansards Nếu thuật toán Brown kho ngữ liệu có tỉ lệ lỗi 0,6% Chen 0,4% Ngoài ra, khoảng 10% kho ngữ liệu bị Brown bỏ qua khó gióng hàng thuật toán Chen gióng hàng toàn văn 1.3.4 Kết hợp phương pháp Các mục tìm hiểu hướng tiếp cận cụ thể gióng hàng dựa vào độ dài câu, điểm tương đồng thông tin từ vựng Tuy vậy, để có gióng hàng tốt cần phải kết hợp phương pháp Bản thân số thuật toán tìm hiểu có kết hợp phương pháp Ví dụ thuật toán Simard - Plamondon 1998, ban đầu dùng điểm tương đồng để phân chia văn thành đoạn nhỏ hơn, sau 26 áp dụng quy hoạch động dựa chiều dài câu thông tin số lượng cặp từ tương ứng để gióng hàng câu lại Qua tìm hiểu, có cách kết hợp hướng tiếp cận: • Sử dụng hướng tiếp cận bước riêng biệt, ví dụ thuật toán Simard Plamondon 1998 vừa phân tích trên; thuật toán Moore 2002 [10] (xem giới thiệu thuật toán mục 2.2) ban đầu dùng đặc điểm chiều dài câu để tìm cặp câu gióng hàng 1:1 với xác suất cao dùng câu xây dựng từ điển song ngữ xác suất dùng làm cho bước gióng hàng thứ dựa vào từ điển song ngữ • Kết hợp hướng tiếp cận bước nhất; với cách làm này, đặc điểm đoạn văn chiều dài, số lượng điểm tương đồng, số cặp từ tương ứng; chuỗi nhãn từ loại trở thành thuộc tính (feature) cho thuật toán giám sát để phân loại đoạn có gióng hàng hay không; thuật toán tiêu biểu cho xu hướng mà ta tìm hiểu Yong Xu cộng 2015 [14] Thuật toán Yong Xu Thuật toán Yong Xu cộng thực thành bước: • Tìm điểm gióng hàng 1:1 thuật toán Moore 2002; điểm gióng hàng có xác suất cao tạo thành điểm neo chia văn thành khối chưa gióng hàng kích thước nhỏ nhiều, tạo điều kiện để thực bước thứ hai đoạn vốn có chi phí tính toán lớn kích thước đầu vào lớn • Bước thứ hai sử dụng mô hình Maximum Entropy để gióng hàng nốt đoạn nằm điểm neo chưa gióng hàng; chi tiết bước mô tả phần sau mục 27 Entropy gióng hàng đoạn văn thành n gói câu b1 , , bn , bi = (ei , fi ) xác định sau n i=1 p(y = 1|bi = (ei , fi )) α × size(bi ) (1.3.1) đó, p(y|e, f ) xác suất tiên nghiệm với y biến nhị phân; size(bi ) tính tích số câu ei fi coi giá trị phạt gói câu có kích thước lớn (số câu nhiều) α biến mô hình nhằm điều chỉnh trọng lượng entropy cách đánh giá điểm gióng hàng Tất gióng hàng xét gióng hàng làm cực đại entropy chọn Trong công trình tác giả thử nghiệm phương pháp chọn gióng hàng làm cực đại entropy, dùng thuật toán tham lam hai dùng thuật toán quy hoạch động Thuật toán tham lam sinh tất gói câu có thể, tính điểm số gói câu theo công thức entropy 1.3.1 cho vào danh sách L, sau chọn gói câu ưu tiên độ lớn entropy đồng thời xóa tất gói câu giao cắt gói câu L; trình chọn lặp lại L rỗng, câu lại chưa gióng hàng gán gióng hàng 1:0 0:1 Thuật toán quy hoạch động tương tự thuật toán Gale - Church khác thay dùng điểm số dựa chiều dài câu dùng công thức entropy 1.3.1 Phần cốt yếu công thức 1.3.1 cách xác định thuộc tính (feature) để tính hàm tiên nghiệm Nhóm tác giả sử dụng nhóm (họ) thuộc tính sau: • Độ dài đoạn tính theo số kí tự e f tỉ lệ độ dài rời rạc hóa phân hoạch đoạn [0, 1] thành 10 miền rời nhau; tổng cộng có 12 thuộc tính thuộc loại • Số lượng từ tố đồng (identical token) e f , có thuộc tính đặc trưng cho giá trị (0, 1, 2, 3, 4+) • Số lượng điểm tương đồng có thuộc tính đặc trưng cho giá trị (0, 1, 2, 3, 4+) • Số lượng cặp từ tương ứng (cặp từ dịch nhau) xuất e f 28 • Điểm dịch cặp câu tính theo điểm Mô hình IBM Model sau rời rạc hóa phân hoạch đoạn [0, 1] thu 10 thuộc tính • Miền phủ dài nhất: từ vi phủ tồn từ wj cho xác suất t(vi |wj ) Mô hình IMB lớn ngưỡng 10−6 ; độ dài chuỗi dài từ phủ hai vế tính đem chuẩn hóa theo độ dài câu chứa chúng; loại thuộc tính có 20 thuộc tính • Các từ không phủ: đếm số lượng từ không phủ (định nghĩa họ Miền phủ dài nhất) đem chuẩn hóa theo độ dài câu thu 20 thuộc tính • Số lượng từ không gióng (theo phép gióng IBM Model 1) liên tiếp dài chuẩn hóa theo độ dài câu thu 20 thuộc tính; giải thích thêm khái niệm gióng sau: từ ei coi gióng tồn phép gióng từ a cho tồn số j mà aj = i • Thuộc tính fertility: fertility từ ei số số j cho aj = i; vế giá trị fertility lớn chọn chuẩn hóa theo chiều dài câu rời rạc hóa tạo 60 thuộc tính Tính hiệu thuật toán thử nghiệm kho ngữ liệu song ngữ Anh - Pháp, Anh - Tây Ban Nha, kho ngữ liệu song ngữ BAF (trong mô tả thuật toán Simard Plamondon có nhắc đến kho ngữ liệu này) Phần lớn ngữ liệu văn học vốn văn khó gióng hàng Kết đạt thấp chút cao 1% so với phương pháp gióng hàng kết hợp khác có 1.4 Một số công cụ gióng hàng Phần luận văn khảo sát số công cụ gióng hàng Tài liệu tham khảo chủ yếu từ Santos [11] 29 1.4.1 NATools Đây nhóm công cụ để xử lý, phân tích trích rút nguồn ngữ liệu cho dịch máy từ văn song ngữ, đại học Universidade Minho phát triển Nó bao gồm gióng hàng mức câu mức từ, trích rút từ điển song ngữ xác suất (probabilistic translation dictionary) viết tắt theo từ tiếng Anh PTD, server ngữ liệu, công cụ truy vấn ngữ liệu từ điển công cụ khác để trích rút nguồn song ngữ 1.4.2 GIZA++ GIZA++ chương trình mở rộng GIZA Đây công cụ gióng hàng xác suất, có cài đặt số mô hình Markov ẩn kỹ thuật khác nhằm cải thiện kết gióng hàng Công cụ dừng phát triển lâu 1.4.3 hunalign hunalign công cụ gióng hàng mức câu viết ngôn ngữ C++ với pha gióng hàng: pha sử dụng thông tin độ dài câu nghiên cứu Gale Church [5]; pha thứ hai sử dụng hướng tiếp cận Moore 2002 dựa xác suất cặp từ dịch văn Đầu vào văn tách từ tách câu, đầu cặp câu gióng hàng hunalign cho phép lựa chọn cài đặt thêm từ điển để giúp cho trình gióng hàng Nếu từ điển, ban đầu hunalign gióng hàng câu dựa thông tin độ dài câu, sau dựa vào gióng hàng để tự động sinh từ điển gióng hàng lại sử dụng thêm từ điển hunalign không xử lý trường hợp gióng hàng chéo Công cụ liên tục cập nhật 1.4.4 Per-Fide Per-Fide dự án đại học Universidade Minho với mục tiêu phân tích ngữ liệu song ngữ tiếng Bồ Đào Nha với thứ tiếng khác gồm có: tiếng Tây Ban Nha, tiếng Nga, tiếng Pháp, tiếng Italia, tiếng Đức tiếng Anh Nguồn ngữ liệu bao 30 gồm nhiều thể loại văn học, tôn giáo, du lịch, luật pháp kỹ thuật Ngữ liệu gióng hàng mức câu bao gồm ghi từ vựng ngôn ngữ Việc trích rút tự động từ tài nguyên cài đặt kết công khai mạng internet 1.4.5 cwb-align Còn biết đến với tên gọi easy-align, công cụ tích hợp IMS CWB Open Corpus Workbench, tập hợp công cụ mã nguồn mở nhằm quản lý truy vấn ngữ liệu lớn với ghi ngôn ngữ, dựa xử lý truy vấn hiệu tên CQP 1.4.6 WinAlign WinAlign giải pháp thương mại cài đặt phần mềm Trados, phát triển chuyên dành cho dịch giả Nó cho phép ghi nhớ liệu dịch có để lần chạy gióng hàng tốt Chương giới thiệu đầy đủ toán gióng hàng văn song ngữ mức câu nội dung, tầm quan trọng lược sử giải toán công cụ tiêu biểu Câu hỏi đặt toán gióng hàng văn song ngữ giải trọn vẹn chưa, hay cho kết đủ tốt để ta không cần quan tâm đến Những kết cao (98-99%) thuật toán dựa vào độ dài câu chạy văn hành chính, pháp luật (ví dụ Hansards) dễ cho cảm nhận câu trả lời có Tuy vậy, nêu trên, văn hành chính, pháp luật kể kinh tế, khoa học, kỹ thuật văn dễ gióng hàng Các tượng lược dịch, dịch chèn thêm câu mới, dịch gộp hay dịch tách chiếm tỉ lệ Thêm tỉ lệ xác cao tính gióng hàng 1-1 Như trình bày phần thuật toán Yong Xu, tác giả thực nghiệm văn văn học kết trung bình khoảng 60-70% Để nâng cao độ xác, bắt buộc phải kết hợp thêm thông tin từ vựng ngữ nghĩa Tuy vậy, kèm theo chi phí chạy thuật toán tăng lên nhanh công việc số hóa hiểu biết từ vựng ngữ nghĩa giai đoạn hoàn thành Còn vấn 31 đề nữa, nghiên cứu cài đặt công cụ cho song ngữ ngôn ngữ phổ biến tiếng Anh, tiếng Pháp, tiếng Trung Quốc kết tốt ngôn ngữ khác, chẳng hạn tiếng Việt khiêm tốn Do toán gióng hàng công việc cần giải lại nhiều Sang chương 2, tác giả mô tả tình hình giải toán gióng hàng văn song ngữ có tiếng Việt đóng góp tác giả cho toán 32 Tài liệu tham khảo Tiếng Anh [1] Brown, Peter F and Lai, Jennifer C and Mercer, Robert L Aligning sentences in parallel corpora Proceedings of the 29th annual meeting on Association for Computational Linguistics, 169–176, 1991 [2] Brown, Peter F and Desouza, Peter V and Mercer, Robert L and Pietra, Vincent J Della and Lai, Jenifer C Class-based n-gram models of natural language Computational linguistics, vol 18, 4, 467–479, 1992 [3] Stanley F Chen Aligning sentences in bilingual corpora using lexical information Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL), 1993 [4] Dinh Dien and Hoang Kiem Building an annotated English-Vietnamese parallel corpus for training vietnamese-related NLPs 2002 [5] William A Gale and Kenneth W Church A program for aligning sentences in bilingual corpora Computational Linguistics, 19:75–102, 1993 [6] Hai-Long Trieu, Phuong-Thai Nguyen and Le-Minh Nguyen A new feature to improve Moore’s sentence alignment method VNU Journal of Science: Comp Science & Com Eng Vol 31 No 32-44, 2015 [7] Nguyen T.M.H and Rossignol M A language-independent method for the alignment of parallel corpora 2004 55 [8] Martin Kay Text-translation alignment ACH/ALLC ’91: "Making Connections" Conference Handbook, Tempe, Arizona, March 1991 [9] Kutuzov A.B Increasing sentence alignment quality in parallel English - Russian corpus through the use of part-of-speech tagging, 2013 [10] Moore, Robert C Fast and Accurate Sentence Alignment of Bilingual Corpora Proceedings of the annual meetings of the Association for Machine Translation in the Americas, 2002 [11] André Santos A survey on parallel corpora alignment, MI-Star, 2011 [12] Simard M and Plamondon P Bilingual sentence alignment: balancing robustness and accuracy Machine Translation 13, 1, 59-80, 1998 [13] K Papipeni, S Roukos, T Ward, and W Zhu Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia pp 311-318, 2002 [14] Yong Xu, Aurelien Max, Francois Yvon Sentence alignment for literary texts: the state-ofthe-art and beyond LiLT volume 12, 6, October 2015 Tiếng Việt [15] Nguyễn Quang Huy, Nguyễn Văn Vĩnh, Phạm Nghĩa Luân, Nguyễn Quỳnh Anh Nghiên cứu phương pháp dóng hàng câu cho cặp ngôn ngữ Anh - Việt Hội thảo quốc gia lần thứ XVII, 2014 56 ... mức cụm từ thấp gióng hàng mức từ Gióng hàng văn song ngữ thực thủ công máy Trong luận văn quan tâm đến phương pháp gióng hàng văn song ngữ máy mức câu Độ xác thuật toán gióng hàng văn song ngữ. .. ngôn ngữ cho văn bản, gióng hàng mức văn xác định văn dịch văn Ở mức thấp gióng hàng mức chương (nếu văn chia làm nhiều chương) nghĩa gióng hàng chương với chương; đến gióng hàng mức đoạn văn, ... thuyết; khảo sát chi tiết số công trình nghiên cứu công cụ gióng hàng văn song ngữ mức câu • Chương 2: Khảo sát công trình gióng hàng văn song ngữ mức câu cho cặp ngôn ngữ có tiếng Việt; Phân tích

Ngày đăng: 10/05/2017, 11:15

Tài liệu cùng người dùng

Tài liệu liên quan