1. Trang chủ
  2. » Giáo Dục - Đào Tạo

dịch máy lê thanh hương

12 148 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 2,47 MB

Nội dung

Ví dụ Au sortir de la saison 97/98 et surtout / au debut de cette saison 98/99… Dịch máy Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn With leaving season 97/98 and especially at the beginning of this season 98/99… Các vấn đề Các vấn đề Xử lý giống khác ngôn ngữ Cú pháp: trật tự từ câu To Yukio; Yukio ne Tiếng Anh – tiếng Việt: The (affix1) red (affix2) flag (head) Lá cờ (head) đỏ (affix2) (affix1) Hình vị: # số âm tiết/từ: Ngôn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) – tiếng/từ Ngôn ngữ đa âm tiết (Siberian Yupik), từ = câu Mức độ phân chia âm tiết Các nét riêng biệt English brother Vietnamese English wall German German berg English anh em wand (inside) mauer(outside) hill mountain Không gian khái niệm Ba khối dịch máy ngôn ngữ nguồn S hiểu ngôn ngữ dịch ngôn ngữ ngôn ngữ đích T thông tin ánh xạ ngôn ngữ nguồn - đích Khoảng trống từ vựng: tiếng Nhật từ nghĩa privacy; tiêgns Anh từ ứng với yakoko (lòng hiếu thảo) Hiểu ngôn ngữ Các phương pháp dịch máy Nhập nhằng từ vựng: English: book - Spanish libro, reservar ⇒ Sử dụng thông tin cú pháp cao Nhập nhằng cú pháp: mức trừu tượng I saw the guy on the hill with the telescope siêu ngôn ngữ ngữ nghĩa a Nhập nhằng ngữ nghĩa: thấp E: While driving, John swerved & hit a tree siêu ngôn ngữ g cú p pháp áp t từ-từ s dịch chuyển đổi dịch trực tiếp a = a(s) g = f(a(s)); f – hàm chuyển đổi John’s car S: Minetras que John estaba manejando, se desvio y golpeop un arbo t=g(f(a(s))) Luật chuyển đổi Sơ đồ chuyển đổi Sơ đồ chuyển đổi 10 Cách tiếp cận siêu ngôn ngữ: sử dụng nghĩa Chuyển đổi: luật chuyển đổi từ ngôn ngữ sang ngôn ngữ khác ĐỐi tượng/sự kiện (ontology) 11 12 Các kiểu dịch máy cao mức độ trừu tượng Dịch máy thống kê siêu ngôn ngữ a thấp ngữ nghĩa cú pháp g s t 13 } chuyển đổi từ-từ 14 Dịch máy thống kê ý tưởng Coi việc dịch toán kênh có nhiễu Input (Nguồn) “Noisy” Output (đích) The channel E: English words (adds “noise”) F: Les mots Anglais Mô hình dịch: P(E|F) = P(F|E) P(E) / P(F) Khôi phục lại E biết F: Sau đơn giản hóa (P(F) không đổi): argmaxE P(E|F) = argmaxE P(F|E) P(E) 15 Các yếu tố 16 Ý tưởng gióng hàng Mô hình ngôn ngữ - Language Model (LM): xác suất thấy câu tiếng Anh (E) (xác suất tiền nghiệm): P(E) Mô hình dịch - Translation Model (TM): câu đích tiếng Pháp (F) có câu tiếng Anh: P(F|E) Thủ tục tìm kiếm: Cho F, tìm E tốt sử dụng mô hình ngôn ngữ LM mô hình dịch TM Vấn đề: thiếu liệu! Ta tạo từ điển câu E ↔ F Thậm thí bình thường ta không thấy câu lặp lại lần 17 Mô hình dịch TM không quan tâm đến chuỗi từ tiếng Anh Sử dụng cách tiếp cận gán nhãn: • từ tiếng Anh(“tag”) ~ từ tiếng Pháp (“word”) → không thực tế: chí số từ câu không → sử dụng “gióng hàng” Gióng hàng câu: tìm nhóm câu ngôn ngữ tương ứng với nhóm câu khác ngôn ngữ khác 18 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await Gióng hàng câu The old man is happy He has fished many times times His wife talks to him The fish are jumping The sharks await El viejo está feliz porque pescado muchos veces veces Su mujer habla él Los tiburones esperan El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan 19 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await 20 Gióng hàng từ - Mức dễ El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan Khó khăn: Sự liên quan chéo: trật tự câu thay đổi dịch 21 Gióng hàng từ - Khó 22 Gióng hàng từ - Khó 23 24 Gióng hàng từ - Mã hóa Gióng hàng từ - Khó e0 And the program has been implemented f0 Le programme a été mis en application Gán thông tin tuyến tính: • f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6) • e0 And(0) the(1) program(2) has(3) been(4) implemented(5,6,7) 25 Học việc gióng hàng từ sử dụng EM 26 Học việc gióng hàng từ sử dụng EM 27 Học việc gióng hàng từ sử dụng EM 28 Kênh nhiễu Mô hình ngôn ngữ P(e) e Mô hình dịch P(f|e) f Giải mã Argmax e =P(e|f) P(e|f) e 29 30 Các thành phần mô hình dịch Ví dụ Giả thiết Individual translations are independance từ tiếng Anh – n từ tiếng Pháp từ tiếng Pháp - (0-1) từ tiếng Anh P ( f | e) = Z l ∑ a1 l L∑ am=0 m ∏ P( f j j =1 | ea j ) fj - từ j f; aj - vị trí e gióng hàng với fj eaj - từ e gióng hàng với fj Z số chuẩn hóa aj = 0: từ j câu tiếng Pháp gióng hàng với P(Jean aime Marie| John loves Mary) Gióng hàng(Jean, John), (aime, loves), (Marie, Mary), Mary) ta có xác suất P(Jean|John) x P(aime|loves) xP(Marie|Mary) từ rỗng (không dịch sang) m – độ dài f 31 Giải mã 32 Thuật toán EM e = arg max e P(e | f ) E-step Khởi tạo giá trị P(wf|we) ngẫu nhiên Tính số lần tìm thấy wf tiếng Pháp có we tiếng Anh P (e) P ( f | e) P( f ) = arg max e P (e) P( f | e) = arg max e zw f , we = Vấn đề: không gian tìm kiếm vô hạn Mẹo: tìm kiếm dùng ngăn xếp: xây dựng dần, lưu stack phần dịch sử dụng số độ đo độ phù hợp, vd., chamber/house, (nhưng sai đường từ thường xuất với từ khác, commune/house, có Chambre de Communes (hạ nghị viện) ∑ P( w f | we ) ( e , f ) s t we = e , w f = f M-step Đánh giá lại xác suất dịch prs từ giá trị z trên: P( w f | we ) = z w f , we ∑ v z v,w e tổng tính tất từ tiếng Pháp v 33 Đánh giá 34 Lý Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi: Dịch sai nghĩa: • Permettez que je donne un example chambre • Let me give an example in the House (incorrect decoding) • (Let me give the House an example) Dịch sai ngữ pháp: • Vous avez besoin de toute l’aide disponsible • You need all of the benefits available (ungrammatical decoding) • (You need all the help you can get) 35 Hiện tượng méo: từ tiếng Anh đầu câu gióng hàng với từ tiếng Pháp cuối câu – tượng giảm xác suất gióng hàng Hiện tượng sinh (fertility): tương ứng từ tiếng Anh tiếng Pháp (1-to-1, 1-to-2, 1-to-0, …), Vd, fertility(farmers) tập ngữ liệu = 2, từ dịch sang tiếng Anh thường gồm từ : les argiculteurs To go → aller 36 Thiếu tri thức ngôn ngữ Lý Các giả thiết độc lập: câu ngắn ưu tiên có xác suất (khi nhân) ⇒ nhân kết với số tỉ lệ thuận với độ dài câu Phụ thuộc liệu luyện: thay đổi nhỏ liệu luyện gây thay đổi lớn giá trị ước lượng tham số Vd, P(le|the) thay đổi từ 0.610 xuống 0.497 TÍnh hiệu Bỏ câu > 30 từ, làm không gian tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ Không lưu thông tin ngữ: ví dụ không gióng hàng “to go” “aller” Không có ràng buộc cục bộ: Eg, is she a mathematician Âm vị Các từ tạo âm vị khác coi ký hiệu riêng biệt Dữ liệu thưa Các đánh giá cho từ gặp không xác 37 38 Phát biên câu Các hệ thống gióng hàng khác Các tập ngữ liệu sử dụng giả thiết: Sử dụng luật, danh sách liệt kê: Dấu kết thúc câu: • Dữ liệu song song (dịch E ↔ F) • Dấu ngắt đoạn (nếu đánh dấu) ự ?,, !,, ; • số kýý tự: • Vấn đề: dấu chấm ‘.’ Gióng hàng câu • Phát câu • Gióng hàng câu – – – – – – – Gióng hàng từ • Tách từ • Gióng hàng từ (với số ràng buộc) 39 Gióng hàng câu Kết thúc câu ( left yesterday He was heading to ) Dấu chấm thập phân : 3.6 (three-point-six) Dấu chấm hàng nghìn: 3.200 Viết tắt: cf., e.g., Calif., Mt., Mr Vân vân: số ngôn ngữ: 2nd ~ Ký hiệu đầu: A B Smith Phương pháp thống kê: vd Maximum Entropy 40 Các phương pháp gióng hàng Vấn đề với phát biên câu: Nhiều phương pháp (xác suất không) E: F: Dựa độ dài ký tự Dựa độ dài từ “cùng gốc” (sử dụng nghĩa từ) Đầu mong đợi: Các phân mảnh với số lượng mảnh liên tiếp Gióng hàng: • Sử dụng từ điển (F: prendre ~ E: make, take) • Sử dụng khoảng cách từ (độ tương tự): tên, số, từ vay mượn, từ gốc Latin E: F: Kết tốt nhất: Thống kê, dựa từ dựa ký tự Kết quả: 2-1, 1-1, 1-1, 2-2, 2-1, 0-1 41 42 Nhiệm vụ gióng hàng Gióng hàng dựa độ dài Định nghĩa: Cho P(A,E,F) ≅ Πi=1 nP(Bi), tìm cách chia (E,F) thành n bead Bi=1 n i n, cho tối đa xác suất P(A,E,F) tập luyện Định nghĩa toán việc tính xác suất: argmaxA P(A|E,F) = argmaxA P(A,E,F) (E,F cố định) Định Đị h nghĩa hĩ “bead”: “b d” E: F: “bead” bead (2:2) Bi = p:qαi, với p:q ∈ {0:1,1:0,1:1,1:2,2:1,2:2} mô tả phép gióng hàng Lấy xấp xỉ: P(A,E,F) ≅ Πi=1 nP(Bi), Trong Bi bead; P(Bi) không phụ thuộc vào phần lại E,F Pref(i,j) – xác suất cách gióng hàng tốt từ điểm đầu (i,j) 43 Định nghĩa đệ qui Xác suất Bead Định nghĩa P(p:qαk): Khởi tạo: Pref(0,0) = Pref(i,j) = max ( Pref(i,j-1) e ( ,j ) P((0:1αk), Pref(i-1,j) e ( ,j) P((1:0αk), Pref(i-1,j-1) e ( ,j ) P((1:1αk), Pref(i-1,j-2) P(1:2αk), Pref(i-2,j-1) P(2:1αk), Pref(i-2,j-2) P(2:2αk) ) E: F: P(2:2 P(α2:1 P( )α k)α 1:2kα P( P( αk))) 0:1 1:1 kk k đề cập đến “bead” kế tiếp, với đoạn câu p q, độ dài lk,e lk,f Sử dụng d phân hâ bố chuẩn h ẩ cho h độ dài khác nhau: h P(p:qαk) = P(δ(lk,e,lk,f,μ,σ2),p:q) ≅ P(δ(lk,e,lk,f,μ,σ2))P(p:q) δ(lk,e,lk,f,μ,σ2) = (lk,f - μlk,e)/√lk,eσ2 Đánh giá P(p:q) từ tập liệu nhỏ, đoán đánh gía lại sau gióng hàng i Pref(i-2,j-2) Pref(i-2,j-1) Pref(i-1,j-2) Pref(i-1,j-1) Pref(i-1,j) Pref(i,j-1) 44 P(1:0αk) Từ dùng dấu hiệu tốt để định nghĩa P(p:qak) j 45 Gióng hàng từ Nếu dựa độ dài, không thực được: từ bị đảo trật tự, phép dịch thường có độ dài khác Ý tưởng: Đưa vài mô hình dịch đơn giản Tìm tham số cách xét tất cách gióng hàng Sau có tham số, tìm cách gióng hàng tốt có tham số 47 46 Thuật toán gióng hàng từ Khởi tạo với tập ngữ liệu gióng hàng câu Cho (E,F) cặp câu (là bead) Khởi tạo ngẫu nhiên p(f|e), f∈F, e∈E Đếm tập ngữ liệu: c(f,e) = Σ(E,F);e∈E,f∈F p(f|e) với ∀ cặp gióng hàng (E,F), kiểm tra xem e có E f có F không Nếu đúng, bổ sung p(f|e) Đánh giá lại: p(f|e) = c(f,e) / c(e) [c(e) = Σf c(f,e)] Lặp đến p(f|e) thay đổi 48 Cách gióng hàng tốt Với cặp (E,F), tìm Dịch máy sử dụng cú pháp A = argmaxA P(A|F,E) = argmaxA P(F,A|E)/P(F) = argmaxA P(F,A|E) = argmaxA (ε / p(fj|eaj)) = argmaxA Πj=1 mp(fj|eaj) (l+1)m Πj=1 m Sử sụng thuật toán lập trình động theo kiểuViterbi Tính lại p(f|e) 50 49 Yamada and Knight (2001): Lý cần cú pháp Tại dùng cú pháp Cần thông tin ngữ pháp Cần ràng buộc lại câu Khi chèn từ chức vào câu, cần đặt vị trí xác Khi dịch từ cần sử dụng từ có từ loại với 51 Cây cú pháp (Anh) Æ câu (Nhật) Mô hình dựa cú pháp Cây cú pháp (tiếng Anh) Mô hình dịch 52 Câu (tiếng Nhật) Tiền xử lý câu tiếng Anh PTCP Thực phép tính xác suất cú pháp Sắp lại trật tự nút Chèn nút vào Dịch từ 53 54 Sắp lại trật tự Bảng tham số: lại Trật tự gôc Sắp lại P(Sắp lại| Trật tự gốc) Đặc trưng điều kiện = dãy nhãn 55 56 Bảng tham số: chèn Chèn Đặc trưng điều kiện = nhãn cha & nhãn nút (vị trí) & none (là từ) 57 Dịch 58 Bảng tham số: Dịch Đặc trưng điều kiện = từ (tiếng Anh) Ghi chú: Dịch thành NULL Æ xóa 59 60 10 Thử nghiệm Kết Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng PTCP Collins Y/K model Điểm trung bình #câu 0.582 10 431 IBM model 0.431 Luyện 40000 câu từ Treebank, độ cx ~90% Điểm trung bình tính người với 50 câu ok(1.0), không (0.5), sai (0.0) tính độ xác E: từ cú pháp, xác định trật tự từ chuyển đổi (SVO SOV) Luyện sử dụng EM: 20 vòng lặp 61 Kết quả: gióng hàng 62 Kết quả: gióng hàng 63 64 Một số hệ thống dịch máy Internet http://www.google.com/language_tools?hl=en http://www.systransoft.com/index.html http://babelfish altavista digital com/ http://babelfish.altavista.digital.com/ 65 66 11 67 69 70 12 [...]... sai (0.0) chỉ tính độ chính xác E: từ cây cú pháp, xác định trật tự từ và chuyển đổi (SVO SOV) Luyện sử dụng EM: 20 vòng lặp 61 Kết quả: gióng hàng 1 62 Kết quả: gióng hàng 2 63 64 Một số hệ thống dịch máy trên Internet http://www.google.com/language_tools?hl=en http://www.systransoft.com/index.html http://babelfish altavista digital com/ http://babelfish.altavista.digital.com/ 65 66 11 67 69 70 12 ... (ontology) 11 12 Các kiểu dịch máy cao mức độ trừu tượng Dịch máy thống kê siêu ngôn ngữ a thấp ngữ nghĩa cú pháp g s t 13 } chuyển đổi từ-từ 14 Dịch máy thống kê ý tưởng Coi việc dịch toán kênh có nhiễu...Hiểu ngôn ngữ Các phương pháp dịch máy Nhập nhằng từ vựng: English: book - Spanish libro, reservar ⇒ Sử dụng thông tin cú pháp... suất dịch prs từ giá trị z trên: P( w f | we ) = z w f , we ∑ v z v,w e tổng tính tất từ tiếng Pháp v 33 Đánh giá 34 Lý Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi: Dịch

Ngày đăng: 09/11/2015, 20:24

TỪ KHÓA LIÊN QUAN