Bài giảng Xử lý ngôn ngữ tự nhiên: Dịch máy - Lê Thanh Hương

12 102 0
Bài giảng Xử lý ngôn ngữ tự nhiên: Dịch máy - Lê Thanh Hương

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Xử lý ngôn ngữ tự nhiên: Dịch máy cung cấp cho người học các kiến thức: Dịch máy, các vấn đề, ba khối chính trong dịch máy, các phương pháp dịch máy, hiểu ngôn ngữ,... Mời các bạn cùng tham khảo nội dung chi tiết.

Ví dụ Au sortir de la saison 97/98 et surtout / au debut de cette saison 98/99… Dịch máy Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn With leaving season 97/98 and especially at the beginning of this season 98/99… Các vấn đề Các vấn đề Xử lý giống khác ngôn ngữ Cú pháp: trật tự từ câu To Yukio; Yukio ne Tiếng Anh – tiếng Việt: The (affix1) red (affix2) flag (head) Lá cờ (head) đỏ (affix2) (affix1) Hình vị: # số âm tiết/từ: Ngôn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) – tiếng/từ Ngôn ngữ đa âm tiết (Siberian Yupik), từ = câu Mức độ phân chia âm tiết Các nét riêng biệt English brother Vietnamese English wall German German berg English anh em wand (inside) mauer(outside) hill mountain Khơng gian khái niệm Ba khối dịch máy ngôn ngữ nguồn S hiểu ngôn ngữ dịch ngôn ngữ ngơn ngữ đích T thơng tin ánh xạ ngơn ngữ nguồn - đích Khoảng trống từ vựng: tiếng Nhật khơng có từ nghĩa privacy; tiêgns Anh khơng có từ ứng với yakoko (lòng hiếu thảo) CuuDuongThanCong.com https://fb.com/tailieudientucntt Hiểu ngôn ngữ Các phương pháp dịch máy Nhập nhằng từ vựng: English: book - Spanish libro, reservar ⇒ Sử dụng thông tin cú pháp cao Nhập nhằng cú pháp: mức trừu tượng I saw the guy on the hill with the telescope siêu ngôn ngữ ngữ nghĩa a Nhập nhằng ngữ nghĩa: thấp E: While driving, John swerved & hit a tree siêu ngôn ngữ g cú p pháp áp t từ-từ s dịch chuyển đổi dịch trực tiếp a = a(s) g = f(a(s)); f – hàm chuyển đổi John’s car S: Minetras que John estaba manejando, se desvio y golpeop un arbo t=g(f(a(s))) Luật chuyển đổi Sơ đồ chuyển đổi Sơ đồ chuyển đổi 10 Cách tiếp cận siêu ngôn ngữ: sử dụng nghĩa Chuyển đổi: luật chuyển đổi từ ngôn ngữ sang ngôn ngữ khác ĐỐi tượng/sự kiện (ontology) 11 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các kiểu dịch máy cao mức độ trừu tượng Dịch máy thống kê siêu ngôn ngữ a thấp ngữ nghĩa cú pháp g s t 13 } chuyển đổi từ-từ 14 Dịch máy thống kê ý tưởng Coi việc dịch tốn kênh có nhiễu Input (Nguồn) “Noisy” Output (đích) The channel E: English words (adds “noise”) F: Les mots Anglais Mơ hình dịch: P(E|F) = P(F|E) P(E) / P(F) Khôi phục lại E biết F: Sau đơn giản hóa (P(F) khơng đổi): argmaxE P(E|F) = argmaxE P(F|E) P(E) 15 Các yếu tố 16 Ý tưởng gióng hàng Mơ hình ngơn ngữ - Language Model (LM): xác suất thấy câu tiếng Anh (E) (xác suất tiền nghiệm): P(E) Mơ hình dịch - Translation Model (TM): câu đích tiếng Pháp (F) có câu tiếng Anh: P(F|E) Thủ tục tìm kiếm: Cho F, tìm E tốt sử dụng mơ hình ngơn ngữ LM mơ hình dịch TM Vấn đề: thiếu liệu! Ta khơng thể tạo từ điển câu E ↔ F Thậm thí bình thường ta khơng thấy câu lặp lại lần Mơ hình dịch TM khơng quan tâm đến chuỗi từ tiếng Anh Sử dụng cách tiếp cận gán nhãn: • từ tiếng Anh(“tag”) ~ từ tiếng Pháp (“word”) → khơng thực tế: chí số từ câu không → sử dụng “gióng hàng” Gióng hàng câu: tìm nhóm câu ngơn ngữ tương ứng với nhóm câu khác ngơn ngữ khác 17 18 CuuDuongThanCong.com https://fb.com/tailieudientucntt Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await Gióng hàng câu The old man is happy He has fished many times times His wife talks to him The fish are jumping The sharks await El viejo está feliz porque pescado muchos veces veces Su mujer habla él Los tiburones esperan El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan 19 Gióng hàng câu The old man is happy He has fished many times His wife talks to him The fish are jumping The sharks await 20 Gióng hàng từ - Mức dễ El viejo está feliz porque pescado muchos veces Su mujer habla él Los tiburones esperan Khó khăn: Sự liên quan chéo: trật tự câu thay đổi dịch 21 Gióng hàng từ - Khó 22 Gióng hàng từ - Khó 23 24 CuuDuongThanCong.com https://fb.com/tailieudientucntt Gióng hàng từ - Mã hóa Gióng hàng từ - Khó e0 And the program has been implemented f0 Le programme a été mis en application Gán thơng tin tuyến tính: • f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6) • e0 And(0) the(1) program(2) has(3) been(4) implemented(5,6,7) 25 Học việc gióng hàng từ sử dụng EM 26 Học việc gióng hàng từ sử dụng EM 27 Học việc gióng hàng từ sử dụng EM 28 Kênh nhiễu Mơ hình ngơn ngữ P(e) e Mơ hình dịch P(f|e) f Giải mã Argmax e =P(e|f) P(e|f) e 29 30 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các thành phần mơ hình dịch Ví dụ Giả thiết Individual translations are independance từ tiếng Anh – n từ tiếng Pháp từ tiếng Pháp - (0-1) từ tiếng Anh P ( f | e) = Z l ∑ a1 l L∑ am=0 m ∏ P( f j j =1 | ea j ) fj - từ j f; aj - vị trí e gióng hàng với fj eaj - từ e gióng hàng với fj Z số chuẩn hóa aj = 0: từ j câu tiếng Pháp gióng hàng với P(Jean aime Marie| John loves Mary) Gióng hàng(Jean, John), (aime, loves), (Marie, Mary), Mary) ta có xác suất P(Jean|John) x P(aime|loves) xP(Marie|Mary) từ rỗng (không dịch sang) m – độ dài f 31 Giải mã 32 Thuật toán EM e = arg max e P(e | f ) E-step Khởi tạo giá trị P(wf|we) ngẫu nhiên Tính số lần tìm thấy wf tiếng Pháp có we tiếng Anh P (e) P ( f | e) P( f ) = arg max e P (e) P( f | e) = arg max e zw f , we = Vấn đề: không gian tìm kiếm vơ hạn Mẹo: tìm kiếm dùng ngăn xếp: xây dựng dần, lưu stack phần dịch sử dụng số độ đo độ phù hợp, vd., chamber/house, (nhưng sai đường từ thường xuất với từ khác, commune/house, có Chambre de Communes (hạ nghị viện) ∑ P( w f | we ) ( e , f ) s t we = e , w f = f M-step Đánh giá lại xác suất dịch prs từ giá trị z trên: P( w f | we ) = z w f , we ∑ v z v,w e tổng tính tất từ tiếng Pháp v 33 Đánh giá 34 Lý Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi: Dịch sai nghĩa: • Permettez que je donne un example chambre • Let me give an example in the House (incorrect decoding) • (Let me give the House an example) Dịch sai ngữ pháp: • Vous avez besoin de toute l’aide disponsible • You need all of the benefits available (ungrammatical decoding) • (You need all the help you can get) 35 Hiện tượng méo: từ tiếng Anh đầu câu gióng hàng với từ tiếng Pháp cuối câu – tượng giảm xác suất gióng hàng Hiện tượng sinh (fertility): tương ứng từ tiếng Anh tiếng Pháp (1-to-1, 1-to-2, 1-to-0, …), Vd, fertility(farmers) tập ngữ liệu = 2, từ dịch sang tiếng Anh thường gồm từ : les argiculteurs To go → aller 36 CuuDuongThanCong.com https://fb.com/tailieudientucntt Thiếu tri thức ngôn ngữ Lý Các giả thiết độc lập: câu ngắn ưu tiên có xác suất (khi nhân) ⇒ nhân kết với số tỉ lệ thuận với độ dài câu Phụ thuộc liệu luyện: thay đổi nhỏ liệu luyện gây thay đổi lớn giá trị ước lượng tham số Vd, P(le|the) thay đổi từ 0.610 xuống 0.497 TÍnh hiệu Bỏ câu > 30 từ, làm khơng gian tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ Không lưu thông tin ngữ: ví dụ khơng gióng hàng “to go” “aller” Khơng có ràng buộc cục bộ: Eg, is she a mathematician Âm vị Các từ tạo âm vị khác coi ký hiệu riêng biệt Dữ liệu thưa Các đánh giá cho từ gặp khơng xác 37 38 Phát biên câu Các hệ thống gióng hàng khác Các tập ngữ liệu sử dụng giả thiết: Sử dụng luật, danh sách liệt kê: Dấu kết thúc câu: • Dữ liệu song song (dịch E ↔ F) • Dấu ngắt đoạn (nếu đánh dấu) ự ?,, !,, ; • số kýý tự: • Vấn đề: dấu chấm ‘.’ Gióng hàng câu • Phát câu • Gióng hàng câu – – – – – – – Gióng hàng từ • Tách từ • Gióng hàng từ (với số ràng buộc) 39 Gióng hàng câu Kết thúc câu ( left yesterday He was heading to ) Dấu chấm thập phân : 3.6 (three-point-six) Dấu chấm hàng nghìn: 3.200 Viết tắt: cf., e.g., Calif., Mt., Mr Vân vân: số ngôn ngữ: 2nd ~ Ký hiệu đầu: A B Smith Phương pháp thống kê: vd Maximum Entropy 40 Các phương pháp gióng hàng Vấn đề với phát biên câu: Nhiều phương pháp (xác suất không) E: F: Dựa độ dài ký tự Dựa độ dài từ “cùng gốc” (sử dụng nghĩa từ) Đầu mong đợi: Các phân mảnh với số lượng mảnh liên tiếp Gióng hàng: • Sử dụng từ điển (F: prendre ~ E: make, take) • Sử dụng khoảng cách từ (độ tương tự): tên, số, từ vay mượn, từ gốc Latin E: F: Kết tốt nhất: Thống kê, dựa từ dựa ký tự Kết quả: 2-1, 1-1, 1-1, 2-2, 2-1, 0-1 41 42 CuuDuongThanCong.com https://fb.com/tailieudientucntt Nhiệm vụ gióng hàng Gióng hàng dựa độ dài Định nghĩa: Cho P(A,E,F) ≅ Πi=1 nP(Bi), tìm cách chia (E,F) thành n bead Bi=1 n i n, cho tối đa xác suất P(A,E,F) tập luyện Định nghĩa toán việc tính xác suất: argmaxA P(A|E,F) = argmaxA P(A,E,F) (E,F cố định) Định Đị h nghĩa hĩ “bead”: “b d” E: F: “bead” bead (2:2) Bi = p:qαi, với p:q ∈ {0:1,1:0,1:1,1:2,2:1,2:2} mơ tả phép gióng hàng Lấy xấp xỉ: P(A,E,F) ≅ Πi=1 nP(Bi), Trong Bi bead; P(Bi) khơng phụ thuộc vào phần lại E,F Pref(i,j) – xác suất cách gióng hàng tốt từ điểm đầu (i,j) 43 Định nghĩa đệ qui Xác suất Bead Định nghĩa P(p:qαk): Khởi tạo: Pref(0,0) = Pref(i,j) = max ( Pref(i,j-1) e ( ,j ) P((0:1αk), Pref(i-1,j) e ( ,j) P((1:0αk), Pref(i-1,j-1) e ( ,j ) P((1:1αk), Pref(i-1,j-2) P(1:2αk), Pref(i-2,j-1) P(2:1αk), Pref(i-2,j-2) P(2:2αk) ) E: F: P(2:2 P(α2:1 P( )α k)α 1:2kα P( P( αk))) 0:1 1:1 kk k đề cập đến “bead” kế tiếp, với đoạn câu p q, độ dài lk,e lk,f Sử dụng d phân hâ bố chuẩn h ẩ cho h độ dài khác nhau: h P(p:qαk) = P(δ(lk,e,lk,f,μ,σ2),p:q) ≅ P(δ(lk,e,lk,f,μ,σ2))P(p:q) δ(lk,e,lk,f,μ,σ2) = (lk,f - μlk,e)/√lk,eσ2 Đánh giá P(p:q) từ tập liệu nhỏ, đốn đánh gía lại sau gióng hàng i Pref(i-2,j-2) Pref(i-2,j-1) Pref(i-1,j-2) Pref(i-1,j-1) Pref(i-1,j) Pref(i,j-1) 44 P(1:0αk) Từ dùng dấu hiệu tốt để định nghĩa P(p:qak) j 45 Gióng hàng từ Nếu dựa độ dài, không thực được: từ bị đảo trật tự, phép dịch thường có độ dài khác Ý tưởng: Đưa vài mơ hình dịch đơn giản Tìm tham số cách xét tất cách gióng hàng Sau có tham số, tìm cách gióng hàng tốt có tham số 46 Thuật tốn gióng hàng từ Khởi tạo với tập ngữ liệu gióng hàng câu Cho (E,F) cặp câu (là bead) Khởi tạo ngẫu nhiên p(f|e), f∈F, e∈E Đếm tập ngữ liệu: c(f,e) = Σ(E,F);e∈E,f∈F p(f|e) với ∀ cặp gióng hàng (E,F), kiểm tra xem e có E f có F khơng Nếu đúng, bổ sung p(f|e) Đánh giá lại: p(f|e) = c(f,e) / c(e) [c(e) = Σf c(f,e)] Lặp đến p(f|e) thay đổi 47 48 CuuDuongThanCong.com https://fb.com/tailieudientucntt Cách gióng hàng tốt Với cặp (E,F), tìm Dịch máy sử dụng cú pháp A = argmaxA P(A|F,E) = argmaxA P(F,A|E)/P(F) = argmaxA P(F,A|E) = argmaxA (ε / p(fj|eaj)) = argmaxA Πj=1 mp(fj|eaj) (l+1)m Πj=1 m Sử sụng thuật tốn lập trình động theo kiểuViterbi Tính lại p(f|e) 50 49 Yamada and Knight (2001): Lý cần cú pháp Tại dùng cú pháp Cần thông tin ngữ pháp Cần ràng buộc lại câu Khi chèn từ chức vào câu, cần đặt vị trí xác Khi dịch từ cần sử dụng từ có từ loại với 51 Cây cú pháp (Anh) Ỉ câu (Nhật) Mơ hình dựa cú pháp Cây cú pháp (tiếng Anh) Mơ hình dịch 52 Câu (tiếng Nhật) Tiền xử lý câu tiếng Anh PTCP Thực phép tính xác suất cú pháp Sắp lại trật tự nút Chèn nút vào Dịch từ 53 54 CuuDuongThanCong.com https://fb.com/tailieudientucntt Sắp lại trật tự Bảng tham số: lại Trật tự gôc Sắp lại P(Sắp lại| Trật tự gốc) Đặc trưng điều kiện = dãy nhãn 55 56 Bảng tham số: chèn Chèn Đặc trưng điều kiện = nhãn cha & nhãn nút (vị trí) & none (là từ) 57 Dịch 58 Bảng tham số: Dịch Đặc trưng điều kiện = từ (tiếng Anh) Ghi chú: Dịch thành NULL Ỉ xóa 59 60 10 CuuDuongThanCong.com https://fb.com/tailieudientucntt Thử nghiệm Kết Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng PTCP Collins Y/K model Điểm trung bình #câu 0.582 10 431 IBM model 0.431 Luyện 40000 câu từ Treebank, độ cx ~90% Điểm trung bình tính người với 50 câu ok(1.0), không (0.5), sai (0.0) tính độ xác E: từ cú pháp, xác định trật tự từ chuyển đổi (SVO SOV) Luyện sử dụng EM: 20 vòng lặp 61 Kết quả: gióng hàng 62 Kết quả: gióng hàng 63 64 Một số hệ thống dịch máy Internet http://www.google.com/language_tools?hl=en http://www.systransoft.com/index.html http://babelfish altavista digital com/ http://babelfish.altavista.digital.com/ 65 66 11 CuuDuongThanCong.com https://fb.com/tailieudientucntt 67 69 70 12 CuuDuongThanCong.com https://fb.com/tailieudientucntt ... δ(lk,e,lk,f,μ,σ2) = (lk,f - μlk,e)/√lk,eσ2 Đánh giá P(p:q) từ tập liệu nhỏ, đốn đánh gía lại sau gióng hàng i Pref(i-2,j-2) Pref(i-2,j-1) Pref(i-1,j-2) Pref(i-1,j-1) Pref(i-1,j) Pref(i,j-1) 44 P(1:0αk)... Pref(i,j) = max ( Pref(i,j-1) e ( ,j ) P((0:1αk), Pref(i-1,j) e ( ,j) P((1:0αk), Pref(i-1,j-1) e ( ,j ) P((1:1αk), Pref(i-1,j-2) P(1:2αk), Pref(i-2,j-1) P(2:1αk), Pref(i-2,j-2) P(2:2αk) ) E: F: P(2:2... with the telescope siêu ngôn ngữ ngữ nghĩa a Nhập nhằng ngữ nghĩa: thấp E: While driving, John swerved & hit a tree siêu ngôn ngữ g cú p pháp áp t từ-từ s dịch chuyển đổi dịch trực tiếp a = a(s)

Ngày đăng: 11/01/2020, 18:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan