El viejo está feliz porque ha pescado muchos veces Su.. 19 fished many.[r]
(1)Dịch máy
1
Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Ví dụ
Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99…
2 /
With leaving season 97/98 and especially at the beginning of this season 98/99…
Các vấn đề
1 Xử lý giống khác ngơn ngữ Hình vị: # số âm tiết/từ:
Ngơn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) –
3 Ngôn ngữđơn âm tiết ( tiếng Việt, Trung Quốc) tiếng/từ
Ngôn ngữđa âm tiết (Siberian Yupik), từ = câu Mức độ phân chia âm tiết
Các vấn đề
2 Cú pháp: trật tự từ câu To Yukio; Yukio ne Tiếng Anh – tiếng Việt:
The (affix1)red(affix2)flag(head)
Lá cờ(head)đỏ(affix2)ấy(affix1)
4 Lá cờ(head) đỏ(affix2) ấy(affix1)
3 Các nét riêng biệt
English brother Vietnamese anh em English wall German wand (inside)
mauer(outside)
German berg English hill
mountain
Không gian khái niệm
Ba khối dịch máy ngơn
ngữ nguồn S
ngơn ngữđích T hiểu
ngơn ngữ
(2)Hiểu ngôn ngữ
1 Nhập nhằng từ vựng:
English: book - Spanish libro, reservar
⇒Sử dụng thông tin cú pháp
2 Nhập nhằng cú pháp:
I saw the guy on the hill with the telescope
7 I saw the guy on the hill with the telescope
3 Nhập nhằng ngữ nghĩa:
E: While driving, John swerved & hit a tree John’s car S: Minetras que John estaba manejando, se desvio y golpeop un arbo
Các phương pháp dịch máy
cú pháp
mức trừu tượng
cao
ngữ nghĩa
siêu ngôn ngữ siêu ngôn ngữ
dịch chuyển đổi
8
s t
a g
từ-từ
cú p áp
thấp
a = a(s)
g = f(a(s)); f – hàm chuyển đổi t=g(f(a(s)))
dịch trực tiếp
Sơđồ chuyển đổi
9
Luật chuyển đổi
10
Sơđồ chuyển đổi
11
Cách tiếp cận siêu ngôn ngữ: sử dụng nghĩa
Chuyển đổi: luật chuyển đổi từ ngôn ngữ sang ngôn ngữ khác
ĐỐi tượng/sự kiện (ontology)
(3)Dịch máy thống kê
13
Các kiểu dịch máy mức độ
trừu tượng
cao
ngữnghĩa
siêu ngôn ngữ
} chuyển đổi
14
s t
a g
từ-từ
cú pháp
thấp
ngữ nghĩa } chuyển đổi
ý tưởng
Coi việc dịch toán kênh có nhiễu
Input (Nguồn) “Noisy” Output (đích) The channel
E: English words (adds “noise”) F: Les mots Anglais
15 Mơ hình dịch: P(E|F) = P(F|E) P(E) / P(F)
Khôi phục lại E biết F:
Sau đơn giản hóa (P(F) khơng đổi): argmaxEP(E|F) = argmaxEP(F|E) P(E)
Dịch máy thống kê
16
Các yếu tố
Mơ hình ngơn ngữ - Language Model(LM): xác suất thấy câu tiếng Anh (E) (xác suất tiền nghiệm):
P(E)
Mơ hình dịch - Translation Model(TM): câu đích
Ý tưởng gióng hàng
Mơ hình dịch TM không quan tâm đến chuỗi từ tiếng Anh
(4)Gióng hàng câu The old man is
happy He has fished many
El viejo está feliz porque pescado muchos veces Su
19 fished many
times His wife talks to him The fish are jumping The sharks await.
muchos veces Su mujer habla él Los tiburones esperan.
Gióng hàng câu
1 The old man is happy
2 He has fished many times
1 El viejo está feliz porque pescado muchos veces
20 times
3 His wife talks to him The fish are jumping The sharks await
2 Su mujer habla él Los tiburones
esperan
Gióng hàng câu The old man is
happy
2 He has fished many times
1 El viejo está feliz porque pescado muchos veces Su mujer habla
21 His wife talks to him
4 The fish are jumping The sharks await
él
3 Los tiburones esperan Khó khăn:
Sự liên quan chéo: trật tự câu thay đổi dịch
Gióng hàng từ - Mức dễ
22
Gióng hàng từ - Khó hơn
23
Gióng hàng từ - Khó hơn
(5)Gióng hàng từ - Khó
25
Gióng hàng từ - Mã hóa
0 e0And the program has been implemented
26 f0Le programme a été mis en application 0 7
Gán thông tin tuyến tính:
• f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6)
• e0And(0) the(1) program(2) has(3) been(4) implemented(5,6,7)
Học việc gióng hàng từ sử dụng EM
27
Học việc gióng hàng từ sử dụng EM
28
Học việc gióng hàng từ sử dụng EM Kênh nhiễu
Mơ hình ngơn ngữ
P(e) Mơ hình d
ịch
P(f|e) e
Giải mã
Argmax f
(6)Các thành phần của mơ hình dịch Giả thiết
Individual translations are independance từ tiếng Anh – n từ tiếng Pháp từ tiếng Pháp - (0-1) từ tiếng Anh
1
( | ) ( | )
m
l l
P f e = ∑ ∑ ∏L P f e
31 fj - từ j f;
aj - vị trí e gióng hàng với fj eaj- từ e gióng hàng với fj Z số chuẩn hóa
aj= 0: từ j câu tiếng Pháp gióng hàng với từ rỗng (khơng dịch sang)
m –độ dài f
1
( | ) ( | j)
m
j a
a a j
P f e P f e
Z = =
= ∑ ∑ ∏L
Ví dụ
P(Jean aime Marie| John loves Mary)
Gióng hàng(Jean, John), (aime, loves), (Marie, Mary) ta có xác suất
32 Mary), ta có xác suất
P(Jean|John) x P(aime|loves) xP(Marie|Mary)
Giải mã
) | ( ) ( max arg ) ( ) | ( ) ( max arg ) | ( max arg e f P e P f P e f P e P f e P e e e e = = = 33 Vấn đề: khơng gian tìm kiếm vơ hạn
Mẹo:
tìm kiếm dùng ngăn xếp: xây dựng dần, lưu stack phần dịch
sử dụng sốđộđo vềđộ phù hợp, vd., chamber/house, (nhưng có thểđi sai đường từ thường xuất với từ
khác, commune/house, có Chambre de Communes (hạ
nghị viện)
Thuật toán EM
E-step
Khởi tạo giá trị P(wf|we) ngẫu nhiên
Tính số lần tìm thấy wf tiếng Pháp có we tiếng Anh
∑
34 M-step
Đánh giá lại xác suất dịch prs từ giá trị z trên:
tổng tính tất từ tiếng Pháp v
( , ) ,
, e ( | )
f
e f
w w f e
e f s t w e w f
z P w w
= =
= ∑
∑ =
v vwe w w e f z z w w
P f e
, ,
) | (
Đánh giá
Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi:
Dịch sai nghĩa:
Permettez que je donne un example chambre
35
• Permettez que je donne un example chambre • Let me give an example in the House (incorrect decoding) • (Let me give the House an example)
Dịch sai ngữ pháp:
• Vous avez besoin de toute l’aide disponsible • You need all of the benefits available (ungrammatical
decoding)
• (You need all the help you can get)
Lý do
Hiện tượng méo:từ tiếng Anh ởđầu câu gióng hàng với từ tiếng Pháp cuối câu – tượng giảm xác suất gióng hàng
36 Hiện tượng sinh (fertility): tương ứng từ
tiếng Anh tiếng Pháp (1-to-1, 1-to-2, 1-to-0, …),
Vd, fertility(farmers) tập ngữ liệu = 2, từ dịch sang tiếng Anh thường gồm từ : les argiculteurs
(7)Lý do
Các giả thiết độc lập: câu ngắn ưu tiên có xác suất (khi nhân)
⇒nhân kết với số tỉ lệ thuận với độ dài câu
37 câu
Phụ thuộc liệu luyện: thay đổi nhỏ liệu luyện gây thay đổi lớn giá trịước lượng tham số
Vd, P(le|the) thay đổi từ 0.610 xuống 0.497
TÍnh hiệu Bỏ câu > 30 từ, làm khơng gian tìm kiếm tăng theo cấp số mũ
Thiếu tri thức ngôn ngữ
Thiếu tri thức ngôn ngữ
Không lưu thơng tin ngữ: ví dụ khơng gióng hàng “to go” “aller”
Khơng có ràng buộc cục bộ:
38 Khơng có ràng buộc cục bộ:
Eg, is she a mathematician
Âm vị Các từ tạo âm vị khác coi ký hiệu riêng biệt
Dữ liệu thưa Các đánh giá cho từ gặp khơng xác
Các hệ thống gióng hàng khác Các tập ngữ liệu sử dụng giả thiết:
• Dữ liệu song song (dịch E ↔ F) Gióng hàng câu
39 Gióng hàng câu
• Phát câu • Gióng hàng câu Gióng hàng từ
• Tách từ
• Gióng hàng từ (với số ràng buộc)
Phát hiện biên của câu
Sử dụng luật, danh sách liệt kê: Dấu kết thúc câu:
• Dấu ngắt đoạn (nếu đánh dấu) • số ký tự: ?, !, ;
40 ý ự , , ;
• Vấn đề: dấu chấm ‘.’
– Kết thúc câu ( left yesterday He was heading to ) – Dấu chấm thập phân : 3.6 (three-point-six) – Dấu chấm hàng nghìn: 3.200
– Viết tắt: cf., e.g., Calif., Mt., Mr – Vân vân:
– số ngôn ngữ: 2nd ~ – Ký hiệu đầu: A B Smith
Phương pháp thống kê: vd Maximum Entropy
Gióng hàng câu
Vấn đề với phát biên câu: E:
F:
Các phương pháp gióng hàng
Nhiều phương pháp (xác suất không) Dựa độ dài ký tự