Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 6 - Lê Thanh Hương

7 18 0
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 6 - Lê Thanh Hương

Đang tải... (xem toàn văn)

Thông tin tài liệu

El viejo está feliz porque ha pescado muchos veces Su.. 19 fished many.[r]

(1)

Dch máy

1

Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN

Email: huonglt-fit@mail.hut.edu.vn

Ví d

Au sortir de la saison 97/98 et surtout au debut de cette saison 98/99…

2 /

With leaving season 97/98 and especially at the beginning of this season 98/99…

Các vn đề

1 Xử lý giống khác ngơn ngữ Hình vị: # số âm tiết/từ:

Ngơn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) –

3 Ngôn ngữđơn âm tiết ( tiếng Việt, Trung Quốc) tiếng/từ

Ngôn ngữđa âm tiết (Siberian Yupik), từ = câu Mức độ phân chia âm tiết

Các vn đề

2 Cú pháp: trật tự từ câu To Yukio; Yukio ne Tiếng Anh – tiếng Việt:

The (affix1)red(affix2)flag(head)

Lá cờ(head)đỏ(affix2)ấy(affix1)

4 Lá cờ(head) đỏ(affix2) ấy(affix1)

3 Các nét riêng biệt

English brother Vietnamese anh em English wall German wand (inside)

mauer(outside)

German berg English hill

mountain

Không gian khái nim

Ba khi dch máy ngơn

ngữ nguồn S

ngơn ngữđích T hiểu

ngơn ngữ

(2)

Hiu ngôn ng

1 Nhập nhằng từ vựng:

English: book - Spanish libro, reservar

⇒Sử dụng thông tin cú pháp

2 Nhập nhằng cú pháp:

I saw the guy on the hill with the telescope

7 I saw the guy on the hill with the telescope

3 Nhập nhằng ngữ nghĩa:

E: While driving, John swerved & hit a tree John’s car S: Minetras que John estaba manejando, se desvio y golpeop un arbo

Các phương pháp dch máy

cú pháp

mức trừu tượng

cao

ngữ nghĩa

siêu ngôn ngữ siêu ngôn ngữ

dịch chuyển đổi

8

s t

a g

từ-từ

cú p áp

thấp

a = a(s)

g = f(a(s)); f – hàm chuyển đổi t=g(f(a(s)))

dịch trực tiếp

Sơđồ chuyn đổi

9

Lut chuyn đổi

10

Sơđồ chuyn đổi

11

Cách tiếp cn siêu ngôn ng: s dng nghĩa

Chuyển đổi: luật chuyển đổi từ ngôn ngữ sang ngôn ngữ khác

ĐỐi tượng/sự kiện (ontology)

(3)

Dch máy thng kê

13

Các kiu dch máy mức độ

trừu tượng

cao

ngữnghĩa

siêu ngôn ngữ

} chuyển đổi

14

s t

a g

từ-từ

cú pháp

thấp

ngữ nghĩa } chuyển đổi

ý tưởng

Coi việc dịch toán kênh có nhiễu

Input (Nguồn) “Noisy” Output (đích) The channel

E: English words (adds “noise”) F: Les mots Anglais

15 Mơ hình dịch: P(E|F) = P(F|E) P(E) / P(F)

Khôi phục lại E biết F:

Sau đơn giản hóa (P(F) khơng đổi): argmaxEP(E|F) = argmaxEP(F|E) P(E)

Dch máy thng kê

16

Các yếu t

Mơ hình ngơn ngữ - Language Model(LM): xác suất thấy câu tiếng Anh (E) (xác suất tiền nghiệm):

P(E)

Mơ hình dịch - Translation Model(TM): câu đích

Ý tưởng gióng hàng

Mơ hình dịch TM không quan tâm đến chuỗi từ tiếng Anh

(4)

Gióng hàng câu The old man is

happy He has fished many

El viejo está feliz porque pescado muchos veces Su

19 fished many

times His wife talks to him The fish are jumping The sharks await.

muchos veces Su mujer habla él Los tiburones esperan.

Gióng hàng câu

1 The old man is happy

2 He has fished many times

1 El viejo está feliz porque pescado muchos veces

20 times

3 His wife talks to him The fish are jumping The sharks await

2 Su mujer habla él Los tiburones

esperan

Gióng hàng câu The old man is

happy

2 He has fished many times

1 El viejo está feliz porque pescado muchos veces Su mujer habla

21 His wife talks to him

4 The fish are jumping The sharks await

él

3 Los tiburones esperan Khó khăn:

Sự liên quan chéo: trật tự câu thay đổi dịch

Gióng hàng t - Mc d

22

Gióng hàng t - Khó hơn

23

Gióng hàng t - Khó hơn

(5)

Gióng hàng t - Khó

25

Gióng hàng t - Mã hóa

0 e0And the program has been implemented

26 f0Le programme a été mis en application 0 7

Gán thông tin tuyến tính:

• f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6)

• e0And(0) the(1) program(2) has(3) been(4) implemented(5,6,7)

Hc vic gióng hàng t s dng EM

27

Hc vic gióng hàng t s dng EM

28

Hc vic gióng hàng t s dng EM Kênh nhiu

Mơ hình ngơn ngữ

P(e) Mơ hình d

ịch

P(f|e) e

Giải mã

Argmax f

(6)

Các thành phn ca mơ hình dch Giả thiết

Individual translations are independance từ tiếng Anh – n từ tiếng Pháp từ tiếng Pháp - (0-1) từ tiếng Anh

1

( | ) ( | )

m

l l

P f e = ∑ ∑ ∏L P f e

31 fj - từ j f;

aj - vị trí e gióng hàng với fj eaj- từ e gióng hàng với fj Z số chuẩn hóa

aj= 0: từ j câu tiếng Pháp gióng hàng với từ rỗng (khơng dịch sang)

m –độ dài f

1

( | ) ( | j)

m

j a

a a j

P f e P f e

Z = =

= ∑ ∑ ∏L

Ví d

P(Jean aime Marie| John loves Mary)

Gióng hàng(Jean, John), (aime, loves), (Marie, Mary) ta có xác suất

32 Mary), ta có xác suất

P(Jean|John) x P(aime|loves) xP(Marie|Mary)

Gii mã

) | ( ) ( max arg ) ( ) | ( ) ( max arg ) | ( max arg e f P e P f P e f P e P f e P e e e e = = = 33 Vấn đề: khơng gian tìm kiếm vơ hạn

Mẹo:

tìm kiếm dùng ngăn xếp: xây dựng dần, lưu stack phần dịch

sử dụng sốđộđo vềđộ phù hợp, vd., chamber/house, (nhưng có thểđi sai đường từ thường xuất với từ

khác, commune/house, có Chambre de Communes (hạ

nghị viện)

Thut toán EM

E-step

Khởi tạo giá trị P(wf|we) ngẫu nhiên

Tính số lần tìm thấy wf tiếng Pháp có we tiếng Anh

34 M-step

Đánh giá lại xác suất dịch prs từ giá trị z trên:

tổng tính tất từ tiếng Pháp v

( , ) ,

, e ( | )

f

e f

w w f e

e f s t w e w f

z P w w

= =

= ∑

∑ =

v vwe w w e f z z w w

P f e

, ,

) | (

Đánh giá

Đánh giá dựa tập ngữ liệu Hansard: 48% câu tiếng Pháp dịch loại lỗi:

Dịch sai nghĩa:

Permettez que je donne un example chambre

35

• Permettez que je donne un example chambre • Let me give an example in the House (incorrect decoding) • (Let me give the House an example)

Dịch sai ngữ pháp:

• Vous avez besoin de toute l’aide disponsible • You need all of the benefits available (ungrammatical

decoding)

• (You need all the help you can get)

Lý do

Hiện tượng méo:từ tiếng Anh ởđầu câu gióng hàng với từ tiếng Pháp cuối câu – tượng giảm xác suất gióng hàng

36 Hiện tượng sinh (fertility): tương ứng từ

tiếng Anh tiếng Pháp (1-to-1, 1-to-2, 1-to-0, …),

Vd, fertility(farmers) tập ngữ liệu = 2, từ dịch sang tiếng Anh thường gồm từ : les argiculteurs

(7)

Lý do

Các giả thiết độc lập: câu ngắn ưu tiên có xác suất (khi nhân)

⇒nhân kết với số tỉ lệ thuận với độ dài câu

37 câu

Phụ thuộc liệu luyện: thay đổi nhỏ liệu luyện gây thay đổi lớn giá trịước lượng tham số

Vd, P(le|the) thay đổi từ 0.610 xuống 0.497

TÍnh hiệu Bỏ câu > 30 từ, làm khơng gian tìm kiếm tăng theo cấp số mũ

Thiếu tri thức ngôn ngữ

Thiếu tri thc ngôn ng

Không lưu thơng tin ngữ: ví dụ khơng gióng hàng “to go” “aller”

Khơng có ràng buộc cục bộ:

38 Khơng có ràng buộc cục bộ:

Eg, is she a mathematician

Âm vị Các từ tạo âm vị khác coi ký hiệu riêng biệt

Dữ liệu thưa Các đánh giá cho từ gặp khơng xác

Các h thng gióng hàng khác Các tập ngữ liệu sử dụng giả thiết:

• Dữ liệu song song (dịch E ↔ F) Gióng hàng câu

39 Gióng hàng câu

• Phát câu • Gióng hàng câu Gióng hàng từ

• Tách từ

• Gióng hàng từ (với số ràng buộc)

Phát hin biên ca câu

Sử dụng luật, danh sách liệt kê: Dấu kết thúc câu:

• Dấu ngắt đoạn (nếu đánh dấu) • số ký tự: ?, !, ;

40 ý ự , , ;

• Vấn đề: dấu chấm ‘.’

– Kết thúc câu ( left yesterday He was heading to ) – Dấu chấm thập phân : 3.6 (three-point-six) – Dấu chấm hàng nghìn: 3.200

– Viết tắt: cf., e.g., Calif., Mt., Mr – Vân vân:

– số ngôn ngữ: 2nd ~ – Ký hiệu đầu: A B Smith

Phương pháp thống kê: vd Maximum Entropy

Gióng hàng câu

Vấn đề với phát biên câu: E:

F:

Các phương pháp gióng hàng

Nhiều phương pháp (xác suất không) Dựa độ dài ký tự

Ngày đăng: 10/03/2021, 14:46

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan