Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh Hương

7 23 0
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh Hương

Đang tải... (xem toàn văn)

Thông tin tài liệu

z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.. 18.[r]

(1)

Gán nhãn t loi

Lê Thanh Hương

1

Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn

Định nghĩa

z Gán nhãn từ loại (Part of Speech tagging - POS

tagging): từ câu gán nhãn thẻ từ loại tương ứng

z Vào : đoạn văn tách từ + tập nhãn z Ra: cách gán nhãn xác

2 z Ra: cách gán nhãn xác

Ví dụ Ví dụ Ví dụ Ví dụ Ví dụ5

¾Gán nhãn làm cho việc phân tích văn dễ dàng

Ti cn gán nhãn?

z Dễ thực hiện: thực nhiều phương pháp

khác

z Các phương pháp sử dụng ngữ cảnh có thểđem lại kết tốt

Mặ dù ê th hiệ bằ hâ tí h ă bả

3 z Mặc dù nên thực phân tích văn

z Các ứng dụng:

z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead – N [led], V: [li:d]

z Tiền xử lý cho PTCP PTCP thực việc gán nhãn tốt đắt

z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v…

z Dễ đánh giá (có thẻđược gán nhãn đúng?)

Tp t loi tiếng Anh

z Lớp đóng (các từ chức năng): số lượng cốđịnh z Giới từ (Prepositions): on, under, over,…

z Tiểu từ (Particles): abroad, about, around, before, in,

instead, since, without,…

4 z Mạo từ (Articles): a, an, the

z Liên từ (Conjunctions): and, or, but, that,… z Đại từ (Pronouns): you, me, I, your, what, who,… z Trợđộng từ (Auxiliary verbs): can, will, may, should,… z Lớp mở: có thêm từ

Lp t m tiếng Anh

open class verbs

Proper nouns: IBM, Colorado nouns

common nouns

count nouns: book, ticket mass nouns: snow, salt auxiliaries

Color: red, white

5 p

adverbs

adjectives Age: old, young Value: good, bad

Degree adverbs: extremely, very, somewhat Manner adverbs: slowly, delicately Temporal adverbs: yesterday, Monday Locatives adverbs: home, here, downhill

Tp nhãn cho tiếng Anh

z tập ngữ liệu Brown: 87 nhãn z 3 tập thường được sử dụng:

¾ Nhỏ: 45 nhãn - Penn treebank (slide sau)

(2)

7 I know that blocks the sun

He always books the violin concert tickets early He says that book is interesting

Penn Treebank – ví d

z The grand jury commented on a number of

other topics.

8 ÖThe/DTgrand/JJjury/NNcommented/VBD

on/INa/DTnumber/NNof/INother/JJ topics/NNS./.

Khó khăn gán nhãn t

loi?

… xử lý nhập nhằng

9

Các phương pháp gán nhãn t

loi

z Da xác sut: dựa xác suất lớn

nhất, dựa mơ hình Markov ẩn (hidden markov model – HMM)

Pr (Det N) > Pr (Det Det)

10

Pr (Det-N) > Pr (Det-Det)

z Da lut

If <mẫu>

Then … <gán nhãn thẻ từ loại>

Các cách tiếp cn

z S dng HMM :“Sử dụng tất cả thơng tin đã

có đốn”

z Da ràng buc ng pháp: “không

11

g g p p g

đoán, chỉ loại trừ những khả năng sai”

z Da chuyn đổi: “Đốn trước, sau đó

có thể thay đổi”

Gán nhãn da xác sut

Cho câu xâu từ, gán nhãn từ loại thường xảy cho từ xâu

Cách thực hiện:

12

z Hidden Markov model (HMM): Chọn thẻ từ loại làm tối đa xác suất:

P(từ|từ loại)•P(từ loại| n từ loại phía trước) The/DTgrand/JJjury/NNcommented/VBDon/INa/DT

(3)

Ví d -HMMs

13

Thực học có giám sát, sau suy diễn để xác định thẻ từ loại

Gán nhãn HMM

z Công thức Bigram HMM: chọn ti cho wicó nhiều

khả biết ti-1 wi :

ti = argmaxjP(tj | ti-1 , wi) (1)

z Giảthiếtđơn giản hóa HMM:vấnđềgán nhãn

14 z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn

có thể giải cách dựa từ thẻ từ loại bên cạnh

ti = argmaxjP(tj | tj-1 )P(wi | tj ) (2)

xs chuỗi thẻ

(các thẻđồng xuất hixs tệừn) thường xuất với thẻ tj

Ví d

1 Secretariat/NNPis/VBZexpected/VBNto/TOrace/VB

tomorrow/NN

2 People/NNS continue/VBP to/TOinquire/VB the/DT

reason/NNfor/INthe/DTrace/NNfor/INouter/JJ

15 space/NN

z Không thểđánh giá cách chỉđếm từ tập ngữ liệu (và chuẩn hóa)

z Muốn động từ theo sau TOnhiều danh từ(to race, to walk) Nhưng danh từ theo sau TO (run to school)

Gi s có tt c t

loi tr trace

z Chỉ nhìn vào từđứng trước(bigram):

to/TO race/??? NN or VB?

the/DT race/???

I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ?the/DT sun/NN

16

z Áp dụng (2):

z Chọn thẻ có xác suất lớn xác suất:

P(VB|TO)P(race|VB) P(NN|TO)P(race|NN)

xác suất từ race biết từ loại VB ti = argmaxjP(tj | tj-1 )P(wi | tj )

Tính xác sut

Xét P(VB|TO) P(NN|TO)

z Từ tập ngữ liệu Brown P(NN|TO)= 021 P(VB|TO)= 340

17 P(race|NN)= 0.00041

P(race|VB)= 0.00003

z P(VB|TO)P(race|VB) = 0.00001 z P(NN|TO)P (race|NN) = 0.000007

¾ racecần phải động từ sau“TO”

Bài tp

z I know that blocks the sun

z He always books the violin concert tickets early z He says that book is interesting

z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN

18

z He/PP always/RB books/VBZ the/DT violin/NN

concert/NN tickets/NNS early/RB

z I know that block blocks the sun

z I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?

the/DT sun/NN

z He/PP says/VBZ that/WDT book/NN is/VBZ

(4)

Mơ hình đầy đủ

z Chúng ta cần tìm chuỗi thẻ tốt cho tồn xâu z Cho xâu từW, cần tính chuỗi từ loại có xác suất lớn

nhất

T=t1,t2 ,…, tn hoặc,

19

(nguyên lý Bayes)

ˆ arg max ( | ) T

T P T W

τ ∈ =

M rng s dng lut chui

P(A,B) = P(A|B)P(B) = P(B|A)P(A)

P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A) = P(A)P(B|A)P(C|A,B)

20 P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C )

1 1 1 1

1

( ) ( | ) ( | ) ( | )

n

i i i i i i i

i

P T P W T P w w t w t t P t w t− − w t− −

= =∏

lịch sử nhãn pr từ

Gi thiết trigram

zXác suất từ chỉ phụ thuộc vào nhãn của nó

1 1

( i| i i) ( i| )i P w w t t t =P w t

21

zTa lấy lịch sử nhãn thông qua nhãn gần

nhất (trigram: nhãn gần nhất + nhãn hiện tại)

1 1

( i| i i) ( i| )i P w w t t tP w t

1 1

( |i i ) ( |i i i )

P t w t t− =P t t t− −

Thay vào công thc

n n

P(T)P(W|T) =

22

1 2

3

( ) ( | ) ( |i i i )[ ( i| )]i

i i

P t P t t P t t t− − P w t

= =

∏ ∏

Đánh giá xác sut

z Sử dụng quan hệ xác suất từ tập ngữ liệu để

đánh giá xác suất:

2

( )

( | ) c t t ti i i

P t t t − −

23 1 2 ( ) ( | ) ( )

i i i

i i i

i i P t t t

c t t − − − − = ( , ) ( | ) ( ) i i i i i

c w t P w t

c t

=

Bài toán

Cần giải quyết

ˆ arg max ( ) ( | ) T = P T P W T

24

Bây giờ ta có thể tính được tất cả tích P(T)P(W|T)

arg max ( ) ( | ) T

T P T P W T

τ

(5)

Ví d

NNS

DT

NNS

NNS

25

the dog

VB

saw VBP

ice-cream

Tìm đường tốt nhất?

Tìm đường đi có đim cao

nht

NNS NNS

75

30

NNS 1

1 2

3

( ) ( | ) ( | )[ ( | )]

n n

i i i i i

i i

P t P t t P t t t− − P w t

= =

∏ ∏

26

the dog

VB DT

saw VBP

ice-cream 75

1

60

30 1

NNS 1

52

Cách tìm đường đi có đim

cao nht

z Sử dụng tìm kiếm kiểu best-first (A*)

1 Tại bước, chọn k giá trị tốt ( ) Mỗi giá

trị k giá trị ứng với khả kết hợp nhãn tất từ

ế ấ

27

2 Khi gán từ tiếp theo, tính lại xác suất Quay lại

bước

z Ưu: nhanh (không cần kiểm tra tất khả

kết hợp, k tiềm nhất)

z Nhược: có thể khơng trả kết tốt mà

chấp nhận

Độ xác

z > 96%

z Cách đơn giản nhất? 90%

zGán từ với từ loại thường xuyên

28

zGán từ chưa biết = danh từ

z Người: 97%+/- 3%; nếu có thảo luận: 100%

Cách tiếp cn th 2: gán nhãn

da chuyn đổi

Transformation-based Learning (TBL):

z Kết hợp cách tiếp cận dựa luật cách tiếp

ậ ất ửd h để hỉ h l i thẻ

29

cận xác suất: sử dụng học máy để chỉnh lại thẻ thông qua vài lần duyệt

z Gán nhãn sử dụng tập luật tổng quát nhất, sau

đến tập luật hẹp hơn, thay đổi số nhãn, tiếp tục

Transformation-based painting

(6)

Transformation-based painting

31

Transformation-based painting

32

Transformation-based painting

33

Transformation-based painting

34

Transformation-based painting

35

Transformation-based painting

(7)

Ví d vi TBL

37

Ví d vi TBL

1 Gán từ với nhãn thường xuất

(thường độ xác khoảng 90% ) Từ tập ngữ liệu Brown:

P(NN|race)= 0.98

38

( | )

P(VB|race)= 0.02

2 …expected/VBZ to/ TO race/NN tomorrow/NN

…the/DT race/NNfor/IN outer/JJ space/NN

3 Sử dụng luật chuyển đổi:

ThayNNbằng VBkhi thẻ trước TO

pos: ‘NN’>’VB’ ←pos: ‘TO’ @[-1] o

TO race/VB

Lut gán nhãn t loi

39

Lut gán nhãn t loi

40

Hc lut TB h thng TBL

41

Các tp ng liu

z Tập huấn luyện

w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 z Tập ngữliệu hiện tại (CC 1)

42

z Tập ngữ liệu hiện tại (CC 1) dt vb nn dt vb kn dt vb ab dt vb z Tập ngữ liệu tham khảo

Ngày đăng: 09/03/2021, 06:04

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan