z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.. 18.[r]
(1)Gán nhãn từ loại
Lê Thanh Hương
1
Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn
Định nghĩa
z Gán nhãn từ loại (Part of Speech tagging - POS
tagging): từ câu gán nhãn thẻ từ loại tương ứng
z Vào : đoạn văn tách từ + tập nhãn z Ra: cách gán nhãn xác
2 z Ra: cách gán nhãn xác
Ví dụ Ví dụ Ví dụ Ví dụ Ví dụ5
¾Gán nhãn làm cho việc phân tích văn dễ dàng
Tại cần gán nhãn?
z Dễ thực hiện: thực nhiều phương pháp
khác
z Các phương pháp sử dụng ngữ cảnh có thểđem lại kết tốt
Mặ dù ê th hiệ bằ hâ tí h ă bả
3 z Mặc dù nên thực phân tích văn
z Các ứng dụng:
z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead – N [led], V: [li:d]
z Tiền xử lý cho PTCP PTCP thực việc gán nhãn tốt đắt
z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v…
z Dễ đánh giá (có thẻđược gán nhãn đúng?)
Tập từ loại tiếng Anh
z Lớp đóng (các từ chức năng): số lượng cốđịnh z Giới từ (Prepositions): on, under, over,…
z Tiểu từ (Particles): abroad, about, around, before, in,
instead, since, without,…
4 z Mạo từ (Articles): a, an, the
z Liên từ (Conjunctions): and, or, but, that,… z Đại từ (Pronouns): you, me, I, your, what, who,… z Trợđộng từ (Auxiliary verbs): can, will, may, should,… z Lớp mở: có thêm từ
Lớp từ mở tiếng Anh
open class verbs
Proper nouns: IBM, Colorado nouns
common nouns
count nouns: book, ticket mass nouns: snow, salt auxiliaries
Color: red, white
5 p
adverbs
adjectives Age: old, young Value: good, bad
Degree adverbs: extremely, very, somewhat Manner adverbs: slowly, delicately Temporal adverbs: yesterday, Monday Locatives adverbs: home, here, downhill
Tập nhãn cho tiếng Anh
z tập ngữ liệu Brown: 87 nhãn z 3 tập thường được sử dụng:
¾ Nhỏ: 45 nhãn - Penn treebank (slide sau)
(2)7 I know that blocks the sun
He always books the violin concert tickets early He says that book is interesting
Penn Treebank – ví dụ
z The grand jury commented on a number of
other topics.
8 ÖThe/DTgrand/JJjury/NNcommented/VBD
on/INa/DTnumber/NNof/INother/JJ topics/NNS./.
Khó khăn gán nhãn từ
loại?
… xử lý nhập nhằng
9
Các phương pháp gán nhãn từ
loại
z Dựa xác suất: dựa xác suất lớn
nhất, dựa mơ hình Markov ẩn (hidden markov model – HMM)
Pr (Det N) > Pr (Det Det)
10
Pr (Det-N) > Pr (Det-Det)
z Dựa luật
If <mẫu>
Then … <gán nhãn thẻ từ loại>
Các cách tiếp cận
z Sử dụng HMM :“Sử dụng tất cả thơng tin đã
có đốn”
z Dựa ràng buộc ngữ pháp: “không
11
ự g ộ g p p g
đoán, chỉ loại trừ những khả năng sai”
z Dựa chuyển đổi: “Đốn trước, sau đó
có thể thay đổi”
Gán nhãn dựa xác suất
Cho câu xâu từ, gán nhãn từ loại thường xảy cho từ xâu
Cách thực hiện:
12
z Hidden Markov model (HMM): Chọn thẻ từ loại làm tối đa xác suất:
P(từ|từ loại)•P(từ loại| n từ loại phía trước) The/DTgrand/JJjury/NNcommented/VBDon/INa/DT
(3)Ví dụ -HMMs
13
Thực học có giám sát, sau suy diễn để xác định thẻ từ loại
Gán nhãn HMM
z Công thức Bigram HMM: chọn ti cho wicó nhiều
khả biết ti-1 và wi :
ti = argmaxjP(tj | ti-1 , wi) (1)
z Giảthiếtđơn giản hóa HMM:vấnđềgán nhãn
14 z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn
có thể giải cách dựa từ thẻ từ loại bên cạnh
ti = argmaxjP(tj | tj-1 )P(wi | tj ) (2)
xs chuỗi thẻ
(các thẻđồng xuất hixs tệừn) thường xuất với thẻ tj
Ví dụ
1 Secretariat/NNPis/VBZexpected/VBNto/TOrace/VB
tomorrow/NN
2 People/NNS continue/VBP to/TOinquire/VB the/DT
reason/NNfor/INthe/DTrace/NNfor/INouter/JJ
15 space/NN
z Không thểđánh giá cách chỉđếm từ tập ngữ liệu (và chuẩn hóa)
z Muốn động từ theo sau TOnhiều danh từ(to race, to walk) Nhưng danh từ theo sau TO (run to school)
Giả sử có tất cả từ
loại trừ từrace
z Chỉ nhìn vào từđứng trước(bigram):
to/TO race/??? NN or VB?
the/DT race/???
I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ?the/DT sun/NN
16
z Áp dụng (2):
z Chọn thẻ có xác suất lớn xác suất:
P(VB|TO)P(race|VB) P(NN|TO)P(race|NN)
xác suất từ race biết từ loại VB ti = argmaxjP(tj | tj-1 )P(wi | tj )
Tính xác suất
Xét P(VB|TO) P(NN|TO)
z Từ tập ngữ liệu Brown P(NN|TO)= 021 P(VB|TO)= 340
17 P(race|NN)= 0.00041
P(race|VB)= 0.00003
z P(VB|TO)P(race|VB) = 0.00001 z P(NN|TO)P (race|NN) = 0.000007
¾ racecần phải động từ sau“TO”
Bài tập
z I know that blocks the sun
z He always books the violin concert tickets early z He says that book is interesting
z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN
18
z He/PP always/RB books/VBZ the/DT violin/NN
concert/NN tickets/NNS early/RB
z I know that block blocks the sun
z I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?
the/DT sun/NN
z He/PP says/VBZ that/WDT book/NN is/VBZ
(4)Mơ hình đầy đủ
z Chúng ta cần tìm chuỗi thẻ tốt cho tồn xâu z Cho xâu từW, cần tính chuỗi từ loại có xác suất lớn
nhất
T=t1,t2 ,…, tn hoặc,
19
(nguyên lý Bayes)
ˆ arg max ( | ) T
T P T W
τ ∈ =
Mở rộng sử dụng luật chuỗi
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A) = P(A)P(B|A)P(C|A,B)
20 P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C )
1 1 1 1
1
( ) ( | ) ( | ) ( | )
n
i i i i i i i
i
P T P W T P w w t w t t P t w t− − w t− −
= =∏
lịch sử nhãn pr từ
Giả thiết trigram
zXác suất từ chỉ phụ thuộc vào nhãn của nó
1 1
( i| i i) ( i| )i P w w t t t =P w t
21
zTa lấy lịch sử nhãn thông qua nhãn gần
nhất (trigram: nhãn gần nhất + nhãn hiện tại)
1 1
( i| i i) ( i| )i P w w t t t− P w t
1 1
( |i i ) ( |i i i )
P t w t t− =P t t t− −
Thay vào công thức
n n
P(T)P(W|T) =
22
1 2
3
( ) ( | ) ( |i i i )[ ( i| )]i
i i
P t P t t P t t t− − P w t
= =
∏ ∏
Đánh giá xác suất
z Sử dụng quan hệ xác suất từ tập ngữ liệu để
đánh giá xác suất:
2
( )
( | ) c t t ti i i
P t t t − −
23 1 2 ( ) ( | ) ( )
i i i
i i i
i i P t t t
c t t − − − − = ( , ) ( | ) ( ) i i i i i
c w t P w t
c t
=
Bài toán
Cần giải quyết
ˆ arg max ( ) ( | ) T = P T P W T
24
Bây giờ ta có thể tính được tất cả tích P(T)P(W|T)
arg max ( ) ( | ) T
T P T P W T
τ
∈
(5)Ví dụ
NNS
DT
NNS
NNS
25
the dog
VB
saw VBP
ice-cream
Tìm đường tốt nhất?
Tìm đường đi có điểm cao
nhất
NNS NNS
75
30
NNS 1
1 2
3
( ) ( | ) ( | )[ ( | )]
n n
i i i i i
i i
P t P t t P t t t− − P w t
= =
∏ ∏
26
the dog
VB DT
saw VBP
ice-cream 75
1
60
30 1
NNS 1
52
Cách tìm đường đi có điểm
cao nhất
z Sử dụng tìm kiếm kiểu best-first (A*)
1 Tại bước, chọn k giá trị tốt ( ) Mỗi giá
trị k giá trị ứng với khả kết hợp nhãn tất từ
ế ấ
27
2 Khi gán từ tiếp theo, tính lại xác suất Quay lại
bước
z Ưu: nhanh (không cần kiểm tra tất khả
kết hợp, k tiềm nhất)
z Nhược: có thể khơng trả kết tốt mà
chấp nhận
Độ xác
z > 96%
z Cách đơn giản nhất? 90%
zGán từ với từ loại thường xuyên
28
zGán từ chưa biết = danh từ
z Người: 97%+/- 3%; nếu có thảo luận: 100%
Cách tiếp cận thứ 2: gán nhãn
dựa chuyển đổi
Transformation-based Learning (TBL):
z Kết hợp cách tiếp cận dựa luật cách tiếp
ậ ất ửd h để hỉ h l i thẻ
29
cận xác suất: sử dụng học máy để chỉnh lại thẻ thông qua vài lần duyệt
z Gán nhãn sử dụng tập luật tổng quát nhất, sau
đến tập luật hẹp hơn, thay đổi số nhãn, tiếp tục
Transformation-based painting
(6)Transformation-based painting
31
Transformation-based painting
32
Transformation-based painting
33
Transformation-based painting
34
Transformation-based painting
35
Transformation-based painting
(7)Ví dụ với TBL
37
Ví dụ với TBL
1 Gán từ với nhãn thường xuất
(thường độ xác khoảng 90% ) Từ tập ngữ liệu Brown:
P(NN|race)= 0.98
38
( | )
P(VB|race)= 0.02
2 …expected/VBZ to/ TO race/NN tomorrow/NN
…the/DT race/NNfor/IN outer/JJ space/NN
3 Sử dụng luật chuyển đổi:
ThayNNbằng VBkhi thẻ trước TO
pos: ‘NN’>’VB’ ←pos: ‘TO’ @[-1] o
TO race/VB
Luật gán nhãn từ loại
39
Luật gán nhãn từ loại
40
Học luật TB hệ thống TBL
41
Các tập ngữ liệu
z Tập huấn luyện
w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 z Tập ngữliệu hiện tại (CC 1)
42
z Tập ngữ liệu hiện tại (CC 1) dt vb nn dt vb kn dt vb ab dt vb z Tập ngữ liệu tham khảo