PT rs, Microsoft Corporation CEOBill Gatesgainst the economic philosophy of open-software with Orwellian fervor, ncing its communal licensing as a "cancer" fled technological innovation..
Trang 1Nguyễn Cao Cườ ng 1 Lu ận văn Thạ c s ỹ
M C LC
L 4
L I C 5
B NG T VIT TT 6
DANH MNG 7
DANH M 7
M U 8
1.1 8
1.2 Mm vi 8
1.2.1 Mu 8
1.2.2 Phu 9
1.3 Nu 9
1.4 B c c lu 10
1.5 a lu 10
NG GI I QUY T 12
2.1 12
2.1.1 12
2.1.2 Kia h th 13
2.2 15
2.3 i quy 18
2.3.1 c th 19
2.3.2 i quan h 21
2.4 ng dng c 22
2.5 t qu 23
C TH 25 3.1 c th 25
3.1.1 Mt s ng ti p c n gi i quy c th 25
1708177951719c7916a09-6766-4586-8c1b-56c1fb94c587
1708177951719e8441a00-73f3-45d1-b0df-43d3042f5e80
170817795171973d18308-dc0d-4556-87de-2a3848a25277
Trang 2Nguyễn Cao Cườ ng 2 Lu ận văn Thạ c s ỹ
3.1.2 ng ngu ki n 31
3.2 36
3.2.1 Mt s ng ti p c n gi i quy c th 36
3.2.2 c s d 37
3.2.3 Biu th 37
3.2.4 ng d ng bi u th 39
THI T K 45
4.1 Kia h thng 45
4.2 Tin x 46
4.3 B c th d 46
4.4 47
4.4.1 c nh 47
4.4.2 n 48
4.4.3 49
4.4.4 loi 50
4.5 Hu x 50
4.5.1 X ng tham chin thc th i 51
4.5.2 Chnh s 57
4.6 57
4.7 Qu 58
4.8 t, th nghi 58
4.8.1 FlexCRFs 58
4.8.2 Kt qu 59
4.8.3 Nh 60
K T LU N 61
5.1 t qu c trong lu 61
5.1.1 V t 61
5.1.2 V thc nghim 61
5.1.3 Nh 61
Trang 3Nguyễn Cao Cườ ng 3 Lu ận văn Thạ c s ỹ
5.2 n 62
PH L C 1: TP D LI U 63
PH L C 2: M T S GIAO DIN 65
U THAM KH O 68
Trang 4Nguyễn Cao Cườ ng 4 Lu ận văn Thạ c s ỹ
L
t nghi p Th c s u
c a b i s ng d n c t qu trong lu n t nghia b t k
m v n i dung quy n lu
Nguy n ng
Trang 5Nguyễn Cao Cườ ng 5 Lu ận văn Thạ c s ỹ
Trang 6Nguyễn Cao Cườ ng 6 Lu ận văn Thạ c s ỹ
B NG T VI T T T
CRFs Conditional Random Fields
MEMM Maximum Entropy Markov
Model
entropy
Trang 7Nguyễn Cao Cườ ng 7 Lu ận văn Thạ c s ỹ
DANH M NG
B ng 2 t h thc th 24
-Bng 4-1: M u ng c nh v ng: 47 t v B ng 4 c s ng 48- d B ng 4 49
-B ng 4 lo 50- i B ng 4 - nh d c th 51
B - n dng th c th 58
B ng 4 - L n th c nghi m cho k t qu t t nh t 59
Bng 4 - c c m t L n th c nghi m cho k t qu t t nh t 59
Bng 4-9: K t qu 60
DANH M - 13 v -2: Kia h th 14
- n ti u s phi c 16
- 18
- th 27
-2: V 30
- th CRFs 32
-1: Ki th 45
- c th s d ng CRF 47
-u x 51
-4: X ng tham chi u 56
Trang 8Nguyễn Cao Cườ ng 8 Lu ận văn Thạ c s ỹ
M U
1.1
Hin nay, s c n m nh m c tin truy, kh p cc k t n i Internet v i
khng l lin kh gi t l
ng d li tin hoc mu th n V c
i quy th n ng d ng c th
Mng lu ch p t c t o ra
t b n et m m t v trng m d li quan
u n d ch v web N ng d liu
Trang 9Nguyễn Cao Cườ ng 9 Lu ận văn Thạ c s ỹ
thc th tên ngườ tên tổ: i, ch c, ứ tên địa điể m, ngày tháng i quan h
gia thc th i i v c th i: ngày sinh tên ngườ ngày tháng( i- ), sinh (tên ngườ – địa điể i m tên người tên tổvi c ( - ch c), s ng ứ ố (ở tên người-
tên địa điể m quan h), ệ gia đình tên ngườ tên ngườ ( i- i) Cu thng s
bra ng d li u g m t d liu
:
Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tạ i Qu ỳnh Lâm, Qu ỳnh Lưu, Nghệ An, là mộ ầ t c u th ủ bóng đá Việ t Nam hi ện đang thi đấu cho câu lạ c b ộ Sông Lam Nghệ An
Trang 10Nguyễn Cao Cườ ng 10 Lu ận văn Thạ c s ỹ
ng th i n i quan h d luu th
u v ki th
thu ng h th ng c l y t trang web wikipedia
Trang 11Nguyễn Cao Cườ ng 11 Lu ận văn Thạ c s ỹ
ng th i, lu ng m t h th ng
Ngu s d ng cho
th h th ng h ti u s
Trang 12Nguyễn Cao Cườ ng 12 Lu ận văn Thạ c s ỹ
n
Named Entity Recognition NER ), Extraction
- RE), i Co-Reference Resolution)
P
Trang 13Nguyễn Cao Cườ ng 13 Lu ận văn Thạ c s ỹ
2-1 v
u ng d ng r gi i c ng dnhing d ng th c t : H
rs, Microsoft Corporation CEO Bill Gates
gainst the economic philosophy of
open-software with Orwellian fervor,
ncing its communal licensing as a "cancer"
fled technological innovation
Today, Microsoft claims to "love" the
open-source concept, by which software
code is made public to encourage
improvement and development by
outside programmers Gates himself
says Microsoft will gladly disclose its
crown jewels the coveted code behind
the Windows operating system to select
customers
"We can be open source We love the
concept of shared source," said Bill
Veghte , a Microsoft VP "That's a
super-important shift for us in terms of code
access.“
Richard Stallman , founder of the
Free Software Foundation, countered
saying…
NAME TITLE ORGANIZATION
Bill Gates CEO Microsoft
Bill Veghte VP Microsoft
Richard Stallman founder Free Soft
IE
Trang 14Nguyễn Cao Cườ ng 14 Lu ận văn Thạ c s ỹ
2.1.2.2
Nhn d c th (Named Entity Recognition
c th a danh, th i gian, t ch n (xem
c 2.3)
u
Tin x
c th Gii quyng tham chi u
Trang 15Nguyễn Cao Cườ ng 15 Lu ận văn Thạ c s ỹ
2.1.2.3
Gii quyng tham chi u (Coreference Resolution c nh n d ng
ng tham chi u gi c th b t h p nh
n m r n t c th ch t h tr ng bn,
c
:
Anh Nguy n Huy Ti n anh Ti n
ng Nguy c
Nguyễ n Huy Ti n ế Tiến n m ng
Nguyễ n Huy Ti n Tiế ” ế n t tham chin th c th Nguyễn Huy Tiến
2.1.2.4
i quan h t c i quan
h gi c th ng t p lu th d K t qu c
i quan h ph thu c r t nhi c th
Trang 16Nguyễn Cao Cườ ng 16 Lu ận văn Thạ c s ỹ
c b An i tuy n qu c gia Vi t Nam
nghi p
Trang 17Nguyễn Cao Cườ ng 17 Lu ận văn Thạ c s ỹ
trong 10 lo i n ti u s : nhsint, ), danh ti
ng t N Garera D Yarowsky [17] n h th
kh ng bsinh, qu c t ch, ngh nghi p, gi c s
d ng k 6 thut khat
m: ng c nh b t bu c m t ph n (partially Untethered Contextual Patterns), d -based), a c
c th x ng th i (Attributes of Co-occurring Entities),
t c ch ng c nh m r ng (broad-context topical proles), t
sinter-attribute correlations), gi i h tui
Trang 18Nguyễn Cao Cườ ng 18 Lu ận văn Thạ c s ỹ
2.3 p gi i quy
gi i quy t n ti ng Vi ng
a xu t c
Trang 19Nguyễn Cao Cườ ng 19 Lu ận văn Thạ c s ỹ
Hi tho MUC [7] i:
- c th bao g m: tên người tên tổ ứ, ch c, tên địa điểm
Anh <per> Nguyễn Quốc Hùng </per> sinh ngày <time > 05/07/1974
</time> tại <loc> Đà Nẵng </loc> Hôm nay , anh <per> Hùng </per> <loc> đi thành phố Hồ Chí Minh </loc>
Trang 20Nguyễn Cao Cườ ng 20 Lu ận văn Thạ c s ỹ
xu gi i quyc th
thu t h t nhi
n (Hidden Markov Models - c c
- Conditional Random Field (CRF)
Trong lu s t k thu t h s d ng
Trang 21Nguyễn Cao Cườ ng 21 Lu ận văn Thạ c s ỹ
Tro
nhau)
2.3.2
2.3.2.1
i quan h (Relation Extraction i - viquan h gi p thc th n
: M i quan h gi tên ngườitên t ổ chứ làm c
vi c t ệ ạ i i quan h gi tên ngư i ờ tên địa điể m s ố ng ở
Trang 22Nguyễn Cao Cườ ng 22 Lu ận văn Thạ c s ỹ
i quan h c th Trong khi
a khi m i quan h gi c
th s c th i n t c n c ti p theo s c th i m quan h v i th c th Mi quan h c hi (quan h gi ),
Trang 23Nguyễn Cao Cườ ng 23 Lu ận văn Thạ c s ỹ
Trang 24Nguyễn Cao Cườ ng 24 Lu ận văn Thạ c s ỹ
correct, incorrect missing, spurious
Trang 25Nguyễn Cao Cườ ng 25 Lu ận văn Thạ c s ỹ
Trang 26Nguyễn Cao Cườ ng 26 Lu ận văn Thạ c s ỹ
i vi i P(S,O)
Trang 27Nguyễn Cao Cườ ng 27 Lu ận văn Thạ c s ỹ
S P S
O P S P O S
P
1 1
( ) ,
Trang 28Nguyễn Cao Cườ ng 28 Lu ận văn Thạ c s ỹ
ch ph thu c tr i thy, vliu d ng chu u di n c
Trang 29Nguyễn Cao Cườ ng 29 Lu ận văn Thạ c s ỹ
S P O
S P O S
P
2
1 1
( )
i i
i
S O Z O
S
),(
1)
|(
Trang 30Nguyễn Cao Cườ ng 30 Lu ận văn Thạ c s ỹ
n th i chuyn
vi entropy th i.n t
L ta
u trong t p hu n luy n, t t hi n
t P(3|0,r) s nh
di trS=0125 s c ch
(1991) nh
g p hai tr c r n khi g p m
nh (c th ng hc bi t c a vi c chuy n
mnh sang m khi
Trang 31Nguyễn Cao Cườ ng 31 Lu ận văn Thạ c s ỹ
Trang 32Nguyễn Cao Cườ ng 32 Lu ận văn Thạ c s ỹ
Trang 33Nguyễn Cao Cườ ng 33 Lu ận văn Thạ c s ỹ
[6] cho p( | -y x
c - sau:
Trang 34Nguyễn Cao Cườ ng 34 Lu ận văn Thạ c s ỹ
Trang 35Nguyễn Cao Cườ ng 35 Lu ận văn Thạ c s ỹ
i logarit c
-likelihood):
u tr c a tham s c nh Thay ( , ) cp y x | c (3.12
(λ1, λ2 λn) ( µ1, µ2µm) c t
t1(y i-1 ,y i,x,i),t2(y i-1 ,y i,x,i), tn (y i-1 ,y i,x,i)), s
s1(y i,x,i),s2(y i,x,i), s m (y i,x,i))
t b c hai L-BFGS (Limited memory BFGS) [3] L-i quyng tham s i