Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Trang 2hình rút trích CT TNN cho câu ti ng Vi t Cu i cùng, lu n án s k t nh ng v n ã c nghiên c u trong ch ng này
3.2 Các nghiên c u liên quan
Các nghiên c u v c m t c tr ng c phân lo i thành hai h ng ti p c n
chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten, 2006)
3.2.1 H ng ti p c n rút trích c m t c tr ng
Ph ng pháp rút trích c m t c tr ng (CT T) thông th ng g m hai công o n là tuy n ch n các c m t d tuy n và ch n l c các CT T trong các c m t d tuy n
- Công o n tuy n ch n: Các c m t d tuy n bao g m các t và c m t c rút trích t v n b n th c hi n i u này, m t b gán nhãn t lo i và b phân tích cú pháp n gi n c s d ng xác nh các c m t d tuy n
- Công o n ch n l c: Công o n này s phân tích các c m t d tuy n theo
ph ng pháp ch n l c d a vào kinh nghi m xác nh các CT T trong các c m t d tuy n Các ph ng pháp ch n l c có th c phân thành hai h ng ti p c n
chính là h c máy (machine learning) và h ng ti p c n t ng tr ng (symbolic)
cùng v i các k! thu t mà chúng s d ng Trong khi các ph ng pháp h c máy i xây d ng mô hình th ng kê t các t p d li u ã c hu n luy n thì v i các ph ng pháp c tr ng, các nhà nghiên c u a ra cách ch n l c t t nh t là d a vào các phân tích th công trên các tài li u và các CT T c a chúng
3.2.1.1 Ph ng pháp h c máy
Rút trích CT T có th c xem là m t quá trình h c có giám sát t các m"u th V n chính là ph i nh ngh#a c t p tính ch t tính c tr ng c a CT TNN T p tính ch t này có th giúp phân bi t c các CT T và các c m t không c tr ng trong các c m t d tuy n Gi i thu t h c c$n hai t p tài li u có gán nhãn c a CT T b%ng ph ng pháp th công: m t t p dùng hu n luy n t o mô hình phân lo i T p tài li u còn l i dùng ki m nh và ánh giá mô hình Trong t p hu n luy n, các CT T có th là m"u âm (m"u sai) và m"u d ng (m"u
úng)
Trang 3L c h c mơ hình ch n l c là phân tích các giá tr c a t p tính ch t c tr ng cho m i m"u
KEA (Key Phrase Extraction Algorithm) là gi i thu t rút trích CT T, c m t nhĩm nghiên c u v h c máy t i tr ng i h c Waikato phát tri n KEA t n n t ng trên các ph ng pháp thi t th c và n gi n (Frank và CS, 1999; Witten và CS, 1999) Trong cơng o n $u tiên c a ph ng pháp rút trích, KEA xác nh chu i ký t nguyên b n d a vào các d u ch m câu, các con s , ký hi u dịng m i
và sau ĩ phân chia chu i này thành các t n (token) T t c các n-grams, nh
các t n hay các t ghép t hai t n tr& lên, mà chúng khơng b't $u hay k t
thúc b%ng m t t k t thúc (stopword) u c xem là các CT T d tuy n KEA tinh ch m i c m t d tuy n này v i b tinh ch l p Lovins (1968) Trong cơng o n ch n l c KEA tính tốn hai tính ch t c tr ng cho m i c m t d tuy n: ()nh ch t TFxIDF (t$n su t c a c m t trong tài li u so sánh v i t$n su t c a c m
t ĩ trong t p các tài li u (Salton và McGill, 1983) và kho ng cách c a c m t xu t hi n $u tiên trong tài li u tính t v trí $u c a tài li u M t l c h c Nạve Bayes (Domingos và Pazzani, 1997) t o d li u hu n luy n bao g m hai t p tr ng s : m t t p c a các CT T và m t t p c a các c m t khác xu t hi n trong v n b n Trong cơng o n ch n l c, xác su t c a m i c m t d tuy n là CT T c tính tốn d a trên các t p tr ng s này Các c m t d tuy n c x p lo i theo xác su t ã tính tốn và s c m t x p lo i cao nh t (do ng i s d ng xác
nh) c a vào t pCT T k t qu
Trong các nghiên c u m i ây, nh Thuy Dung Nguyen và Min-Yen Kan (2007) ã c i ti n ph ng pháp KEA & cơng o n ch n l c S c i ti n c th c hi n b%ng cách dùng l i hai ()nh ch t c l p c a KEA (hai ()nh ch t này là: ()nh
ch t TFxIDF (Term Frequency x Inverse Document Frequency) và v trí xu t hi n
u tiên (first occurrence)) và khơng dùng ()nh ch t là t$n su t c a CT T trong
kho ng li u (vì các tác gi cho r%ng ()nh ch t này ch* hi u qu khi cĩ m t t p hu n luy n l n) ng th i, các tác gi c+ng ã xu t m t ()nh ch t c u trúc là
Section occurrence vector và ba ()nh ch t hình v là chu i t lo i (POS sequence), chu i h u t (suffix sequence) và tr ng thái t c u o b ng nh ng chu a
Trang 4m t m t (acronym status) K t qu , theo ánh giá c a tác gi thì gi i thu t này
t c chính xác là 3,25 % (so v i gi i thu t KEA là 3,03%)
GenEx là m t gi i thu t lai di truy n (hybrid genetic) cho bài toán rút trích
CT T do Turney & h i ng nghiên c u qu c gia Canada phát tri n GenEx bao
g m hai thành ph$n: gi i thu t Genitor và b rút trích (extractor) (Turney, 1999)
B rút trích ph i h p t p các ký hi u t ng tr ng thu c qua kinh nghi m t o m t danh sách x p lo i các CT T, còn các c m t d tuy n là các c m t bao g m trên ba t ch n l c các CT T trong các c m t d tuy n, m i c m t c cho i m cho m i l$n xu t hi n b%ng các v trí c a nó xu t hi n trong v n b n i v i các c m t d tuy n có trên m t t thì i m c a chúng s c gia t ng B&i vì, thông th ng chúng có i m th p h n các c m n t Sau khi xóa các tr ng h p trùng và ch n l c các d ng có t$n su t $y nh t cho m i c m t d tuy n ã c tinh ch , b rút trích a ra các c m t có x p lo i cao nh t B
rút trích có t t c 12 thông s và c (flag) (ch,ng h n nh h s gia t ng cho m i
c m t v i 2 thông s c a các CT T k t qu ) Gi i thu t Genitor c áp d ng xác l p các thông s trên m t cách t t nh t t t p d li u hu n luy n Tóm l i, tác gi cho r%ng quy t nh ch n l c các c m t d tuy n còn ph thu c nhi u y u t
Tác gi xu t mô hình k t h p c a t p các c m t d tuy n dùng thông tin t ng
h (PMI- Pointwise Mutual Information) gi a m t CT T và k CT T tr c ó
Tuy nhiên, PMI c a t p CT T c$n m t t p d li u (dataset) l n Turney c+ng xu t dùng truy v n trong các ng c tìm ki m (Seach Engine) trên Web có
m t c l ng s'p x p thô, m c dù i u này có h n ch v b ng thông m ng Internet và không hi u qu v th i gian
Trong các h th ng v a trình bày trên, KEA là h ng ti p c n rút trích CT T n gi n nh t GenEx dùng ph ng pháp ánh giá theo kinh nghi m ph c t p h n & công o n ch n l c, tuy nhiên k t qu không t t h n KEA (Frank và CS, 1999)
3.2.1.2 Ph ng pháp t ng tr ng
Barker và Cornacchia (2000) phát tri n m t công c rút trích CT T là B&C
B&C không k t h p v i b t c k! thu t h c máy nào rút trích các c m t d tuy n tác gi dùng m t t i n tra c u n gi n gán các nhãn t lo i và m t b phân tích t xác nh t t c các danh t có tính t và danh t b ngh#a cho nó
Trang 5Trong công o n ch n l c Barker và Cornacchia tính toán t$n su t c a danh t ng $u c a m i c m t d tuy n, và gi t t c các c m t có danh t ng $u n%m trong N danh t x p lo i cao nh t Cho m i c m t , tác gi tính t$n su t nhân v i chi u dài c a nó K c m t có i m cao nh t là các CT T c a tài li u N và K là các ng -ng c xác l p b&i ng i s d ng Các th c nghi m ánh giá v i s tham gia c a con ng i ã minh ch ng h ng ti p c n n gi n này th c hi n t t nh b rút trích c a Turney (Turney, 1999)
Paice và Black (2003) rút trích các thu t ng t các tài li u liên quan trong m t
l#nh v c c th và các thu t ng này c xem nh là các CT T t c t* l k t h p cao h n c a các c m t d tuy n, tác gi bi n i m i n-gram c rút trích thành các c m t gi trong ba b c: xóa kh.i n-gram t t c các t k t thúc, tinh l c các thu t ng và s'p x p l i chúng theo th t b ng ch cái i u này úng cho các c m t ng t nhau, ch,ng h n “algorithm efficiency”, “efficiency of algorithms”, “the algorithm’s efficiency”, “an efficient algorithm” và ngay c “the
algorithm is very efficient” có cùng c m t gi là “algorithm effici” Các d ng g c
c a m i c m t gi c l u vào t p k t thúc ây là ph ng pháp k p h p công phu h n quá trình tinh l c n gi n và t ng i m cho t t c i m s c a m t nhóm c m t Ph ng pháp k t h p này d a vào s t ng t hình thái c a các t trong c m t Paice và Black (2003) cho i m m i c m t gi theo công th c:
score = W * (F-1) * N2
v i W là t ng tr ng s c a t t c t trong c m t gi , F là t$n su t c a c m t trong tài li u, và N là chi u dài c a c m t tính theo n v t (cao nh t là 4)
T t c các c m t d tuy n c s'p x p theo i m s c a chúng B c cu i cùng, tác gi áp d ng k! thu t d a trên các m"u thi t l p các vai trò và quan h
ng ngh#a gi a các c m t còn l i Tác gi t p trung vào ba vai trò chính ( nh
h ng (influence), i t ng (object), và c tính (property)) bao ph các m"u
c l p v i l#nh v c nh “effect of influence on property of object” Các c m t
mà không c bao ph b&i b t c m"u nào thì s c xóa H ng ti p c n này là s c ng sinh h p lý gi a CT T và thông tin rút trích Nhóm tác gi không cung c p b t c m t s ánh giá nào v ph ng pháp này, tuy nhiên h ch* trình bày
m t s minh h a n i b t r t áng quan tâm
Trang 63.2.2 H ng ti p c n xác nh c m t c tr ng
T ng ph n v i các ph ng pháp rút trích, các ph ng pháp xác nh CT T tiêu bi u c dùng khi t p các CT T d tuy n có gi i h n, c nh T p này có c t t p t v ng có th i u ti t c hay t p các tiêu Ph ng pháp này phân tích các c tr ng c a các tài li u h n là các c tr ng c a t ng c m t tìm ra các CT T thích h p t t p t v ng / ây, s phân lo i nh phân có th c hu n luy n cho t ng CT T trong t p có k ph$n t c a m t v n b n, vi c xác nh CT T cho m t v n b n b%ng cách th c hi n k l$n phân lo i nh phân và ánh giá chúng xác nh k t qu thích h p
Trong h ng ti p c n xác nh, CT T có u tiên cao nh t, các thông tin t ng h gi a CT T và các t khác trong v n b n có th c dùng ch n l a các tính ch t (Dumais và CS, 1998) N u các CT T thi t l p thành m t ontology có tính khái quát, chính xác và các m i quan h trên chúng thì các m i quan h này c+ng có th c khai thác cung c p các s ki n cho s phát hi n các CT T m i không có trong ontology (Pouliquen và CS, 2000) Theo Medelyan và Witten (2006) thì dùng các quan h ng ngh#a và ph n ngh#a tính toán t ng ng c a các CT T d tuy n cùng v i tính toán th ng kê c i ti n chính xác c a vi c xác nh Tuy nhiên, m t không thu n l i c a ph ng pháp xác
nh CT T là nó òi h.i m t kho ng li u có chú gi i l n
Trong công trình Hulth (2004), tác gi trình bày m t k! thu t h c máy khác v i các k! thu t ã dùng trong các công c x lý ngôn ng t nhiên Tác gi c+ng ã so sánh các ph ng pháp khác nhau ánh giá vi c rút trích các t và c m t
d tuy n nh ph ng pháp gom c m danh t (NP chunking), so trùng m"u t lo i
(POS), và cu i cùng là rút trích n-gram So trùng các c m t d tuy n t ng ph n
v i các CT T c gán th công, nh ng c hai u là h ng ti p c n h ng ngôn ng h c mà chúng thu c k t qu các c m t chính xác h n k! thu t n-gram
H ng ti p c n gom c m danh t th c hi n t t h n các ph ng pháp rút trích khác
b&i nó thu c các c m t không chính xác ít h n Trong công o n ch n l c,
Hulth dùng b n thu c tính: t$n su t c a thu t ng TF, t$n su t c a thu t ng trong t p các tài li u IDF (không gi ng nh trong KEA nó không ph i h p nh
TFxIDF), v trí xu t hi n u tiên và nhãn t lo i (POS-tag) M t s k t h p c a
Trang 7nhi u mô hình tiên oán c tác gi áp d ng trên các c m t d tuy n (sau khi
xóa các t h n nh ch,ng 0 n nh some, your, the, ) và thu c k t qu các CT T tr i nh t
H ng ti p c n c a Hulth, m c dù không so sánh ánh giá các ph ng pháp trên cùng m t t p tài li u th c nghi m, nh ng k t qu ánh giá c a Hulth l i cao h n áng k so v i các công b c a KEA và GenEx (theo h ng ti p c n rút trích) Hulth mô t quá trình th c hi n gi i thu t ã c c i ti n sau khi s d ng các k! thu t h ng ngôn ng cho khâu tuy n ch n và phân lo i K t qu nh n nh c a Hulth là m t ng l c thúc 1y khai thác các k! thu t x lý ngôn ng t nhiên sâu h n cho bài toán rút trích và xác nh CT T
3.3 S t ng quan gi a h ng ti p c n rút trích và xác nh CT T
H ng ti p c n rút trích liên quan ch t ch v i h ng xác nh CT T, nh ng nó gi i quy t bài toán CT T theo m t chi n l c hoàn toàn khác
H ng rút trích t c s& trên vi c phân tích các tính ch t c a các CT T mà nó có th tính toán khá n gi n và nhanh chóng Ph ng pháp rút trích này thích h p cho c h ng ti p c n h c máy và h ng ti p c n cho i m s n gi n i v i các c m t d tuy n hay danh t ng $u c a chúng, em l i k t qu chính xác t ng ng nhau (Barker và Cornacchia, 2000) Tuy nhiên, hi u su t c a h ng ti p c n rút trích v"n ch a thay th công vi c rút trích CT T b%ng th công
V i h ng ti p c n xác nh, m c dù các CT T c rút trích t ng có chính xác khá cao (Hulth, 2004), nh ng các t trong các CT T s b m t thông tin do h ng ti p c n này không ch a b t c thông tin v các CT T mà chúng không c so trùng Ngay c khi hai t p CT T k t qu c a hai chuyên gia th c hi n th công trên cùng m t tài li u thì hai t p CT T này thông th ng c+ng không so trùng nhau M c dù, các CT T này liên quan ch t ch v i v n b n c xác nh
Vi c rút trích CT T t ng không m b o tính chính xác cho các CT T Th c t các CT T thu c th ng là quá t ng quát ho c b bi n d ng Ngay c các h ng ti p c n n i b t b&i các k! thu t h ng n ngôn ng nh so trùng m"u t lo i hay nhóm c m danh t c+ng rút trích c m t không úng v n ph m ho c
Trang 8thu c các c m t vô d ng (vì không th tránh các l i do các công c ngôn ng sinh ra)
M c dù các l i k! thu t này có th c c i ti n b%ng cách s d ng các công c x lý ngôn ng t nhiên chính xác h n, nh ng h ng rút trích CT T v"n có nhi u h n ch Ví d nh không có s ng nh t gi a các CT T c ch n, b&i vì quá trình rút trích c gi i h n trong t p t v ng c a tài li u Các tài li u có cách mô t khác nhau v cùng m t ch nh ng nh ng t ng ngh#a (nh seaweed culture và sea weed farming) nh n c các CT T khác nhau và không th gom nhóm theo n i dung c a chúng Còn h ng xác nh CT T thì tránh c thi u sót này do có t p t v ng cho phép i u ti t c các thu t ng c$n rút trích
M t v n khác trong vi c rút trích các CT T t ng là s gi i h n các c tính cú pháp c a c m t mà không quan tâm n ng ngh#a Các gi i thu t c a h ng rút trích c+ng b qua n i dung t ng th c a v n b n Vì v y, t p CT T thu c không bao ph h t các ch c a v n b n H ng ti p c n xác nh CT T thì thu n l i h n h ng rút trích trong v n này, vì nó i phân tích n i dung c a v n b n thông qua b ng th ng kê kh n ng ng hi n gi a các thu t ng
3.4 Ph ng pháp ti p c n c a lu n án
V i các kh o sát trên, chúng tôi nh n xét r%ng c hai h ng ti p c n rút trích và xác nh CT T u có các u i m c+ng nh h n ch S ph i h p gi a hai h ng ti p c n này cho bài toán rút trích CT T s phát huy l i th c a c hai h ng, ng th i h n ch các thi u sót c a chúng ây chính là m c tiêu c a lu n
án cho mô hình rút trích c m t c tr ng ng ngh a trong câu ti ng Vi t Mô hình
rút trích c m t c tr ng ng ngh#a t ng quát c trình bày nh sau (Hình 3.1) Quy trình cho bài toán rút trích CT TNN t ng quát bao g m các công o n sau:
• Công o n 1: ti n x lý các câu ti ng Vi t bao g m bài toán phân o n t và
Trang 9o B c 1: d a vào các thông tin ng c nh là các t , hay c m t quan h nh n di n các CT TNN ( trình bày trong ch ng 4)
o B c 2: trong tr ng h p gi a các c m t d tuy n không có các t , hay c m t quan h thì quá trình nh n di n CT TNN s c truy v n d a trên Ontology (trình bày trong ch ng 4)
o B c 3: n u các c m t d tuy n ch a t n t i trong c s& tri th c (Ontology), thì vi c xác nh c m t d tuy n nào là CT TNN s d a vào ph ng pháp h c máy (trình bày trong ch ng 5)
3.4.1 Công o n ti n x lý
Công o n ti n x lý bao g m bài toán phân o n t và bài toán gán nhãn t lo i Các nghiên c u x lý và h tr ti ng Vi t b c $u ã có m t s k t qu thành công nh t nh nh (Tr$n Ng c Tu n, 2001; Tuan N Tran, 2002; Dinh Dien và Hoang Kiem, 2003; Nguy2n Th Minh Huy n và CS, 2003; L H Phuong và
Hình 3.1 Mô hình t ng quát rút trích c m t c tr ng ng ngh#a
Ti n x lý Câu ti ng Vi t
Gán nhãn t lo i Phân o n t
Xác nh c m t c tr ng ng ngh#a T p m"u
Rút trích các c m t d tuy n
Ontology ViO
Các CT TNN
D a vào Ontology
D a vào h c máy Mô hình
Trang 10Trong công trình Tr$n Ng c Tu n (Tr$n Ng c Tu n, 2001; Tuan N Tran, 2002) , tác gi ã ti p c n m t ph ng pháp phân o n m t chu i âm ti t ti ng Vi t thành các t Ph ng pháp này v n d ng các mô hình th ng kê, d a vào t p ng li u và không dùng t i n
Ph ng pháp hu n luy n d a vào vi c xây d ng các mô hình Markov c p 1 và c p 2 (t ng ng là bi-gram và tri-gram), và th ng kê t$n s xu t hi n c a các n-gram t m t t p ng li u thô V m t ph ng pháp thì mô hình này r t h u ích cho chúng tôi cho trong bài toán phân o n t dùng ph ng pháp th ng kê d a vào t p ng li u
Tuy nhiên, n u mu n dùng mô hình này gi i quy t bài toán c a tài thì c$n ph i m& r ng các mô hình và các gi i thu t áp d ng cho v n phân c m các c m t , v n gán nhãn t lo i cho t ti ng Vi t và c i ti n các gi i thu t hu n luy n có th thao tác trên các file HTML có th t n d ng c ngu n tài nguyên v n b n r t phong phú trên Internet
Trong công trình Dinh Dien và Hoang Kiem (2003), các tác gi dùng ph ng
pháp Transformation-based Learning (TBL) và mô hình Neural Network gi i
quy t bài toán gán nhãn t lo i cho t ti ng Anh ng th i các tác gi so sánh v i
ph ng pháp ánh x t lo i ti ng Anh sang ti ng Vi t (Projecting English
POS-Tags toVietnamese)
Th nghi m v i kho ng li u song ng Anh-Vi t EVC (English – Vietnamese
Corpus) v i 2.000.000 t cho ti ng Anh và kho ng li u hu n luy n cho ti ng Vi t
g m 1000 t ph c v cho vi c ánh giá (do các tác gi xây d ng b%ng ph ng pháp th công) K t qu t c 82.5% cho ph ng pháp TBL (ch* dùng kho ng li u hu n luy n corpus golden) và 94.5% cho ph ng pháp TBL và ph ng pháp ánh x t lo i ti ng Anh sang ti ng Vi t (dùng kho ng li u hu n luy n corpus golden và kho ng li u song ng Anh-Vi t)
Trong công trình Nguy2n Th Minh Huy n và CS (2003) Các tác gi trình bày chi ti t các th nghi m v gán nhãn t lo i cho v n b n ti ng Vi t b%ng cách áp d ng b gán nhãn QTAG (m t b gán nhãn xác su t c l p v i ngôn ng ) xây d ng b gán nhãn t lo i ti ng Vi t vnQTAG
Trang 11Tuy nhiên, còn m t s v n khó kh n c a công trình này c$n ph i ti p t c nghiên c u gi i quy t nh v n gi i quy t nh p nh%ng phân tách trong bài toán phân o n t và v n gi i quy t tên riêng, tên vi t t't và tên có ngu n g c n c ngoài có m t trong câu
Trong công b m i ây (L H Phuong, N T M Huyen, R Azim, R Mathias, 2010) Nhóm tác gi này ã trình bày m t h ng ti p c n Maximum Entropy cho bài toán gán nhãn t lo i trong v n b n ti ng Vi t K t qu t c chính xác r t cao là 93,4 % M c dù k t qu c a mô hình này không c so sánh tr c ti p v i b gán nhãn t lo i vnQTAG (do các mô hình hu n luy n, kho ng li u hu n luy n và b nhãn t l ai khác nhau), nh ng b gán nhãn t lo i này là m t óng góp l n cho c ng ng nghiên c u x lý ngôn ng ti ng Vi t khi s n ph1m này công b tr c tuy n trên Internet
V i phân tích hi n tr ng trên và gi i quy t hai bài toán c a công o n ti n x lý Trong ph$n này, lu n án trình bày h ng gi i quy t cho bài toán phân o n t và gán nhãn t lo i Các ph ng pháp ti p c n c+ng nh các th c nghi m ánh giá ã c trình bày trong công trình (Chau Q Nguyen và Tuoi T Phan, 2006) và (Nguy2n Quang Châu, Phan Th T i, Cao Hoàng Tr , 2006)
3.4.1.1 Bài toán phân o n t ti ng Vi t
Không nh ti ng Anh hay nhi u ngôn ng Châu Âu khác, t ti ng Vi t không c phân nh b%ng kho ng tr'ng T ti ng Vi t có th ch* g m m t ti ng ( n
âm ti t) nh i, làm, !n, yêu, nh",…; ho c g m hai ti ng tr& lên ( a âm ti t) nh
b!n kho!n, lo l#ng, cá nhân, h p tác hóa ,…
Do ó phân o n t tr& thành m t giai o n c$n thi t trong các h th ng x lý ngôn ng t nhiên ti ng Vi t: phân tích cú pháp, d ch máy song ng , d ch máy a ng , tìm ki m b%ng ngôn ng t nhiên, …
Nh ng khó kh n trong phân o n t ti ng Vi t:
- Kho ng tr'ng trong câu không ph i là d u hi u phân o n t ti ng Vi t
- S$ nh p nh ng trong phân o n t M t ti ng có th xu t hi n trong nhi u t
khác nhau, m t t có th ch a nhi u ti ng