Nhìn m t cách t ng quan, ph ng pháp d a trên t (word-base) cho đ chính xác khá cao ( trên 95%) nh vào t p ng li u hu n luy n l n, đ c đánh d u chính xác, tuy nhiên hi u su t c a thu t tốn ph thu c hồn tồn vào ng li u hu n luyên. B i vì m c đích c a các tác gi [ inh i n et al, 2001] là th c hi n tách t th t chính xác đ ph c v cho vi c d ch máy nên tác gi đã ch n ph ng pháp WFST. V i các ph ng pháp c n ph i s d ng t đi n ho c t p hu n luy n, ngồi vi c tách t th t chính xác, ta cịn cĩ th nh vào các thơng tin đánh d u trong t p ng li u đ th c hi n các m c đích khác c n đ n vi c xác đnh t lo i nh d ch máy, ki m l i chính t , t đi n đ ng ngh a... Do v y, m c dù th i gian hu n luy n khá lâu, cài đ t khá ph c t p, chi phí t o t p ng li u hu n luy n r t t n kém, nh ng k t qu mà h ng ti p c n d a trên t mang l i cho m c đích d ch máy là r t x ng
đáng cho cơng s c b ra.
H ng ti p c n d a trên ký t (character-based) cĩ u đi m là d th c hi n, th i gian th c thi t ng đ i nhanh, tuy nhiên l i cĩ đ chính xác khơng cao b ng ph ng pháp d a trên t . H ng ti p c n này thích h p cho các m c đích nghiên c u khơng c n đ n đ chính xác tuy t đ i c ng nh các thơng tin v t lo i nh phân lo i v n b n, l c spam, firewall... Nhìn trên bình di n chung, h ng ti p c n d a trên t cĩ nhi u u đi m đáng k , và đem l i nhi u h a h n l c quan cho các h ng nghiên c u ti p theo đ nâng cao đ chính xác c a ph ng pháp tách t này.
3.5. K t lu n
D a trên các phân tích v u khuy t đi m c a các ph ng pháp, chúng em ch n h ng ti p c n d a trên “ti ng” (character-based) cho m c tiêu phân lo i v n b n c a mình.
B i vì, m c tiêu c a lu n v n là phân lo i tin t c báo đi n t , m t lo i hình c c k phong phú v n i dung và ngơn ng , nên vi c t o ra m t t đi n hồn ch nh và cĩ kh n ng c p nh t các thay di n ra liên t c c a ngơn ng là khĩ th c hi n đ c. H th ng x lý c n ph i cĩ kh n ng linh ho t, t đ ng c p nh t nh ng thay đ i
h ng ngày, nên h ng ti p c n khơng d a trên t đi n ho c t p ng li u là c c k thích h p.
H n n a, h th ng phân lo i tin t c c n cĩ t c đ x lý ch p nh n đ c đ cĩ th x lý k p th i các thơng tin m i xu t b n h ng ngày. Do đĩ, v i u đi m đ n gi n, t c đ th c thi ch p nh n đ c, h ng ti p c n IGATEC là m t l a ch n hồn tồn phù h p.
M t khác, vi c phân lo i v n b n khơng yêu c u vi c tách t ph i cĩ đ chính xác cao đ n m c t ng t . Ta cĩ hồn tồn cĩ th th c hi n thêm vi c lo i b các t khơng c n thi t cho vi c phân lo i nh các h t , thán t ... đ t ng t c đ và s chính xác c a b c tách t , chu n b cho vi c phân lo i v n b n.
C Chh nngg 44 T TÁÁCCHH TT TTII NNGG VVII TT K KHHƠƠNNGG DD AA TTRRÊÊNN TT PP N NGG LLII UU HHAAYY TT II NN – – MM TT TTHHÁÁCCHH TTHH CC Gi i thi u
Các nghiên c u v th ng kê d a trên Internet
Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê Ti n x lý
H ng ti p c n tách t d a trên th ng kê t Internet và thu t tốn di truy n
Cơng c trích xu t thơng tin t Google Cơng c tách t dùng thu t tốn di truy n K t qu th c nghi m
Ch ng 4. TÁCH T TI NG VI T KHƠNG D A TRÊN T P NG LI U ÁNH D U (ANNOTATED CORPUS)
HAY T I N (LEXICON) – M T THÁCH TH C
4.1. Gi i thi u
Nh chúng ta đã tìm hi u nh ng ph n trên, vi c khĩ xác đ nh ranh gi i t đã làm cho vi c x lý tính nh p nh ng trong ngơn ng ti ng Vi t càng thêm ph c t p.Ví d nh : câu “ơng lão già đi r t nhanh”, ta cĩ th phân chia t theo nhi u cách mà câu v n cĩ ngh a “ơng ||già đi || r t || nhanh”, “ơng già || đi || r t || nhanh”, “ơng || già || đi || r t || nhanh” …
Nhìn chung, đ i v i ti ng Anh, v m t lý thuy t ti ng Anh cĩ nhi u thu n l i vì là lo i ngơn ng hồ k t hay bi n cách (flexion) [ inh i n, 2004] , h th ng ng pháp và t lo i đã đ c quy đnh rõ ràng, do đĩ vi c phân đnh ranh gi i t c ng nh xây d ng t p ng li u đánh d u là t ng đ i đ dàng.
Cịn đ i v i ti ng Vi t, v m t lý thuy t ti ng Vi t là lo i hình đ n l p [ inh i n, 2004], ph ng th c ng pháp ch y u là tr t t t và h t , vì v y ch xét v m t phân đnh ranh gi i t đã cĩ th cĩ nhi u cách phân đnh cho cùng m t câu mà v n đúng ng pháp Vi t Nam.
ph n này, chúng em xin trình bày h ng ti p c n cho vi c tách t ti ng Vi t theo m t h ng m i mà khơng c n s d ng t p ng li u hu n luy n hay t đi n. H ng ti p c n c a chúng em d a trên ý t ng c a bài báo IGATEC, và cĩ nhi u c i ti n đang k hàm làm t ng ch t l ng cho b c tách t ti ng Vi t ph c v cho vi c phân lo i tin t c báo đi n t .
4.2. Các nghiên c u v th ng kê d a trên Internet 4.2.1. Gi i thi u