H ng ti p c n d a trên t v i m c tiêu tách đ c các t hồn ch nh trong câu. H ng ti p c n này cĩ th chia ra là ba h ng: d a trên th ng kê (statistics-based),
d a trên t đi n (dictionary-based) và hydrid (k t h p nhi u ph ng pháp v i hy v ng đ t đ c nh ng u đi m c a các ph ng pháp này)
3.2.2.1. Các cơng trình tách t ti ng Hoa
H ng ti p c n d a trên th ng kê (statistics-based) d a trên các thơng tin nh t n s xu t hi n c a t trong t p d li u hu n luy n đ u. H ng ti p c n này đ c
Hybrid Chinese segmentation
Character-based Word-based
Unigram N-gram Statistic Dictionary
Vietnamese segmentation
Lê An Hà (03) H. Nguy n et al (05)
Full word / Phrase Component
Shortest Match Longest Match Overlap Match
inh i n et al (01)
bi t d a trên t p ng li u hu n luy n, nh v y nên h ng ti p c n này t ra r t linh ho t và h u d ng trong nhi u lãnh v c riêng bi t [Nie et al.,1996].
H ng ti p c n d a trên t đi n (dictionary-based) th ng đ c s d ng trong tách t . Ý t ng c a h ng ti p c n này là nh ng c m t đ c tách ra t v n b n ph i kh p v i các t trong t đi n. Nh ng h ng ti p c n khác nhau s s d ng nh ng lo i t đi n khác nhau. H ng ti p c n “full word / phrase” c n s d ng m t t đi n hồn ch nh đ cĩ th tách đ c đ y đ các t ho c ng trong v n b n, trong khi đĩ, h ng ti p c n thành ph n (component) l i s d ng t đi n thành ph n
(component dictionary)[Wu & Tseng, 1993] . T đi n hồn ch nh ch a t t c các t và ng đ c dùng trong ti ng Hoa, trong khi t đi n thành ph n (component dictionary) ch ch a các thành ph n c a t và ng nh hình v và các t đ n gi n trong ti ng Hoa.
Tùy theo cách ch n đ kh p t (match), h ng ti p c n “full word/ phrase” cĩ th đ c chia ra thành kh p dài nh t (longest match – b ng cách duy t v n b n tu n t đ tìm ra t dài nh t cĩ trong t đi n) và kh p ng n nh t (shortest match – b ng cách duy t v n b n tu n t và ch n t đ u tiên cĩ trong t đi n ). Ngồi hai cách thơng d ng nh t là kh p dài nh t và kh p ng n nh t, He et. al. (1996)cịn đ ngh m t cách th ba là cách k t h p (overlap). Trong cách k t h p này, m i chu i đ c phát sinh t v n b n cĩ th ch ng l p lên chu i khác n u chu i đĩ cĩ trong t đi n (ví d : h c sinh h c, ta s cĩ các token là “h c sinh”, “sinh h c” ch khơng ph i ch cĩ m t cách nh kh p dài nh t ho c kh p ng n nh t). T i th i đi m hi n t i, h ng ti p c n kh p dài nh t đ c xem là ph ng pháp quan tr ng và hi u qu nh t trong h ng ti p c n d a trên t đi n [Foo & Li, 2002].
Tuy nhiên, h ng ti p c n d a trên t đi n v n cĩ m t s h n ch trong vi c tách t vì th c hi n hồn tồn d a trên m t t đi n hồn ch nh. Trong th c t , đ
xây d ng m t b t đi n th t s hồn h o ch a t t c các t ti ng Hoa là khơng th t s c n thi t và khĩ thành hi n th c. H ng ti p c n d a trên thành ph n (component) phát tri n c ng v i m c đích làm nh b t m t h n ch này b ng cách n i các hình v và t thành nh ng t và ng hồn ch nh [Wu & Tseng,1993,1995].
H ng ti p c n Hybrid v i m c đích k t h p các h ng ti p c n khác nhau đ
th a h ng đ c u đi m c a nhi u k thu t khác nhau. H ng ti p c n này th ng k t h p gi a h ng d a trên th ng kê và d a trên t đi n nh m l y đ c u th chung và các m t v t tr i riêng c a m i ph ng pháp. M t s thành cơng c a ph ng pháp này đ c trình bày trong [Nie et al, 1996]. M c dù h ng ti p c n hibrid cĩ đ c nh ng u đi m c a ph ng pháp khác nh ng l i g p ph i các ph c t p khác nh th i gian x lý, khơng gian đa và địi h i nhi u chi phí.
3.2.2.2. Các cơng trình tách t ti ng Vi t
Cơng trình c a inh i n et al (2001) đã c g ng xây d ng t p ng li u hu n luy n riêng (kho ng 10M) d a trên các thơng tin cĩ ngu n g c t Internet nh tin t c, e-book… Tuy nhiên t p ng li u v n cịn khá nh đ đ m b o dung l ng và
đ phong phú cho vi c tách t . M c khác, do t p ng li u đ c xây d ng m t cách th cơng, nên s ph n nào mang tính ch quan. Và m t h n ch n a là vi c đánh giá l i đ c nh ng thay đ i h ng ngày r t ch m, và cĩ th x y ra hi n t ng flip-flop ( hi n t ng khi kh c ph c l i này l i d n đ n l i khác khơng ng t i)
h ng ti p c n d a trên t đi n, các t đ c tách ph i t ng ng v i nh ng t cĩ trong t đi n. Hi n t i, ta v n ch a xây d ng đ c m t b t đi n Vi t Nam ch a tồn b các t và ng .