Cách ng ti pc nda trê nt (Word-based approaches)

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 37 - 39)

H ng ti p c n d a trên t v i m c tiêu tách đ c các t hồn ch nh trong câu. H ng ti p c n này cĩ th chia ra là ba h ng: d a trên th ng kê (statistics-based),

d a trên t đi n (dictionary-based) và hydrid (k t h p nhi u ph ng pháp v i hy v ng đ t đ c nh ng u đi m c a các ph ng pháp này)

3.2.2.1. Các cơng trình tách t ti ng Hoa

H ng ti p c n d a trên th ng kê (statistics-based) d a trên các thơng tin nh t n s xu t hi n c a t trong t p d li u hu n luy n đ u. H ng ti p c n này đ c

Hybrid Chinese segmentation

Character-based Word-based

Unigram N-gram Statistic Dictionary

Vietnamese segmentation

Lê An Hà (03) H. Nguy n et al (05)

Full word / Phrase Component

Shortest Match Longest Match Overlap Match

inh i n et al (01)

bi t d a trên t p ng li u hu n luy n, nh v y nên h ng ti p c n này t ra r t linh ho t và h u d ng trong nhi u lãnh v c riêng bi t [Nie et al.,1996].

H ng ti p c n d a trên t đi n (dictionary-based) th ng đ c s d ng trong tách t . Ý t ng c a h ng ti p c n này là nh ng c m t đ c tách ra t v n b n ph i kh p v i các t trong t đi n. Nh ng h ng ti p c n khác nhau s s d ng nh ng lo i t đi n khác nhau. H ng ti p c n “full word / phrase” c n s d ng m t t đi n hồn ch nh đ cĩ th tách đ c đ y đ các t ho c ng trong v n b n, trong khi đĩ, h ng ti p c n thành ph n (component) l i s d ng t đi n thành ph n

(component dictionary)[Wu & Tseng, 1993] . T đi n hồn ch nh ch a t t c các t và ng đ c dùng trong ti ng Hoa, trong khi t đi n thành ph n (component dictionary) ch ch a các thành ph n c a t và ng nh hình v và các t đ n gi n trong ti ng Hoa.

Tùy theo cách ch n đ kh p t (match), h ng ti p c n “full word/ phrase” cĩ th đ c chia ra thành kh p dài nh t (longest match – b ng cách duy t v n b n tu n t đ tìm ra t dài nh t cĩ trong t đi n) và kh p ng n nh t (shortest match – b ng cách duy t v n b n tu n t và ch n t đ u tiên cĩ trong t đi n ). Ngồi hai cách thơng d ng nh t là kh p dài nh tkh p ng n nh t, He et. al. (1996)cịn đ ngh m t cách th ba là cách k t h p (overlap). Trong cách k t h p này, m i chu i đ c phát sinh t v n b n cĩ th ch ng l p lên chu i khác n u chu i đĩ cĩ trong t đi n (ví d : h c sinh h c, ta s cĩ các token là “h c sinh”, “sinh h c” ch khơng ph i ch cĩ m t cách nh kh p dài nh t ho c kh p ng n nh t). T i th i đi m hi n t i, h ng ti p c n kh p dài nh t đ c xem là ph ng pháp quan tr ng và hi u qu nh t trong h ng ti p c n d a trên t đi n [Foo & Li, 2002].

Tuy nhiên, h ng ti p c n d a trên t đi n v n cĩ m t s h n ch trong vi c tách t vì th c hi n hồn tồn d a trên m t t đi n hồn ch nh. Trong th c t , đ

xây d ng m t b t đi n th t s hồn h o ch a t t c các t ti ng Hoa là khơng th t s c n thi t và khĩ thành hi n th c. H ng ti p c n d a trên thành ph n (component) phát tri n c ng v i m c đích làm nh b t m t h n ch này b ng cách n i các hình v và t thành nh ng t và ng hồn ch nh [Wu & Tseng,1993,1995].

H ng ti p c n Hybrid v i m c đích k t h p các h ng ti p c n khác nhau đ

th a h ng đ c u đi m c a nhi u k thu t khác nhau. H ng ti p c n này th ng k t h p gi a h ng d a trên th ng kê và d a trên t đi n nh m l y đ c u th chung và các m t v t tr i riêng c a m i ph ng pháp. M t s thành cơng c a ph ng pháp này đ c trình bày trong [Nie et al, 1996]. M c dù h ng ti p c n hibrid cĩ đ c nh ng u đi m c a ph ng pháp khác nh ng l i g p ph i các ph c t p khác nh th i gian x lý, khơng gian đa và địi h i nhi u chi phí.

3.2.2.2. Các cơng trình tách t ti ng Vi t

Cơng trình c a inh i n et al (2001) đã c g ng xây d ng t p ng li u hu n luy n riêng (kho ng 10M) d a trên các thơng tin cĩ ngu n g c t Internet nh tin t c, e-book… Tuy nhiên t p ng li u v n cịn khá nh đ đ m b o dung l ng và

đ phong phú cho vi c tách t . M c khác, do t p ng li u đ c xây d ng m t cách th cơng, nên s ph n nào mang tính ch quan. Và m t h n ch n a là vi c đánh giá l i đ c nh ng thay đ i h ng ngày r t ch m, và cĩ th x y ra hi n t ng flip-flop ( hi n t ng khi kh c ph c l i này l i d n đ n l i khác khơng ng t i)

h ng ti p c n d a trên t đi n, các t đ c tách ph i t ng ng v i nh ng t cĩ trong t đi n. Hi n t i, ta v n ch a xây d ng đ c m t b t đi n Vi t Nam ch a tồn b các t và ng .

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(132 trang)