So sánh các ph ng pháp tách tTing Vit hin nay

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 50 - 53)

Nhìn m t cách t ng quan, ph ng pháp d a trên t (word-base) cho đ chính xác khá cao ( trên 95%) nh vào t p ng li u hu n luy n l n, đ c đánh d u chính xác, tuy nhiên hi u su t c a thu t tốn ph thu c hồn tồn vào ng li u hu n luyên. B i vì m c đích c a các tác gi [ inh i n et al, 2001] là th c hi n tách t th t chính xác đ ph c v cho vi c d ch máy nên tác gi đã ch n ph ng pháp WFST. V i các ph ng pháp c n ph i s d ng t đi n ho c t p hu n luy n, ngồi vi c tách t th t chính xác, ta cịn cĩ th nh vào các thơng tin đánh d u trong t p ng li u đ th c hi n các m c đích khác c n đ n vi c xác đnh t lo i nh d ch máy, ki m l i chính t , t đi n đ ng ngh a... Do v y, m c dù th i gian hu n luy n khá lâu, cài đ t khá ph c t p, chi phí t o t p ng li u hu n luy n r t t n kém, nh ng k t qu mà h ng ti p c n d a trên t mang l i cho m c đích d ch máy là r t x ng

đáng cho cơng s c b ra.

H ng ti p c n d a trên ký t (character-based) cĩ u đi m là d th c hi n, th i gian th c thi t ng đ i nhanh, tuy nhiên l i cĩ đ chính xác khơng cao b ng ph ng pháp d a trên t . H ng ti p c n này thích h p cho các m c đích nghiên c u khơng c n đ n đ chính xác tuy t đ i c ng nh các thơng tin v t lo i nh phân lo i v n b n, l c spam, firewall... Nhìn trên bình di n chung, h ng ti p c n d a trên t cĩ nhi u u đi m đáng k , và đem l i nhi u h a h n l c quan cho các h ng nghiên c u ti p theo đ nâng cao đ chính xác c a ph ng pháp tách t này.

3.5. K t lu n

D a trên các phân tích v u khuy t đi m c a các ph ng pháp, chúng em ch n h ng ti p c n d a trên “ti ng” (character-based) cho m c tiêu phân lo i v n b n c a mình.

B i vì, m c tiêu c a lu n v n là phân lo i tin t c báo đi n t , m t lo i hình c c k phong phú v n i dung và ngơn ng , nên vi c t o ra m t t đi n hồn ch nh và cĩ kh n ng c p nh t các thay di n ra liên t c c a ngơn ng là khĩ th c hi n đ c. H th ng x lý c n ph i cĩ kh n ng linh ho t, t đ ng c p nh t nh ng thay đ i

h ng ngày, nên h ng ti p c n khơng d a trên t đi n ho c t p ng li u là c c k thích h p.

H n n a, h th ng phân lo i tin t c c n cĩ t c đ x lý ch p nh n đ c đ cĩ th x lý k p th i các thơng tin m i xu t b n h ng ngày. Do đĩ, v i u đi m đ n gi n, t c đ th c thi ch p nh n đ c, h ng ti p c n IGATEC là m t l a ch n hồn tồn phù h p.

M t khác, vi c phân lo i v n b n khơng yêu c u vi c tách t ph i cĩ đ chính xác cao đ n m c t ng t . Ta cĩ hồn tồn cĩ th th c hi n thêm vi c lo i b các t khơng c n thi t cho vi c phân lo i nh các h t , thán t ... đ t ng t c đ và s chính xác c a b c tách t , chu n b cho vi c phân lo i v n b n.

C Chh nngg 44 T TÁÁCCHH TT TTII NNGG VVII TT K KHHƠƠNNGG DD AA TTRRÊÊNN TT PP N NGG LLII UU HHAAYY TT II NN MM TT TTHHÁÁCCHH TTHH CC Gi i thi u

Các nghiên c u v th ng kê d a trên Internet

Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê Ti n x lý

H ng ti p c n tách t d a trên th ng kê t Internet và thu t tốn di truy n

Cơng c trích xu t thơng tin t Google Cơng c tách t dùng thu t tốn di truy n K t qu th c nghi m

Ch ng 4. TÁCH T TI NG VI T KHƠNG D A TRÊN T P NG LI U ÁNH D U (ANNOTATED CORPUS)

HAY T I N (LEXICON) – M T THÁCH TH C

4.1. Gi i thi u

Nh chúng ta đã tìm hi u nh ng ph n trên, vi c khĩ xác đ nh ranh gi i t đã làm cho vi c x lý tính nh p nh ng trong ngơn ng ti ng Vi t càng thêm ph c t p.Ví d nh : câu “ơng lão già đi r t nhanh”, ta cĩ th phân chia t theo nhi u cách mà câu v n cĩ ngh a “ơng ||già đi || r t || nhanh”, “ơng già || đi || r t || nhanh”, “ơng || già || đi || r t || nhanh” …

Nhìn chung, đ i v i ti ng Anh, v m t lý thuy t ti ng Anh cĩ nhi u thu n l i vì là lo i ngơn ng hồ k t hay bi n cách (flexion) [ inh i n, 2004] , h th ng ng pháp và t lo i đã đ c quy đnh rõ ràng, do đĩ vi c phân đnh ranh gi i t c ng nh xây d ng t p ng li u đánh d u là t ng đ i đ dàng.

Cịn đ i v i ti ng Vi t, v m t lý thuy t ti ng Vi t là lo i hình đ n l p [ inh i n, 2004], ph ng th c ng pháp ch y u là tr t t t và h t , vì v y ch xét v m t phân đnh ranh gi i t đã cĩ th cĩ nhi u cách phân đnh cho cùng m t câu mà v n đúng ng pháp Vi t Nam.

ph n này, chúng em xin trình bày h ng ti p c n cho vi c tách t ti ng Vi t theo m t h ng m i mà khơng c n s d ng t p ng li u hu n luy n hay t đi n. H ng ti p c n c a chúng em d a trên ý t ng c a bài báo IGATEC, và cĩ nhi u c i ti n đang k hàm làm t ng ch t l ng cho b c tách t ti ng Vi t ph c v cho vi c phân lo i tin t c báo đi n t .

4.2. Các nghiên c u v th ng kê d a trên Internet 4.2.1. Gi i thi u

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 50 - 53)

Tải bản đầy đủ (PDF)

(132 trang)