Nh đã đ c gi i thi u trong ch ng 2, Nạve Bayes là m t ph ng pháp r t ph bi n s d ng xác su t cĩ đi u ki n gi a t và ch đ đ xác đnh ch đ c a v n b n. Các xác su t này d a trên vi c th ng kê s xu t hi n c a t và ch đ trong t p hu n luy n. T p hu n luy n l n cĩ th mang l i k t qu kh quan cho Nạve Bayes. Internet v i h n 10 t trang web là m t t p hu n luy n r t phong phú v m i ch đ
trong cu c s ng. H n n a, v i s l ng ch đ tin t c đi n t khơng nhi u (kho ng 20 ch đ ) thì vi c s d ng Internet nh c s d li u hu n luy n r t phù h p. Trong báo chí, v i m i ch đ luơn cĩ các t chuyên mơn v i t n s xu t hi n r t cao, vi c t n d ng t n s ph thu c c a các t này vào ch đ cĩ th đem l i k t qu kh quan cho phân lo i.
V i d li u đ c t o ra nh cơng c tách t GA và trích xu t thơng tin t Google, theo đánh giá c a chúng em, thì ph ng pháp Nạve Bayes là khá phù h p vì các d li u đ u vào cho h ng phân lo i này hồn tồn phù h p v i d li u hi n cĩ. i u này s giúp chúng em ti t ki m đ c r t nhi u th i gian và cơng s c t o thêm nhi u t p d li u n u ch n ph ng pháp phân lo i khác.
M t khác, ph ng pháp Nạve Bayes là ph ng pháp khá c đi n đ c s d ng
đ u tiên b i Maron vào n m 1961 [Maron, 1961], và sau đĩ r t ph bi n trong các lãnh v c tìm ki m, l c mail, các b l c mail… nên chúng ta cĩ th tin t ng v xác su t chính xác và các u khuy t đi m c a ph ng pháp này đ áp d ng phù h p.
M t lý do n a mà chúng em ch n Nạve Bayes b i ph ng pháp đ n gi n, t c
đ nhanh, cài đ t t ng đ i khơng quá ph c t p phù h p v i th i gian cho phép c a lu n v n. Chúng em khơng s d ng kNN, do t p d li u th nghi m hi n cĩ là t p
các tin t c v n t t l y ng u nhiên t trang VnExpress.net cịn khá nh (d i 1000). Trong khi đĩ đ cĩ th s d ng ph ng pháp kNN hi u qu s l ng ch đ và d li u th nghi m ph i l n h n nhi u. SVM tuy là m t ph ng pháp đ c cho là cĩ hi u su t cao, nh ng th i gian hu n luy n l i r t lâu. Nnet l i cài đ t quá ph c t p.
V i nh ng lý do trên, chúng em đ xu t ch n ph ng pháp Nạve Bayes đ phân lo i v n b n.