Kiểm lỗi chính tả cảm ngữ cảnh tiếng việt

51 12 0
Kiểm lỗi chính tả cảm ngữ cảnh tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 ;\' T • i ^ Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHÊ N G U Y ỄN PHƯƠNG T H Á I K IỂ M L Ỗ I C H ÍN H TẢ C Ả M T IẾ N G L U Ậ N V Ă N N G Ữ C Ả N H V IỆ T T H Ạ C S Ỹ C H U Y Ê N N G À N H : T IN H Ọ C M à N G À N H : 010110 N G Ư Ờ I H Ư Ớ N G DẪN: PGS N G U Y ỄN Q U Ố C TO Ả N ĐẠi Mí.:-.: CÍ-:( TRUNGTÂM ■Áìi L t HÀ NỘI - 2003 HÁ N Ỏ I T iiơ V IỀ N N o V : J -O U A (? M ụ c lụ c Chương 1: Giới thiệu B i to n k i ể m l ỗ i c h í n h t ả G iớ i t h iệ u c c p h n g p h p k iể m l ỗ i c h ín h t ả T iế p c ậ n c ủ a c h ú n g t ô i M ộ t s ố p h n g p h p h ọ c m y t h ố n g k ê tr o n g N L P H m p h â n l o i B a y e s " n g â y t h " D a n h s c h q u y ế t đ ị n h N ộ i s u y C hư ơng 2: M ộ t s ố đ ặ c đ i ể m 11 Đ ặ c đ iể m t iế n g V i ệ t 11 C c đ n v ị c ủ a t iế n g V i ệ t 11 T i ế n g 11 2 T 2 C â u M ộ t s ố đ ố i tư ợ n g n g ô n n g ữ m lu ậ n v ã n k h a i t h c T i ế n g 13 T v từ l o i 13 C hư ng 3: C O R P U S C c y ê u c ầ u c h í n h c h o c ô n g v iệ c S N L P X l ý v ă n b ả n 15 Đ n h d ấ u d ữ l i ệ u T o c o r p u s t h ô từ I n t e r n e t C hương 4: K i ể m l ỗ i c h í n h tả d ự a v o từ đ i ể n 2 T ậ p n h ầ m lẫ n â m t i ế t .2 1.1 N h ầ m lẫ n d o đ n h m y s a i 2 N h ầ m lẫ n d o p h t â m N h ầ m lẫ n c ủ a c c h ệ n h ậ n d n g c h ữ K iể m l ỗ i c h í n h tả d ự a v o từ đ i ể n T h u ậ t t o n 2 Đ n h g i C hư ơng 5: K i ể m l ỗ i c h í n h t ả s d ụ n g d a n h s c h q u y ế t đ ị n h G iớ i t h i ệ u C c t h u ộ c t í n h T g h é p 2 C o l l o c a t i o n 3 T n g ữ c ả n h H u ấ n l u y ệ n T h u ậ t to n k iể m l ỗ i T h u ậ t to n k iể m l ỗ i Đ n h g iá đ ộ p h ứ c t p Đ n h g i B ộ t e s t Đ ộ đ o K ế t q u ả v th ả o l u ậ n 31 32 33 33 34 35 36 38 38 C hư ơng 6: K i ể m l ỗ i c h í n h t ả s d ụ n g h m p h â n lớ p B a y e s G iớ i t h i ệ u T h u ậ t t o n Đ n h g iá v th ả o l u ậ n K ế t l u ậ n T i liệ u th a m k h ả o P h ụ l ụ c ,4 4 C H Ư Ơ N G 1: G IỚ I T H IỆ U Đ â y c h n g n h ậ p đ ề c ủ a lu ậ n v ã n C h n g n y g iớ i t h iệ u v ề b i to n k iể m lỗ i c h ín h tả , c c p h n s p h p k iể m lỗ i c h ín h tả , v m ộ t s ố k ỹ th u ậ t h ọ c m y đ ợ c sử d ụ n g tr o n g c c c h n g s a u B i to n k iể m lỗ i c h ín h tả B i to n k iể m l ỗ i c h í n h tả k h n g tầ m th n g v c ó t í n h ứ n g d ụ n g c a o C c c h n g t r ì n h s o n th ả o v x l ý v ă n b ả n r ấ t c ầ n t ín h n ă n g s o t l ỗ i c h ín h tả tự đ ộ n g đ ể g iú p n g i sử d ụ n g g iả m th i g ia n v c ô n g s ứ c b ỏ C c c h n g t r ì n h n h ậ n d n g v ă n b ả n c ũ n g c ầ n t í n h n ă n g n y đ ể n â n g c a o c h ấ t lư ợ n g n h ậ n d n g M ộ t c h o n g t r ì n h k iể m l ỗ i c h ín h tả c ó h a i c h ứ c n ă n g s o t l ỗ i v g ợ i ý C h ứ c n ă n g s o t l ỗ i c h ỉ c c â m t iế t s a i, c ò n c h ứ c n ă n g g ợ i ý th ì đ a d a n h s c h ứ n g c v iê n â m t iế t đ ú n g v i m ỗ i â m t iế t s a i đ ợ c t ì m M ộ t s ố c h n g t r ì n h k iể m l ỗ i c h ín h tả t iế n g V i ệ t t h ô n g d ụ n g : V ie t R e s : Đ â y b ộ g õ t iế n g V iệ t c ó c h ứ c n ă n g k iể m l ỗ i c h í n h tả â m t iế t , c h y tr ê n h ệ đ iề u h n h D O S n ê n h iệ n g iờ k h ô n g c ò n đ ợ c s d ụ n g p h ổ b iế n - V ie t S p e ll 0 : C h n g t r ì n h k iể m l ỗ i c h ín h tả t iế n g V i ệ t m ứ c từ v ự n g ( d ĩ n h iê n c ả â m t iế t ) G ió i th iệ u c c p h n g p h p k iể m lỗ i c h ín h tả T a c ó th ế c h ia c c p h n g p h p k iể m l ỗ i c h ín h tả t h n h h a i lo i p h n s p h p d ự a tr ê n lu ậ t v p h n ẹ p h p th ố n g k ê T r o n g k h o ả n g h n m i n ă m v a q u a , n h iề u p h n e p h p k iể m l ỗ i c h ín h tả t iế n g A n h b ằ n g t h ố n g k ê đ ã đ ợ c đ ề x u ấ t N h ữ n g p h n g p h p n y x e m x é t v ấ n đ ề k iể m l ỗ i c h í n h tả h o ặ c tr ự c tiế p , h o ặ c g iá n tiế p b ằ n g c c h q u i n ó v ề b i to n x l ý n h ậ p n h ằ n g từ v ự n e M ộ t s ố n g h iê n c ứ u sử d ụ n g m h ìn h k ê n h n h iễ u n h M a y s v c ộ n g ( 9 ) , C h u r c h v G a le ( 9 ) , B r i l l v M o o r e ( 0 ) M h ì n h k ê n h n h iễ u r ấ t tổ n g q u t v c ó k h ả n ã n g p d ụ n g c h o n h iề u v ấ n đ ề k h c n h a u , v ề tr ự c g iá c , k ê n h n h iễ u m ộ t k ê n h t r u y ề n t h ô n g m th ô n g t in tr u y ề n q u a c ó th ể b ị n h iễ u v k h ó n h ậ n d n g đ ợ c th ô n g t in đ ú n g G iả sử o từ ta n h ậ n đ ợ c c u ố i k ê n h , ta c ầ n đ o n từ đ ã đ ợ c tr u y ề n đ i G iả sử V từ v ự n g c ủ a n g ô n n g ữ , k h i đ ó : A w = a rg m a x P(w I o ) W€V th e o c ô n g th ứ c B a y e s : P(0) th ê m v o đ ó , v ì P ( O ) n h n h a u v i m ọ i w th u ộ c V n ê n : A w = a rg m a x P (0 W€V M a y s ( 9 ) t í n h P ( O lw ) sử d ụ n g th u ậ t to n M in im u m - e d it - d is t a n c e ( ta n g h iê n c ứ u c h n g s a u ), c ò n P ( w ) đ ợ c c lư ợ n g b ằ n g m h ì n h n g ô n n g ữ t r ig r a m từ (word trigram) Y a r o w s k y ( 9 ) p d ụ n g d a n h s c h q u y ế t đ ịn h đ ể n h ậ n d n g từ đ ú n g Ư u đ iể m c ủ a p h n g p h p n y s o v i p h n g p h p tr ê n k h ả n ă n g sử d ụ n g n h iề u lo i t r i th ứ c n e ô n n g ữ , k h ô n e c h ỉ t r ig r a m Đ iể m đ ặ c b iệ t n ó r a q u y ế t đ ịn h c h ỉ d ự a tr ê n m ộ t d ấ u h iệ u t in c ậ y n h ấ t G o ld in s ( 9 ) đ ề x u ấ t p h n g p h p la i B a y e s , sử d ụ n g h m p h â n lo i B a y e s " n g â y th " P h n g p h p n v c ũ n e c ó k h ả n ă n s sử d ụ n s n h iề u lo i t r i th ứ c n g ô n n g ữ n h d a n h s c h q u y ế t đ ịn h n h n c n ó q u y ế t đ ịn h d ự a tr ê n k ế t h ợ p n h iề u d ấ u h iệ u G o ld in g v S c h a b e s ( 9 ) k ế t h ợ p m h ì n h t r ig r a m từ lo i v h m p h â n lo i B a y e s T rư c t iê n , m ô h ì n h t r is r a m x c đ ịn h từ lo i đ ú n s tạ i v ị t r í đ a n c x é t d ự a v o n g ữ c ả n h , n ế u c ò n n h ậ p n h ằ n g t h ì p h n g p h p la i B a v e s x l ý tiế p G ầ n đ y h n , c ó c c p h n g p h p : h ọ c d ự a tr ê n b iế n đ ổ i ( M a n g u v B r i l l , 9 ) , p h â n tíc h n g h ĩa ẩ n ( J o n e s v M a r t in , 9 ) , d if f e r e n t ia l- g r a m m a r s ( P o w e r s , 9 ) , W in n o w - b a s e d ( G o ld in g v R o th , 9 ), v k h ô i p h ụ c c ố k ế t từ v ự n e ( H ir s t v B u d a n it s k y , 0 ) C c p h n g p h p k iể m l ỗ i c h ín h tả t iế n g V i ệ t d ự a tr ê n lu ậ t đ ợ c n g h iê n c ứ u k h n h iề u , m ứ c â m t iế t , p h n g p h p sử d ụ n g lu ậ t c ấ u tạ o â m t iế t k ế t h ợ p v i từ đ iể n m t iế t c h o k ế t q u ả t ố t n h ấ t ( P h m H n g N g u y ê n , 9 )  m t iế t v o đ ợ c p h â n lo i b ằ n g c c h p h â n t í c h c ấ u tạ o v tr a từ đ iể n , c c lo i c ó th ể c ó : sai cấu tạo, cảu tạo khơng có từ điển, có từ điển, sai cấu tạo lừ tiếng nước ngồi Ví du: S c ấ u tạ o : te t Đ ú n g c ấ u tạ o n h n g k h n g c ó tr o n g từ đ iể n : h n C ó tr o n g từ đ iể n : v ịt S a i cấ u tạ o n h n g c ó th ể từ tiế n g nư c n g o i: fo r e ig n M ứ c k iể m l ỗ i n y k h ô n g b ắ t đ ợ c c c l ỗ i từ s a i n h n g â m t iế t đ ú n g v ì k h ô n g sử d ụ n g th ô n g t i n n g ữ c ả n h m ứ c từ v ự n g , c c l ỗ i s a i từ s h é p c ó th ể đ ợ c b ắ t d ự a v o từ đ iể n t iế n g V i ệ t ( L u H X u y ê n , 0 ) P h n g p h p n y c ó u đ iể m đ n g iả n v b ắ t k h t ố t c c l ỗ i từ g h é p m ứ c đ ộ k iể m t r a n h ỏ ( n h ỏ h n th e o V ie t s p e ll 0 ) N h ợ c đ iể m k h ô n g b ắ t đ ợ c l ỗ i từ đ n v h a y b o l ỗ i s a i m ứ c đ ộ k iể m tr a lớ n ( th e o V ie t s p e ll 0 ) v ì q u u t iê n từ g h é p C ó m ộ t s ố n g h iê n c ứ u ứ n g d ụ n g p h â n t íc h c ú p h p t r o n s k iể m l ỗ i c h í n h tả C c th u ậ t to n E a r le y v C Y K đ ã đ ợ c d ù n g đ ể p h â n t íc h c ú p h p t iế n g V i ệ t p h ụ c v ụ c h o k iể m l ỗ i c h í n h tả ( N s u y ễ n C ô n g T ú , 9 ) ( L ê T h a n h H n g , 9 ) , n h n g k ế t q u ả th ự c n h iệ m đ ã k h ô n g c h ỉ r õ đ ợ c h iệ u q u ả c ủ a p h n g p h p n y C h o đ ế n n a y c h a c ó n g h iê n c ứ u n o ứ n g d ụ n g p h â n tíc h n g ữ n g h ĩa v n g ữ d ụ n g c h o k iể m l ỗ i c h ín h tả t iế n g V iệ t T iế p c ậ n c ủ a c h ú n g tỏ i M ộ t n h ợ c đ iể m c h u n g c ủ a c c c h n g t r ì n h k iể m l ỗ i c h í n h tả t iế n g V i ệ t h iệ n n a y k h n g c ó k h ả n ã n g h ọ c ( v ì sử d ụ n g p h n g p h p d ự a tr ê n lu ậ t ) , th ê m v o đ ó c c lo i t r i th ứ c n e ô n n g ữ đ ợ c k h a i th c r ấ t h n c h ế L u ậ n v ă n n y lự a c h ọ n h a i p h n g p h p c ủ a Y a r o w s k y ( 9 ) v G o ỉd in g ( 9 , 9 ) đ ể p d ụ n g c h o tiế n g V iệ t N h ữ n g p h n g p h p n y t h u ộ c t iế p c ậ n d ự a tr ê n th u ộ c t í n h (feature-based method) Ư u đ iể m n ổ i b ậ t c ủ a n ó k h a i th c n h iề u lo i t r i th ứ c n g ô n n g ữ v c h ỉ y ê u c ầ u c o r p u s c h o h u ấ n lu y ệ n Q u t r ì n h h u ấ n lu y ệ n r ú t ( extract) n h ữ n g t r i th ứ c c ầ n t h iế t c h o v iệ c k iể m l ỗ i H n n ữ a , k h ả n ă n g h ọ c m c h o c h r m t r ì n h c ó th ể th íc h n g h i v i th a y đ ổ i k h ô n s n g n g c ủ a n g ô n n g ữ v i đ ị i h ỏ i v ề s ứ c n g i M ộ t sỏ p h n g p h p h ọ c m y th ố n g k ê tr o n g N L P N h iề u v ấ n đ ề t r o n g N L P c ó th ể đ ợ c p h t b iể u lạ i (re-formulated) n h b i to n p h â n lo i T r o n g đ ó c n g v iệ c q u a n s t m ộ t " r m ữ c ả n h " n g ô n n g ữ b e B n o đ ó v d ự đ o n " lớ p " n g ô n n g ữ a e A c h ín h x c C ô n g v iệ c n y b a o g m x â y d ự n g m ộ t h m p h â n lo i c l : B - * A m h o c ó th ể đ ợ c th ự c h iệ n v i m ộ t p h â n p h ố i x c s u ấ t đ iề u k iệ n p , P(a I b) x c s u ấ t c ủ a " ló p " a k h i c h o trư c " n g ữ c ả n h " b n o đ ó N g ữ c ả n h t r o n g c c b i to n N L P b a o g m n h ấ t c c từ , v n g ữ c ả n h c h ín h x c p h ụ th u ộ c v o b ả n c h ấ t c ủ a v ấ n đ ề V i m ộ t s ố v ấ n đ ề , n g ữ c ả n h b c ó th ể c h ỉ d u y n h ấ t m ộ t từ , t r o n g k h i c c b i to n k h c , b b a o g m m ộ t v i từ v n h ã n c ú p h p tư n g ứ n g C c c o r p u s v ă n b ả n lớ n th n g c h ứ a m ộ t s ố th ô n g t in v ề đ ổ n g x u ấ t h iệ n c ủ a " c ủ a " a v " c ủ a " b , n h n g k h ô n g b a o g iờ đ ủ đ ể m ô tả t in c ậ y P(a I b) v i m ọ i c ặ p ( a ,b ) D o đ ó th c h th ứ c t ì m m ộ t p h n s p h p s d ụ n g c c d ấ u h iệ u c ụ c b ộ (j->ơrriơl) v ề " c ủ a " a v " c ủ a " b đ ể c lư ợ n g t i n c ậ y m h ì n h x c s u ấ t p P h ầ n n y g iớ i th iệ u m ộ t s ố m h ì n h h ọ c m y th ố n g k ê t ổ n g q u t, k h ô n g p h ụ th u ộ c v o lĩ n h v ự c h a y ứ n s d ụ n g G iả sử : - A tậ p c c b iế n c ố ( d ự đ o n ) c ó th ể c ó B tậ p c c n s ữ c ả n h c ó th ể c ó - T ậ p c c v ị từ n g ữ c ả n h CP = {c p , , ,cpm} , t r o n g đ ó m ỗ i h m cpị : B —>{true, false) c h o b iế t c ó h a y k h n g th ô n g t i n h ữ u íc h t r o n g n g ữ - cảnhb e T ậ p h u ấ n lu y ệ n T = {(ax,b\), (aN,bN) } , t r o n g đ ó bL € B B nà o n g ữ c ả n h v aị A < lớ p đ ú n g c ủ a n ó C h ú n g t i c ũ n g g iả s r ằ n g c c k ỹ th u ậ t h ọ c m y đ â v s d ụ n e tậ p h u ấ n lu y ệ n đ ể t ín h tầ n s u ấ t đ n e x u ấ t h iệ n g iữ a b iế n c ố a n o đ ó v i g iá t r ị c h â n l ý c ủ a v ị từ n g ữ c ả n h c p ( ( b ấ t k ỳ ) đ ợ c p d ụ n g c h o m ộ t n g ữ c ả n h b (tứ c t í n h tầ n s u ấ t c ủ a (a,cpị(b))) 4.1 H m p h â n loại B a y e s " n g â y thơ" H m p h â n lo i B a y e s n g â y th đ ợ c d ẫ n x u ấ t từ lu ậ t B a v e s , v g iả t h iế t đ ộ c lậ p x c s u ấ t m n h v ề d ấ u h iệ u đ ợ c q u a n s t N ó đ ã đ ợ c s d ụ n g c h o c c ứ n g d ụ n g N L P n h p h â n lo i v ă n b ả n (text categorization) ( L e w is v R in g u e t t e , 9 ) , x lý n h ậ p n h ằ n g n g h ĩa c ủ a từ ( G a l e , 9 ) T h e o lu ậ t B a y e s : P{b) Sử d ụ n g n ó đ ể x â y d ự n g m ộ t h m p h â n lo i; clbayes : B —» A cIbayes(b) = asr m a x P(b I ơ)P(a) aeA N ó i c h u n g , v iệ c t í n h tr ự c tiế p ( explicit) P(b I a) k h ô n s th ể d o d ữ liệ u th a , v ì v ậ y n g i ta th n g d ù n g g iả t h iế t đ ộ c lậ p x c s u ấ t m n h : P(b I a) = P({cpị(b) I cpị(b) = true} I a) = Y[P{cp,{b)\a) ( i.c p ị b ) = tru e T a c ó th ể t í n h tr ự c t iế p c c x c s u ấ t P[cpt(b) I a) từ c c tầ n s u ấ t ( a,cpt(b)) m k h ô n g c ầ n th u ậ t to n x ấ p x ỉ lặ p 4.2 D a n h s c h q u y ế t đ ịn h Y a r o w s k y ( 9 ) p d ụ n g k ỹ th u ậ t h ọ c m y d a n h s c h q u y ế t đ ịn h c h o v ấ n đ ề x l ý n h ậ p n h ằ n e n g h ĩa c ủ a từ , sử d ụ n g c c k ỹ th u ậ t h ọ c c ó s iá m s t v k h ô n g g iá m s t C c d a n h s c h q u y ế t đ ịn h tr o n g [ Y a r o w s k y , 9 ] x ế p h n g c ó h iệ u q u ả c c d ấ u h iệ u k h c n h a u th e o đ ộ t in c ậ y , c c b iế n c ố te s t c h a b iế t đ ợ c p h â n lo i b i c h ỉ m ộ t d ấ u h iệ u t in c ậ y n h ấ t c ó h iệ u lự c N ế u k h ô n g g ia n b iế n c ố c h ỉ c ó h a i p h ầ n tử , tứ c A = {a',a" ) , đ ộ t in c ậ y c ủ a m ỗ i v ị từ n g ữ c ả n h cpị đ ợ c c h o b i: lo g - P(a' I cp (b) = true) P ( ữ " | cpị(b) = true) T v s ố n y đ ợ c d ù n g đ ể tạ o m ộ t d a n h s c h đ ợ c s ắ p c ủ a c c v ị từ n g ữ c ả n h v c c b iế n c ố { ( c / j , a , (cpn,a n ) } , tr o n g đ ó : a,- = a r g m a x P(a I cpí(b) = true) K h i p h â n lo i m ộ t tr n g h ợ p te s t b , k ỹ th u ậ t d a n h s c h ° q u y ế t đ ịn h c h ọ n b iế n c ố aị tư n s ứ n g v i v ị từ đ ầ u tiê n tr o n g d a n h s c h th o ả m ã n cpị(b) = true K v th u ậ t d a n h s c h q u y ế t đ ịn h c h o p h é p ta s d ụ n g n h iề u lo i d ấ u h iệ u k h c n h a u , n h n g c u ố i c ù n g c h ọ n b iế n c ố c h ỉ d ự a tr ê n m ộ t d ấ u h iệ u t i n c ậ y N ộ i s u y N ộ i s u y tu y ế n t í n h c c h p h ổ b iế n đ ể k ế t h ợ p c c c lư ợ n s đ ợ c d ẫ n x u ấ t từ n h iề u d ấ u h iệ u k h c n h a u V í d ụ , n ó đ ợ c sử d ụ n g r ộ n g r ã i t r o n g m h ì n h n g n n g ữ , tr o n g đ ó m ụ c tiê u t ín h P(Wị I W;_2WM ) b ằ n g c c h k ế t h ợ p c c c lư ợ n g c ủ a m ộ t s ố p h â n p h ố i th n h p h ầ n : P(w, I w,._2w w ) = V U w , ) + V 2( w i I Wi-1 ) + ¿3^3 ( w / I w /-2 Wí-1) đ â y Ằị > v Ắ, = Í=1 M ỗ i p h â n p h ố i th n h p h ầ n p đ ợ c c lư ợ n g tr ự c t iế p từ c c tầ n s u ấ t th ô c ủ a d ữ liệ u h u ấ n lu y ệ n v m ỗ i Ẫị m ộ t " t r ọ n g s ố " p h ả n n h tầ m q u a n t r ọ n g c ủ a p h â n p h ố i th n h p h ầ n tư n g ứ n g v i n ó C c tr ọ n g s ố đ ợ c t í n h s a o c h o c ự c đ i k h ả n ă n g x ả y c ủ a d ữ l iệ u h e ld - o u t [J e lin e k , 9 ] K ỹ th u ậ t n y c ó th ể đ ợ c tổ n g q u t h o đ ể k ế t h ợ p s ố lư ợ n g t u ỳ ý c c m h ìn h x c s u ấ t: Pifl I b) = Ỵ ,ẢiPM I cPÁb) = true) i đ â y Pị(a I cpị(b) = true) p h â n p h ổ i x c s u ấ t đ iề u k iệ n đ ợ c d ẫ n x u ấ t từ c c tầ n s u ấ t c ủ a (a,cp.(b)) tr o n g tậ p h u ấ n lu y ệ n , v m ỗ i v ị từ cpi k ế t h ợ p v i m ộ t Xị m đ n h t r ọ n g s ố c lư ợ n g P(a I cp.ịb) = true) v i a e À K ỹ th u ậ t n ộ i s u y k h ô n g g iả t h iế t g ì v ề b ả n c h ấ t b ê n d i c ủ a c c m h ìn h m n ó k ế t h ợ p , d o đ ó n ó m ộ t p h n g p h p r ấ t tổ n g q u t đ ể tíc h h ợ p d ấ u h iệ u 10 C H Ư Ơ N G N G Ữ : M Ộ T P H Á P § ố Đ Ặ C T IẾ N G Đ IỂ M V IỆ T C h n ẹ n y t r ì n h b y m ộ t s ố đ ặ c đ iể m n g ữ p h p t iế n g V i ệ t v i t r ọ n g tâ m n h ữ n g đ ố i tư ợ n g n g ô n n g ữ đ ợ c k h a i th c c h o m ụ c đ í c h k iể m l ỗ i c h í n h tả M ỗ i đ ố i tư ợ n g đ ợ c t r ì n h b y c ù n g v i v ấ n đ ề tư n g ứ n g t r o n g N L P Đ ặ c đ iể m tiế n g V iệ t T iế n g V i ệ t th u ộ c h ọ N a m v m ộ t n g ô n n g ữ đ n lậ p T r o n g t iế n g V i ệ t , q u a n h ệ g iữ a c c từ đ ợ c b iể u t h ị k h ô n g p h ả i b ằ n g c c p h ụ t ố c h ứ a t r o n g b ả n th â n từ m b ằ n e n h ữ n g p h n g t iệ n n ằ m n g o i từ n h t r ậ t tự từ , h từ Đ ặ c đ iể m n y b a o q u t n g ữ p h p t iế n g V i ệ t c ả v ề n g ữ m , n g ữ p h p v n g ữ n g h ĩa C c đ o n v ị c ủ a tiế n g V iệ t 2.1 Tiến g G iá t r ị n g ữ â m : T iế n g â m t iế t K h i n ó i, c ứ p h t â m m ộ t h i th n h m ộ t â m t iế t V ề c h ữ v iế t , m ỗ i â m t iế t đ ợ c g h i th n h m ộ t c h ữ C ấ u tạ o : P h ụ â m đ ầ u , v ầ n , p h ụ â m c u ố i, d ấ u th a n h B ả n g c c th n h p h ầ n m t iế t : Phu âm đầu b c d đ g h k m n q r s t V X c h g h g i k h n g n h p h q u th t r n g h N guyên âm a â ă e ê i o ô u y a i ao au a y âu â y e o é u ia iu iê o a o i oe o ă o o ô i i u a u y u i u â u ỏ uê u ưa i ươ ưu y é iê u o a i o a o o a y o e o u ó i u â y u y é ươi ươu u y a u y u uêu yêu Phụ ám cuối c p t m n ch ng nh D ấ u th a n h h u y ề n , h ỏ i n g ã , sắc, n ặ n g G iá t r ị n g ữ n g h ĩa : T iế n g đ n v ị n h ỏ n h ấ t c ó th ể c ó n g h ĩa G iá t r ị n g ữ p h p : T a đ ã b iế t n g ữ p h p g m n h ữ n g q u i tắ c c ấ u tạ o từ , c ấ u tạ o c â u T iế n g đ n v ị n g ữ p h p d ù n g đ ể c ấ u tạ o từ 11 S ố c â u s a i S ỏ ' t đ n S ố t g h é p â m t i ế t s a i 5 8 s a i 4.2 Độ đo G i ả k s h i đ N ó l đ ộ t ổ n í n h c h g x s ố â s ẽ c m t i ế t c s a i , l t ổ n g s ố ộ đ o n y đ ã đ ợ c m t i ế t s a i đ ợ c m y ( G o n h ậ n h i ề u n g i s d ụ n 0 g ( G * K ế t q í c h c o r p u ả t h u h ấ n c o l c f i n g , 9 ) l d i n g l u y ệ n : t v ự n g c ủ a 7 s S ố t S ố l ợ n g b S ố l ợ n g c ặ p C c _ B u c ủ a k ế t ả n q g  m tiết c o u r p i - g ả k ế t u s 8 r a m t t h í q u B n n ả g g ữ h s o c ả i ệ m s a s e - l i n e n g đ ú n g , t h , — 4.3 Kết thảo luận K d c = 9 ) - n l : accuracy Đ â n h d n h 8 i c c đ p â y h c h ọ n g n p D đ ộ h s a i p c ủ a â m t i ế t l L 38 v K = , D a n R o s c h / t r o n g / c ậ p m n g / / c i / ă m : 6 : / q u a n g n : : : / 1 : 8 / 9 : / : 8 / : 2 / : 6 6 : / : 1 / : 7 / : 8 t h n g / : 5 / : l n / : 4 / : l ợ i / : / : d o a n h / : 7 / : 7 c h n g / 9 : / 9 : c ô n g 0 / c h ú n g 4 / đ ã đ a n g / : / k h c h b i ế n / 1 Đ g ộ c c t o n - B s c h ộ n h í n h m ộ : m g n n ă m : c l ợ n g q u ả : n : / : k ế t / : t h n g c ủ : / / 3 / 8 / : / : : : : : : B n k 9 8 : a s e - l i n i 5 / : / : 4 / 1 : c k l ỗ i h ố n e r ấ t t g s đ o k n d ụ é m d o n ó n g t n g ữ 7 c h ỉ 3 : : 6 / : 6 : 4 / 9 5 2 c h : / 7 : : 8 / : 5 1 a l : / : / / q u a n g c i x t g : ả t r o n g c ậ p g 8 : : / n b n ổ 2 2 / s ắ p T 1 39 c ả n h b ắ t đ ợ c l ỗ i t g h é p , b ỏ q u a h o n l n l ợ : / i : / d o a n h : : : : đ ã / : : : b i ế n N n c : t a ữ c ả n t e s t d - B s c h t r o n g : m g n n : c ậ p ả i : n ă m l ợ i h k h m : / : : g h p x h â c n n c ấ p k h : i k h ô : 7 n g c ộ t h e o n g g t i ả m l o i , : h â n c ấ p d a n h 6 : : 3 6 6 : 6 : 2 / : 8 / : p 4 3 / / g 6 6 / 9 : t ổ / : í n : : 4 / : h n ả 0 / / : ô 3 /2 / : c đ i đ ộ h c h n í n h u y % x T c c u ò đ â y g : c h ú n g : ộ c h n g đ ã đ : d o a n h s ắ p t h ấ y , i 7 9 / : c ô n g : 2 / : : / : 4 u t h n g l n : q : : k ế t q u a n g c : / c ộ n g : : / 1 g 1 / : n h : : / k h c h ổ / 1 5 / b n 5 : đ a n g T : : 4 / : / 9 c h ú n g s ắ p : 8 / c h n g c ố n g : : 8 / : 2 40 s c h q ế t đ ị n h y n n g h i ả i ê n m n đ i ế u r ấ t s n d h ụ i ề u n g t t h e o đ a n g : b n : / 9 / : k h c h : b i ế n 1 / 1 T ổ K : n g ế t " đ a n c u n n ă n g c ả n h n h g ữ ( d q u g " , a n - n ả g g : n g t ứ c t h ả h n h y k ộ c h ộ h m h n h n n ú c ó ổ g x n b K h m t h t , n k i ể h ộ g g c k r ấ t đ n g g đ i c t h í n t r o g đ 6 8 2 i ả n : : l t , Đ 4 " đ ã " s ẽ c 2 / c ộ , : ắ h h i ể u t e s t r ấ t h , ô i ề u n c a n g t í n h p ó g o ( d t t ) ụ t h u ộ ộ N h c t h í c h h í n v h ậ y h ợ p x c t h e o t e s t n y , k h i a n ó t h o d v u ô n n o c g t h o ý K ế n u b t h ộ c ( m N ) h t n g s u ấ t l ỗ i c c k t g n d t ầ n ắ t n t í n h ộ ố t c a o c ó u r ằ n t í n h s u ấ t n o ể ê đ ộ t ầ n h đ o g i a i k c c a l Đ c T g ê ữ o đ v ậ y ó t n c ả n g h c c n a c y M ặ n ứ c t h c m c ả n h ủ ữ k h i t c h , k t k t a h đ c ă n g h a ứ c n , đ ộ c h m ã t h t r a n h , n é c h u ă t ỉ a c c ộ t í n h c t c ó t h u ộ y b ị t h u a n g í n n h t x c ứ c n g ữ t í n h t h ự c n y a đ ộ r ộ n g c a s ổ n g ữ c ả n h ) 9 d ụ n g d a n h t t s c h t c h s c h n h ấ t 41 q u y ế t đ ị n h t a c h ọ n K b ằ n g h a y l C H Ư Ơ N G 6: K IỂ M L ỗ i c h í n h t ả s d ụ n g HÀ M PHÂN LOẠI BAYES G iới thiệu C h n " n g â y d n g h i ệ u C g n y t r ì n h t h " n đ c h ể d a n ữ n g n h r a q u y ế t đ ị n h t h u ộ c t í n h q u y c h h q u k p i ể n y ế t đ â y đ ộ c ế t đ h í n h x g i ố m l ỗ i y c ũ c P c ũ n c h n đ ị n h từ ngữ cảnh v v s c h s v ề p a l i ệ u , h y d l o i d h collo ca tion v ề P b g N g c h g h n c ủ a g t h u ậ t n í n p ó đ k n n h g g t ả ó i ố g h ợ p c t i ế n g h ả n đ i ể m n h n y s o ă n g k h t r o đ s n V k n ợ i ệ t ằ a i c n t h c đ h v i n h h a i g h c b i ệ t g c h h b n g n g ó n n h â n l o i k t r o h p ế t t r c , i p m c c l g m g p h d h ợ đ ó ộ t l o i ấ u p n a y h i ệ u h e s đ i ề u d a ấ u từ g h ép l s ố p B đ i ề u k i ệ n b a s e - l i n e v ị n h T h u ật toán T h đ ị n u h t ậ p N L đ n h c ậ t c = u h t o n ã đ ầ m l i r a ợ c r ằ n q đ â y t r ì n h r ấ t n b y t r o n u ộ c t í n h g c h t o n g n u g t ú i _ , , w y ế t t h WK , } u c ủ a { w _ , , W t r n h t r n s ố t r o n g m a m ộ t t w c s u ấ t l ỗ i C c ủ a t h j , u , = agr y t í n h m agr = m k h i a x ( weS X m t r c a x ( ] ~ wẽS ể i ể h ỉ k c h h í n c h t ả h s m ộ c t ậ p _ , , H ’ n ) , h ầ w , m r o n g đ ó ụ n t í n h s l ẫ n Y V , g d đ i ể a n m h s c h c h n g o t q u y t h u l : } t h u ộ c t í n h v i đ i ề u t í n h ^ l o pự Ị I M ’) ) P ( w ’) q u fec g t í c h ( / >( n / h i ề u I H ’) ) s ố + k i ệ n P^P2 l c c x c s u ấ t t í n h t h t : e o M L T hu ật toán kiểm lỗi: 42 E , < n h ỏ l o g ( / , ( H ' ) ) ) fec P ( f \ w ) = - Ă ) p l ( f \ w ) + Ẳp2( f ) T d đ ị n h : a Đ k l ẫ n { w _ Ả w ậ t d i Ă< , t a s d ụ l o g a r i t : ế t ộ c , G i ả s V.V.), s ố , c h c â u o c c v v â à o đ ã t í n h m đ ợ c c t i ế t c ủ a c p h t ậ p c â â n u n h t í c h ầ m t l ẫ n t ố â ( t m t ố t i ế t b T h a o ủ g t ụ c m d â m i t i ế t đ â y t i ế n đ ợ g c V i ệ t , p d ụ n d ấ u g c â u , t u ầ n t ự t í n h đ ã v o : Thuật toán: N ế u â m t i ế t ( ) P h â n ( ) V i X h i ệ n t í c h m c t i t , ỗ i t đ ị n h k k ế t w t ú i đ i ể m ô ả n n t í n h t h đ ã ầ m đ ợ c l ẫ n t c h ọ n t h ì t h ự c h i ệ n c c t í n h x u n g g ( P O b c s a u : s c k h ô n g c h ứ a t h u ộ c đ ộ t v i c c t h u ộ c t r c t t h u ộ c t ậ p S : t h u ộ c c ủ a g l t h u ộ c chấp nhận T í n h h q u b i scored) ỵ \o g (P Ự = I v v ) ) + l o ) ) f*c w ( ) G T h i đ ợ c n h t i ế t c h ọ n c c c ủ a l t h u ộ c c â u v o t í n h m a c t h u ộ c " c h n g " a= arg max score( w) weS đ ể i ể m k t r a x u n g đ ộ t t ự t h u ậ t c c v ị t r í k h c , đ n h d ấ u y n ( n h c c â m l ê n Độ phức tạp: T h u ậ t t o n t r ê n c ó đ ộ p h ứ c t p t n g m ộ t s ố l ý n t o n đ ợ c t r ì n h b t r o g c h n g q u a n h ú n g t r c T ỉa thuộc tín h : T r i h ệ đ v i t ) n s c c k r n c t a c ủ h N h m u e ợ n g n g m a n g h i ệ n u ộ c c ò n p h ô b ú n c c g t ô i h v ậ y , ô t hàm c h ú n s ; e h i ệ n x u ấ t n ữ a , ( x h l o i n t a n c ú l n ữ p h m c ý p t ă h x n B ú n t y g h ĩ a e ứ s x t r o l ý m a c n e h ú t ậ p n c đ ộ " n g â y đ o g i a i g v i n , p h h ậ ê n g i i h n t í n h T C o l l o c a t i o n m ọ p T d a n h n t r o n g t r h " u m ( ấ n đ ộ n g t , t í n h h g i ả t r o ằ ằ n n n g g n g ở g v a i v ợ V n s ự y đ i ệ t t s u ấ t p ề g t r ò t ầ n h t h i ế t t i ế n l u t 43 y ệ n v t i ế t k i ệ m g c a o đ ộ n ó c T ợ p ố c ả n t h h ụ h t , v ì n c h ế t l c o l l o c a t i o n l ậ p đ ữ l n aive B a y e s c la ssifier) l o i t , h p l o i t n ậ : i l o i h t h n t t r c ) h c ả n h g g T n g ữ t h a , n n h i ề u , l o i ỏ l i ệ u l i v i b g d x T c r o c s u ấ t n r ấ t g n h i ề H g i ữ t h í n u đ ể a g h b ộ n c c i ệ m n h , Đánh giá thảo luận D  m i đ â y l b ả t i ế t n B g q a s e - l i n / t r o n g / c ậ p n g : / : c i / : : / ả s o s n h g i ữ 6 / q u a n g u e s c h m : l i a b D L a p h ( K = / n : p h p : ) B 8 / 9 g : C ( K = 1 / : ) 7 / / : 7 / / : / : 7 : : 9 2 / : / : 4 / : 8 : 6 6 / : n ã m 1 / : 7 / : 8 3 / : 3 t h n g / : 5 / : : l n / : 4 / : : 9 l ợ i / : / : 1 / : 1 d o a n h / : 7 / : 7 : 5 c h ư n g / : / 9 : : 9 c ô n g c h ú n g 9 / 6 / đ ã : / b n / k h c h / b i ế n / 1 - g c D ộ ộ n c h : : : •c K ế t s c h h q í n u q h ả u í n h x t e s t y / / : : x c p h ụ ế t đ c 9 u ị n y h c , h v o t h m i n ộ c o K / / 9 / : : : / 9 2 : 4 6 / : 5 / : 4 / : 8 / : 4 0 / : 7 / 1 : / 1 : ( m ộ t n 3 a đ ộ r ộ n g c a s ổ n g ữ c ả n h ) Ị 8 1 ấ y h v 4 / t h / 4 / 4 : : 8 8 n : 2 / / : : : / 1 ô / s K Đ 5 1 / n 2 : đ a n g ổ 1 1 2 / s ắ p T k ế t h h o m p k h h ả â n n l o i ă n g B k ế t 44 a y h ợ e s c p n ầ n h c i ề u a d s ổ ấ u n h g i ệ u ữ c c ả ủ n a h r ộ n ó n g h n d a n h KẾT LUẬN Q u t a n s u g d ụ n C c v ấ g d k c n a đ q u ả t h ự g l i ệ u đ - V h ợ ậ d t r ê n C c p c c C a n h h ú đ i ể n k i ể N h ự n n g H c n n n a g h h m u V c l u n r ằ n ã t r ì n h b i h v b y t o n k i ể h p h n h n n ũ ủ a y c ã k A m c c m â ó h o đ h t i ế p l ỗ i n c h l o i c ậ n í n B h a y , p t ả e s T đ ể n h r ọ n g k i ể n e p t â m h m l ỗ i c p g i ả i c ủ a h í n l u h q ậ n t ả u y ế v ă n t c h l t i ế n g V o s i ệ t m a c u m m u ỉ ế c t h í n h n g p t ả c đ a N p h m đ ặ h p t i ế n g V đ t c ợ n c h í n c i ể K m đạt độ xác cao y i ệ t đ n ã e đ t ự ợ c n n h a u n g u g h Đ i ê ộ n c ứ c h í n u h k h i x d c ữ đ t n đ d ụ đ a y u n h i g ể k h a i đ ể đ t h c n v g t ì m ã y ê r a b i ế t e s s ẽ n c n h h a r a l ỗ i ( k â m ọ n c i ể t i ế t r a o u l ỗ i l ỗ i â r p m m v h l ự t ả a c t i ế n b c ó n h ọ n g V m l ỗ i m i ệ t i đ ầ y h ợ ã n h đ t đ ộ t r i ể n c h í n h m ả n r ấ t t i ế t ) t ậ p t i ế t s â ) s ố n l n gợi ý (computational dictionary t ã n y c h B t i P p c l o i n ộ L n đ ổ i c c m t o s a i â t o ủ b i t h a y ấ t l ỗ i c y t i ế t ê h c ó y t í n h x c t h ể h â p m q t h ề i ể h c C h c l ỗ i c ó a c c t e s t ọ g g m n h n c u h t r ì n h g t i ế t h đ i ể g i ả i c ế k ậ t m n r ằ n l i ệ u i ệ c h p ữ u ý d r a d y i g ã h t h â ị n g c h ỉ đ n t i ế n đ v , v y o ị n o ợ ậ n n g a đ ỹ s a i i ệ t t v i p t ế p v t i ế t ế n đ g n v m k t ả t i n s ẽ ệ g e t p q n ế n c c g í n y n ă p v ọ x n c g ợ i l ý đ g c c h r i t h ì l o i h a c h í n h x c v i ệ c x â y ộ c ý o n h ấ t t t h ì v c h h o c a o , v i y í t t s ứ c i n e - T ố i - N - S - N g - Á p d h i ễ u g n e t e r n n l u v l : â h h h ấ a y p ậ y g í n u c c t ô i v h q i ệ l ỗ i d c t i ế n g m c h ậ n u h c h g q g s c h n l u n ụ t ậ p , c I n l ỗ i t í n h d h g l i ê n l n n s u c ề h - Bằng n n ế t t r o h n g h u h d h b i ê ụ i ê ộ n n i ê c g n ụ , n ứ c ứ h u ứ g m c c c t r i u k h h c i ể c c ô u c c c n n ì n m h ủ o c k ỹ t h ứ m c t h c M u n l ỗ i h h ì n a x ú n g p h ậ t g l n c h í n h x i m t ô i u n h m n l : g m h t r o n g ữ t ả c p a h t r o k p x h ệ h y i ể ể " s â u " c ủ n k đ s u ấ t E p , l ý n t h ố n c đ ể M a 45 n r k ữ g k o (scaling up) t ố t h n c a , n h l c n h ậ s i ể m v R n d n l ỗ i a n d c o m c t r ú p c h í n F h h ữ h n p g , h ợ p d ữ h a y n g t i ế n g t ả h i e l d s n V l i ệ u ữ t h a n g h ĩ a i ệ t m h ì n h k ê n h Tài liệu th a m k h ả o Tiếng A nh [ ] M i c h M B a e l D P Eric [ ] [ ] R - h a n A n d u n e r e b f o l D M a k n d i n C a i , l a o g o e c k T f o r C h b e c o c n d t h e a r l s o t e x t a g R e l l i n J D u a s p w i n r m i a o s t m o o c r t p , t i o E n e e s e g T a o i n h D i e n , H o a n g o h , i e t r a i n i n g o o r e R o s e C t e x t K 0 n , a C h n d D n i m p n R o t h K h a e s e t e x t s e g m e n t a t i o r m o d l c a l i n g n w i t h ? c o r p o r a A i n r o v e d e r r o 0 S e f o r u p n o i s y c o n t e x t - ? L n f J e f f r e y e c e 2001 ACL 2001 M r r e c t i o n n i n X s e h g r i s t o m e n p m , N g u y e h p n a V s e r t a t i o Proceedings of ACM SIGIR '99, I n [ ] r e n t , : s e n s i t i v e Y B B r i l l , c [ ] n g a i n e s n T G c o o a n r p - o o o 9 r a t i n g c o n A t e x n t u e a l w s t a t i s t i c a l i n f o r m a t i o n V i e t n i s c o a m e s e w o r d s e g m e n t a t i o r d s n , NLPRS 11-2001 [ ] X i a u n [ ] A n p i n s e c n r e d m g G e n R n d [ ] A n c o n [ ] t e x G w r e r a D P [ ] r o K C h a n m K C h b n e s e e s e C h g n L g w r i s t o n a t u r a l l a p L o h n o s t o e g g u d M n A d , a n v n a H a e s B a y S m y - t h D v e r i n e t h g C h i n e s e w o f r o m e s i a n n - e s c h S t e x d D h y b r i d m o d f o r c o n t e x t - s e n s i t i v e a a b t - s e n n R o d e r B d c o J a u h d a n e s 9 s i t i v e t h 9 s p C e l l i n o m g b c o A W i n i n n H y 0 C o g t r i g r r e c t i o i n n o w , i t s k e s i o m e s Machine Learning c o r r e c t i o n l e x i c a l M a g , c o a n x , a r a i c A Y f o r g t i c e a , l u D a a l e y s e e r , s p e l l i n g A p h r r e c t i n n a s ( - e d ) , r e a - b a s e d a n d ACL 34 I n - b g r a m a p p r o - l - w o r d a c h t o s p e l l i n g Computational Linguistics M a r t i n 0 9 s p e e c h a n d L a n g u a g e a l l u K i t M i c h a e l N g , Q i n L u T e x t s e g m e n t a t i o n f o r checkins Journal of the American society for information u o a d Proceedings of the Third Annual Workshop on Very n , i n e e , r d v P 9 I n o l d r e n ( ) : e t h r a f s k P Languages, [ ] o s p e l l - T n i n i r s t , J u o e P r a t t , s r e s t o r i n g i e l H m s i t i v y i n i n i n B l d a SIGIR-99, l d o G H g i m e science, [ ] a s e d c e s s i n i n o G t - s e n e r r o r s [ 1 ] G R d t e x t R w e n c o r r e c t i o r e - b d d a , r e f e a t u W Corpora L a rg e A t e w s p e l l i n g [ ] e , g e - K o g m m e M a p k e n - W r o n e t a t i o , n e i n n u g c e s s i n G n m n g 9 A n a p p l i c a t i o n o f i n f o r m a t i o n t h e o r y i n Computer Processing of Chinese and Oriental b a a n e d r H M I i n r i c h T P S r e s s , 46 c h u t z e C a m b r i d g e F o u n M a s s a d c a h t i o u s e n s t t s o f s t a t i s t i c a l [ ] N V P g a u y n V M a n L i n a r s i n [ ] e g , w s a a t e x t s h M N g i t h k u e i s i n u R N i n g y i c a g h e , S n h P K n a t a g e n u s h o u m o n g l e d g e B A u t o u w u 9 e r a l i z e d H T f o o r i g h a i u c h i , 2 r w a a t i c r d o S T e n u B t e n a o c e , R e L e d u A c n h C u o n g , N g t i o n U s i n g S f r o m J a p u e m y e a n n t i c I n tech /V J F u zzyU 0 a s e m H e x - b a c k t r a c t i o w a n r d o f n s e a r c h e w w o r d s a n e s e P r o c e e d in g s o f the I n C on feren ce on E m p ir ic a l M eth o d s in N a tu r a l L a n g u a g e P ro cessin g [ ] D s e g a v m i d e n D t a t i o n P a l m e r 9 A t r a i n e n g , D S l e r u l e - b a s e d a l g o r i t h m f o r w o r d P r o c e e d in g s o f the 35"' A n n u a l M e e tin g o f the A sso cia tio n f o r I n C o m p u ta tio n a l L in g u istics (A C L '97), [ ] a b c h u u r m a n s 0 S M a d e l f - s u r i d p , e r v 9 F P i s e d C h i n e s e w o r d s e g m e n t a t i o n I n P r o c e e d in g s o f the th Internation S ym po siu m on Intelligent D a ta A n alysis (ID A 2001) [ ] J a y p r o M P c e d u o n r e t e , W B r u f o r i n f o r m c e C a t i o r o f t n 9 U r e t r i e v a l P s e g r e : A s e n r e t a r g t e d e t a b [ ] [ ] [ 2 ] R A d w a i t b i g u a m P e R o R - n n s y n a l d i c h a R a t n i t y l v a n L r d a c o p l u i a n R U i v T r e e a V h s s i o ] N w g o u y r d e n s e g o - b a v o C r d s e g m e n t a t i o n U M a s s T e c h n i c a l R e p o r t P h u o m e n t a h m Y s e n d m g T t i o y a l g e g m e n o a i , u N i n , h n 2 , i n e a r n S h i h , g e a x i m u m e n t r o p y m o d e l s f o r n a t u r a l l a n u a g g e L i l i n - s e M A D isse rta tio n in C o m p u te r a n d Inform ation Science e r s i t y r d l u n 9 l u , i t i o i v o a n n h e s t w Linguistics, [ a r k S p r o a t , J m p r e s o Linguistics, W o f i n i t e - s t a t e [ ] w the S ym posiu m on D ocu m en t a t A n a lysis a n d In fo rm ation R etrieval 96 (SDAIR) T l e s i n t a u n u m N g u e e e i d , r G l g o l i s t s a l e , N r i t h a m M a c h in e Learning n c y C f o r h C a h n g i n 9 A s t o c h a s t i c C om p u tation al e s e R o C h d g i n e e r M s e w c o N a r d b , s e I a n g m H e n W t a t i o i t t e n n 0 A C o m pu tation a l n d m n f o r e e c i s i o a r n m b H d n b y g i l l i a t i o W r i t h g W m g i n V e a n n V M a i n h o v r k , L e M o A d n e h C u o n g V i e t n a m e s e In tern a tio n a l W orkshop f o r l C o m p u ter, In form ation , a n d C o m m u n ica tio n T e c h n o lo g ie s on State o f the A rt an d Future T r e n d s o f In form ation T ec h n o lo g ies in K o r e a a n d Vietnam [ ] D a v i d a c c e n Y a t s r o i n w S s k p y a i n A i s h c a n o m d p a F r i s o r e n n c h D a v i d 9 Y a r o w s k y H i e r a r c h i c a l d f c o t e x t W orksh op on V e r y L a r g e C o r p o r a , [ ] o K y e c i s i o C o m p u te r s a n d H um anities 47 r p I n o t o n , u s - b a s e d t e c h n i q u e s f o r r e s t o r i n g P r o c e e d in g s o f the n d Annual 9 l i s t s f o r w o r d s e n s e d i s a m b i g u a t i o n Tiếng V iệ t [ ] D b [ ] L i ệ ả p Q n ê u a i o h C G A n t h ể t ê n n g B a n , H o n g V ă n T h u n g 9 N g pháp ữ t i ế n g V Nhà i ệ t x u ấ t d ụ c t r o n n g g , d N g ị c h u y ễ n m y P h n g T h i , N e u y ễ n V ă n V i n h 0 X l ý t h ự c H ộ i nghị c c N h K h o a h ọ c Trẻ, Đ i h ọc Q u ố c giơ H N ội, lơn thứ II [ ] L ê A t ự [ ] L đ ê N [ ] P n h ộ T n C g h A a n n h n h H g - V i ệ n 0 X â y d ự n g b ộ Luận văn c a o t g 9 P h â n p h â n t í c h c ú p h p t i ế n g A n h t r o n g h ệ d ị c h học t í c h pháp c ú t i ế n g V Luận văn cao học, i ệ t H ộ i h m H n N g u y ê n 9 M ộ t t i ế p c ậ n k i ể m l ỗ i c h í n h t ả â m g t i ế t t i ế n g V i ệ t H ộ i thảo Q u ố c gia v ề C N T T [ ] H o n g P h ê [ 3 ] H o n g Phê [ ] N g u y ễ [ ] N ộ i N g đ u y i ể n d ị c h n ễ C V c o l l o ( c h ô n m 9 y n ã ủ g b T n V o a ú V i n c a t i o L T C n h í n i ê n ) t ả h , L ê s d ụ t i ế n g 9 K A n n g T i ể m h W nghị Hội h V đ i ệ t i ể n l ỗ i C o h , n g r d N e t h í n N v h g V u K y u ấ t b t i ế n ê - n n e P a r e ả n Đ Nhà i ệ t t ả Nhà K h o a cá c x t i ế n g c N g V h x N u i ệ t s t n N g e ấ t n b ả Đà n N ẵ n g Luận văn cao học, T i g ẵ h h i b o u r 0 t r o n T g ố h i H u n ệ t h t ố n g học Trẻ, Đ i h ọ c Q u ố c gia H N ội, lần thứ II [ ] ủ K y b h o a n a h k ọ h c X ã h ọ c x h ộ i — ã h ộ i H V N i ệ t ộ i , N a m N 48 g ữ p h p t i ế n g V i ệ t N h x u ấ t b ả n Phụ lục P C h h ụ l ụ c n c n y t r ì n h t r ì n h n y b đ y ợ m c ộ t c i s ố đ ặ t t h ô n t r ê n g t i n m ô i v ề t r c i n g đ ặ t M c h n S V i s u a n n g C g l t r ì n h C + + : + k i ể Sơ đồ sử dụng tà i nguyên Tạo tập nhầm ỉản ảm tiết T h u ậ t t o n M i n i m u m - e d i t - d i s t a n c e v i ế t b ằ n g n g ô ữ + int M inEditDistance( LPCTSTR source, LPCTSTR ta rg et) I int m, n; int distance! 20]Ị20]; m = _tcslen(source); n = _tcslen(target); distance[0][0]=0; int i, j; for ( i =l ; i p B e s t ; s c o r e , c a u s a i i s t < F e a t u r e * , F e a t u r e * ~ d l o a i v i e r r o r ; L o t u / / d o u b l e W l l C / / t a / / t h u o c f L i s t ; t i n h / / t o t d a n h n h a t s a c h t r o n g t h u o c t i n h m a t c h t u f L i s t p r i o r S c o r e ; s t a t e ; o r d ( ) ; o W W r d ( c o n s t W o r d & ) ; o r d ( ) ; o r d O & o p e r a t o r B O L o p e r a t o r C S t r i n g v o i d O i n t e t L G v o i d G O r t h r t h O e n O r P g t h = = r P O Q S ( = O ( c o n s t ( S U c o n s t p W W c o n s t ; S h o r t * o r d o / / & r d ) ; & s u c o d e s , ) c o n s t ; u n d g i n t & c h o c o d e h a m C o u e x t r a c t n t ) t h u o c c o n s t ; c o n s t ; e t S y l l a b l e s ( C L i s t < C S t r i n g , L P C 52 T S T R > & s y l l L i s t ) ; t i n h ... m lỗ i c h ín h tả , c c p h n s p h p k iể m lỗ i c h ín h tả , v m ộ t s ố k ỹ th u ậ t h ọ c m y đ ợ c sử d ụ n g tr o n g c c c h n g s a u B i to n k iể m lỗ i c h ín h tả B i to n k iể... h tả t iế n g V i ệ t m ứ c từ v ự n g ( d ĩ n h iê n c ả â m t iế t ) G ió i th iệ u c c p h n g p h p k iể m lỗ i c h ín h tả T a c ó th ế c h ia c c p h n g p h p k iể m l ỗ i c h ín h tả. .. phân tích cú pháp u cầu corpus cú pháp; dịch m áy thống kê yêu cầu corpus song ngữ; nhận dạng tiếng nói cần corpus tiếng nói v.v 15 c m 2.3 Phân tích từ tơ P h â n c ó t í c h t h ể t l t ố t ,

Ngày đăng: 16/03/2021, 10:06

Mục lục

    1. Bài toán kiểm lỗi chính tả

    2. Giới thiệu các phương pháp kiểm lỗi chính tả

    3. Tiếp cận của chúng tôi

    4. Một số phương pháp học máy thống kê trong NLP

    4.1 Hàm phân loại Bayes "ngây thơ"

    4.2 Danh sách quyết định

    CHƯƠNG 2: MỘT SỐ ĐẶC ĐIỂM NGỮ PHÁP TIẾNG VIỆT

    1. Đặc điểm tiếng Việt

    2. Các đơn vị của tiếng Việt

    3. Một số đối tượng ngôn ngữ mà luận văn sẽ khai thác

Tài liệu cùng người dùng

Tài liệu liên quan