Luận văn, khóa luận, chuyên đề, tiểu luận, quản trị, khoa học, tự nhiên, kinh tế
Trang 1KHÓA LU N C NHÂN TIN H C
NIÊN KHÓA 2001 – 2005
Trang 2i c m n
Ñ&Ò
u tiên em xin t lòng bi t n sâu s c n th y inh n, ng i ã t ntình giúp , tr c ti p h ng d n và truy n t nhi u kinh nghi m quý báu em
có th th c hi n và hoàn thành tài này
Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin,
tr ng i h c Khoa h c T nhiên Các th y cô ã t n tình d y d , truy n t cho
em nhi u ki n th c quý báu trong su t nh ng n m i h c em có c ngàyhôm nay
Con xin g i l i c m n sâu s c n ông bà, cha m , nh ng ng i ã sinhthành và nuôi d ng con thành ng i
Sau cùng tôi xin g i l i c m n n các b n trong nhóm VCL, c bi t là
n V Th y – ng i ã t ng h p và cung c p ng li u hu n luy n ch ngtrình có th ho t ng
TP H Chí Minh, tháng 7 n m 2005
Châu H i Duy – 0112005
Trang 3Nh n xét c a Giáo viên ph n bi n
Ch ký c a GVPB
Trang 4c l c
u 1
Ch ng 1 ng quan 3
1.1 Ki m l i chính t c a ti ng n c ngoài 4
1.1.1 Ki m l i chính t cho các ngôn ng châu Âu 4
1.1.1.1 Ph ng pháp T ng c nh 4
1.1.1.2 Ph ng pháp c tr ng lân c n 4
1.1.1.3 Ph ng pháp Danh sách quy t nh 5
1.1.2 Ki m l i chính t cho các ngôn ng châu Á 6
1.1.2.1 Mô hình CInsunSpell cho ti ng Hoa 6
1.1.2.2 Ph ng pháp c a Nagata cho ti ng Nh t 7
1.1.3 ánh giá chung v các mô hình trên 9
1.2 Ki m l i chính t ti ng Vi t 10
1.2.1 Ch ng trình VietSpell 10
1.2.2 Ki m l i chính t d a vào phân tích cú pháp 11
1.2.3 Ki m l i chính t b ng mô hình l i t 12
1.2.4 Word 2003 phiên b n ti ng Vi t 13
Ch ng 2 s lý thuy t 14
2.1 Chu n chính t 15
2.2 t s ki n th c c b n v chính t ti ng Vi t 15
2.2.1 Các y u t c a ti ng và ch vi t: 15
2.2.1.1 Âm 16
2.2.1.2 Ch cái 17
2.2.1.3 Thanh và d u 17
2.2.1.4 Ti ng hay âm ti t 17
2.2.1.5 Hình v 17
Trang 52.2.2 Quy cách ghi d u thanh trên ch vi t 19
2.2.3 t qu u tra l i chính t 19
2.2.3.1 thanh u 19
2.2.3.2 âm u 20
2.2.3.3 âm chính 20
2.2.3.4 âm cu i 20
2.2.4 Nguyên nhân 20
2.2.4.1 thanh u 20
2.2.4.2 âm u 21
2.2.4.3 âm chính 21
2.2.4.4 âm cu i 21
2.3 c m chung c a m t h ki m l i chính t 22
2.3.1 Các ch c n ng chính 22
2.3.2 Các lo i l i chính t 22
2.3.3 Nguyên nhân gây ra l i chính t 23
2.3.4 Các sai l m c a trình ki m l i 24
2.4 s tin h c 25
2.4.1 Lu t Bayes 25
2.4.2 Mô hình N-Gram t ng quát 26
2.4.2.1 c l ng b ng N-Gram 26
2.4.2.2 Hu n luy n N-Gram 28
2.4.2.3 Làm m n 29
2.4.3 Tách t 30
2.4.3.1 Kh p t i a 31
2.4.3.2 WFST 32
Ch ng 3 Mô hình 33
3.1 Mô hình t ng quát 34
3.2 Ti n x lý 37
Trang 63.2.1 Tách c m ti ng 37
3.2.2 Tách ti ng 37
3.2.3 c “nhi u” 38
3.2.3.1 Nh n di n ti ng Anh 38
3.2.3.2 Nh n di n t vi t t t 38
3.2.3.3 Nh n di n phiên âm 38
3.3 Ki m l i non-word 39
3.3.1 Phát hi n l i 39
3.3.2 a l i 39
3.3.2.1 a l i phát âm 39
3.3.2.2 a l i nh p li u 40
3.3.2.3 Các l i khác 43
3.4 Ki m l i real-word 43
3.4.1 Phát hi n l i b ng bigram 44
3.4.1.1 Ý t ng chính 44
3.4.1.2 t h p v i trigram 45
3.4.1.3 Làm m n 47
3.4.1.4 Heuristic h n ch l i tích c c 47
3.4.2 Phát hi n l i b ng FMM và n-gram 48
3.5 p danh sách ng viên s a l i 50
3.6 c trong quá trình ki m l i 51
Ch ng 4 Cài t th c nghi m 52
4.1 Cài t 53
4.1.1 Chu n hoá ti ng 53
4.1.1.1 Mã hoá các ch cái 53
4.1.1.2 Mã hoá ti ng 53
4.1.1.3 u trúc l p Tieng 55
4.1.2 Mã hoá t và n-gram 57
Trang 74.1.2.1 Mã hoá t 57
4.1.2.2 Mã hoá n-gram 58
4.1.2.3 u trúc l p Tu 59
4.1.3 u trúc d li u cho các t n và các b n-gram 59
4.1.4 Phát sinh ng viên 60
4.1.4.1 Phát sinh các ti ng g n gi ng 60
4.1.4.2 Phát sinh các t g n gi ng 61
4.1.5 Ki m l i chính t 64
4.1.5.1 Dò tìm l i 64
4.1.5.2 p x p các ng viên s a l i 66
4.1.5.3 c trong quá trình ki m l i 66
4.1.6 Hu n luy n 66
4.1.7 Tích h p vào Word 69
4.1.8 Các x lý khác 70
4.1.8.1 ng mã ti ng Vi t 70
4.1.8.2 Linh tinh 70
4.1.9 Vài hình nh v Ch ng trình 71
4.2 Th nghi m và ánh giá 73
4.2.1 Các tham s th nghi m 73
4.2.2 t qu 74
4.2.3 Nh n xét 79
4.2.4 So sánh v i VietSpell 80
4.2.4.1 Kh n ng phát hi n l i 80
4.2.4.2 Kh n ng ngh s a l i 80
4.3 ánh giá và K t lu n 88
4.4 ng phát tri n 89
Tài li u tham kh o 90
Ph l c 92
Trang 8Danh sách hình
Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n 8
Hình 2: Mô hình t ng quát 36
Hình 3: Bigram c m r ng v phía sau 47
Hình 4: Mã ti ng 54
Hình 5: Mã t 57
Hình 6: Mã n-gram 58
Hình 7: S ki m l i b ng FMM và n-gram 65
Hình 8: Quá trình ki m l i 71
Hình 9: Quá trình ki m l i hoàn t t 72
Hình 10: K t qu th nghi m v i P_bi' = 5.33 75
Hình 11: K t qu th nghi m v i P_bi' = 4.95 76
Hình 12: K t qu th nghi m v i P_bi' = 4.73 77
Hình 13: K t qu th nghi m v i P_bi' = 4.59 78
Trang 9Danh sách b ng
ng 1: Các thành ph n d nh m l n khi phát âm 39
ng 2: Phím g c và các phím lân c n 42
ng 3: K t qu th nghi m 74
Danh sách thu t toán Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm 40
Thu t toán 2: Phát hi n l i b ng bigram 45
Thu t toán 3: K t h p bigram và trigram phát hi n l i 46
Thu t toán 4: Phát hi n l i b ng FMM và n-gram 49
Thu t toán 5: Phát sinh t ng viên 62
Thu t toán 6: Binary Search c i ti n 63
Thu t toán 7: Quá trình hu n luy n 67
Thu t toán 8: Các b c t o n-gram trong giai n hu n luy n 68
Trang 10ng i c không tin t ng vào trình c a chính ng i ã t o ra v n b n ó.
Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng i ti p nh n hi u sai
i dung c n truy n t
Tr c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng i Tuynhiên, xã h i càng phát tri n, l ng thông tin c n truy n t ngày càng nhi u, vi c
ki m l i chính t “th công” r t m t th i gian và công s c
n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin,
ng l i hành chánh n t ngày càng c m r ng và m t nhu c u m i ang
c t ra: làm sao máy tính có th thay th (m t ph n hay toàn b ) cho con
ng i trong vi c ki m l i chính t , hay nói cách khác là làm sao xây d ng m t
Thêm vào ó, vi c ki m l i chính t còn có th c dùng trong giai n
ti n x lý c a r t nhi u bài toán khác v x lý ngôn ng t nhiên, ví d nh : phân
lo i v n b n, tóm t t v n b n, d ch t ng, nh n d ng ch vi t, nh n d ng gi ngnói, …
Tuy nhiên, trong khi bài toán ki m l i chính t cho các ngôn ng châu Âu
ã c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i
Trang 11u k , ph c t p ho c òi h i nhi u không gian nh
Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h ng ti p c n chính
Mô hình n-gram có m t s u m, ó là không quá ph c t p trong x lý, và n u
c t ch c c u trúc d li u t t, l ng b nh chi m d ng là ch p nh n c.Trong mô hình c a tài này, n-gram c dùng làm ph ng ti n tính toán cácxác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dò tìm ra nh ng vùng b
i, và sau cùng a ra các ngh s a ch a cho ng i dùng l a ch n
c c lu n v n
Lu n v n này g m 4 ch ng v i n i dung chính nh sau:
• Ch ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th
Trang 12Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
nh ng n m 60 c a th k XX, bài toán ki m l i chính t ng b ngmáy tính ã nh n c s quan tâm c a các nhà khoa h c Cho n nay, r t nhi uthu t toán, mô hình gi i quy t bài toán này ã c công b , tuy nhiên h u h tchúng u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ngPháp,… còn ki m l i chính t cho các ngôn ng n l p c a châu Á nh ti ngHoa, ti ng Vi t,… ch m i b t u c nghiên c u g n ây
Hi n nay, v n ang c quan tâm nh t trong ki m l i chính t là ki m
i chính t c m ng c nh Khác v i các ph ng pháp ki m l i chính t truy n
th ng, v n xem xét các t m t cách c l p nhau và ch y u d a vào t n,trong ki m l i chính t c m ng c nh, quy t nh m t t có b sai chính t haykhông, h th ng ph i xét n các c tr ng xung quanh nó nh t lân c n, t lo i,
tr t t t ,… Do ó, ph ng pháp ki m l i c m ng c nh có th phát hi n c
nh ng l i sai v cách dùng t , t c là t v n không b sai chính t , nh ng tronghoàn c nh c a câu v n thì vi c dùng nó là không h p lý Tuy nhiên, i cùng v i
hi u qu cao là s khó kh n trong cách ti p c n
a vào lo i hình ngôn ng (bi n cách hay n l p), các ph ng pháp
ki m l i chính t có th c chia thành hai “tr ng phái” chính: ki m l i cho cácngôn ng châu Âu và ki m l i cho các ngôn ng châu Á
Ph n u c a ch ng này xin gi i thi u m t vài ph ng pháp ki m l ichính t ã c công b và ng d ng thành công trong th c t cho các ngôn ng
c ngoài Ph n cu i ch ng s m qua các công trình ã c công b cho
ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng
Trang 13Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
1.1 Ki m l i chính t c a ti ng n c ngoài
1.1.1 Ki m l i chính t cho các ngôn ng châu Âu
Nh ã nói trên, bài toán ki m l i chính t cho các ngôn ng châu Âu, nh t
là ti ng Anh, ã c tìm hi u t r t s m, v i nhi u mô hình, ph ng pháp khácnhau nh T ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuynhiên, ph ng pháp ki m l i chính t c m ng c nh nh n c nhi u nhà khoa
c quan tâm nh t do nó có nhi u u m so v i cách ki m l i ch d a vào tn
t trong nh ng u m i phân bi t m t t v i nh ng t nh p nh ng v i
nó là các t xung quanh nó trong câu Ví d , khi ang xem xét ch n l a gi a
dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert,
còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert Ph ngpháp T ng c nh c Golding xây d ng d a trên nh n xét này Trong giai n
c, v i m i t th ng b vi t sai chính t , h th ng s ghi nh nh ng t th ng
xu t hi n xung quanh nó trong ng li u Khi ch y th c t , v i m i t nghi ng , h
th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t làm tthay th
Ph ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung
nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm n tr t t c achúng Trong tr ng h p ó, các ph ng pháp c tr ng lân c n t ra r t thích
p rút ra các quy lu t v tr t t
1 Context words 2
Collocations
Trang 14Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
t c tr ng lân c n là m t m u các y u t v cú pháp xung quanh tang xét Có hai c tr ng th ng c s d ng trong ph ng pháp này, ó lànhãn t lo i và t lân c n
Ph ng pháp c tr ng lân c n c th c hi n theo cách th c t ng t v i
ph ng pháp T ng c nh Ý t ng chính ây là phân bi t nh ng t d b dùng
nh m l n v i nhau d a vào các c tr ng lân c n c a chúng M i c tr ng lân
n cung c p vài d u hi u v i kh n ng quy t nh3 khác nhau cho nh ng t trong
p nh m l n Nh ng d u hi u này c k t h p v i nhau và tính toán theo m t
lu t quy t nh (th ng là Bayes) Sau cùng, t nào có h p lý cao nh t s c
ch n
Tuy nhiên, ph ng pháp c tr ng lân c n c ng có nh c m, ó là khi
t t có các c tr ng mâu thu n ho c hàm ch a nhau, g i là xung t 4
ph ng pháp này ho t ng t t, các c tr ng xung t v i nhau c n c phát
hi n và lo i b Hi n nay, ngoài heuristic, v n ch a có m t ph ng pháp hoàn
ch nh gi i quy t v n này
Danh sách quy t nh là s k t h p c a T ng c nh và c tr ng lân c n
t n d ng u m c a c hai ph ng pháp này: T ng c nh s rút ra cácnguyên t c t t nh t theo cách c l p v i tr t t t , còn c tr ng lân c n cdùng rút ra các nguyên t c ph thu c vào tr t t
Ph ng pháp này òi h i ph i xây d ng m t danh sách r t l n các c
tr ng - ây là các t ng c nh và các c tr ng lân c n Nh ng c tr ng c
p x p theo kh n ng quy t nh gi m d n, trong ó kh n ng quy t nh c a m i
c tr ng ph n ánh tin c y c a nó trong vi c ra quy t nh M t t nh p nh ng
c phân lo i b ng cách duy t qua danh sách và so kh p t ng c tr ng v i
ng c nh c tr ng phù h p u tiên s c dùng phân lo i t ang xét
3 Strength
Trang 15Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Vì Danh sách quy t nh a ra l i gi i ch d a vào m t c tr ng m nh
nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác nh kh n ng quy t nhcho nh ng c tr ng ây chính là nh c m c a ph ng pháp này, b i vì vi ctìm ra m t công th c ánh giá t ng quát là r t khó
Do ó, Danh sách quy t nh có th c c i ti n b ng cách dùng nhi u c
tr ng h n Theo ó, l a ch n các t t t nh t, h th ng s duy t qua toàn bdanh sách c tr ng, so sánh t ng c tr ng v i ng c nh, r i k t h p chúng
a ra l i gi i sau cùng Vi c k t h p các c tr ng có th c th c hi n nh vào
t b phân lo i, ví d nh nh Bayes
1.1.2 Ki m l i chính t cho các ngôn ng châu Á
n ây, ki m l i chính t cho các ngôn ng châu Á ã c quan tâm và
t c m t s thành t u Không nh các ngôn ng châu Âu, vi c ki m l i chính cho các ngôn ng n l p c a châu Á g p nhi u khó kh n Nguyên nhân ch
u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… không
có ranh gi i t rõ ràng áp d ng nh ng mô hình ki m l i chính t c m ng
nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n c xác nh ranh gi i Vi c xác nh ranh gi i t ngay khi v n b n u vào là úng chính t ã làkhông n gi n V i v n b n u vào sai chính t , bài toán tách t càng khó kh nn
Do ó, các nhà ngôn ng h c – tin h c c a châu Á ã ra m t s mô hình
i cho ki m l i chính t Ph n này s m qua m t vài mô hình trong s ó
1.1.2.1 Mô hình CInsunSpell cho ti ng Hoa
Mô hình ki m l i này có tên là CInsunSpell [JX00] c xu t b i Li
Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph ng pháp c
ng Bayes và Phân ph i tr ng s t ng5, c dùng cho s a l i chính t ti ngHoa
5 Automatic Weight Distribution
Trang 16Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Trigram c dùng trong b c ki m l i Theo ó, m t “c a s ” trigramkích th c 5 c dùng ánh giá m i liên k t gi a các ti ng v i nhau C a strigram th c ra là m t chu i con, v i ti ng c n xét trung tâm, và 4 ti ng lân c n xung quanh (2 ti ng li n tr c và 2 ti ng li n sau) Ti ng trung tâm c xem làsai chính t khi hai liên k t tr c và sau nó u y u Liên k t c xem là y u khi
bi n chu i u vào thành chu i s a l i
Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i làkho ng 60%, t l l i tích c c kho ng 10% Hai giá tr này thay i tùy vào các
ng ng c dùng trong h th ng
Ph ng pháp c a Nagata [Na98] c áp d ng u tiên cho các h th ng
nh n d ng ch vi t (OCR) Tuy nhiên nó v n có th c dùng s a các l ichính t do con ng i gây ra
Ph ng pháp c a Masaaki g m hai giai n: Trong giai n th nh t, câu
nh p vào c chia thành nhi u chu i ti ng, v i u ki n m i chu i ti ng t othành m t t có trong t n ho c n gi ng v i ít nh t m t t nào ó trong t
n Trong giai n th hai, b ng các ph ng pháp th ng kê, n chu i t t t nh t
Trang 17có th chia chu i u vào thành các chu i con m t cách h p lý, h
th ng dùng hai ph ng pháp, ó là Mô hình ngôn ng th ng kê và Thu t toánForward-DB Backward A* tách t
Ngôn ng th ng kê c dùng tính xác su t k t h p c a chu i con vàchu i nhãn t lo i Xác su t k t h p này th c ra là tích xác su t xu t hi n c achu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n Sau cùngThu t toán Forward-DB Backward A* [Na94] c dùng ánh giá các xác su t
lãm
m
p tác
p tác
Trang 181.1.3 ánh giá chung v các mô hình trên
Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t nh
ã c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ngPháp, ti ng Tây Ban Nha,… Tuy nhiên áp d ng các mô hình ó cho ti ng Vi t,
n b n u vào c n ph i c tách t b ng m t mô hình tách t m Mô hìnhtách t m không t t s làm gi m áng k hi u su t chung c a toàn h th ng Cho
n nay v n ch a có m t mô hình tách t m hoàn ch nh cho ti ng Vi t Ngoài ra,
u h t các ph ng pháp cho ti ng Anh u òi h i ng li u ã c gán nhãn t
lo i, trong khi n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này.Thêm vào ó, các ph ng pháp nh Danh sách quy t nh và Bayes òi h i h
th ng ph i th c hi n nhi u thao tác x lý khá ph c t p nh n ra t sai chính tnên c ng khó c áp d ng vào th c t Do ó chúng tôi ch xem nh ng mô hình
a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng
i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi ã dùng c a
Bigram và Trigram m c ti ng dò tìm ti ng sai chính t ó là cách ti p c n
t phù h p cho ti ng Vi t vì không c n ph i tách t Bên c nh ó, mô hình nàycòn có nh ng u m khác u m u tiên là tính n gi n trong cài t c ng
nh trong quá trình x lý u m th hai, c ng là c m quan tr ng nh t,CInsunSpell không òi h i kho ng li u hu n luy n ã c tách t hay gán nhãn
lo i mà ch c n m t kho ng li u úng chính t V i nh ng c m ó, vi c
áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành công trong th c t
Mô hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c ng
có th áp d ng ngay cho ti ng Vi t mà không c n s a i nhi u vì Nh t-Vi t u
là các ngôn ng n l p Tuy nhiên, c ng nh m t s mô hình dùng cho ti ng
Trang 19Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Anh, mô hình này c n có kho ng li u ã c tách t và gán nhãn t lo i, ó là
u ch a th áp ng c Bên c nh ó, vi c dò tìm ph ng án s a l i b ng ma
tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i ng u v i m t ththách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a
ng nên t p nh m l n khá l n Do ó, vi c áp d ng mô hình c a Maasaki cho
Nhìn chung, VietSpell là m t ch ng trình t t, b i vì ngoài vi c ki m l ichính t , nó còn có các ch c n ng h u ích cho ng i Vi t nh chuy n mã, b gõ,
nh ng ch c n ng ó không c xem xét ây Tuy nhiên, dùng nó m t cách
p pháp, khách hàng ph i tr ti n b n quy n u này không ph i ng i dùngnào c ng áp ng c
Trang 202003 Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch ng trình nh
ch n kh i sai, ôi khi làm h v n b n ngu n, a ra ngh s a l i m t cáchkhông h p lý, …
1.2.2 Ki m l i chính t d a vào phân tích cú pháp
m 1999, trong lu n v n t t nghi p i h c, Nguy n c H i và Nguy n
Ph m H nh Nhi [HN99] ã xu t mô hình ki m l i chính t ti ng Vi t b ng cáchphân tích cú pháp ây c xem là cách ti p c n d a trên lu t
Theo mô hình này, câu u vào s c h th ng ti n hành phân tích cúpháp b ng thu t toán Earley Nh ng ch không phân tích c s b xem là l ichính t Earley là m t thu t toán m nh cho phân tích cú pháp Tuy nhiên do có
ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n c cài t t t t ng
th i gian x lý
áp d ng Earley cho ti ng Vi t, câu u vào c n ph i c tách t trong
u ki n nó có th b sai chính t ó là khó kh n th nh t m khó kh n thhai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng
3000 lu t, trong khi ch ng trình ch t p h p c kho ng 700 lu t m khó
kh n ti p theo, ti ng Vi t là ngôn ng n l p, s ti ng l i ít, nên vi c ph i h pcác ti ng t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u
tr ng h p câu sai chính t nh ng v n phân tích cú pháp c ây là h n chchính c a ph ng pháp này
ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch ng trình ki m l ichính t VPCTTV Ch ng trình này có ph n hoàn ch nh h n [HN99] do có n
140 t lo i, 2000 lu n và t chính xác 95%
Trang 21Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Nhìn chung, ki m l i chính t b ng phân tích cú pháp r t có nhi u tri n
ng N u c nghiên c u và phát tri n hoàn ch nh, kh n ng ng d ng vào th c
s r t cao
1.2.3 Ki m l i chính t b ng mô hình l i t
m 2004, trong lu n v n t t nghi p c a mình, Nguy n Thái Ng c Duy[Duy04] ã trình bày mô hình l i t cho ki m l i chính t ti ng Vi t Mô hìnhnày ho t ng d a vào vi c tách t m , sau ó ánh giá các cách tách t khácnhau tìm ra cách tách t có v h p lý nh t làm câu s a l i Trong ó, l i t
th c ch t là m t c u trúc d li u c bi t, gi ng nh m t th th a có h ngkhông chu trình C u trúc d li u này giúp cho vi c tách t m và ánh giá cáccách tách t c d dàng và nhanh chóng, b i vì có th áp d ng các thu t toántìm ng i trên th v i nó
i t là m t mô hình m nh và ch t ch V lý thuy t, n u c cài t và
hu n luy n hoàn ch nh, thì hi u su t c a nó s r t kh quan
Tuy nhiên, mô hình này có m t nh c m r t khó kh c ph c, ó là v n bùng n t h p B i vì, ngay v i m t câu úng chính t , vi c tách t c ng không
n gi n, và th ng tìm c nhi u cách tách t khác nhau V i câu u vào là saichính t , vi c tách t m càng tr nên khó kh n do v i m i ti ng, h th ng ph iphát sinh các ti ng g n gi ng v i nó, r i xem xét các cách ph i h p c a nh ng
ti ng ó v i các ti ng lân c n nó trong câu, sau cùng m i ch n ra cách t t nh t
u này khi n cho ch ng trình ph i m t r t nhi u th i gian và không gian x
lý, nh t là v i nh ng câu dài
Bên c nh c u trúc l i t , mô hình c a Nguy n Thái Ng c Duy còn dùngn-gram c l ng các giá tr c n thi t Tuy nhiên, do ng li u hu n luy n ch a
t, vi c c l ng này ch a c chính xác Ngoài ra, cách t ch c d li u c a h
th ng có nhi u nh c m, khi n cho ch ng trình ph i t n r t nhi u không gian
nh l u tr các n-gram u này m t l n n a làm gi m tính th c t c a
ch ng trình
Trang 22u n m 2005, MicroSoft ã phát hành ph n m m MS Word 2003 phiên
n ti ng Vi t dành riêng cho th tr ng Vi t Nam MS Word là ph n m m x lý
n b n c dùng ph bi n nh t hi n nay Vi t Nam và c trên th gi i
Trong phiên b n ti ng Vi t này, MS Word 203 ã c tích h p ch c n ng
mà có l nhi u ng i Vi t Nam ang r t quan tâm: ki m l i chính t cho v n b n
ti ng Vi t Tuy nhiên, không nh mong i, ch c n ng này ch c hoàn thành
Trang 23Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Tr c khi b t tay vào l a ch n mô hình và cài t các thu t toán, hi u rõ
nh ng v n lý thuy t c dùng trong tài là u r t c n thi t Ch ng nàyxin c trình bày các v n lý thuy t ó, g m hai ph n chính:
s lý thuy t ngôn ng h c: các khái ni m v ti ng, t , hình v ,… c a
ti ng Vi t, các quy t c chính t c b n, và k t qu u tra v các l i chính t
th ng g p TP HCM
s lý thuy t tin h c: trình bày v h ki m l i chính t t ng quát, mô
hình lý thuy t c áp d ng trong lu n v n: n-gram, cùng v i ph ng pháp c
ng Bayes tính toán các xác su t n-gram, và các mô hình tách t
Trang 24Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.1 Chu n chính t
Theo [LTT97] thì chu n chính t bao g m chu n vi t các âm (ph âm,nguyên âm, bán âm ), và các thanh, chu n vi t tên riêng (vi t hoa ), chu n vi tphiên âm t và thu t ng vay m n
Hi n nay, chu n vi t các âm và các thanh ti ng Vi t ã c xác nh theo
th ng ng âm cu ch vi t Chu n vi t hoa tuy ch a th t th ng nh t, nh ng xu
ng ang c ch p nh n là vi t hoa con ch u cu m i âm ti t thu c t tênriêng (Vi t Nam, H Xuân H ng …); n u tên riêng là c m t th hi n m t hay
n m t danh t chung và m t danh t riêng thì vi t hoa con ch u thu c âm ti t
u cu các danh t chung, còn danh t riêng vi t hoa theo quy nh Chu n vi tphiên âm t vay m n (ti ng n c ngoài ) ph c t p h n: ang t n t i 2 cách vi tphiên âm, ó là phiên âm âm ti t hoá (có g ch n i gi a các âm ti t cu t nh Lê-nin, Pa-ri …) và phiên âm t hoá (vi t li n âm ti t, tôn tr ng âm và ch theo hLatinh nh Paris, Canada, …)
2.2 M t s ki n th c c b n v chính t ti ng Vi t
Ch vi t là h th ng kí hi u b ng ng nét t ra ghi ti ng nói và có
nh ng quy t c, quy nh riêng Mu n vi t úng chính t ti ng Vi t, ta ph i tuântheo nh ng quy nh, quy t c ã c xác l p
Chính t là cách vi t ch c xem là chu n, t c vi t úng âm u, úng
n, úng d u (thanh), úng quy nh v vi t hoa, vi t t t, vi t thu t ng
Tr c khi nói v các quy cách, ta c n xác nh m t s ki n th c v chính t
ti ng Vi t
2.2.1 Các y u t c a ti ng và ch vi t:
Ti ng do nhi u âm k t l i mà thành Âm c chia làm nhi u lo i nh
Trang 25Nguyên âm c t o do lu ng h i thoát ra t do, t c là không b c n m t
m nào Trong chính t , nguyên âm có th mang d u Ch Vi t có 11 nguyên âm
n là A, , Â, E, Ê, I, Y, O, Ô, U, , và 3 nguyên âm ôi là IÊ / YÊ / IA / YA ; / A ; UÔ / UA
Nguyên âm n có c m là gi nguyên ch trong khi vi t, tr khi vi t
Y Nguyên âm ôi không gi nguyên nguyên ch khi vi t Vi t IÊ, YÊ, , UÔkhi có âm cu i (liên, tuy t, h ng, muôn), vi t IA, YA, A, UA khi không có ph
âm cu i (hia, khuya, l a, mùa)
Ph âm
Ph âm c t o ra do lu ng h i b c n h ng, l i, r ng ho c môi Trongchính t , ph âm không mang d u Ch Vi t có 23 ph âm: B, C / K / Q, CH, D,, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X
Trang 26Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.2.1.2 Ch cái
Ch cái dùng ghi âm Theo quy nh v chính t trong sách giáo khoa
i cách giáo d c, b ng ch cái ti ng Vi t g m 33 con ch x p theo th t sau: A,, Â, B, C, D, , E, Ê, (F), G, H, I, (J), K, L, M, N, O, Ô, , P, Q, R, S, T, U, ,
V, (W), X, Y, (Z) Các ch cái trong ngo c n là F, J, W, Z ch dùng vi t tênriêng n c ngoài và thu t ng g c n c ngoài V y vi t “f ng”, “za” là sai chính
2.2.1.3 Thanh và d u
Thanh là hi n t ng nâng cao ho c h th p trong m t ti ng Ti ng Vi t có 6thanh (ngang, huy n, ngã, h i, s c, n ng) và c th hi n b ng 5 d u (thanhngang không có d u ghi)
2.2.1.4 Ti ng hay âm ti t
Ti ng do m t hay nhi u âm phát ra cùng m t lúc t o thành Ti ng có âm
u, v n và thanh V n có âm m, âm chính, âm cu i Ví d : “toàn” có ph âm
u T, âm m O, âm chính A, âm cu i N và thanh huy n
Trong các y u t t o thành ti ng, âm chính và thanh lúc nào c ng có Còn
âm u, âm m và âm cu i có th v ng m t.Ví d : à, , v.v…
Theo [Dien04] thì ti ng là n v c b n trong ti ng Vi t, khái ni m “ti ng”
ã có t r t lâu ã có t r t lâu và c ng i b n ng s d ng tr c khi hi u và
Trang 27Vi t và t Hán Vi t.
n: là t ch g m m t ti ng VD: ch , anh, nhà, … ghép: là t c t o thành t nhi u ti ng, gi a các ti ng có m i quan h
ng ngh a Tùy theo m i quan h ó, t ghép l i c chia thành:
• ghép ng l p: các ti ng trong t có m i quan h bình ng v inhau v ý ngh a Có th các ti ng u rõ ngh a ( n , nhà c a, bàn
gh ,…) nh ng c ng có khi ti ng không rõ ngh a (ch búa, giá ,…)
• ghép chính ph : là t ghép mà ti ng này ph thu c vào ti ng kia.Thành t ph có nhi m v phân lo i, chuyên bi t hoá cho thành tchính VD: tàu ho , ng s t, sân bay,…
láy: là t có các ti ng c t h p trên c s hoà ph i ng âm Thành
ph n ng âm có th c l p l i (g i là p) ho c c bi n i (g i là i)
Ngoài ra, theo [Dien04], ti ng Vi t còn có m t lo i t là t Ng u h p ây
là nh ng t mà ng i b n ng hi n nay không tìm th y m i quan h gì v ng âmhay ng ngh a gi a các ti ng c u t o nên chúng VD: b câu, b hòn, sao su, hysinh, kinh t ,…
Trang 28Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.2.2 Quy cách ghi d u thanh trên ch vi t
Khi b d u thanh theo khoa h c, ta ph i tuân theo 4 quy cách sau ây
u ch ghi trên ho c d i nguyên âm, không ghi trên ho c d i ph âm
Ví d : láng, b nh, mình ( úng)
u ch ghi trên ho c d i nguyên âm (âm chính), không ghi trên ho c
i âm m Ví d : hoà, thu , qu , thu ( úng); hòa, lóe, qúi, th y (sai)
u ch ghi trên ho c d i nguyên âm (âm chính), không ghi trên ho c
i bán âm cu i Ví d : sáu, táo, mái, l y ( úng); saú, taó, maí, la (sai)
i v i nguyên âm ôi:
• Khi nguyên âm ôi ng cu i t , ta ghi d u trên ho c d i nguyên
âm th nh t: mía, l a, n a
• Khi nguyên âm ôi ng gi a t , ta ghi d u trên ho c d i nguyên
âm th hai: li n, mu n, h ng
Ngoài ra, hi n nay v n có nhi u ng i thích dùng ki u b d u m thu t, t c
là b d u sao cho ti ng c cân i Theo cách này, m t s ti ng có v n ‘oa’,
‘oe’ c b d u trên âm ‘o’ VD: hòa, hòe,…
2.2.3 K t qu u tra l i chính t
Qua các b n u tra l i chính t trong nhà tr ng ph thông và trên các
ph ng ti n truy n thông TP HCM, [Hoa03] k t lu n các lo i l i sau ây x y ra
ph bi n nh t (ph n này ch c p n các l i chính t do phát âm sai)
Trang 29Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Ng i thành ph vi t l n l n m t s ch ghi các âm u sau ây: C / K, G /
Gh, Ng / Ngh, Ch / Tr, X / S, V / D / Gi / R, W / Hw / Ngw / Qu Trong s này,các l i v Ch / Tr, X / S, V / D / Gi ph bi n h n
c sinh và qu n chúng có th vi t l n l n ch ghi các âm chính trong 48
n sau ây: ai / ay / ây, ao / au / âu, m / âm, p / âp, iu / iêu / êu, im / iêm / êm /
em, ip / iêp / êp / ep, oi / ôi / i, om / ôm / m, op / ôp / p, ong / ông, oc / ôc, ui /uôi, um / uôm, up / (uôp), i / i, u / u, m / m, ( p) / p
dân thành ph có th vi t l n l n ch ghi các âm cu i trong 48 v n sauây: an / ang, at / ac, n / ng, t / c, ân / âng, ât / âc, en / eng, ên / ênh, êt / êch, in/ inh, it / ich, iên / iêng, iêt / iêc, n / ( ng), t / ( c), un / ung, ut / uc, uôn / uông,uôt / uôc, n / ng, t / c, n / ng, t / c
Nh v y ng i thành ph có kh n ng vi t sai chính t 33% s d u, trên50% s ch ghi âm u, 59% s v n trong ti ng Vi t
2.2.4 Nguyên nhân
Theo các nhà ng âm h c, ng i Vi t t Ngh An tr vào không phân bi t
c hai thanh h i, ngã Hay nói úng h n trong ph ng ng Trung và Nam,không có thanh ngã M t khác, s l ng ti ng mang hai thanh này khá l n (
1900 ti ng mang thanh h i, 900 ti ng mang thanh ngã) Do hai nguyên nhân trên,
i v d u r t th ng th y trên các v n b n mi n Nam nói chung, thành phnói riêng
Trang 30i ng i có trình v n hoá ch a cao ho c do s ý, có th l n l n.
Có 2 nguyên nhân gây ra s l n l n trong 48 v n này Nguyên nhân utiên là s b t h p lý trong ch Qu c ng : nguyên âm / / l i c ghi b ng ch atrong các v n ay, au; các nguyên âm ôi l i c ghi b ng các d ng iê – yê – ia –
ya, – a, uô – ua (bia – khuya, biên – tuy n, l a – l ng, mua – muôn); âm
m /w/ c ghi b ng hai con ch u, o (ví d : hu , hoa) Nguyên nhân th hai làcách phát âm l n l n trong ph ng ng Nam B i v i các âm chính trong h tcác v n trên
Trang 31Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.3 c m chung c a m t h ki m l i chính t
2.3.1 Các ch c n ng chính
Nhìn chung, dù có th khác nhau v mô hình và ph ng pháp th c hi n, b t
h th ng ki m l i chính t nào c ng bao g m hai kh i ch c n ng chính:
• Kh i ki m l i: phát hi n nh ng vùng nghi ng có s hi n di n c a l ichính t
• Kh i s a l i: tìm các ng viên thay th cho t b l i b ng cách ch n ra
nh ng t trong cùng t p nh m l n v i t b l i và có v h p lý nh t.Thông th ng kh i ki m l i là quan tr ng và ph c t p nh t i v i cáctrình ki m l i dùng cho con ng i, kh i s a l i ch có ch c n ng h tr , các “g iý” c a kh i này giúp cho ng i dùng tìm ra t thay th m t cách nhanh chóng dokhông c n t n th i gian nh p li u
i real-word: là nh ng t có trong t n, nh ng trong ng c nh c a câu
n ho c n v n ang c xem xét thì nó là không h p lý Nh ng l i lo i này
t khó phát hi n do máy khó có th “hi u” c ý ngh a c a v n b n Nh ng l i
lo i này trong ti ng Vi t có th c chia thành hai lo i nh h n nh sau:
• i t ghép: là l i chính t x y ra t i m t ti ng hay nhi u ti ng c a
t t ghép VD: cô y làm th qu , ó là m t h c sinh su t s c,…
Trang 32Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Lo i l i này có th c phát hi n b ng các mô hình tách t m ,heuristic k t h p t n, ho c n-gram Vi c phát hi n lo i l i này có
2.3.3 Nguyên nhân gây ra l i chính t
Trong th c t , l i chính t c t o ra do hai nguyên nhân chính sau ây:
• Phát âm sai ây là lo i l i th ng g p nh t trong th c t , c hìnhthành do cách phát âm khác nhau c a nh ng a ph ng khác nhautrong n c VD: “s ” – “s ”, “ch m” – “tr m”, “lào” – “nào”,…
Nh ng l i này ph thu c vào n i sinh s ng c a ng i t o ra v n b nnên r t khó kh c ph c
ph thu c vào trình ngôn ng c a ng i t o ra v n b n
Trong tin h c, ngoài hai nguyên nhân ã nêu trên, còn có các nguyên nhânkhác, ó là:
• i nh p li u Là l i gây ra khi gõ nh m, gõ d ho c gõ thi u các ký trên bàn phím VD: “chào” – “nhào”, “nh ng” – “n ng”, “trang” –
“tragn”,… H u h t các l i lo i r t ít g p khi vi t tay Chúng ph
Trang 33gi ng nhau, VD: ‘l’ và ‘1’, ‘+’ và ‘t’,… Còn v i nh n d ng ti ng nói,
i c phát sinh do cách phát âm c a ng i nói, ho c tách chu i âmthanh thành t ng t không úng (ch x y ra v i các ngôn ng bi ncách nh ti ng Anh) VD: “inside” – “in side”, “aboard” – “aboard”,… Nh ng l i này nhi u hay ít ph thu c vào kh n ng c a h
nh n d ng Và trong th c t , m t h nh n d ng hoàn ch nh không ththi u kh i ki m l i chính t , dù ch m c n gi n
2.3.4 Các sai l m c a trình ki m l i
Nhìn chung, ch ng trình ki m l i chính t nào c ng th ng ph m hai lo i
i sau ây:
• i tích c c: l i này x y ra khi ch ng trình nh m nh m m t t úngthành t sai chính t Lo i l i này không gây h u qu x u, nh ng nólàm ng i dùng m t m i và không tin t ng vào ch ng trình
• i tiêu c c: ây là lo i l i n ng nh t, ó là khi ch ng trình b sótcác l i chính t trong v n b n L i này càng nhi u càng làm gi m tính
Trang 34| ( ) ( )
| (
B P
A B P A P B A
P A
P
1
)
| ( ) ( )
(
i A là bi n c có P(A)>0, v i m i giá tr k (k=1, 2, , n) ta có công th c
Bayes t ng quát nh sau:
k k
k
B A P B P
B A P B P A
B P
1
)
| ( ) (
)
| ( ) ( )
| (
Trong ó, P(B) c g i là xác su t bi t tr c hay xác su t tiên nghi m
(prior probability), P(A) c g i là xác su t c n tìm hay xác su t h u nghi m(posterior probability)
Trang 35Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.4.2 Mô hình N-Gram t ng quát
t n-gram là m t b các y u t (t , ti ng, nhãn t lo i,…) liên ti p trong
ng li u S y u t trong m t n-gram c g i là b c c a n-gram, thông th ng gram có b c t 1 t i 4 N-gram b c 1 c g i là unigram, b c 2 c g i làbigram, b c 3 c g i là trigram, b c 4 c g i là quadrigram, N-gram cdùng c l ng xác su t xu t hi n c a m t y u t d a vào các y u t xungquanh nó trong câu
n-Do ó, n-gram có th c áp d ng cho các h th ng tách t , gán nhãn t
lo i, ki m l i chính t , phát sinh câu ng u nhiên,…
Cho m t câu S g m n t : (w 1 , w 2 ,w n-1 ,w n ) Theo lý thuy t xác su t, xác
n n n
w w P
w w P w w P w w P w P
w P S P
1
1 1
1 1
2 1 3 1
2 1
1
)
| (
)
| ( )
| ( )
| ( ) (
) ( ) (
Tuy nhiên, ph ng pháp này khó c áp d ng trong th c t , b i vì vi ctính xác su t dây chuy n nh v y òi h i r t nhi u thông tin hu n luy n và tiêu t nkhá nhi u th i gian x lý
| ( 1−1 ≈ k k−1 k−2 k−N−1
k
k w P w w w w w
P
i k là s th t c a t ang xét và N là b c c a n-gram.
Trang 36w w P
w P S P
1
1 1
1
)
| (
) ( ) (
w P
w P w P w P w P
w P S P
1
3 2 1 1
)(
)()
()()(
)()(
| ( 1−1 ≈ n n−1
n
n w P w w w
n n n
w w P
w w P w w P w w P w P
w P S P
1
1
1 2
3 1 2 1 1
)
|(
)
|()
|()
|()(
)()(
7 Trong m t s tài li u, tính xác su t c a m t t theo n-gram, s t tr c nó c dùng là N Ngh a là
Trang 37| ( 1n−1 ≈ n n−1 n−2
w P
Nh v y, xác su t c a câu S c tính theo trigram nh sau:
n n n
w w w P
w w P w w w P w w P w P
w P S P
1
2 1
1 1
2 3 1
2 1
1
)
|
| (
)
| ( )
| ( )
| ( ) (
) ( ) (
u ý
i v i nh ng t u câu, ta không th c l ng nó do không N-1 t
tr c nó Khi ó, ta có th thay P(w 1 ) b ng P(w 1 |<start>) Giá tr này chính là xác
su t t w 1 xu t hi n u câu
ng t nh v y, ta có th b sung vào công th c tính xác su t c a câu
giá tr P(<stop>|w n ), giá tr này cho bi t xác su t t w n xu t hi n cu i câu
2.4.2.2 Hu n luy n N-Gram
s d ng c, mô hình n-gram c n c cung c p nhi u thông tin vxác su t Các thông tin này c rút trích t m t kho ng li u cho tr c, g i làkho ng li u hu n luy n
N-gram c hu n luy n b ng cách m t n s và trung bình hoá nh sau:
)
(
)
( )
| (
1 1
1 1 1
1
− +
−
− +
− +
−
i N i
i i N i N
i i i
w w
C
w w w
C w
w w P
i bigram:
) (
) (
)
| (
1
1 1
i
w C
w w C w
w P
ng t nh v y cho trigram
Trang 38Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
2.4.2.3 Làm m n 8
Do hoàn toàn d a vào ng li u, ph ng pháp N-gram có m t nh c m,
ó là khi ng li u không s dày c c n thi t, các xác su t thu c s r t nh(th ng b ng 0) làm cho vi c tính toán không còn chính xác
i bigram, s t i t này x y ra khi C(w i-1 w i )=0 ho c th m chí C(w i-1 )=0.
)(
w w C
) (
1 )
| (
1
1 1
i
w C V
w w C w
w P
Ph ng pháp c ng h s 10
Trong th c t , ph ng pháp C ng 1 cho k t qu không h p lý, do d i góc nào ó, giá tr 1 ôi khi tr trên r t l n cho nh ng s ki n không h c quantâm n
Vì v y, thay vì c ng thêm 1 cho t s , ph ng pháp này c ng thêm m t giá
tr δ thích h p (0 < δ ≤ 1) Theo ó, xác su t P(w i |w i-1 ) c tính l i nh sau:
) ( ) (
) (
)
| (
1
1 1
i
w C V
w w C w
w P
δ δ
8 Smoothing 9
Add-one smoothing
Trang 39) (
)
| (
1
1 1
i ML
w C
w w C w
w P
Ph ng pháp này s c l ng l i giá tr P(w i |w i-1 ) t P ML (w i |w i-1 ) c a
bigram b ng quy nh sau:
) ( ) 1 ( )
| ( )
| ( i i 1 ML i i 1 JM i
ng quát hoá cho n-gram:
) ]
1 ([
) 1 ( ) (
Trang 40Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t
Có m t s mô hình tách t ã c công b nh : Kh p t i a11,M ngchuy n d ch tr ng thái h u h n có tr ng s 12, Maximum Entropy, …
2.4.3.1 Kh p t i a
Thu t toán Kh p t i a nguyên b n a ra l i gi i b ng cách ch n ra cáchtách t v i các t dài nh t có th c khi duy t t trái sang ph i (Kh p t i a
ti n13) ho c duy t t ph i sang trái (Kh p t i a lùi14)
i m t chu i ti ng <C1, C2, …, Cn>, thu t toán Kh p t i a ti n s b t u
ti ng C1 Tr c tiên C1 s c ki m tra có ph i là m t t hay không, sau ó C2
c ghép vào C1 và ki m tra xem s ph i h p c a hai ti ng C1C2 có t o thành thay không,… N u vi c thêm vào m t ti ng m i Ci không t o thành t h p l thìxem nh ã tách c m t t và chuy n sang t m i v i ti ng b t u là ti ng Ci.Quá trình c ti p t c nh v y cho n h t câu
Cách tách t này d dàng cho ra k t qu úng v i nh ng câu nh : “Tôi |làm vi c | | h p tác xã | mua bán” nh ng s ph m sai l m v i m t s tr ng h p
c bi t nh “h c sinh | h c sinh | h c”, “ m t | ông | quan tài | gi i,…
K J Chen [CL92] ã a ra m t c i ti n cho ph ng pháp này Ý t ngchính là tìm ra nh ng n g m 3 t v i s ti ng t ng c ng là t i a Bình th ng,thu t toán này ho t ng nh d ng nguyên b n ã nêu trên Khi g p nh p nh ng(có nhi u cách nhóm các ti ng t o thành các t khác nhau) thu t toán s xemxét các ti ng k ti p tìm ra t t c các cách tách t t o thành t ng n 3 t khácnhau Cách nào có nhi u ti ng nh t s c ch n làm l i gi i kh nh p nh ng.Theo các th nghi m c a tác gi , ph ng pháp này t chính xác kho ng96.7%
Ph ng pháp này có th dùng tách t m Lúc ó, v i m i cách k t h p
ti ng không t o thành t h p l , h th ng s không b qua ngay mà s dùng t p
11 Maximal matching - MM 12
Weighted finite-state Transducer - WFST 13
Forward maximal matching - FMM