Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu
Trang 1TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN
MÔN CÔNG NGH TRI TH C
Trang 2TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN
MÔN CÔNG NGH TRI TH C
Trang 3Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ìnhã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trìnhth c hi n lu n v n.
Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này.
c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phépnh ng ch c ch n s không tránh kh i nh ng thi u sót Em kính mong nh n c s
m thông và t n tình ch b o c a quý Th y Cô và các b n.
TP H Chí Minh, tháng 7 n m 2005
Phan Qu c Lân – 0112267
Trang 4NH N XÉT C A GIÁO VIÊN HNG D N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên h ng d n
Th.S Ph m Ph m Tuy t Trinh
Trang 5NH N XÉT C A GIÁO VIÊN PH N BI N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên ph n bi n
Trang 6I NÓI U
Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a cácu thanh c ng nh d u c a các ký t u này giúp cho ti ng Vi t “thêm thanh, thêmu” Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ngVi t tr nên t n nhi u th i gian h n 1 v n khác, khi vi c s d ng Internet tr nênthông d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email Nh ng, cho nhi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lámail trên m ng h u nh không có d u Vi c phát tri n 1 công c giúp thêm d u ti ngVi t vào v n b n không d u là vi c r t c n thi t và thú v
tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m tng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mô hình mà ch ng trình áp d ng.
Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :
§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các công trình ã có liên quan n tài.
§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.
§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài tchính.
§ Ch ng 4 c th hóa mô hình cài t.
§ Ch ng 5 t ng k t và ra h ng phát tri n
Trang 9DANH M C HÌNH
Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad 12
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad 12
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 13
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn 14
Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn 14
Hình 4.1.1-15 : M t trang báo thanh niên 47
Hình 4.1.1-16 : li u c tách t trang báo Thanh niên 48
Hình 4.1.2-17: Giao di n chng trình Tách Câu 49
Hình 4.1.2-18: T vi t t t cung c p cho chng trình Tách Câu 49
Hình 4.1.2-19: N i dung file k t xu t c a chng trình Tách Câu 50
Hình 4.4.2-33: Giao di n chng trình chính thêm d u Clipboard 60
Hình 4.4.2-34: Test chng trình thêm d u Clipboard 61
Hình 5.2-35 : T p tin kho ng li u m u 69
Trang 10Chng 1. NG QUAN
Trang 11Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vàon b n không d u
Ch x lý các v n b n ti ng Vi t có mã Unicode.
Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanhng nh d u c a các ký t Vi c có d u thanh và d u c a ký t này làm phongphú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ngVi t.
u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8] Khi
lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m.
thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t Bài toán xácnh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhông có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n
n i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các tc phân cách b i kho ng tr ng u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t
Trang 12Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t cóu nào có d ng th hi n không d u nh v y Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó.
Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và“t i”.
Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, tan ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d uó ây chính là 2 bài toán c n gi i quy t chính c a mô hình.
1.1.3.ng gi i quy t
i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu caonh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h ncó tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] … H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2n c a bài toán này Ph ng pháp ch m i c áp d ng cho mô hình thêmu offine, nh ng có th c cài t gán d u online.
1.2 Gi i thi u các công trình ã có
AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t làcó nhu c u, và nhu c u này s ngày càng t ng cao Ch ng trình AMPad có
Trang 13Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng.
Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad
Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri ni Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net Ngoàich c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad cònlà 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad
Trang 14Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad
Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phítrên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t 1 ch c n ng n it c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng cóth ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n không d u thành cóu Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng thtrong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com c gi kín.
Trang 15Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn
Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn
VnMark [2] c tác gi Nguy n V n Toàn phát tri n Do tác gi ã làmth t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình.
Trang 16Chng 2. S LÝ THUY TTIN H C
Trang 17Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiêni v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m tti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t) n v “ti ng” i v i ng i Vi t là m tn v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng sng nó tr c khi hi u và s d ng khái ni m “t ”.
Trang 18Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.
Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh Thanh này xu thi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t Thanh là m t s c thái c a âm thanh các âmti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,th ng g i là ngang, h i, s c, huy n, ngã, n ng.
Trang 19Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng Và
ây c ng là c m n i b t c a ti ng Vi t.
2.1.2.1.Các quan ni m v t
Có 1 s nh ngh a n hình v t nh sau [1] :
- Theo L.Bloomfield, thì t là t hình thái t do nh nh
- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a có kh n ng c l p v cú pháp khi s d ng trong l
- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , cn d ng c l p, tái hi n t do trong l i nói xây d ng nên câu ây
ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.
Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ngi c ng nh n di n t :
nó ph i x p riêng trong t n.
2.1.2.2.Tiêu chí nh n di n “t ” ti ng Vi t
r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta cóth rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t
Trang 20Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ti ng Vi t [3] Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung.
2.1.2.2.1 Các tiêu chu n v hình th c
Tính cnh : tính v ng ch c v c u t o, không th chêm – xen cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhông c l p) Tính c l p còn c g i là kh n ng k t h p (t do – h nch )
Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ngch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,còn hình v thì không có tính ch t t lo i Quan h gi a các t là quan h cúpháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp.
2.1.2.2.2 Các tiêu chu n v n i dung
Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”
Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái
ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m.
Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì
y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.
Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhàVi t ng h c ch p nh n trong vi c xác nh t cách c a t Tiêu chu n nàyliên quan n tính thành ng và tính võ oán.
Trang 21Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
2.2 Tách t
Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t Các thu t toán tách t có th c phân lo i nhsau:
v a theo lu t Bao g m các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991).
- Mô hình kh p t i a Mô hình này c chia thành “Kh p t i a ti n và kh p t ia lùi” i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u.t t n không hoàn ch nh s gi m hi u su t c a thu t toán Tuy nhiên, dth y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn
c ti p t c phát tri n h ng ngày trong th i i ngày nay) Mô hình này tuthu c nhi u vào t n.
v Dùng th ng kê:
Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp
ng th ng kê Ng c nh càng r ng thì thu t toán càng ph c t p.
Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t.
v Cách khác:
u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hìnhngôn ng h c nh WFST, TBL Th i gian x lý các gi i pháp này tr nên áng k ,nh ng chính xác t c khá cao.
Trang 22Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khic áp d ng cho nh ng mô hình trên.
i ây là mô t 2 ph ng pháp tách t th ng s d ng :
2.2.1.Kh p t i a (LRMM – Left Right Max Matching)
Thu t toán so kh p t i a ho t ng nh tên c a chính nó Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t) Thu t toán c ápng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG Thu t toán này cónhi u bi n th khác nhau.
Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n Gi s cót chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2,…C3 Ta b t u t u chu i u tiên, ki m tra xem C1có ph i là t không,sau ó ki m tra xem C1C2có ph i là t hay không Ti p t c làm cho n khi tìmc t dài nh t T có v h p lý nh t là t dài nh t Ch n t ó, sau ó tìm ti pnh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.Ø ng ph c t p Quy t c c a d ng này là phân n có v h p lý nh t là n 3
v i chi u dài t i a Thu t toán b t u nh d ng n gi n N u phát hi n ranh ng cách tách t gây nh p nh ng (ví d C1là t và C1C2 ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C1ho c C1C2.
Ví d 2-2 : ta c nh ng n sau:- C1 C2 C3C4.
- C1C2 C3C4 C5
- C1C2 C3C4 C5C6
Chu i dài nh t s là chu i th ba V y t u tiên c a chu i th ba (C1C2) sc ch n Th c hi n l i các b c cho n khi c chu i t hoàn ch nh Cách này tc chính xác 99.69%.
Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n Mô hình này v an gi n, nh ng mang l i chính xác cao.
Trang 23Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
2.2.2.Mô hình m ng WFST và m ng n -ron
WFST ã c áp d ng tách t ti ng Trung Qu c Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u DùngWFST duy t qua câu c n xét Cách duy t có tr ng s l n nh t s là cách tách t
c ch n Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron kh nh p nh ng.
Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti tn trong [1] trang 99-104, hay trong [5])
t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi tt n m cu i câu M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu S m p m c a các d u câu này cth hi n qua các ví d sau:
Ví d 2-3:
1 The group included Dr J.M Freeman and T Boone Pickens Jr.
2 “This issue crosses party lines and crosses philosophical lines!” said Rep.John Rowland (R., Conn.).
3 It was due Friday 5 p.m Saturday would be too late.
4 She has an appointment at 5 p.m Saturday to get her car fixed.
Trang 24Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho tanh ng thông tin quan tr ng v vai trò c a d u trong câu Tuy nhiên, b ph n tách câun ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khich vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4 nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :
ng neural, TBL, Maximum Entropy.
2.3.1.Tách câu b ng Heristics.
Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , bph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t táchra các câu riêng bi t.
4 u ch m trong các tr ng h p khác nh s tài kho n, email(abcd@yahoo.com), d u ch m trong các a ch website (www.is-edu.hcmuns.edu.vn).
có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p.
1 u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d uch m và ký t ti p theo s là ch cái s c vi t hoa”.
2 Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr cvà ph n li n sau d u ch m phát hi n s có d u ch m th p phân.
Trang 25Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3 nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n.
4 Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t
1 It was due Friday 5p.m Saturday would be too late.
2 She has an appointment at 5 p.m Saturday to get her car fixed.
xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch mt câu hay không c ng là m t vi c không n gi n i v i máy Th m chí i v ing i mà trình ti ng Anh ch a v ng Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.
2.3.1.2 lý d u ch m trong ngo c.
Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trongn v n ang xét tìm d u óng t ng ng N u tìm th y, toàn b ph n trong ngo cc gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c N u không tìmth y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bìnhth ng.
Trang 26Chng 3. MÔ HÌNH CÀI T
Trang 27Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Trang 28Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3.1.1.1.2 Tách token
Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng tokent … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , ; “ @# $ … ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.
3.1.1.1.3.y ra các t không d u, chuy n thành t có d u
i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thôngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),
chuy n t không d u thành có d u.
Trang 29Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ví d 3-2:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy nthành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)
“Nh ng v n / / liên quan / tôi ngi / ng t nh / luy n ái / c /n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”
3.1.2.1.Mô hình thêm d u ti ng Vi t
n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:
Trang 30Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 3.1.2-8 :u th c hi n c a mô hình n-gram
Trang 31Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
c c n c nh n d ng danh t riêng.
Ví d 3-3:
Da Nang à à N ng.da nangà a n ng
Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.
3.1.2.1.2 Tách câu
n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cáchnhau b i các ký t nh “.”, “,”, “:”… tách thành các câu M i câu là m t n v xlý chính trong ch ng trình Vi c quy t nh câu là n v c b n là do nhi u khi ngh a
a câu s c quy t nh s l a ch n v d u trong câu.
3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu
File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t File t n này s ctrình bày k h n trong ph n sau.
n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ngp có th ánh d u c a các t trong câu T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t Tuy nhiên, do c n c vàop tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi um.
Ví d 3-4:
Câu c n gán d u = “Toc do truyen thong se tang cao”.
Trang 32Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:
- toc do = “t c ” 8.68- truyen = “truy n” 12.31- truyen thong = “truy n th ng” 12.31- thong tin = “thông tin” 7.24- tin = “tin” 7.33- se = “s ” 6.09- tang = “t ng” 7.43- cao = “cao” 6.95
Sau khi t h p các t ta sc 2 trng h p sau:
Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,791Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.702
8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79
8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _
t qu = “T c truy n thông tin s t ng cao.” 48,70
(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)
3.1.2.2.Mô hình hu n luy n
Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n
VNMarkDic.txt T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong
n b n ti ng Vi t Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trangwww.vnexpress.net.
Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n khôngnh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t u này giúpcho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t
Trang 33Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
tr nên chính xác h n Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào filen này.
Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r tn (x p x 10MB) u này khi n cho vi c tìm ki m s r t ch m gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a
n :
Heuristic này c mô t nh sau:
i d li u text t c l y t trangwww.vnexpress.net là C1.
i d li u text t c l y t trang www.vnexpress.net là b b h t d uthanh là C2.
d li u C1, tác gi s t o ra file VNMarkDicPre.txt File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.
Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2 Khi ó, tác gi s so sánh v i các d li u nguyên g c C1 Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.
thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file
VNMarkDicPre.txt t o t p tin VNMarkDic.txt.
3.2 Mô hình xu t
3.2.1.Mô hình
n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê cácm t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hìnhthêm d u t ng sau :
Trang 34Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 3.2-9:u th c hi n c a mô hình xu t
d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1 Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s
Trang 35Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs …), ach email (abc@gmail.com), a ch URL (http://mail.yahoo.com), s th pphân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào
a b c sau.
Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câut Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai skhi tách sai t có th ch p nh n c khi tách t không d u.
Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t
phân cách nhau b ng d u / )o “H c sinh / h c / sinh h c”
o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t oc câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có thch p nh n c trong 1 ph m vi nào ó.
Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c nvi t hoa ti ng u tiên là c.
Ví d 3-6:
Da Nang à à N ngDa nang à à N ngda nang à a n ng
3.2.1.3.Ch n t thích h p
i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 tkhông d u thành có d u Ngoài ra, t ng linh ho t và chính xác c a