1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu

70 661 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,85 MB

Nội dung

Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu

Trang 1

TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN

MÔN CÔNG NGH TRI TH C

Trang 2

TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN

MÔN CÔNG NGH TRI TH C

Trang 3

Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ìnhã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trìnhth c hi n lu n v n.

Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này.

c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phépnh ng ch c ch n s không tránh kh i nh ng thi u sót Em kính mong nh n c s

m thông và t n tình ch b o c a quý Th y Cô và các b n.

TP H Chí Minh, tháng 7 n m 2005

Phan Qu c Lân – 0112267

Trang 4

NH N XÉT C A GIÁO VIÊN HNG D N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên h ng d n

Th.S Ph m Ph m Tuy t Trinh

Trang 5

NH N XÉT C A GIÁO VIÊN PH N BI N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên ph n bi n

Trang 6

I NÓI U

Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a cácu thanh c ng nh d u c a các ký t u này giúp cho ti ng Vi t “thêm thanh, thêmu” Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ngVi t tr nên t n nhi u th i gian h n 1 v n khác, khi vi c s d ng Internet tr nênthông d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email Nh ng, cho nhi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lámail trên m ng h u nh không có d u Vi c phát tri n 1 công c giúp thêm d u ti ngVi t vào v n b n không d u là vi c r t c n thi t và thú v

tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m tng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mô hình mà ch ng trình áp d ng.

Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :

§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các công trình ã có liên quan n tài.

§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.

§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài tchính.

§ Ch ng 4 c th hóa mô hình cài t.

§ Ch ng 5 t ng k t và ra h ng phát tri n

Trang 9

DANH M C HÌNH

Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad 12

Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad 12

Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 13

Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn 14

Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn 14

Hình 4.1.1-15 : M t trang báo thanh niên 47

Hình 4.1.1-16 : li u c tách t trang báo Thanh niên 48

Hình 4.1.2-17: Giao di n chng trình Tách Câu 49

Hình 4.1.2-18: T vi t t t cung c p cho chng trình Tách Câu 49

Hình 4.1.2-19: N i dung file k t xu t c a chng trình Tách Câu 50

Hình 4.4.2-33: Giao di n chng trình chính thêm d u Clipboard 60

Hình 4.4.2-34: Test chng trình thêm d u Clipboard 61

Hình 5.2-35 : T p tin kho ng li u m u 69

Trang 10

Chng 1. NG QUAN

Trang 11

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vàon b n không d u

Ch x lý các v n b n ti ng Vi t có mã Unicode.

Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanhng nh d u c a các ký t Vi c có d u thanh và d u c a ký t này làm phongphú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ngVi t.

u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8] Khi

lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m.

thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t Bài toán xácnh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhông có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n

n i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các tc phân cách b i kho ng tr ng u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t

Trang 12

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t cóu nào có d ng th hi n không d u nh v y Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó.

Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và“t i”.

Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, tan ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d uó ây chính là 2 bài toán c n gi i quy t chính c a mô hình.

1.1.3.ng gi i quy t

i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu caonh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h ncó tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] … H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2n c a bài toán này Ph ng pháp ch m i c áp d ng cho mô hình thêmu offine, nh ng có th c cài t gán d u online.

1.2 Gi i thi u các công trình ã có

AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t làcó nhu c u, và nhu c u này s ngày càng t ng cao Ch ng trình AMPad có

Trang 13

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng.

Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad

Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri ni Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net Ngoàich c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad cònlà 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m

Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad

Trang 14

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad

Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phítrên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t 1 ch c n ng n it c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng cóth ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n không d u thành cóu Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng thtrong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com c gi kín.

Trang 15

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn

Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn

VnMark [2] c tác gi Nguy n V n Toàn phát tri n Do tác gi ã làmth t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình.

Trang 16

Chng 2. S LÝ THUY TTIN H C

Trang 17

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiêni v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m tti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t) n v “ti ng” i v i ng i Vi t là m tn v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng sng nó tr c khi hi u và s d ng khái ni m “t ”.

Trang 18

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.

Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh Thanh này xu thi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t Thanh là m t s c thái c a âm thanh các âmti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,th ng g i là ngang, h i, s c, huy n, ngã, n ng.

Trang 19

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng Và

ây c ng là c m n i b t c a ti ng Vi t.

2.1.2.1.Các quan ni m v t

Có 1 s nh ngh a n hình v t nh sau [1] :

- Theo L.Bloomfield, thì t là t hình thái t do nh nh

- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a có kh n ng c l p v cú pháp khi s d ng trong l

- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , cn d ng c l p, tái hi n t do trong l i nói xây d ng nên câu ây

ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.

Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ngi c ng nh n di n t :

nó ph i x p riêng trong t n.

2.1.2.2.Tiêu chí nh n di n “t ” ti ng Vi t

r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta cóth rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t

Trang 20

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ti ng Vi t [3] Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung.

2.1.2.2.1 Các tiêu chu n v hình th c

Tính cnh : tính v ng ch c v c u t o, không th chêm – xen cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhông c l p) Tính c l p còn c g i là kh n ng k t h p (t do – h nch )

Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ngch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,còn hình v thì không có tính ch t t lo i Quan h gi a các t là quan h cúpháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp.

2.1.2.2.2 Các tiêu chu n v n i dung

Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”

Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái

ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m.

Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì

y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.

Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhàVi t ng h c ch p nh n trong vi c xác nh t cách c a t Tiêu chu n nàyliên quan n tính thành ng và tính võ oán.

Trang 21

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

2.2 Tách t

Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t Các thu t toán tách t có th c phân lo i nhsau:

v a theo lu t Bao g m các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991).

- Mô hình kh p t i a Mô hình này c chia thành “Kh p t i a ti n và kh p t ia lùi” i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u.t t n không hoàn ch nh s gi m hi u su t c a thu t toán Tuy nhiên, dth y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn

c ti p t c phát tri n h ng ngày trong th i i ngày nay) Mô hình này tuthu c nhi u vào t n.

v Dùng th ng kê:

Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp

ng th ng kê Ng c nh càng r ng thì thu t toán càng ph c t p.

Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t.

v Cách khác:

u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hìnhngôn ng h c nh WFST, TBL Th i gian x lý các gi i pháp này tr nên áng k ,nh ng chính xác t c khá cao.

Trang 22

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khic áp d ng cho nh ng mô hình trên.

i ây là mô t 2 ph ng pháp tách t th ng s d ng :

2.2.1.Kh p t i a (LRMM – Left Right Max Matching)

Thu t toán so kh p t i a ho t ng nh tên c a chính nó Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t) Thu t toán c ápng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG Thu t toán này cónhi u bi n th khác nhau.

Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n Gi s cót chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2,…C3 Ta b t u t u chu i u tiên, ki m tra xem C1có ph i là t không,sau ó ki m tra xem C1C2có ph i là t hay không Ti p t c làm cho n khi tìmc t dài nh t T có v h p lý nh t là t dài nh t Ch n t ó, sau ó tìm ti pnh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.Ø ng ph c t p Quy t c c a d ng này là phân n có v h p lý nh t là n 3

v i chi u dài t i a Thu t toán b t u nh d ng n gi n N u phát hi n ranh ng cách tách t gây nh p nh ng (ví d C1là t và C1C2 ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C1ho c C1C2.

Ví d 2-2 : ta c nh ng n sau:- C1 C2 C3C4.

- C1C2 C3C4 C5

- C1C2 C3C4 C5C6

Chu i dài nh t s là chu i th ba V y t u tiên c a chu i th ba (C1C2) sc ch n Th c hi n l i các b c cho n khi c chu i t hoàn ch nh Cách này tc chính xác 99.69%.

Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n Mô hình này v an gi n, nh ng mang l i chính xác cao.

Trang 23

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

2.2.2.Mô hình m ng WFST và m ng n -ron

WFST ã c áp d ng tách t ti ng Trung Qu c Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u DùngWFST duy t qua câu c n xét Cách duy t có tr ng s l n nh t s là cách tách t

c ch n Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron kh nh p nh ng.

Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti tn trong [1] trang 99-104, hay trong [5])

t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi tt n m cu i câu M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu S m p m c a các d u câu này cth hi n qua các ví d sau:

Ví d 2-3:

1 The group included Dr J.M Freeman and T Boone Pickens Jr.

2 “This issue crosses party lines and crosses philosophical lines!” said Rep.John Rowland (R., Conn.).

3 It was due Friday 5 p.m Saturday would be too late.

4 She has an appointment at 5 p.m Saturday to get her car fixed.

Trang 24

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho tanh ng thông tin quan tr ng v vai trò c a d u trong câu Tuy nhiên, b ph n tách câun ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khich vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4 nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :

ng neural, TBL, Maximum Entropy.

2.3.1.Tách câu b ng Heristics.

Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , bph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t táchra các câu riêng bi t.

4 u ch m trong các tr ng h p khác nh s tài kho n, email(abcd@yahoo.com), d u ch m trong các a ch website (www.is-edu.hcmuns.edu.vn).

có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p.

1 u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d uch m và ký t ti p theo s là ch cái s c vi t hoa”.

2 Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr cvà ph n li n sau d u ch m phát hi n s có d u ch m th p phân.

Trang 25

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3 nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n.

4 Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t

1 It was due Friday 5p.m Saturday would be too late.

2 She has an appointment at 5 p.m Saturday to get her car fixed.

xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch mt câu hay không c ng là m t vi c không n gi n i v i máy Th m chí i v ing i mà trình ti ng Anh ch a v ng Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.

2.3.1.2 lý d u ch m trong ngo c.

Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trongn v n ang xét tìm d u óng t ng ng N u tìm th y, toàn b ph n trong ngo cc gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c N u không tìmth y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bìnhth ng.

Trang 26

Chng 3. MÔ HÌNH CÀI T

Trang 27

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Trang 28

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3.1.1.1.2 Tách token

Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng tokent … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , ; “ @# $ … ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.

3.1.1.1.3.y ra các t không d u, chuy n thành t có d u

i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thôngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),

chuy n t không d u thành có d u.

Trang 29

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Ví d 3-2:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy nthành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)

“Nh ng v n / / liên quan / tôi ngi / ng t nh / luy n ái / c /n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”

3.1.2.1.Mô hình thêm d u ti ng Vi t

n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:

Trang 30

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 3.1.2-8 :u th c hi n c a mô hình n-gram

Trang 31

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

c c n c nh n d ng danh t riêng.

Ví d 3-3:

Da Nang à à N ng.da nangà a n ng

Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.

3.1.2.1.2 Tách câu

n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cáchnhau b i các ký t nh “.”, “,”, “:”… tách thành các câu M i câu là m t n v xlý chính trong ch ng trình Vi c quy t nh câu là n v c b n là do nhi u khi ngh a

a câu s c quy t nh s l a ch n v d u trong câu.

3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu

File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t File t n này s ctrình bày k h n trong ph n sau.

n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ngp có th ánh d u c a các t trong câu T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t Tuy nhiên, do c n c vàop tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi um.

Ví d 3-4:

Câu c n gán d u = “Toc do truyen thong se tang cao”.

Trang 32

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:

- toc do = “t c ” 8.68- truyen = “truy n” 12.31- truyen thong = “truy n th ng” 12.31- thong tin = “thông tin” 7.24- tin = “tin” 7.33- se = “s ” 6.09- tang = “t ng” 7.43- cao = “cao” 6.95

Sau khi t h p các t ta sc 2 trng h p sau:

Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,791Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.702

8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79

8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _

t qu = “T c truy n thông tin s t ng cao.” 48,70

(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)

3.1.2.2.Mô hình hu n luy n

Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n

VNMarkDic.txt T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong

n b n ti ng Vi t Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trangwww.vnexpress.net.

Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n khôngnh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t u này giúpcho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t

Trang 33

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

tr nên chính xác h n Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào filen này.

Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r tn (x p x 10MB) u này khi n cho vi c tìm ki m s r t ch m gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a

n :

Heuristic này c mô t nh sau:

i d li u text t c l y t trangwww.vnexpress.net là C1.

i d li u text t c l y t trang www.vnexpress.net là b b h t d uthanh là C2.

d li u C1, tác gi s t o ra file VNMarkDicPre.txt File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.

Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2 Khi ó, tác gi s so sánh v i các d li u nguyên g c C1 Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.

thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file

VNMarkDicPre.txt t o t p tin VNMarkDic.txt.

3.2 Mô hình xu t

3.2.1.Mô hình

n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê cácm t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hìnhthêm d u t ng sau :

Trang 34

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 3.2-9:u th c hi n c a mô hình xu t

d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1 Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s

Trang 35

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs …), ach email (abc@gmail.com), a ch URL (http://mail.yahoo.com), s th pphân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào

a b c sau.

Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câut Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai skhi tách sai t có th ch p nh n c khi tách t không d u.

Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t

phân cách nhau b ng d u / )o “H c sinh / h c / sinh h c”

o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t oc câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có thch p nh n c trong 1 ph m vi nào ó.

Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c nvi t hoa ti ng u tiên là c.

Ví d 3-6:

Da Nang à à N ngDa nang à à N ngda nang à a n ng

3.2.1.3.Ch n t thích h p

i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 tkhông d u thành có d u Ngoài ra, t ng linh ho t và chính xác c a

Ngày đăng: 10/11/2012, 08:13

TỪ KHÓA LIÊN QUAN

w