1. Trang chủ
  2. » Luận Văn - Báo Cáo

cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

116 971 7
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cách Tiếp Cận Dựa Trên Ngữ Liệu Cho Kiểm Lỗi Chính Tả Tiếng Việt
Tác giả Châu Hồi Duy
Người hướng dẫn H.TS. Nguyễn Đình Nhân
Trường học Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại Khóa Luận
Năm xuất bản 2005
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 116
Dung lượng 2,63 MB

Nội dung

Luận văn, khóa luận, chuyên đề, tiểu luận, quản trị, khoa học, tự nhiên, kinh tế

Trang 1

KHÓA LU N C NHÂN TIN H C

NIÊN KHÓA 2001 – 2005

Trang 2

i c m n

Ñ&Ò

u tiên em xin t lòng bi t n sâu s c n th y inh n, ng i ã t ntình giúp , tr c ti p h ng d n và truy n t nhi u kinh nghi m quý báu em

có th th c hi n và hoàn thành tài này

Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin,

tr ng i h c Khoa h c T nhiên Các th y cô ã t n tình d y d , truy n t cho

em nhi u ki n th c quý báu trong su t nh ng n m i h c em có c ngàyhôm nay

Con xin g i l i c m n sâu s c n ông bà, cha m , nh ng ng i ã sinhthành và nuôi d ng con thành ng i

Sau cùng tôi xin g i l i c m n n các b n trong nhóm VCL, c bi t là

n V Th y – ng i ã t ng h p và cung c p ng li u hu n luy n ch ngtrình có th ho t ng

TP H Chí Minh, tháng 7 n m 2005

Châu H i Duy – 0112005

Trang 3

Nh n xét c a Giáo viên ph n bi n

Ch ký c a GVPB

Trang 4

c l c

u 1

Ch ng 1 ng quan 3

1.1 Ki m l i chính t c a ti ng n c ngoài 4

1.1.1 Ki m l i chính t cho các ngôn ng châu Âu 4

1.1.1.1 Ph ng pháp T ng c nh 4

1.1.1.2 Ph ng pháp c tr ng lân c n 4

1.1.1.3 Ph ng pháp Danh sách quy t nh 5

1.1.2 Ki m l i chính t cho các ngôn ng châu Á 6

1.1.2.1 Mô hình CInsunSpell cho ti ng Hoa 6

1.1.2.2 Ph ng pháp c a Nagata cho ti ng Nh t 7

1.1.3 ánh giá chung v các mô hình trên 9

1.2 Ki m l i chính t ti ng Vi t 10

1.2.1 Ch ng trình VietSpell 10

1.2.2 Ki m l i chính t d a vào phân tích cú pháp 11

1.2.3 Ki m l i chính t b ng mô hình l i t 12

1.2.4 Word 2003 phiên b n ti ng Vi t 13

Ch ng 2 s lý thuy t 14

2.1 Chu n chính t 15

2.2 t s ki n th c c b n v chính t ti ng Vi t 15

2.2.1 Các y u t c a ti ng và ch vi t: 15

2.2.1.1 Âm 16

2.2.1.2 Ch cái 17

2.2.1.3 Thanh và d u 17

2.2.1.4 Ti ng hay âm ti t 17

2.2.1.5 Hình v 17

Trang 5

2.2.2 Quy cách ghi d u thanh trên ch vi t 19

2.2.3 t qu u tra l i chính t 19

2.2.3.1 thanh u 19

2.2.3.2 âm u 20

2.2.3.3 âm chính 20

2.2.3.4 âm cu i 20

2.2.4 Nguyên nhân 20

2.2.4.1 thanh u 20

2.2.4.2 âm u 21

2.2.4.3 âm chính 21

2.2.4.4 âm cu i 21

2.3 c m chung c a m t h ki m l i chính t 22

2.3.1 Các ch c n ng chính 22

2.3.2 Các lo i l i chính t 22

2.3.3 Nguyên nhân gây ra l i chính t 23

2.3.4 Các sai l m c a trình ki m l i 24

2.4 s tin h c 25

2.4.1 Lu t Bayes 25

2.4.2 Mô hình N-Gram t ng quát 26

2.4.2.1 c l ng b ng N-Gram 26

2.4.2.2 Hu n luy n N-Gram 28

2.4.2.3 Làm m n 29

2.4.3 Tách t 30

2.4.3.1 Kh p t i a 31

2.4.3.2 WFST 32

Ch ng 3 Mô hình 33

3.1 Mô hình t ng quát 34

3.2 Ti n x lý 37

Trang 6

3.2.1 Tách c m ti ng 37

3.2.2 Tách ti ng 37

3.2.3 c “nhi u” 38

3.2.3.1 Nh n di n ti ng Anh 38

3.2.3.2 Nh n di n t vi t t t 38

3.2.3.3 Nh n di n phiên âm 38

3.3 Ki m l i non-word 39

3.3.1 Phát hi n l i 39

3.3.2 a l i 39

3.3.2.1 a l i phát âm 39

3.3.2.2 a l i nh p li u 40

3.3.2.3 Các l i khác 43

3.4 Ki m l i real-word 43

3.4.1 Phát hi n l i b ng bigram 44

3.4.1.1 Ý t ng chính 44

3.4.1.2 t h p v i trigram 45

3.4.1.3 Làm m n 47

3.4.1.4 Heuristic h n ch l i tích c c 47

3.4.2 Phát hi n l i b ng FMM và n-gram 48

3.5 p danh sách ng viên s a l i 50

3.6 c trong quá trình ki m l i 51

Ch ng 4 Cài t th c nghi m 52

4.1 Cài t 53

4.1.1 Chu n hoá ti ng 53

4.1.1.1 Mã hoá các ch cái 53

4.1.1.2 Mã hoá ti ng 53

4.1.1.3 u trúc l p Tieng 55

4.1.2 Mã hoá t và n-gram 57

Trang 7

4.1.2.1 Mã hoá t 57

4.1.2.2 Mã hoá n-gram 58

4.1.2.3 u trúc l p Tu 59

4.1.3 u trúc d li u cho các t n và các b n-gram 59

4.1.4 Phát sinh ng viên 60

4.1.4.1 Phát sinh các ti ng g n gi ng 60

4.1.4.2 Phát sinh các t g n gi ng 61

4.1.5 Ki m l i chính t 64

4.1.5.1 Dò tìm l i 64

4.1.5.2 p x p các ng viên s a l i 66

4.1.5.3 c trong quá trình ki m l i 66

4.1.6 Hu n luy n 66

4.1.7 Tích h p vào Word 69

4.1.8 Các x lý khác 70

4.1.8.1 ng mã ti ng Vi t 70

4.1.8.2 Linh tinh 70

4.1.9 Vài hình nh v Ch ng trình 71

4.2 Th nghi m và ánh giá 73

4.2.1 Các tham s th nghi m 73

4.2.2 t qu 74

4.2.3 Nh n xét 79

4.2.4 So sánh v i VietSpell 80

4.2.4.1 Kh n ng phát hi n l i 80

4.2.4.2 Kh n ng ngh s a l i 80

4.3 ánh giá và K t lu n 88

4.4 ng phát tri n 89

Tài li u tham kh o 90

Ph l c 92

Trang 8

Danh sách hình

Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n 8

Hình 2: Mô hình t ng quát 36

Hình 3: Bigram c m r ng v phía sau 47

Hình 4: Mã ti ng 54

Hình 5: Mã t 57

Hình 6: Mã n-gram 58

Hình 7: S ki m l i b ng FMM và n-gram 65

Hình 8: Quá trình ki m l i 71

Hình 9: Quá trình ki m l i hoàn t t 72

Hình 10: K t qu th nghi m v i P_bi' = 5.33 75

Hình 11: K t qu th nghi m v i P_bi' = 4.95 76

Hình 12: K t qu th nghi m v i P_bi' = 4.73 77

Hình 13: K t qu th nghi m v i P_bi' = 4.59 78

Trang 9

Danh sách b ng

ng 1: Các thành ph n d nh m l n khi phát âm 39

ng 2: Phím g c và các phím lân c n 42

ng 3: K t qu th nghi m 74

Danh sách thu t toán Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm 40

Thu t toán 2: Phát hi n l i b ng bigram 45

Thu t toán 3: K t h p bigram và trigram phát hi n l i 46

Thu t toán 4: Phát hi n l i b ng FMM và n-gram 49

Thu t toán 5: Phát sinh t ng viên 62

Thu t toán 6: Binary Search c i ti n 63

Thu t toán 7: Quá trình hu n luy n 67

Thu t toán 8: Các b c t o n-gram trong giai n hu n luy n 68

Trang 10

ng i c không tin t ng vào trình c a chính ng i ã t o ra v n b n ó.

Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng i ti p nh n hi u sai

i dung c n truy n t

Tr c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng i Tuynhiên, xã h i càng phát tri n, l ng thông tin c n truy n t ngày càng nhi u, vi c

ki m l i chính t “th công” r t m t th i gian và công s c

n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin,

ng l i hành chánh n t ngày càng c m r ng và m t nhu c u m i ang

c t ra: làm sao máy tính có th thay th (m t ph n hay toàn b ) cho con

ng i trong vi c ki m l i chính t , hay nói cách khác là làm sao xây d ng m t

Thêm vào ó, vi c ki m l i chính t còn có th c dùng trong giai n

ti n x lý c a r t nhi u bài toán khác v x lý ngôn ng t nhiên, ví d nh : phân

lo i v n b n, tóm t t v n b n, d ch t ng, nh n d ng ch vi t, nh n d ng gi ngnói, …

Tuy nhiên, trong khi bài toán ki m l i chính t cho các ngôn ng châu Âu

ã c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i

Trang 11

u k , ph c t p ho c òi h i nhi u không gian nh

Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h ng ti p c n chính

Mô hình n-gram có m t s u m, ó là không quá ph c t p trong x lý, và n u

c t ch c c u trúc d li u t t, l ng b nh chi m d ng là ch p nh n c.Trong mô hình c a tài này, n-gram c dùng làm ph ng ti n tính toán cácxác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dò tìm ra nh ng vùng b

i, và sau cùng a ra các ngh s a ch a cho ng i dùng l a ch n

c c lu n v n

Lu n v n này g m 4 ch ng v i n i dung chính nh sau:

• Ch ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th

Trang 12

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

nh ng n m 60 c a th k XX, bài toán ki m l i chính t ng b ngmáy tính ã nh n c s quan tâm c a các nhà khoa h c Cho n nay, r t nhi uthu t toán, mô hình gi i quy t bài toán này ã c công b , tuy nhiên h u h tchúng u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ngPháp,… còn ki m l i chính t cho các ngôn ng n l p c a châu Á nh ti ngHoa, ti ng Vi t,… ch m i b t u c nghiên c u g n ây

Hi n nay, v n ang c quan tâm nh t trong ki m l i chính t là ki m

i chính t c m ng c nh Khác v i các ph ng pháp ki m l i chính t truy n

th ng, v n xem xét các t m t cách c l p nhau và ch y u d a vào t n,trong ki m l i chính t c m ng c nh, quy t nh m t t có b sai chính t haykhông, h th ng ph i xét n các c tr ng xung quanh nó nh t lân c n, t lo i,

tr t t t ,… Do ó, ph ng pháp ki m l i c m ng c nh có th phát hi n c

nh ng l i sai v cách dùng t , t c là t v n không b sai chính t , nh ng tronghoàn c nh c a câu v n thì vi c dùng nó là không h p lý Tuy nhiên, i cùng v i

hi u qu cao là s khó kh n trong cách ti p c n

a vào lo i hình ngôn ng (bi n cách hay n l p), các ph ng pháp

ki m l i chính t có th c chia thành hai “tr ng phái” chính: ki m l i cho cácngôn ng châu Âu và ki m l i cho các ngôn ng châu Á

Ph n u c a ch ng này xin gi i thi u m t vài ph ng pháp ki m l ichính t ã c công b và ng d ng thành công trong th c t cho các ngôn ng

c ngoài Ph n cu i ch ng s m qua các công trình ã c công b cho

ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng

Trang 13

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

1.1 Ki m l i chính t c a ti ng n c ngoài

1.1.1 Ki m l i chính t cho các ngôn ng châu Âu

Nh ã nói trên, bài toán ki m l i chính t cho các ngôn ng châu Âu, nh t

là ti ng Anh, ã c tìm hi u t r t s m, v i nhi u mô hình, ph ng pháp khácnhau nh T ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuynhiên, ph ng pháp ki m l i chính t c m ng c nh nh n c nhi u nhà khoa

c quan tâm nh t do nó có nhi u u m so v i cách ki m l i ch d a vào tn

t trong nh ng u m i phân bi t m t t v i nh ng t nh p nh ng v i

nó là các t xung quanh nó trong câu Ví d , khi ang xem xét ch n l a gi a

dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert,

còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert Ph ngpháp T ng c nh c Golding xây d ng d a trên nh n xét này Trong giai n

c, v i m i t th ng b vi t sai chính t , h th ng s ghi nh nh ng t th ng

xu t hi n xung quanh nó trong ng li u Khi ch y th c t , v i m i t nghi ng , h

th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t làm tthay th

Ph ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung

nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm n tr t t c achúng Trong tr ng h p ó, các ph ng pháp c tr ng lân c n t ra r t thích

p rút ra các quy lu t v tr t t

1 Context words 2

Collocations

Trang 14

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

t c tr ng lân c n là m t m u các y u t v cú pháp xung quanh tang xét Có hai c tr ng th ng c s d ng trong ph ng pháp này, ó lànhãn t lo i và t lân c n

Ph ng pháp c tr ng lân c n c th c hi n theo cách th c t ng t v i

ph ng pháp T ng c nh Ý t ng chính ây là phân bi t nh ng t d b dùng

nh m l n v i nhau d a vào các c tr ng lân c n c a chúng M i c tr ng lân

n cung c p vài d u hi u v i kh n ng quy t nh3 khác nhau cho nh ng t trong

p nh m l n Nh ng d u hi u này c k t h p v i nhau và tính toán theo m t

lu t quy t nh (th ng là Bayes) Sau cùng, t nào có h p lý cao nh t s c

ch n

Tuy nhiên, ph ng pháp c tr ng lân c n c ng có nh c m, ó là khi

t t có các c tr ng mâu thu n ho c hàm ch a nhau, g i là xung t 4

ph ng pháp này ho t ng t t, các c tr ng xung t v i nhau c n c phát

hi n và lo i b Hi n nay, ngoài heuristic, v n ch a có m t ph ng pháp hoàn

ch nh gi i quy t v n này

Danh sách quy t nh là s k t h p c a T ng c nh và c tr ng lân c n

t n d ng u m c a c hai ph ng pháp này: T ng c nh s rút ra cácnguyên t c t t nh t theo cách c l p v i tr t t t , còn c tr ng lân c n cdùng rút ra các nguyên t c ph thu c vào tr t t

Ph ng pháp này òi h i ph i xây d ng m t danh sách r t l n các c

tr ng - ây là các t ng c nh và các c tr ng lân c n Nh ng c tr ng c

p x p theo kh n ng quy t nh gi m d n, trong ó kh n ng quy t nh c a m i

c tr ng ph n ánh tin c y c a nó trong vi c ra quy t nh M t t nh p nh ng

c phân lo i b ng cách duy t qua danh sách và so kh p t ng c tr ng v i

ng c nh c tr ng phù h p u tiên s c dùng phân lo i t ang xét

3 Strength

Trang 15

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Vì Danh sách quy t nh a ra l i gi i ch d a vào m t c tr ng m nh

nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác nh kh n ng quy t nhcho nh ng c tr ng ây chính là nh c m c a ph ng pháp này, b i vì vi ctìm ra m t công th c ánh giá t ng quát là r t khó

Do ó, Danh sách quy t nh có th c c i ti n b ng cách dùng nhi u c

tr ng h n Theo ó, l a ch n các t t t nh t, h th ng s duy t qua toàn bdanh sách c tr ng, so sánh t ng c tr ng v i ng c nh, r i k t h p chúng

a ra l i gi i sau cùng Vi c k t h p các c tr ng có th c th c hi n nh vào

t b phân lo i, ví d nh nh Bayes

1.1.2 Ki m l i chính t cho các ngôn ng châu Á

n ây, ki m l i chính t cho các ngôn ng châu Á ã c quan tâm và

t c m t s thành t u Không nh các ngôn ng châu Âu, vi c ki m l i chính cho các ngôn ng n l p c a châu Á g p nhi u khó kh n Nguyên nhân ch

u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… không

có ranh gi i t rõ ràng áp d ng nh ng mô hình ki m l i chính t c m ng

nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n c xác nh ranh gi i Vi c xác nh ranh gi i t ngay khi v n b n u vào là úng chính t ã làkhông n gi n V i v n b n u vào sai chính t , bài toán tách t càng khó kh nn

Do ó, các nhà ngôn ng h c – tin h c c a châu Á ã ra m t s mô hình

i cho ki m l i chính t Ph n này s m qua m t vài mô hình trong s ó

1.1.2.1 Mô hình CInsunSpell cho ti ng Hoa

Mô hình ki m l i này có tên là CInsunSpell [JX00] c xu t b i Li

Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph ng pháp c

ng Bayes và Phân ph i tr ng s t ng5, c dùng cho s a l i chính t ti ngHoa

5 Automatic Weight Distribution

Trang 16

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Trigram c dùng trong b c ki m l i Theo ó, m t “c a s ” trigramkích th c 5 c dùng ánh giá m i liên k t gi a các ti ng v i nhau C a strigram th c ra là m t chu i con, v i ti ng c n xét trung tâm, và 4 ti ng lân c n xung quanh (2 ti ng li n tr c và 2 ti ng li n sau) Ti ng trung tâm c xem làsai chính t khi hai liên k t tr c và sau nó u y u Liên k t c xem là y u khi

bi n chu i u vào thành chu i s a l i

Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i làkho ng 60%, t l l i tích c c kho ng 10% Hai giá tr này thay i tùy vào các

ng ng c dùng trong h th ng

Ph ng pháp c a Nagata [Na98] c áp d ng u tiên cho các h th ng

nh n d ng ch vi t (OCR) Tuy nhiên nó v n có th c dùng s a các l ichính t do con ng i gây ra

Ph ng pháp c a Masaaki g m hai giai n: Trong giai n th nh t, câu

nh p vào c chia thành nhi u chu i ti ng, v i u ki n m i chu i ti ng t othành m t t có trong t n ho c n gi ng v i ít nh t m t t nào ó trong t

n Trong giai n th hai, b ng các ph ng pháp th ng kê, n chu i t t t nh t

Trang 17

có th chia chu i u vào thành các chu i con m t cách h p lý, h

th ng dùng hai ph ng pháp, ó là Mô hình ngôn ng th ng kê và Thu t toánForward-DB Backward A* tách t

Ngôn ng th ng kê c dùng tính xác su t k t h p c a chu i con vàchu i nhãn t lo i Xác su t k t h p này th c ra là tích xác su t xu t hi n c achu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n Sau cùngThu t toán Forward-DB Backward A* [Na94] c dùng ánh giá các xác su t

lãm

m

p tác

p tác

Trang 18

1.1.3 ánh giá chung v các mô hình trên

Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t nh

ã c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ngPháp, ti ng Tây Ban Nha,… Tuy nhiên áp d ng các mô hình ó cho ti ng Vi t,

n b n u vào c n ph i c tách t b ng m t mô hình tách t m Mô hìnhtách t m không t t s làm gi m áng k hi u su t chung c a toàn h th ng Cho

n nay v n ch a có m t mô hình tách t m hoàn ch nh cho ti ng Vi t Ngoài ra,

u h t các ph ng pháp cho ti ng Anh u òi h i ng li u ã c gán nhãn t

lo i, trong khi n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này.Thêm vào ó, các ph ng pháp nh Danh sách quy t nh và Bayes òi h i h

th ng ph i th c hi n nhi u thao tác x lý khá ph c t p nh n ra t sai chính tnên c ng khó c áp d ng vào th c t Do ó chúng tôi ch xem nh ng mô hình

a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng

i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi ã dùng c a

Bigram và Trigram m c ti ng dò tìm ti ng sai chính t ó là cách ti p c n

t phù h p cho ti ng Vi t vì không c n ph i tách t Bên c nh ó, mô hình nàycòn có nh ng u m khác u m u tiên là tính n gi n trong cài t c ng

nh trong quá trình x lý u m th hai, c ng là c m quan tr ng nh t,CInsunSpell không òi h i kho ng li u hu n luy n ã c tách t hay gán nhãn

lo i mà ch c n m t kho ng li u úng chính t V i nh ng c m ó, vi c

áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành công trong th c t

Mô hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c ng

có th áp d ng ngay cho ti ng Vi t mà không c n s a i nhi u vì Nh t-Vi t u

là các ngôn ng n l p Tuy nhiên, c ng nh m t s mô hình dùng cho ti ng

Trang 19

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Anh, mô hình này c n có kho ng li u ã c tách t và gán nhãn t lo i, ó là

u ch a th áp ng c Bên c nh ó, vi c dò tìm ph ng án s a l i b ng ma

tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i ng u v i m t ththách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a

ng nên t p nh m l n khá l n Do ó, vi c áp d ng mô hình c a Maasaki cho

Nhìn chung, VietSpell là m t ch ng trình t t, b i vì ngoài vi c ki m l ichính t , nó còn có các ch c n ng h u ích cho ng i Vi t nh chuy n mã, b gõ,

nh ng ch c n ng ó không c xem xét ây Tuy nhiên, dùng nó m t cách

p pháp, khách hàng ph i tr ti n b n quy n u này không ph i ng i dùngnào c ng áp ng c

Trang 20

2003 Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch ng trình nh

ch n kh i sai, ôi khi làm h v n b n ngu n, a ra ngh s a l i m t cáchkhông h p lý, …

1.2.2 Ki m l i chính t d a vào phân tích cú pháp

m 1999, trong lu n v n t t nghi p i h c, Nguy n c H i và Nguy n

Ph m H nh Nhi [HN99] ã xu t mô hình ki m l i chính t ti ng Vi t b ng cáchphân tích cú pháp ây c xem là cách ti p c n d a trên lu t

Theo mô hình này, câu u vào s c h th ng ti n hành phân tích cúpháp b ng thu t toán Earley Nh ng ch không phân tích c s b xem là l ichính t Earley là m t thu t toán m nh cho phân tích cú pháp Tuy nhiên do có

ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n c cài t t t t ng

th i gian x lý

áp d ng Earley cho ti ng Vi t, câu u vào c n ph i c tách t trong

u ki n nó có th b sai chính t ó là khó kh n th nh t m khó kh n thhai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng

3000 lu t, trong khi ch ng trình ch t p h p c kho ng 700 lu t m khó

kh n ti p theo, ti ng Vi t là ngôn ng n l p, s ti ng l i ít, nên vi c ph i h pcác ti ng t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u

tr ng h p câu sai chính t nh ng v n phân tích cú pháp c ây là h n chchính c a ph ng pháp này

ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch ng trình ki m l ichính t VPCTTV Ch ng trình này có ph n hoàn ch nh h n [HN99] do có n

140 t lo i, 2000 lu n và t chính xác 95%

Trang 21

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Nhìn chung, ki m l i chính t b ng phân tích cú pháp r t có nhi u tri n

ng N u c nghiên c u và phát tri n hoàn ch nh, kh n ng ng d ng vào th c

s r t cao

1.2.3 Ki m l i chính t b ng mô hình l i t

m 2004, trong lu n v n t t nghi p c a mình, Nguy n Thái Ng c Duy[Duy04] ã trình bày mô hình l i t cho ki m l i chính t ti ng Vi t Mô hìnhnày ho t ng d a vào vi c tách t m , sau ó ánh giá các cách tách t khácnhau tìm ra cách tách t có v h p lý nh t làm câu s a l i Trong ó, l i t

th c ch t là m t c u trúc d li u c bi t, gi ng nh m t th th a có h ngkhông chu trình C u trúc d li u này giúp cho vi c tách t m và ánh giá cáccách tách t c d dàng và nhanh chóng, b i vì có th áp d ng các thu t toántìm ng i trên th v i nó

i t là m t mô hình m nh và ch t ch V lý thuy t, n u c cài t và

hu n luy n hoàn ch nh, thì hi u su t c a nó s r t kh quan

Tuy nhiên, mô hình này có m t nh c m r t khó kh c ph c, ó là v n bùng n t h p B i vì, ngay v i m t câu úng chính t , vi c tách t c ng không

n gi n, và th ng tìm c nhi u cách tách t khác nhau V i câu u vào là saichính t , vi c tách t m càng tr nên khó kh n do v i m i ti ng, h th ng ph iphát sinh các ti ng g n gi ng v i nó, r i xem xét các cách ph i h p c a nh ng

ti ng ó v i các ti ng lân c n nó trong câu, sau cùng m i ch n ra cách t t nh t

u này khi n cho ch ng trình ph i m t r t nhi u th i gian và không gian x

lý, nh t là v i nh ng câu dài

Bên c nh c u trúc l i t , mô hình c a Nguy n Thái Ng c Duy còn dùngn-gram c l ng các giá tr c n thi t Tuy nhiên, do ng li u hu n luy n ch a

t, vi c c l ng này ch a c chính xác Ngoài ra, cách t ch c d li u c a h

th ng có nhi u nh c m, khi n cho ch ng trình ph i t n r t nhi u không gian

nh l u tr các n-gram u này m t l n n a làm gi m tính th c t c a

ch ng trình

Trang 22

u n m 2005, MicroSoft ã phát hành ph n m m MS Word 2003 phiên

n ti ng Vi t dành riêng cho th tr ng Vi t Nam MS Word là ph n m m x lý

n b n c dùng ph bi n nh t hi n nay Vi t Nam và c trên th gi i

Trong phiên b n ti ng Vi t này, MS Word 203 ã c tích h p ch c n ng

mà có l nhi u ng i Vi t Nam ang r t quan tâm: ki m l i chính t cho v n b n

ti ng Vi t Tuy nhiên, không nh mong i, ch c n ng này ch c hoàn thành

Trang 23

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Tr c khi b t tay vào l a ch n mô hình và cài t các thu t toán, hi u rõ

nh ng v n lý thuy t c dùng trong tài là u r t c n thi t Ch ng nàyxin c trình bày các v n lý thuy t ó, g m hai ph n chính:

s lý thuy t ngôn ng h c: các khái ni m v ti ng, t , hình v ,… c a

ti ng Vi t, các quy t c chính t c b n, và k t qu u tra v các l i chính t

th ng g p TP HCM

s lý thuy t tin h c: trình bày v h ki m l i chính t t ng quát, mô

hình lý thuy t c áp d ng trong lu n v n: n-gram, cùng v i ph ng pháp c

ng Bayes tính toán các xác su t n-gram, và các mô hình tách t

Trang 24

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.1 Chu n chính t

Theo [LTT97] thì chu n chính t bao g m chu n vi t các âm (ph âm,nguyên âm, bán âm ), và các thanh, chu n vi t tên riêng (vi t hoa ), chu n vi tphiên âm t và thu t ng vay m n

Hi n nay, chu n vi t các âm và các thanh ti ng Vi t ã c xác nh theo

th ng ng âm cu ch vi t Chu n vi t hoa tuy ch a th t th ng nh t, nh ng xu

ng ang c ch p nh n là vi t hoa con ch u cu m i âm ti t thu c t tênriêng (Vi t Nam, H Xuân H ng …); n u tên riêng là c m t th hi n m t hay

n m t danh t chung và m t danh t riêng thì vi t hoa con ch u thu c âm ti t

u cu các danh t chung, còn danh t riêng vi t hoa theo quy nh Chu n vi tphiên âm t vay m n (ti ng n c ngoài ) ph c t p h n: ang t n t i 2 cách vi tphiên âm, ó là phiên âm âm ti t hoá (có g ch n i gi a các âm ti t cu t nh Lê-nin, Pa-ri …) và phiên âm t hoá (vi t li n âm ti t, tôn tr ng âm và ch theo hLatinh nh Paris, Canada, …)

2.2 M t s ki n th c c b n v chính t ti ng Vi t

Ch vi t là h th ng kí hi u b ng ng nét t ra ghi ti ng nói và có

nh ng quy t c, quy nh riêng Mu n vi t úng chính t ti ng Vi t, ta ph i tuântheo nh ng quy nh, quy t c ã c xác l p

Chính t là cách vi t ch c xem là chu n, t c vi t úng âm u, úng

n, úng d u (thanh), úng quy nh v vi t hoa, vi t t t, vi t thu t ng

Tr c khi nói v các quy cách, ta c n xác nh m t s ki n th c v chính t

ti ng Vi t

2.2.1 Các y u t c a ti ng và ch vi t:

Ti ng do nhi u âm k t l i mà thành Âm c chia làm nhi u lo i nh

Trang 25

Nguyên âm c t o do lu ng h i thoát ra t do, t c là không b c n m t

m nào Trong chính t , nguyên âm có th mang d u Ch Vi t có 11 nguyên âm

n là A, , Â, E, Ê, I, Y, O, Ô, U, , và 3 nguyên âm ôi là IÊ / YÊ / IA / YA ; / A ; UÔ / UA

Nguyên âm n có c m là gi nguyên ch trong khi vi t, tr khi vi t

Y Nguyên âm ôi không gi nguyên nguyên ch khi vi t Vi t IÊ, YÊ, , UÔkhi có âm cu i (liên, tuy t, h ng, muôn), vi t IA, YA, A, UA khi không có ph

âm cu i (hia, khuya, l a, mùa)

Ph âm

Ph âm c t o ra do lu ng h i b c n h ng, l i, r ng ho c môi Trongchính t , ph âm không mang d u Ch Vi t có 23 ph âm: B, C / K / Q, CH, D,, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X

Trang 26

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.2.1.2 Ch cái

Ch cái dùng ghi âm Theo quy nh v chính t trong sách giáo khoa

i cách giáo d c, b ng ch cái ti ng Vi t g m 33 con ch x p theo th t sau: A,, Â, B, C, D, , E, Ê, (F), G, H, I, (J), K, L, M, N, O, Ô, , P, Q, R, S, T, U, ,

V, (W), X, Y, (Z) Các ch cái trong ngo c n là F, J, W, Z ch dùng vi t tênriêng n c ngoài và thu t ng g c n c ngoài V y vi t “f ng”, “za” là sai chính

2.2.1.3 Thanh và d u

Thanh là hi n t ng nâng cao ho c h th p trong m t ti ng Ti ng Vi t có 6thanh (ngang, huy n, ngã, h i, s c, n ng) và c th hi n b ng 5 d u (thanhngang không có d u ghi)

2.2.1.4 Ti ng hay âm ti t

Ti ng do m t hay nhi u âm phát ra cùng m t lúc t o thành Ti ng có âm

u, v n và thanh V n có âm m, âm chính, âm cu i Ví d : “toàn” có ph âm

u T, âm m O, âm chính A, âm cu i N và thanh huy n

Trong các y u t t o thành ti ng, âm chính và thanh lúc nào c ng có Còn

âm u, âm m và âm cu i có th v ng m t.Ví d : à, , v.v…

Theo [Dien04] thì ti ng là n v c b n trong ti ng Vi t, khái ni m “ti ng”

ã có t r t lâu ã có t r t lâu và c ng i b n ng s d ng tr c khi hi u và

Trang 27

Vi t và t Hán Vi t.

n: là t ch g m m t ti ng VD: ch , anh, nhà, … ghép: là t c t o thành t nhi u ti ng, gi a các ti ng có m i quan h

ng ngh a Tùy theo m i quan h ó, t ghép l i c chia thành:

• ghép ng l p: các ti ng trong t có m i quan h bình ng v inhau v ý ngh a Có th các ti ng u rõ ngh a ( n , nhà c a, bàn

gh ,…) nh ng c ng có khi ti ng không rõ ngh a (ch búa, giá ,…)

• ghép chính ph : là t ghép mà ti ng này ph thu c vào ti ng kia.Thành t ph có nhi m v phân lo i, chuyên bi t hoá cho thành tchính VD: tàu ho , ng s t, sân bay,…

láy: là t có các ti ng c t h p trên c s hoà ph i ng âm Thành

ph n ng âm có th c l p l i (g i là p) ho c c bi n i (g i là i)

Ngoài ra, theo [Dien04], ti ng Vi t còn có m t lo i t là t Ng u h p ây

là nh ng t mà ng i b n ng hi n nay không tìm th y m i quan h gì v ng âmhay ng ngh a gi a các ti ng c u t o nên chúng VD: b câu, b hòn, sao su, hysinh, kinh t ,…

Trang 28

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.2.2 Quy cách ghi d u thanh trên ch vi t

Khi b d u thanh theo khoa h c, ta ph i tuân theo 4 quy cách sau ây

u ch ghi trên ho c d i nguyên âm, không ghi trên ho c d i ph âm

Ví d : láng, b nh, mình ( úng)

u ch ghi trên ho c d i nguyên âm (âm chính), không ghi trên ho c

i âm m Ví d : hoà, thu , qu , thu ( úng); hòa, lóe, qúi, th y (sai)

u ch ghi trên ho c d i nguyên âm (âm chính), không ghi trên ho c

i bán âm cu i Ví d : sáu, táo, mái, l y ( úng); saú, taó, maí, la (sai)

i v i nguyên âm ôi:

• Khi nguyên âm ôi ng cu i t , ta ghi d u trên ho c d i nguyên

âm th nh t: mía, l a, n a

• Khi nguyên âm ôi ng gi a t , ta ghi d u trên ho c d i nguyên

âm th hai: li n, mu n, h ng

Ngoài ra, hi n nay v n có nhi u ng i thích dùng ki u b d u m thu t, t c

là b d u sao cho ti ng c cân i Theo cách này, m t s ti ng có v n ‘oa’,

‘oe’ c b d u trên âm ‘o’ VD: hòa, hòe,…

2.2.3 K t qu u tra l i chính t

Qua các b n u tra l i chính t trong nhà tr ng ph thông và trên các

ph ng ti n truy n thông TP HCM, [Hoa03] k t lu n các lo i l i sau ây x y ra

ph bi n nh t (ph n này ch c p n các l i chính t do phát âm sai)

Trang 29

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Ng i thành ph vi t l n l n m t s ch ghi các âm u sau ây: C / K, G /

Gh, Ng / Ngh, Ch / Tr, X / S, V / D / Gi / R, W / Hw / Ngw / Qu Trong s này,các l i v Ch / Tr, X / S, V / D / Gi ph bi n h n

c sinh và qu n chúng có th vi t l n l n ch ghi các âm chính trong 48

n sau ây: ai / ay / ây, ao / au / âu, m / âm, p / âp, iu / iêu / êu, im / iêm / êm /

em, ip / iêp / êp / ep, oi / ôi / i, om / ôm / m, op / ôp / p, ong / ông, oc / ôc, ui /uôi, um / uôm, up / (uôp), i / i, u / u, m / m, ( p) / p

dân thành ph có th vi t l n l n ch ghi các âm cu i trong 48 v n sauây: an / ang, at / ac, n / ng, t / c, ân / âng, ât / âc, en / eng, ên / ênh, êt / êch, in/ inh, it / ich, iên / iêng, iêt / iêc, n / ( ng), t / ( c), un / ung, ut / uc, uôn / uông,uôt / uôc, n / ng, t / c, n / ng, t / c

Nh v y ng i thành ph có kh n ng vi t sai chính t 33% s d u, trên50% s ch ghi âm u, 59% s v n trong ti ng Vi t

2.2.4 Nguyên nhân

Theo các nhà ng âm h c, ng i Vi t t Ngh An tr vào không phân bi t

c hai thanh h i, ngã Hay nói úng h n trong ph ng ng Trung và Nam,không có thanh ngã M t khác, s l ng ti ng mang hai thanh này khá l n (

1900 ti ng mang thanh h i, 900 ti ng mang thanh ngã) Do hai nguyên nhân trên,

i v d u r t th ng th y trên các v n b n mi n Nam nói chung, thành phnói riêng

Trang 30

i ng i có trình v n hoá ch a cao ho c do s ý, có th l n l n.

Có 2 nguyên nhân gây ra s l n l n trong 48 v n này Nguyên nhân utiên là s b t h p lý trong ch Qu c ng : nguyên âm / / l i c ghi b ng ch atrong các v n ay, au; các nguyên âm ôi l i c ghi b ng các d ng iê – yê – ia –

ya, – a, uô – ua (bia – khuya, biên – tuy n, l a – l ng, mua – muôn); âm

m /w/ c ghi b ng hai con ch u, o (ví d : hu , hoa) Nguyên nhân th hai làcách phát âm l n l n trong ph ng ng Nam B i v i các âm chính trong h tcác v n trên

Trang 31

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.3 c m chung c a m t h ki m l i chính t

2.3.1 Các ch c n ng chính

Nhìn chung, dù có th khác nhau v mô hình và ph ng pháp th c hi n, b t

h th ng ki m l i chính t nào c ng bao g m hai kh i ch c n ng chính:

• Kh i ki m l i: phát hi n nh ng vùng nghi ng có s hi n di n c a l ichính t

• Kh i s a l i: tìm các ng viên thay th cho t b l i b ng cách ch n ra

nh ng t trong cùng t p nh m l n v i t b l i và có v h p lý nh t.Thông th ng kh i ki m l i là quan tr ng và ph c t p nh t i v i cáctrình ki m l i dùng cho con ng i, kh i s a l i ch có ch c n ng h tr , các “g iý” c a kh i này giúp cho ng i dùng tìm ra t thay th m t cách nhanh chóng dokhông c n t n th i gian nh p li u

i real-word: là nh ng t có trong t n, nh ng trong ng c nh c a câu

n ho c n v n ang c xem xét thì nó là không h p lý Nh ng l i lo i này

t khó phát hi n do máy khó có th “hi u” c ý ngh a c a v n b n Nh ng l i

lo i này trong ti ng Vi t có th c chia thành hai lo i nh h n nh sau:

• i t ghép: là l i chính t x y ra t i m t ti ng hay nhi u ti ng c a

t t ghép VD: cô y làm th qu , ó là m t h c sinh su t s c,…

Trang 32

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Lo i l i này có th c phát hi n b ng các mô hình tách t m ,heuristic k t h p t n, ho c n-gram Vi c phát hi n lo i l i này có

2.3.3 Nguyên nhân gây ra l i chính t

Trong th c t , l i chính t c t o ra do hai nguyên nhân chính sau ây:

• Phát âm sai ây là lo i l i th ng g p nh t trong th c t , c hìnhthành do cách phát âm khác nhau c a nh ng a ph ng khác nhautrong n c VD: “s ” – “s ”, “ch m” – “tr m”, “lào” – “nào”,…

Nh ng l i này ph thu c vào n i sinh s ng c a ng i t o ra v n b nnên r t khó kh c ph c

ph thu c vào trình ngôn ng c a ng i t o ra v n b n

Trong tin h c, ngoài hai nguyên nhân ã nêu trên, còn có các nguyên nhânkhác, ó là:

• i nh p li u Là l i gây ra khi gõ nh m, gõ d ho c gõ thi u các ký trên bàn phím VD: “chào” – “nhào”, “nh ng” – “n ng”, “trang” –

“tragn”,… H u h t các l i lo i r t ít g p khi vi t tay Chúng ph

Trang 33

gi ng nhau, VD: ‘l’ và ‘1’, ‘+’ và ‘t’,… Còn v i nh n d ng ti ng nói,

i c phát sinh do cách phát âm c a ng i nói, ho c tách chu i âmthanh thành t ng t không úng (ch x y ra v i các ngôn ng bi ncách nh ti ng Anh) VD: “inside” – “in side”, “aboard” – “aboard”,… Nh ng l i này nhi u hay ít ph thu c vào kh n ng c a h

nh n d ng Và trong th c t , m t h nh n d ng hoàn ch nh không ththi u kh i ki m l i chính t , dù ch m c n gi n

2.3.4 Các sai l m c a trình ki m l i

Nhìn chung, ch ng trình ki m l i chính t nào c ng th ng ph m hai lo i

i sau ây:

• i tích c c: l i này x y ra khi ch ng trình nh m nh m m t t úngthành t sai chính t Lo i l i này không gây h u qu x u, nh ng nólàm ng i dùng m t m i và không tin t ng vào ch ng trình

• i tiêu c c: ây là lo i l i n ng nh t, ó là khi ch ng trình b sótcác l i chính t trong v n b n L i này càng nhi u càng làm gi m tính

Trang 34

| ( ) ( )

| (

B P

A B P A P B A

P A

P

1

)

| ( ) ( )

(

i A là bi n c có P(A)>0, v i m i giá tr k (k=1, 2, , n) ta có công th c

Bayes t ng quát nh sau:

k k

k

B A P B P

B A P B P A

B P

1

)

| ( ) (

)

| ( ) ( )

| (

Trong ó, P(B) c g i là xác su t bi t tr c hay xác su t tiên nghi m

(prior probability), P(A) c g i là xác su t c n tìm hay xác su t h u nghi m(posterior probability)

Trang 35

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.4.2 Mô hình N-Gram t ng quát

t n-gram là m t b các y u t (t , ti ng, nhãn t lo i,…) liên ti p trong

ng li u S y u t trong m t n-gram c g i là b c c a n-gram, thông th ng gram có b c t 1 t i 4 N-gram b c 1 c g i là unigram, b c 2 c g i làbigram, b c 3 c g i là trigram, b c 4 c g i là quadrigram, N-gram cdùng c l ng xác su t xu t hi n c a m t y u t d a vào các y u t xungquanh nó trong câu

n-Do ó, n-gram có th c áp d ng cho các h th ng tách t , gán nhãn t

lo i, ki m l i chính t , phát sinh câu ng u nhiên,…

Cho m t câu S g m n t : (w 1 , w 2 ,w n-1 ,w n ) Theo lý thuy t xác su t, xác

n n n

w w P

w w P w w P w w P w P

w P S P

1

1 1

1 1

2 1 3 1

2 1

1

)

| (

)

| ( )

| ( )

| ( ) (

) ( ) (

Tuy nhiên, ph ng pháp này khó c áp d ng trong th c t , b i vì vi ctính xác su t dây chuy n nh v y òi h i r t nhi u thông tin hu n luy n và tiêu t nkhá nhi u th i gian x lý

| ( 1−1 ≈ k k−1 k−2 kN−1

k

k w P w w w w w

P

i k là s th t c a t ang xét và N là b c c a n-gram.

Trang 36

w w P

w P S P

1

1 1

1

)

| (

) ( ) (

w P

w P w P w P w P

w P S P

1

3 2 1 1

)(

)()

()()(

)()(

| ( 1−1 ≈ n n−1

n

n w P w w w

n n n

w w P

w w P w w P w w P w P

w P S P

1

1

1 2

3 1 2 1 1

)

|(

)

|()

|()

|()(

)()(

7 Trong m t s tài li u, tính xác su t c a m t t theo n-gram, s t tr c nó c dùng là N Ngh a là

Trang 37

| ( 1n−1 ≈ n n−1 n−2

w P

Nh v y, xác su t c a câu S c tính theo trigram nh sau:

n n n

w w w P

w w P w w w P w w P w P

w P S P

1

2 1

1 1

2 3 1

2 1

1

)

|

| (

)

| ( )

| ( )

| ( ) (

) ( ) (

u ý

i v i nh ng t u câu, ta không th c l ng nó do không N-1 t

tr c nó Khi ó, ta có th thay P(w 1 ) b ng P(w 1 |<start>) Giá tr này chính là xác

su t t w 1 xu t hi n u câu

ng t nh v y, ta có th b sung vào công th c tính xác su t c a câu

giá tr P(<stop>|w n ), giá tr này cho bi t xác su t t w n xu t hi n cu i câu

2.4.2.2 Hu n luy n N-Gram

s d ng c, mô hình n-gram c n c cung c p nhi u thông tin vxác su t Các thông tin này c rút trích t m t kho ng li u cho tr c, g i làkho ng li u hu n luy n

N-gram c hu n luy n b ng cách m t n s và trung bình hoá nh sau:

)

(

)

( )

| (

1 1

1 1 1

1

− +

− +

− +

i N i

i i N i N

i i i

w w

C

w w w

C w

w w P

i bigram:

) (

) (

)

| (

1

1 1

i

w C

w w C w

w P

ng t nh v y cho trigram

Trang 38

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.4.2.3 Làm m n 8

Do hoàn toàn d a vào ng li u, ph ng pháp N-gram có m t nh c m,

ó là khi ng li u không s dày c c n thi t, các xác su t thu c s r t nh(th ng b ng 0) làm cho vi c tính toán không còn chính xác

i bigram, s t i t này x y ra khi C(w i-1 w i )=0 ho c th m chí C(w i-1 )=0.

)(

w w C

) (

1 )

| (

1

1 1

i

w C V

w w C w

w P

Ph ng pháp c ng h s 10

Trong th c t , ph ng pháp C ng 1 cho k t qu không h p lý, do d i góc nào ó, giá tr 1 ôi khi tr trên r t l n cho nh ng s ki n không h c quantâm n

Vì v y, thay vì c ng thêm 1 cho t s , ph ng pháp này c ng thêm m t giá

tr δ thích h p (0 < δ ≤ 1) Theo ó, xác su t P(w i |w i-1 ) c tính l i nh sau:

) ( ) (

) (

)

| (

1

1 1

i

w C V

w w C w

w P

δ δ

8 Smoothing 9

Add-one smoothing

Trang 39

) (

)

| (

1

1 1

i ML

w C

w w C w

w P

Ph ng pháp này s c l ng l i giá tr P(w i |w i-1 ) t P ML (w i |w i-1 ) c a

bigram b ng quy nh sau:

) ( ) 1 ( )

| ( )

| ( i i 1 ML i i 1 JM i

ng quát hoá cho n-gram:

) ]

1 ([

) 1 ( ) (

Trang 40

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Có m t s mô hình tách t ã c công b nh : Kh p t i a11,M ngchuy n d ch tr ng thái h u h n có tr ng s 12, Maximum Entropy, …

2.4.3.1 Kh p t i a

Thu t toán Kh p t i a nguyên b n a ra l i gi i b ng cách ch n ra cáchtách t v i các t dài nh t có th c khi duy t t trái sang ph i (Kh p t i a

ti n13) ho c duy t t ph i sang trái (Kh p t i a lùi14)

i m t chu i ti ng <C1, C2, …, Cn>, thu t toán Kh p t i a ti n s b t u

ti ng C1 Tr c tiên C1 s c ki m tra có ph i là m t t hay không, sau ó C2

c ghép vào C1 và ki m tra xem s ph i h p c a hai ti ng C1C2 có t o thành thay không,… N u vi c thêm vào m t ti ng m i Ci không t o thành t h p l thìxem nh ã tách c m t t và chuy n sang t m i v i ti ng b t u là ti ng Ci.Quá trình c ti p t c nh v y cho n h t câu

Cách tách t này d dàng cho ra k t qu úng v i nh ng câu nh : “Tôi |làm vi c | | h p tác xã | mua bán” nh ng s ph m sai l m v i m t s tr ng h p

c bi t nh “h c sinh | h c sinh | h c”, “ m t | ông | quan tài | gi i,…

K J Chen [CL92] ã a ra m t c i ti n cho ph ng pháp này Ý t ngchính là tìm ra nh ng n g m 3 t v i s ti ng t ng c ng là t i a Bình th ng,thu t toán này ho t ng nh d ng nguyên b n ã nêu trên Khi g p nh p nh ng(có nhi u cách nhóm các ti ng t o thành các t khác nhau) thu t toán s xemxét các ti ng k ti p tìm ra t t c các cách tách t t o thành t ng n 3 t khácnhau Cách nào có nhi u ti ng nh t s c ch n làm l i gi i kh nh p nh ng.Theo các th nghi m c a tác gi , ph ng pháp này t chính xác kho ng96.7%

Ph ng pháp này có th dùng tách t m Lúc ó, v i m i cách k t h p

ti ng không t o thành t h p l , h th ng s không b qua ngay mà s dùng t p

11 Maximal matching - MM 12

Weighted finite-state Transducer - WFST 13

Forward maximal matching - FMM

Ngày đăng: 04/08/2013, 15:54

HÌNH ẢNH LIÊN QUAN

Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 1 Dò tìm l i b ng ma tr n ti ng nh m l n (Trang 17)
Hình 2: Mô hình t ng quát - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 2 Mô hình t ng quát (Trang 45)
Hình 3: Bigram  c m  r ng v  phía sau - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 3 Bigram c m r ng v phía sau (Trang 56)
Hình 4: Mã ti ng - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 4 Mã ti ng (Trang 63)
Hình 5: Mã t - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 5 Mã t (Trang 66)
Hình 6: Mã n-gram - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 6 Mã n-gram (Trang 67)
Hình 7: S  ki m l i b ng FMM và n-gram - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 7 S ki m l i b ng FMM và n-gram (Trang 74)
Hình 8: Quá trình ki m l i - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 8 Quá trình ki m l i (Trang 80)
Hình 9: Quá trình ki m l i hoàn t t - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 9 Quá trình ki m l i hoàn t t (Trang 81)
Hình 10: K t qu  th  nghi m v i P_bi' = 5.33 - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 10 K t qu th nghi m v i P_bi' = 5.33 (Trang 84)
Hình 11: K t qu  th  nghi m v i P_bi' = 4.95 - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 11 K t qu th nghi m v i P_bi' = 4.95 (Trang 85)
Hình 13: K t qu  th  nghi m v i P_bi' = 4.59 - cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt
Hình 13 K t qu th nghi m v i P_bi' = 4.59 (Trang 87)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w