1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài toán tìm kiếm văn bản sử dụng giải thuật di truyền

116 410 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 116
Dung lượng 2,63 MB

Nội dung

TRこNG AI HぃC KHOA HぃC Tで NHI ÊN KHOA CÔNG NGH゛ THÔNG TI N Dく MÔN CÔNG NGH゛ TRI THたC Châu Hi Duy - 0112005 CÁCH TI蔭P C一N D衛A TRÊN NG頴 LI烏U CHO KI韻M L姥I CHÍNH T謂 TI蔭NG VI烏T KHÓA LU一N C盈 NHÂN TIN H窺C GIÁO VIÊN H姶閏NG D郁N TS. Ainh Ak隠n NI ÊN KHÓA 2001 – 2005 N運i c違m 挨n  &  A亥u tiên em xin t臼 lòng bi院t 挨n sâu s逸c 8院n th亥y Ainh Ak隠n, ng逢運i 8ã t壱n tình giúp 8叡, tr詠c ti院p h逢噂ng d磯n và truy隠n 8衣t nhi隠u kinh nghi羽m quý báu 8吋 em có th吋 th詠c hi羽n và hoàn thành 8隠 tài này. Em xin chân thành c違m 挨n các th亥y cô thu瓜c khoa Công ngh羽 Thông tin, tr逢運ng A衣i h丑c Khoa h丑c T詠 nhiên. Các th亥y cô 8ã t壱n tình d衣y d厩, truy隠n 8衣t cho em nhi隠u ki院n th泳c quý báu trong su嘘t nh英ng n<m A衣i h丑c 8吋 em có 8逢嬰c ngày hôm nay. Con xin g荏i l運i c違m 挨n sâu s逸c 8院n ông bà, cha m姻, nh英ng ng逢運i 8ã sinh thành và nuôi d逢叡ng con thành ng逢運i. Sau cùng tôi xin g荏i l運i c違m 挨n 8院n các b衣n trong nhóm VCL, 8員c bi羽t là d衣n V Th映y – ng逢運i 8ã t鰻ng h嬰p và cung c医p ng英 li羽u hu医n luy羽n 8吋 ch逢挨ng trình có th吋 ho衣t 8瓜ng. TP. H欝 Chí Minh, tháng 7 n<m 2005 Châu H違i Duy – 0112005 Nh壱n xét c栄a Giáo viên ph違n bi羽n Ch英 ký c栄a GVPB O映c l映c O荏"8亥u 1 Ch逢挨ng 1. V鰻ng quan 3 1.1. Ki吋m l厩i chính t違 c栄a ti院ng n逢噂c ngoài 4 1.1.1. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu 4 1.1.1.1. Ph逢挨ng pháp T瑛 ng英 c違nh 4 1.1.1.2. Ph逢挨ng pháp A員c tr逢ng lân c壱n 4 1.1.1.3. Ph逢挨ng pháp Danh sách quy院t 8鵜nh 5 1.1.2. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Á 6 1.1.2.1. Mô hình CInsunSpell cho ti院ng Hoa 6 1.1.2.2. Ph逢挨ng pháp c栄a Nagata cho ti院ng Nh壱t 7 1.1.3. Aánh giá chung v隠 các mô hình trên 9 1.2. Ki吋m l厩i chính t違 ti院ng Vi羽t 10 1.2.1. Ch逢挨ng trì nh Vie tSpel l 10 1.2.2. Ki吋m l厩i chính t違 d詠a vào phân tích cú pháp 11 1.2.3. Ki吋m l厩i chính t違 b茨ng mô hình l逢噂i t瑛 12 1.2.4. Word 2003 phiên b違n ti院ng Vi羽t 13 Ch逢挨ng 2. E挨 s荏 lý thuy院t 14 2.1. Chu育n chính t違 15 2.2. O瓜t s嘘 ki院n th泳c c挨 b違n v隠 chính t違 ti院ng Vi羽t 15 2.2.1. Các y院u t嘘 c栄a ti院ng và ch英 vi院t: 15 2.2.1.1. Âm 16 2.2.1.2. Ch英 cái 17 2.2.1.3. Thanh và d医u 17 2.2.1.4. Ti院ng hay âm ti院t 17 2.2.1.5. Hình v鵜 17 2.2.1.6. V瑛 18 2.2.2. Quy cách ghi d医u thanh trên ch英 vi院t 19 2.2.3. M院t qu違"8k隠u tra l厩i chính t違 19 2.2.3.1. X隠 thanh 8k羽u 19 2.2.3.2. X隠 âm 8亥u 20 2.2.3.3. X隠 âm chính 20 2.2.3.4. X隠 âm cu嘘i 20 2.2.4. Nguyên nhân 20 2.2.4.1. X隠 thanh 8k羽u 20 2.2.4.2. X隠 âm 8亥u 21 2.2.4.3. X隠 âm chính 21 2.2.4.4. X隠 âm cu嘘i 21 2.3. A員c 8k吋m chung c栄a m瓜t h羽 ki吋m l厩i chính t違 22 2.3.1. Các ch泳c n<ng chính 22 2.3.2. Các lo衣i l厩i chính t違 22 2.3.3. Nguyên nhân gây ra l厩i chính t違 23 2.3.4. Các sai l亥m c栄a trình ki吋m l厩i 24 2.4. E挨 s荏 tin h丑c 25 2.4.1. Lu壱t Bayes 25 2.4.2. Mô hình N-Gram t鰻ng quát 26 2.4.2.1. 姶噂c l逢嬰ng b茨ng N-Gram 26 2.4.2.2. Hu医n luy羽n N- Gram 28 2.4.2.3 . Làm m鵜n 29 2.4.3. Tách t瑛 30 2.4.3.1. Kh噂p t嘘i 8a 31 2.4.3.2. WFST 32 Ch逢挨ng 3. Mô hình 33 3.1. Mô hình t鰻ng quát 34 3.2. Ti隠n x穎 lý 37 3.2.1. Tách c映m ti院ng 37 3.2.2. Tách ti院ng 37 3.2.3. N丑c “nhi宇u” 38 3.2.3.1. Nh壱n di羽n ti院ng Anh 38 3.2.3.2. Nh壱n di羽n t瑛 vi院t t逸t 38 3.2.3.3. Nh壱n di羽n phiên âm 38 3.3. Ki吋m l厩i non-word 39 3.3.1. Phát hi羽n l厩i 39 3.3.2. U穎a l厩i 39 3.3.2.1. U穎a l厩i phát âm 39 3.3.2. 2. U穎a l厩i nh壱p li羽u 40 3.3.2.3. Các l厩i khác 43 3.4. Ki吋m l厩i real-word 43 3.4.1. Phát hi羽n l厩i b茨ng bigram 44 3.4.1.1. Ý t逢荏ng chính 44 3.4.1.2. M院t h嬰p v噂i trigram 45 3.4.1.3. Làm m鵜n 47 3.4.1.4. Heuristic h衣n ch院 l厩i tích c詠c 47 3.4.2. Phát hi羽n l厩i b茨ng FMM và n-gram 48 3.5. N壱p danh sách 泳ng viên s穎a l厩i 50 3.6. J丑c trong quá trình ki吋m l厩i 51 Ch逢挨ng 4. Cài 8員t th詠c nghi羽m 52 4.1. Cài 8員t 53 4.1.1. Chu育n hoá ti院ng 53 4.1.1.1. Mã hoá các ch英 cái 53 4.1.1.2. Mã hoá ti院ng 53 4.1.1.3. E医u trúc l噂p Tieng 55 4.1.2. Mã hoá t瑛 và n-gram 57 4.1.2.1. Mã hoá t瑛 57 4.1.2.2. Mã hoá n-gram 58 4.1.2.3. E医u trúc l噂p Tu 59 4.1.3. E医u trúc d英 li羽u cho các t瑛"8k吋n và các b瓜 n-gram 59 4.1.4. Phát sinh 泳ng viên 60 4.1.4.1. Phát sinh các ti院ng g亥n gi嘘ng 60 4.1.4.2. Phát sinh các t瑛 g亥n gi嘘ng 61 4.1.5. Ki吋m l厩i chính t違 64 4.1.5. 1. Dò tìm l厩i 64 4.1.5.2. U逸p x院p các 泳ng viên s穎a l厩i 66 4.1.5.3. J丑c trong quá trình ki吋m l厩i 66 4.1.6. Hu医n luy羽n 66 4.1.7. Tích h嬰p vào Word 69 4.1.8. Các x穎 lý khác . 70 4.1.8. 1. D違ng mã ti院ng Vi羽t 70 4.1.8.2. Linh tinh 70 4.1.9. Vài hình 違nh v隠 Ch逢挨ng trình 71 4.2. Th穎 nghi羽m và Aánh giá 73 4.2.1. Các tham s嘘 th穎 nghi羽m 73 4.2.2. M院t qu違 74 4.2.3. Nh壱n xét 79 4.2.4. So sánh v噂i VietSpell 80 4.2.4.1. Kh違 n<ng phát hi羽n l厩i 80 4.2.4.2. Kh違 n<ng 8隠 ngh鵜 s穎a l厩i 80 4.3. Aánh giá và K院t lu壱n 88 4.4. J逢噂ng phát tri吋n 89 Tài li羽u tham kh違o 90 Ph映 l映c 92 Danh sách hình Hình 1: Dò tìm l厩i b茨ng ma tr壱n ti院ng nh亥m l磯n 8 Hình 2: Mô hình t鰻ng quát 36 Hình 3: Bigram 8逢嬰c m荏 r瓜ng v隠 phía sau 47 Hình 4: Mã ti院ng 54 Hình 5: Mã t瑛 57 Hình 6: Mã n-g ram 58 Hình 7: S挨"8欝 ki吋m l厩i b茨ng FMM và n-gram 65 Hình 8: Quá trình ki吋m l厩i 71 Hình 9: Quá trình ki吋m l厩i hoàn t医t 72 Hình 10: K院t qu違 th穎 nghi羽m v噂i P_bi' = 5.33 75 Hình 11: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.95 76 Hình 12: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.73 77 Hình 13: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.59 78 Danh sách b違ng D違ng 1: Các thành ph亥n d宇 nh亥m l磯n khi phát âm 39 D違ng 2: Phím g嘘c và các phím lân c壱n 42 D違ng 3: K院t qu違 th穎 nghi羽m 74 Danh sách thu壱t toán Thu壱t toán 1: Phát sinh ti院ng 泳ng viên d詠a vào l厩i phát âm 40 Thu壱t toán 2: Phát hi羽n l厩i b茨ng bigram 45 Thu壱t toán 3: K院t h嬰p bigram và trigram 8吋 phát hi羽n l厩i 46 Thu壱t toán 4: Phát hi羽n l厩i b茨ng FMM và n-gram 49 Thu壱t toán 5: Phát sinh t瑛"泳ng viên 62 Thu壱t toán 6: Binary Search c違i ti院n 63 Thu壱t toán 7: Quá trình hu医n luy羽n 67 Thu壱t toán 8: Các b逢噂c t衣o n-gram trong giai 8q衣n hu医n luy羽n 68 Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t - 1 - O荏"8亥u A員t v医n 8隠 Là m瓜t ch英 vi院t ghi âm, ch英 vi院t ti院ng Vi羽t cng có r医t nhi隠u quy 8鵜nh v隠 cách k院t h嬰p t瑛ng ký t詠 c栄a b違ng ch英 cái v噂i nhau 8吋 t衣o thành nh英ng t瑛 có ngha, i丑i là chính t違. Vi羽c dùng 8úng chính t違 r医t quan tr丑ng, nh医t là trong các v<n b違n hành chính. M瓜t v<n b違n sai chính t違 có th吋 gây khó ch鵜u cho ng逢運i 8丑c, làm ng逢運i 8丑c không tin t逢荏ng vào trình 8瓜 c栄a chính ng逢運i 8ã t衣o ra v<n b違n 8ó. Nh逢ng quan tr丑ng h挨n h院t, vi羽c sai chính t違 có th吋 làm ng逢運i ti院p nh壱n hi吋u sai p瓜i dung c亥n truy隠n 8衣t. Tr逢噂c 8ây, vi羽c ki吋m l厩i chính t違 ph違i hoàn toàn d詠a vào s泳c ng逢運i. Tuy nhiên, xã h瓜i càng phát tri吋n, l逢嬰ng thông tin c亥n truy隠n 8衣t ngày càng nhi隠u, vi羽c ki吋m l厩i chính t違 “th栄 công” r医t m医t th運i gian và công s泳c. I亥n 8ây, cùng v噂i s詠 phát tri吋n nhanh chóng c栄a công ngh羽 thông tin, o衣ng l逢噂i hành chánh 8k羽n t穎 ngày càng 8逢嬰c m荏 r瓜ng và m瓜t nhu c亥u m噂i 8ang 8逢嬰c 8員t ra: làm sao 8吋 máy tính có th吋 thay th院 (m瓜t ph亥n hay toàn b瓜) cho con ng逢運i trong vi羽c ki吋m l厩i chính t違, hay nói cách khác là làm sao 8吋 xây d詠ng m瓜t ch逢挨ng trình b逸t l厩i chính t違 t詠"8瓜ng. Ngoài ra, hi羽n nay trong nhi隠u v<n b違n khoa h丑c c栄a ti院ng Vi羽t th逢運ng có dùng thêm ti院ng Anh 8吋 chú thích cho các thu壱t ng英 ho員c cho các t瑛 không th吋 f鵜ch sát ngha. Do 8ó, m瓜t ch逢挨ng trình ki吋m l厩i chính t違 t瑛"8瓜ng cho các v<n b違n có c違 ti院ng Vi羽t và ti院ng Anh là r医t c亥n thi院t. Thêm vào 8ó, vi羽c ki吋m l厩i chính t違 còn có th吋"8逢嬰c dùng trong giai 8q衣n ti隠n x穎 lý c栄a r医t nhi隠u bài toán khác v隠 x穎 lý ngôn ng英 t詠 nhiên, ví d映 nh逢: phân lo衣i v<n b違n, tóm t逸t v<n b違n, d鵜ch t詠"8瓜ng, nh壱n d衣ng ch英 vi院t, nh壱n d衣ng gi丑ng nói, … Tuy nhiên, trong khi bài toán ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu 8ã 8逢嬰c gi違i quy院t m瓜t cách khá tr丑n v姻n, vi羽c ki吋m l厩i chính t違 cho ti院ng Vi羽t l衣i [...]... l映c -2- Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t Ch[〔ng 1 V¬ng quan V瑛 nh英ng n . sách thu壱t toán Thu壱t toán 1: Phát sinh ti院ng 泳ng viên d詠a vào l厩i phát âm 40 Thu壱t toán 2: Phát hi羽n l厩i b茨ng bigram 45 Thu壱t toán 3: K院t h嬰p bigram và trigram 8吋 phát hi羽n l厩i 46 Thu壱t toán 4:. 60 c栄a th院 k益 XX, bài toán ki吋m l厩i chính t詠"8瓜ng b茨ng máy tính 8ã nh壱n 8逢嬰c s詠 quan tâm c栄a các nhà khoa h丑c. Cho 8院n nay, r医t nhi隠u thu壱t toán, mô hình 8吋 gi違i quy院t bài toán này 8ã 8逢嬰c. nhi隠u bài toán khác v隠 x穎 lý ngôn ng英 t詠 nhiên, ví d映 nh逢: phân lo衣i v<n b違n, tóm t逸t v<n b違n, d鵜ch t詠"8瓜ng, nh壱n d衣ng ch英 vi院t, nh壱n d衣ng gi丑ng nói, … Tuy nhiên, trong khi bài toán

Ngày đăng: 26/05/2014, 08:20

TỪ KHÓA LIÊN QUAN

w