Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 173 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
173
Dung lượng
826,14 KB
Nội dung
Luận văn Xây dựng chương trình bắt lỗi tả tiếng Việt Lời cảm ơn K H O A C N TT – Đ H K H TN Lời em xin chân thành cảm ơn thầy Đinh Điền, người trực tiếp hướng dẫn em hoàn thành luận văn Thầy người truyền thụ cho em nhiều kiến thức tin học ngôn ngữ học, giúp em có hiểu biết sâu ứng dụng có ý nghĩa vơ to lớn sống tin học —- vấn đề dịch máy Em xin chân thành cảm ơn thầy cô khoa Công nghệ thông tin tận tình bảo giúp đỡ cho em suốt thời gian em học đại học hỗ trợ em trình thực luận văn Con xin chân thành cảm ơn ba mẹ, anh người thân gia đình ni dạy, tạo điều kiện tốt cho học tập động viên thời gian thực luận văn Và cuối cùng, xin gởi lời cảm ơn đến tất bạn bè bạn nhóm VCL (Vietnamese Computational Linguistics), người giúp đỡ hỗ trợ q trình hồn thiện luận văn Tp Hồ Chí Minh, tháng năm 2004 Nguyễn Thái Ngọc Duy — 0012020 K H TN Mục lục – Cơ sở lý thuyết ngôn ngữ 2.1 Âm tiết 2.1.1 Nguyên âm phụ âm 2.1.2 Âm vị 2.1.3 Âm tiết 2.1.4 Phụ âm đầu 2.1.5 Vần 2.1.6 Thanh điệu 2.2 Từ 2.2.1 Định nghĩa từ 2.2.2 Đặc điểm từ 2.2.3 Các quan niệm hình vị từ tiếng Việt K H O A Mở đầu 1.1 Nội dung toán 1.2 Đặc điểm 1.3 Hướng giải 1.4 Bố cục luận văn C N TT Đ H Tóm tắt luận văn 10 11 12 14 15 16 16 17 18 19 23 25 30 32 32 36 37 MỤC LỤC Cơ sở tin học 3.1 Bắt lỗi tả 3.1.1 Phân loại lỗi tả 3.1.2 Phát lỗi tả 3.1.3 Các sai lầm trình bắt lỗi tả 3.1.4 Vấn đề chữ hoa, chữ thường 3.2 Lập danh sách từ đề nghị 3.2.1 Lỗi phát âm sai 3.2.2 Lỗi nhập sai 3.2.3 Các lỗi khác 3.3 Sắp xếp danh sách 3.3.1 Văn phạm ràng buộc 3.3.2 Mật độ quan niệm 3.4 Bắt lỗi tự động 3.4.1 Mơ hình TBL 3.4.2 Mơ hình Winnow 3.4.3 Mơ hình Danh sách định 3.4.4 Mơ hình Trigram Bayes 3.4.5 Mơ hình Bayes Danh sách định 3.5 Bắt lỗi tiếng châu Á 3.6 Tách từ 3.6.1 Khớp tối đa K H O A C N TT – Đ H Từ láy Chính tả tiếng Việt 2.4.1 Tổng quan chữ viết tiếng Việt 2.4.2 Chính tả tiếng Việt 2.4.3 Lỗi tả 38 39 39 41 45 46 47 47 49 49 50 51 52 53 54 55 55 56 59 59 62 65 66 67 68 69 71 K H TN 2.3 2.4 MỤC LỤC Mơ hình 4.1 Mơ hình chung 4.1.1 Tiền xử lý 4.1.2 Bắt lỗi non-word 4.1.3 Bắt lỗi real-word 4.2 Tiền xử lý 4.2.1 Tách token 4.2.2 Tách câu 4.2.3 Chuẩn hoá 4.2.4 Chữ viết hoa 4.2.5 Từ nước ngoài, từ viết tắt, ký hiệu 4.3 Bắt lỗi non-word 4.3.1 Tìm lỗi tả 4.3.2 Lập danh sách từ đề nghị 4.3.3 Sắp xếp danh sách từ đề nghị 4.4 Bắt lỗi real-word 4.4.1 Lưới từ 4.4.2 Tạo lưới từ 4.4.3 Mở rộng lưới từ — Phục hồi lỗi 4.4.4 Hoàn chỉnh lưới từ 4.4.5 Áp dụng mơ hình ngơn ngữ — Tách từ K H O A C N TT – Đ H 3.6.2 Mơ hình HMM 3.6.3 Mơ hình WFST mạng nơ-ron 3.6.4 Mơ hình Source-Channel cải tiến 3.6.5 Mơ hình TBL Tách từ mờ 3.7.1 Huấn luyện 72 73 73 75 76 77 79 80 82 82 82 83 83 85 85 87 87 88 88 88 96 96 96 99 100 103 103 K H TN 3.7 MỤC LỤC Cài đặt 5.1 Cấu trúc liệu 5.1.1 Lưu chuỗi 5.1.2 Từ điển 5.1.3 Câu 5.1.4 Lưới từ 5.1.5 Cách tách từ 5.1.6 Mơ hình ngơn ngữ 5.2 Tiền xử lý 5.2.1 Tách token 5.2.2 Tách câu 5.3 Lưới từ 5.3.1 Tạo lưới từ 5.3.2 Bổ sung lưới từ 5.3.3 Tìm cách tách từ tốt 5.3.4 Lỗi phát âm 5.3.5 Danh từ riêng 5.3.6 Lỗi bàn phím 5.4 Bắt lỗi tả 5.4.1 Separator 5.4.2 vspell-gtk K H O A C N TT – Đ H 4.4.6 Tìm lỗi tả 4.4.7 Lập danh sách từ đề nghị 4.4.8 Sắp xếp danh sách từ đề nghị 4.4.9 Các heuristic để cải thiện độ xác Huấn luyện 4.5.1 Huấn luyện mơ hình ngơn ngữ 106 106 107 107 111 112 120 122 122 123 124 124 125 125 126 126 126 126 126 132 132 135 136 137 137 142 142 K H TN 4.5 MỤC LỤC Đánh giá kết luận 6.1 Tóm tắt 6.2 Thử nghiệm 6.3 Đánh giá 6.4 Hướng phát triển C N TT 146 146 146 147 148 148 148 149 149 150 152 152 157 158 K H TN Đ H 5.6 Huấn luyện 5.5.1 Dữ liệu huấn luyện 5.5.2 Dữ liệu nguồn 5.5.3 Tiền xử lý ngữ liệu huấn luyện 5.5.4 Huấn luyện liệu Linh tinh 5.6.1 Xử lý bảng mã 5.6.2 So sánh chuỗi 5.6.3 Xử lý tiếng Việt – 5.5 Tài liệu tham khảo 160 Phụ lục 165 K H O A A Dữ liệu kiểm tra 165 K H TN Danh sách hình vẽ Cấu trúc âm tiết 4.1 4.2 4.3 4.4 4.5 Mơ hình chung Lưới từ câu “Học sinh học sinh học” Lưới từ mở rộng câu “Học sinh học sinh học” Lưới 2-từ câu “Học sinh học sinh học” Sơ đồ trạng thái phân tích cấu trúc tiếng 5.1 5.2 Quy tắc tách token dùng flex 127 Giao diện vspell-gtk 143 K H O A C N TT – Đ H 2.1 22 81 97 98 98 101 K H TN Danh sách bảng Bảng nguyên âm Bảng phụ âm bán nguyên âm cuối Bảng phụ âm đầu 42 43 43 4.1 4.2 Danh sách phím lân cận Kiểu gõ VNI-TELEX 91 92 6.1 6.2 Kết thử nghiệm tập liệu 155 Kết tập thử nghiệm liệu 156 K H O A C N TT – Đ H 2.1 2.2 2.3 K H TN Tóm tắt luận văn Đ H Vấn đề nghiên cứu Xây dựng chương trình bắt lỗi tả tiếng Việt nhằm phát đề nghị từ thay cho lỗi tả thường gặp Đề tài giới hạn bắt lỗi tả văn hành K H O A C N TT – Cách tiếp cận Sử dụng cách tiếp cận sau: Phát sinh câu có khả thay dựa nguyên nhân gây lỗi tả, sau sử dụng mơ hình ngơn ngữ dựa từ để xác định câu Dựa khác biệt câu gốc câu chọn, ta biết từ sai tả, cách viết tả Mơ hình sử dụng ngữ liệu thơ chưa tách từ, tự huấn luyện để phù hợp với mục đích mơ hình Mơ hình bắt lỗi tả theo hai giai đoạn Giai đoạn thứ tìm yêu cầu người dùng sửa lỗi tiếng (những tiếng không tồn tiếng Việt) Giai đoạn chủ yếu sửa lỗi sai nhập liệu từ bàn phím Giai đoạn hai dùng để bắt lỗi từ Tất cách tách từ có câu nhập vào xây dựng dựa lưới từ Sau lưới từ mở rộng để thêm vào câu nhờ áp dụng nguyên nhân gây lỗi tả, nhằm tạo câu từ câu sai tả Mơ hình ngơn ngữ áp dụng để đánh giá cách tách từ lưới từ chọn cách tách từ tốt Dựa vào cách tách từ câu gốc, ta xác định từ sai tả đưa từ đề nghị Một số heuristic áp dụng để hiệu chỉnh lưới từ nhằm tạo kết CHƯƠNG ĐÁNH GIÁ VÀ KẾT LUẬN 6.3 6.3 ĐÁNH GIÁ Đánh giá K H O A C N TT – Đ H K H TN So với phương pháp khác áp dụng để bắt lỗi tả tiếng Việt, phương pháp tiến hành cách có hệ thống, dựa ngữ liệu huấn luyện sẵn có (từ cơng trình Luận án Tiến sĩ Ngơn ngữ học TS Đinh Điền), bảo đảm tính xác hoạt động Phương pháp dùng [TPLT98] không khả thi chưa thực tách từ (dùng heuristic để đánh giá cách tách từ) Phương pháp dùng [TTCV02] sử dụng mơ hình Markov ẩn để tạo ngữ liệu tách từ từ ngữ liệu thơ, khơng bảo đảm tính xác ngữ liệu huấn luyện Phương pháp dùng chương trình bắt lỗi tả VietSpell tác giả Lưu Hà Xuyên sử dụng heuristic, khơng tách từ Tuy nhiên, chương trình có số hạn chế định Do sử dụng thông tin xác suất xuất chuỗi từ liên tục tách từ mở nên kết có phần hạn chế Trong nhiều trường hợp ta khử nhập nhằng từ loại, thông tin cú pháp, thông tin ngữ nghĩa Thông tin xác suất lẽ giải pháp bổ trợ cho thông tin Khi thông khơng hồn chỉnh, khơng bao qt hết khơng thể khử nhập nhằng tồn bộ, ta dùng thống kê giải pháp dự phịng Chính sử dụng ngram dựa từ, đơi chương trình chọn lầm cách tách từ, dẫn đến việc thơng báo từ sai tả từ hồn tồn Phần kiểm tra từ viết hoa vấn đề chưa thể giải trọn vẹn viết hoa quy cách đòi hỏi ta phải hiểu ý nghĩa từ viết hoa Điều thực 157 CHƯƠNG ĐÁNH GIÁ VÀ KẾT LUẬN 6.4 6.4 HƯỚNG PHÁT TRIỂN Hướng phát triển K H O A C N TT – Đ H K H TN Việc áp dụng mơ hình ngơn ngữ để bắt lỗi tả khơng phải lựa chọn Ta áp dụng mơ hình khác để bắt lỗi tả Tuy nhiên, phần đề cập đến hướng phát triển dự việc áp dụng mơ hình ngơn ngữ Việc nghĩ đến để cải thiện chất lượng bắt lỗi tả làm giàu nguồn tri thức sử dụng Trình bắt lỗi tả thời sử dụng liệu thô Đây yếu tố làm giảm chất lượng chương trình Ta sử dụng mơ hình ngơn ngữ dựa từ loại, đồng thời áp dụng mạng ngữ nghĩa thông tin cú pháp (được dùng phương pháp Mật độ ngữ nghĩa Văn phạm ràng buộc) Đây hướng phát triển lâu dài, địi hỏi nhiều cơng sức Ta cải thiện tốc độ cách cải tiến heuristic dùng để hiệu chỉnh lưới từ Hai heuristic quan trọng heuristic phân biệt từ gốc từ phát sinh, heuristic phân biệt từ phát sinh với (dựa vào ngữ cảnh từ gốc) Heuristic cải thiện cách rút trích thơng tin thực tế để biết từ thường phát sinh từ (nói cách khác, từ lỗi sai thông dùng từ nào) Heuristic phản ánh cách tìm lỗi tả người Ở việc đánh giá từ có khả sai tả dựa chuỗi ngram tiếng khơng phải giải pháp hồn hảo Ta cần tìm phương pháp khác nhằm phát từ có khả sai tả tốt Những giải pháp bắt lỗi tả cảm ngữ cảnh tiếng Anh khởi đầu để tìm cách giải Ngồi bắt lỗi tả cảm ngữ cảnh cách tiếp cận Vấn đề bắt lỗi tả cảm ngữ cảnh áp dụng cách tách từ biết trước, không thay đổi Hướng phát triển hiệu chỉnh để áp dụng bắt lỗi tả cảm ngữ cảnh lưới từ, thay cách tách từ cố định 158 CHƯƠNG ĐÁNH GIÁ VÀ KẾT LUẬN 6.4 HƯỚNG PHÁT TRIỂN K H O A C N TT – Đ H K H TN Một cách khác đơn giản áp dụng bắt lỗi tả cảm ngữ cảnh cách tách từ có lưới từ định lượng để phát lỗi Do số lượng cách tách từ lưới từ lớn, ta cần xét n cách tách từ tốt mà 159 K H TN Tài liệu tham khảo [Cha98] Chao-Huang Chang A new approach for automatic chinese spelling correction March 01 1998 Nguyễn Đức Hải Nguyễn Phạm Hải Nhi Phân tích cú pháp tiếng việt bắt lỗi tả Luận văn Cử nhân Tin học ĐH Khoa học Tự nhiên HCM, 1999 K H O A [cHN99] Jim Austin, Victoria J Hodge, and Yo Dd An evaluation of phonetic spell checkers November 21 2001 C N TT [AHD01] – Đ H [AGSV98] Eneko Agirre, Koldo Gojenola, Kepa Sarasola, and Atro Voutilainen Towards a single proposal in spelling correction COLING-ACL ’98, 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, pages 463–463, 1998 [CL92] K J Chen and S H Liu Word identification for madarin chinese sentences Proceedings of the Fifthteenth International Conference for Computational Linguistics, 1992 [Dam64] F J Damerau A technique for computer detection and correction of spelling errors Communications of the Association for Computing Machinery, 7(3):171–176, 1964 160 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO Dinh Dien, Hoang Kiem, and Nguyen Van Toan Vietnamese word segmentation NLPRS, 11 2001 [GLH03] Jianfeng Gao, Mu Li, and Chang-Ning Huang Improved source-channel models for chinese word segmentation 2003 [Gol95] Andrew R Golding A bayesian hybrid method for contextsensitive spelling correction Proceedings of the Third Workshop on Very Large Corpora, pages 39–53, 1995 [GR99] Andrew R Golding and Dan Roth A winnow-based approach to context-sensitive correction Machine Learning, Special issue on Machine Learning and Natural Language Processing, 34:107–130, 1999 [GS96] Andrew R Golding and Yves Schabes Combining trigrambased and feature-based methods for context-sensitive spelling correction Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, 1996 C N TT TS Lê Trung Hoa Lỗi tả cách khắc phục NXB Khoa học Xã hội, 2002 K H O A [Hoa02] – Đ H K H TN [DKT01] [iiND03] Đinh Điền, Nguyễn Thống Nhất, Nguyễn Thái Ngọc Duy Cách tiếp cận thống kê cho hệ dịch tự động việt-anh Tạp chí phát triển KHCN, 6:27–33, 2003 [Knu73] D E Knuth The Art of Computer Programming Vol 3: Sorting and Searching Addison Wesley, 1973 [KSM97] Theppitak Karoonboonyanan, Virach Sornlertlamvanich, and Surapant Meknavin A thai soundex system for spelling correc161 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO tion Proceedings of the National Language Processing Pacific Rim Symposium, 1997 K H TN [LVHA94] F Larlsson, A Voutilainen, J Heikkila, and A Anttila Constraint Grammar: a Language-Independant System for Parsing Unrestricted text Berlin and New York: Mouton de Gruyter, 1994 Lidia Mangu and Eric Brill Automatic rule acquisition for spelling correction 1997 [McI82] M Douglas McIlroy Development of a spelling list IEEE Transactions on Communications, COM-30(1.1):91–99, 1982 [Ofl96] Kemal Oflazer Error-tolerant finite-state recognition with applications to morphological analysis and spelling correction CL, 22(1):73–89, 1996 [Pal97] David Palmer A trainable rule-based algorithm for word segmentation Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, 1997 James Lyle Peterson Computer programs for detecting and correcting spelling errors Communications of the Association of Computing Machinery, 23(12):676–687, 1980 K H O A [Pet80a] C N TT – Đ H [MB97] [Pet80b] James Lyle Peterson Computer Programs For Spelling Correction Springer-Verlag, Inc., Berlin, Germany / Heidelberg, Germany / London, UK / etc., 1980 162 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO Fuchun Peng and Dale Schuurmans Self-supervised Chinese word segmentation Lecture Notes in Computer Science, 2189:238–242, 2001 [PSG99] A Pratt, Padhraic Smyth, and Xianping Ge Discovering chinese words from unsegmented text August 22 1999 [Rav96] Mosur K Ravishankar Efficient Algorithms for Speech Recognition PhD thesis, Carnegie Mellon University, 1996 K H TN [PS01] Đ H [RMBB89] R Rada, H Mili, E Bicknell, and M Blettner Development an application of a metric on semantic nets IEEE Transactions on Systems, Man and Cybernetics, 19(1):17–30, 1989 [Sto02] Andreas Stolcke Srilm - an extensible language modeling toolkit Proc Intl Conf Spoken Language Processing, Denver, Colorado, 2002 Nguyễn Văn Toàn Nguyễn Thị Minh Hằng Tách từ tiếng việt Luận văn Cử nhân Tin học ĐH Khoa học Tự nhiên HCM, 2001 K H O A [TH01] C N TT – [SSGC96] Richard W Sproat, Chilin Shih, William Gale, and Nancy Chang A stochastic finite-state word-segmentation algorithm for Chinese CL, 22(3):377–404, 1996 [TND03] Nguyễn Văn Tồn, Văn Chí Nam, Nguyễn Thái Ngọc Duy Xây dựng WordNet tiếng việt Hội thảo quốc gia lần Một số vấn đề CNTT, truyền thông, chủ để xử lý ngôn ngữ, 2003 [TPLT98] PTS Phan Thị Tươi, KS Nguyễn Hứa Phùng, KS Huỳnh Vụ Như Liên, KS Phạm Quyết Thắng Bắt lỗi tả tự 163 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO động cho tiếng việt máy tính Đề tài nghiên cứu khoa học Sở Khoa học Công nghệ Môi trường, 1998 K H TN [TTCV02] Nguyễn Phương Thái, Nguyễn Quốc Toản, Lê Văn Cường, Nguyễn Văn Vinh Kiểm lỗi tả tiếng việt sử dụng danh sách định 2002 K H O A C N TT – Đ H [WGLL00] Hai-Feng Wang, Jianfeng Gao, Kai-Fu Lee, and Mingjing Li Li A unified approach to statistical language modeling for chinese June 2000 164 H Dữ liệu kiểm tra K H TN Phụ lục A K H O A C N TT – Đ Thị Kính khơng thể giải bày nỗi oan Mọi người phải nỗ lực lao động Bà cụ bị lảng tai Trong phòng họp, người nói chuyện se Chiếc tủ nặng, nhiều người khiêng, trở nên nhẹ Cần chăm số kĩ mồ mả ông bà Con cãi cha mẹ, trăm đường hư Con anh Triều học lớp vỡ lịng Có vợ lẽ điều khơng tốt Cơng việc lỡ dỡ Bị ép rước khách, Kiều tự Khi khỏi bệnh, nên cữ ăn Bị bắt tang gian lận, thí sinh bẽ mặt Khơng uống nước lã Chiếc thuyền chìm Lũ lớn Chiếc chõng tre đặt gốc dừa Ăn cỗ trước, lội nước sau Mải học, khơng hay tơi bước vào Vác nặng, người cơng nhân ướt đẫm mồ hôi Mảnh vải lỡ cỡ, may áo thừa, may quần thiếu 165 (giải,giãi) (nỗ,nổ) (lảng,lãng) (se sẽ,se sẻ) (bỗng,bổng) (mả,mã) (cãi,cải) (vỡ,vở) (lẽ,lẻ) (lỡ dỡ,lở dở) (vẫn,vẩn) (cữ,cử) (bẽ,bẻ) (lã,lả) (nghỉm,nghĩm) (lũ,lủ) (chõng,chỏng) (cỗ,cổ) (mải,mãi) (đẫm,đẩm) (lỡ cỡ,lở cở) PHỤ LỤC A DỮ LIỆU KIỂM TRA K H O A C N TT – Đ H K H TN Cháu bé uống sữa (sữa,sửa) Học sinh ngả mũ chào thầy giáo (ngả,ngã) Trong nhà chưa tỏ, ngõ hay (ngõ,ngỏ) Sinh viên bãi khố, học sinh biểu tình (bãi,bải) Câu văn cịn lủng củng (lủng củng,lũng cũng) Nó bền bỉ theo đuổi ước mơ (bỉ,bĩ) Lan niềm nở tiếp bạn (nở,nỡ) Từ giã quê hương, tác giả luôn nhớ đến sơng (giã,giả) Đến ngã bảy, khơng biết theo ngả (ngã,ngả) Nhà khoa học kẹp đỉa bỏ lên đĩa (đỉa,đĩa) Hai cậu bé giành gỗ nên gây gổ (gỗ,gổ) Cháu bé mải nhìn đồ chơi, mẹ gọi khơng nghe (mải,mãi) Bà cụ ngả người lưng ghế, ghế gãy, cụ bị ngã (ngả,ngã) Ông lão ngà ngà, bước lảo đảo (lão,lảo) Lực sĩ mạnh vác bao cát nặng 120 kg (nỗi,nổi) Anh thường nghĩ ngợi nghỉ ngơi (nghĩ ngợi,nghỉ ngơi) Ông giám đốc lẩn tránh câu trả lời sợ nhầm lẫn (lẩn,lẫn) Người chủ bổ cũi hư để làm củi (cũi,củi) Bà nội trợ mở thùng mỡ xem (mở,mỡ) Vì sĩ diện, nhạc sỉ khơng thừa nhận sai lầm (sĩ,sỉ) Nó xả nước ruộng kinh xả (xả,xã) Cô giả vờ bẻ cành để đỡ bẽ mặt (bẻ,bẽ) Vào hang sâu, người mẹ khuyên nhủ không nên rờ vào thạch nhũ (nhủ,nhũ) Ông cảm thấy lẻ loi lẽ vợ ơng qua đời (lẻ,lẽ) Dù khuyên giải, vẩn nghĩ vớ vẩn (vẩn,vẫn) Mây trơi lửng lơ, dịng nước lững lờ (lửng lơ,lững lờ) Ăn hết nửa gà, người lực sĩ tiếp tục ăn (nửa,nữa) Kẻ cẩn thận thường dặn dò cặn kẽ (kẻ,kẽ) Đống củ lang đào từ mảnh đất cũ (củ,cũ) Nên lảng tránh người lãng mạng (lảng,lãng) Vỉ thuốc đặt cạnh vĩ cầm (vỉ,vĩ) Người viễn khách khơng thích nói chuyện viển vơng (viễn,viển) Sau chuyến lữ hành, mệt lử (lữ,lử) Có tiếng la bải hải bãi biển (bải,bãi) 166 PHỤ LỤC A DỮ LIỆU KIỂM TRA K H O A C N TT – Đ H K H TN Ông sãi bước sải sân chùa (sãi,sải) Sửa xe xong, ba mua hộp sữa (sửa,sữa) Gặp vận bĩ, chàng niên bền bỉ phấn đấu thực lí tưởng (bĩ,bỉ) Nó nói dối, rủ bạn chơi, thích chí cười rũ rượi (rủ,rũ) Ai bảo với anh năm khơng có bão? (bảo,bão) Bã rượu khơng thể làm bả chuột (bã,bả) Địn bẩy khơng phải bẫy (bẩy,bẫy) Kết chẳng bõ công so với công sức bỏ (bõ,bỏ) Dũng mặc quần ka ki (ka,ca) Ba Tài mua ghe (ghe,ge) Ngọc làm việc ngành tin học (ngành,nghành) Chàng trai chiêm ngưỡng tượng (chiêm,triêm) Bài làm nhiều chỗ sơ suất (suất,xuất) Dòng nước chảy xiết (dòng,giòng) Bạn Dũng khơng thích mặc áo hoa hịe (hịe,ngịe) Lỡ tay trót nhúng chàm (lỡ,lở) (trót,chót) Người thợ săn bắt cheo (cheo,treo) Cậu bé biết nhường cơm sẻ áo (sẻ,xẻ) Người vợ son sắt (son sắt,xon xắt) Không nên gièm pha người khác (gièm,dèm) Cô bé không giấu mẹ điều (giấu,dấu) Cháo bé khóc oe oe (oe oe,hoe hoe) Anh Dũng chèo ghe biển (chèo,trèo) Bài làm Hùng y chang làm Dũng (chang,trang) Chiếc bàn đặt sát cửa sổ (sát,xát) Mẹ xẻ dưa cho ăn (xẻ,sẻ) Trăng tròn vành vạnh (vành vạnh,dành dạnh) Hồn cảnh gia đình gieo neo (gieo neo,deo neo) Duyên từ sân nắng bước vào nhà, hoa mắt (hoa,oa,qua) Cuộc sống nàng Kiều thật ê chề (chề,trề) Hành động Trịnh Hâm thật đáng chê trách (trách,chách) Vân Tiên nấu sử xôi kinh nhiều năm dài (xôi,sôi) Bùi Kiệm liêm sỉ (sỉ,xỉ,sĩ) Nên nhường nhịn để tránh va chạm (va,da,gia) 167 PHỤ LỤC A DỮ LIỆU KIỂM TRA (giành,dành) (gia,da) (trung,chung) (chuyện,truyện) (chi,tri) (chong,trong) (cheo,treo) (trằm,chằm) (trót,chót) (xẻ,sẻ) (sẩm,xẩm) (sì,xì) (xổ,sổ) (sinh,xinh) (xử,sử) (xấp,sấp) (vừa,dừa) (dành,giành) (giở,vở,dở) (gián,dán) (giày,dày) (vậy,dậy) (dục,giục) (giao,dao) (quá,hoá) (quãng,hoảng) (ốn,qn) (quĩ,hủy,quỉ) (qua,hoa) (hoang,ngoan) (hồ,q) (hun,hung) (mút,múc) (muống,muốn) (muốt,muốc) K H O A C N TT – Đ H K H TN Ngọc Dũng giành giải thi Chớ coi trọng việc vinh thân gia Hội nghị tập trung thảo luận vấn đề chung Lan thích nghe kể chuyện đọc truyện Anh hà tiện không chịu chi tiền để có nhiều tri thức Học sinh chong đèn học đêm Người thợ săn cột cheo, treo lên cành Cậu bé trằm trồ khen ngợi người thợ chằm nón Nó trót hẹn với bạn chuyến tàu chót Tùng xẻ dưa để chia sẻ với bạn Trời sẩm tối, bà xẩm dọn hàng vào Rờ mặt bàn thấy nhám sì, người chị xì tiếng Y tá ghi số lượng thuốc xổ vào sổ Sau sinh con, chị hết xinh Khi xử lí vấn đề, ta phải xem xét lịch sử Ơm xấp báo q nặng, cậu bé té sấp xuống đất Nó vừa uống nước dừa xiêm vừa nói chuyện Khơng nên dành nhiều cho việc giành quyền lợi Học sinh giở để đọc tiếp trang đọc dở Con gián nham nhở tờ giấy có dán hồ Đơi giày đế dày Sáng vậy, ông ta dậy sớm để tập thể dục Giao du với bạn xấu, tính tốt bị dao động Nó phóng nhanh quá, bị cảnh sát giữ lại, hoá lại chậm Đến quãng đường vắng tối quá, bé hoảng sợ Người khác ốn ơng chủ qn tính giá thực phẩm cao Để chạy tội, cô thủ quĩ quỉ quyệt hủy số chứng từ Sáng hôm qua, mai nở hoa Cậu bé hoang, khơng cịn ngoan ngày trước Anh em hồ thuận, cha mẹ cho quà Lịch sử hun đúc nên anh hùng dân tộc Các em bé thích mút kẹo Rau muống có nhiều chất bổ Đơi bàn tay chị trắng muốt 168 PHỤ LỤC A DỮ LIỆU KIỂM TRA K H O A C N TT – Đ H K H TN Hai chưn ông ta thật rắn (chưn,chưng) Mứt gừng loại mứt cay (mứt,mức) Cá để lâu bị ươn (ươn,ương) Ăn bánh ướt với chả lụa ngon (ướt,ước) Khay trầu mẹ trông thật đẹp mắt (khay,khai) Đôi môi em bé gái đỏ au (au,ao) Trời rét căm căm, anh tập thể dục (căm căm, câm câm) Các học sinh tiểu học thích cặp kè (cặp,cập) Ở Huế, người ta thường thả diều lễ tết (diều,dìu) (dịp,diệp) Khơng nên hồn tồn tin diễn giấc chiêm bao (chiêm,chim) Đàn gà lạc mẹ, kêu chiêm chiếp (chiêm chiếp,chim chíp) Tép riu loại tép nhỏ (tép,tếp) Phải bảo vệ bờ cõi ông cha để lại (cõi,cỗi) Về nông thông, ta thấy nhiều rơm khô (rơm,rôm) Người bệnh cịn thoi thóp (thoi thóp,thơi thốp) Suốt ngày, cậu bé chơi rong (rong,rơng) Ơng nội tơi cịn mẫu ruộng rộc (rộc,rọc) Bạn Thành thích ăn mì nui (nui,ni) Bé Diệu làm việc lm thuộm (lm thuộm,lụm thụm) Suốt ngày, cô gái ngồi dệt cửi (cửi,cữi,cưỡi) Tiếng hót khướu du dương (khướu,khứu) Đừng nuối tiếc ngày thơ mộng qua (nuối,núi) Trái đất có 24 múi (múi,muối) Cậu bé thích cưỡi ngựa gỗ (cưỡi,cữi) An táng cha già xong, anh đội trở đơn vị (táng,tán) Tiếng tranh luận át tiếng gọi giữ im lặng người chủ tọa (át,ác) Học sinh căng lều dựng trại để vui chơi (căng,căn) Bây khơng cịn dùng bạc cắc (cắc,cắt) Tồ nhà có tất năm tầng (tầng,tần) May áo xong, thừa ba tấc vải (tấc,tất) Tiếng phèng la từ nhà dài vang lên (phèng,phèn) Heo kêu eng éc bị chọc tiết (eng éc,en ét) Cụ già ngồi bện thừng sân (bện,bệnh) Da người bệnh trắng bệch (bệch,bệt) 169 PHỤ LỤC A DỮ LIỆU KIỂM TRA K H O A C N TT – Đ H K H TN Tinh thần ông cụ tinh anh (tinh,tin) Bánh gai Bình Định tiếng (ít,ích) (tiếng,tiến) Nó cảm thấy tiêng tiếc xe đạp (tiêng,tiên) Đây loại sữa tiệt trùng (tiệt,tiệc) Con trùn có lợi, cịn trùng có hại (trùn,trùng) Theo bạn, phút bạn cảm thấy hạnh phúc nhất? (phút,phúc) Con chuồn chuồn bay ngang qua chuồng bồ câu (chuồn,chuồng) Con chão chuộc nhảy qua bẫy chuột (chuộc,chuột) Bánh chưng nhưn nhiều thịt (nhưn,nhưng) Người thương binh thường bị nhức nhối, nhứt lúc trở trời (nhức,nhứt) Lãnh lương rồi, mẹ ghé chợ mua lươn (lương,lươn) Dáng cô giáo tầm thước, tà áo dài tha thướt (thước,thướt) Trời nhiều mây, gió heo may lại (mây,may) Nó báo tin vùng có kho báu (báo,báu) Anh ta lằm bằm bị té bầm tay (bằm,bầm) Giải pháp trung lập hóa lặp lại lần (lập,lặp) Những người biết điều quí trọng (điều,đều) Đương kim Thủ tướng kiêm nhiệm chức Bộ trưởng Ngoại giao (kim,kiêm) Chúng ngồi gốc bàng để bàn cơng việc (bàng,bàn) Ăn nói hoạt bát, Tiến phản bác đối phương (bát,bác) Chú bé phục lăn người xây dựng lăng vua Tự Đức (lăn,lăng) Đường bị tắc nên phải đường tắt (tắc,tắt) Chí Phèo ngẩng đầu, ngẩn ngơ nhìn người (ngẩng,ngẩn) Ngọc bật đám bạn bè tiến vượt bậc (bật,bậc) Lửa bén vách nhà mà quên (bén,béng) Nó nghe bạn dọa méc ba má, mặt tái mét (méc,mét) Bắt kên kên, bạn bè cơng kênh (kên,kênh) Trong bữa tiệc đãi bạn hữu, xúp cua nhạt thết (thếch,thết) Tính ơng kín đáo, kính nể (kín,kính) Trời tối mịch, cảnh chuà thêm tịch mịt (mịch,mịt) Con sông biên giới, nước xanh biêng biếc (biên,biêng) Tiếc thời tiết hôm không thuận lợi cho trận đấu bóng đá (tiếc,tiết) Nhân dân hai nước kíp xóa bỏ mối thù truyền kiếp (kíp,kiếp) Muối rang bếp nổ lép bép (bếp,bép) 170 171 K H O A C N TT – Đ H K H TN Khối thị trường chung châu Âu có "cơng nghệ khơng khói" tiên tiến (khối,khói) Đứa bé chồm lên phía trước để vuốt chịm râu ơng nội (chồm,chịm) Nằm nóp, khơng cịn nơm nớp sợ muỗi cắn (nóp,nớp) Có bế bồng, đèo bịng (bồng,bịng) Gai góc nằm la liệt gốc (góc,gốc) Nó ngủ muồi, khơng cịn ngửi thấy mùi thơm ngát phịng (muồi,mùi) Về hưu, ơng khơng cịn thích săn hươu (hưu,hươu) Bà chi tiêu khoản phân nửa khoảng tiền lãnh (khoản,khoảng) Càng ngày tính càn rỡ (càng,càn) Vác thang nặng, cậu bé thở than (thang,than) Vấp hịn đá, ngã chúi vào bụi chuối (chúi,chuối) Chị ngồi đan áo len cho (đang,đan) ... dụng bắt lỗi tả tiếng Việt máy tính Nội dung toán K H O A Bài toán phát biểu sau: Cho văn tiếng Việt Tìm tất từ sai tả văn đề nghị cách giải lỗi có Do ngơn ngữ lĩnh vực rộng Việc bắt lỗi tả tiếng. .. học nhằm hỗ trợ bắt lỗi tả tiếng Việt bắt đầu thời gian gần Những ứng dụng bắt lỗi tả có đơn giản, chưa hiệu quả, chưa đáp ứng nhu cầu thực tế Luận văn đề giải pháp khác để bắt lỗi tả, với hy vọng... trọng lỗi thuộc loại lỗi Thơng thường lỗi từ vựng thường bị nhầm lẫn với lỗi tả, buộc chương trình bắt lỗi tả phải phát lỗi từ vựng Đây vấn đề khó để bắt lỗi từ vựng, cần phải hiểu nội dung văn