Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
3,02 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG XÂY DỰNG PHƯƠNG PHÁP KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT SỬ DỤNG MƠ HÌNH TỪ ĐIỂN S K C 0 9 MÃ SỐ T2010 - 40 S KC 0 3 Tp Hồ Chí Minh, tháng 11 năm 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM ĐỀ TÀI NCKH CẤP TRƯỜNG XÂY DỰNG PHƯƠNG PHÁP KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT SỬ DỤNG MƠ HÌNH TỪ ĐIỂN MÃ SỐ: T2010-40 THUỘC NHĨM NGÀNH : KHOA HỌC KỸ THUẬT NGƯỜI CHỦ TRÌ : THS MAI TUẤN KHƠI NGƯỜI THAM GIA : ĐƠN VỊ : KHOA CƠNG NGHỆ THƠNG TIN TP HỒ CHÍ MINH – 11/2010 MỤC LỤC MỤC LỤC TÓM TẮT ĐỀ TÀI Mục tiêu đề tài Những sở để xây dựng đề tài Phương pháp tiếp cận .3 Những kết đạt ĐẶT VẤN ĐỀ Phần 1.1 Đối tượng nghiên cứu 1.2 Tổng quan tình hình nghiên cứu 1.2.1 Các nghiên cứu nước vấn đề kiểm lỗi tả .5 1.2.2 Các nghiên cứu nước vấn đề kiểm lỗi tả 10 1.3 Những vấn đề tồn 11 Các phương pháp thực chi tiết 13 Phần 2.1 Mục đích đề tài 13 2.2 Phương pháp nghiên cứu 13 2.3 Nội dung 13 2.3.1 Dựa luật cấu tạo âm tiết tiếng Việt 13 2.3.2 Sử dụng thuật toán minimum Edit Distance: .16 2.3.3 Sử dụng cấu trúc Finite State Transducer 16 2.4 Kết đạt 24 2.4.1 Tính khoa học .24 2.4.2 Khả triển khai ứng dụng vào thực tế 24 2.4.3 Hiệu kinh tế - xã hội 25 2.4.4 Sản phẩm 25 2.5 Đánh giá 28 2.6 Kết luận .32 Phần Tổng kết 33 3.1 Tổng kết 33 3.2 Hướng phát triển 33 TÀI LIỆU THAM KHẢO 35 MỤC LỤC BẢNG BIỂU Bảng 2-1 Cấu trúc file XML dựa luật cấu tạo âm tiết 15 Bảng 2-2 Thuật toán tách câu 22 Bảng 2-3 Thuật toán thay 23 Bảng 2-4 Quy trình kiểm tra tả .24 Bảng 2-5 Các nút chức chương trình 27 Bảng 2-6 Đánh giá chức đạt 28 Bảng 2-7 So sánh với VietSpell 32 MỤC LỤC HÌNH Hình 1-1 Sơ đồ dò tìm lỗi ma trận tiếng nhầm lẫn Hình 2-1 Giao diện 26 Hình 2-2 Cửa sổ tuỳ chọn 27 Hình 2-3 Cửa sổ danh sách từ nước 28 TÓM TẮT ĐỀ TÀI Mục tiêu đề tài Hiện có số phần mềm kiểm tra tả tiếng Việt mắt, nhiên nhà cung cấp trụ thò trường sản phẩm ù chưa thực đạt hiệu người dùng mong muốn Mục tiêu tác giả xây dựng phần mềm kiểm tra tả tiếng Việt có khả phát lỗi tả tốt cung cấp phục vụ cộng đồng Những sở để xây dựng đề tài Ở Việt Nam, trung bình số người sử dụng máy tính truy cập internet tăng đột biến năm gần Các văn viết tay ngày thay vào tập tin văn lưu trữ ổ đóa cứng C# ngôn ngữ lập trình mà tác giả sử dụng để phát triển ứng dụng minh hoạ tảng Net Framework 2.0 Môi trường soạn thảo văn sử dụng Microsoft Word 2007 Trong trình xây dựng, tác giả nhận nhiều ý kiến đóng góp hỗ trợ từ phía người quan tâm đến vấn đề tả tiếng Việt Phương pháp tiếp cận Phương pháp tiếp cận tác giả dựa tư tưởng vét cạn tác giả đề xuất Tức từ từ xem tả, tác giả phát sinh lưu trữ lại tất trường hợp bò sai tả có từ Sau gặp từ có dạng sai tương tự trường hợp lưu trữ, chương trình báo có lỗi đưa gợi ý từ gốc từ Bộ từ điển tạo dựa quy trình tạo từ điển giáo viên hướng dẫn đưa ra, quy trình cụ thể trình bày chi tiết chương phương pháp thực chi tiết Chương trình sử dụng số thư viện có sẵn Visual Studio.Net 2005 thêm vào xử lý tác giả để thực công việc theo quy trình kiểm lỗi tả tác giả đề xuất, chi tiết trình bày Phần “các phương pháp thực chi tiết” Những kết đạt Tác giả xây dựng xong từ điển theo cấu trúc Finite State Recognition dành cho từ đơn có nghóa, từ đơn tham gia cấu tạo từ ghép, từ ghép có chiều dài hai, ba, bốn, n chữ Ngoài ra, từ điển cho biết từ từ điển trường hợp sai từ nào, điều giúp cho việc cài đặt thuận lợi việc gợi ý cho người dùng sửa lỗi gặp trường hợp sai Dựa từ điển xây dựng được, nhóm xây dựng ứng dụng nhúng vào MSWord để kiểm tra lỗi tả Chương trình có chức sau đây: Đưa gợi ý từ mà chương trình nghi ngờ sai lỗi tả, người dùng có quyền chấp nhận sửa từ bỏ qua từ Nếu gặp từ nước viết tắt, chương trình nghi ngờ sai thư viện từ nước ngoài, người dùng có quyền thêm từ vào thư viện từ nước để bỏ qua gặp từ lần Cũng tương tự với thuật ngữ chuyên ngành khác nhau, từ không thuộc từ điển (của chương trình), chương trình làm tương tự từ nước Chương trình xây dựng lại có thêm từ bổ sung vào từ điển Do sau thời gian thử nghiệm, chương trình cập nhật thêm từ từ điển (của chương trình) để chương trình bắt lỗi tốt Chương trình bắt sửa lỗi vật lý – lỗi sai tả hoàn toàn, ví dụ chuwowng – đưa từ gợi ý xác gần để người dùng dựa vào sửa cho phù hợp Chương trình bắt lỗi logic – lỗi mà xét từ đơn tả, chung sai tả, ví dụ trương chình – mà liệu lưu trữ số trường hợp gần mà liệu chưa có lưu trữ Chương trình bổ sung ngữ liệu thay ngữ liệu cách độc lập hoàn toàn với chương trình Độ dài cụm từ chương trình bắt sửa lỗi không giới hạn Sửa hết toàn lỗi mức từ nhập nhằng 59 trường hợp sai lỗi tả từ điển tả tiếng Việt Giáo sư Nguyễn Như Ý đề cập đến số lỗi thường gặp khác Phần ĐẶT VẤN ĐỀ 1.1 Đối tượng nghiên cứu Máy vi tính đem lại lợi ích to lớn cho xã hội loài người Ở Việt Nam, trung bình số người sử dụng máy tính lớn văn viết tay ngày thay vào tập tin văn lưu trữ ổ đóa cứng Với việc bùng nổ văn điện tử vậy, vấn đề sai lỗi tả văn điều khó tránh khỏi Các dạng văn bò sai lỗi tả phương pháp để sửa lỗi dạng văn đối tượng nghiên cứu đề tài 1.2 1.2.1 Tổng quan tình hình nghiên cứu Các nghiên cứu nước vấn đề kiểm lỗi tả 1.2.1.1 Phương pháp kiểm lỗi dựa ngữ cảnh Một đầu mối để phân biệt từ với từ nhập nhằng với từ xung quanh câu Ví dụ: xem xét để chọn lựa desert dessert, có từ arid, sand, sun, … gần đó, ta chọn desert, gặp từ chocolate, delicious, … gần đó, ta chọn dessert Phương pháp kiểm lỗi dựa ngữ cảnh[12] Golding xây dựng dựa nhận xét Trong giai đoạn học, với từ thường bò viết sai tả, hệ thống ghi nhớ từ thường xuất xung quanh ngữ liệu Khi chạy thực tế 1.2.1.2 Phương pháp kiểm lỗi dựa phép lai Bayes Phương pháp kiểm lỗi dựa ngữ cảnh[12] tốt việc phát nguyên tắc chung phụ thuộc vào từ lân cận, không quan tâm đến trật tự chúng Trong trường hợp đó, phương pháp đặc trưng lân cận tỏ thích hợp để rút quy luật trật tự Một đặc trưng lân cận mẫu yếu tố cú pháp xung quanh từ xét Có hai đặc trưng thường sử dụng phương pháp này, nhãn từ loại từ lân cận Phương pháp lai Bayes[11] thực theo cách thức tương tự với phương pháp kiểm lỗi dựa ngữ cảnh[12] Ý tưởng phân biệt từ dễ bò dùng nhầm lẫn với dựa vào đặc trưng lân cận chúng Mỗi đặc trưng lân cận cung cấp vài dấu hiệu với khả đònh khác cho từ tập nhầm lẫn Những dấu hiệu kết hợp với tính toán theo luật đònh (thường Bayes) Sau cùng, từ có độ hợp lý cao chọn Tuy nhiên, phương pháp lai Bayes có nhược điểm, từ có đặc trưng mâu thuẫn hàm chứa nhau, gọi xung đột Để phương pháp hoạt động tốt, đặc trưng xung đột với cần phải phát loại bỏ Hiện nay, heuristic, chưa có phương pháp hoàn chỉnh để giải vấn đề 1.2.1.3 Phương pháp kiểm lỗi dựa sàng lọc Phương pháp sàng lọc[10] kết hợp hai phương pháp kiểm lỗi dựa ngữ cảnh[12] lai Bayes[11] để tận dụng ưu điểm hai phương pháp này: kiểm lỗi dựa ngữ cảnh[12] rút nguyên tắc tốt theo cách độc lập với trật tự từ, lai Bayes[11] dùng để rút nguyên tắc phụ thuộc vào trật tự Phương pháp đòi hỏi phải xây dựng danh sách lớn đặc trưng - đặc tính ngữ cảnh lai Bayes Những đặc trưng xếp theo khả đònh giảm dần, khả đònh đặc trưng phản ánh độ tin cậy việc đònh Một từ nhập nhằng phân loại cách duyệt qua danh sách so khớp đặc trưng với ngữ cảnh Đặc trưng phù hợp dùng để phân loại từ xét Vì danh sách đònh đưa lời giải dựa vào đặc trưng mạnh nhất, hiệu suất phần lớn phụ thuộc vào cách xác đònh khả đònh cho đặc trưng Đây nhược điểm phương pháp việc tìm công thức đánh giá tổng quát khó Do đó, phương pháp sàng lọc[10] cải tiến cách dùng nhiều đặc trưng Theo đó, để lựa chọn từ tốt nhất, hệ thống duyệt qua toàn danh sách đặc trưng, so sánh đặc trưng với ngữ cảnh, kết hợp chúng để đưa lời giải sau Việc kết hợp đặc trưng thực nhờ vào phân loại Ví dụ Bayes 1.2.1.4 Mô hình CInsunSpell cho tiếng Hoa Mô hình kiểm lỗi có tên CInsunSpell[13] đề xuất Li Jianhua Wang Xiaolong, kết hợp Trigram tiếng, phương pháp ước lượng Bayes phân phối trọng tự động, dùng cho sửa lỗi tả tiếng Hoa Trigram dùng bước kiểm lỗi Theo đó, cửa sổ Trigram kích thước dùng để đánh giá mối liên kết tiếng với Cửa sổ Trigram thực chuỗi con, với tiếng cần xét trung tâm, tiếng lân cận xung quanh (2 tiếng liền trước tiếng liền sau) Tiếng trung tâm xem sai tả hai liên kết trước sau yếu Liên kết xem yếu có giá trò nhỏ giá trò ngưỡng Nhược điểm mô hình n-gram liệu thưa thớt, dẫn đến xác suất ngram thấp (thường có giá trò 0) Để khắc phục, tác giả CInsunSpell dùng thêm bi-gram với làm mòn cách mở rộng cửa sổ bi-gram từ tiếng thành tiếng phía sau để nâng cao hiệu suất phát lỗi Bộ phân loại Bayes dùng bước sửa lỗi Ý tưởng tìm chuỗi thích hợp (có xác suất cao nhất) từ chuỗi đầu vào để làm phương án sửa lỗi Để đánh giá phù hợp chuỗi sửa lỗi, Bayes kết hợp với phương pháp phân phối trọng số tự động dựa số phép biến đổi ngắn (Minimum Edit Distance[16]) để biến chuỗi đầu vào thành chuỗi sửa lỗi Theo thử nghiệm tác giả, CInsunSpell có tỷ lệ phát lỗi khoảng 60%, tỷ lệ lỗi tích cực khoảng 10% Hai giá trò thay đổi tuỳ thuộc vào ngưỡng dùng hệ thống 1.2.1.5 Phương pháp kiểm lỗi dựa ngữ cảnh cho tiếng Nhật Phương pháp Nagata[15] áp dụng cho hệ thống nhận dạng chữ viết (OCR) Tuy nhiên dùng để sửa lỗi tả người gây Phương pháp gồm hai giai đoạn: giai đoạn thứ nhất, câu nhập vào chia thành nhiều chuỗi tiếng, với điều kiện chuỗi tiếng tạo thành từ có từ điển gần giống với từ có từ điển Trong giai đoạn thứ hai, phương pháp thống kê, n chuỗi từ tốt (được tạo thành từ ‚từ‛ có giai đoạn trước) chọn làm ứng viên sửa lỗi Dưới ví dụ minh hoạ cho cách tiếp cận Câu đầu vào: Tôi lam việc hợp tát xả họp tác sả tạt xã mua bán Ma trận tiếng nhầm lẫn lám làm báng lãm lạm Hình 1-1 Sơ đồ dò tìm lỗi ma trận tiếng nhầm lẫn Để chia chuỗi đầu vào thành chuỗi cách hợp lý, hệ thống dùng hai phương pháp, mô hình ngôn ngữ thống kê thuật toán Forward-DB Backward A* để tách từ Ngôn ngữ thống kê dùng để tính xác suất kết hợp chỗi chuỗi nhãn từ loại Xác suất kết hợp thực tích xác suất xuất chuỗi với xác suất xuất chuỗi nhãn ngữ liệu huấn luyện Sau cùng, thuật toán Tài liệu tham khảo 39 10 11 105 11 99 12 7885 12 13 99 13 99 Bảng 4-1 Cấu trúc file automat File Index: STT Từ hơm tơi học Bảng 4-2 Cấu trúc file index Với cấu trúc này, từ đơn đƣợc kiểm tra, liên kết lần lƣợt đƣợc xác định thơng qua ký tự Cấu trúc đƣợc gọi cấu trúc Finite State Transducer Ví dụ : Với từ “học” với automat nhƣ hình dƣới ta duyệt nhƣ sau: Tìm cung có đỉnh xuất phát 0, mang nhãn „h‟ ta tìm đƣợc đỉnh kết thúc Tìm cung có đỉnh xuất phát đỉnh kết thúc bƣớc 1, mang nhãn „ọ‟ ta tiếp tục tìm đƣợc đỉnh kết thúc cung Tìm cung có đỉnh xuất phát đỉnh kết thúc bƣớc 2, mang nhãn „c‟ ta tìm đƣợc đỉnh kết thúc cung Tìm cung có đỉnh xuất phát đỉnh kết thúc bƣớc 3, đỉnh kết thúc mang giá trị „99‟ ta lấy đƣợc mục từ Tài liệu tham khảo 40 m ọ h c n y a t i đ i 4.2 Quy tắc đặt dấu tiếng Việt Quy tắc Với âm tiết có chữ ngun âm, dấu đƣợc đặt vào chữ ngun âm Vd: à, ì ạch, ọ ẹ, ủ rũ, ọp ẹp, ục ịch, hà, lán, giá, giục, quả, quỹ, quỵt (trƣờng hợp gi qu xem định nghĩa 4) Quy tắc Với âm tiết, mà âm tiết cần có chữ ngun âm mang dấu phụ (Ă, Â, Ê, Ơ, Ơ, Ƣ) khơng kể kết thúc chữ gì, dấu đặt chữ (riêng ƢƠ, dấu đặt Ơ) ế ẩm, ề, rể, ứ ừ, chiền chiện, cuội, cừu, duệ, duềnh, giội, giƣờng, ngoằng, quyệt, ruỗng, rƣợu, siết, suyển, tuẫn tiết, tiến triển Quy tắc Với âm tiết có hai chữ ngun âm kết thúc chữ phụ âm tổ hợp chữ phụ âm, dấu đƣợc đặt vào chữ ngun âm chót Vd: chồng, hoạch, lt, quẹt, st, thốt, xn Quy tắc Với âm tiết kết thúc oa, oe, uy, dấu đƣợc đặt vào chữ ngun âm chót Vd: hoạ, h, huỷ, lồ xồ, l, s, thuỷ Tài liệu tham khảo 41 Quy tắc Với âm tiết kết thúc hai hay ba chữ ngun âm khác với oa, oe, uy, dấu đƣợc đặt vào chữ ngun âm áp chót Vd: bài, bảy, chĩa, chịu, của, đào hào, giúi, hoại, mía, ngốy, ngốo, quạu, quẹo, ngoẻo, chịu, chĩa Chú ý Có vấn đề đƣợc nhiều ngƣời quan tâm thời gian gần đây, vị trí dấu văn bản, sách báo tiếng Việt thƣờng khơng xử lí thống với nhau, gây khơng khó khăn cho việc trao đổi nhƣ học tập tiếng Việt Trƣớc ngƣời ta quan tâm đến việc đặt dấu vào đâu âm tiết cốt để tạo nên "một nhìn" cân đối cho chữ viết Nhƣng ngày nay, với phát triển mạnh mẽ tin học, máy tính ngày thâm nhập rộng rãi lĩnh vực đời sống xã hội u cầu thống lƣu trữ, xử lí nhƣ trao đổi ngữ liệu quan trọng nhiều so với việc xem chữ viết bỏ dấu có cân đối hay khơng Cần khẳng định lại điểm sau đây: Chuẩn vị trí dấu âm tiết tiếng Việt đƣợc xác định từ lâu phần lớn trƣờng hợp, tn theo quy tắc nêu Cho đến nay, tồn khơng trí với tổ hợp oa, oe, ua, ue, uy Chẳng hạn viết HỌA, HÕE, HỦY, QỦA, QỦE, QƯY, hay HOẠ, H, HUỶ, QUẢ, QUẺ, Q? Trong tiếng Việt, chữ O U đƣợc dùng khơng phải để viết ngun âm o u, mà để viết bán ngun âm (còn gọi bán phụ âm) w số trƣờng hợp định nhƣ: oa (wa), oe (we), uy (wi), qua (kwa), que (kwe), quy (kwi) (c, q, k phiên âm quốc tế /k/), v.v Có nghĩa âm w tổ hợp nói thật khơng thuộc thành phần ngun âm âm tiết, ngun âm a, e, i (viết Y) Theo quy tắc 1, dấu đánh chữ viết ngun âm; viết HOẠ, H, HUỶ, QUẢ, QUẺ, Q hợp quy tắc (giống nhƣ viết HẠ, HÈ, KỸ, CẢ, KẺ), nên coi chuẩn, thống với trƣờng hợp tƣơng tự khác nhƣ NGOAN NGỖN, KHỐNG ĐẠT, NGƯNG NGUẨY (khơng viết NGOAN NGÕAN, KHĨANG ĐẠT, NGƯNG NGỦÂY ) Việc bỏ dấu O U Tài liệu tham khảo 42 tổ hợp kết nhầm lẫn, cho O U viết ngun âm o u Các trƣờng hợp khác trƣờng hợp ia, ua, ƣa, ngun âm đơi Đối với ngun âm đơi, dấu đánh chữ đầu tổ hợp, tức đánh I (IA), U (UA), Ƣ (ƢA) So sánh CỦA QUẢ, THỦA THOẢ Trong giạ (giạ lúa), ngun âm a, nên đánh dấu nặng dƣới A: GI + Ạ; khác với gịa (giặt gịa), có ngun âm đơi ia (I vừa tổ hợp với G viết phụ âm gi, vừa tổ hợp với A viết ngun âm đơi ia), nên đánh dấu nặng dƣới I: GI + ỊA (đúng có hai chữ I, nhƣng lƣợc bỏ bớt thành GỊA) Cũng nên lƣu ý tƣơng ứng với ngun âm đơi ia, ua, ƣa, có ngun âm đơi iê-, -, ƣơ- (ln ln có phụ âm bán ngun âm cuối), dấu lại đánh chữ thứ hai tổ hợp IÊ, , ƢƠ (quy tắc 2) Cho nên âm tiết nhƣ HUỆ, THUỞ, từ lâu viết trí với dấu Ê, Ơ, khơng đánh dấu U viết HỤÊ, THỦƠ Đồng thời với việc chuẩn hố dấu thanh, cần chuẩn hố thống tả trƣờng hợp sau đây: a) Nhất loạt viết khn vần /-i/ I (trừ tên riêng) âm tiết H-, K-, L-, M-, T- (nhất loạt viết HI, KI, LI, MI, TI, giống nhƣ viết BI, CHI, DI, v.v.; khơng nên viết HY, KY, LY, MY, TY, nhƣ khơng viết BI thành BY, CHI thành CHY, v.v.); b) Nhất loạt viết khn vần /-ui/ (u ngắn) UY (nhất loạt viết QUY, giống nhƣ viết HUY, NGUY, TUY, v.v.; khơng nên viết QUI, nhƣ khơng viết NGUY thành NGUI, HUY thành HUI, v.v.) c) Khi “I” đứng làm thành từ (hoặc âm tiết), thì: từ Hán-Việt, nên viết “Y”, chẳng hạn viết Y KHOA, Ỷ THẾ, Ý KIẾN, , khơng viết I KHOA Í KIẾN ; từ Việt, nên viết “I”, chẳng hạn viết Ỉ EO, Í ỚI , khơng viết Ỷ EO, Ý ỚI Nếu vào lí thẩm mĩ bỏ dấu theo kiểu HÕA, QỦA cân đối, trƣờng hợp sau khơng bỏ dấu lại cho cân đối Tài liệu tham khảo 43 Ví dụ: THUỞ (thuở ấu thơ) NGỖN (ngoan ngỗn) THỦƠ (thủơ ấu thơ) (ngoan NGÕAN ngõan) NGOẠN (ngoạn mục) NGỌAN (ngọan mục) HUYỀN (huyền diệu) HUỲÊN (huỳên diệu) 4.3 Các trường hợp nhầm lẫn thường gặp Các trƣờng hợp sai cụm phụ âm đầu : Cụm gốc Trường hợp Trường hợp Trường hợp ng ngh ngh ng c k k c b p l n n l x s s x d gi r V Dz gi d r V Dz r d gi V Dz v d gi R Dz ch tr tr ch Bảng 4-3 Các trường hợp nhầm lẫn cụm phụ âm đầu Trường hợp Tài liệu tham khảo 44 Các trƣờng hợp nhầm cụm ngun âm + phụ âm sau đƣợc liệt kê dƣới đây: Cụm gốc Trường hợp Trường hợp ach ăt an ang anh ăn at ac au ao Âu ay Ây ăn ăng ăt ăc ân âng ât âc ây ay en eng et ec êch êt ên êng ênh ên êt êc ich it iêm im iên iêng iêp ip iêt iêc iêu iu in ing inh in it ic Ân Tài liệu tham khảo 45 iu ƣu oan oang oat oac oăt oăc oăn oăng oet oec on ong ot oc ơn ơng ơt ơc ơn ơng ơt ơc n ng t c un ung i ui n ng t c ut uc un ung ut uc uyt uyc ƣơi ƣi ƣơn ƣơng ƣơt ƣơc ƣơu iêu ƣt ƣc ƣu iu Bảng 4-4 Các trường hợp nhầm lẫn cụm ngun âm phụ âm Tài liệu tham khảo 46 Các trƣờng hợp sai cụm phụ âm sau đƣợc liệt kê dƣới Cụm gốc Trường hợp Trường hợp ng gn G nh hn H c t t c Bảng 4-5 Các trường hợp nhầm lẫn cụm phụ âm 4.4 Sơ đồ lớp giải vấn đề dấu sau : Hình 4-3 Sơ đồ lớp giải vấn đề dấu Sơ đồ lớp tĩnh : thƣ viện xử lý vấn đề từ đơn: Đƣa từ đơn khơng dấu Lấy dấu từ đơn Thêm dấu vào vị trí theo quy tắc Kiểm tra xem từ việt hố hay từ việt Kiểm tra tồn từ đơn Tài liệu tham khảo 47 Danh sách trƣờng hợp nhầm lẫn với cụm phụ âm đầu, cụm ngun âm cụm phụ âm cuối Hình 4-4 Lớp ThuVienXuLyTuDon 4.5 Thuật tốn Minimum Edit Distance Nền tảng 4.5.1 Cho chuỗi X, Y ; Minimum Edit Distance đƣợc tính quy hoạch động Gọi ed[i,j] số biến đổi (delete, insert…) để biến X[1 i] thành Y[1 j] Ta có : ed[i,0] = i (0[...]... để từ đó đưa ra giải pháp kiểm lỗi Đối với các lỗi chính tả trên mức tiếng thì sử dụng mô hình kiểm lỗi sử dụng cấu trúc Finite State Transducer do tác giả Oflazer [8] đã áp dụng thành công trong việc kiểm lỗi chính tả trong tiếng Anh Đối với các lỗi chính tả ở mức từ ghép, tác giả đề xuất một mô hình kiểm lỗi mới dựa trên các quy tác về âm tiết trong tiếng Việt, từ đó phát sinh ra các dự đoán lỗi chính. .. điểm, mô hình lưới từ vẫn còn những nhược điểm nhất đònh Nếu khắc phục được những nhược điểm đó, lưới từ sẽ trở thành phương pháp hữu hiệu để giải quyết bài toán kiểm lỗi chính tả 1.2.2.2 Kiểm lỗi chính tả bằng mô hình N-gram kết hợp với phương pháp ước lượng Bayes để tính xác suất N-gram và các mô hình tách từ Phương pháp này áp dụng mô hình CInsunSpell[4] của tiếng Hoa vào tiếng Việt, là một phương pháp. .. đưa ra chương trình áp dụng vào thực tế 13 Phần 2 2.1 Các phương pháp thực hiện chi tiết Mục đích của đề tài Đề xuất một giải pháp sử dụng từ điển trong việc kiểm lỗi chính tả tiếng Việt Xây dựng bộ dữ liệu đủ lớn để phương pháp kiểm lỗi này có thể vận hành tốt 2.2 Phương pháp nghiên cứu Sử dụng các quy tắc về âm tiết trong tiếng Việt, kết hợp với các trường hợp gây lỗi chính tả được các nhà ngôn ngữ... vấn đề kiểm lỗi chính tả Kiểm lỗi chính tả tiếng là một bài toán khó, nhất là kiểm lỗi chính tả cho các ngôn ngữ đơn lập như tiếng Việt, tiếng Hoa[4] Trước khi tôi thực hiện đề tài này, đã có một số công trình nghiên cứu về kiểm lỗi chính tả tiếng Việt với các hướng tiếp cận khác nhau Tuy nhiên, ngoài Vietspell và Chính Tả Cú Mèo, thì các kết quả nghiên cứu còn lại chưa đưa ra sản phẩm ứng dụng vào... Hoàn thành Bộ từ điển để kiểm lỗi logic cho từ ghép: Hoàn thành Bộ từ điển để sửa các từ ghép nhập nhằng o Ví dụ: cổng hoà -> cộng hoà 4 Ghi chú Bộ từ điển để kiểm lỗi vật lý của từ đơn o Các lỗi do từ ghép 2, 3, 4, n bò sai 3 Tình trạng Hoàn thành Chương trình để kiểm tra tính đúng đắn của bộ từ điển: o Kiểm tra lỗi vật lý Hoàn thành o Kiểm tra lỗi logic Hoàn thành o Kiểm tra lỗi nhập nhằng... sinh ra các dự đoán lỗi chính tả Việc kiểm lỗi chính tả sẽ được dựa trên phương pháp so khớp cụm từ với các cụm từ được dự đoán là lỗi chính tả này, từ đó đưa ra từ gợi ý tương ứng 2.3 2.3.1 Nội dung Dựa trên luật cấu tạo âm tiết tiếng Việt Dựa vào đặc điểm của tiếng Việt, nếu ta loại trừ các từ việt hoá từ các ngôn ngữ khác, chúng ta sẽ nhận thấy trong bất kỳ một từ tiếng Việt nào cũng có sự tham gia... khoa học Đóng góp được 1 phương pháp tiếp cận có hiệu quả trong việc giải quyết bài toán kiểm lỗi chính tả tiếng Việt Đóng góp một bộ dữ liệu từ điển sai lỗi chính tả tiếng Việt, đủ lớn (hơn 60.000 từ với trên 714.000 biến thể) để áp dụng trong các trường hợp lỗi chính tả cơ bản 2.4.2 Khả năng triển khai ứng dụng vào thực tế Đã xây dựng được một chương trình cụ thể, có thể áp dụng ngay vào thực tế 25... cứu còn lại chưa đưa ra sản phẩm ứng dụng vào thực tế 1.2.2.1 Kiểm lỗi chính tả bằng mô hình lưới từ Nghiên cứu[3] đã trình bày mô hình lưới từ cho kiểm lỗi chính tả tiếng Việt Mô hình này hoạt động dựa trên việc tách từ mờ, sau đó đánh giá các cách tách từ khác nhau để tìm ra cách tách từ có vẻ hợp lý nhất làm câu sửa lỗi Trong đó, lưới từ thực chất là một dạng cấu trúc dữ liệu đặc biệt, giống như... kiểm tra một đoạn được người dùng highlight o Kiểm tra theo trang 2.4.4.2.1 Giao diện chính Hình 2-1 Giao diện chính Chú giải: (1) Chọn đường dẫn đến các file từ điển (2) Nạp từ điển vào bộ nhớ (3) Kiểm tra đến mức từ ghép mấy (4) Kiểm tra chính tả (5) Chỉnh sửa chuỗi sai chính tả (6) Kiểm tra chính tả nhưng nếu gặp lại lỗi cũ chương trình sẽ bỏ qua (7) Bắt đầu lại quá trình kiểm tra mới (8) Thêm từ. .. tách từ Theo đánh giá của tác giả, phương pháp này giúp cải thiện độ chính xác của hệ OCR từ 90% đến 96%, hiệu suất tách từ là 93% 1.2.1.6 Đánh giá chung cho các phương pháp trên Các phương pháp kiểm lỗi dựa trên ngữ cảnh[12], lai Bayes[11] và phương pháp sàng lọc[10] đã được ứng dụng thành công cho các ngôn ngữ châu Âu như tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha[2], … Tuy nhiên, để áp dụng các mô hình