Phân loại lỗi chính tả

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 48 - 50)

3 Cơ sở tin học

3.1.1 Phân loại lỗi chính tả

Có nhiều cách phân loại lỗi khác nhau. Tuy nhiên, xét theo quan điểm của chương trình bắt lỗi chính tả thì lỗi chính tả có thể phân làm hai loại là lỗi non-word và lỗi real-word (được sử dụng trong [TPLT98]):

• Lỗi non-word là lỗi tạo ra từ sai, hồn tồn khơng có trong từ điển. Đây là loại lỗi dễ phát hiện. (Ví dụ, “hoa2”, “nhưg” . . . )

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.1. BẮT LỖI CHÍNH TẢ

• Lỗi real-word là lỗi chính tả mà từ/tiếng đó có trong từ điển. Nếu khơng dựa vào ngữ cảnh chung quanh thì khơng thể xác định đó có phải là lỗi chính tả hay khơng. (Ví dụ, “Anh ta là một người bàng quang” — từ “bàng quang” không đúng, nhưng vẫn có trong từ điển). Đây là loại lỗi rất khó nhận ra và xử lý.

Ngồi ra có thể phân loại lỗi theo nguồn gốc phát sinh lỗi. Theo cách phân loại này, có hai loại lỗi chiếm đa số là lỗi phát âm sai và lỗi nhập sai.

• Lỗi phát âm sai. Lỗi này do sự nhầm lẫn giữa cách đọc và cách viết giữa những từ đồng âm hoặc gần với nhau. Với tiếng Việt, do có nhiều khác biệt cách phát âm giữa các vùng trong khi hệ thống chữ viết dựa trên hệ thống phát âm tiếng Hà Nội, nên dễ dẫn đến các lỗi sai loại này.

• Lỗi nhập sai. Lỗi gây ra do gõ sai phím, gõ sót phím hoặc dư phím.

• Các lỗi khác. Ngồi hai loại lỗi trên, cịn có nhiều ngun nhân khác dẫn đến lỗi chính tả. Một trong những ngun nhân đó là lỗi dùng từ sai (do hiểu sai, hoặc không hiểu rõ cách dùng từ). Đây thực chất thuộc về lỗi từ vựng, nhưng đơi khi người dùng lại địi hỏi trình bắt lỗi chính tả phải tìm ra những lỗi này.

Ngồi lỗi dùng từ sai, cịn có những lỗi phát sinh do máy móc. Hai công cụ liên quan đến xử lý văn bản và dễ gây ra lỗi chính tả là nhận dạng tiếng nói và nhận dạng chữ viết. Đối với nhận dạng tiếng nói, lỗi thường gặp giống với dạng lỗi phát âm sai. Tuy nhiên, đối với một số ngôn ngữ như tiếng Anh — mỗi từ gồm nhiều âm tiết — thì có thể gây ra lỗi tách từ sai. Đối với nhận dạng văn bản, lỗi chủ yếu do sự giống nhau giữa các chữ cái khi viết. Thông thường, bản thân các công

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.1. BẮT LỖI CHÍNH TẢ

cụ này cũng được cài đặt một trình bắt lỗi chính tả tự động (dạng đơn giản hoặc phức tạp) nhằm giảm thiểu các lỗi chính tả.

Theo [Cha98] thì lỗi bao gồm:

• Giống phiên âm

• Giống hình dạng chữ viết

• Giống nghĩa

• Giống cách gõ

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 48 - 50)

Tải bản đầy đủ (PDF)

(172 trang)