Các sai lầm của trình bắt lỗi chính tả

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 50 - 51)

3 Cơ sở tin học

3.1.3 Các sai lầm của trình bắt lỗi chính tả

Khi bắt lỗi chính tả, trình bắt lỗi khơng tránh khỏi các sai lầm. Có thể phân ra làm hai loại sai lầm: sai lầm tích cực1 và sai lầm tiêu cực2.

1false positive

2false negative

KHOA CNTT –

ĐH KHTN

CHƯƠNG 3. CƠ SỞ TIN HỌC 3.1. BẮT LỖI CHÍNH TẢ

Sai lầm tích cực xảy ra khi trình bắt lỗi báo lỗi ở những từ hồn tồn khơng sai chính tả. Sai lầm tiêu cực xảy ra khi trình bắt lỗi bỏ qua những từ bị sai chính tả. Nói cách khác, trình bắt lỗi cho rằng những từ sai chính tả này khơng sai. Sai lầm tích cực có thể tránh được nhờ tăng kích thước từ điển. Tuy nhiên đây khơng phải là giải pháp hồn hảo. Việc tăng kích thước từ điển sẽ tốn kém (về bộ nhớ, CPU, cũng như công sức bỏ ra để xây dựng từ điển). Hơn nữa, càng có nhiều từ thì việc đề nghị các từ thay thế càng trở nên kém hiệu quả do bị phân tán bởi những từ rất ít gặp, khơng thể tập trung vào những lỗi phổ biến.

Sai lầm tiêu cực có thể xem là lỗi khơng phát hiện được. Phần nhiều những lỗi này thường đòi hỏi phải hiểu văn bản (ít nhất là một phần văn bản) để có thể phát hiện lỗi. Những dạng lỗi từ vựng, lỗi cú pháp thường rơi vào dạng này. Tuy nhiên vẫn có một số lỗi chính tả rơi vào loại này. Những loại lỗi này được phát hiện nhờ những chương trình bắt lỗi chính tả cảm ngữ cảnh (xem phần 3.4 ở trang 59).

Trong hai loại sai lầm thì sai lầm tích cực thường gây khó chịu cho người sử dụng, dễ gây tâm lý khơng tin tưởng vào trình bắt lỗi chính tả. Ngược lại, sai lầm tiêu cực phản ánh tính hiệu quả của trình bắt lỗi chính tả. Sai lầm tiêu cực càng nhiều thì trình bắt lỗi càng kém hiệu quả.

Một phần của tài liệu đồ án tốt nghiệp xây dựng chương trình bắt lỗi chính tả tiếng việt (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(172 trang)