Nguyên nhân gây ra li chín ht

Một phần của tài liệu cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt (Trang 32 - 33)

u

2.3.3. Nguyên nhân gây ra li chín ht

Trong th c t , l i chính t c t o ra do hai nguyên nhân chính sau ây:

• Phát âm sai. ây là lo i l i th ng g p nh t trong th c t , c hình thành do cách phát âm khác nhau c a nh ng a ph ng khác nhau trong n c. VD: “s ” – “s ”, “ch m” – “tr m”, “lào” – “nào”,… Nh ng l i này ph thu c vào n i sinh s ng c a ng i t o ra v n b n nên r t khó kh c ph c.

• Hi u sai ý ngh a c a t . ây là lo i l i r t khó phát hi n, x lý c chúng có th dùng các mô hình tách t m và n-gram t . Và th c ch t các ch ng trình ki m l i chính t thông th ng không có ch c n ng phát hi n l i này. VD: “Anh ta là ng i bàng quang,

“Nh ng u m này c n c kh c ph c s m”,… Nh ng l i này ph thu c vào trình ngôn ng c a ng i t o ra v n b n.

Trong tin h c, ngoài hai nguyên nhân ã nêu trên, còn có các nguyên nhân khác, ó là:

• i nh p li u. Là l i gây ra khi gõ nh m, gõ d ho c gõ thi u các ký trên bàn phím. VD: “chào” – “nhào”, “nh ng” – “n ng”, “trang” – “tragn”,… H u h t các l i lo i r t ít g p khi vi t tay. Chúng ph

Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

thu c vào trình tin h c và t c gõ c a ng i nh p li u. Bên c nh ó, cách b trí các phím trên bàn phím c ng có nh h ng nh t nh.

• i do máy móc. Là l i phát sinh trong quá trình x lý ngôn ng c a máy vi tính, nh nh n d ng ký t (OCR), nh n d ng ti ng nói,… V i OCR, l i th ng g p là do các ch cái hay d u câu có cách vi t g n gi ng nhau, VD: ‘l’ và ‘1’, ‘+’ và ‘t’,… Còn v i nh n d ng ti ng nói, i c phát sinh do cách phát âm c a ng i nói, ho c tách chu i âm thanh thành t ng t không úng (ch x y ra v i các ngôn ng bi n cách nh ti ng Anh). VD: “inside” – “in side”, “aboard” – “a board”,… Nh ng l i này nhi u hay ít ph thu c vào kh n ng c a h nh n d ng. Và trong th c t , m t h nh n d ng hoàn ch nh không th thi u kh i ki m l i chính t , dù ch m c n gi n.

Một phần của tài liệu cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(116 trang)