Giới thiệu bài toán soát lỗi chính tả tiếng Việt

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 31)

Soát lỗi chính tả là phần mềm thực hiện việc phát hiện ra lỗi chính tả trong văn bản và gợi ý từ thay thế hoặc tự động thay thế

2.2.1.1. Đặc điểm tiếng Việt

Tiếng Việt là một ngôn ngữ đơn lập, quan hệ giữa các từ được biểu thị bằng những phương tiện nằm ngoài từ như trật tự từ, hư từ. Đặc điểm này được áp dụng cho cả về ngữ âm, ngữ pháp và ngữ nghĩa.

Các đơn vị của tiếng Việt

Tiếng (âm tiết): Âm tiết là đơn vị phát âm tự nhiên nhỏ nhất trong ngôn ngữ. Trong tiếng Việt, một âm tiết bao giờ cũng được phát ra với một thanh điệu, và khi viết được tách rời với âm tiết khác bằng một khoảng trống. Trên chữ viết, mỗi âm tiết tiếng Việt được ghi thành một “chữ” và đọc thành một “tiếng”. Có nhiều cách mô tả cấu trúc âm tiết tiếng Việt khác nhau: 3 thành phần, 4 hay 5 thành phần, được thể hiện rõ ở bảng 2.2; bảng 2.3; bảng 2.4

Bảng 2.2. Cấu trúc âm tiết 3 thành phần

<Thanh điệu> [Phụ âm] <Vần>

Bảng 2.3. Cấu trúc âm tiết 4 thành phần

<Thanh điệu>

Bảng 2.4. Cấu trúc âm tiết 5 thành phần

<Thanh điệu>

[Âm đầu] Vần

[Âm đệm] <Âm chính> [Âm cuối]

Các thành phần trong dấu <> là bắt buộc.Các thành phần trong dấu [] là không bắt buộc.Thanh ngang (không được viết) cũng được tính là một dấu thanh.

Bảng 2.5. Các thành phần âm tiết của cấu trúc âm tiết 4 thành phần

Phụ âm đầu b c d đ g h k l m n q r s t v x ch gh gi kh ng nh ph qu th tr ngh

Nguyên âm

a ă â e ê i o ô ơ u ư y ai ao au ay âu ây eo êu ia iu iê oa oă oe oi oo ôi ơi ua uâ ui uê uô uơ uy ưa ưi ươ ưu yê oai oay uây uôi iêu uyê ươu ươi uya yêu uyu

Phụ âm cuối c p t m n ch ng nh

Thanh điệu Ngang, huyền, hỏi, ngã, sắc, nặng

Từ: Từ là đơn vị ngôn ngữ có nghĩa hoàn chỉnh. Từ tiếng Việt bao gồm một hay nhiều âm tiết sắp xếp theo một thứ tự nhất định. Có từ đơn, từ ghép và từ láy. Từ trong tiếng Việt có khả năng hoạt động tự do và độc lập về mặt cú pháp. Từ tiếng Việt không có sự biến dạng (số nhiều, ngôi thứ, bị động…) như trong nhiều ngôn ngữ khác.

Câu: Câu do các từ hợp thành theo qui tắc nhất định. Trong tiếng Việt, các qui tắc này rất đa dạng.

Dấu thanh: Tiếng Việt gồm có 6 thanh điệu: ngang, huyền, hỏi, ngã, sắc, nặng. Trong đó có 5 dấu thanh, thanh ngang không được biểu diễn bởi dấu thanh nào.

Chuẩn chính tả tiếng việt

Một trong những yếu tố để giảm bớt khó khăn của công việc kiểm tra chính tả tiếng Việt là yêu cầu chúng ta phải có một chuẩn chính tả tiếng Việt thống nhất chung. Một số quy định mang tính pháp quy về chính tả tiếng Việt tại

2.2.1.2. Phân loại lỗi chính tả

Có nhiều cách phân loại lỗi chính tả theo các tiêu chí khác nhau. Xét theo quan điểm của chương trình bắt lỗi chính tả ở mức từ thì lỗi chính tả có thể được phân làm hai loại là lỗi phi từ (non-word) và lỗi thực từ (real-word).

Lỗi phi từ (non-word) là lỗi tạo ra từ sai, nghĩa là từ đó hoàn toàn không có trong từ điển từ vựng tiếng Việt hoặc một số ngữ liệu đầu vào cho quá trình tiền xử lý văn bản như: từ điển tên riêng, từ điển viết tắt, từ điển vay mượn,... Đây là loại lỗi dễ phát hiện.

Lỗi thực từ (real-word) là lỗi chính tả mà từ đó có trong từ điển nhưng sử dụng từ sai. Nếu không dựa vào ngữ cảnh xung quanh thì không thể xác định được đó có phải là lỗi chính tả hay không. Đây là loại lỗi rất khó phát hiện và khó xử lý.

Một trong những sự khác biệt chính của ngôn ngữ tiếng Việt và tiếng Anh là: một câu tiếng Anh có thể phân tách các từ rõ ràng bởi khoảng trắng (dấu cách) còn từ trong tiếng Việt không được xác định bởi khoảng trắng, vì trong tiếng Việt, một từ được cấu tạo bởi một tiếng hoặc sự kết hợp của hai hay nhiều tiếng như từ ghép, từ láy,...Ví dụ với câu: “Cái bàn là của tôi” có thể hiểu là: “Cái|bàn là|của|tôi” hoặc “Cái|bàn|là|của|tôi”; Hoặc câu “Ông già đi nhanh quá” có thể hiểu là “Ông già|đi|nhanh quá” hoặc “Ông|già đi|nhanh quá”. Việc kiểm tra chính tả phải bắt đầu bằng việc xác định giới hạn của một từ để có thể đưa ra những đánh giá chính xác một từ là đúng hay sai chính tả trong văn cảnh cụ thể. Khi đã phân tách từ đúng thì việc soát lỗi chính tả sẽ trở nên đơn giản hơn.

Có nhiều hướng tiếp cận cho bài toán soát lỗi chính tả tiếng Việt, trong đó hướng tiếp cận dựa vào mô hình n-gram được dùng phổ biến hiện nay. (adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 31)