Một số đặc trưng của Tiếng Việt

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 93 - 95)

Tiếng Việt là ngụn ngữđơn õm tiết tức là mỗi một tiếng (õm tiết) được phỏt õm tỏch rời nhau và được thể hiện bằng một chữ viết. Tiếng Việt thuộc nhúm ngụn ngữ Đụng Nam Á, nú cú đặc điểm riờng về ký hiệu, ngữ phỏp và ngữ nghĩa, khỏc với cỏc ngụn ngữ Ấn-Âu. Mặc dự là ngụn ngữ đơn õm tiết nhưng khụng giống như

cỏc ngụn ngữđơn õm tiết khỏc như Trung Quốc hay Thỏi Lan, tiếng Việt được viết bằng cỏc ký tự Lating mở rộng. Vỡ vậy, cỏch xử lý văn bản tiếng Việt phải dựa vào

đặc trưng riờng của ngụn ngữ tiếng Việt chứ khụng thể ỏp dụng cỏc phương phỏp đĩ

được ỏp dụng cho ngụn ngữ khỏc được. Tỏch từ loại là một bài toỏn quan trọng trong xử lý văn bản tiếng Việt, bài toỏn này hiện nay đĩ được giải quyết tương đối tốt bởi nhiều tỏc giả bằng nhiều phương phỏp khỏc nhau.

Về mặt đơn vị ngụn ngữ, tiếng Việt cú hai đơn vị ngụn ngữ nhỏ nhất là tiếng

và t:

Tiếng: Mỗi tiếng trong tiếng Việt được viết thành một chữ và mỗi chữ đọc thành một tiếng, mỗi chữ nằm giữa hai dấu phõn cỏch trong cõu. Tiếng dựng để tạo thành từ, tiếng cú thể cú nghĩa rừ ràng hoặc khụng cú nghĩa rừ ràng. Tiếng trong tiengs Việt cú cỏc đặc điểm sau:

- Cú tớnh độc lập cao: Trong dũng lời núi, õm tiết tiếng Việt bao giờ

cũng thể hiện khỏ đầy đủ, rừ ràng, được tỏch và ngắt ra thành từng khỳc đoạn riờng biệt.

- Cú khả năng biểu hiện ý nghĩa: Âm tiết khụng chỉ là một đơn vị

ngữ õm đơn thuần mà cũn là một đơn vị từ vựng và ngữ phỏp chủ

yếu. Ở đõy, mối quan hệ giữa õm và nghĩa trong õm tiết cũng chặt chẽ và thường xuyờn như trong từ của cỏc ngụn ngữ Âu chõu và

đõy chớnh là một nột đặc trưng loại hỡnh chủđạo của tiếng Việt. • Từ: Hiện nay đang tồn tại nhiều định nghĩa khỏc nhau về từ trong tiếng

Việt, nhưng tất cả những nghiờn cứu ngụn ngữ đều đồng ý “t” trong tiếng Việt cú những đặc điểm sau[9]:

o Từ phải đầy đủ về phương diện hỡnh thức, ngữ nghĩa và độc lập về

mặt ngữ phỏp

o Từđược xõy dựng từtiếng.

o Từ cú thể là cỏc từđơn (1 tiếng) hoặc từ phức (gồm nhiều tiếng) • Đặc điểm về chớnh tả:

Mặc dự chớnh tả tiếng Việt đĩ cú một hệ thống cỏc quy tắc chuẩn mực, nhưng vẫn cú một số từ mà tồn tại nhiều cỏch viết khỏc nhau. Sự sai khỏc này là do cỏc nguyờn nhõn sau:

o Những từđồng õm: y/i (vật lý/ vật lớ, tốc ký/ tốc kớ, bỏc sỹ/ bỏc sĩ);

d/gi (dụng bĩo/ giụng bĩo).

o Phương ngữ: chớnh đỏng/ chỏnh đỏng, con tru/ con trõu, … .

o Vị trớ dấu trong một õm: khai hoả/ khai hỏa, … .

o Cỏch viết hoa tuỳ tiện đối với cỏc danh từ riờng: tồn tại nhiều cỏch viết khỏc nhau.

o Phiờn õm tiếng nước ngồi: phiờn õm là hỡnh thức biến chữ ngoại quốc thành chữ địa phương. Nhưng hiện nay vẫn tồn tại cả hai cỏch viết phiờn õm và khụng phiờn õm, chẳng hạn: Singapo/ Xing- ga-po, America/ Hoa Kỳ, Trung Quốc/ Trung Hoa, … .

o Dấu gạch nối: thường xuất hiện khi cỏc từ đa õm nước ngồi du nhập vào Việt Nam. Để chỉ rừ đõy là chữ chứ khụng phải là một cụm chữ, người ta dựng dấu gạch nối. Tuy nhiờn vẫn tồn tại hai cỏch viết, vớ dụ Portugal được dịch thành Bồ Đào Nha/ Bồ-Đào- Nha.

Cỏch viết khụng thống nhất như vậy sẽ gõy nhiều khú khăn trong việc kiểm tra lỗi chớnh tả núi riờng và xử lý ngụn ngữ tiếng Việt núi chung.

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 93 - 95)