Các đặc điểm chính tả và văn bản tiếng Việt

Một phần của tài liệu các nghiên cứu tổng quan của em về Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản. (Trang 36 - 37)

III. Các giải pháp áp dụng cho Vietnamese Text Mining

e. Các đặc điểm chính tả và văn bản tiếng Việt

Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng

trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục.

Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau:

- Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường

bị sử dụng lẫn nhau.

- Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa

phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”. - Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm

có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”.

- Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy

nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”.

- Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà

không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”...

- Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt

giữa nối tên riêng hay chú thích.

Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả.

Một phần của tài liệu các nghiên cứu tổng quan của em về Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản. (Trang 36 - 37)

Tải bản đầy đủ (DOC)

(41 trang)
w