Các giải pháp, đánh giá hiệu quả, đề ra giải pháp- 123docz.net

3. Các giải pháp áp dụng cho Vietnamese Text Mining 1 Đặc trưng của văn bản tiếng Việt

3.2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt

Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục.

Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau:

- Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường bị sử dụng lẫn nhau.

- Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”.

- Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”.

- Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”.

- Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”...

- Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt giữa nối tên riêng hay chú thích.

Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả.

3.2 Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt tiếng Việt

Có rất nhiều bài toán phân loại văn bản. Tuy nhiên, ở đây em chỉ xin nhắc tới hai bài toán đại diện, và cũng là hai bài toán đang được quan tâm nhiều nhất. Đó là bài toán phân loại văn bản tiếng Việt và thu thập thông tin từ văn bản tiếng Việt.