Những khó khăn trong Phân cụm tiếng Việt

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet (Trang 32 - 33)

1.5.1 Vấn đề tách từ tiếng Việt

Có thể nói tách từ là giai đoạn khó khăn nhất trong giai đoạn tiền xử lý thông tin tiếng Việt. Đối với tiếng Anh, việc xác định từ chỉ đơn giản dựa vào khoảng trắng để tách từ. Ví dụ, câu: “Hello the world” sẽ được tách thành 3 từ: hello, the, world. Tuy nhiên với tiếng Việt, tách từ dựa vào khoảng trắng sẽ chỉ thu được các từ đơn chứ không thể hiện được các từ ghép. Từ được tách ra phải có ý nghĩa hoàn chỉnh và có cấu tạo ổn định. Câu “Xin chào thế giới” nếu sử dụng phương pháp khoảng trắng sẽ ra được 4 từ: Xin, chào, thế, giới. Tuy nhiên để cho ngữ nghĩa hoàn chỉnh, nó nên được tách thành 2 từ: Xin chào và thế giới.

Hiện nay có rất nhiều phương pháp được sử dụng để tách từ tiếng Việt. Tuy nhiên, với sự phức tạp của ngữ pháp tiếng Việt nên chưa có phương pháp nào đạt được chính xác 100% và việc lựa chọn phương pháp nào là tốt nhất cũng đang là vấn đề tranh cãi.

1.5.2 Vấn đề bảng mã tiếng Việt

Không như tiếng Anh, tiếng Việt có rất nhiều bảng mã đòi hỏi phải xử lý. Để có thể tách từ, phân cụm chính xác, chúng ta cần phải xác định xem bảng mã nào được sử dụng trong tài liệu (TCVN3, VNI, ViQR, Unicode,…)

1.5.3 Các khó khăn khác

- Tiếng Việt có các từ đồng nghĩa nhưng khác âm. Để phân cụm cho chính xác, chúng ta phải có phương pháp bóc tách phù hợp để xác định được các từ đồng nghĩa này.

- Tiếng Việt cũng có các từ đồng âm nhưng khác nghĩa. Việc này sẽ dẫn đến sự nhập nhằng trong phân cụm thông tin tiếng Việt.

- Một số từ xuất hiện nhiều nhưng không có ý nghĩa trong tài liệu. Các từ: với, và, nhưng,… có tần số xuất hiện lớn trong bất cứ văn bản nào. Việc xuất hiện nhiều các từ này cũng sẽ dẫn đến sự nhập nhằng trong phân cụm thông tin, vì thế người ta thường loại bỏ trước chúng bằng phương pháp Stop Words.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(91 trang)