Xử lý tiếng Việt trong phân loại văn bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Trang 31 - 32)

Tiếng Việt là ngơn ngữ đơn lập [7]. Khác với các ngơn ngữ Châu Âu, mỗi từ là một nhĩm các ký tự cĩ nghĩa được cách nhau bởi một khoảng trắng, việc xác định từ chỉ đơn giản dựa vào khoảng trắng để tách từ. Ví dụ, câu “I am a doctor” sẽ được tách thành 4 từ: I, am, a, doctor. Với tiếng Việt, nếu dựa vào khoảng trắng để tách ta chỉ thu được các tiếng. Từ cĩ thể được ghép từ một hay nhiều tiếng, phải cĩ

ý nghĩa hồn chỉnh và cĩ cấu tạo ổn định. Câu “Tơi là một bác sỹ” được tách thành 4 từ: Tơi, , một, bác sỹ; trong đĩ, từ “bác sỹ” được hình thành từ hai tiếng “bác” và “sỹ”.

Hiện nay cĩ rất nhiều phương pháp được sử dụng để tách từ tiếng Việt. Tuy nhiên, do sự phức tạp của ngữ pháp tiếng Việt nên chưa cĩ phương pháp nào đạt được chính xác 100%. Và việc lựa chọn phương pháp nào là tốt nhất cũng đang là vấn đề tranh cãi.

Tiếng Việt cĩ các từ đồng nghĩa nhưng khác âm. Các cơng cụ tìm kiếm hiện nay cịn nhiều hạn chế trong việc hỗ trợ xác định các từ đồng nghĩa. Vì vậy, kết quả trả về sẽ khơng đầy đủ.

Ngược lại, cĩ những từ đồng âm khác nghĩa. Các hệ thống tìm kiếm trả về các văn bản cĩ chứa các từ được tách trong câu truy vấn mà khơng xác định chúng cĩ thực sự liên quan khơng. Vì vậy, kết quả khơng chính xác.

Một số từ xuất hiện rất nhiều nhưng khơng cĩ ý nghĩa trong văn bản. Các từ như: “/với/...” cĩ tần số xuất hiện rất lớn trong các văn bản. Nếu tìm cách trả về các văn bản cĩ chứa những từ này thì kết quả sẽ vơ nghĩa.

Cĩ nhiều phương pháp để tách từ trong tiếng Việt. Trong khuơn khổ nội dung luận văn sẽ sử dụng thư viện vntokenizer 4.1 dùng để tách từ đang được sử dụng phổ biến hiện nay.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(57 trang)