Tách từ trong văn bản tiếng Việt

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 27 - 28)

CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN

3.2.Tách từ trong văn bản tiếng Việt

Tách từ là một khó khăn chính trong việc xử lý văn bản theo ngữ nghĩa đối với các ngôn ngữ châu Á nhƣ tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt. Mặc dù đƣợc viết bằng các ký tự Latinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngơn ngữ Đông Nam Á khác nhƣ khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu.

Do đó rất khó có thể áp dụng các kỹ thuật và hƣớng tiếp cận đã đƣợc nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt.

Tuy nhiên, việc xác định ranh giới từ trong tiếng Việt lại là bài tốn khó. Tại sao lại nhƣ vậy? Đơn vị cơ bản trong tiếng Việt là tiếng, khơng phải là từ. Từ trong tiếng Việt có một số đặc tính sau:

 Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp.  Từ đƣợc cấu trúc từ “tiếng”.

Trong khi đó, định nghĩa về từ trong tiếng Anh nhƣ sau: “Từ là một nhóm ký tự có nghĩa, đƣợc phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster). Dƣới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh. Những đặc điểm này làm cho việc tách từ tiếng Việt trở nên khó khăn hơn.

Đặc điểm Tiếng Việt Tiếng Anh

Đơn vị cơ bản Tiếng Từ

Tiền tố/Hậu tố Khơng có Có

Từ loại Chƣa đƣợc định nghĩa rõ (Not Unanimous)

Đƣợc định nghĩa rõ

Ranh giới từ Tổ hợp có nghĩa dựa vào ngữ cảnh của các tiếng

Khoảng trắng hoặc dấu câu Bảng 3: Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 27 - 28)