Trong phạm vi cấu tạo câu.

Một phần của tài liệu BÀI TẬP LỚN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Tìm hiểu về bài toán phân loại văn bản và thu thập thông tin (Trang 27)

3. Các giải pháp áp dụng cho Vietnamese Text Mining 1 Đặc trưng của văn bản tiếng Việt

3.1.2.2 Trong phạm vi cấu tạo câu.

Tức là trong phạm vi cú pháp, ta có các phương tiện trật tự, hư từ và ngữ

điệu.

Trật tự sắp đặt các từ là phương tiện chính để biểu thị quan hệ ngữ pháp – tức là quan hệ cú pháp – giữa các từ trong một câu [3]. Trong tiếng Việt, trật tự các yếu tố cấu thành được quy định bằng một vị trí nhất định. Khi vị trí thay đổi thì nghĩa cũng thay đổi theo. Ví dụ ta có các hoán vị các tiếng của một tổ hợp như sau:

Sai đâu sửa đấy. Sửa đâu sai đấy. Sửa đấy sai đâu. Đâu sai sửa đấy. Đấy sai sửa đâu.

Trật tự theo hướng thuận biểu hiện ở chỗ yếu tố chính trước, yêu tố phụ sau, yếu tố được xác định trước, yếu tố xác định sau, yếu tố dùng để khai triển đứng liền sau từ, nếu có cách ly cũng đứng không quá xa.

Hư từ là những từ dùng để biểu thị một số những quan hệ cú pháp nhất định.

Ví dụ trong câu Anh, chị đã đi chơi rồi, có thể dùng từ để nối hai từ anh, chị để

làm rõ hơn mối quan hệ liên hợp, bình đẳng giữa hai từ. Như thế từ là một hư từ.

Tuy nhiên ta có thể thấy rằng hư từ có những sắc thái về nghĩa [3], ví dụ như ta

Điều đó đặt ra một khó khăn khi tiến hành nghiên cứu tiếng Việt trên máy tính, đó là việc xác định ngữ nghĩa của một câu, vì trong văn bản tiến Việt thì cách viết hay biểu thị trên khá phổ biến.

Tất nhiên, ngữ điệu đóng vai trò vô cùng quan trọng trong tiếng Việt, tuy nhiên trong phạm vi nghiên cứu về văn bản tiếng Việt, ngữ điệu sẽ không được đi sâu nghiên cứu.

3.1.3 Từ tiếng việt3.1.3.1 Từ đơn - từ ghép

Một phần của tài liệu BÀI TẬP LỚN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Tìm hiểu về bài toán phân loại văn bản và thu thập thông tin (Trang 27)

w