III. Các giải pháp áp dụng cho Vietnamese Text Mining
d. Câu tiếng việt
Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp và có tính chất độc lập [3].
Xét về cấu trúc câu, tiếng Việt có hai loại câu là câu đơn và câu ghép.
d.1. Câu đơn
Câu đơn là loại câu cơ sở của tiếng Việt, bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, câu đơn mang nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm. Ví dụ:
- Cái xe này tốt.
- Tôi chưa làm xong việc này. - Anh đi làm chưa?
- Nó đang đi đến trường. - Con đi ngủ đi!
- Con mèo mới đẹp làm sao!
Nòng cốt đơn của một câu đơn là một kết cấu chủ vị. Ngoài ra, câu đơn còn có các thành phần ngoài nòng cốt [3]:
- Thành phần than gọi. Ví dụ "bạn ơi, chúng ta đi nào".
- Thành phần chuyển tiếp. Ví dụ "Anh Trường, trái lại, không làm gì cả". - Thành phần chú thích. Ví dụ "Nó, em tôi, rất thông minh".
- Thành phần tình huống. Ví dụ " Trong máy tính, dữ liệu ở dạng nhị phân". - Thành phần khởi ý. Ví dụ " Thuốc, anh ấy không hút".
Để biểu diễn một câu đơn, người ta thường dùng mô hình suy diễn câu đơn như sau: Px - Cx - Vx - Bx.
Với P: thành phần phụ C: chủ ngữ V: vị ngữ
B: Bổ ngữ, định ngữ.
x: thành phần có thể khai triển tiếp.
Cách biểu diễn này rõ ràng rất thuận tiện trong việc xây dựng bộ luật cú pháp và tiến hành phân tích cú pháp cho một câu đầu vào.
d.2. Câu ghép
Về mặt ngữ pháp, câu ghép bao gồm bộ phận chủ yếu là một nòng cốt ghép, được tạo nên bởi ít nhất hai vế và mỗi vế thường bao gồm một nòng cốt đơn. Ví dụ:
Tuy rằng câu đơn chỉ có một nòng cốt đơn nhưng không phải bao giờ câu đơn cũng ngắn hơn câu ghép, có những câu rất đơn giản như câu trên cũng là một câu ghép. Người ta có thể chia câu ghép thành hai loại: câu ghép song song và câu ghép qua lại [3].
d.2.1. Câu ghép song song
Là loại câu ghép có thể có hai vế hay nhiều hơn, tuy nhiên sự liên kết giữa các vế là lỏng lẻo, có thể tách thành các câu đơn mà vẫn bảo toàn nghĩa. Trong một số trường hợp các vế có quan hệ, sử dụng các kết từ, tuy nhiên ý nghĩa độc lập của các vế vẫn tương đối rõ ràng. Ví dụ:
Khán giả hò reo, cờ phất rực trời, cuộc đấu diễn ra quyết liệt. Nó vẫy tôi và tôi tiến lại phía nó.
d.2.2. Câu ghép qua lại
Là loại câu có hai vế và vế này là điều kiện tồn tại của vế kia. Có cả hai vế thì câu mới có ý nghĩa trọn vẹn. Nối giữa hai vế là các liên từ, thông thường người ta dùng cả cặp liên từ. Ta có thể biểu diễn câu ghép là câu có dạng như sau:
xN1 + yN2
Một trong các liên từ có thể được loại bỏ. Ta có một số ví dụ như sau: - (Bởi) vì N1 (cho) nên/ mà N2.
- Để N1 (cho) nên/ mà N2. - Nếu N1 thì N2.
- Không những N1 mà còn N2
- ...
Tôi đi thì nó chết
Vì phở ngon nên cửa hành của nó mới đông khách thế.
Ặ
d.2.3. Các thành phần câu.
- Chủ ngữ: Thành phần chủ yếu của câu.
- Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ ngữ.
- Trạng ngữ: Thành phần thứ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian
- Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ. - Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ.