Dấu hiệu đặc trưng nhận dạng câu

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 31 - 32)

Xét về mặt cấu tạo ngôn ngữ tiếng Việt có hai loại câu chính là câu đơn và câu ghép. Tùy vào mục tiêu bài toán là tách câu đơn hay câu ghép mà xử lý phù hợp.

Câu đơn :

Một câu đơn cơ bản bao gồm có một nòng cốt đơn, nòng cốt đơn này bao gồm hai thành phần chính là chủ ngữ và vị ngữ.

Ví dụ :

Bài báo này /trình bày một phương pháp tóm tắt văn bản. Tác giả / sử dụng thuật toán Dijkstra.

Câu đơn cũng có thể có những thành phần khác không phải nòng cốt như

thành phần phụ của câu (trạng ngữ, khởi ngữ) hay thành phần biệt lập (chuyển ngữ, cảm thán ngữ, hô ngữ ).

Ví dụ :

“Ngoài ra, báo cáo còn sử dụng phương pháp thống kê.”

Xét về mặt tính chất, các văn bản khoa học hầu như không có các thành phần cảm thán hay hô ngữ.

Câu ghép :

Câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế có một nòng cốt đơn, câu ghép cũng có thể có các thành phần ngoài nòng cốt như câu đơn. Về cấu trúc câu ghép thì hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ).

Nhận dạng câu :

Vì mục đích của bài toán rút trích như đã đề cập ở trên là phải rút được các thành phần quan trọng trong văn bản. Đối với việc tách câu trong đề tài này để bảo toàn ngữ nghĩa cho câu một cách đầy đủ nhất thì ta cần xây dựng module tách câu không phân biệt câu ghép hay câu đơn mà phân biệt qua các dấu hiệu nhận dạng đặc trưng câu thông qua các dấu kết thúc câu.

Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi).

Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng(-). Trong trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:)). Còn nếu sau dấu hai chấm là một mệnh đề diễn giải mà không phải xuống dòng thì không tách để bảo toàn nghĩa cho câu. Ví dụ : “Chúng tôi sử dụng hai phương pháp : dùng giải thuật di truyền và thống kê.”

Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu. Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt, vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai. Vì vậy ta sẽ tách vế này ra thành một câu.

Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép song song. Vì vậy ta có thể tách câu giống như câu ghép song song.

Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu

được

vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được. Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời

đối

thoại, liệt kê. Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên tách câu.

Phương pháp tách câu cụ thể trong đề tài sẽđược trình bày trong chương 3.

2.3. Bài toán tách từ tiếng việt2.3.1. Giới thiệu bài toán

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 31 - 32)