Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt
2.2. Bài toán tách câu
2.2.1. Giới thiệu bài toán
Đây là tiền đề cho mọi phân tích và xử lý của các giai đoạn sau của q trình
rút trích tập các phần quan trọng của văn bản. Kết quả của việc tách câu ảnh hưởng
nhiều đến kết quả rút trích của hệ thống. Có thể mơ tả như sau : Từ một văn bản gốc, sau khi xử lý sẽ cho ra một tập các câu đơn hoặc câu ghép tùy theo yêu cầu của bài toán gốc.
Mục tiêu của bài toán là xác định ranh giới rõ ràng của các câu tiếng Việt,
phân biệt câu với các đơn vị văn bản khác như từ, ngữ, đoạn,… làm cơ sở để phục vụ cho các bài toán khác trong xử lý ngôn ngữ tự nhiên như dịch tự động, tách từ, gán
2.2.2. Dấu hiệu đặc trưng nhận dạng câu
Xét về mặt cấu tạo ngôn ngữ tiếng Việt có hai loại câu chính là câu đơn và câu ghép. Tùy vào mục tiêu bài toán là tách câu đơn hay câu ghép mà xử lý phù hợp.
• Câu đơn :
Một câu đơn cơ bản bao gồm có một nịng cốt đơn, nịng cốt đơn này bao gồm hai thành phần chính là chủ ngữ và vị ngữ.
Ví dụ :
Bài báo này /trình bày một phương pháp tóm tắt văn bản. Tác giả / sử dụng thuật toán Dijkstra.
Câu đơn cũng có thể có những thành phần khác không phải nòng cốt như
thành phần phụ của câu (trạng ngữ, khởi ngữ) hay thành phần biệt lập (chuyển ngữ, cảm thán ngữ, hô ngữ ).
Ví dụ :
“Ngồi ra, báo cáo cịn sử dụng phương pháp thống kê.”
Xét về mặt tính chất, các văn bản khoa học hầu như khơng có các thành phần cảm thán hay hơ ngữ.
• Câu ghép :
Câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế có một nịng cốt đơn, câu
ghép cũng có thể có các thành phần ngồi nịng cốt như câu đơn. Về cấu trúc câu ghép thì hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ).
• Nhận dạng câu :
Vì mục đích của bài tốn rút trích như đã đề cập ở trên là phải rút được các
thành phần quan trọng trong văn bản. Đối với việc tách câu trong đề tài này để bảo
toàn ngữ nghĩa cho câu một cách đầy đủ nhất thì ta cần xây dựng module tách câu
không phân biệt câu ghép hay câu đơn mà phân biệt qua các dấu hiệu nhận dạng đặc trưng câu thông qua các dấu kết thúc câu.
Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi).
Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng(-). Trong
trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:)). Còn nếu sau dấu hai chấm là một mệnh đề diễn giải mà không phải xuống dịng thì khơng tách để bảo
tồn nghĩa cho câu. Ví dụ : “Chúng tơi sử dụng hai phương pháp : dùng giải thuật di truyền và thống kê.”
Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu.
Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt, vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai. Vì vậy ta sẽ tách vế này ra thành một câu.
Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép
song song. Vì vậy ta có thể tách câu giống như câu ghép song song.
Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu
được
vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được. Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời
đối
thoại, liệt kê. Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta khơng
nên tách câu.
Phương pháp tách câu cụ thể trong đề tài sẽ được trình bày trong chương 3.