Sinh tiêu đề cho văn bản

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 25 - 26)

So với toàn bộ văn bản, tiêu đề sẽ biểu diễn ngắn gọn thông tin trong văn bản và do đó giúp người đọc nhanh chóng nắm bắt được đại ý của toàn văn bản. Tựđộng sinh tiêu đề cho văn bản là một bài toán phức tạp, nó không chỉ đòi hỏi lựa chọn những từ có khả năng xuất hiện trong tiêu đề mà còn phải được sắp xếp theo một thứ tự phù hợp, đúng thứ tự và dễ hiểu. Bài toán này có nhiều khác biệt so với bài toán tóm tắt văn bản thông thường. Ở bài toán tóm tắt văn bản thông thường, độ dài của đoạn tóm tắt thường là 50, 100, 200 hay 400 từ (theo chuẩn của DUC), nhưng với bài toán sinh tiêu đề thì độ dài đó chỉ là từ 1 đến 12 từ

[Banko] (Hình 2). Cũng vì lí do độ dài ngắn như vậy cho nên trong bài toán này, người ta thường dùng các phương pháp trích chọn ra các từ hoặc cụm từ mang ý nghĩa chính trong văn bản mà cụ thể là các danh từ/cụm danh từ hoặc động từ/cụm động từ [Roxana 2002].

Hình 2. Phân bốđộ dài tiêu đề văn bản theo Reuters-1997

Hiện nay, phương pháp sinh tiêu đề cho văn bản được chia ra làm hai hướng chính:

- Sinh tiêu đề cho văn bản dựa trên việc trích chọn ra một từ/cụm từ

“đặc trưng” nhất cho văn bản. Với phương pháp này thì độ dài của tiêu

đề thường rất ngắn (chỉ từ 1 đến 3 từ) nhưng về mặt cú pháp thì luôn

nên rất thích hợp với các trường hợp không có dữ liệu huấn luyện. [Roxana].

- Sinh tiêu đề cho văn bản được chia làm hai bước, bước thứ nhất sẽ là chọn ra các từ/cụm từ mang ý nghĩa chính trong văn bản. Bước thứ hai sẽ là sắp xếp các cụm từ để mang đúng cú pháp và dễ hiểu nhất. [Witbrock, Branavan].

Trong phần tiếp theo, luận văn sẽ lần lượt giới thiệu hai thuật toán điển hình đại diện cho hai phương pháp trên.

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 25 - 26)