Phương pháp trích chọn cụm từ

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 26 - 27)

Phương pháp trích chọn cụm từ sẽ tiến hành phân tích các câu trong văn bản để tìm ra từ/cụm từ mang ý nghĩa tiêu biểu cho văn bản. Phương pháp này thường dựa vào các đặc trưng như: vị trí của cụm từ và sự phổ biến của cụm từ đó trong văn bản.

Trong [Roxana, 2002], các tác giảđã phân tích và sử dụng cụm danh từđể

làm tiêu đề cho từng đoạn văn bản. Theo đó, phương pháp này bao gồm các bước sau:

- Phân đoạn văn bản thành các câu rời rạc.

- Gán nhãn từ loại cho các từ trong câu (POS Tagging). - Tìm các danh từ/cụm danh từ trong câu.

- Tìm ra câu quan trọng nhất trong văn bản.

- Tìm ra chủđề của câu quan trọng nhất ở bước trên và coi đó là tiêu đề

của đoạn văn bản.

Trong phương pháp này, các tác giả có đưa ra khái niệm chủ đề của một câu. Chủ đề của một câu được định nghĩa là cụm danh từ mang ý nghĩa quan trọng nhất trong câu đó, thông thường được xác định theo “kinh nghiệm” (heuristic) đối với các ngôn ngữ tuân theo thứ tục SVO. Nếu câu không có cụm danh từ thì câu đó không được coi là câu quan trọng nhất trong văn bản. Cách tiếp cận để tìm ra câu quan trọng nhất trong văn bản là sử dụng độđo cosin giữa các câu làm trọng số cho một đồ thị mà các đỉnh chính là các câu. Câu quan trọng nhất sẽ là câu tương ứng với đỉnh có tổng trọng số của các cạnh nối với

Phương pháp này tỏ ra khá hiệu quả và đã thực sự đạt được kết quả cao trong DUC 2002 và đây cũng là phương pháp luận văn lựa chọn để làm thực nghiệm do nó còn có thể áp dụng để phân đoạn văn bản. Ngoài ra phương pháp này không đòi hỏi dữ liệu có sẵn để huấn luyện nên sẽđặc biệt thích hợp với sự

khó khăn trong việc tìm kiếm và chuẩn bị dữ liệu trong nước.

Một phần của tài liệu Tự động sinh mục lục cho văn bản (Trang 26 - 27)