Phương hướng cải tiến

Các kết quả thử nghiệm đã chứng minh bài toán xây dựng mục lục văn bản là khả thi và có triển vọng phát triển. Các thuật toán được trình bày trong luận văn tuy còn tương đối đơn giản và hầu hết là dựa trên luật nhưng đã tỏ ra rất hiệu quả trong thử nghiệm. Tuy nhiên ta vẫn có thể tăng cường chất lượng của thuật toán thông qua một số cải tiến sau:

- Đưa thêm các dấu hiệu nhận biết phân đoạn đặc trưng theo từng ngôn ngữ, ví dụ như trong tiếng Anh ta thường có “In this section”, “As already discussed”,… Các yếu tố này mang tính thống kê và do đó có thể thực hiện một mô hình thống kê trên một tập văn bản có sẵn để tìm ra tập các dấu hiệu chuyển chủ đề thông qua ngay câu đầu tiên của mỗi đoạn văn.

- Trong quá trình xây dựng các chuỗi token, nếu sử dụng từ gốc của các token thì khi đó sẽ làm giảm được nhiễu và tăng cường độ chính xác khi đo độ tương tự giữa các chuỗi token do chúng ta có thể xem xét được danh từ và tính từ với cùng một gốc thì tương đương nhau.

- Sử dụng các mô hình học có giám sát hoặc bán giám sát để học từ những dữ liệu có sẵn với các đặc trưng như: danh từ/cụm danh từ ở câu nào, vị trí như thế nào trong câu thì sẽ xuất hiện ở trong tiêu đề. Việc lựa chọn danh sách các từ cho tiêu đề dựa theo một mô hình học với các đặc trưng không liên quan đến bản thân từ sẽ giúp cho việc lựa chọn được những từ quan trọng và từ hiếm, chưa từng xuất hiện trong dữ liệu học.

- Để đảm bảo cú pháp của tiêu đề, cần thiết phải áp dụng một mô hình xác suất sinh để tạo ra một tiêu đề dễ hiểu và quen thuộc. Tuy nhiên, để đảm bảo được sự chính xác thì cần áp dụng mô hình cho các lĩnh vực khác nhau. Việc áp dụng cho từng loại văn bản cụ thể sẽ giúp tăng độ chính xác và chất lượng của mô hình.

Mô hình tích hợp thuật toán

Đánh giá thuật toán phân đoạn