Phương hướng cải tiến

Một phần của tài liệu msc07_nguyen_viet_cuong_theisis (Trang 43)

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ

4.5. Phương hướng cải tiến

Các kết quả thử nghiệm đã chứng mình bài tốn xây dựng mục lục văn

bản là khả thi và có triển vọng phát triển. Các thuật tốn được trình bày trong luận văn tuy còn tương đối đơn giản và hầu hết là dựa trên luật nhưng đã tỏ ra

rất hiệu quả trong thử nghiệm. Tuy nhiên ta vẫn có thể tăng cường chất lượng của thuật tốn thơng qua một số cải tiến sau:

- Đưa thêm các dấu hiệu nhận biết phân đoạn đặc trưng theo từng ngơn

ngữ, ví dụ như trong tiếng Anh ta thường có “In this section”, “As already discussed”,… Các yếu tố này mang tính thống kê và do đó có thể thực hiện một mơ hình thống kê trên một tập văn bản có sẵn để tìm ra tập các dấu hiệu chuyển chủ đề thông qua ngay câu đầu tiên của mỗi

đoạn văn.

- Trong quá trình xây dựng các chuỗi token, nếu sử dụng từ gốc của các token thì khi đó sẽ làm giảm được nhiễu và tăng cường độ chính xác

khi đo độ tương tự giữa các chuỗi token do chúng ta có thể xem xét

được danh từ và tính từ với cùng một gốc thì tương đương nhau.

- Sử dụng các mơ hình học có giám sát hoặc bán giám sát để học từ những dữ liệu có sẵn với các đặc trưng như: danh từ/cụm danh từ ở

câu nào, vị trí như thế nào trong câu thì sẽ xuất hiện ở trong tiêu đề.

Việc lựa chọn danh sách các từ cho tiêu đề dựa theo một mơ hình học với các đặc trưng không liên quan đến bản thân từ sẽ giúp cho việc lựa chọn được những từ quan trọng và từ hiếm, chưa từng xuất hiện trong dữ liệu học.

- Để đảm bảo cú pháp của tiêu đề, cần thiết phải áp dụng một mơ hình

xác suất sinh để tạo ra một tiêu đề dễ hiểu và quen thuộc. Tuy nhiên,

để đảm bảo được sự chính xác thì cần áp dụng mơ hình cho các lĩnh

vực khác nhau. Việc áp dụng cho từng loại văn bản cụ thể sẽ giúp tăng

độ chính xác và chất lượng của mơ hình.

Một phần của tài liệu msc07_nguyen_viet_cuong_theisis (Trang 43)

Tải bản đầy đủ (PDF)

(47 trang)