Giai đoạn sinh văn bản tóm tắt

Một phần của tài liệu (LUẬN văn THẠC sĩ) tóm tắt văn bản dựa vào trích xuất câu (Trang 41 - 42)

Dựa trên danh sách câu khả dụng, thực hiện sắp xếp các câu theo độ quan trọng (trọng số câu) từ lớn đến nhỏ rồi trích xuất lấy đủ số lượng câu để tạo văn bản tóm tắt theo tỷ lệ nén xác định.

Ví dụ 2.2.3: Thực hiện tóm tắt văn bản ở ví dụ 2.2.2 theo tỷ lệ nén 50%

Sau khi tạo danh sách câu khả dụng như trong ví dụ 2.2.2, thực hiện sắp xếp lại danh sách câu khả dụng theo trọng số giảm dần chúng ta có:

StCoAvaiList = {S2, S4, S1}

Bản tóm tắt theo tỷ lệ nén 50% sẽ có 2 câu:

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”

Kết quả tóm tắt không thông qua danh sách câu khả dụng sẽ là:

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S3 = “Nhụy vàng bông trắng lá xanh”

Dễ thấy đây là kết quả không tốt bằng tóm tắt qua danh sách câu khả dụng.

2.3. Tổng kết chương

Chương này đã trình bày cụ thể khái niệm độ tương đồng ngữ nghĩa; phương pháp xác định độ tương đồng ngữ nghĩa dựa trên suy luận chủ đề ẩn LDA và phương pháp xác định độ tương đồng ngữ nghĩa dựa vào mạng Wikipedia. Với lựa chọn xây dựng mô hình tóm tắt văn bản dựa vào trích xuất câu theo suy luận chủ đề ẩn, luận văn đã trình bày chi tiết về mô hình tóm tắt văn bản được cài đặt trên máy tính.

Chương tiếp theo, luận văn sẽ trình bày các thực nghiệm để chứng minh tính khả thi và triển vọng của mô hình khi áp dụng vào thực tế.

Chương 3

THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT

Một phần của tài liệu (LUẬN văn THẠC sĩ) tóm tắt văn bản dựa vào trích xuất câu (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(57 trang)