c. Mô hình tập thô dung sai
3.1.3. Phân loại bài toán Tóm tắt văn bản
Bài toán Tóm tắt văn bản được chia thành nhiều loại. Mỗi loại được sử dụng cho các mục đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ thuật riêng. Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết các dạng yêu cầu đó.
• Tóm tắt một văn bản và Tóm tắt nhiều văn bản
Khi xét đầu vào một hệ thống Tóm tắt văn bản, ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn bản (Multi-Document). Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản đó. Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạn tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều văn bản khác nhau. Tất nhiên, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng. Ngoài ra, tóm tắt nhiều văn bản còn phải đối mặt với các vấn đề như dư thừa
trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp trong xử lý lớn.
• Trích rút và Tóm lược
Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai dạng tóm tắt. Đó là Trích rút (Extraction) và Tóm lược (Abstraction). Việc phân biệt hai dạng tóm tắt này là rất cơ bản và quan trọng.
Trích rút là quá trình thu gọn văn bản mà trong kết quả ra chứa các đơn vị ngữ liệu văn bản nguồn. Tóm lược là quá trình thu gọn văn bản mà trong kết quả ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn.
Ví dụ, có đoạn văn sau ( được đánh số thứ tự câu ) :
"Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ1. Ba anh em chúng em đã chờ những ngày này khá lâu rồi2. Chả là anh cả em được về phép thăm gia đình nhân dịp Tết3. Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn4. Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình5. Bữa ăn đã làm nên một cuối tuần tuyệt vời6"
Văn bản kết quả của quá trình Trích rút :
"Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối tuần tuyệt vời".
Văn bản kết quả của quá trình Tóm lược : "Một buổi cuối tuần vui vẻ của gia đình em".
Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 của đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm. Còn câu duy nhất của văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu của văn bản nguồn. Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn. Đây chính là sự khác biệt lớn giữa Trích rút và Tóm lược.
Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn là xây dựng một hệ thống Trích rút. Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ thấy rõ hơn điều này.
Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :
• Tóm tắt chỉ định ( Indicative )
Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp, đọc sâu nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả tìm kiếm… • Tóm tắt thông tin ( Informative )
Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc. Ví dụ như tóm tắt một tiểu thuyết thành đoạn văn năm bảy trang.
• Tóm tắt đánh giá ( Evaluative )
Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt. Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo. Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động.
• Tóm tắt chung và Tóm tắt hướng truy vấn
Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn
• Tóm tắt chung ( Generic )
Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan). • Tóm tắt hướng truy vấn ( Query-Oriented )
Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn.Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể.
• Tóm tắt cơ bản và Tóm tắt chuyên môn
Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn.
• Tóm tắt cơ bản
Tóm tắt này dành cho người thông thường.
Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học…
• Tóm tắt chuyên môn
Tóm tắt dành cho người đã có nền tảng, chuyên môn. Những bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn.
Ví dụ : ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học…
• Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ và Tóm tắt đan xen ngôn ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứng dụng tóm tắt :
• Tóm tắt đơn ngôn ngữ
Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả ra là văn bản ngôn ngữ đó. • Tóm tắt đa ngôn ngữ
Mỗi văn bản nguồn chỉ có một loại ngôn ngữ. Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ. Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn.
• Tóm tắt đan xen ngôn ngữ
Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp. Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ
• Ứng dụng trên Desktop và ứng dụng trên Web
Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau : • Ứng dụng trên Desktop
Ứng dụng phát triển trên máy để bàn, đòi hỏi độ chính xác cao, có khả năng Tóm lược (Abstract), độ nén không cao.
• Ứng dụng trên Web
Ứng dụng phát triển trên môi trường Web, đòi hỏi thời gian thực hiện nhanh, nên thường là Trích rút (Extract), độ nén lớn.
Ví dụ : Tóm tắt danh mục từ Search Engine, trang tin…