Đây là phương pháp đơn giản nhất. Các đơn vị ngữ liệu được trích rút hay giản lược từ các pha trước được liên kết lại thành đoạn theo thứ tự tiền định của chúng, khơng thêm bớt từ nối và cũng khơng sắp xếp lại các đơn vị ngữ liệu. Phương pháp này thường dùng cho các hệ Trích rút văn bản và Tĩm tắt chỉ định. Văn bản kết quả của phương pháp này cĩ độ dễ đọc dễ hiểu kém, thậm chí lủng củng về nghĩa vì các đơn vị ngữ liệu được trích rút mắc phải một số lỗi như mập mờ tham chiếu, khơng cĩ từ nối hoặc là thừa từ và ngữ.
Ví dụ cho một trường hợp thừa ngữ chính là ví dụ Trích rút đầu tiên:
"Hơm qua, gia đình tơi đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối tuần tuyệt vời ".
“Bữa ăn” nào, “bữa ăn” ở đâu ra? Như vậy câu cuối đã cĩ những ngữ thừa. Điều này làm người đọc khơng hiểu được kết quả.
Một ví dụ khác, đề cập về mập mờ tham chiếu (Dangling Anaphor):
Cho đoạn văn bản gốc gồm hai câu sau: "Tuấn hay đến thăm ngoại cậu ấy. Bà thường hay nấu cơm cho cậu ấy ăn." Giả sử khi trích rút đoạn trên được câu thứ hai: "Bà thường hay nấu cơm cho cậu ấy ăn". Xét riêng câu này người đọc sẽ khơng biết "Bà" và "cậu ấy" ở đây là muốn nĩi đến ai.
Các lỗi này sẽ được khắc phục bằng cách cắt bỏ các từ (ngữ) thừa, thêm các từ (ngữ) thiếu, thay thế các tham chiếu bằng các ngữ được tham chiếu. Việc này
thơng qua các thơng tin về liên kết tham chiếu ở pha phân tích, áp dụng các phương pháp hợp giải tham chiếu (Coreference Resolution) để thay thế, tránh tình trạng mập mờ tham chiếu. Khi áp dụng các phương pháp này thì ứng dụng khơng phải là một hệ Trích rút nữa mà là một hệ Tĩm lược vì đã xuất hiện các đơn vị ngữ liệu mới.
Ví dụ cho đoạn văn câu sau:
“Minh rất thơng minh. Cậu ấy thường đạt kết quả cao trong học tập. Ngồi ra cậu ấy cịn cĩ khả năng văn nghệ nữa”
Giả sử trong quá trình trích rút ta chỉ rút được câu thứ hai, và giống ví dụ trên, chỉ cĩ mỗi câu “Cậu ấy thường đạt kết quả cao trong học tập” làm chúng ta khơng biết được cậu ấy là ai. Nếu trước khi hiển thị kết quả này, chúng ta phát hiện tham chiếu Minh - Cậu ấy và thay thế Cậu ấy ở câu thứ hai và câu thứ ba thì sau khi trích rút ta sẽ cĩ “Minh thường đạt kết quả cao trong học tập”. Và rõ ràng khơng cịn hiện tượng mập mờ tham chiếu nữa.
Một vấn đề khác mà các phương pháp hợp giải tham chiếu áp dụng để tăng khả năng dễ đọc dễ hiểu đĩ là loại bỏ các tham chiếu tự do. Trong ví dụ trên, các từ “ngồi ra”, “cịn” ở trong câu thứ ba là các tham chiếu tự do như vậy. Nếu chỉ cĩ câu thứ ba được trích rút, ngồi việc thay “Minh” bằng “Cậu ấy”, chúng ta cần phải loại bỏ các tham chiếu tự do như “ngồi ra” và “cịn”.
Vấn đề hợp giải tham chiếu cũng là một vấn đề đặc trưng của Xử lý ngơn ngữ tự nhiên, và vì thế độ chính xác của các thuật tốn khơng bao giờ đạt 100%. Điều này cũng ảnh hưởng đến kết quả của ứng dụng Tĩm tắt.