Trước khi mơ tả việc xây dựng giải thuật, cĩ thể đưa ra một số nhận xét sau: - Các từ xuất hiện trong tiêu đề thường là các từ rất quan trọng trong văn bản,
tuy khơng thể chỉ dùng chúng để quyết định độ quan trọng của các câu trong văn bản. Cĩ thể áp dụng cho giải thuật bằng cách tăng trọng số của các từ này theo một hệ số nào đĩ.
- Thơng tin đưa ra trong một vài câu đầu (nhiều khi là một đoạn văn đầu) của văn bản trong hầu hết trường hợp cĩ tính biểu lộ cao ý nghĩa của văn bản. Các câu quan trọng cũng cĩ thể xuất hiện ở cuối văn bản, nhưng ít hơn so với đầu văn bản. Vì vậy, với mỗi câu thuộc các vị trí đầu hoặc cuối văn bản, tăng trọng số của chúng theo một hệ số nào đĩ.
- Bởi vì trọng số của mỗi câu được tính tốn khơng phải trên tổng các trọng số của các thuật ngữ trong câu mà là tính trên độ trung bình các giá trị trọng số thuật ngữ này. Do vậy, sẽ cĩ khả năng một số câu rất ngắn khơng mang nội dung nhưng chứa những thuật ngữ cĩ trọng số cao vẫn sẽ được đưa vào trong tĩm tắt. Cĩ thể hạn chế sai sĩt này bằng cách chỉ xét những câu cĩ số lượng thuật ngữ lớn hơn một độ dài nhất định nào đĩ.
- Với những văn bản cĩ mật độ thơng tin dày đặc, đặc biệt đối với những văn bản về lĩnh vực thương mại hay tài chính, sẽ rất khĩ khăn cho hệ thống khi trích rút. Do vậy độ chính xác của tĩm tắt sẽ thấp hơn, cĩ nghĩa là hệ thống cĩ thể sẽ bỏ qua nhiều thơng tin quan trọng. Điều này hiển nhiên sẽ giới hạn các lĩnh vực nội dung văn bản mà hệ thống cĩ thể thực hiện. Tuy nhiên, cũng phải thừa nhận rằng chính con người khi tĩm tắt các văn bản thuộc loại này cũng gặp rất nhiều khĩ khăn.
- Hệ thống chắc chắn cũng sẽ gặp nhiều khĩ khăn khi thực hiện tĩm tắt các văn bản nhiều nội dung.
Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê