Bước 1: Tiền xử lý văn bản tiếng Việt:
- Tại bước này sẽ tiến hành tách câu trong văn bản bằng việc sử dụng cơng cụ tách câu được cung cấp miễn phí như: vnSentdetector được phát triển bởi nhĩm tác giả Lê Hồng Phương và Hồ Tường Vinh, mỗi câu khi tách xong sẽ được để trên một dịng đề tiện cho quá trình tách từ sau này hoặc sử dụng các thuật tốn để nhận dạng từng câu trong văn bản như các ký tự hết câu,…
- Sau khi tách câu thì sử dụng chương trình tách từ VnTokenizer được nhĩm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương để tách nội dung văn bản cần tĩm tắt thành các đơn vị từ.
- Từ danh sách các câu, các từ đã được tách ta tiến hành loại bỏ các từ dừng thơng qua bộ từ điển từ dừng.
- Đến thời điểm này chúng ta cĩ được danh sách các câu với việc loại bỏ các từ dừng. Để phục vụ cho các bước tiếp theo ta tiến hành vector hĩa các câu trong văn bản. Mỗi câu trong văn bản được biểu diễn dưới dạng một vector.
Bước 2: Tính trọng số câu: Dựa vào kết quả vector hĩa các câu trong văn
bản, ta tiến hành tính trọng số câu qua các bước sau: Tính độ tương đồng giữa câu trong văn bản. Tính trọng số cho tồn bộ câu.
Bước 3: Trích rút, tạo văn bản tĩm tắt:
Sau khi tính được trọng số cho tồn bộ câu, căn cứ vào kết quả tính tốn và tỷ lệ tĩm tắt X đã được xác định từ trước thì hồn tồn cĩ thể chọn ra những câu thỏa
mãn để tạo thành văn bản tĩm tắt được trích xuất từ văn bản gốc thỏa mãn điều kiện của chương trình.