Chúng tôi sử dụng các tập tin văn bản đƣợc thu thập từ nhiều nguồn khác nhau để thực hiện tóm tắt, phần lớn là các bài báo đƣợc lấy từ website vnexpress.net thuộc các lĩnh vực khoa học, giáo dục, xã hội và một số bài báo khoa học. Đối với các bài báo đƣợc lấy từ website, quá trình xử lý đƣợc thực hiện một cách bán tự động theo quy trình sau:
- Tải về các trang web chứa nội dung các bài báo (dạng html). - Loại bỏ các thẻ HTML, lấy ra nội dung chính.
- Loại bỏ các câu không liên quan đến nội dung của bài viết (nhƣ các liên kết tới các trang khác…).
- Chuẩn hoá về mặt chính tả (các từ, dấu câu,…).
Đối với các bài báo khoa học (chủ yếu là dạng pdf) thì nội dung của các bài báo đƣợc sao chép một cách thủ công để đảm bảo tính chuẩn mực về chính tả.
Nội dung của mỗi văn bản đƣợc lƣu trữ trong một file text và đƣợc mã hoá bằng mã Unicode UTF-8.
Tiếp đó, công cụ WordSegForTV [12] đƣợc sử dụng để phân tách ra các từ và các câu. Kết quả ta sẽ thu đƣợc 2 file: một file chứa các từ đƣợc phân tách (dấu “|” đƣợc sử dụng để ngăn cách giữa các từ), và một file chứa các câu, ở đầu mỗi câu có số thứ tự của câu đƣợc đặt trong cặp dấu “[ ]”.
Ví dụ: Đoạn văn bản sau:
“Du lịch Việt Nam suy thoái theo kinh tế thế giới.
Tuần trƣớc một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao. Lƣợng khách quốc tế của nhiều công ty giảm tới 50%.”
Khi tách từ xong ta sẽ được kết quả:
Du| lịch| Việt Nam| suy thoái| theo| kinh tế| thế giới|.|
Tuần| trƣớc| một| đoàn| khách| Australia| đã| hủy| hợp đồng| với| Trung tâm| Du lịch| Vietsky Travel| vì| tỷ giá| ngoại tệ| thay đổi| làm giá| tour| tăng| cao|.| Lƣợng| khách| quốc tế| của| nhiều| công ty| giảm| tới| 50%|
Và danh sách các câu:
[1]Du lịch Việt Nam suy thoái theo kinh tế thế giới
[2]Tuần trƣớc một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao
[3]Lƣợng khách quốc tế của nhiều công ty giảm tới 50%
Kết quả của bƣớc tiền xử lý này sẽ là đầu vào cho bƣớc xử lý từ tiếp theo. Riêng đối với chƣơng trình phiên bản 1, bộ tách từ sẽ không đƣợc sử dụng mà việc phân tách các từ sẽ căn cứ vào dấu trắng giữa các âm tiết (tức là coi mỗi âm tiết nhƣ là một từ đơn). Danh sách các câu sẽ đƣợc ngƣời thực hiện các bản tóm tắt đối sánh sử dụng để chọn ra các câu.