Ý tưởng chính của thuật toán rút gọn văn bản, tôi sử dụng phương pháp được trình bày trong [10]. Chính là việc dựa trên tập dữ liệu về những từ có thể giản lược trong câu của ngôn ngữ kí hiệu, đó chính là việc xây dựng tập hợp tất cả các từ tiếng Việt là giới từ, liên từ và từ tình thái có thể giản lược. Ngoài ra, để giải quyết một nhiệm vụ quan trọng nữa là các từ không thể tìm thấy trong từ điển ngôn ngữ kí hiệu, sẽ được dịch sang bằng cách thay thế các từ đồng nghĩa. Hiện từ điển ngôn ngữ kí hiệu Việt Nam đang được xây dựng và phát triển với vốn từ vựng khoảng 3000 từ, nhỏ hơn rất nhiều so với từ điển tiếng Việt. Chúng tôi tiến hành phân chia nhóm cho các từ thuộc từ điển
thành 2 dạng là từ và cụm từ- tôi tạm gọi là đơn vị ngôn ngữ. Với mỗi một đơn vị ngôn ngữ trong từ điển tôi xây dựng một số từ đồng nghĩa tương ứng.
Đối với thuật toán tôi sử dụng dưới đây được trình bày trong [10], có đề cập đến khái niệm “ Trọng số từ vựng”. Trong khi xem xét ngữ nghĩa của một văn bản, người ta cảm thấy rằng dường như một số từ thể hiện ngữ nghĩa nhiều hơn các từ khác. Hơn nữa, có sự phân biệt cơ bản giữa những từ ngữ chức năng và những từ ngữ mang nội dung. Trong đó một số từ ngữ mang nội dung dường như thể hiện nhiều các chủ để hơn những từ khác. Bất kể phương pháp nào dùng cho việc gán trọng số cho từ vựng chỉ cần đòi hỏi miễn sao nguyên tắc gán trọng số có thể diễn giải được tốt về tầm quan trọng của từ vựng trong văn bản. Đặc biệt là trong ngôn ngữ kí hiệu, những từ ngữ có trọng số được gán bằng 0 sẽ tương ứng với các từ loại được chỉ ra ở trên như là: giới từ, liên từ, từ chỉ tình thái… Trọng số có thể dựa trên mô hình phân bố từ, chẳng hạn như phân bố Poison hay sự đánh giá thông tin về các chủ đề thông qua Entropy.
Một sơ đồ trọng số được dùng thông dụng là tf * idf với tf là tần suất của một từ vựng trong văn bản và idf là nghịch đảo của số lượng văn bản mà từ đó từ vựng xuất hiện. Vì trọng số của từ vựng trong mô hình không gian vecto ảnh hưởng trực tiếp đến kết quả của việc rút gọn, do dậy các kết quả cụ thể phụ thuộc chủ yếu vào phương pháp gán trọng số.
Các bước của thuật toán rút gọn văn bản được tiến hành như sau:
Bước 1: Máy tách từ ( sử dụng công cụ phân tích cú pháp Bikel và cây cấu trúc cú pháp Viet treebank) trả về dữ liệu cho việc tiền xử lý. Dữ liệu bao gồm danh sách các từ và cụm từ đã được gán nhãn
Bước 2: Bằng một phương pháp gán trọng số cho từ loại ta sắp xếp từ và cụm từ theo độ quan trọng.
Bước 3: Giản lược các thành phần của câu theo trọng số và sinh ra câu rút gọn.
Sơ đồ của thuật toán rút gọn văn bản tiếng Việt sang dạng văn bản ngôn ngữ kí hiệu được thể hiện như hình dưới đây.
Hình 3.1. Sơ đồ thuật toán rút gọn văn bản