Trong [38], Doniz-Diaz và cộng sự mã hóa mỗi câu tóm tắt thành một gen, mỗi cá thể là một tập câu tóm tắt. Ban đầu, khởi tạo một quần thể gồm nhiều cá thể, tức là gồm nhiều tập câu tóm tắt ứng viên. Quá trình tiến hóa thực hiện qua nhiều vòng lặp bởi các phép toán di truyền cơ bản (chọn lọc, lai ghép, đột biến) để làm tăng độ thích nghi của quần thể ban đầu. Cuối cùng, cá thể tốt nhất tương ứng tập câu tóm tắt tốt nhất được chọn làm kết quả của bài toán tìm kiếm tập câu tóm tắt tối ưu theo hàm đánh giá Fit.
4.3.2.1. Các phép toán di truyền cơ bản
o Toán tử chọn lọc: qua mỗi lần tiến hóa có một tỷ lệ các cá thể tốt nhất (giá trị hàm đánh giá Fit lớn nhất) trong thế hệ hiện tại được chuyển sang thế hệ tiếp theo.
o Toán tử lai ghép: thực hiện lai ghép tại một điểm giữa hai cá thể được chọn ngẫu nhiên để sinh ra hai con. Toán tử lai ghép sẽ trao đổi các gen giữa hai cá thể, tức là trao đổi các câu tóm tắt giữa hai tập câu tóm tắt. Phép toán lai ghép làm tăng độ đo tính đa dạng của các tập câu tóm tắt, không làm thay đổi độ tốt của từng câu tóm tắt nhưng có thay đổi độ tốt của cả tập câu tóm tắt.
o Toán tử đột biến: một tỷ lệ nhỏ (thường khoảng 0.05) làm thay đổi một vài gen trong cá thể được chọn ngẫu nhiên bằng một gen mới được sinh ngẫu
nhiên, tức là thay thế một số câu tóm tắt trong tập câu. Toán tử đột biến làm thay đổi cả độ tốt Gd và độ phong phú De của tập câu tóm tắt.
4.3.2.2. Hai phép toán bổ sung
Phép toán cleaning sẽ thay thế tất cả các gen tương ứng với các câu tóm tắt có giá trị đúng đắn T = 0 bởi một câu tóm tắt được sinh ngẫu nhiên khác. Tuy nhiên, nó chỉ được áp dụng với tần suất 10% số thế hệ hay số lần lặp tiến hóa.
Phép toán improver sử dụng kỹ thuật tìm kiếm lân cận để thực hiện thay thế một câu tóm tắt hiện tại bởi một câu tóm tắt có giá trị đúng đắn T tăng lên hoặc qua ngưỡng 0.8. Trong quá trình tìm kiếm sẽ thay thế ngẫu nhiên một thành phần trong điều kiện lọc F hoặc kết luận S, cả từ lượng hóa Q. Phép thay thế có thể thực hiện thay thế thuộc tính này bởi thuộc tính khác hoặc thay thế hạng từ này bởi một hạng từ có ngữ nghĩa lân cận. Toán tử được sử dụng với tỷ lệ, tần suất như thế nào tùy thuộc vào từng thực nghiệm cụ thể.
Thực nghiệm trong [38] trích rút tập câu tóm tắt tối ưu trên cơ sở dữ liệu
creep sử dụng các mô hình giải thuật di truyền khác nhau đã chứng tỏ hiệu quả của các phép toán bổ sung cleaning và improver. Mô hình di truyền có sử dụng phép toán cleaning cho kết quả tốt hơn mô hình di truyền cơ bản. Mô hình di truyền sử dụng cả hai phép toán cleaning và improver lại cho kết quả tốt hơn mô hình chỉ sử dụng phép toán cleaning.