Các yếu tố trong mô hình giải thuật di truyền trích rút tập câu tóm tắt

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 44 - 45)

Khi mã hóa trong mô hình giải thuật di truyền cũng có nhiều sự khác biệt. Trong nghiên cứu của Kacprzyk và cộng sự [49], Altıntop và cộng sự [41], các tác giả biểu diễn mỗi câu tóm tắt tương ứng là một cá thể. Các tác giả Castillo-Ortega và cộng sự [18], Donis-Díaz và cộng sự [38, 39] biểu diễn mỗi cá thể là một tập câu tóm tắt, mỗi gen là một câu tóm tắt.

Đánh giá phương án tối ưu cũng có các tiêu chí khác nhau giữa các nghiên cứu. Trong khi các nghiên cứu [41], [49] chỉ sử dụng độ đo đúng đắn T với mong muốn thu được các câu tóm tắt có giá trị T cao và trên ngưỡng người dùng đưa ra. Castillo-Ortega và cộng sự [18] xây dựng công thức đánh giá tập câu tóm tắt sử dụng giá trị đúng đắn T và tham số về mức độ chính xác của từ lượng hóa trong câu tóm tắt. Donis-Díaz và cộng sự [38, 39] đánh giá tập câu tóm tắt tối ưu dựa trên gộp nhập có trọng số độ tốt và độ đa dạng của tập câu.

Ngoài ba toán tử di truyền cơ bản (lai ghép, chọn lọc và đột biến), một số phép toán mở rộng cũng được đề xuất thêm để tạo các mô hình khác nhau của giải thuật di truyền. Donis-Díaz và cộng sự [38, 39] sử dụng thêm hai phép toán

cleaning improver. Phép toán cleaning nhằm loại bỏ các câu tóm tắt có giá trị đúng đắn T = 0, phép toán improver nhằm cải tiến một câu tóm tắt bằng sử dụng chiến lược tìm kiếm lân cận để thay đổi một thành phần ngẫu nhiên trong câu tóm tắt bằng việc thay thế ngẫu nhiên một thuộc tính khác hoặc hạng từ lân cận.

Các tham số được lựa chọn dựa trên kinh nghiệm hoặc qua thực nghiệm để nhằm hướng đến kết quả tối ưu. Trong nghiên cứu Castillo-Ortega và cộng sự [18], các tác giả đã chọn số lượng cá thể là 200, số lần lặp là 200, tỷ lệ lai ghép 0.5, tỷ lệ đột biến là 0.05. Donis-Díaz và cộng sự [38, 39] đã chọn tỷ lệ lai ghép là 0.9, tỷ lệ đột biến là 0.05. Kacprzyk và cộng sự [49] không đưa ra bất cứ tham số nào của giải thuật di truyền trong bài báo. Thông qua thực hiện thực nghiệm, Altıntop và cộng

sự [41] đã chỉ ra rằng số lần lặp và kích thước quần thể không ảnh hưởng đến tỷ lệ thành công của giải thuật được tính bằng tỷ lệ câu tóm tắt có giá trị T trên 0.95 trong quần thể. Do đó, có thể chọn số lần lặp ít nhất có thể để giảm thời gian tính toán. Trong khi đó, tỷ lệ đột biến nên trong khoảng 0.01 đến 0.05, tỷ lệ chọn lọc tinh hoa nên trong khoảng từ 3% đến 10%.

Như vậy, các nghiên cứu sử dụng giải thuật di truyền trong trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ tuy không nhiều, nhưng cũng cho thấy có sự đa dạng. Tùy thuộc vào đặc điểm của tập dữ liệu là chuỗi thời gian hay cơ sở dữ liệu, tùy thuộc vào đặc điểm của tập từ lượng hóa, mong muốn của người sử dụng để đưa ra cách mã hóa, các điều kiện ràng buộc và hàm thích nghi.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 44 - 45)

Tải bản đầy đủ (PDF)

(148 trang)