Giải thuật di truyền giải bài toán trích rút tập tóm tắt

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 43 - 44)

Giải thuật di truyền là phương pháp giải gần đúng cho các bài toán tối ưu phỏng theo sự tiến hóa trong tự nhiên [73]. Giải thuật di truyền bắt đầu bằng việc khởi tạo một quần thể, mỗi thành phần trong quần thể là một cá thể, mỗi cá thể được đặc trưng bởi các gen của nó. Mỗi cá thể được đánh giá bởi một hàm gọi là hàm thích nghi. Từ quần thể khởi tạo ban đầu, áp dụng các toán tử di truyền như chọn lọc, lai ghép và đột biến để thực hiện quá trình tiến hóa từ thế hệ này qua thế hệ khác. Khi đạt đến điều kiện dừng dựa trên số lần tiến hóa hoặc giá trị thích nghi đã hội tụ, cá thể tốt nhất trong quần thể cuối cùng được coi là nghiệm của bài toán.

Để đạt được kết quả tốt khi áp dụng giải thuật di truyền, chúng ta cần xác định một cách đúng đắn các thành tố như mã hóa, khởi tạo quần thể ban đầu, hàm thích nghi và các toán tử di truyền. Ngoài ra, các tham số được sử dụng trong quá trình thực hiện giải thuật như số lần lặp, tỷ lệ đột biến, tiêu chuẩn chọn lọc, … cũng cần được lựa chọn đúng đắn.

Theo phân loại của Kacpryzk và Zadrożny [12] trong Bảng 1.3, ở mức tổng quát nhất của bài toán trích rút tóm tắt bằng ngôn ngữ, khi đó chỉ có cấu trúc câu được xác định ở mức tổng quát nhất, tất cả các thành phần F, S, Q hoàn toàn chưa xác định. Ở mức này đòi hỏi khối lượng tính toán lớn, đồng thời có thể trích rút từ cơ sở dữ liệu số lượng rất lớn các câu tóm tắt theo mẫu câu có chứa từ lượng hóa gồm 3 thành phần F, S, Q. Do đó, giải thuật di truyền được áp dụng để tìm kiếm một tập con tối ưu các câu tóm tắt từ không gian lớn chứa tất cả các câu tóm tắt. Tiêu chuẩn lựa chọn tập câu tối ưu được người dùng xác định bằng công thức tính hàm thích nghi dựa trên các tiêu chí đánh giá khác nhau. Tuy nhiên, các nghiên cứu sử dụng giải thuật di truyền trong bài toán trích rút tóm tắt vẫn còn rất hạn chế. Một số công bố điển hình như: các tác giả Kacprzyk và cộng sự [49] mong muốn tìm các câu tóm tắt về xu hướng trong dữ liệu chuỗi thời gian; Castillo-Ortega và cộng sự

[18] trích rút một tập câu tóm tắt mô tả dữ liệu về số lượng bệnh nhân nhập viện trong một năm tại trung tâm y tế; Donis-Díaz và cộng sự [38, 39] trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu luyện thép; Altıntop và cộng sự [41] đề xuất mô hình giải thuật di truyền và áp dụng trích rút các câu tóm tắt tốt từ tập dữ liệu cho các cơ sở khám chữa bệnh tại Thổ Nhĩ Kỳ.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(148 trang)