Mô hình giải thuật di truyền Greedy-GA

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 129 - 132)

Ký hiệu P = (P1, P2, …, Pm) là tập hợp các cá thể trong một quần thể, mỗi cá thể tương ứng với một tập hợp các câu tóm tắt. Mô hình giải thuật di truyền kết hợp chiến lược tham lam đề xuất mới trong luận án được thể hiện trong thủ tục Greedy- GA. Thủ tục này sẽ trả về cá thể tốt nhất trong quần thể cuối cùng sau quá trình tiến hóa, tức là một tập hợp các câu tóm tắt tốt nhất theo đánh giá hàm Fit trong công thức (4.8). Đây là tập câu tóm tắt tối ưu cần tìm. Trong đó, một số hàm và thủ tục con được sử dụng trong Greedy-GA như sau:

o Hàm Random-Greedy-LS để sinh một câu tóm tắt theo chiến lược tham lam như trong mục 4.4.

o Thủ tục add(PP, lss): Thực hiện thêm vào PP các câu tóm tắt lss.

o Evaluate(ls): Thủ tục tính độ đo thích nghi Fit cho ls (một tập các câu hoặc một câu tóm tắt).

o selectElitistChromosomes(P): thực hiện toán tử chọn lọc để chọn theo tỷ lệ cho trước các cá thể tốt nhất trong P. Tức là các cá thể có giá trị hàm đánh giá Fit lớn nhất trong P.

o Replace_Genes(individual, Random-Greedy-LS): thực hiện thay thế một số câu tóm tắt (tương ứng là các gen trong cá thể) bởi câu tóm tắt sinh bởi hàm Random-Greedy-LS.

Procedure Greedy-GA Input:

- Khung nhận thức ngôn ngữ LFoC ℱA cho các thuộc tính trong D và tập các tập mờ T(ℱA) được xây dựng bởi thủ tục HA-TFS-MG đề xuất trong chương 2.

- Tập hạng từ ℱQ và các tập mờ T(ℱQ).

- Ngưỡng độ hỗ trợ cho nhóm bản ghi thỏa o(Fq) là .

Output:

- Tập câu tóm tắt tối ưu theo giá trị hàm Fit tại công thức (4.8)

Begin

1. for i = 1 to size_generation(P) do

2. for j = 1 to size_chromosome(Pi) do

3. add(Pi, Random-Greedy-LS); 4. endfor; //Dòng 1

5. evaluate(P); //Tính giá trị Fit cho các cá thể trong quần thểP

6. while termination criterion not satisfied do //Khi điều kiện kết thúc chưa đạt

7. createEmpty(P’); //P’ lưu tạm các cá thể trong thế hệ tiếp theo 8. add(P’, selectElitistChromosomes(P));

9. whileP’ is not full do

10. Parent  select(P); //Chọn các cá thể từ P để thực hiện lai ghép

11. Children  crossover(Parent); //Thực hiện toán tử lai ghép chéo

12. add(P’, Children); //Thêm cá thể children vào P’

13. evaluate(Children); 14. endwhile; //Dòng 9

15. while mutate criterion satisfied do //Điều kiện thực hiện đột biến đúng

16. individual  chooseRandom(P’); //Chọn ngẫu nhiên một cá thể từ P’

17. Replace_Genes(individual, Random-Greedy-LS); 18. endwhile; //Dòng 15

19. P  P’; //Chuyển các cá thể từ P’ trở lại P 20. endwhile; //Dòng 6

21. Return Best_of(P); //Trả lại cá thể tốt nhất trong quần thể sau tiến hóa

Trong mô hình giải thuật di truyền Greedy-GA đề xuất trong luận án, tại bước khởi tạo thế hệ ban đầu từ dòng 1 đến dòng 4, tất cả các câu tóm tắt (tương ứng là các gen của các cá thể) đều được sinh ra bởi thủ tục sử dụng chiến lược tham lam Random-Greedy-LS. Vòng lặp while bắt đầu tại dòng 6 đến dòng 20 thực hiện quá trình tiến hóa, điều kiện “termination criterion not satisfied” là kiểm tra điều kiện kết thúc vòng lặp. Điều kiện kết thúc có thể dựa trên số lần lặp hoặc dựa trên mức độ hội tụ của hàm thích nghi. Trong mỗi lần lặp, thực hiện các phép toán di truyền cơ bản là phép chọn lọc tại dòng 8 và lai ghép từ dòng 9 đến dòng 14, phép đột biến từ dòng 15 đến dòng 18. Trong đó, phép toán chọn lọc giữ lại một tỷ lệ các cá thế tốt nhất, tức là giữ lại một số tập câu tóm tắt tốt nhất. Phép lai ghép thực hiện trao đổi các gen từ các cá thể được chọn. Do đó, phép lai ghép không làm thay đổi các gen trong các cá thể, tức là không thay đổi các câu tóm tắt, mà chỉ hoán đổi các câu tóm tắt từ tập câu này sang tập câu khác. Phép toán đột biến từ dòng 15 đến dòng 18 thực hiện thay thế một số câu tóm tắt bằng câu tóm tắt mới, tương ứng thay đổi một số gen trong cá thể. Các câu tóm tắt mới cũng được sinh ra từ hàm Random-Greedy-LS. Như vậy, tất cả các câu tóm tắt trong toàn bộ quá trình thực hiện giải thuật Greedy-GA đều được sinh ra bởi thủ tục Random-Greedy-LS. Như đã phân tích trong mục 4.4, các câu tóm tắt này có xu hướng làm tăng giá trị hàm thích nghi của các cá thể. Do đó, kết quả của giải thuật Greedy-GA sẽ trả về tập câu tóm tắt tốt hơn theo đánh giá bởi hàm Fit trong công thức (4.8).

4.6. Thực nghiệm

Để đánh giá hiệu quả của mô hình Greedy-GA được đề xuất trong mục 4.4 nêu trên, thực hiện cài đặt thuật toán và thực hiện trên cơ sở dữ liệu creep để so sánh với mô hình Hybird-GA trong nghiên cứu của Donis-Díaz [38]. Trong thí nghiệm này, sử dụng cách mã hóa cá thể, các tham số của giải thuật di truyền và công thức đánh giá độ thích nghi Fit của các các thể như trong nghiên cứu [38]. Có hai điểm khác biệt trong mô hình Greedy-GA với mô hình Hybird-GA. Thứ nhất là phương pháp thiết kế các tập mờ biểu diễn ngữ nghĩa của các hạng từ trong LFoC của các thuộc tính. Thứ hai, ngoài 3 phép toán di truyền cơ bản (lựa chọn, lai ghép, đột biến), mô hình Hybrid-GA sử dụng thêm 2 phép toán bổ sung là cleaning

improver, mô hình Greedy-GA sử dụng thủ tục sinh một câu tóm tắt dựa trên chiến lược tham lam Random-Greedy-LS như đề xuất trong mục 4.4.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 129 - 132)

Tải bản đầy đủ (PDF)

(148 trang)