CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
4.5. xuất mơ hình giải thuật di truyền kết hợp chiến lược tham lam trích rút
tập câu tóm tắt tối ưu
4.5.1.Mã hóa các đối tượng
Mỗi một gen biểu diễn một câu tóm tắt gồm các thành phần:
o Thành phần lọc o(Fq): gồm các cặp (qli, vqi). Trong đó: qli là chỉ số của thuộc tính trong danh sách thuộc tính của cơ sở dữ liệu, vqi là chỉ số của hạng từ trong LFoC của thuộc tính tại chỉ số qli.
o Thành phần kết luận o(Es): tương tự như với thành phần lọc o(Fq), gồm các cặp (smi, vsi).
o Từ lượng hóa: là chỉ số qi của từ lượng hóa trong LFoC ℱQ. o Giá trị chân lý của câu tóm tắt T.
Mỗi cá thể (chromosome) biểu diễn cho một tập câu tóm tắt gồm có nhiều gen khác nhau. Một thế hệ (generation) gồm nhiều cá thể khác khau.
qi (ql1, vq1) (ql2, vq2) …. (sm1, vs1) (sm2, vs2) … T
Hình 4.1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt
4.5.2.Hàm đánh giá độ thích nghi
Hàm đánh giá độ thích nghi Fit cho mỗi cá thể biểu diễn cho một tập câu tóm tắt là độ đo gộp nhập có trọng số của 2 độ đo: độ tốt của tập câu tóm tắt Gd như
cơng thức (4.4), và mức độ đa dạng của tập câu De như công thức (4.5). Giá trị hàm
Fit là một giá trị trong khoảng [0,1] được tính theo cơng thức (4.8). Một cá thể tốt nhất trong thế hệ cuối cùng được chọn làm lời giải của bài tốn khi cá thể đó có giá trị Fit lớn nhất.
Trọng số của từ lượng hóa St(Q) như trong nghiên cứu [38, 39] đối với cho các từ lượng hóa mức tính riêng 1 trong tập {0, few, a half, many, 1}. Các từ lượng hóa ở mức tính riêng 2, mức tính riêng 3 là được gán giá trị trọng số sao cho: nếu hai từ lượng hóa q và q’ thỏa điều kiện q ≤ q’ thì St(q) ≤ St(q’).
4.5.3.Mơ hình giải thuật di truyền Greedy-GA
Ký hiệu P = (P1, P2, …, Pm) là tập hợp các cá thể trong một quần thể, mỗi cá thể tương ứng với một tập hợp các câu tóm tắt. Mơ hình giải thuật di truyền kết hợp chiến lược tham lam đề xuất mới trong luận án được thể hiện trong thủ tục Greedy- GA. Thủ tục này sẽ trả về cá thể tốt nhất trong quần thể cuối cùng sau q trình tiến hóa, tức là một tập hợp các câu tóm tắt tốt nhất theo đánh giá hàm Fit trong cơng thức (4.8). Đây là tập câu tóm tắt tối ưu cần tìm. Trong đó, một số hàm và thủ tục con được sử dụng trong Greedy-GA như sau:
o Hàm Random-Greedy-LS để sinh một câu tóm tắt theo chiến lược tham lam như trong mục 4.4.
o Thủ tục add(PP, lss): Thực hiện thêm vào PP các câu tóm tắt lss.
o Evaluate(ls): Thủ tục tính độ đo thích nghi Fit cho ls (một tập các câu hoặc một câu tóm tắt).
o selectElitistChromosomes(P): thực hiện tốn tử chọn lọc để chọn theo tỷ lệ cho trước các cá thể tốt nhất trong P. Tức là các cá thể có giá trị hàm đánh giá Fit lớn nhất trong P.
o Replace_Genes(individual, Random-Greedy-LS): thực hiện thay thế một số câu tóm tắt (tương ứng là các gen trong cá thể) bởi câu tóm tắt sinh bởi hàm Random-Greedy-LS.
Procedure Greedy-GA Input:
- Khung nhận thức ngôn ngữ LFoC ℱA cho các thuộc tính trong D và tập các tập mờ T(ℱA) được xây dựng bởi thủ tục HA-TFS-MG đề xuất trong chương 2.
- Tập hạng từ ℱQ và các tập mờ T(ℱQ).
- Ngưỡng độ hỗ trợ cho nhóm bản ghi thỏa o(Fq) là .
Output:
- Tập câu tóm tắt tối ưu theo giá trị hàm Fit tại công thức (4.8)
Begin
1. for i = 1 to size_generation(P) do
2. for j = 1 to size_chromosome(Pi) do 3. add(Pi, Random-Greedy-LS); 4. endfor; //Dịng 1
5. evaluate(P); //Tính giá trị Fit cho các cá thể trong quần thểP
6. while termination criterion not satisfied do //Khi điều kiện kết thúc chưa đạt
7. createEmpty(P’); //P’ lưu tạm các cá thể trong thế hệ tiếp theo 8. add(P’, selectElitistChromosomes(P));
9. while P’ is not full do
10. Parent select(P); //Chọn các cá thể từ P để thực hiện lai ghép
11. Children crossover(Parent); //Thực hiện toán tử lai ghép chéo
12. add(P’, Children); //Thêm cá thể children vào P’
13. evaluate(Children); 14. endwhile; //Dòng 9
15. while mutate criterion satisfied do //Điều kiện thực hiện đột biến đúng
16. ndividual chooseRandom(P’); //Chọn ngẫu nhiên một cá thể từ P’
17. Replace_Genes(individual, Random-Greedy-LS); 18. endwhile; //Dòng 15
19. P P’; //Chuyển các cá thể từ P’ trở lại P 20. endwhile; //Dòng 6
21. Return Best_of(P); //Trả lại cá thể tốt nhất trong quần thể sau tiến hóa
Trong mơ hình giải thuật di truyền Greedy-GA đề xuất trong luận án, tại bước khởi tạo thế hệ ban đầu từ dịng 1 đến dịng 4, tất cả các câu tóm tắt (tương ứng là các gen của các cá thể) đều được sinh ra bởi thủ tục sử dụng chiến lược tham lam Random-Greedy-LS. Vòng lặp while bắt đầu tại dòng 6 đến dòng 20 thực hiện q trình tiến hóa, điều kiện “termination criterion not satisfied” là kiểm tra điều kiện kết thúc vòng lặp. Điều kiện kết thúc có thể dựa trên số lần lặp hoặc dựa trên mức độ hội tụ của hàm thích nghi. Trong mỗi lần lặp, thực hiện các phép toán di truyền cơ bản là phép chọn lọc tại dòng 8 và lai ghép từ dòng 9 đến dòng 14, phép đột biến từ dịng 15 đến dịng 18. Trong đó, phép tốn chọn lọc giữ lại một tỷ lệ các cá thế tốt nhất, tức là giữ lại một số tập câu tóm tắt tốt nhất. Phép lai ghép thực hiện trao đổi các gen từ các cá thể được chọn. Do đó, phép lai ghép khơng làm thay đổi các gen trong các cá thể, tức là không thay đổi các câu tóm tắt, mà chỉ hốn đổi các câu tóm tắt từ tập câu này sang tập câu khác. Phép toán đột biến từ dòng 15 đến dòng 18 thực hiện thay thế một số câu tóm tắt bằng câu tóm tắt mới, tương ứng thay đổi một số gen trong cá thể. Các câu tóm tắt mới cũng được sinh ra từ hàm Random-Greedy-LS. Như vậy, tất cả các câu tóm tắt trong tồn bộ quá trình thực hiện giải thuật Greedy-GA đều được sinh ra bởi thủ tục Random-Greedy-LS. Như đã phân tích trong mục 4.4, các câu tóm tắt này có xu hướng làm tăng giá trị hàm thích nghi của các cá thể. Do đó, kết quả của giải thuật Greedy-GA sẽ trả về tập câu tóm tắt tốt hơn theo đánh giá bởi hàm Fit trong công thức (4.8).
4.6.Thực nghiệm
Để đánh giá hiệu quả của mơ hình Greedy-GA được đề xuất trong mục 4.4 nêu trên, thực hiện cài đặt thuật toán và thực hiện trên cơ sở dữ liệu creep để so sánh với mơ hình Hybird-GA trong nghiên cứu của Donis-Díaz [38]. Trong thí nghiệm này, sử dụng cách mã hóa cá thể, các tham số của giải thuật di truyền và cơng thức đánh giá độ thích nghi Fit của các các thể như trong nghiên cứu [38]. Có hai điểm khác biệt trong mơ hình Greedy-GA với mơ hình Hybird-GA. Thứ nhất là phương pháp thiết kế các tập mờ biểu diễn ngữ nghĩa của các hạng từ trong LFoC của các thuộc tính. Thứ hai, ngồi 3 phép tốn di truyền cơ bản (lựa chọn, lai ghép, đột biến), mơ hình Hybrid-GA sử dụng thêm 2 phép tốn bổ sung là cleaning và
improver, mơ hình Greedy-GA sử dụng thủ tục sinh một câu tóm tắt dựa trên chiến lược tham lam Random-Greedy-LS như đề xuất trong mục 4.4.
4.6.1.Cơ sở dữ liệu và dạng câu tóm tắt
Cơ sở dữ liệu được sử dụng trong thực nghiệm là cơ sở dữ liệu về luyện thép
creep như trong nghiên cứu của Donis-Díaz [38]. Cơ sở dữ liệu gồm có 2066 bản ghi, 30 thuộc tính. Trong đó, thuộc tính creep biểu diễn cho độ bền của thép, 19 thuộc tính về các chất hóa học trong thép, 6 thuộc tính về nhiệt độ và các thuộc tính khác về thời gian, điều kiện sản xuất. Các câu tóm tắt được trích rút theo dạng câu như trong (3.2), cụ thể như sau:
o Điều kiện lọc o(Fq) là tổ hợp của các cặp (att, val), mỗi cặp (att, val) biểu diễn cho một vị từ ngơn ngữ. Trong đó, att là thuộc tính trong 19 thuộc tính về chất hóa học hoặc 6 thuộc tính về nhiệt độ, val là hạng từ ngôn ngữ trong LFoC của thuộc tính att. Trong [38] đã chỉ ra khi phần lọc o(Fq) có nhiều hơn 6 cặp (att, val) thì gần như khơng có bản ghi thỏa điều kiện
o(Fq). Do đó, trong thí nghiệm này, giới hạn o(Fq) là tổ hợp không quá 6 cặp (att, val).
o Kết luận S có dạng ‘CREEP = x’, trong đó x là một hạng từ trong LFoC ℱCREEP.
4.6.2.Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q
Để xác định LFoC cho các thuộc tính và từ lượng hóa Q, lựa chọn cấu trúc ĐSGT đơn giản gồm hai phần tử sinh, ba hạng từ hằng, một gia tử âm ‘little', một gia tử dương ‘very’. Khung nhận thức cho các thuộc tính là ℱA, 3gồm có 3 mức và 17 hạng từ. Các tập mờ biểu diễn ngữ nghĩa cho các hạng từ được biểu diễn theo cấu trúc đa thể như trong Hình 2.3.
Thuộc tính CREEP có miền giá trị là [13, 550], trong các nghiên cứu [38, 40] đã chỉ ra rằng giá trị từ 330 đến 550 được coi là lý tưởng. Các tác giả trong [38, 40] đã sử dụng 9 tập mờ hình thang biểu diễn ngữ nghĩa cho 9 hạng từ trong
Dom(CREEP), mà tập mờ biểu diễn cho hạng từ ‘ideal’ (hạng từ có thứ tự ngữ nghĩa lớn nhất trong Dom(CREEP)) có đáy nhỏ trong khoảng từ 330 đến 550, 8 tập mờ còn lại là phân hoạch đều của khoảng giá trị từ 13 đến 330. Từ đó, tác giả luận án lựa chọn bộ tham số cho thuộc tính creep như sau: fm(0) = 0.0195; fm(low) =
0.2832; fm(medium) = 0.0273; fm(high) = 0.2793; fm(1) = 0.3906; (L) = 0.4; (h0) = 0.25; (V) = 0.35. Khi đó, hình thang biểu diễn ngữ nghĩa cho hạng từ 1 (hạng từ có thứ tự ngữ nghĩa lớn nhất trong LFoC ℱCREEP) có đáy nhỏ trùng đáy nhỏ của hình thang biểu diễn ngữ nghĩa cho hạng từ ‘ideal’ trong [38, 40], các hình thang biểu diễn ngữ nghĩa cho các hạng từ 0, low, medium, high tạo thành phân hoạch đều trên khoảng từ 13 đến 330 của miền tham chiếu.
Các tập mờ hình thang biểu diễn cho các hạng từ của thuộc tính về thời gian, nhiệt độ, chất hóa học trong [38] tạo thành phân phối đều và phân hoạch mạnh trên miền tham chiếu. Do đó, trong thực nghiệm lựa chọn bộ tham số tính mờ cân bằng cho các thuộc tính này như sau: fm(0) = 0.03; fm(low) = 0.42; fm(W) = 0.1; fm(high) = 0.42; fm(1) = 0.03; (L) = 0.4; (h0) = 0.25; (V) = 0.35.
Trong thực nghiệm này, sử dụng khung nhận thức ngôn ngữ có mức tính riêng là 3, tức là có 17 hạng từ trong LFoC cho mỗi thuộc tính trong cơ sở dữ liệu
creep và cả LFoC của từ lượng hóa Q. Số lượng 17 từ nhiều gấp hơn 2 lần số lượng hạng từ của các thuộc tính trong các nghiên cứu [38, 40].
4.6.3.Tham số của giải thuật di truyền
Các tham số của giải thuật di truyền được lựa chọn như trong nghiên cứu [38]. Cụ thể là số lượng câu tóm tắt trong mỗi tập câu là 30 câu, tương ứng số lượng gen trong mỗi cá thể là 30. Số lượng cá thể trong mỗi thế hệ là 20, số lần lặp là 100. Tỷ lệ lựa chọn là 0.15, tỷ lệ đột biến là 0.1. Hàm đánh giá độ thích nghi Fit cho mỗi cá thể như công thức (4.8) với tham số mg = 0.7, md = 0.3.
4.6.4.Kết quả thực nghiệm
Trong Hình 4.2 biểu diễn sự thay đổi của giá trị hàm đánh giá Fit lớn nhất của cá thể tốt nhất trong thế hệ qua mỗi vịng lặp. Từ đó, cho thấy giá trị này có sự tăng dần và sẽ hội tụ đến một giá trị ở những lần lặp cuối. Điều đó chứng tỏ kết quả phản ánh có sự tiến hóa qua các lần lặp.
Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa Kết quả thực nghiệm của Hybird-GA trong bài báo của Donis-Diaz và cộng sự [38] là trung bình 10 lần chạy Hybird-GA. Để khách quan trong so sánh kết quả, thuật tốn Greedy-GA được chạy 10 lần và tính kết quả trung bình 10 lần chạy với những số liệu cần so sánh. Bảng 4.2 là kết quả trung bình sau 10 lần chạy của giải thuật Greedy-GA và Hybird-GA: (1) hàm đánh giá Fit; (2) trung bình cộng giá trị chân lý T của các câu tóm tắt; (3) số câu tóm tắt có từ lượng hóa có thứ tự ngữ nghĩa lớn hơn ‘a half’; (4) số câu tóm tắt có giá trị chân lý T > 0.8; (5) số câu tóm tắt có giá trị chân lý T = 0 (tương ứng với trường hợp khơng có bản ghi nào thỏa điều kiện lọc o(Fq)). Mơ hình Hybrid-GA đã được đánh giá là tốt hơn mơ hình GA cơ bản (Classical-GA) và GA cơ bản kết hợp với toán tử Cleaning (Classcial + Cleaning-GA) để loại bỏ các câu tóm tắt có giá trị chân lý T = 0. Từ Bảng 4.2 cho thấy, mơ hình Greedy-GA trong nghiên cứu này so với mơ hình Hybrid-GA có một số ưu điểm:
o Tập câu tóm tắt tối ưu có giá trị hàm Fit lớn hơn. Chứng tỏ, Greedy-GA sẽ cho phương án tối ưu hơn.
o Số lượng câu có từ lượng hóa có thứ tự ngữ nghĩa lớn hơn ‘a half’ nhiều hơn. Đây là kết quả của việc sử dụng chiến lược tham lam khi lựa chọn từ lượng hóa có thứ tự ngữ nghĩa lớn nhất có thể trong các câu tóm tắt có cùng thành phần lọc o(Fq).
o Số lượng câu có giá trị chân lý T > 0.8 trong kết quả của Greedy-GA đạt tối đa là 30 câu, cao hơn kết quả 27 câu kết quả của Hybrid-GA trong [38]. Kết quả này do Greedy-GA sử dụng tập từ lượng hóa với số lượng 17 từ và các hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa có cấu trúc đa thể. Điều này chứng tỏ ưu điểm của biểu diễn ngữ nghĩa bằng hình thang như được xây dựng dựa trên lý thuyết ĐSGT trong chương 2 và ý nghĩa của
khả năng mở rộng LFoC trong ứng dụng thực tế. Cụ thể, khi tăng số lượng từ lượng hóa bằng việc sử dụng thêm các từ có mức tính riêng lớn sẽ làm tăng khả năng diễn đạt bằng từ lượng hóa cho bất cứ tỷ lệ nào trong khoảng [0, 1]. Kết quả trong thực nghiệm cho thấy, khi LFoC của Q gồm 3 mức sẽ ln chọn được từ lượng hóa cho các câu tóm tắt mà đạt được giá trị chân lý lớn hơn 0.8.
o Trong kết quả của Greedy-GA khơng có câu tóm tắt có giá trị chân lý T = 0. Như đã phân tích ở cuối mục 4.4, tất cả các câu tóm tắt trong q trình thực hiện giải thuật di truyền đều được sinh ra bởi hàm Random-Greedy- LS. Trong đó có sử dụng điều kiện đối với độ đo hỗ trợ supp(Fq) > 0.1 trong thủ tục Random-Greedy-LS nên sẽ không làm xuất hiện các câu tóm tắt có T = 0 trong q trình thực hiện mơ hình Greedy-GA.
Bảng 4.2: Kết quả trung bình 10 lần chạy mơ hình Greedy-GA và kết quả thực nghiệm mơ hình Hybrid-GA trong [38]
Mơ hình GA Giá trị Fit Trung bình giá trị T Trung bình số câu với Q > a half Trung bình số câu có T > 0.8 Trung bình số câu có T = 0 Hybrid-GA [38] 0.6659 0.9139 17.8 27.0 1.0 Greedy-GA 0.7905 0.9951 18.8 30 0 4.7.Kết luận chương 4
Trong chương này, luận án đã chỉ ra rằng ở mức tổng quát số lượng câu tóm tắt được trích rút từ cơ sở dữ liệu là rất lớn. Từ đó đặt ra yêu cầu cần một phương pháp hiệu quả để tìm kiếm một tập con câu tóm tắt mà số lượng nhỏ câu tóm tắt nhưng cung cấp nhiều thông tin đa dạng. Hàm Random-Greedy-LS sử dụng chiến lược tham lam được đề xuất để hướng đến mục tiêu trích rút một câu tóm tắt tốt và tăng tính đa dạng trong tập câu tóm tắt. Hàm Random-Greedy-LS được sử dụng để sinh các câu tóm tắt trong giải thuật di truyền Greedy-GA nhằm tăng hiệu quả khi tìm kiếm tập câu tóm tắt tối ưu dựa trên đánh giá gộp nhập độ tốt và độ đa dạng của tập câu. Mơ hình Greedy-GA tính tốn trên các tập mờ ở dạng cấu trúc đa thể được