CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
4.4. xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam
Cho trước một cơ sở dữ liệu D trên tập thuộc tính A = {A1, A2, …, An}. Xây dựng thủ tục sinh câu tóm tắt theo mẫu câu có thành phần lọc o(Fq) như trong (3.2), mẫu câu tóm tắt khơng có thành phần lọc o(Fq) như trong (3.1) chỉ là trường hợp
riêng của mẫu câu trong (3.2). Thủ tục sinh câu tóm tắt Random-Greedy-LS sử dụng chiến lược tham lam để làm tăng giá trị đúng đắn T, chọn từ lượng hóa Q có thứ tự ngữ nghĩa lớn và tăng tính đa dạng trong tập câu tóm tắt.
4.4.1.Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt
Dựa trên độ đo tốt của một tập câu tóm tắt theo cơng thức (4.3) và độ đo tính đa dạng theo công thức (4.5), tác giả luận án đề xuất sử dụng chiến lược tham lam trong q trình sinh câu tóm tắt để hướng đến làm tăng hai độ đo đánh giá này. Để tăng tính đa dạng theo như đánh giá bởi cơng thức (4.5), với mỗi nhóm con xác định bởi điều kiện lọc o(Fq), thuộc tính cần đánh giá trong thành phần kết luận o(Es) đã xác định, chỉ sinh ra một câu tóm tắt. Hơn nữa, câu tóm tắt này cũng được chọn sao cho độ đo đúng đắn T lớn nhất và từ lượng hóa Q có độ ưa thích lớn nhất có thể. Khi đó, độ tốt của câu tóm tắt theo cơng thức (4.3) được tăng lên, góp phần làm tăng độ tốt của các tập câu tóm tắt theo cơng thức (4.4).
Xét ví dụ một câu tóm tắt dạng mở rộng như trong (3.2) là “Qos that (AGE = ‘young’ AND SCORE_TEST = ‘very high’) are “SALARY = x”. Trong ví dụ này, đã xác định nhóm đối tượng xem xét thỏa điều kiện lọc (AGE = ‘young’ AND SCORE_TEST = ‘very high’), cấu trúc của kết luận là “SALARY = x”, với x là một hạng từ trong LFoC ℱSALARY. Với mỗi x ℱSALARY, xác định một thân câu tóm tắt, tương ứng tính tốn được giá trị r(x) là tỷ lệ các đối tượng thỏa kết luận “SALARY = x” trong nhóm đối tượng thỏa điều kiện lọc theo công thức (4.9) sau:
𝑟(𝑥) = ∑ 𝜇𝑦𝑜𝑢𝑛𝑔(𝑜𝑖)∧𝜇𝑣𝑒𝑟𝑦_ℎ𝑖𝑔ℎ(𝑜𝑖) 𝑛
𝑖=1∧𝜇𝑥(𝑜𝑖)
∑𝑛𝑖=1𝜇𝑦𝑜𝑢𝑛𝑔(𝑜𝑖)∧𝜇𝑣𝑒𝑟𝑦_ℎ𝑖𝑔ℎ(𝑜𝑖) (4.9) Với 𝑜𝑖 ∈ 𝒟 = {𝑜1, 𝑜2, … , 𝑜𝑛} là bản ghi thứ i trong cơ sở dữ liệu.
Sau đó chọn hạng từ Q(x) sao cho 𝑇(𝑥) = 𝜇𝑄(𝑟(𝑥)) đạt giá trị lớn nhất, tức là chọn hạng từ lượng hóa diễn đạt tốt nhất tỷ lệ r(x). Giá trị r(x) được gọi là độ hỗ trợ của cơ sở dữ liệu đối với phần thân câu tóm tắt. Khi có nhiều hạng từ lượng hóa cùng cho giá trị T(x) lớn nhất thì chọn hạng từ có thứ tự ngữ nghĩa lớn nhất. Khi
r(x) càng lớn thì Q(x) được chọn càng có thứ tự ngữ nghĩa lớn, tức là r(x1) < r(x2) thì Q(x1) ≤ Q(x2). Từ cơng thức đánh giá độ tốt của một câu tóm tắt trong [38] Gn =
T.St(Q), với St(Q) là trọng số ưu tiên cho các hạng từ Q thỏa điều kiện Q1 < Q2 thì
với có nhiều nhất các đối tượng trong nhóm thỏa điều kiện lọc o(Fq) mà SALARY ở mức x*, khi đó chọn được Q*Dom(Q) để câu tóm tắt “Q*os that (AGE = ‘young’
AND SCORE_TEST = ‘very high’) are SALARY = x*” với độ ưu tiên St(Q*) của
Q*lớn nhất tương ứng Q* có thứ tự ngữ nghĩa lớn nhất.
Liên hệ với luật kết hợp ngôn ngữ, giá trị r(x) tương ứng là độ đo tin cậy của luật kết hợp dạng “IF (AGE = ‘young’ AND SCORE_TEST = ‘very high’) THEN SALARY = x”. Do đó, ý tưởng chọn x* như trong ví dụ trên để đưa ra một câu tóm tắt mà phần kết luận thể hiện tính chất phổ biến nhất về thuộc tính SALARY của nhóm đối tượng đã xác định bởi điều kiện lọc (AGE = ‘young’ AND SCORE_TEST = ‘very high’). Khi điều kiện lọc o(Fq) đã xác định hoàn toàn (bao gồm cả thuộc tính và giá trị ngơn ngữ tương ứng), cấu trúc o(Es) đã xác định (thuộc tính được xác định, hạng từ chưa xác định), lúc này chỉ lựa chọn đưa ra một câu tóm tắt có kết luận bởi hạng từ x* sao cho thỏa lần lượt các điều kiện sau:
o (G1): r(x*) đạt giá trị lớn nhất. o (G2): giá trị đúng đắn T lớn nhất.
o (G3): từ lượng hóa Q* có thứ tự lớn nhất.
Với chiến lược tham lam như vậy sẽ hướng đến các câu tóm tắt làm tăng độ tốt Gn của từng câu tóm tắt, đồng thời tăng độ tốt Gd của cả tập câu tóm tắt. Hơn nữa, khi mỗi nhóm đối tượng thỏa điều kiện lọc o(Fq), chỉ đưa ra một kết luận cũng sẽ góp phần làm tăng độ phong phú De của tập câu tóm tắt theo đánh giá bởi cơng thức (4.5). Như vậy, chất lượng của tập câu tóm tắt bởi cơng thức (4.8) (gộp nhập của hai độ đo Gn và De) cũng sẽ được tăng lên.
4.4.2.Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ
Trong q trình trích rút câu tóm tắt tối ưu bởi giải thuật di truyền, các nghiên cứu [38, 41] có sử dụng tốn tử cleaning để thay thế các câu tóm tắt có giá trị đúng đắn T = 0 bởi một câu tóm tắt ngẫu nhiên khác. Những câu tóm tắt có T = 0 tương ứng với câu tóm tắt mà điều kiện lọc o(Fq) là liên kết AND của nhiều vị từ ngơn ngữ nên khơng có bản ghi nào trong cơ sở dữ liệu thỏa điều kiện lọc o(Fq). Kết quả thực nghiệm trong [38] cho thấy mơ hình di truyền Hybird-GA có sử dụng tốn tử cleaning và improver thì trung bình sau 10 lần chạy thuật tốn vẫn cịn một
câu tóm tắt mà T = 0 trong tập câu tối ưu gồm 30 câu. Để khơng xuất hiện các câu tóm tắt như vậy, tác giả luận án đề xuất sử dụng độ đo hỗ trợ supp(F) = ∑𝑛 𝜇𝐹(𝑜𝑖)
𝑖=1 /𝑛 (n là số bản ghi trong cơ sở dữ liệu) để đánh giá lực lượng của nhóm đối tượng thỏa điều kiện lọc o(Fq). Chỉ khi độ đo hỗ trợ supp(Fq) lớn hơn ngưỡng
cho trước thì mới thực hiện sinh câu tóm tắt có điều kiện lọc o(Fq). Như vậy, trong tập câu tóm tắt tối ưu sẽ gồm các kết luận về các nhóm đối tượng mà lực lượng trên một ngưỡng hay có mức độ phổ biến trên ngưỡng cho trước.
4.4.2.1.Thủ tục trích rút câu tóm tắt tốt dựa trên chiến lược tham lam
Từ phân tích nêu trên, chiến lược tham lam tổng quát được áp dụng để chọn một câu tóm tắt được thực hiện theo ý tưởng như sau:
o Bước 1: Sinh ngẫu nhiên thành phần lọc o(Fq) (bao gồm cả thuộc tính và hạng từ tương ứng). Tính độ đo hỗ trợ cho o(Fq) theo cơng thức supp(Fq) = ∑𝑛𝑖=1𝜇𝐹𝑞(𝑜𝑖)/𝑛 (n là số bản ghi trong cơ sở dữ liệu). Nếu supp(Fq) > cho trước thì thành phần o(Fq) này được chấp nhận và chuyển sang bước 2, ngược lại thì sinh ngẫu nhiên thành phần lọc o(Fq) khác.
o Bước 2: Chọn ngẫu nhiên thuộc tính trong thành phần o(Es) theo số lượng đã cho, duyệt các tổ hợp hạng từ trong LFoC của các thuộc tính trong o(Es) để tìm một một tổ hợp hạng từ mà độ hỗ trợ cho phần thân câu tóm tắt (với thành phần o(Fq) đã xác định ở bước 1, cấu trúc o(Es) đã xác định) đạt giá trị lớn nhất.
o Bước 3: Chọn một từ lượng hóa Q*trong LFoC của Q sao cho giá trị T tính theo cơng thức (1.7) đạt lớn nhất. Nếu có nhiều hạng từ Q* để T đạt giá trị lớn nhất thì chọn hạng từ Q* có thứ tự ngữ nghĩa lớn nhất.
Bước 1 thực hiện chọn thành phần lọc o(Fq) thỏa ngưỡng supp(Fq), bước 2 chọn hạng từ trong kết luận o(Es) mang tính phổ biến nhất cho nhóm đối tượng thỏa
o(Fq) theo cấu trúc đã xác định, bước 3 chọn hạng từ Q để có độ đo T lớn nhất và
St(Q) lớn nhất (tương ứng thứ tự ngữ nghĩa của Q lớn nhất). Kết quả thu được một câu tóm tắt hướng đến độ đo tốt Gn lớn trong các câu tóm tắt cùng thành phần o(Fq) và cùng cấu trúc o(Es).
“Qos are o(Es),” và “Qos that are o(Fq) is o(Es)”
Với o(Es) = “o(As1) is/has xs1 AND … AND o(Asm) is/has xsm” là thành phần kết luận và o(Fq) = “o(Aq1) is/has xq1 AND … AND o(Aqh) is/has xqh” là thành phần lọc trong câu tóm tắt, o ký hiệu cho các đối tượng trong cơ sở dữ liệu.
Hàm Random-Greedy-LS sinh câu tóm tắt sử dụng chiến lược tham lam được mô tả như sau:
Function Random-Greedy-LS; Input:
- Cơ sở dữ liệu D
- Khung nhận thức ngơn ngữ LFoC ℱA cho các thuộc tính trong D và tập các tập mờ T(ℱA) được xây dựng bởi thủ tục HA-TFS-MG đề xuất trong chương 2.
- Tập hạng từ ℱQ và các tập mờ T(ℱQ).
- Ngưỡng độ hỗ trợ cho nhóm bản ghi thỏa o(Fq) là .
Output:
- Một câu tóm tắt SL thỏa supp(Fq) ≥ và thỏa các điều kiện (G1), (G2), (G3) nêu trên.
Begin
1. repeat //Sinh ngẫu nhiên thành phần o(Fq) thỏa điều kiện ngưỡng
2. o(Fq) Random_List((Aq1, xq1), …, (Aqh, xqh));
3.until supp(Fq) ≥ ;
4. Random_List(As1, …, Asm);
//Chọn ngẫu nhiên các thuộc tính trong o(Es)
5. Chọn một bộ hạng từ ngôn ngữ (xs1, …, xsm) ℱ𝐴𝑠1 × … × ℱ𝐴𝑠𝑚 sao cho𝑟 =∑ 𝜇𝑜(𝐹𝑞)∧𝜇𝑜(𝐸𝑠)
∑ 𝜇𝑜(𝐹𝑞) đạt giá trị lớn nhất;
6. Chọn từ lượng hóa QℱQsao cho 𝜇𝑄(𝑟)và St(Q) đạt giá trị lớn nhất 7. return “Q os that are o(Fq) is o(Es)”
End.
Thủ tục con Random_List((Aq1, xq1), …, (Aqh, xqh)) tại dòng 2 sẽ thực hiện sinh ngẫu nhiên các vị từ dạng “Aqi is/has xqi” cho thành phần lọc o(Fq). Sau đó,
thực hiện kiểm tra độ hỗ trợ cho o(Fq) tại dòng 3. Nếu độ hỗ trợ supp(Fq) trên ngưỡng thì sẽ kết thúc vịng lặp chọn thành phần o(Fq). Tương tự, tại dòng 4 sử dụng thủ tục Random_List(As1, …, Asm) lúc này chỉ để chọn ngẫu nhiên các thuộc tính tham gia trong thành phần kết luận o(Es). Sau đó, tại dịng 5 thực hiện duyệt các tổ hợp hạng từ trong khung nhận thức ngôn ngữ (ℱ𝐴𝑠1 × … × ℱ𝐴𝑠𝑚) của các thuộc tính đã được xác định tại dịng 4. Tổ hợp hạng từ (xs1, …, xsm) mà với nó giá trị r (được coi là độ hỗ trợ cho phần thân câu tóm tắt) đạt giá trị lớn nhất sẽ được chọn để hoàn thiện thành phần kết luận o(Es). Tức là chọn phần thân câu tóm tắt thỏa điều kiện (G1). Cuối cùng, tại dòng 6 thực hiện chọn một hạng từ Q thỏa các điều kiện (G2) (giá trị đúng đắn T = 𝜇𝑄(𝑟) lớn nhất) và (G3) (St(Q) có giá trị lớn nhất).