Dựa trên độ đo tốt của một tập câu tóm tắt theo công thức (4.3) và độ đo tính đa dạng theo công thức (4.5), tác giả luận án đề xuất sử dụng chiến lược tham lam trong quá trình sinh câu tóm tắt để hướng đến làm tăng hai độ đo đánh giá này. Để tăng tính đa dạng theo như đánh giá bởi công thức (4.5), với mỗi nhóm con xác định bởi điều kiện lọc o(Fq), thuộc tính cần đánh giá trong thành phần kết luận o(Es) đã xác định, chỉ sinh ra một câu tóm tắt. Hơn nữa, câu tóm tắt này cũng được chọn sao cho độ đo đúng đắn T lớn nhất và từ lượng hóa Q có độ ưa thích lớn nhất có thể. Khi đó, độ tốt của câu tóm tắt theo công thức (4.3) được tăng lên, góp phần làm tăng độ tốt của các tập câu tóm tắt theo công thức (4.4).
Xét ví dụ một câu tóm tắt dạng mở rộng như trong (3.2) là “Qos that (AGE = ‘young’ AND SCORE_TEST = ‘very high’) are “SALARY = x”. Trong ví dụ này, đã xác định nhóm đối tượng xem xét thỏa điều kiện lọc (AGE = ‘young’ AND SCORE_TEST = ‘very high’), cấu trúc của kết luận là “SALARY = x”, với x là một hạng từ trong LFoC SALARY. Với mỗi ℱ x SALARY, xác định một thân câu tómℱ tắt, tương ứng tính toán được giá trị r(x) là tỷ lệ các đối tượng thỏa kết luận “SALARY = x” trong nhóm đối tượng thỏa điều kiện lọc theo công thức (4.9) sau:
( ) =
∑ =1 ( )∧ _ℎ ℎ( )∧ ( ) (4.9)
∑
=1 ( )∧ _ℎ ℎ( )
Với ∈ = { 1,2, … , } là bản ghi thứ i trong cơ sở dữ liệu.
Sau đó chọn hạng từ Q(x) sao cho ( ) = ( ( )) đạt giá trị lớn nhất, tức là chọn hạng từ lượng hóa diễn đạt tốt nhất tỷ lệ r(x). Giá trị r(x) được gọi là độ hỗ trợ của cơ sở dữ liệu đối với phần thân câu tóm tắt. Khi có nhiều hạng từ lượng hóa cùng cho giá trị T(x) lớn nhất thì chọn hạng từ có thứ tự ngữ nghĩa lớn nhất. Khi
r(x) càng lớn thì Q(x) được chọn càng có thứ tự ngữ nghĩa lớn, tức là r(x1) < r(x2) thì Q(x1) ≤ Q(x2). Từ công thức đánh giá độ tốt của một câu tóm tắt trong [38] Gn =
T.St(Q), với St(Q) là trọng số ưu tiên cho các hạng từ Q thỏa điều kiện Q1 < Q2 thì
với có nhiều nhất các đối tượng trong nhóm thỏa điều kiện lọc o(Fq) mà SALARY ở mức x*, khi đó chọn được Q* Dom(Q) để câu tóm tắt “Q*os that (AGE = ‘young’
AND SCORE_TEST = ‘very high’) are SALARY = x*” với độ ưu tiên St(Q*) của
Q* lớn nhất tương ứng Q* có thứ tự ngữ nghĩa lớn nhất.
Liên hệ với luật kết hợp ngôn ngữ, giá trị r(x) tương ứng là độ đo tin cậy của luật kết hợp dạng “IF (AGE = ‘young’ AND SCORE_TEST = ‘very high’) THEN SALARY = x”. Do đó, ý tưởng chọn x* như trong ví dụ trên để đưa ra một câu tóm tắt mà phần kết luận thể hiện tính chất phổ biến nhất về thuộc tính SALARY của nhóm đối tượng đã xác định bởi điều kiện lọc (AGE = ‘young’ AND SCORE_TEST = ‘very high’). Khi điều kiện lọc o(Fq) đã xác định hoàn toàn (bao gồm cả thuộc tính và giá trị ngôn ngữ tương ứng), cấu trúc o(Es) đã xác định (thuộc tính được xác định, hạng từ chưa xác định), lúc này chỉ lựa chọn đưa ra một câu tóm tắt có kết luận bởi hạng từ x* sao cho thỏa lần lượt các điều kiện sau:
o (G1): r(x*) đạt giá trị lớn nhất. o (G2): giá trị đúng đắn T lớn nhất.
o (G3): từ lượng hóa Q* có thứ tự lớn nhất.
Với chiến lược tham lam như vậy sẽ hướng đến các câu tóm tắt làm tăng độ tốt Gn của từng câu tóm tắt, đồng thời tăng độ tốt Gd của cả tập câu tóm tắt. Hơn nữa, khi mỗi nhóm đối tượng thỏa điều kiện lọc o(Fq), chỉ đưa ra một kết luận cũng sẽ góp phần làm tăng độ phong phú De của tập câu tóm tắt theo đánh giá bởi công thức (4.5). Như vậy, chất lượng của tập câu tóm tắt bởi công thức (4.8) (gộp nhập của hai độ đo Gn và De) cũng sẽ được tăng lên.