Người dùng nhận được các câu tóm tắt và giải nghĩa chúng để hiểu được các thông tin, tri thức ẩn dấu trong tập dữ liệu. Do đó, đánh giá mức độ thông tin của các câu tóm tắt dựa trên ngữnghĩa vốn có của các hạng từ trong ngôn ngữ tự nhiên là một yêu cầu quan trọng trong nghiên cứu về trích rút tóm tắt bằng ngôn ngữ. Luận án dựa trên ý tưởng vềđộđo thông tin như trong nghiên cứu của Yager [3, 4] và Wilbik [35] để đưa ra tiêu chí lựa chọn các câu tóm tắt cung cấp nhiều thông tin
cho người dùng.
Ký hiệu một câu tóm tắt dạng đơn giản được trích rút từ một cơ sở dữ liệu là một bộ ba (S, Q, T). Trong đó, S, Q, T tương ứng là thành phần kết luận, từlượng hóa và giá trịđúng đắn (giá trị chân lý) của câu tóm tắt. Tùy thuộc vào dạng tập mờ
biểu diễn ngữnghĩa của từlượng hóa Q có các công thức khác nhau đểđánh giá độ đo thông tin. Khi sử dụng tập mờ hình thang biểu diễn ngữnghĩa cho Q, công thức
tính độ đo thông tin do Yager đề xuất được cho như trong công thức (3.4). Trong
đó, alà điểm chính giữa của khoảng giá trị mà hàm thuộc của tập mờ biểu diễn ngữ nghĩa cho Q có giá trị 1; Sp(F) là độđo tính riêng của tập mờ Fđược tính như trong
công thức (3.5) khi tập mờ là tập mờ hình thang biểu diễn bởi bộ 4 (t1, t2, t3, t4)[35]. 𝐼 = 𝑀𝑎𝑥[𝑎 ∗ 𝑇 ∗ 𝑆𝑝(𝑄) ∗ 𝑆𝑝(𝑆), (1 − 𝑎) ∗ 𝑆𝑝(𝑄) ∗ 𝑆𝑝(𝑆̅)] (3.4)
𝑆𝑝(𝐹) = 1 −(𝑡4−𝑡1)−(𝑡3−𝑡2)
2 (3.5)
Công thức tính độ đo thông tin I của Yager xuất phát từ việc xem xét mối quan hệ giữa ba yếu tố: mức độ thông tin nhận được từ giải nghĩa câu tóm tắt, độđo
công thức (3.5) cho thấy tập mờ càng hẹp thì độ đo tính riêng càng lớn, tức là có mối quan hệ rõ ràng giữa độđo tính riêng của tập mờ và mức độ tính riêng của hạng từ gán cho nó. Trong nghiên cứu của luận án, tính riêng của các hạng từ được xem xét dựa trên ngữnghĩa vốn có của chúng trong ngôn ngữ tự nhiên. Cụ thể trong lý thuyết ĐSGT, độđo tính riêng được tính bằng số lượng gia tử ngôn ngữ xuất hiện trong hạng từ đó. Theo cách thiết kế tập mờ trong thủ tục HA-TFS-MG tại mục 2.5.1, các hạng từ mà xuất hiện nhiều gia tử thì hình thang biểu diễn ngữnghĩa càng
hẹp. Do đó, thay vì sử dụng độđo tính từ tập mờ, lúc này việc xem xét tính chung –
riêng của mỗi hạng từ trong LFoC trực tiếp thông qua sốlượng gia tử ngôn ngữ.
Hơn nữa, các hình thang biểu diễn ngữ nghĩa cho các hạng từ lượng hóa Q
trong thực nghiệm được sinh bởi thủ tục HA-TFS-MG nên đáy nhỏ của chúng có thứ tự tương ứng với thứ tự ngữ nghĩa của Q. Giá trị a trong công thức (3.4) chính là hoành độtrung điểm đoạn đáy nhỏ của tập mờ hình thang. Từđó cho thấy cần ưu
tiên lựa chọn từ lượng hóa Q tương ứng với hình thang có a càng gần 1. Tức là từ lượng hóa Q có thứ tự ngữ nghĩa lớn hơn sẽ tạo thành câu tóm tắt cung cấp nhiều
thông tin hơn.
Theo lập luận vềđộ đo thông tin như trên, tác giả luận án đưa ra tiêu chí lựa chọn các câu tóm tắt cung cấp nhiều thông tin hơn. Giả sử, phần thân câu tóm tắt đã được xác định, tức là thành phần kết luận o(Es) và thành phần lọc o(Fq) đã được xác
định. Khi đó, giá trị hỗ trợ cho thân câu tóm tắt đã được tính toán xác định, có thể
lựa chọn một số từlượng hóa Q để tạo thành các câu tóm tắt SL. Tiêu chuẩn để chọn một từlượng hóa Q tạo thành câu tóm tắt cung cấp nhiều thông tin nhất như sau:
o C1: Giá trị chân lý của SL lớn nhất;
o C2: Khi có nhiều hơn một từ lượng hóa mà cho giá trị chân lý bằng nhau,
thực hiện chọn SL có định lượng Q ở mức riêng lớn nhất (tức có nhiều gia tử nhất). Ngoài ra, nếu tồn tại nhiều hơn một từ lượng hóa Q như vậy, khi đó sẽ chọn từ định lượng Q có thứ tự ngữ nghĩa lớn nhất.