Đánh giá thông tin của câu tóm tắt

Người dùng nhận được các câu tóm tắt và giải nghĩa chúng để hiểu được các thông tin, tri thức ẩn dấu trong tập dữ liệu. Do đó, đánh giá mức độ thông tin của các câu tóm tắt dựa trên ngữ nghĩa vốn có của các hạng từ trong ngôn ngữ tự nhiên là một yêu cầu quan trọng trong nghiên cứu về trích rút tóm tắt bằng ngôn ngữ. Luận án dựa trên ý tưởng về độ đo thông tin như trong nghiên cứu của Yager [3, 4] và Wilbik [35] để đưa ra tiêu chí lựa chọn các câu tóm tắt cung cấp nhiều thông tin cho người dùng.

Ký hiệu một câu tóm tắt dạng đơn giản được trích rút từ một cơ sở dữ liệu là một bộ ba (S, Q, T). Trong đó, S, Q, T tương ứng là thành phần kết luận, từ lượng hóa và giá trị đúng đắn (giá trị chân lý) của câu tóm tắt. Tùy thuộc vào dạng tập mờ biểu diễn ngữ nghĩa của từ lượng hóa Q có các công thức khác nhau để đánh giá độ đo thông tin. Khi sử dụng tập mờ hình thang biểu diễn ngữ nghĩa cho Q, công thức tính độ đo thông tin do Yager đề xuất được cho như trong công thức (3.4). Trong đó, a là điểm chính giữa của khoảng giá trị mà hàm thuộc của tập mờ biểu diễn ngữ nghĩa cho Q có giá trị 1; Sp(F) là độ đo tính riêng của tập mờ F được tính như trong công thức (3.5) khi tập mờ là tập mờ hình thang biểu diễn bởi bộ 4 (t1, t2, t3, t4)[35].

𝐼 = 𝑀𝑎𝑥[𝑎 ∗ 𝑇 ∗ 𝑆𝑝(𝑄) ∗ 𝑆𝑝(𝑆), (1 − 𝑎) ∗ 𝑆𝑝(𝑄) ∗ 𝑆𝑝(𝑆̅)] (3.4) 𝑆𝑝(𝐹) = 1 −(𝑡4−𝑡1)−(𝑡3−𝑡2)

2 (3.5)

Công thức tính độ đo thông tin I của Yager xuất phát từ việc xem xét mối quan hệ giữa ba yếu tố: mức độ thông tin nhận được từ giải nghĩa câu tóm tắt, độ đo tính riêng của các tập mờ biểu diễn ngữ nghĩa cho Q và S, độ đo đúng đắn T. Từ

công thức (3.5) cho thấy tập mờ càng hẹp thì độ đo tính riêng càng lớn, tức là có mối quan hệ rõ ràng giữa độ đo tính riêng của tập mờ và mức độ tính riêng của hạng từ gán cho nó. Trong nghiên cứu của luận án, tính riêng của các hạng từ được xem xét dựa trên ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên. Cụ thể trong lý thuyết ĐSGT, độ đo tính riêng được tính bằng số lượng gia tử ngôn ngữ xuất hiện trong hạng từ đó. Theo cách thiết kế tập mờ trong thủ tục HA-TFS-MG tại mục 2.5.1, các hạng từ mà xuất hiện nhiều gia tử thì hình thang biểu diễn ngữ nghĩa càng hẹp. Do đó, thay vì sử dụng độ đo tính từ tập mờ, lúc này việc xem xét tính chung – riêng của mỗi hạng từ trong LFoC trực tiếp thông qua số lượng gia tử ngôn ngữ.

Hơn nữa, các hình thang biểu diễn ngữ nghĩa cho các hạng từ lượng hóa Q

trong thực nghiệm được sinh bởi thủ tục HA-TFS-MG nên đáy nhỏ của chúng có thứ tự tương ứng với thứ tự ngữ nghĩa của Q. Giá trị a trong công thức (3.4) chính là hoành độ trung điểm đoạn đáy nhỏ của tập mờ hình thang. Từ đó cho thấy cần ưu tiên lựa chọn từ lượng hóa Q tương ứng với hình thang có a càng gần 1. Tức là từ lượng hóa Q có thứ tự ngữ nghĩa lớn hơn sẽ tạo thành câu tóm tắt cung cấp nhiều thông tin hơn.

Theo lập luận về độ đo thông tin như trên, tác giả luận án đưa ra tiêu chí lựa chọn các câu tóm tắt cung cấp nhiều thông tin hơn. Giả sử, phần thân câu tóm tắt đã được xác định, tức là thành phần kết luận o(Es) và thành phần lọc o(Fq) đã được xác định. Khi đó, giá trị hỗ trợ cho thân câu tóm tắt đã được tính toán xác định, có thể lựa chọn một số từ lượng hóa Q để tạo thành các câu tóm tắt SL. Tiêu chuẩn để chọn một từ lượng hóa Q tạo thành câu tóm tắt cung cấp nhiều thông tin nhất như sau:

o C1: Giá trị chân lý của SL lớn nhất;

o C2: Khi có nhiều hơn một từ lượng hóa mà cho giá trị chân lý bằng nhau, thực hiện chọn SL có định lượng Q ở mức riêng lớn nhất (tức có nhiều gia tử nhất). Ngoài ra, nếu tồn tại nhiều hơn một từ lượng hóa Q như vậy, khi đó sẽ chọn từ định lượng Q có thứ tự ngữ nghĩa lớn nhất.

Các ràng buộc về tính giải nghĩa được

Lý thuyết đại số gia tử