CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
3.1. Cú pháp câu tóm tắt trong ngơn ngữ tự nhiên
Cho cơ sở dữ liệu D bao gồm các bản ghi biểu diễn dữ liệu về các đối tượng trong thế giới thực. Ký hiệu, Aj là một thuộc tính của D, xji là một hạng từ thứ i
trong khung nhận thức ngôn ngữ ℱκ của thuộc tính Aj. Từ đây, luận án sử dụng ký hiệu o thay cho ký hiệu y trong công thức (1.2), (1.3) để tránh nhầm lẫn với y ký hiệu cho các hạng từ ngơn ngữ.
Mỗi câu tóm tắt SLbao gồm các thành phần là từ lượng hóa Q, các vị từ ngơn ngữ dạng P(o(Aj), xji) = “o(Aj) is/has xji”. Để biểu diễn rõ hơn các thành phần trong câu tóm tắt, cấu trúc câu trong (1.2) và (1.3) được viết lại ở dạng như sau:
p = “Qos are o(Es),” (3.1) pq = “Qos that are o(Fq) is o(Es)” (3.2) Trong đó, o(Es) và o(Fq) ký hiệu cho các biểu diễn ngôn ngữ liên kết các vị từ ngơn ngữ có dạng “o(A1) is/has x1 AND … AND o(Am) is/has xm”, xj∈ 𝐹𝐴𝑗,𝜅𝑗, j = 1 .. m. Khi tách thành phần từ lượng hóa Q trong câu tóm tắt theo dạng trong (3.1) và (3.2), phần cịn lại có thể được viết ngắn gọn lần lượt là o(Es) và “o(Es) AND
o(Fq)”, phần này được gọi là thân của câu tóm tắt tương ứng.
Các hạng từ xj là phần tử trong khung nhận thức ngơn ngữ của thuộc tính thứ
câu tóm tắt như trong (3.1) và (3.2), bao gồm các từ lượng hóa là các hạng từ trong ngôn ngữ tự nhiên được sử dụng để mơ tả các thuộc tính, đại lượng định lượng. Điều này khác biệt với các hạng từ chỉ được coi là nhãn của các tập mờ trong phương pháp luận dựa trên lý thuyết tập mờ. Do đó, cấu trúc câu tóm tắt như trong (3.1) và (3.2) được coi là các câu diễn đạt bằng ngôn ngữ tự nhiên.
Cho trước một cơ sở dữ liệu D, các phương pháp trích rút tóm tắt bằng ngơn ngữ (LSMd) dựa trên lý thuyết tập mờ sẽ xây dựng các tập mờ và gán nhãn cho chúng bằng các hạng từ. Phương pháp LSMd dựa trên lý thuyết ĐSGT, bắt đầu từ việc xác định khung nhận thức bằng ngơn ngữ cho các thuộc tính theo định nghĩa 2.1. Tức là xác định cú pháp và ngữ nghĩa định tính cho miền hạng từ của thuộc tính. Đồng thời, xác định bộ tham số định lượng tính mờ chỉ với vài giá trị (thông thường là 6 tham số cho cấu trúc ĐSGT có một gia tử dương, một gia tử âm). Từ bộ tham số này, sử dụng thủ tục HA-TFS-MG trong mục 2.5.1 sẽ tính tốn được tất cả hàm thuộc của các tập mờ hình thang biểu diễn ngữ nghĩa cho các hạng từ trong LFoC. Như vậy, ngữ nghĩa tính tốn dựa trên tập mờ của các hạng từ ngôn ngữ được sinh ra từ ngữ nghĩa định tính và chúng là ảnh đẳng cấu bảo tồn các quan hệ ngữ nghĩa vốn có của các hạng từ. Do đó, một thuật tốn trích rút tóm tắt sử dụng các tập mờ được xây dựng theo thủ tục HA-TFS-MG trong 2.5.1 sẽ được coi là xử lý trực tiếp trên ngữ nghĩa của các hạng từ trong ngôn ngữ tự nhiên.