Cú pháp câu tóm tắt trong ngôn ngữ tự nhiên

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 88 - 89)

Cho cơ sở dữ liệu D bao gồm các bản ghi biểu diễn dữ liệu về các đối tượng trong thế giới thực. Ký hiệu, Aj là một thuộc tính của D, xji là một hạng từ thứ i

trong khung nhận thức ngôn ngữ ℱκ của thuộc tính Aj. Từ đây, luận án sử dụng ký hiệu o thay cho ký hiệu y trong công thức (1.2), (1.3) để tránh nhầm lẫn với y ký hiệu cho các hạng từ ngôn ngữ.

Mỗi câu tóm tắt SLbao gồm các thành phần là từ lượng hóa Q, các vị từ ngôn ngữ dạng P(o(Aj), xji) = “o(Aj) is/has xji”. Để biểu diễn rõ hơn các thành phần trong câu tóm tắt, cấu trúc câu trong (1.2) và (1.3) được viết lại ở dạng như sau:

p = “Qos are o(Es),” (3.1) pq = “Qos that are o(Fq) is o(Es)” (3.2) Trong đó, o(Es) và o(Fq) ký hiệu cho các biểu diễn ngôn ngữ liên kết các vị từ ngôn ngữ có dạng “o(A1) is/has x1 AND … AND o(Am) is/has xm”, xj∈ 𝐹𝐴𝑗,𝜅𝑗, j = 1 .. m. Khi tách thành phần từ lượng hóa Q trong câu tóm tắt theo dạng trong (3.1) và (3.2), phần còn lại có thể được viết ngắn gọn lần lượt là o(Es) và “o(Es) AND

o(Fq)”, phần này được gọi là thân của câu tóm tắt tương ứng.

Các hạng từ xj là phần tử trong khung nhận thức ngôn ngữ của thuộc tính thứ

câu tóm tắt như trong (3.1) và (3.2), bao gồm các từ lượng hóa là các hạng từ trong ngôn ngữ tự nhiên được sử dụng để mô tả các thuộc tính, đại lượng định lượng. Điều này khác biệt với các hạng từ chỉ được coi là nhãn của các tập mờ trong phương pháp luận dựa trên lý thuyết tập mờ. Do đó, cấu trúc câu tóm tắt như trong (3.1) và (3.2) được coi là các câu diễn đạt bằng ngôn ngữ tự nhiên.

Cho trước một cơ sở dữ liệu D, các phương pháp trích rút tóm tắt bằng ngôn ngữ (LSMd) dựa trên lý thuyết tập mờ sẽ xây dựng các tập mờ và gán nhãn cho chúng bằng các hạng từ. Phương pháp LSMd dựa trên lý thuyết ĐSGT, bắt đầu từ việc xác định khung nhận thức bằng ngôn ngữ cho các thuộc tính theo định nghĩa 2.1. Tức là xác định cú pháp và ngữ nghĩa định tính cho miền hạng từ của thuộc tính. Đồng thời, xác định bộ tham số định lượng tính mờ chỉ với vài giá trị (thông thường là 6 tham số cho cấu trúc ĐSGT có một gia tử dương, một gia tử âm). Từ bộ tham số này, sử dụng thủ tục HA-TFS-MG trong mục 2.5.1 sẽ tính toán được tất cả hàm thuộc của các tập mờ hình thang biểu diễn ngữ nghĩa cho các hạng từ trong LFoC. Như vậy, ngữ nghĩa tính toán dựa trên tập mờ của các hạng từ ngôn ngữ được sinh ra từ ngữ nghĩa định tính và chúng là ảnh đẳng cấu bảo toàn các quan hệ ngữ nghĩa vốn có của các hạng từ. Do đó, một thuật toán trích rút tóm tắt sử dụng các tập mờ được xây dựng theo thủ tục HA-TFS-MG trong 2.5.1 sẽ được coi là xử lý trực tiếp trên ngữ nghĩa của các hạng từ trong ngôn ngữ tự nhiên.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 88 - 89)

Tải bản đầy đủ (PDF)

(148 trang)