Trong bài toán trích rút tóm tắt bằng ngôn ngữ coi các câu tóm tắt đầu ra như là các câu trong ngôn ngữ tự nhiên. Tuy nhiên, trong phương pháp trích rút tóm tắt dựa trên lý thuyết tập mờ, các tập mờ được xây dựng và gán cho các hạng từ tương ứng dựa trên quan điểm của người thiết kế tập mờ. Do đó, chưa có một cơ sở hình thức hóa cho việc xây dựng các tập mờ để đảm bảo chúng biểu diễn đúng ngữ nghĩa vốn có trong ngôn ngữ tự nhiên của các hạng từ được gán cho chúng.
Xem xét một câu tóm tắt SL cho một tập dữ liệu D là kết quả của một phương pháp trích rút tóm tắt M sử dụng tập mờ để biểu diễn ngữ nghĩa cho các từ trong SL, ký hiệu bởi Rfs(SL). Tồn tại hai khía cạnh ngữ nghĩa cùng được gán cho SL. Khía cạnh ngữ nghĩa thứ nhất là ngữ nghĩa vốn có về thế giới thực được biểu diễn bởi tập dữ liệu D mà SL truyền tải, SL được coi như một câu trong ngôn ngữ tự nhiên. Các câu trong ngôn ngữ tự nhiên dễ đọc, dễ hiểu và có cùng ngữ nghĩa như nhau đối với mọi người trong cùng cộng đồng. Do đó, khía cạnh ngữ nghĩa thứ nhất mang tính khách quan. Khía cạnh ngữ nghĩa thứ hai là nội dung thông tin của D được gán cho
SL qua phương pháp tính toán trong M; ký hiệu là Cont𝒟,M(Rfs(SL)). Khía cạnh ngữ nghĩa này mang tính chủ quan của người thiết kế tập mờ. Như vậy, nhìn chung hai khía cạnh ngữ nghĩa này là khác nhau. Khi thiếu một cơ sở hình thức hóa đáng tin cậy để đảm bảo biểu diễn tập mờ có cấu trúc Rfs(SL) của SL biểu diễn đúng ngữ nghĩa định tính của SL thì không có cơ sở hình thức để đảm bảo đẳng thức (2.1) sau:
ContD(SL) = ContD, M(Rfs(SL)) (2.1) Trong luận án, tác giả xem xét đẳng thức (2.1) biểu thị đẳng thức trong môi trường không chắc chắn vì nội dung thông tin ở hai vế của đẳng thức được xác định
dựa trên ngữ nghĩa của các từ ngôn ngữ. Đẳng thức (2.1) đề cập đến bài toán nội dung thông tin của câu tóm tắt (Linguistic Summarization-Content Problem), viết tắt là LS-CP. Mục đích chính của luận án là thành lập một phương pháp luận để giải
LS-CP. Điều này là cần thiết để tránh cho người sử dụng nhận thông tin sai lệch do
SL cung cấp. Đây là một mục tiêu đầy thách thức vì chúng ta nhận thấy rằng ngữ nghĩa vốn có của câu tóm tắt SL, tức là ContD(SL), được xác định bằng kết hợp ngữ nghĩa của các từ của các thuộc tính trong phương pháp hình thức hóa của ngôn ngữ tự nhiên, mà ngôn ngữ tự nhiên chưa được hình thức hóa trong nền tảng lý thuyết tập mờ. Mặt khác, ContD,M(Rfs(SL)) được tính toán bởi thuật toán M dựa trên biểu diễn tập mờ Rfs(SL) bằng việc kết hợp ngữ nghĩa dựa trên tập mờ của các từ của các thuộc tính trong câu tóm tắt SL trong phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ trong tự nhiên.
Hình 2.1 minh họa thách thức đặt ra cần giải quyết. Trong khi, vế trái của đẳng thức (2.1) biểu thị nội dung thông tin mà người sử dụng giải nghĩa câu tóm tắt
SL trong mô hình ngôn ngữ tự nhiên như bên trái của Hình 2.1. Vế phải của đẳng thức (2.1) biểu thị nội dung thông tin mà người phát triển hệ thống thao tác trên mô hình tính toán của các hạng từ để gán cho câu tóm tắt SL như hình bên phải của Hình 2.1. Do đó, để đảm bảo đẳng thức (2.1) đúng thì cần phải tìm một phương pháp chuyển đổi hình thức đáp ứng được kỳ vọng từ miền hạng từ ngôn ngữ sang một cấu trúc tính toán phù hợp.
Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một cấu trúc tính toán phù hợp
Bài toán ứng dụng trong thế giới thực Miền ngôn ngữ Mi ền n g ô n n g ữ UZ UX Người sử dụng:
Nội dung thông tin cung cấp từ hệ thống có thực sự đúng?
Người phát triển hệ thống: Mô hình tính toán có mô phỏng đúng bài toán trong thực tế? Có một phương pháp chuyển đổi hình
thức như kỳ vọng không?
Trong ngữ cảnh này, một cách khả thi để giải bài toán LS-CP là tận dụng khái niệm giải nghĩa của lý thuyết hình thức hóa S trong một lý thuyết hình thức hóa khác T được định nghĩa bởi Tarski và cộng sự trong Undecidable Theories [44] như sau:
“Giả sử S và T là hai lý thuyết hình thức. Lý thuyết S giải nghĩa được trong lý thuyết T khi và chỉ khi ngôn ngữ của S có thể được dịch sang ngôn ngữ của T và T có thể chứng minh được tất cả các định lý của S được dịch sang T.”
Do đó, yêu cầu ít nhất để có thể tương tác với các tập mờ thay vì chính các hạng từ tương ứng của chúng khi và chỉ khi các tập mờ là hình ảnh đẳng cấu của các hạng từ tương ứng. Tức là, chúng phải truyền tải được ngữ nghĩa vốn có của các hạng từ. Luận án hướng đến thiết lập một phương pháp luận để xây dựng một biến đổi đẳng cấu từ một miền hạng từ sang cấu trúc mong muốn của các tập mờ đã được xây dựng biểu diễn ngữ nghĩa cho các hạng từ. Với một tập dữ liệu đã cho, xác định rằng cần giải các bài toán con sau dựa trên phương pháp hình thức hóa của ĐSGT:
o (P1) Hình thức hóa miền hạng từ của thuộc tính: miền hạng từ của các thuộc tính được coi như một đối sánh tương ứng với miền giá trị toán học của chúng. Do đó, các miền hạng từ được mô hình hóa như cấu trúc toán học bằng xác định các thành phần cơ bản của cấu trúc ĐSGT tương ứng của chúng.
o (P2) Ngữ nghĩa phụ thuộc ngữ cảnh của các hạng từ: mọi miền hạng từ của các thuộc tính trong tập dữ liệu bao gồm tất cả các từ mà con người có thể sử dụng trong ngôn ngữ tự nhiên. Hơn nữa, ngữ nghĩa vốn có của các từ trong miền hạng từ được sử dụng cần được định nghĩa trong ngữ cảnh
toàn bộ miền hạng từ của thuộc tính, mặc dù tập từ được sử dụng trong mỗi ứng dụng được giới hạn bởi một số nguyên xác định nhưng có thể được tăng lên trong quá trình phát triển hệ thống. Trong nhiều nghiên cứu, số lượng hạng từ của mỗi thuộc tính đang bị cố định, bị giới hạn đáng kể, cụ thể giới hạn bởi 7 2 [61].
o (P3) Sự tương thích của cấu trúc miền hạng từ và tập các tập mờ biểu diễn ngữ nghĩa cho các hạng từ: khi miền hạng từ của thuộc tính A có thể được hình thức hóa, lúc đó tập các từ được khai báo ℱAcủa A như là một khung
nhận thức ngôn ngữ phải bao gồm một cấu trúc ngữ nghĩa tự nhiên cụ thể. Vấn đề được đặt ra là cấu trúc ngữ nghĩa nào của LFoC ℱA có thể được được phát hiện và cấu trúc toán học nào của ngữ nghĩa biểu diễn bởi tập mờ cho các từ của ℱA có thể biểu diễn tương thích cấu trúc ngữ nghĩa của LFoC ℱA.
Lý thuyết ĐSGT đã tạo ra một cơ sở hình thức hóa để thành lập phương pháp luận mong đợi giải bài toán LS-CP. Trong phần tiếp theo, luận án sẽ trình bày về phương pháp hình thức hóa miền hạng từ của thuộc tính bằng một cấu trúc ĐSGT. Từ đó, xác định được khung nhận thức ngôn ngữ (Linguistic Frame of Cognition - LFoC) cùng các mối quan hệ ngữ nghĩa dựa trên ngữ nghĩa vốn có của các hạng từ, tính mở rộng được của LFoC. Một thủ tục được đề xuất để xây dựng các tập mờ biểu diễn ngữ nghĩa cho các từ ngôn ngữ trong LFoC từ bộ tham số định lượng của cấu trúc ĐSGT. Các tập mờ này tạo thành cấu trúc đa thể tương thích với cấu trúc đa ngữ nghĩa của LFoC.