Kết luận chương 1

5) Định lượng ngữ nghĩa của giá trị ngôn ngữ

I.7. Kết luận chương 1

Trong chương này, LA đã tóm tắt những kiến thức cơ sở làm nền tảng phục vụ trong quá trình nghiên cứu, bao gồm những nội dung chính sau đây:

- Lý thuyết tập mờ bao gồm các khái niệm tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ, hệ mờ và các ứng dụng.

- Hệ thống lý thuyết của ĐSGT với những khái niệm nền tảng như: ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tử sinh, phương pháp xác định giá trị định lượng của từ ngôn ngữ, khoảng tính mờ và khoảng tương tự của từ ngôn ngữ.

Với những kiến thức cơ sở được trình bày trong chương này là nền tảng đủ để thực hiện các mục tiêu đã đặt ra của luận án.

CHƯƠNG 2. TÍNH GIẢI NGHĨA ĐƯỢC CỦA KHUNG NHẬN THỨC NGÔN NGỮ TRONG CÁC HỆ MỜ NGÔN NGỮ II.1. Mở đầu

Các hệ dựa trên luật mờ (Fuzzy rule based systems - FRBSs) đã được phát triển mạnh mẽ những năm gần đây bởi có nhiều chức năng đặc biệt ưu việt như hoạt động dựa trên các kiến thức ngôn ngữ chuyên gia, được thiết kế di truyền tức là chúng được tạo ra bằng phương pháp có khả năng học và, đặc biệt, có tính giải nghĩa được để tương tác với con người bằng ngôn ngữ tự nhiên. Trong đó, các tính năng có thể kết hợp với tri thức ngôn ngữ của con người có thể được coi là một trong những mục tiêu chính của việc thiết kế FRBSs, do đó khả năng giải nghĩa được của các FRBS thu hút nhiều sự chú ý của cộng đồng nghiên cứu về lĩnh vực này.

Các nghiên cứu của Mencar và cộng sự [19], một trong những người đầu tiên đi vào bản chất ngữ nghĩa của luật mờ, đã đề xuất một khái niệm khá mới và thực chất hơn về tính giải nghĩa được của FRBS, nhằm đo mức độ tương tự giữa ngữ nghĩa biểu diễn bởi một luật mờ và biểu diễn bởi luật ngôn ngữ. Trong đó một luật mờ được biểu diễn bằng một biểu thức tập mờ và khi thay thế các tập mờ đó bằng các nhãn từ ngôn ngữ tương ứng ta được luật ngôn ngữ. Đây là một ý tưởng rất hay và có tính cơ bản của khái niệm tính giải nghĩa được. Lưu ý rằng tính giải nghĩa được quan tâm từ những năm 1990 đến nay chủ yếu được nghiên cứu trên quan điểm tính dễ hiểu và do đó 02 thuật ngữ ‘interpretability’ và ‘comprehensiveness’ được xem như đồng nghĩa. Vì vậy, thường tính dễ hiểu được nghiên cứu dựa trên quan sát thực tế là con người sẽ khó hiểu những hệ luật mà tiền đề có nhiều điều kiện, hệ luật có quá nhiều luật, tập các từ ngôn ngữ của khung nhận thức (Frame of Cognition) có nhiều hơn 7 ± 2 dựa trên kết luận của các nhà tâm lý rằng con người chỉ có thể xử lý tốt với số lượng thông tin không quá con số nói trên, v.v…

Trong lĩnh vực khoa học tính toán và máy tính, khái niệm giải nghĩa được (interpretation) nhằm giải quyết mối quan hệ giữa các biểu thức kí hiệu của một ngôn ngữ kí hiệu với cú pháp của nó, vốn không có ngữ nghĩa, và ngữ nghĩa mà con người gán cho chúng.

Nếu là một ngôn ngữ toán học, ngữ nghĩa của các biểu thức của nó được gán cho các đối tượng toán học, nhưng mục tiêu cuối cùng của ngữ nghĩa của chúng là ngữ nghĩa thế giới thực. Vì vậy, khái niệm giải nghĩa được theo ngữ nghĩa thế giới thực có vai trò quan trọng để bảo đảm ngữ nghĩa toán học mô phỏng được các quan hệ và các quá trình trong thế giới thực. Đặc biệt, nó rất quan trọng trong lĩnh vực xử lý thông tin ngôn ngữ mờ như các hệ mờ, vì con người thao tác trên thông tin ngôn ngữ bằng một cơ chế khác biệt về bản chất với cơ chế toán học thao tác trên ngữ nghĩa tính toán (biểu diễn bằng các đối tượng tính toán trong một cấu trúc tính toán do các chuyên gia xây dựng). Việc các biểu diễn tính toán đó có chuyển tải đúng ngữ nghĩa mong muốn của các biểu thức ngôn ngữ của con người phụ thuộc vào việc xác lập các ánh xạ giải nghĩa đúng đắn cho chúng.

Vấn đề cơ bản của tính giải nghĩa được trong môi trường thông tin ngôn ngữ mờ, không chắc chắn chính là đảm bảo quá trình mô hình hóa các mô phỏng quá trình ngoài thế giới thực dựa trên các hệ tính toán hình thức là đúng đắn, phù hợp với quá trình trong thực tế. Ta biết rằng, ngôn ngữ chỉ là các xâu kí hiệu và ngữ nghĩa của chúng là cái con người gán cho nó, do đó, khi gán đối tượng toán học cho từ ngôn ngữ để tính toán thay cho chúng đòi hỏi cần có cơ sở phương pháp luận hình thức hóa. Điều này cũng tương tự như vấn đề giải nghĩa của các ngôn ngữ thuật toán cho máy tính: cần có phương pháp luận cho các ngôn ngữ lập trình, trong đó có vấn đề gán ngữ nghĩa để cho phép máy tính thao tác trên kí hiệu nhưng kết quả máy tính đưa ra là các dữ liệu tính toán.

Như vậy, tuy ý tưởng đề cập ở trên là mới trong khuôn khổ các hệ mờ, nhưng về bản chất đã được nghiên cứu trong lôgic toán và trong ngôn ngữ lập trình. Tuy nhiên, miền các biến trong các lĩnh vực này, trừ các biến kí tự, đều là những cấu trúc toán học, trong khi biến ngôn ngữ trong lĩnh vực lý thuyết tập mờ lại chưa được mô hình hóa toán học. Vì vậy, trong [9] các tác giả cho rằng, khi miền từ của các biến ngôn ngữ vẫn chưa được hình thức hóa toán học và ngữ nghĩa của từ, của các luật mờ, các cơ sở luật mờ, và thậm chí cả ngữ nghĩa của chính phương pháp suy luận mờ, vẫn chưa được định nghĩa một cách hình thức hóa, thì sẽ rất khó khăn để tiếp tục nghiên cứu phát triển ý tưởng này một cách đúng đắn.

Đại số gia tử (ĐSGT) được phát triển để mô hình hoá ngữ nghĩa vốn có của miền từ các biến ngôn ngữ. Nó thiết lập một cách tiếp cận tự nhiên không chỉ đến ngữ nghĩa của các từ riêng lẻ, mà còn đến ngữ nghĩa của miền từ ngôn ngữ. Ngoài ra, các phần tử của nó chính là xâu gia tử tác động vào phần tử sinh có hình thức giống như trong các từ của ngôn ngữ tự nhiên. Điều này sẽ tạo ra một cơ sở thuận lợi để định nghĩa và khảo sát một cách hình thức hóa ngữ nghĩa của từ, của các luật mờ và các phương pháp suy luận mờ ..., và do đó có thể nghiên cứu khám phá tính giải nghĩa được dựa trên ngữ nghĩa của các FRBSs trên một cơ sở hình thức hóa mới. Trong phương pháp tiếp cận đại số gia tử (phương pháp tiếp cận ĐSGT) đến ngữ nghĩa của các thành phần cấu thành FRBSs, ngữ nghĩa của một mô hình mờ (fuzzy model) bắt nguồn từ ngữ nghĩa dựa trên thứ tự của các từ ngôn ngữ, nên chúng tôi sử dụng thuật ngữ các hệ dựa trên luật ngôn ngữ LRBSs (Linguistic rule based systems) thay vì dùng FRBSs để nhấn mạnh vai trò thực sự của ngữ nghĩa các từ. Dựa trên quan điểm này, trong chương này, chúng tôi sẽ thảo luận và, sau đó, đề xuất những ngữ nghĩa thích hợp của các thành phần FRBS bao gồm như: những từ có thể hiện diện trong các cơ sở luật; khung nhận thức ngôn ngữ (Linguistic Frame of Cognition - LFoC) của mỗi biến (hay thuộc tính ngôn ngữ), tương ứng với khái niệm khung nhận thức mờ FoC (dựa trên tập mờ) đã khảo sát (bởi Cios và cộng sự [50].).

Các phương pháp tiếp cận hiện tại tập trung chính vào việc khảo sát các khía cạnh ngữ nghĩa của tập mờ do nhà nghiên cứu gán một cách trực giác cho các từ xuất hiện trong các FRBSs và đề xuất của các ràng buộc trên chúng cũng dựa trên trực giác của nhà nghiên cứu để xử lý ngữ nghĩa. Ngược lại, trong [9] xem xét tất cả các FRBS như một biểu thức hình thức, nghiên cứu tập trung vào việc biểu diễn ngữ nghĩa các thành phần cú pháp của các biểu thức FRBS thành các đối tượng tính toán (comput-objects) và các ràng buộc trên biểu diễn ngữ nghĩa tính toán của chúng.

Trong chương này, chúng tôi sẽ làm rõ khái niệm về tính giải nghĩa được LRBS và đề xuất các ràng buộc ngữ nghĩa bổ sung trên các phép giải nghĩa các yếu tố cơ bản của LRBS. Tiếp theo sẽ khảo sát các biểu diễn cấu trúc đa thể hạt được sinh ra từ các ngữ nghĩa của miền từ và cho thấy những biểu diễn này thỏa mãn các ràng buộc liên quan.

II.2. Tính giải nghĩa được của LRBSs ở mức từ ngôn ngữ

Như đã đề cập trước kia, tính giải nghĩa được nghiên cứu trong luận án theo cách tiếp cận của ngôn ngữ lập trình về ngữ nghĩa dấu hiệu (denotational semantics), chẳng hạn trong [55] hay [53], trong đó việc giải nghĩa được hiểu là một ánh xạ giải nghĩa các biểu thức kí hiệu chưa có nghĩa sang các đối tượng toán học với cấu trúc mong muốn. Tuy nhiên, ngữ nghĩa trong lập trình chủ yếu là các đối tượng toán học, nhưng vốn các lý tuyết toán học vốn đã mô hình hóa thế giới thực nên chúng giải nghĩa được théo thế giới thực.

Các từ hay các câu trong ngôn ngữ tự nhiên lại chuyển tải được ngữ nghĩa thế giới thực, nhưng lại không phải là các đối tượng toán học để tính toán được. Để tính toán được trên ngữ nghĩa của các từ ngôn ngữ, chúng cần được giải nghĩa bằng ánh xạ giải nghĩa sang các đối tượng toán học trong một cấu trúc mong muốn sao cho nó bảo toàn ngữ nghĩa cấu trúc của từ và của tập các trừ. Mục này, luận án tập trung giải quyết vấn đề đặt ra trên ở mức từ.

Tất cả các ngôn ngữ, như ngôn ngữ tự nhiên của con người hoặc các ngôn ngữ hình thức dựa trên các lý thuyết toán học hoặc vật lý ..., được hình thành từ các biểu thức ký hiệu. Các biểu thức ký hiệu, được tạo ra từ các ký hiệu cơ bản bằng các quy tắc cú pháp đơn thuần, không có ý nghĩa gì cho đến khi chúng được đưa ra để giải nghĩa các đối tượng toán học hoặc vật lý. Khái niệm giải nghĩa là nhằm mục đích dịch các biểu thức ký hiệu, bao gồm các ký hiệu và các toán tử riêng của một ngôn ngữ hình thức hóa, thành các công thức toán học hoặc cấu trúc tính toán tương ứng. Khái niệm này là rất quan trọng và cốt yếu đối với các ngôn ngữ hình thức được sử dụng trong toán học, logic, và lý thuyết khoa học máy tính. Tương tự, các từ hoặc các biểu thức từ, cũng như các biểu thức ký hiệu, không có ý nghĩa cho đến khi chúng được giải nghĩa. Tuy nhiên, trong khuôn khổ mờ, với các từ hay các biểu thức từ, ví dụ các luật ngôn ngữ, được gán các biểu thức tập mờ có bản chất khá khác với chúng, thậm chí không có bất kỳ sự giải thích hình thức rõ ràng nào.

Ví dụ:

Giả sư 𝕀 là một giải nghĩa kí hiệu sang số thực ta có:

𝕀(a * (b  c)  a * b  a*c) = (𝕀a 𝕀* (𝕀b 𝕀 𝕀c) 𝕀 𝕀a 𝕀* 𝕀b 𝕀 𝕀a 𝕀*

𝕀c) = (ra *(rbrc) ra *rb ra*rc) => Ngữ nghĩa là tương đồng với biểu thức ký hiệu ban đầu

2) Cho biểu thức các từ của biến chân lý 𝔼 = (true OR Very true)= Very true , 𝕀 giải nghĩa biểu thức từ sang biểu thức tập mờ, 𝕀(True) = Atrue,

𝕀(V_True) = BV_true => 𝕀(True OR V_true) = Atrue𝕀(OR) BV_true = Atrue

 BV_true => Hai ngữ nghĩa có tương đồng?

Từ đó đặt ra vấn đề là với biểu thức 𝔼 = r1 OR … OR rn khi giải nghĩa sang biểu thức tập mờ thì ngữ nghĩa của hai biểu thức có giống nhau?

Về bản chất, mỗi hệ mờ là một biểu thức tập mờ được thao tác dựa trên một cơ sở hình thức tính toán nào đó trong lý thuyết tập mờ (như đại số các tập mờ, phương pháp lập luận …).Trong đó mỗi tập mờ được gán nhãn ngôn ngữ và chúng được xem như là biểu diễn ngữ nghĩa tính toán của các nhãn ngôn ngữ của chúng. Do vậy, mỗi biểu thức tập mờ được tương ứng với một biểu thức ngôn ngữ mà con người đọc được và hiểu được (Comprehensive) và nó được xem là một biểu diễn tập mờ của biểu thức ngôn ngữ đó.

Một cách hình thức hóa, trong phạm vi lý thuyết tập mờ, vấn đề về tính giải nghĩa được của một biểu thức tập mờ đã cho chính là vấn đề bảo đảm tính hiểu được của biểu thức ngôn ngữ tương ứng. Do vậy, vấn đề giải nghĩa được của một biểu thức tập mờ gồm ít nhất 02 vấn đề:

(1) Các tập mờ trong biểu thức tập mờ đã cho có biểu diễn đúng ngữ nghĩa của nhãn ngôn ngữ không?

(2) Biểu thức ngôn ngữ của nó có dễ hiểu đối với con người hay không? Đối với các lý thuyết chính xác như toán và vật lý, tính giải nghĩa được của chúng như là một đòi hỏi tự nhiên và hiển nhiên, nhưng chỉ là ngầm định (implicit). Tuy nhiên, lý thuyết tập mờ lại không để ý đến đòi hỏi này có thể do tính không chắc chắn (uncertainty), không đầy đủ (incomplete) và tính phức tạp.

Nguyễn và các cộng sự, [9], đã đưa ra cách tiếp cận mới về tính giải nghĩa được của FRBSs dẫn đến tính giải nghĩa được của các thành phần của chúng. Cơ sở của cách tiếp cận mới là miền từ ngôn ngữ của biến 𝒳,

Dom(𝒳), được mô hình hóa toán học bằng một cấu trúc thứ tự cảm sinh bởi ngữ nghĩa vốn có của các từ ngôn ngữ, được gọi là ĐSGT và kí hiệu bằng

AX= (X, G, C, H, ), trong đó X = Dom(𝒳), G là tập hai từ nguyên thủy c và

c+,C là tập các hằng, H là tập các gia tử của biến 𝒳 và  là quan hệ thứ tự ngữ nghĩa, xem [43][56][58]. Bản chất của tính giải nghĩa được của các từ ngôn ngữ rất phức tạp và công trình [9] là nghiên cứu đầu tiên theo cách tiếp cận mới này. Vì vậy, trong nghiên cứu này chúng tôi tiếp tục bàn luận sâu hơn bản chất của khái niệm này và đưa ra thêm các ràng buộc mới so với nghiên cứu trong công trình trên.

Việc hình thức hóa toán học miền từ là nền tảng và đóng vai trò rất quan trọng để nghiên cứu việc biểu diễn LRBSs như các biểu thức hình thức, cũng như đòi hỏi các từ mờ (vague) được xem xét như các xâu kí hiệu phải được ánh xạ vào các đối tượng toán học.

ĐSGT là cơ sở toán học cho cách tiếp cận mới và có vai trò rất quan trọng cho việc nghiên cứu việc giải nghĩa tính toán của các từ ngôn ngữ vì nó cho phép xem ngữ nghĩa vốn có của mỗi từ như là tập các mối quan hệ thứ tự ngữ nghĩa của nó với các từ khác của biến và cho phép khảo sát vai trò sinh ngữ nghĩa của các gia tử. Bản chất của giải nghĩa tính toán là việc diễn giải ngữ nghĩa của từ, vốn không tính toán được, cần phải được chuyển đổi sang các đối tượng tính toán được, nhưng việc chuyển đổi phải “bảo toàn ngữ nghĩa” của các từ. Điều này yêu cầu chúng ta phải khảo sát để đề xuất các ràng buộc cần thiết trên diễn giải ngữ nghĩa.

Khác với khái niệm phân hoạch mờ hoặc cấu trúc thể hạt mờ, được xem như khung nhận thức tập mờ FoCs với tập mờ được gắn với từ như là nhãn ngôn ngữ của chúng, chúng ta sử dụng khái niệm khung nhận thức ngôn ngữ (khung NTNN) LFoCs của các biến, được xem như tập các từ vựng được dùng để nhận biết, mô tả các thực thể thế giới thực. Vì vậy, nghiên cứu khả năng giải nghĩa của một biểu diễn tính toán của khung NTNN LFoC chính là nghiên cứu khả năng biểu diễn ngữ nghĩa của chúng, hay khả năng chuyển tải thông tin ngữ nghĩa các từ của LFoC sang cấu trúc biểu diễn tính toán. Theo quan điểm của chúng tôi, các từ riêng lẻ và các tập mờ của chúng không thể chuyển tải ngữ nghĩa cần thiết của chúng, nhưng cấu trúc hoặc mối quan hệ của chúng có thể chuyển tải được. Vì các từ không thể được xử

Hình 2.1. Lược đồ giải nghĩa tính toán I của LFoC Các biểu thức cú pháp của LFoC và các tính chất hình thức của nó Mức thấp (mức từ): - Các từ (chuỗi cú pháp) - LFoC được hình thức hóa (tập các từ được hình thức

Các thành phần của hệ mờ

Các mục tiêu khi xây dựng FRBS