Đại số gia tử mở rộng

Từ thực tế chúng ta thấy rằng hầu hết các từ ngôn ngữ đều có thể có nhiều giá trị thuộc chắc chắn vào nó, ví dụ giá trị old của biến tuổi Age, với những người có tuổi lớn hơn 90 thì đều chắc chắn thuộc vào old, hay nói cách khác là hàm thuộc của các giá trị này phải là 1. C. Mencar và cộng sự đưa ra khái niệm hạt thông tin đã khẳng định điều này [50]. Như vậy, một tập mờ phù hợp với ngữ nghĩa của từ phải có nhiều hơn một điểm có giá trị hàm thuộc bằng 1, ví dụ tập mờ dạng hình thang. Để xây dựng các tập mờ hình thang, Nguyễn Cát Hồ và cộng sự phát triển một ĐSGT gọi là ĐSGT mở rộng

(Enlarge HA - enHA) [61], ở đây tác giả xây dựng một ánh xạ ngữ nghĩa định lượng

nghĩa lõi của từ.

ĐSGT mở rộng được xây dựng bằng việc bổ sung một gia tử nhân tạo h0 nhằm

mô hình hóa lõi ngữ nghĩa của các từ ngôn ngữ. Một từ ngôn ngữ sau khi được tác động bởi gia tử h0 thì bất kỳ một gia tử nào tác động vào nó thì ngữ nghĩa của nó sẽ không bị thay đổi

1.2.5.1. Cấu trúc khái quát-đặc tả của biến

Cấu trúc khái quát-đặc tả của biến A, GA = (XA, g): Miền từ của XA cũng bao hàm những cấu trúc ngữ nghĩa khác, quan hệ khái quát-đặt tả, tức là một từ x có thể khái quát hơn từ y, và được ký hiệu bởi g(x, y). Ngược lại, y được gọi là đặc tả cao hơn x và vì vậy, quan hệ g được gọi là quan hệ khái quát-đặc tả (generality- specificity (GS-)). Với vai trò của các gia tử, người ta có thể định nghĩa g(x, y) khi và chỉ khi tồn tại một chuỗi các gia tử sao cho x = y hoặc tương đương H(y) H(x), trong đó H(u) = {z ∈XA: z = u, ∈H*}, ở đây H* ký hiệu của tất cả các chuỗi của các giatử trong H, bao gồm cả chuỗi . Nó các các tính chất sau:

− Là một quan hệ bộ phận, và cấu trúc GA = (XA, g) được gọi là cấu trúc khái quát-đặc tả (GS-structure).

− Không phản xạ, ( g(x, x)), phản đối xứng (g(x, y) & g(y, x) x = y), và bắc cầu (g(x, y) & g(y, z) g(x, z)).

− Ngoài ra, bằng chức năng của gia tử, mỗi từ y, y = hn … h1x, y vẫn kế thừa ngữ nghĩa côt lõi của x. Do đó, tập H(x) được gọi là mô hình tính mờ của x.

1.2.5.2. Đại số gia tử mở rộng

Xét một ĐSGT của một biến A, A = (XA, G, C, H, ≤). Bây giờ, bổ sung một gia tử nhân tạo, ký hiệu là h0, h0 H, gia tử này để sinh ra lõi ngữ nghĩa của mỗi từ

xcủa XA, h0x là lõi ngữ nghĩa của x. Về mặt cú pháp, h0x XA và đặt= XA {h0x:

x ∊XA}. Từ đó cho ta đại số mở rộng của A là đại số = ( , G, C, Hen, ≤), trong đó Hen = H {h0}, = C Hen(G) = C

{hn … h1c : c G, hj Hen, với j = 1 to n}. Vì thế, XA = C H(G) = C Hen(G). Một cách tự nhiên tập các từ Xen được giới hạn trong miền từ X, và phải thỏa mãn tất cả các tiên đề trong [54], (A1)

– (A4), cho đại số A.

Bên cạnh đó, nó phải thỏa mãn các tiên đề bổ sung dưới đây được đề xuất trong nghiên cứu [61]:

(A5en) Tiên đề cho lõi ngữ nghĩa của các hạng từ: Cho x, y với x y, (i)

h’h0x = h0x, for h’ Hen, tức là h0x luôn là một khoảng cố định.

thể so sánh.

(ii) Với x, y X, x < yh0x < y & x < h0y.

Nguyễn Cát Hồ và cộng sự đã chứng minh rằng ĐSGT mở rộng có thể được phát triển theo cách tiên đề [61]. Tương tự như trên, tập Hen(x) được gọi là mô hình tính mờ của tính mờ của từ x. Hướng tiếp cận ĐSGT cho ngữ nghĩa vốn có của các biến ngôn ngữ là nó có thể hình thức hóa tính mờ của thông tin ngôn ngữ và khám phá ra tính giầu cấu trúc của nó [54-58], [61], bao gồm các tính chất cấu trúc, trong đó, với một tập gia tử đơn giản H−= {R, L}, and H+ = {V, E}:

(Pr1) cho mỗi x ∈ , Hen(x) = { x: = hn … h1 ∈ (Hen)*} = H(x) {h0y: y ∈ H(x)}.

(Pr2) {0} ≤ Hen(c−) ≤ {W} ≤ Hen(c+) ≤ {1}, và = {0} Hen(c−) {W} Hen(c+) {1}. (Pr3) Hen(x) = Hen(Lx) Hen(Rx) {h0x} Hen(Vx) Hen(Ex).

(Pr4) Các tập Hen(hx), h Hen, trong đó Hen(h0x) = {h0x}, được sắp xếp thứ tự tuyến tính và chúng ta có, cho h+ ∈H+, (i) sign(h+x) = +1 (tức là h+x ≥ x), Hen(Lx) ≤ Hen(Rx) ≤ {h0x} ≤ Hen(Vx) ≤

Hen(Ex);

(ii) sign(h+x) = −1 (tức là h+x ≤ x), Hen(Ex) ≤ Hen(Vx) ≤ {h0x} ≤ Hen(Rx) ≤

Hen(Lx).

(Pr5) x, y , x < y ⇔x < h0y ⇔h0x < y ⇔h0x < h0y.

(Pr6) h0x và x được sắp thứ tự tuyến với mọi x X.

(Pr7) Đặt , = {x ∈ : |x| = k}, ở đây |x| là ký hiệu độ dài của từ x, tập các từ có độ đặc tả mức k (k-specificity), và ,( )= {x ∈ : |x| ≤ k} = ⋃1≤ ≤ , −

tập của các từ có mức đặc tả không cao hơn k. Thì ,1= G C,và, với mọi k ≥ 2,

, = {h0u: u ,( −1)}, tức là với k > 0, , bao gồm tất cả các từ có độ đặc tả mức k và lõi ngữ nghĩa của của chúng, mức đặc tả của chúng thì thấp hơn k. 1.2.5.3. Biểu diễn cấu trúc bụi ngữ nghĩa của ngữ nghĩa cấu trúcSA= (XA,

≤, g) của biến A

Miền từ của XA bao gồm hai cấu trúc, cấu trúc ngữ nghĩa dựa trên thứ tự SA = ( , ≤) và cấu trúc khái quát-đặc tả, GA = ( , g), tức là một biến A không chỉ có một cấu trúc ngữ nghĩa mà còn nhiều vấn đề phức tạp ở trong nó, GA = ( , g) được gọi là cấu trúc ngữ nghĩa đa mức và được biểu thị bằng SA = ( , ≤, g). Để mô tả rõ ràng cấu trúc này, và người đọc dễ dàng nắm bắt được, trong nghiên cứu này trình

bày dưới dạng bụi đa mức trong Hình 1.2, và nó được gọi là bụi ngữ nghĩa của SA. có thể được xây dựng để diễn tả tất cả các tính chất (Pr1) – (Pr7) ở trên như là

một cấu trúc tiềm năng không giới hạn. Mỗi nút của nó biểu diễn tính mờ của một từ

ở mức đặc tả k. Ví dụ:

- Với k ≥ 1, mọi nút của bụi cây ngữ nghĩa ở mức k biểu diễn hoặc là một từ có mức đặc tả k hoặc là mô hình mờ Hen(.) của nó. Thứ tự của mỗi kiểu được sắp xếp từ trái sang phải (tính chất (Pr2) và (Pr4).

- Mô hình tính mờ của từ của mỗi nút ở mức k được bao hàm trong mô hình

tính mờ của các từ cha mẹ của nó ở mức (k – 1), ngược lại bằng cách hợp các mô hình tính mờ của các nút con của nó ta có mô hình mờ của nút cha, chúng được thể hiện trong (Pr3).

- Do đó, kết hợp của tất cả các mô hình tính mờ của mức k bằng với kết hợp các mô hình mờ ở mức (k-1); và vì vậy, thức hiện quy nạp, thì nó bằng tập hợp tất cả các từ của A, ngoại trừ các từ hằng; tức là tập \ .

- Gọi cấu trúc bao gồm tất cả các mức l, l = 1 đến k, k- section của bụi ngữ nghĩa

, ký hiệu là . Nó biểu diễn ngữ nghĩa cấu trúc của tập từ ,( ), tức là, LFoC được khai báo của A, khái niệm này đã được Nguyễn Cát Hồ và cộng sự đề xuất trong [62].

Như vậy, chúng ta đã thấy rằng mọi biến đều giàu từ ngữ và ngữ nghĩa định tính vốn có, và cấu trúc ngữ nghĩa phong phú như vậy có thể và phải được thể hiện một

Hình 1.2. Cấu trúc bụi ngữ nghĩa của các khía cạnh ngữ nghĩa khác nhau của

thuộc tính A và các quan hệ của chúng: a) Bụi ngữ nghĩa của các từ;

b) Bụi ngữ nghĩa của các mô hình mờ; c) Bụi ngữ nghĩa của các khoảng tính mờ.

cách thích hợp như là một bụi ngữ nghĩa hai chiều.

Định nghĩa 1.8[61] Một ánh xạ fen,fm: → ℙ([0,1]) là một ánh xạ ngữ nghĩa định lượng giá trị khoảng (IVQM) của cho trước, thỏa mãn các điều kiện sau: (IVQM1) fen,fm bảo toàn thứ tự của các từ trong , tức là, nó là một đẳng cấu của ( , ≤) trong tập danh mục từ có thứ tự. Có nghĩa là ( x, y )(x ≤ y ⇒

fen,fm (x) ≤ fen,fm (y)).

(IVQM2)x , fen,fm(h0x) fm(x), tức là bảo toàn vài trò của gia tử h0. (IVQM3)

C(fen,fm(h0 )) = [0, 1], trong đó C là toán tử đóng topo của [0, 1], h0X = {h0x: x X} và fm(Y) = {fm(x) : x Y}, với Y .

Tiên đề (IVQM3) có nghĩa là ngữ nghĩa của các từ của A có thể xấp xỉ bất kỳ giá trị nào trong [0,1]. Có thể thấy rằng các điều kiện trên là cần thiết nhất và khái niệm IVQM là khái quát nhất. Chúng ta sẽ mô tả nó với cấu trúc ngữ nghĩa định tính của miền từ của nó được mô hình hóa bởi ĐSGT mở rộng trong trường hợp cụ thể, với các tính chất ngữ nghĩa (Pr1) – (Pr7) ở trên, chúng ta có thể khám phá các khía cạnh ngữ nghĩa định lượng cần thiết của các từ theo cách tiên đề, bắt đầu với khái niệm fen.

1.2.5.4. Khoảng tính mờ của các từ và đo độ tính mờ của chúng

Trong mục này, luận án mô tả làm thế nào IVQM fen có thể sinh ra các khía cạnh ngữ nghĩa định lượng khác nhau của từ từ cấu trúc ngữ nghĩa SA = ( , ≤, g).

Thứ nhất, từ ngữ nghĩa cú pháp và ngữ nghĩa định tính của A, chúng ta xây dựng bụi ngữ nghĩa của SA như trong Hình 1.2, lưu ý rằng số lượng các gia tử trong

Hen thường có thể cao hơn 2.

Thứ hai, dựa trên , chúng ta có thể xây dựng một bụi khoảng mờ như sau: ∘ Vớil = 1, áp dụng IVQMfen cho bất đẳng thức và đẳng thức trong (Pr2), (Pr3) chúng ta thu được:

fen,fm(Hen(0)) ≤ fen,fm(Hen(c−)) ≤ fen,fm(Hen(W)) ≤ fen,fm(Hen(c+)) ≤ fen,fm(Hen(1)) và, fm( ) = {fm(0)} fm(H(c−)) {fm(W)} fm(H(c+)) {fm(1)} (1.7) Chúng ta cần nhấn mạnh rằng thứ tự của các khoảng mờ ở trên xuất hiện trên

mỗi mức của cấu trúc trong Hình 1.2 tuân theo thứ tự của các từ của chúng.

Bởi vì fm( ) thì dày đặc trong [0, 1], sử dụng bao đóng topo, chúng ta thu được

C(fm( )) = [0, 1]. Tương tự, áp dụng toán tử C cho các tập hợp trong (1.7),

của (x) được gọi là đo độ tính mờ của từ x, ký hiệu là fm(x). Do đó, theo công thức trong (Pr2), chúng ta thu được phương trình:

(0) (c−) (W) (c+) (1) = [0, 1]; vì vậy, fm(0) + fm(c−) + fm(W) + fm(c+) + fm(1) = 1

Bằng lập luận tương tự, với l = k, giả sử rằng (x) = C(fm(Hen(c−))) được xác định ta có:

(Vx) (h0x) (Lx) = (x), và, vì vậy,

fm(Vx) + fm(h0x) + fm(Lx) = fm(x) (1.8) Phương trình đầu tiên trong (1.8) có nghĩa là

khoảng tính mờ của x bằng hợp của các khoảng tính mờ của các con của nó. Phương trình thứ 2 trong (1.8)

các kết quả trong ( ) ( ) + (ℎ ( )0 ) + ( ) ( ) = 1. Giả sử rằng tất cả các tỷ lệ trong đẳng thức này không phụ thuộc vào bất kỳ từ x cụ thể nào, chúng ta có thể gọi nó là độ đo tính mờ của gia tử, chẳng hạn như h, xuất hiện trong nó, ký hiệu là (h). Do đó, đối với một Hen đã cho, chúng ta có:

∑

ℎ ∈ (ℎ)=1 (1.9)

1.2.5.5. Tiên đề hóa việc định lượng các biến ngôn ngữ

Thật vậy, chúng ta xem xét theo các tính chất quan trọng của độ đo tính mờ của

các từ và các gia tử, fm và , của một ĐSGT mở rộng = ( , G, C, Hen, ≤) đã cho như là các tiên đề về định lượng của nó [61].

(FM1) fm(0) + fm(c−) + fm(W) + fm(c+) + fm(1) = 1, theo (1.7);

(FM2) ∑ℎ ∈ (ℎ ) = ( ), x ∈XA \ C, theo phương trình thứ 2 trong (1.8), sử dụng Hen thay cho {L, h0, V}

(FM3) fm(hx) = (h) fm(x), h ∈Hen, và x ∈XA, theo định nghĩa của ;

Giả sử cho các giá trị fm(0), fm(c−), fm(W), fm(c+), and (h), h ∈H. Khi đó, số độ đo tính mờ fm hoàn

toàn được xác định. Do đó, những đại lượng này được gọi là các tham số mờ độc lập của biến A.

Xem xét (FM1) - (FM3) như là tiên đề về độ đo tính mờ của A, Nguyễn Cát

Hồ và cộng sự đã chứng minh rằng độ đo tính mờ fm sinh ra một IVQM fen,fm của A, được xác định bởi Định nghĩa 1.8 [61]. Để thuận tiện, IVQM này được ký hiệu là

fen,fm, với một fm cho trước. Do đó, với vai trò của fen.fm như đã trình bày ở trên, chúng ta kết luận về mặt tiên đề rằng người ta chỉ cần một vài tham số tính mờ độc lập để xác định tất cả các khía cạnh ngữ nghĩa định lượng.

Như chứng minh trong [61], với mọi x ∈X ( ), với |x| = k, hàm định lượng IVQM fen,fm(x), nó chỉ là khoảng tính mờ của h0x, fen,fm(x) = (h0x), có thể được định vị dựa trên khoảng tính mờ của các từ được sắp xếp trên mức (k + 1). Do đó, điểm bên trái của fen,fm(x), ký hiệu là Lft(fen,fm(x)), được tính theo công thức sau với một thay đổi nhỏ (k + 1 được sử dụng thay vì k trong công thức (27) trong [61]):

( en, ( )) = ∑ ∈ en,( + 1) & < ( )

(1.10) Ví dụ, với x = Lc−, chúng ta có k = |x| = 2, và = {y ∈ ,(3): y < Lc−} ={0, VVc−, h0Vc−, LVc−, h0c−, LLc−}, được sắp xếp theo thứ tự tuyến tính. Như vậy, theo(1.8), chúng ta đạt được

Lft(fen,fm(Lc−)) = Lft( (h0Lc−)) = | (0)| + | (VVc−)| + | (h0Vc−)| + | (LVc−)| + | (h0c−)| + | (LLc−)|.

Một công thức đệ quy chung để tính toán giá trị IVQM fen,fm(x) trong [55] được thiết lập như sau:

Định lý 1.2 [61]. Cho một EnHA với H+ = {hj : 1 ≤ j ≤ p} và H− = {hj : −1

≤ j ≤ −q}, và đặt = ∑ =1 (ℎ ) và = ∑−

=−1 (ℎ ). Vì vậy + + (ℎ0) = 1. Công thức đệ quy sau có thể tính toán IVQM fen,fm cảm sinh bởi m:

1) Với x ∈G C, ( en, ( )) = 0; ( en, ( −)) = ( ) + . ( −);

( en, ( )) = ( ) + (−); ( en, ( +)) = ( en, ( )) + ( ) + . ( +) và ( en, ( )) = 1 − ( ). 2) Với y = hjx, x XA: đặt ( ) =12 {1 + (ℎ )[ (ℎ0) + (ℎ ℎ )( − )]}, chúng ta có: ( (ℎ )) = ( ( ))+ (ℎ ). ( ){ 1 (1 + en, en, 2 (ℎ )) (ℎ 0 ) + ∑ (ℎ ) − ( ) (ℎ )}. = ( )

1.3. Hệ dựa trên luật mờ

1.3.1. Các thành phần của hệ mờ

Luật mờ là một phát biểu có điều kiện dưới dạng if A then B, trong đó các phần if

và then lần lượt là tiền đề (điều kiện) và kết luận của luật. Các hệ dựa trên luật mờ (gọi tắt là hệ luật mờ) có tên gọi và cấu trúc khác nhau tùy thuộc vào lĩnh vực ứng

dụng của chúng. Tuy nhiên, về cơ bản một hệ dựa trên luật mờ có cấu trúc gồm các thành phần: cơ sở dữ liệu (Database), cơ sở luật mờ (Fuzzy Rule-based - FRB) và phương pháp lập luận xấp xỉ:

+ Cơ sở dữ liệu bao gồm các hàm thuộc của các tập mờ biểu diễn ngữ nghĩa của các nhãn ngôn ngữ và các tập nhãn ngôn ngữ . Các tập mờ được sử dụng để phân

hoạch miền tham chiếu Uj R (tập số thực) của biến , (j=1, .., n+1) của bài toán n

đầu vào 1 đầu ra. Các hàm thuộc của các tập mờ được xác định bởi các chuyên gia hoặc là kết quả của quá trình học từ dữ liệu.

+ Cơ sở luật bao gồm một tập luật mờ biểu diễn tri thức liên quan đến bài toán cần giải quyết. Mỗi luật mờ có cấu trúc như sau:

rq: IfA1 is xrq,1 & … &An is xrq,n ThenAn + 1 is xrq,n + 1 q=1,..,M (1.11)

trong đó, Aj thuộc tính thứ j, là xrq,j là các nhãn ngôn ngữ trong biến ngôn ngữ ứng với thuộc tính Aj. Có hai loại luật mờ được ứng dụng nhiều trong các ứng dụng thực tiễn là Takagi- sugeno và Mamdani. Với cấu trúc (1.11), trường hợp An+1 là biến ngôn ngữ thì đó là luật mờ Mamdani, An+1 là biến thực thì đó là luật mờ Takagi-sugeno. Để hệ dựa trên luật mờ đơn giản và dễ hiểu, các luật mờ cần được rút ngắn độ dài. Do đó, giá trị “Don’tcare” có giá trị hàm thuộc đồng nhất bằng 1 được bổ sung vào tập giá trị ngôn ngữ của mỗi biến (j=1, ..., n). Mỗi

luật rq dạng (1.11) có thể được viết gọn lại như sau: Để thuận tiện cho việc trình bày sau này, phần tiền đề của rq được kí kí hiệu là xrq và kết luận là yrq, khi đó luật rq có thể viết gọn thành:

rq =xrqyrq. (1.12)

trong đó,x rq là tiền đề và yrq là kết luật của luật rq.

Ví dụ hai loại luật mờ: * Luật mờ Mamdani:

IfA1 is Don’tcare & A2 is Very Low &A3 is HighThenA4 is Good

* Luật mờ Takagi-Sugeno:

IfPetalWidth is Large & PetalLength is Don’tcare Then Iris-virginica - Phương pháp lập luận xấp xỉ dựa trên các luật và các giá trị đầu vào để đưa ra giá trị dự đoán đầu ra. Trên cơ sở lý thuyết tập mờ và logic mờ, các phương pháp lập luận xấp xỉ dựa trên FRBS đã được đề xuất và được ứng dụng vào giải quyết nhiều bài toán phi tuyến phức tạp. Một số hướng lập luận xấp xỉ:

+ Lập luận xấp xỉ dựa trên quan hệ mờ

+ Lập luận dựa trên độ đốt cháy luật

Với hướng nghiên cứu của luận án tập trung vào việc trích rút hệ luật mờ cho bài toán phân lớp và hồi quy nên mục này chỉ trình bày một số phương pháp lập luận xấp xỉ dựa trên hệ luật mờ giải hai bài toán trên.

Hệ luật mờ được sử dụng để giải bài toán phân lớp được gọi là hệ luật mờ phân lớp. Dạng luật mờ được sử dụng trong bài toán phân lớp thường là luật mờ Takagi-Sugeno do không cần thực hiện quá trình giải mờ để thu được giá trị đầu ra rõ. Hai phương pháp lập luận phân lớp được nhóm tác giả Ishibuchi đề xuất là

single-winner rule hoặc weighted vote [40-42]. Để lập luận phân lớp cho mẫu dữ liệu dp = (ap,1, ap,2,…, ap,n) của tập dữ liệu D, khi đó:

+ Phương pháp lập luận single-winner rule: phân lớp tương ứng với nhãn lớp của luật có độ đốt cháy đối với mẫu dữ liệu dp lớn nhất. Nếu nhiều luật có cùng độ

Các thành phần của hệ mờ

Các mục tiêu khi xây dựng FRBS