Các nhiệm vụ chính của thuật toá nA thiết kế IS-LRBS

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 128 - 131)

Ý tưởng chính của A là áp dụng cơ chế hình thức xử lý trực tiếp các từ của các

biến ngôn ngữ được thiết lập ở trên để phát triển một thuật toán tiến hóa thiết kế các

LRBS, tương tự như các thuật toán được nghiên cứu trong [59], [61], [68], để giải bài toán phân lớp và trong [62-63] để giải bài toán hồi quy, nhưng trong luận án này các

LRBS được thiết kế giải nghĩa được và có khả năng mở rộng. A được đề xuất khác

so với phương pháp thiết kế LRBS giải bài toán hồi quy truyền thống những đặc điểm khác biệt sau:

- A cung cấp một phương pháp hình thức cho thuật toán được thiết kế có thể

xử lý trực tiếp các từ của các biến ngôn ngữ dựa trên mối quan hệ đóng giữa các cấu trúc toán học được phát hiện của tập từ của các biến ngôn ngữ được khai báo và biểu diễn cấu trúc tr-MGr của chúng. Chúng đảm bảo rằng các tập mờ hình thang được xây dựng có thể truyền tải đầy đủ ngữ nghĩa định tính của các từ của chúng. Dựa trên cơ sở hình thức này, thuật toán được phát triển có thể thao tác trực tiếp với các từ ngôn ngữ.

- Cơ chế hình thức được cung cấp đảm bảo rằng trong quá trình thiết kế các

LRBS tối ưu, A chỉ phải xử lý giá trị của các tham số mờ của các biến ngôn ngữ.

Tính năng này rất quan trọng bởi vì trong tiếp cận ĐSGT, nó cho phép giảm độ phức tạp tính toán của thuật toán tiến hóa, mặc dù số lượng các từ của biến được khai báo là lớn, và có thể gia tăng hoặc thậm chí là vô hạn nhưng số lượng các tham số tính mờ luôn cố định. Điều này cho thấy rằng phương thức toán học của các miền từ của thuật toán được đề xuất là đơn giản.

Theo tiếp cận lý thuyết tập mờ, các tập mờ được gán các nhãn ngôn ngữ thường được thiết kế thành cấu trúc đơn thể. Do đó, sự gia tăng của các nhãn ngôn ngữ dẫn đến những thay đổi của các tập mờ đã được thiết kế sẵn. Khi đó, khả năng mở rộng của các biểu diễn mờ của các LFoC bị mất và không thể sử dụng lại các

LRBS đã được thiết kế. Điều này giải thích tại sao phương pháp A sử dụng cấu trúc

đa thể để biểu diễn cấu trúc ngữ nghĩa của các tập từ của các biến đã được khai báo thay vì các cấu trúc đơn thể.

Đối với một tập dữ liệu D, các nhiệm vụ chính của A bao gồm:

Nhiệm vụ 1: Khai báo các khía cạnh ngữ nghĩa khác nhau của các biến ngôn ngữ của tập dữ liệu và của ĐSGT mở rộng.

Với một tập dữ liệu D đã cho, trong tiếp cận ĐSGT, cần khai báo và xác định

các khía cạnh ngữ nghĩa sau của mỗi biến ngôn ngữ A:

-Ngữ nghĩa cú pháp của A, bao gồm hai từ phần tử sinh âm và dương (c-

c+), hai tập các gia tử âm và dương (H-, H+), gia tử nhân tạo h0 và mức độ đặc tả

cao nhất của LFoC của nó được xác định bởi một số nguyên k > 0;

-Ngữ nghĩa định tính của A (bao gồm cả c-c+); thứ tự ngữ nghĩa của các

gia tử trong mỗi tập H- và H+; quan hệ dấu giữa các gia tử được biểu diễn dưới dạng

một bảng dấu. Ví dụ, chúng ta đang giả định H- = {Little (L), Rather (R)} và H+ =

{More (M), Very (V)}, chúng ta có thể khai báo RLMV với các quan hệ dấu

của chúng như trong Bảng 1.1.

- Ngữ nghĩa định lượng của A: Như đã trình bày ở trên, ngữ nghĩa định lượng dựa trên tập hợp mờ của các từ của A chỉ được xác định bằng các giá trị tham số tính

mờ độc lập. Do đó, dựa trên các gia tử được khai báo trong H-H+ và ngữ nghĩa

định tính của từ sinh nguyên thủy, từ trực quan thực tế của con người để xác định

các giá trị của các tham số tính mờ độc lập của A.

Ví dụ, đối ngữ nghĩa định tính của A là AGE, giá trị của các tham số tính mờ

được xác định như sau:

(i) Vì, người dùng của một ứng dụng trong cộng đồng có thể luôn liên kết một

khoảng của miền tuổi AGE với các từ nguyên thủy của AGE. Giả sử từ nguyên thủy

c− = ‘young’ thường được liên kết với khoảng [0, 45] [0, 100]. Do đó, fm(c−) =

fm(young) = 45/100 = 0,45.

(ii) Dường như khó xác định các giá trị số của các (h), h ∊ {L, R, M, V} hơn. Tuy nhiên, chúng được ràng buộc bởi các điều kiện (1.11) và (1.12) và RLMVE với lưu ý rằng đối với các gia tử có cùng dấu và áp dụng cho cùng một từ ngôn ngữ nếu gia tử càng mạnh thì sẽ tạo ra từ ngôn ngữ càng có tính cụ thể hơn:

ℎ ∊ { , , , }} (ℎ) < 1 ( ) ≥ ( ) và ( ) ≥ ( )

- Ngữ nghĩa dựa trên tập mờ của A: Trong khuôn khổ của tập mờ, ngữ nghĩa dựa trên tập mờ của các nhãn ngôn ngữ của một biến thường được xây dựng dựa trên trực giác của người thiết kế. Trong tiếp cận ĐSGT, người ta có thể sinh ngữ nghĩa dựa trên tập mờ từ ngữ nghĩa định tính vốn có của chúng chỉ sử dụng giá trị của các

tham số tính mờ của A. Trong mục 3.1.2 phát triển một thủ tục TrP( , k, l, G, H, ℛsign, , , ) để sinh ra các biểu diễn đa thể hình thang , chỉ sử dụng giá trị

của các tham số số tính mờ độc lập được khai báo.

Nhiệm vụ 2: Sinh các luật ngôn ngữ từ các mẫu dữ liệu sử dụng các khoảng tính mờ của tất cả các từ của

96

Hướng tiếp cận hướng dữ liệu để sinh các luật mờ từ các mẫu dữ liệu được nghiên cứu bởi Wang và Mendel [78], Cordón và F. Herrera [23-25], Ishibuchi và cộng sự [43],

Aghaeipoor và cộng sự [10], nghiên cứu của Nguyen và cộng sự [59] đã đề xuất một phương pháp sinh tập luật mờ khởi đầu với ngữ nghĩa dựa trên tập mờ tam giác của các từ ngôn ngữ từ các mẫu dữ liệu sử dụng phân hoạch nhị phân được xây dựng từ các khoảng tương tự trên tập nền Uj của Aj, mỗi khoảng tương tự chứa một ngữ nghĩa số duy nhất của từ của = ( ) với mức đặc tả kj như sau:

Xây dựng các khoảng tương tự ( ( )) trên Uj, trong đó mọi lớp tương đương

chứa một và chỉ một ngữ nghĩa số của ( )của các từ.

Phương pháp như vậy để xây dựng các quan hệ tương tự của các biến của tập dữ liệu nhằm mục đích đảm bảo rằng xác suất để mọi thành phần dpj của một mẫu dữ liệu dp rơi một cách tương đối đồng đều vào các khoảng của ( ) được xây dựng trên Uj.

Sinh một luật ngôn ngữ r(dp) từ một mẫu dữ liệu dp của D được trang bị các

quan hệ tương tự trên tập nền của các biến ngôn ngữ:

Dựa trên các khoảng (các lớp tương tự) của các biến của tập dữ liệu được xây dựng như mô tả ở trên, với mỗi mẫu dữ liệu dp có (n + 1) chiều thìA sinh một luật ngôn ngữ duy nhất, được ký hiệu là r(dp), bằng thủ tục sinh luật PrGenRule(dp, {( ),

ex( ( ): jn + 1}, max).

Nhiệm vụ 3: Mã hóa cá thể biểu diễn các LRB và sinh các luật từ mẫu dữ liệu

Mã hóa cá thể cho biểu diễn các LRB: Tương tự như các cơ chế tiến hóa

được nghiên cứu trong [11-15] bởi Alcalá và cộng sự và cũng được áp dụng trong nghiên cứu [7-8], [62-63] dựa trên tiếp cận ĐSGT, sơ đồ mã hóa của nghiên cứu

này bao gồm hai phần, phần thứ nhất kí hiệu là C mã hóa các tham số tính mờ của

đại số gia tử, phần thứ hai CRB mã hóa hệ luật LRB (xem hình 2.6).

Sinh luật ngôn ngữ từ mẫu dữ liệu D cho việc thiết lập một quần thể khởi đầu của LRB và trong quá trình tiến

hóa sử dụng thủ tục PrGenRule(dp, { ( ), ex( ( )): jn + 1}.

Nhiệm vụ 4: Định nghĩa các toán tử di truyền

Các toán tử di truyền ở đây tương như như toán tử di truyền trình bày trong Mục 2.1.2.

Nhiệm vụ 5: Phát triển thuật toán tiến hóa đa mục tiêu

Để phát triển thuật toán được đề xuất này, luận án áp dụng thuật toán (2 +

2)M-PAES được nghiên cứu bởi Cococcioni và cộng sự [22] trong đó cả toán tử lai

ghép và toán tử đột biến được sử dụng để tạo ra các cá thể mới từ các cá thể được

lưu trữ trong biến toàn cục (global archive). IS-LRBS-MOEA A được phát triển

bằng cách áp dụng M-PAES dựa trên các biểu diễn đa thể hình thang (tr-MGr), trong đó các tr-MGr chỉ ra các cấu trúc tập mờ được sử dụng để mô hình hóa các cấu trúc ngữ nghĩa của các LFoC của các biến được khai báo, được ký hiệu là IS-

LRBs-Design-MOEA(D, SemEnHA( (D), paretofilename), trong đó, D là tập dữ liệu

đã cho, (D) ký hiệu là tập các biến ngôn ngữ của tập dữ liệu D, {Aj: j = 1 đến n+1},

SemEnHA( (D) chỉ ra các khía cạnh ngữ nghĩa khác nhau được khai báo của các biến

ngôn ngữ của (D) và 'paretofilename' là tên tâp tin lưu trữ các các thể của mặt

Pareto của Ph-I, tức là các LRBS được tối ưu hóa trước đó.

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 128 - 131)