Các nhiệm vụ chính của thuật toánA thiết kế IS-LRBS

Một phần của tài liệu Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 108)

Ý tưởng chính củaA là áp dụng cơ chế hình thức xử lý trực tiếp các từ của các biến ngôn ngữ được thiết lập ở trên để phát triển một thuật toán tiến hóa thiết kế các LRBS, tương tự như các thuật toán được nghiên cứu trong [59], [61], [68], để giải bài toán phân lớp và trong [62-63] để giải bài toán hồi quy, nhưng trong luận án này các LRBS được thiết kế giải nghĩa được và có khả năng mở rộng A được đề xuất khác so với phương pháp thiết kế LRBS giải bài toán hồi quy truyền thống những đặc điểm khác biệt sau:

-A cung cấp một phương pháp hình thức cho thuật toán được thiết kế có thể xử lý trực tiếp các từ của các biến ngôn ngữ dựa trên mối quan hệ đóng giữa các cấu trúc toán học được phát hiện của tập từ của các biến ngôn ngữ được khai báo và biểu diễn cấu trúc tr-MGr của chúng Chúng đảm bảo rằng các tập mờ hình thang được xây dựng có thể truyền tải đầy đủ ngữ nghĩa định tính của các từ của chúng Dựa trên cơ sở hình thức này, thuật toán được phát triển có thể thao tác trực tiếp với các từ ngôn ngữ

- Cơ chế hình thức được cung cấp đảm bảo rằng trong quá trình thiết kế các LRBS tối ưu,A chỉ phải xử lý giá trị của các tham số mờ của các biến ngôn ngữ Tính năng này rất quan trọng bởi vì trong tiếp cận ĐSGT, nó cho phép giảm độ phức tạp tính toán của thuật toán tiến hóa, mặc dù số lượng các từ của biến được khai báo là lớn, và có thể gia tăng hoặc thậm chí là vô hạn nhưng số lượng các tham số tính mờ luôn cố định Điều này cho thấy rằng phương thức toán học của các miền từ của thuật toán được đề xuất là đơn giản

Theo tiếp cận lý thuyết tập mờ, các tập mờ được gán các nhãn ngôn ngữ thường được thiết kế thành cấu trúc đơn thể Do đó, sự gia tăng của các nhãn ngôn ngữ dẫn đến những thay đổi của các tập mờ đã được thiết kế sẵn Khi đó, khả năng mở rộng của các biểu diễn mờ của các LFoC bị mất và không thể sử dụng lại các LRBS đã được thiết kế Điều này giải thích tại sao phương phápA sử dụng cấu trúc đa thể để biểu diễn cấu trúc ngữ nghĩa của các tập từ của các biến đã được khai báo thay vì các cấu trúc đơn thể

Đối với một tập dữ liệu D, các nhiệm vụ chính củaA bao gồm:

Nhiệm vụ 1: Khai báo các khía cạnh ngữ nghĩa khác nhau của các biến ngôn ngữ của tập dữ liệu và của ĐSGT mở rộng

Với một tập dữ liệu D đã cho, trong tiếp cận ĐSGT, cần khai báo và xác định các khía cạnh ngữ nghĩa sau của mỗi biến ngôn ngữ A:

- Ngữ nghĩa cú pháp của A, bao gồm hai từ phần tử sinh âm và dương (c- c+), hai tập các gia tử âm và dương (H-, H+), gia tử nhân tạo h0 và mức độ đặc tả cao nhất của LFoC của nó được xác định bởi một số nguyên k > 0;

- Ngữ nghĩa định tính của A (bao gồm cả c- c+); thứ tự ngữ nghĩa của các gia tử trong mỗi tập H- và H+; quan hệ dấu giữa các gia tử được biểu diễn dưới dạng một bảng dấu Ví dụ, chúng ta đang giả định H- = {Little (L), Rather (R)} và H+ = {More

(M), Very (V)}, chúng ta có thể khai báo R L M V với các quan hệ dấu của chúng như trong Bảng 1 1

- Ngữ nghĩa định lượng của A: Như đã trình bày ở trên, ngữ nghĩa định lượng dựa trên tập hợp mờ của các từ của A chỉ được xác định bằng các giá trị tham số tính mờ độc lập Do đó, dựa trên các gia tử được khai báo trong H- H+ và ngữ nghĩa định tính của từ sinh nguyên thủy, từ trực quan thực tế của con người để xác định các giá trị của các tham số tính mờ độc lập của A

Ví dụ, đối ngữ nghĩa định tính của A là AGE, giá trị của các tham số tính mờ được xác định như sau:

(i) Vì, người dùng của một ứng dụng trong cộng đồng có thể luôn liên kết một khoảng của miền tuổi AGE với các từ nguyên thủy của AGE Giả sử từ nguyên thủy

c− = ‘young’ thường được liên kết với khoảng [0, 45] ⊆ [0, 100] Do đó, fm(c−) =

fm(young) = 45/100 = 0,45

(ii) Dường như khó xác định các giá trị số của các µ(h), h∊ {L, R, M, V} hơn Tuy nhiên, chúng được ràng buộc bởi các điều kiện (1 11) và (1 12) và R L M

V E với lưu ý rằng đối với các gia tử có cùng dấu và áp dụng cho cùng một từ ngôn ngữ nếu gia tử càng mạnh thì sẽ tạo ra từ ngôn ngữ càng có tính cụ thể hơn:

∑ℎ {∊ �,�,�,�}} µ(ℎ) < 1

µ(�) ≥ µ(�) và µ(� ) ≥ µ(�) }

- Ngữ nghĩa dựa trên tập mờ của A: Trong khuôn khổ của tập mờ, ngữ nghĩa dựa trên tập mờ của các nhãn ngôn ngữ của một biến thường được xây dựng dựa trên trực giác của người thiết kế Trong tiếp cận ĐSGT, người ta có thể sinh ngữ nghĩa dựa trên tập mờ từ ngữ nghĩa định tính vốn có của chúng chỉ sử dụng giá trị của các tham số tính mờ của A Trong mục 3 1 2 phát triển một thủ tục TrP(���, k, l, G, H,

� �

của các tham số số tính mờ độc lập được khai báo

Nhiệm vụ 2: Sinh các luật ngôn ngữ từ các mẫu dữ liệu sử dụng các khoảng

� �

sign, π,� ��,� ) để sinh ra các biểu diễn đa thể hình thang���,� chỉ sử dụng giá trị

Hướng tiếp cận hướng dữ liệu để sinh các luật mờ từ các mẫu dữ liệu được nghiên cứu bởi Wang và Mendel [78], Cordón và F Herrera [23-25], Ishibuchi và cộng sự [43], Aghaeipoor và cộng sự [10], nghiên cứu của Nguyen và cộng sự [59] đã đề xuất một phương pháp sinh tập luật mờ khởi đầu với ngữ nghĩa dựa trên tập mờ tam giác của các từ ngôn ngữ từ các mẫu dữ liệu sử dụng phân hoạch nhị phân được xây dựng từ các khoảng tương tự trên tập nền Uj của Aj, mỗi khoảng tương tự chứa

�� �� ��

��

Phương pháp như vậy để xây dựng các quan hệ tương tự của các biến của tập dữ liệu nhằm mục đích đảm bảo rằng xác suất để mọi thành phần dpj của một mẫu dữ

��

Uj (adsbygoogle = window.adsbygoogle || []).push({});

Sinh một luật ngôn ngữ r(dp) từ một mẫu dữ liệu dp của D được trang bị các quan hệ tương tự trên tập nền của các biến ngôn ngữ:

Dựa trên các khoảng (các lớp tương tự) của các biến của tập dữ liệu được xây dựng như mô tả ở trên, với mỗi mẫu dữ liệu dp có (n + 1) chiều thìA sinh một luật

��

�ex(�(����): j n + 1}, τmax)

Nhiệm vụ 3: Mã hóa cá thể biểu diễn các LRB và sinh các luật từ mẫu dữ liệu

Mã hóa cá thể cho biểu diễn các LRB: Tương tự như các cơ chế tiến hóa được nghiên cứu trong [11-15] bởi Alcalá và cộng sự và cũng được áp dụng trong nghiên cứu [7-8], [62-63] dựa trên tiếp cận ĐSGT, sơ đồ mã hóa của nghiên cứu này bao gồm hai phần, phần thứ nhất kí hiệu là Cµ mã hóa các tham số tính mờ của đại số gia tử, phần thứ hai CRB mã hóa hệ luật LRB (xem hình 2 6)

Sinh luật ngôn ngữ từ mẫu dữ liệu D cho việc thiết lập một quần thể khởi đầu

�� ��

j n + 1}

Nhiệm vụ 4: Định nghĩa các toán tử di truyền

Các toán tử di truyền ở đây tương như như toán tử di truyền trình bày trong Mục 2 1 2

một ngữ nghĩa số duy nhất của từ của ��� =�(��) với mức đặc tả kj như sau:

Xây dựng các khoảng tương tự�((��)) trên Uj, trong đó mọi lớp tương đương chứa một và chỉ một ngữ nghĩa số của�(�� ) của các từ

liệu dp rơi một cách tương đối đồng đều vào các khoảng của�(��) được xây dựng trên

ngôn ngữ duy nhất, được ký hiệu là r(dp), bằng thủ tục sinh luật PrGenRule(dp, {�(��),

Nhiệm vụ 5: Phát triển thuật toán tiến hóa đa mục tiêu

Để phát triển thuật toán được đề xuất này, luận án áp dụng thuật toán (2 + 2)M- PAES được nghiên cứu bởi Cococcioni và cộng sự [22] trong đó cả toán tử lai ghép và toán tử đột biến được sử dụng để tạo ra các cá thể mới từ các cá thể được lưu trữ trong biến toàn cục (global archive) IS-LRBS-MOEAA được phát triển bằng cách áp dụng M-PAES dựa trên các biểu diễn đa thể hình thang (tr-MGr), trong đó các tr- MGr chỉ ra các cấu trúc tập mờ được sử dụng để mô hình hóa các cấu trúc ngữ nghĩa của các LFoC của các biến được khai báo, được ký hiệu là IS-LRBs-Design-

MOEA(D, SemEnHA(�(D), paretofilename), trong đó, D là tập dữ liệu đã cho,�(D) ký hiệu là tập các biến ngôn ngữ của tập dữ liệu D, {Aj: j = 1 đến n+1}, SemEnHA(�(D) chỉ ra các khía cạnh ngữ nghĩa khác nhau được khai báo của các biến ngôn ngữ của �(D) và 'paretofilename' là tên tâp tin lưu trữ các các thể của mặt Pareto của Ph-I, tức là các LRBS được tối ưu hóa trước đó

3 3 2 Thuật toán tiến hóa đa mục tiêu thiết kế các IS-LRBS

Thuật toán tiến hóa đa mục tiêu thiết kế LRBS có tính giải nghĩa được (Interpretable) và có khả năng mở rộng (Scalable), IS-LRBS-Design-MOEA, giải bài toán hồi quy được đề xuất như sau (lược đồ tổng quát được trình bày trong hình 3 2):

Thuật toán IS-LRBS-Design-MOEA(D, SemEnHA(�(D), paretofilename)

Input:

− Tập dữ liệu D = {dp = (ai,1, ai,2, …, ai,n, ai,(n + 1)): i = 1 to ND};

SemEnHA(�(D): tập G = {c−, c+} và tập các gia tử {H+ = {hj: 1 ≤ j p}, H− = {hj: −1 ≤ j ≤ −q}, {h0}; một mảng quan hệ dấu của các gia tửℛsign = {(h, h’,

sign(h, h’): h, h’ H− ∪ H+};

��

− Xác suất xảy ra các toán tử di truyền:

∘ Các xác suất lai ghép của nhiễm sắc thể của các tham số tính mờ và LRB:

Pc() và Pc(CRB);

∘ Các xác suất đột biến (Pm) của các nhiễm sắc thể của các tham số tính mờ và LRB: Pm() và Pm(CRB), (adsbygoogle = window.adsbygoogle || []).push({});

∘ Xác suất đột biến thêm luật Pm_Add_RB;

k: Một mảng chứa mức đặc tả tối đa của các LFoC hiện được khai báo của các biến;

− τmax: độ dài tối đa của luật;

Mmin và Mmax tương ứng là các số nguyên chỉ số luật nhỏ nhất và lớn nhất của LRB trên mặt Pareto;

MaxGen: số thế hệ;

Paretofilename: file chứa mặt Paretoℙ cuối cùng (được sử dụng cho việc tiếp tục huấn luyện trong tương lai của vòng đời ứng dụng khi các LFoC hiện tại được khai báo tăng lên theo yêu cầu của người quản trị hệ thống);

Output:ℙ − Các phương án tốt nhất trên mặt Pareto

Begin

Bước 1: Khối khởi tạo: mục đích là xây dựng các LFoC,ℙ khởi tạo

If paretofilename == “” then

For h= 1 to 2 // khởi tạo mặt Pareto với 2 cá thể

1 1 Sinh các LFoC cho mọi biến Aj, j = 1, …, n + 1

��

khai báo của Aj

�� ��

=1, , n+1

− Sinh ngẫu nhiên các giá trị của πj = (µ(h0j), µ(Lj), fm(0j), ��(��−), fm(Wj), ��(� )) từ các miền giá trị phù hợp của chúng được cung cấp thỏa (FM1’ và FM2’);

�� �� �� ��

1 2 Xây dựng các cấu trúc đa thể hình thang của các LFoC được sinh ra:

Với mọi Aj, j = 1, …, n + 1,

�� ��

1 3 Sinh các luật ngôn ngữ từ các mỗi dữ liệu, dựng CRB

− Sinh ngẫu nhiên một số nguyên Mk ∈ [Mmin, Mmax];

�� ��

sinh Mk luật ngôn ngữ, trong đó dp được chọn ngẫu nhiên từ D

1 4 Tính giá trị MSE và độ phức tạp Comp

1 5 Gán ih vàoℙ

End for Else

1 1b Phục hồi tệp tin “paretofilename”, tăng các LFoC được khai báo hiện tại đến các mức đặc tả mới và xây dựng các cấu trúc đa thể hình thang bổ sung ở các mức k

−ℙ được khôi phục từ tệp tin “paretofilename” chứa mặt Pareto của lượt chạy cuối cùng; (adsbygoogle = window.adsbygoogle || []).push({});

− Gán k[j] là chiều dài từ tối đa (mức đặc tả) của các LFoC �(��) hiện được

− Sinh các LFoC �(�� ) được khai báo của các biến và tập chỉ số�ex((��)), j

− Tính toán các quan hệ tương tự�(��) = {�(��)(�): x(��)} của LFoC

(��), j = 1, , n + 1

Call TrP((��), k, 0, G, H,ℛsign, π, ���,(��)j);

− Gán k[j] là độ dài lớn nhất của từ của LFoC được khai báo hiện tại của biến Aj, nếu độ dài lớn nhất của LFoC của Aj < k[j], j = 1, , n+1

��

1 2b Xây dựng các cấu trúc đa thể hình thang của các LFoC được sinh ra: Với mọi Aj, j = 1, …, n + 1,

�� ��

End if

Bước 2: Khối tiến hóa được lặp với MaxGen lần để lưu trữ một mặt Pareto tối ưu

2 1 Tạo hai cá thể con (offspring)

− Chọn ngẫu nhiên hai cá thể�1 và�2 từℙ Chúng được xem như cha mẹ hiện tại

− Áp dụng toán tử lai ghép để sinh hai cá thể con o1 và o2 từ�1 và�2 trên

CRB với xác suất Pc() và Pc(CRB) tương ứng

− Áp dụng toán tử đột biến trên của mỗi o1 và o2 một cách độc lập với xác suất Pm()

− Áp dụng các toán tử đột biến trên CRB của mỗi o1 và o2 một cách độc lập với xác suất Pm(CRB)

− Nếu toán tử thêm luật được áp dụng với xác suất Pm_Add_RB thì

�� ��

− Xây dựng các cấu trúc đa thể hình thang của các LFoC được sinh ra từ ngữ nghĩa cú pháp và định tính của các biến được khai báo:

Với mọi Aj, j = 1, …, n + 1

�� ��

− Áp dụng toán tử thêm luật

− Else

Áp dụng toán tử thay đổi cơ sở luật;

2 2 Tính toán giá trị của tất cả các mục tiêu của o1 và o2

2 3 Đưa từng o1 và o2 vàoℙ nếu chúng không bị trội hơn bởi bất kỳ phương án nào trongℙ Nếuℙ đầy, loại bỏ ngẫu nhiên cá thể thuộc về vùng có mật độ cao nhất [26]

Bước 3 Lưu mặt Pareto

− Ghi mặt Paretoℙ vào tập tin có tên là “paretofilename”; End

− Sinh LFoC �(��), j =1, , n+1 (adsbygoogle = window.adsbygoogle || []).push({});

Call TrP((��), k, G, H,ℛsign, π, ���,(�� ));

− Tính hệ khoảng tương tự�(��) của LFoC �(��), j = 1, …, n + 1

Bắt đầu

1 Input: - Tập dữ liệu D

- Khai báo các khía cạnh ngữ nghĩa của thuộc tính Aj và mức đặc kj, j = 1, …, n + 1 của các LFoC

- Các tham số của (2+2)M-PAES

- Tên tập tin chứa mặt Pareto -i=0

có j

tăng trưởng?

không

2a 1 - Khôi phục các LRBS tối u c a m tư ủ ặ

Pareto t t p tinℙ ừ ệ chứa mặt Pareto

2a 2 - Khai báo đặc tả mới k’j của Aj, j = 1, …, n + 1 j n+1 j j j j

- Sinh ngẫu nhiên nhiễm sắc thể Cµ1, Cµ2 ;

j

j j

2b 2 - Với p = 1, 2, tạo ra các cá thể�p bởi sinh ra các CLRBp

j j j

- Nạp�1 và�2 vàoℙ, và xem nó là mặt Pareto khởi tạo

j

3 - Chọn ngẫu nhiễn hai cá thể�1 và�2 từ mặt Pareto ; i++ℙ

- Áp dụng toán tử lai ghép để sinh ra 2 cá thể con o1 và o2 từ�1 và�2 với xác suất lần lượtPc(Cµ) vàPc(CRB) - Áp dụng toán đột biến trên Cµ với xác suấtPm(Cµ) cho mỗi cá thể o1 và o2

j j j

- Áp dụng toán tử đột biến trên CRB, với xác suấtPm(CRB) cho mỗi cá thể o1 và o2

Có xảy ra đột biến thêm luật?

không

4a

5

- Áp dụng toán tử đột biến thêm luật (adsbygoogle = window.adsbygoogle || []).push({});

- Tính toán các mục tiêu của o1 và o2

4b - Áp dụng toán tử đột biến thay đổi tiền đề luật

- Lần lượt thêm cá thể o1, o2 vào mặt Paretoℙ nếu chúng không bị trội bởi bất kỳ cá thể nào trong

N u đ y

ℙ ế ℙ ầ , thì loại bỏ ngẫu nhiên một cá thể thuộc vùng có mật độ cao nhất

đúng

i < maxGen

sai 6

Output - Lưuℙ vào file Kết thúc

Hình 3 2 Lược đồ của thuật toán IS-LRBSs-Design-MOEA,A

Fkj có cần

2b 1 - Sinh các LFoC của Fk , j = 1, …, n + 1;

- Với p = 1, 2, và mỗi πj của Cµp, gọi TrP(Fkj , kj,0, G, H,ℛsign,

πj, MGr,kj ) để xây dựng cấu trúc MGr,kj , j = 1, …, n + 1

2a 3 - Sinh các mức mới của Fkj , j = 1, …,

- Gọi TrP(Fkj ,kj, k’j - kj, G, H,ℛsign, π, MGr,kj )

từ Cµp bằng thủ tục PrG-Rule({Fkj ,�kj ,�kj : j ≤ n + 1}, τmax)

để xây dựng các mức của MGr,kj , j = 1, …, n + 1

3 4 Nghiên cứu thực nghiệm và thảo luận

Như đã đề cập ở các mục trên, mục tiêu chương này là phát triển một thuật toán

Một phần của tài liệu Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 108)