Mộtsốkiếnthứccơbảnvềlýthuyếttậpmờ
Biếnngônngữ
Theo Zadeh[64]“biến ngôn ngữ là biến mà các giá trị của nó là các từhoặc câu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ như khi nói về chiều cao của con người, ta có thể xem đây là biến ngôn ngữ có tên gọiHeightvànónhậncácgiátrịngônngữnhư“VeryShort”,“Short”,“Medium”,“High”,
… Với mỗi giá trị này, ta gán cho nó một hàm thuộc. Giảsử,lấygiớihạncủachiềucaotrongđoạn[0.5m,2.5m]vàgiảsửrằngcácgiá
𝑘=1 trị ngôn ngữ được sinh bởi một tập các quy tắc Khi đó, một cách hình thức, tacóđịnhnghĩacủabiếnngônngữnhưsau: Địnhnghĩa1.2:
[7,64,66]Biếnngônngữlàmộtbộgồmnămthànhphần(𝔛,T(𝔛),U,R,M), trong đó𝔛là tên biến,T(𝔛) là tập các giá trị ngôn ngữ củabiến𝔛,Ulàkhônggianthamchiếucủabiếncơ sởu,mỗigiátrịngônngữxemnhư là một tập mờ trênUkết hợp với biến cơ sởu,Rlà một qui tắc cú phápsinh các giá trị ngôn ngữ cho tậpT(𝔛),Mlà qui tắc ngữ nghĩa gán mỗi giá trịngônngữ trongT(𝔛)tươngứngvới mộttậpmờtrênU.
Dựatrên nềntảnglýthuyếttậpmờvà kháiniệmbiếnngônngữ,lýthuyếtlập luận xấp xỉ đã được phát triển nhằm mô phỏng quá trình suy luận của conngười Trong đó mô hình hệ mờ dựa trên luật được nghiên cứu và ứng dụngrộngrãihơncả.
Phânhoạchmờ
Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xácđịnhcủacácbiếnngônngữ.Chúngtacóđịnhnghĩaphânhoạchmờnhưsau. Định nghĩa 1.3.[35]Chomđiểm cố địnhp 1
x;n ế u
Sign(hx)=-1thìhxh -q+1 x> >h p xthì fm (h -q x)>
fm (h -q+1 x)> > fm (h p x)vàngượclại(xemhình1.5).Dễdàngthấyrằnghệ phânhoạchnhưvậyluôntồntạidựavàotínhchấti)trongMệnhđề1.1.
Trườnghợp độ dài củaxbằngk,l(x) =k, ta ký hiệu k (x) thay cho fm (x),khiđótanóikhoảngtínhmờcủaxcóđộsâukhaykhoảngtínhmờmứck.
Hệkhoảngtươngtự
Mộtkhíacạnhkhác của ngữnghĩa địnhlượngcủacáchạngtừ làkháiniệmkhoảng tương tự mứck,vớiklà một số dương xác chiều dài tối đa của cáchạng Vấn đề đặt ra là cho một tập các hạng từX (k) = {xX: |x| ≤k} và hàmđịnhlượng𝔳𝔛,làmthếnàocóthểxâydựngmộttậpcáckhoảngtươngtự{S(k)
(i) 𝔳𝔛(x)∈S(k)và các giá trị trong S(k)được xem là tương tự với𝔳𝔛(x) ởcấpđộk.
Chúng ta giả sử tập các gia tử |H − | = |H + | = 1 vàH − = {L},H += { V} Ýtưởng xây dựng các khoảng mờ tương tự cấp độkcủa các hạng từ trongX (k) làsửdụngngữnghĩa topocủahọcáckhoảngtínhmờcủacáctừtrongX k+2
- Tính toán tập tất cả các khoảng tính mờ của các từ có độ dàik+ 2, khiđược tập {ℑ(z):zX (k+2)} Thực hiện phân các khoảng mờℑ(z) vào các cụmℭ(x) vớixX (k) theo nguyên tắc các khoảng tính mờℑ(z) được phân vàoℭ(x)nếucómộtđầumút cógiátrịtrùngvới𝔳𝔛(x).
- Các khoảng tương tự của các từ trongX (k) hình thành một phân hoạchcủaUvà𝔳𝔛(x)ℭ(𝑥),đối với tất cảxX (k) Các giá trị của tất cả các khoảngtương tựℭ(𝑥)được coi như là tương tự với những khoảng khác và với giá trịSQM𝔳𝔛(x)củaxvới một cấp độk,kcàng lớn cấp độ tương tự của các giá trịtrongmỗi khoảngtươngtựcàngcao.
Hệ khoảng tượng tự là một công cụ hữu dụng để phân hoạch miền thamchiếu của các biến, và được sử dụng trong các thuật toán sinh luật của cácphươngpháptiếpcậndựatrênĐSGT.
Hệmờdựatrênluật
Cácthànhphầncủahệmờ
Một hệ mờ dựa trên luật gồm các thành phần chính sau: cơ sở dữ liệu(Database),cơsởluậtmờ(FuzzyRule-based-FRB)vàhệsuydiễn(InferenceSystem).
- Cơ sở dữ liệu là các tập𝔏 j gồmT j nhãn ngôn ngữ tương ứng với các tậpmờ dùng để xây dựng phân hoạch mờ miền tham chiếuU j R (tập số thực)củabiến𝔛j,
(j=1, ,n+1)củabàitoánnđầuvào1đầu ra.Mỗitậpmờđược xâydựng dựa trên một bộ tham số của nó, các tham số này có thể được xác địnhbằng kinh nghiệm của các chuyên gia, hoặc là kết quả của quá trình khai phátri thức từ thực nghiệm hoặc được học bằng các thuật toán học máy Các tậpmờcóthểbốtrí thànhcácphânhoạchmờđơnthểhạthoặcđathểhạtnhưtrongmục1.1.4.
- Cơ sở luật mờ là một tập các luật mờdạng if-then, mỗi luật mờ biểu diễnmộttri thức về miền ứng dụng của hệ, luật mờ là thành phần chính của hệ mờ.Cấutrúccủamộtluật mờcódạngnhưsau: r q :If𝔛1isA q1and… and𝔛 n isA qn t h e n 𝔛 n+1isA q(n+1)( q=1 , ,M)
(1.6) trong đóA qj là các tập mờ của tập𝔏 j của cơ sở luật,Mlà số luật Nếu𝔛 n+1làbiến ngôn ngữ thì ta gọi là mô hình mờ Mamdani,𝔛 n+1là biến thựcthì ta gọi làmôhìnhmờTakagi-Sugeno.Đểtạoracácluậtcóđộdàinhỏhơnnthìchúng i j
1 i j i phảibổsungvàomỗi𝔏 j (j=1, ,n)mộtgiátrịnhãn“Don’tcare”cógiátrịhàmthuộcđồngnhấtb ằng1.Vídụcáckiểuluật:
If𝔛1isDon’tcarea n d 𝔛 2i s V e r y Lowa n d 𝔛 3i sHight h e n 𝔛 4 i s
If 𝔛1isSmalland𝔛2isD o n ’ t c a r e t h e n 𝔛3i s “Iris-versicolor”
- Hệsuydiễnthựchiệnlậpluậnxấpxỉdựatrêncácluậtvàcácgiátrịđầuvào để đưa ra giá trị dự đoán đầu ra Trên cơ sở lý thuyết tập mờ và logic mờ,các phương pháp lập luận xấp xỉ dựa trên FRBS đã được đề xuất và được ứngdụng vào giảiquyết nhiều bài toán phi tuyến phức tạp Một số hướng lập luậnxấpxỉ:
Với mục đích tìm hiểu những kiến thứccơ sở phục vụ cho hướng nghiêncứu của luận án Trong phần này luận án chỉ trình bày các phương pháp lậpluậnxấpxỉđượcứngdụngnhiềutronggiảibàitoánphânlớpvàhồiquy.
Vớibàitoánphânlớpthườngsử dụngmộttronghaiphươngpháplậpluậnsingle- winner rulehoặcweighted voteđược áp dụng trong [[2, 4, 6, 7, 18, 23-25,28-34].
Giả sử ta cần lập luận với mẫu dữ liệu đầu vàop i =(d i1 , d i2 , , d in )khiđó:
+ Phương pháp lập luậnsingle-winner rule: dựa trên độ đốt cháy các luậtcủamẫudữliệup i ,kếtquả lậpluậnlà lớpkếtluậncủaluậtbịđốtcháycaonhất.Trong trường hợp có nhiều luật có cùng độ đốt cháy cao nhất thì chọn ngẫunhiênmộtluật.Tacócôngthứclậpluậnnhưsau:
(p) n (d) làđộđốtcháyluậtthứqcủamẫudữliệup, và ởđây A qj (.)làhàmthuộccủatậpmờứngvớinhãnngônngữA qj
+ Phương pháp lập luậnweighted vote: dựa trên tổng độ đốt cháy (vote)các luật có cùng lớpkết luận của mẫu dữ liệup i Kết quả lập luận là lớp có tổngđộđốt cháycaonhất.Côngthứclậpluậnnhưsau:
Với bài toán hồi quy, chúng ta thường sử dụng phương pháp trung bìnhtrọng số để suy diễn Đây là phương pháp suy diễn đơn giản và hiệu quả đãđượcápdụngtrong[8-16,40,56,57].Vớimẫudữ liệuđầuvàop i =(d i1 ,d i2 , ,d in ),giátrịđầura𝑦̂𝑖đượcsuydiễntheocôngthứcsau:
A q(n1) làgiátrịgiảimờcủatậpmờcónhãnngônngữA q(n1)v à A qj (.) làhàm thuộccủatậpmờtươngứngvớinhãnngônngữA qj
M A q (p i )0,cónghĩalàđiểmdữliệup i khôngbị phủbởi luậtnào, haynókhôngđốtcháyluậtnàothì𝑦̂𝑖đượcxácđịnhtheophươngpháplậpluậncủa Alcalá đề xuất trong[9]như sau: xác định hai luật gần điểmp i nhất theokhoảng cách
Euclid, giả sử hai luật đó làr 1,r 2, trong đór 1gầnp i hơnr 2 Nếukhoảng hỗ trợ của 2 tập mờ vế phải của 2 luật giao nhau ở mức độ nào đó(10%)thìsuydiễn𝑦̂𝑖theophươngpháptrọngtâmtrênluậtr 1.Ngượclạithựchiệnsuyd iễn𝑦̂𝑖trênđiểmdữliệu𝑝
′đượchìnhthànhtừđiểmdữliệup i nhưsau:giảsửp ij làmộttọađộcủap i ,điềukiệntiềnđềthứj củaluậtr 1làtậpmờ đượcxácđịnhbởi3thamsố(𝑎 1𝑠𝑡 ,𝑏 1𝑠𝑡 ,𝑐 1𝑠𝑡 )với𝑎 1𝑠𝑡 làchânbêntrái,𝑏 1𝑠𝑡 là
𝑗 𝑗 𝑗 𝑗 𝑗 lõivà𝑐 1𝑠𝑡 làchânbênphảicủatậpmờtamgiác,vàđiềukiệnthứjcủaluậtr 2 làtậpmờvớibathamsố(𝑎 2𝑛𝑑 ,𝑏 2𝑛𝑑 ,𝑐 2𝑛𝑑 ).Khiđógiátrị𝑝 ′ củađiểm𝑝 ′ sẽ đượctínhnhưsau:
CácmụctiêukhixâydựngFRBS
Như bàn luận trong phần mở đầu, khi xây dựng các FRBS hai mục tiêucần đạt được là hiệu quả thực hiện (độ chính xác) và tính giải nghĩa được củaFRBS. Đây là hai mục tiêu xung đột nhau, làm tăng mục tiêu này thì phải trảgiá cho mục tiêu kia Mục tiêu độ chính xác đã có các công thức để đánh giá,mục tiêu tính giải nghĩa được liên quan đến nhiều yếu tố và ngay cả thuật ngữđể chỉ nó cũng chưa thống nhất. Dưới đây chúng ta xem xét các phương phápđãđượcđềxuấtđểđánhgiácácmụctiêu.
Mục tiêu hiệu quả thực hiện của FRBS, chúng ta đã có những công thứctoánhọcđểđanhgiámộtFRBSnhưthếnàolàhiệuquả.
Với bài toán phân lớp hiệu quả thực hiện của FRBS được đánh giá dựatrên tỉ lệ phần trăm số mẫu được phân lớp chính xác trên tổng số mẫu đượcphânlớp,tỉlệnàycàngcaocàngtốt. perf N acc *100
Với bài toán hồi quy, đánh giá hiệu quả thực hiện của FRBS trong cácnghiên cứu [8-16, 40, 56, 57], các tác giả sử dụng độ đo giá trị sai số bìnhphương trung bình (MSE) Giá trị MSE càng nhỏ thì độ chính xác của FRBScàngcao,vànóđượcxácđịnhbằngcôngthứcdướiđây:
Tính giải nghĩa được là một vấn đề phức tạp và trừu tượng, nó liên quanđến nhiều yếu tố Hiện tại chúng ta vẫn chưa có một tiêu chuẩn toán học để môtả chính xác, và còn nhiều quan điểm khác nhau, ngay cả các thuật ngữ để chỉtính giải nghĩađượccũngchưa thốngnhất, chẳnghạn như: tính dễhiểu(intelligibility),tínhtrongsuốt(transparency),tínhdễđọc(readability),…,cácthuật ngữ này được sử dụng đồng nghĩa và thay thế cho nhau[19] Việc lựachọn một độ đo tính giải nghĩa được vẫn là vấn đề mở Trong một số nghiêncứu cố gắng đánh giá tính giải nghĩa được của FRBS bằng cách phân chia nótheo từng nhóm và thiết lập một tập các ràng buộc ở các mức khác nhau CácFRBS thỏa mãn càng nhiều ràng buộc thì có tính giải nghĩa được càng cao.Trong[26]Gacto cho rằng hiện tại có hai hướng tiếp cận chính về tính giảinghĩađược.
-Tính giải nghĩa được dựa trên độ phức tạp: Hướng tiếp cận này đượcphânthànhhaimức,mứccơsởluậtmờvàmứcphânhoạchmờ.
Độ phức tạp ở mức cơ sở luật thường sử dụng các độ đo: số luật củahệluậtcàngít càngtốt,độdàicủaluật càngngắncàngtốt.
Độ phức tạp ở mức phân hoạch mờ thường sử dụng các độ đo: sốthuộc tính hay số biến, số biến sử dụng ít sẽ làm tăng tính giải nghĩađược của hệ luật; số hàm thuộc sử dụng trong phân hoạch mờ, sốhàmthuộckhôngnênvượtquá7±2[43].
Ngữ nghĩa ở mức cơ sở luật: Cơ sở luật phải nhất quán, tức là nókhông chứa các luật mâu thuẫn, các luật có cùng phần tiền đề thìphải có cùng kết luận; số luật bị đốt cháy bởi một dữ liệu đầu vàocàngít càngtốt.
Ngữ nghĩaở mức phân hoạch mờ (mức từ): Miền xác định của cácbiếnphảiđượcphủhoàntoàn bởihàmthuộccủacáctậpmờ.Tấtcả n các điểm dữ liệu phải thuộc vào ít nhất một tập mờ; các hàm thuộcphải thuộc loại chuẩn, có nghĩa là mỗi hàm thuộc phải có ít nhấtmột điểm dữ liệu trong miền xác định của biến có độ thuộc bằng 1;các hàm thuộc thể hiện ngữ nghĩa của các tập mờ phải phân biệtđượcvớinhau.
Khi phát triển các thuật toán tiến hóa xây dựng FRBS từ dữ liệu, cácphương pháp tiếp cận cố gắng đạt được một số ràng buộc tính giải nghĩa đượcbằng cách kết hợp các yếu tố liên quan để tạo ra một chỉ số Chỉ số này trởthành mục tiêu tính giải nghĩađược của hệ luật trong quá trính tiến hóa Một sốchỉsốthểhiệntínhgiảinghĩađượccủaFRBS: i) Độphứctạp(tổngđộdàicủacácluật trongcơsởluật)
Comp length(R m )min m1 ii)Trungbìnhđộdàicủaluậttrongcơsởluật
TrongđóCompđượcxác địnhbằngsốlớpchiachotổngsốđiềukiệntiềnđềcủahệluật,Partlàchỉsốphânhoạchmờtru ngbìnhtrêntất cảcácbiến:
Part i1 T j 1 n (1.16) vớiT j là số tập mờ sử dụng trong phân hoạch mờ biến thứj.Covlà giá trị trungbình cấp độ phủ của phân hoạch mờ.Covbằng 1 khi tất cả các phân hoạch mờlàphânhoạchmờmạnh(StrongFuzzyPartitions(SFPs)). iv) Độ đo không tương tự của Antonelli đánh giá hệ luật mờ giảibài toánhồiquy[14]
2M max (n1)2M min (1.17) Trong đóM min ,M max lần lượt là giới hạn số luật tối thiểu và tối đa của hệluật cần xây dựng,Mlà số luật của hệ luật (M min ≤M≤M max ), DCđược xácđịnhtheocôngthứcdướiđây:
i2 |b i b' i | (1.20) trong đóT j là sốtừ ngôn ngữ sử dụng phân hoạch mờ biến thứj,b i ,b’ i lần lượtlà lõi của tập mờ tam giác ứng với nhãn ngôn ngữ thứitrong phân hoạch mờđềuvàtrongphân hoạchmờđãđượcđiềuchỉnh.Hình1.7dướiđâymôtảquanhệb i vàb’ i
Kếtluậnchương1
Lýthuyếttậpmờbaogồmcáckháiniệmtậpmờ,phươngphápxâydựngtậpmờ,biếnngônng ữ,phânhoạchmờ,hệmờdựatrênluật.
-Hệ thốnglýthuyếtcủaĐSGTvớinhữngkháiniệmnềntảngnhư:ĐSGT,ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tửsinh, phương pháp xác định giá trị định lượng của từ ngôn ngữ,khoảng tính mờvàkhoảngtươngtựcủatừngônngữ.
Với những kiến thức cơ sở được trình bày trong chương này là nền tảngđểthựchiệncácmụctiêuđãđặtracủaluậnán.
CHƯƠNG 2 PHÁT TRIỂN CÁC THUẬT TOÁN XÂY DỰNGCÁCLRBSGIẢIB À I TOÁNP H Â N LỚP,HỒIQUY
Một mục tiêu quan trọng của luận án là nghiên cứu ngữ nghĩa tính toáncủatừ ngônngữđểpháttriểnthuậttoánxâydựngLRBSgiảibàitoánphânlớp,hồi quy Trong đó, ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong LRBSđược xác định bằng ĐSGT và mục tiêu tính giải nghĩa được của LRBS đượcđịnh nghĩa dựa trên độ phức tạp Tức là để nâng cao tính giải nghĩa được củaLRBS, các thuật toán được đề xuất ở đây phải thực hiện tối ưu đồng thời ngữnghĩa tính toán của từ ngôn ngữ được biểu diễn bằng tập mờ, số từ ngôn ngữsử dụng cho mỗi biến và độ phức tạp của RB (tổng độ dài của các luật) Cácthuật toán được phát triển nhằm khắc phục một số hạn chế của các thuật toántiếp cận dựa trên lý thuyết tập mờ và ứng dụng những lợi ích mà hướng tiếpcận dựa trên ĐSGT mang lại Nội dung của chương này được công bố trongcáccôngtrình [ii,iii,i v ]
Pháttriểnthuậttoángiảibàitoánphânlớp
Bàitoánphânlớpvàcácphươngphápgiải
= 1, ,N},p i là một véc tơnchiều có dạng (d i1,d i2, ,d in),d ij U j R(tập sốthực) là miền xác định của các biến (thuộc tính)𝔛jcủa bài toán, vớij= 1, ,n,C i C tập các nhãn cómlớp,i= 1, ,m,Nlà số mẫu dữ liệu Từ tập mẫu dữliệuDxây dựng một mô hình cho phép phân lớp bất kỳ mẫu dữ liệup U =U 1 U n
Giải bài toán phân lớp bằng FRBS là xây dựng một hệ các luật mờ S , đểphân lớp hay ánh xạ từ tập dữ liệu của U vào tập các giá trị nhãn lớp trong C Các luật trong S có dạng nhưcông thức (1.6), vế phải của luật là một nhãn lớpcủatập C r q :If𝔛1isA q1and … and𝔛 n isA qn then 𝔛 n+1isC q vớiq=1, ,M(2.1)viếttắtlàr q :A q C q
Như bànluậntrongphầnmởđầu,mụctiêucầnđạtđượckhixâydựngcácFRBS là độ chính xác và tínhgiải nghĩa được của hệ luật Đây là hai mục tiêuxung đột nhau, do đó các giải pháp được đề xuất đều cố gắng đạt được sự cânbằng(tradeoff)cảhaimụctiêunàybằngcáchpháttriểncácthuậttoántiếnhóatối ưu đa mục tiêu cho phép học tự động sinh các FRBS Trong đó mục tiêutínhgiảinghĩađượccủaFRBSđượcđịnhnghĩadựatrênđộphứctạp(tứclàsốtừsửdụngtrên mỗibiếnít,sốluậtít,độdàicủacácluậtcàngngắncàngtốt).
Khi phát triển các thuật toán giải quyết bài toán này, chúng ta phải thựchiệncáccôngviệcsau:
- Tìm kiếm hệ luật mờ tối ưu S từ tập các luật mờ ứng cử với mụctiêuđộchínhxácf p ( S )làphầntrămtỉlệphânlớpchínhxác,f p ( S )
max,mục tiêu tính giải nghĩa được của FRBS được đánh giábằngsốluậtf n ( S )vàtrungbìnhđộdàiluậtf a ( S )min.
Cácphươngpháptiếpcậntheolýthuyếttậpmờ thườngsửdụng cácphânhoạch mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miềntham chiếu của biến như trong Cordón [17,
18], Fazzolari[23], Ishibuchi [28-30], Mansoori[39],Trawinski[59].Việc sử dụng phân hoạch mờ đều, về trựcquan thì tính giải nghĩa được ở mức từ sẽ cao Tuy nhiên, việc sử dụng cùngmộtphânhoạchmờvớicáctậpmờcốđịnhtrướcchocáctậpdữliệukhácnhauthì không phù hợp với thực tế Vì trong thựctế ngữ nghĩa của các từ phụ thuộcvào từng ngữ cảnh tức là phụ thuộc vào từng tậpdữ liệu cụ thể Ví dụ từ
“lạnh”nếunólànhiệtđộthờitiếtthìnócó giá trịtrongkhoảng[10 o Cđến15 o C],nhưngnếu nó là nhiệt độ của người thì nó có giá tị trong khoảng [35 o C đến 36.5 o C].Do đó, ngữ nghĩa của từ cần được xác định phù hợp với từng ngữ cảnh cụ thểthìmớicóthểnângcaođượchiệuquảcủaFRBS.Vì vây,mộtyêucầutựnhiên
làphảipháttriểncácthuậttoánchophépđiềuchỉnh ngữnghĩatínhtoáncủatừ(tập mờ), chẳng hạn như trong Cordón[17], Nauck[44], Pulkkinen[55] Mộttrở ngại lớn củacác phương pháp tiếp cận theo lý thuyết tập mờ là do không cómột phương pháp hình thức hóa miền từ của biến nên khi thực hiện điều chỉnhcác tập mờ thì thuậttoán phải thực hiện tìm kiếm trong không gian rất lớn, phụthuôc vào số lượng các nhãn ngôn ngữ sử dụng trên mỗi biến (như đã chỉ ratrong phần mở đầu), dẫn đến phải đưa ra các ràng buộc hạn chế số nhãn ngônngữsửdụngtrênmỗi biến,sốluật củaRB. Để khắc phục nhược điểm này Nguyễn Cát Hồ và các cộngsự trong [2- 4,50,52]đãứngdụngĐSGTđểsinhtừ ngônngữvàxácđịnhngữnghĩatínhtoándựa trên tập mờ của từ. Ở đó các tác giả đã đặt vấn đề thiết kế ngôn ngữ sửdụng trong LRBS cho mỗi tập dữ liệu, tập mờ chỉ là một dạng biểu diễn ngữnghĩa tính toán của từ và đượcxây dựng dựa trên ngữ nghĩa định lượng của từ.Vì vậy, việc điều chỉnh ngữ nghĩa tính toán của từ ngôn ngữ cho phù hợp vớitừng tập dữ liệu được thực hiện rất dễ dàng trong cách tiếp cận này chỉ bằngviệc điều chỉnh các tham số tính mờ của ĐSGT Do đó, không gian tìm kiếmgiảm đi rất nhiều và đặc biệt nó không phụ thuộc vào số từ sử dụng cho mỗibiến.
Các phương pháp tiếp cận theo lý thuyết tập mờ thường sinh luật bằngcách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến, mỗi một tổ hợptạo ra một luật dạng (2.1) như trong Cordón [17, 18], Fazzolari[23],Gacto[25],Ishibuchi [28-
34], López[37].Trong đó lớp kết luậnC q của luậtr q đượcxácđịnhdựatrênđộđốtcháycủacácmẫudữliệutrongtậphuấnluyện.Độđốtcháy l u ậ tr q c ủ am ẫ u d ữ l i ệ up i đ ư ợ cx á c đ ị n h n h ư s a u :𝜇 𝐴
𝑞𝑗(.)làhàmthuộccủatậpmờtươngứngvớitừ ngôn ngữA qj Lớp kết luậnC q của luậtr q đượcxácđịnh theo công thức(2.2)dướiđây:
1 n ra được chọn (sàng) dựa trên một tiêu chuẩn nào đó để làm luật ứng cử, trong[29,
31] Ishibuchi sử dụng tiêu chuẩn chọn luật là tích của độ hỗ trợ (c) với độtin cậy của luật (s) Nhược điểm của hướng tiếp cận này là khi tập dữ liệu cónhiềuthuộc tính thì số luật sinh ra cỡ hàm mũ theo số thuộc tính Ví dụ với tậpdữ liệu cónthuộctính,sử dụngTgiátrịngônngữchomỗithuộctínhvàl max là chiềudài tốiđacủaluậtthìsốluậtphảixemxétlà
HướngtiếpcậndựatrênĐSGTđượcđềxuấtcủa NguyễnCátHồ[2-4,50,52], Dương Thăng Long [6, 7], thực hiện sinh luật từ mẫu dữ liệu Theo đó,mỗimẫudữliệusinhramộtluậtcóđộdàin,từ cácluậtnàysinhcácluậtcóđộdàiln S ốl u ậ t ứ n g c ử t ố i đ a p h ả i x e m x é t t h e o p h ư ơ n g p h á p n à y l à N* lmax C l , n óđãgiảmđirấtnhiềusovớiphươngphápsinhluậtbằngtổ hợp, tuynhiênsốlượngvẫncònrấtlớnsovớiphươngphápsinhluậtcủaMansoori trong[39].Một số đề xuất tiếp cận dựa trên lý thuyết tập mờ sinh luật từ câyquyết định (decision tree) như trong Pulkkinen[55].Phương pháp này đã làmgiảm đángkể số luật phải xem xét nhờ vào các kỹ thuật cắt tỉa trên cây, nhưngnếusử dụngkỹthuậtsinhluậtnàytrongcácthuậttoánchophéptốiưuthamsốtập mờ thì độ phức tạp thuật toán sẽ rất cao vì mỗi lần điều chỉnh tham số tậpmờtalạiphảixâydựnglạicâyquyếtđịnh. Để tránh phải xem xét tập luật ứng cử lớn,trong[39]Mansoori phát triểnmột thuật giải di truyền gọi tắt là SGERD sinh hệ luật ứng cử Từ hệ luật ứngcử chọn hệ luật tối ưu dựa trên độthích nghi của luật theokinhnghiệm(heuristic) Thuật toán này có ưu điểmlà số lượng các luật ứng cử sinh ra rất ít,số thế hệ của thuật giải di truyền hữu hạn Tuy nhiên việc lựa chọn hệ luật tốiưu cuối cùng chỉ theo kinh nghiệm, hơn nữa các từ ngôn ngữ sử dụng trong hệluật chỉ là các nhãn gắn với các tập mờ tam giác cố định, nó không được điềuchỉnh thích nghi với từng tập dữ liệu Đó là một trong các nguyên nhân quantrọnglàmcho thuậttoánSGERDsinhracácFRBScóhiệuquảphânlớpkhôngcao.
Vấnđềtìmhệluậtmờtốiưu ĐểtìmkiếmFRBStốiưu,hầuhếtcácphươngphápđềusửdụnggiảithuậtditruyềnđểgiảiq uyếtvấnđềnàynhưtrongDươngThăngLong[6,7],Cordón
[17,18],Gacto[25],García [27],Ishibuchi[28-34],López [37],NguyễnCát Hồ[[50,52],Pulkkinen[55] Để khắc phục 1 một số hạn chế của các phương pháp đã đề xuất, trongchương này luận án đề xuất một thuật toán được gọi là OPHA-SGERD xâydựng các LRBS giải bài toán phân lớp Trong thuật toán này tập luật ứng cửđược sinh ra bằng thuật toán HA-SGERD được phát triển dựa trên thuật toánSGERDcủaMansooritrong[39]vàtậptừngônngữvàngữnghĩatínhtoáncủanó được sinh ra bằng ĐSGT Thuật toán này khắc phục được một số nhượcđiểm của các thuật toán đã đề xuất như phải tìm kiếm trong không gian thamsố ít hơn khi điều chỉnh ngữ nghĩa của từ ngôn ngữ, tập luật ứng cử sinh ra cósốluật rất ít.Thuật toángồmhaipha:
-Pha1thiếtkếngônngữ:TìmkiếmbộthamsốtínhmờcủaĐSGTbằngthuậttoán vớitêngọiOP-PARHAđượcphát triểndựatrênthuậtgiảiditruyền.
SGERDsinhtậpluậtứngcửRvớibộthamsốtốiưucủaĐSGTđãtìmđượcởpha1,s a u đótì mhệ luật tối ưu từ tập luậtRbằng thuật toán HA-OFRBđược phát triển dựa trênthuậtgiảiditruyền.
ThuậttoánOPHA-SGERD
Ngữ nghĩa tính toán của các từ ngôn ngữA ji (i=1, ,|X j |) được sinh ra từmột ĐSGT tuyến tínhAX j tương ứng với biến𝔛jđược biểu diễn bằng các tậpmờ tam giác,các tập mờ này được tổ chức thành một phân hoạch mờ đơn thểhạt Chúng tôi giả thiết mỗi ĐSGTAX j có hai phần tử sinh (c , c + ) và chỉ cómộtgiatửdươngV j (Very)vàmộtgiatửâmL j (Little).TậpmờtươngứngvớitừA ji được xác định như sau: lõi của nó là giá trị địnhlượng𝔳𝔛
𝑗(A ji ), điểm bêntrái nhất và bên phải nhất của độ hỗ trợ tương ứng là giá trị địnhlượng của từliềnkề bêntrái𝔳𝔛
𝑗 ( A j(i+1) ).Cáctậpmờtươngứng vớitừhằng 0thì điểmbêntráinhấtcủađộhỗtrợtrùngvớilõivàtậpmờtương ứngvớitừhằng 1thì điểmbênphảinhấtcủađộhỗtrợtrùngvớilõi.Vídụhình
Hình2.1.Mộtphân hoạchmờđơn thểhạtđượcxây dựngdựatrênĐSGT
2) Tiêuchuẩnchọnluật Để giảm bớt không gian luật trong quá trình tìm kiếm hệ luật tối ưu và hệluật ứng cử chỉ chứa những luật tốt, quá trình sinh tập luật ứng cử, các thuậttoán phải sử dụng một tiêu chuẩn để chọn (sàng) luật Trong phần này luận ántrình bày một số tiêu chuẩn đã được đề xuất và phát triển một tiêu chuẩn mớibằngviệcc ả i tiếnmộttiêuchuẩnđượcđ ề xuấttrong[39].G iả sửtakýhiệu f(A q C q ) làmộtđộđocủamộttiêuchuẩnchọnluậtcủaluật A q C q nào đó,thì f(A q C q ) cóthểđượcđịnhnghĩabằngmộtsốcáchsau:
-Tiêuchuẩnchọnluậtđượcxácđịnhbằnghiệugiữatổngđộđốtcháyluậtcủa các mẫu dữ liệu được đoán nhận đúng và không đúng[39], theo
-Trong[39]Mansoorichỉra rằng,mỗimộtluậtmờluônxácđịnh2khônggian, đó là không gian phủ và không gian quyết định của luật Không gian phủcủa luật bao gồm tất cả các mẫu dữ liệu đốt cháy luật, không gian quyết địnhbao gồm những mẫu dữ liệuđược phân lớp chính xác bởi luật Không gian phủcủa các luật kề nhau có thể giao nhau Vì vậy, trong quá trình sinh luật khôngthểxácđịnhchínhxáckhônggianquyếtđịnhcủaluật.Đểướclượnggầnđúngkhông gianquyết định của luật trong[39]đề xuất ngưỡng q cho luậtr q , khi đócác mẫu dữ liệu có độ đốt cháylớn hơn q thì nó được cho là thuộc về khônggianquyếtđịnhcủar q Từđótrong[39]đềxuấttiêuchuẩnchọnluậtsau:
(p)( 1 ) q (2.4) trongđó q làsốmẫudữliệucóđộđốtcháyluậtr q caohơn q q làthamsốngưỡngđượcxácđịn hnhưsau0.5 l q v ớil q làđộdàicủaluậtr q
-Chúngtôinhậnthấyviệclấygiátrịngưỡng 0.5 lqđểquyếtđịnhmột mẫudữliệuthuộcvềkhônggianquyếtđịnhcủaluậtnhưvậychưathựcsựphùhợp với các tập dữ liệu khác nhau Vì mật độ và sự phân bố của các mẫu dữliệu trong các tập dữ liệu là khác nhau Do đó tham số ngưỡng để quyết địnhmộtmẫudữliệuthuộc về khônggianquyếtđịnhcủaluậtnàođóphảiphụthuộcvào từng tập dữ liệu Từ đó chúng tôi đề xuất tiêu chuẩn chọn luật (2.5) dướiđây bằng cách cải tiến tiêu chuẩn (2.4), ở tiêu chuẩn mới này giá trị xác địnhngưỡng là một hàm phụ thuộc tham số, trong đó(0, 1) và được xác địnhtùy theo từng tập dữ liệu cùng với quá trình tìm kiếm tham số tính mờ tối ưucủaĐSGT. f(A q
3) Thuậttoánsinhhệluậtứngcử Ở đây chúng tôi phát triển một thuật toán được gọi là HA-SGERD sinhluật ứng cử bằng thuật toán SGERD của Mansoori trong[39]với tập từ ngônngữ sử dụngtrênmỗibiếnđược sinhrabằngĐSGTvàngữnghĩatínhtoáncủatừđượcxácđịnhdựatrênngữnghĩavốncócủan ónhưtrongmục2.1.2.
Mỗi cá thể của quần thể là một luật mờrcónđiều kiện tiền đề và lớp kếtluận trongC,r q : A q C q , trong đóA q =(A q [1],…,A q [n]), A q [i] là điều kiện tiềnđề thứicủa luật và nhận giá trị trong tập từ ngôn ngữX j(k j )được sinh ra từĐSGTAX j và {Don’tcare} với Don'tcare (x)1 Ta gọicác biến ứng với điều kiệntiền đề có giá trịDon’tcarelà cácbiếnkhông được kích hoạt, các biến ứng vớiđiềukiệntiềnđềcógiátrịthuộcX j(k j )làcácbiếnđượckíchhoạtcủaluật.
Tạimỗithếhệ,từ tậpluậtứngcử,trênmỗilớpchọnratốiđaQluật cóđộđothíchnghi(đượcxácđịnhbằngmộttiêuchuẩnchọnluật)caonhấtlàmquầnthể hiện tại.Từ quần thể hiện tại tạo sinh ra các luật con có độ dài lớn hơn chamẹ của chúng 1 đơn vị.Những luật con có độ đo thích nghi cao hơn cha mẹcủa chúng cùng với quần thể hiện tại làm tập luật ứng cử cho thế hệ kế tiếp.Quần thể khởi tạo là tập các luật có độ dài 1 được sinh ra bằng cách lấy tổ hợptất cảcáckhảnăngcủacácgiátrị ngônngữtrongX j(k j ),j=1, ,n.
Một số ký hiệu: Rlàtập luật ứng cử cho quần thể kế tiếp trong quá trìnhtiến hóa;Rlà tập các luật của quần thể hiện tại,R’là tập luật bổ trợ cho quátrìnhtạos i n h ;R(C q ),R(C q ),R ’(C q )làcáctậpl u ậ t cóc ù n g lớpk ế t luậnC q ;
|R(C q )|,|R(C q )|lầnl ư ợ t làs ố l u ậ t củat ậ p l u ậ tR(C q )v àR(C q );r q fitnessv à r q Classlàđộđothíchnghivàlớpkếtluậncủaluậtr q
HàmSORT(R(C q ))thực hiệnsắpxếpcácluậttrongtậpluậtR(C q )theođộđothíchnghicủaluật giảmdần.
- Độđothíchnghifcủaluật(sửdụng1trong3tiêuchuẩn(2.3),(2.4)hoặc(2.5))
- Tập luậtmờ R có tối đam*Qluật Method:Phươngpháptiếnhóasin hhệluậtBegin
Khởitạo R bằngrỗng; for j 1to ndo foreach xinX j( kj ) do h
Sinhl u ậ t r q cóA q [l]=Don’tcarevớil=1, ,nnếuljvàA q [j]=x nếul=j; r q Class argmax{ conf(A
KhởitạoR’bằngtậpluậtr ỗ ng ; / /R’làtậpbổtrợsửdụngtrongquátrìnhtạosinh repeat foreach C q inCdo
Khởitạo R (C q )bằngtậpluậtrỗng;// R (C q )chứacácluậttrong R cóvếphảilàC q ; foreach rin R do if r.Class =C q then R (C q ) R (C q ){r}; endfor
KhởitạoRbằngtậpluậtrỗng; foreach C q inCdo if g>1then Đặt R(C q ) gồm min{Q,| R (C q )|}luậtđầutiêncủa R (C q );
Q min{Q,| R (C q )|/2} Đặt R(C q )gồm Qluậtđầutiêntr ong R (C q );
R (C q ) R (C q )\R(C q );//LoạicácluậtcótrongR(C q )ra khỏi R (C q ) ĐặtR ’ (C q ) gồmQluậtđ ầ u tiêntrong R (C q );//xác địnhtậpbổtrợR’củalớpC q R’R’ R’(C q ); endif
R R R(C q ); endfor g g+1; if gl max )or( R trùngR); return R ;
Quá trìnhtạosinh đượcthựchiệntheothuậttoánREPRODUCE.Từcác luật của quần thểRvà quần thể bổ trợR’tạo ra tập luật ứng cử của thế hệ kếtiếp gồm các luật củaRvà các luật thế hệ con có độ đo thích nghi cao hơn chamẹsinhrachúng.Vớimỗiluậtr q cólớpkếtluậnC q củaRthựchiệntạosinh q j r trên luậtr q như sau: chọn ngẫu nhiên một luậtr p trong số các luật có cùng lớpkết luậnC q củaR Nếu luậtr p trùng với luậtr q thì chọn lại luậtr p bằng cáchchọn ngẫu nhiên một luật trong các luật có cùng lớp kết luậnC q của quần thểbổtrợR’.Sauđóchọnngẫunhiênmộtbiến𝔛jtrongsốcácbiếnđượckíchhoạtcủa của luậtr p Kiểm tra, nếu biến𝔛jtương ứng trong luậtr q có giá trị làDon’tcarethì lần lượt sinh ra các luật con củar q bằng cách thay thế giá trịDon’tcarecủa biến𝔛jcủa luậtr q bằng một giá trị ngôn ngữ trongtậpX j(k j ) Lớpkếtluận của các luật được xác định theo (2.2) và độ thích nghi được xác địnhtheo một tiêu chuẩn chọn luật trong mục 2). Các luật con có độ đo thích nghicao hơn độ thích nghi của luậtr q được giữ lại làm luật ứng cử cho thế hệ kếtiếp Nếu biến𝔛jtương ứng trong luậtr q có giá trị khácDon’tcarethì khôngthựchiệntạosinhtrênluậtr q
HàmRANDOM(R,C p ) thực hiện chọn ngẫu nhiên một luật trong các luậtcó cùng lớp kết luậnC p của tập luậtR,hàmRANDOMACTIVE(r p ) thực hiệnchọn ngẫu nhiên chỉ số của một biến trong số các biếnđược kích hoạtcủa luậtr p
- Độđothíchnghifcủaluật(sửdụng1trong3tiêuchuẩn(2.3),(2.4)hoặc(2.5))
Method:Tạo sinhhệluật ứngcử choquầnthểkếtiếp
R R; foreach r q inRdo r p RANDOM(R,C q ); if r p r q t h e n r p RANDOM(R’,
C q );j RANDOMACTIVE(r p ); if A q [j]=Don’tcare t h e n // A q làvếtráicủaluậtr q foreach xinX j( kj ) do
End if r.fitness>r q fitnessthen R R {r}; endfor endif endfor return R ;
Giảsử mỗithuộctínhsửdụngTtừngônngữ,độdàitốiđacủaluật làl max.Khi đó, số luật khởi tạo có độ dài 1 được sinh làT*n Số luật tại mỗi thế hệ làm*Q, quá trình tạo sinh sẽ tạo ra tối đam*Q*Tluật Với chiều dài tối đa củaluật làl max thì quá trình tiến hóa sẽ dừng lại sau khi sinh ra các luật có độ dàil max Như vậy tổng số luật phải xem xét làT*n+m*Q*T*l max giá trị này nhỏhơn rất nhiều so với số luậtphải xem xét theo phương pháp sinh luật bằng cáchtổhợptấtcả cáckhả năngcủacáctừngônngữsửdụngchocácbiếnđầuvào là T n *
Ví dụ: Với tập dữ liệu có số chiềun= 26, số mẫu dữ liệuN= 15,000, sốtừ ngôn ngữ sử dụng cho mỗi biếnT= 3, số lớpm= 9, số luật được chọn trênmỗilớpQ ,chiềudàitốiđacủaluậtl max=5.KhiđótacóT*n+m*Q*T*l max
Như vậy số luật phải xem xét của thuật toán HA-SGERD rất nhỏ so vớicácphươngphápđượcsosánh.
Mộtvídụminhhọa quátrìnhsinhluậtcủathuậttoánHA-SGERDcho tậpdữ liệu Iris Đây là tập mẫu dữ liệu phân lớp các loại hoa, gồm 150 mẫu chiađều cho 3 loại hoa (3 lớp)Iris-setosa,Iris- versicolorvàIris-virginica Mỗi mẫudữliệugồm4 thuộctính:độdàiđàihoa(𝔛1),độrộngđàihoa(𝔛2),độdàicánhhoa (𝔛3)vàđộ rộng cánhhoa (𝔛4).TakýhiệuAX 1,AX 2,AX 3, AX 4làcácĐSGTtương ứng với 4 thuộc tính, các ĐSGT này đều có cấu trúc như sau: c -
=Short, c += Long, H= {Little,Very},w=Medium.Cácthamsốtínhmờcógiátrị: fmc= j= 0.5vàchiềudàitốiđacủacáchạngtừk j =2.Vớicácthamsốđã chotacótậpcáctừsửdụngchomỗithuôctínhX j(k j )={Zero,VeryShort,Short,
LitteShort,Medium,LittleLong,Long,VeryLong,Unit},từDon'tCareviếttắtlàDC.Độ đothíchnghitínhtheotiêuchuẩnchọnluật (2.4). Áp dụng thuật toán HA-SGERD trên tập dữ liệu Iris, ở thế hệ thứ nhất,sinh tập luậtRgồm các luật có độ dài bằng 1 bằng cách tổ hợp tất cả các từngôn ngữ sử dụng cho các biến đầu vào Chọn tập luật của quần thể hiện tạiRbaogồm18luật,mỗilớpchọn6luậtcóđộthíchnghicaonhấttừ tậpluậtR(Q
= 6,phươngphápxácđịnhQđượctrìnhbàytrongmục2.1.3), dướiđâylàmộtsốluật củaR. r 1 :If𝔛4isZerothenIris-setosa fitnessb r 2 :If𝔛1isShortthenIris-setosa fitness@.66665r 3 : If𝔛4isMediumthenIris- versicolorfitness = 58.33334r 4 : If𝔛1isMediumthen Iris- versicolor fitness = 28.05556r 5 : If𝔛3isLongthen Iris- virginicafitness = 48.52543r 6 :If𝔛4isLongthenIris- virginicaf i t n e s s = 41.33334
NhưvậytacóR(Iris-setosa)={r 1 ,r 2 },R(Iris-versicolor) ={r 3 ,r 4 },R(Iris-virginica) {r 5,r 6 } Các thuộc tính𝔛1,𝔛2,𝔛3của luậtr 1 ,r 3 ,r 6 là thuộc tínhkhông được kích hoạt, thuộc tính𝔛2,𝔛3,𝔛4của luậtr 2 ,r 4 là thuộc tính khôngđượckíchhoạt.
QuầnthểbổtrợR’gồmcó18luật,mỗilớpchọnQluật(Q=6)cóđộthíchnghi cao nhất trong số các luật còn lại củaRsau khi đã loại bỏ các luật chọnchoR,dướiđâylàmột sốluật củaR’. r’ 1 :If𝔛3isZerothenIris-setosa fitness$.48305 r’ 2:If𝔛2isLongthenIris-setosa fitness$ r’ 3 : If𝔛3isVery ShortthenIris-versicolorf i t n e s s =
= 1 5 9 4 4 4 5 r’ 5 :If𝔛 3isUnitthenIris-virginica fitness.76271r’ 6 :If𝔛1isVeryLongthenI r i s - v i r g i n i c a fitness= 11.27778
Thựchiệntạosinh(reproduce)trênquầnthểRđểsinhracáccáthểcon mớicóđộthíchnghicaohơnchamẹcủachúngbằngcáchlấylầnlượt cácluậttrongRđểsinhracáccáthểcon.
Kếtquảthửnghiệm
Trong phần này chúng tôi thực hiện thử nghiệm thuật toán được đề xuấtđểđánhgiáhiệuquảcủanósovớithuậttoánSGERDtrong[39]nhằmchứng fmc L minh hiệu quả trong giải quyết bài toán thiết kế ngôn ngữ Thực hiện đối sánhhiệuquảcủathuậttoánkhisử dụngcáctiêuchuẩnchọnluật(2.3),(2.4) và(2.5)với nhau trên 9 tập dữ liệuđược lấy từhttp://sci2s.ugr.es/keel/datasets.php, vàcác tập mẫu dữ liệu đã được chuẩn hóa về đoạn [0, 1] Quá trình thử nghiệmđượcthựchiệngồmhai pha:
-Phathứnhất:TìmbộthamsốtínhmờtốiưucủaĐSGTbằngthuậttoánOP-PARHA với phương pháp thử nghiệmTest-All.Các thamsố của giải thuậtdi truyền được thiết lập như sau: xác suất lai ghépPcross =0.85, xác suấtđộtbiếnPmu=0.05,giớihạncácbiếnmụctiêulầnlượtlàđộđotínhmờcủaphần tửsinhc-0.3j 0.7,củagiatửL0.3j0.7,độdàitối đacủatừk j 1k j
3 và tham số ngưỡng 0.30.7 vớij= 1, ,n, chiều dài mỗi genlchrom$, số cá thể của quần thể 250 và số thế hệ tiến hóa 150, chiều dài tối đa củaluậtl max =min{5,n}.Trong[39]Mansoorichỉra rằnggiátrịcủathamsốQcótính quyết định đến độ chính xác của các hệ luật được xây dựng Ở đó các tácgiả lựa chọn giá trị tham sốQdựa trên ý tưởng là lực lượng củaquần thể chínhvàquầnthểbổtrợphảibằngmộtnửasốluậtkhởitạocóđộdài1.Nhưvậy,Q
2×𝑚 j(kj ) |làsốtừngônngữ sửdụngchobiến𝔛j ,nlà số thuộc tính,mlà số lớp Với những tập dữ liệu có số chiều lớn thì giá trịQkhálớndẫnđếnlàmtăngthờigiantínhtoáncủathuậttoán.Đểkhắcphụcnhượcđiểmnày, giátrịQđượchạnchếkhônglớnhơn20,nhưvậyQđượcxácđịnh
- Pha thứ hai:Tìm hệ luật tối ưu bằng thuật toán HA-OFRB từ hệ luậtứng cửRđược sinh ra từ thuật toán HA-SGERD với bộ tham số tính mờ củaĐSGTvàthamsốngưỡngđượctốiưuởphathứnhất.Phươngphápthửnghiệmkiểmtraché oTen-fold,tứclàtậpmẫudữliệuđượcchiathành10phần,sửdụng9 phần học và phần còn lại dùng để kiểm tra, lần lượt thay đổi vai trò của mỗiphầnlàmtậpdữliệukiểmtramộtlần.Kếtquảtrungbìnhsau10lầnchạythuậttoánHA-
Kí hiệu:#Nasố thuộc tính, #Ncsố lớp, #Npsố mẫu dữ liệu,
Các tham số thử nghiệm của thuật toán HA-OFRB:Nr maxđược giới hạnvớigiátrịxấpxỉbằngsốluậtcủahệluậtcôngbốtrong[39],chitiếtmôtảtrongbảng2.2, xác suất lai ghépPcross =0.85, xác suất đột biếnPmu =0.05, giớihạn các biến mục tiêu0r i 1 vớii= 1, ,Nr max, chiều dài mỗi genlchrom$,sốcáthể250,sốthếhệtiếnhóa500,thamsốhàmmụctiêuw p =0.99,w n
Tập dữliệu #Na #Nc #Np
Bảng 2.3So sánh kết quả thử nghiệmthuậttoánOPHA-
Bảng 2.4So sánh kết quả thử nghiệmthuậttoánOPHA- SGERDvàthuậttoánSGERDvớitiêuchu ẩn(2.4)
SGERD OPHA- SGERD SGERD OPHA-
Iris 96.40 97.33 4.30 5.00 1.95 1.80 Pima 73.08 76.95 7.76 8.00 7.18 2.50 Sonar 75.20 79.81 5.96 5.00 5.17 3.80 Wine 96.19 96.63 6.14 7.00 3.56 2.43 Image 86.10 86.76 9.28 14.00 4.56 2.57 Vowel 58.53 55.25 33.78 30.00 3.88 2.57 Yeast 56.53 54.18 21.50 20.00 5.50 2.95
Từ cácbảng 2.3 và 2.4 cho thấy tỉlệ phân lớp chính xáccủa thuậttoánđượcđềxuấttrongluậnáncaohơnsovớithuậttoánSGERDkhisử dụngcùng tiêu chuẩn chọn luật Bảng 2.3 cho thấy thuật toán được đề xuất có tỉ lệ phânlớp chính xác cao hơn trên 8 tập dữ liệu, trong đó có một số tập dữ liệu có tỉ lệcao hơn nhiều như Glass 5.32%, Sonar 5.0% và Image 2.67%.Chỉ có duy nhấttập dữ liệu Iris có tỉ lệ thấp hơn, tuy nhiên tỉ lệ thấp hơn rất nhỏ chỉ 0.26%.Bảng 2.4 cho thấy thuật toán được đề xuất có tỉ lệ phân lớp cao hơn trên 6 tậpdữ liệu, đặc biệt là tập dữ liệu Glass có tỉ lệ caohơn
Sonar4.6%.CáctậpdữliệucótỉlệthấphơnkhôngđángkểnhưCancer0.6%,Vowel3.28% và Yeast 2.35% Với tiêu chuẩn 2.3 thuật toán đề xuất tạo ra LRBS cóđộ dài trung bình của luật cao hơn thuật toán SGERD do đó tính giải nghĩađượccủanókémhơn.
Bảng 2.5So sánh kết quả thử nghiệmthuậttoánOPHA-
Bảng2.6Sosánhkếtquảthửnghiệmt huậttoánOPHA- SGERDvớib a tiểuchuẩn(2.3), (2.4),
SGERD OPHA- SGERD SGERD OPHA-
Bảng2.5chothấytỉlệphânlớpchínhxáccủaLRBSđượcsinhratừthuậttoán OPHA- SGERD so với thuật toán SGERD tốt hơn trên 6 tập dữ liệu Cụthể tập dữ liệu Glass 10.45%, Iris 0.93%, Pima 4.26%,Sonar 3.65%, Wine 1%,Image 0.09% Và nó kém hơn thuật toán SGERD trên 3 tập dữ liệu nhưng tỉ lệkhông nhiều, cụ thểlà Cancer 0.6%, Vowel 1.16%, Yeast 0.8% Cũng từ bảngnàychothấythuậttoánđược đềxuấttạoracácLRBScóđộdàitrungbìnhcủaluật ngắn hơn trên
8 tập dữ liệu.V ớ i t i ê u c h u ẩ n 2 4 t h ì t h u ậ t t o á n đ ề x u ấ t t ạ o raLRBScóđộdàitrungbìnhngắnhơnthuậttoánSGERDtrên8tậpdữliệu với tỉ lệ rút ngắn rất cao Cụ thể tập dữ liệuCancer 28.7%, Iris 23.08%, Pima68.11%, Sonar 14.89%, Wine 22.75%, Image 12.28%, Vowel 11.34%, Yeast35.82%.Vớiđộdàiluậtngắnthểhiệntínhgiảinghĩađượccủahệluậtsẽcao.
Từbảng2.6chothấytiêuchuẩnchọnluậtđượccảitiếntrongluậnán(2.5)tạo ra hệ luật có tỉ lệ phân lớp chính xác cao nhất trong 3 tiêu chuẩn đánh giá(2.3),(2.4)và(2.5).
Pháttriển thuậttoán giảibàitoán hồiquy
Bàitoánhồiquyvàphươngphápgiải
Cho một tập mẫu dữ liệu D ={(p i , y i ),i= 1, ,N},p i là một véc tơnchiềucó dạng
(d i1,d i2, ,d in),d ij U j R(tập số thực) là miền xác định của các biếnđộc lập (thuộc tính đầu vào)𝔛jcủa bài toán, vớij= 1, ,n;y i U n+1R(tậpsố thực) là miền xác định của biến phụ thuộc (thuộc tính đầu ra)𝔛n +1,Nlà sốmẫudữliệu.TừtậpdữliệumẫuDxâydựngmộthệmờchophéptínhgiátrị yˆU n+1ứngvớimỗigiátrịđầuvàopU=U 1 U n
Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để ánhxạtậpdữ liệuđầuvàoUcónchiềuvàotậpU n+1 cómộtchiềuđầura,bằngmộtphươngpháplậpluậnxấp xỉ.TứclàvớimộtgiátrịđầuvàopUquaánhxạ nàytaxácđịnhđượcgiátrịđầura yˆU n+1
KhixâydựngcácFRBSchobàitoánhồiquy,cácluậtsửdụngtrongFRBSthườnglàcácluậtm ờMamdanicódạng(1.6)trongđókếtluậncủaluậtlàmộttậpmờ: r q :If𝔛1isA q1and…and𝔛 n isA qn t h e n 𝔛 n+1isA q(n+1) q =1, ,M
Giải bài toán hồi quy bằng FRBS cũng tương tự như giải bài toán phânlớp. Tuy nhiên do bài toán hồi quy phức tạp hơn nên các thuật toán được đềxuất phải thực hiện nhiều kỹ thuật hơn (như tốiưu số tập mờ, tham số tập mờ,lựachọncácphéptoánchotoántửAnd,toántửkéotheo,
Phânhoạchmờmiềnthamchiếucủacácbiếncácđềxuấtgiảibàitoánhồiquykhôngsửdụ ngcáctậpmờđượcxácđịnhtrướcmàchúngđượctốiưucùngvới hệ luật Các hướng tiếp cận dựa trên tập mờ không có một phương pháphìnhthứcđầyđủđểxácđịnhngữnghĩatínhtoáncủatừ từngữnghĩavốcócủanó.Dođó,đểđiềuchỉnhcácthamsốtậpmờmộtsốđềxuấtthựchiệndựat rênbiểu diễn bộ 2 (two-tuple) như Acalá [9, 10], sử dụng hàm chuyển đổi tuyếntính từ khúc (piecewise linear transformation) Antonelli [12–14], sử dụng cácràng buộc trên bộ 3 tham số tập mờ Pulkkinen[56] Với cách làm như vậykhông gian tìm kiếm của thuật toán tăng lên rất lớn Chẳng hạn, nếu thuật toánthựchiệntốiưucáctậpmờbằngdịchchuyểncácđỉnhcủatậpmờtamgiáccânnhư của Alcalá và cộng sự trong[10]thì không gian tìm kiếm các tham số làT*(n+1) chiều Ở đâyT2 là số tập từ sử dụng cho mỗi biến vànlà số chiềucủa bài toán Nếu tối ưu tất cả các tham số của tập mờ tam giác hoặc hìnhchuông,mỗitậpmờđượcxácđịnhbằng3thamsố.Khiđókhônggiantìmkiếmcác tham số của các phương pháp này là 3*T*(n+1), ví dụ như đề xuất củaPulkkinen trong[56].Một đề xuất trong[14]của Antonelli cho phép tối ưuđồng thời các tham số tập mờ tam giác và số tập mờ sử dụng cho mỗi biến Ởđó các tập mờ đượcxác định bằng các giá trị xác định lõi của nó và giá trị xácđịnh lõi của các từ liền kề Khi đó không gian tìm kiếm tham số là (T max -2)*(n+1),với5≤T max ≤9là sốtừ tốiđasử dụngchomỗibiến.
Về vấn đề sinh luật, các đề xuất giải bài toán hồi quy chủ yếu sử dụngphương pháp sinh luật bằngcách tổ hợp tất cả các khả năng của các nhãn ngônngữ sử dụng cho các biến Acalá [8-10], Antonelli [[12-14] Gần đây, để tránhphải tìm kiếm trong không gian luật lên đến hàm mũ, đặc biệt khi giải quyếtcácbàitoáncósốchiềulớn,một sốđềxuất sửdụngphươngphápsinhluậttừ dữ liệu của Wang và Mendel trong[61]như trong Antonelli[15], Márquez[40],Rodrígues-Fdez[57] Phương pháp sinh luật này chỉ sinh ra các luật cóđộ dài bằng số thuộc tính (n) của bài toán, để tạo ra các luật có độ dài nhỏ hơnn,trướckhisinhluậtcácphươngphápnàyphảisửdụngmộtphươngpháptríchchọn thuộc tính. Một hướng tiếp cận sinh luật khác là dựa trên cây quyết định(decision tree) như trong[56].Mặc dù phương pháp này đã làm giảm đáng kểkhônggian tìm kiếm luật nhưng lại phải sử dụng một số kỹ thuật khá phức tạp,ví dụ như tính thông tin entropy và đặc biệt là khó có thể phát triển các thuậttoán cho phép tối ưu tham số tập mờ vì mỗi khi thay đổi tham số tập mờ thìphải xây dựng lại cây quyết định do đó chi phí tính toán sẽ rất lớn Vì vậy, vớiphươngphápsinhluậtnàythìcáctậpmờ thườngđượcxácđịnhtrước.
Với bài toán tìm kiếm hệ luật tối ưu, các phương pháp đề xuất giải bàitoán này đều được phát triển dựa trên các lược đồ tiến hóa đa mục tiêu Cácthuật toán được đề xuất đều thực hiện tìm kiếm một mặt Pareto xấp xỉ tối ưutheo các mục tiêu Mặt Pareto đượcxác định bằng các điểm với hai giá trị mụctiêuđộ chính xác và tính giải nghĩa được (được thể hiện bằng một chỉ số đượckết hợp từ một vài yếu tố liên quan) của FRBS tương ứng.Mỗi FRBS trên mặtPareto đạt được mộtsự cân bằng nào đó giữa các mục tiêu Quá trình tìm kiếmmặt Pareto xấp xỉ tối ưu dựa trên khái niệm so sánh trội Giả sử chúngta có hailời giảix= (x 1, ,x n) vày= (y 1 , ,y n) vớix i,y i,i= 1, ,nlà các mục tiêu Ta nóilờigiảixtrộihơnlờigiảiynếui=1, ,nthìx iy i,vàtồntạijsaochox j>y j.
MộtsốthuậttoánđượcđềxuấtgầnđâytheohướngtiếpcậnnàynhưtrongAlcalá [9, 10], Antonelli [12-15] các thuật toán này được phát triển dựa trênlược đồ tiến hóa đa mục tiêu (2+2)M-PAES do Cococcioni đề xuất trong[16].Hay trong Márquez[40],Pulkkinen[56]phát triển thuật toán dựa trên lược đồtiến hóa đa mục tiêu NSGA-II do Deb và cộng sựđề xuất trong[22] Các thuậttoán này chỉ tối ưu đồng thời tham số của tập mờ và cơ sở luật, chỉ có đề xuấttrong[14]củaAntonelli cho phép tối ưu đồng thời số tập mờ, tham số tập mờvà cơ sở luật Việc tối ưu đồng thời cả 3 thành phần này trong các thuật toántiếp cận theo hướng tiếp cận dựa trên lý thuyết tập mờ đòi hỏi phải xử lý kháphứctạp.Đểthựchiệnviệcnàytrong[14]Antonellivà cộngsự phảiđưaracác kháiniệmcơsởdữliệuảo (virtualdatabase)gồmcácphânhoạchmờcósố tậpmờbằngnhau,cơsởluậtảo(virtualrulebase)làcơsởluật đượcxâydựngtrêncơ sở dữ liệu ảo. Khi đó thuật toán tiến hóa được thực hiện trên cơ sở dữ liệuảo và cơ sở luậtảo Để xác định giá trị các mục tiêu ở đây thuật toán phải thựchiệnánhxạcơsởdữ liệuảothànhcơsởthực(concretedatabase),vàcơsởluậtảo thành cơ sở luật thực (concrete rulebase) bằng chuyển đổi tuyến tính từngkhúc (piecewiselinear transformation) Việc chuyển đổi này làm tăng thời giantính toán và mất mát các thông tin do đó làm giảm hiệu quả của quá trình tốiưu.
Dựa trên lược đồ tiến hóa đa mục tiêu(2+2)M-PAES và những lợi ích củaĐSGT gia tử mang lại Lần đầu tiên trong luận án đề xuất hai thuật toán đượcgọi là HA-PAES-SG và HA- PAES-MG thực hiện xây dựngLRBS giải bài toánhồi quy theo hướng tiếp cận dựa trên ĐSGT, trong đó mục tiêu tính giải nghĩađượccủaLRBSđượcđịnhnghĩadựatrênđộphứctạp.Cácthuậttoánnàythựchiệntốiưuđồ ngthời3thànhphần:sốtừngônngữsử dụngtrênmỗibiến,thamsốtậpmờ(ngữ nghĩatínhtoáncủatừ)vàcơsởluậtnhưngkhôngsửdụngkháiniệm cơ sở dữ liệu ảo, cơ sở luật ảo như trong[14].Quá trình tiến hóa đượcthực hiện trên chính cơ sở dữ liệu thực và cơ sở luật thực nhờ việc mã hóa cácluậtbằngcáctừngônngữđượcsinhratừĐSGT.
Thuật toánHA-PAES-SG
Thuật toán HA-PAES-SG được phát triển dựa trên ĐSGT, lược đồ tiếnhóa(2+2)M-
Ngữ nghĩa tính toán của các từ ngôn ngữA ji (i=1, ,|X j |) được sinh ra từmột ĐSGT tuyến tínhAX j tương ứng với biến𝔛jđược biểu diễn bằng các tậpmờ tam giác và được tổ chức theo dạng phân hoạch mờ đơn thể hạt (xem hình2.1) Ở đây chúng ta giả thiết rằng mỗi ĐSGTAX j có hai phần tử sinh (c , c + ),chỉ có một gia tử dươngV j (Very) và chỉ một gia tử âmL j (Little) Như vậy ngữnghĩa tính toán của từ ngôn ngữ được điều chỉnh thông qua các tham số tínhmờcủagiatửvàphầntửsinhtươngứnglàLvàc (chúý:V=1-Lvà
c += 1 - c ).Với phương pháp điều chỉnh tham số này thì không gian tìmkiếmkhôngphụthuộcvàosốlượngtậpmờđượcsửdụngtrongphânhoạchmờmàchỉphụt huộcvàosốchiềucủabàitoán.
Ví dụ với bài toán cónchiều thì việc điều chỉnh ngữ nghĩa tính toán củatừ ngôn ngữ dựa trên tập mờ phải tiềm kiếm trong không gian 2*(n+1) chiều.TrongkhiđótheothuâttoáncủaAntonellivàcộngsựtrong[14]cũngchophéphọc tương tự thuật toán HA-PAES-SG nhưng phải tìm kiếm trong không gian(T max - 2)*(n+1)chiềuvới5≤T max ≤9.Nhưvậy,khônggiantìmkiếmthamsốtậpmờtrongthuậttoán đượcđềxuấtgiảmđiđángkểdoT max - 2>2.
2) Phươngphápsinhluật Để tránh phải đối mặt với sự bùng nổ theo cấp số nhân của không gianluật phải xem xét như phương pháp sinh luật bằng tổ hợp Chúng tôi áp dụngphương pháp sinh luật từ mẫu dữ liệu được Nguyễn Cát Hồ và cộng sựđã pháttriểntrong[50].Ýtưởngcủaphươngphápnàyđượcmôtảkháiquátnhưsau:
Xétmộtmẫudữliệup i =(d i1 ,d i2 ,…,d in ,d i(n+1))củatậpdữliệuD,vớimỗi biến𝔛 j ,tậpcáckhoảngmờtươngtự S (kj)c ủa𝔛jđượcxâydựngnhưmục(1.2.6) hìnhthànhmộtphânhoạch,ởđâytồntạiduynhấttừA ji
S (kj) đểd ij ℭ(𝐴𝑗𝑖), vớij=1,n+1.Khiđóluậtngônngữđượcsinhratươngứngvớimẫudữliệu p i códạngsau:
Từ các luật dạng (2.6) ta sinh ra các luật có độ dài nhỏ hơnnđể xây dựng cơsởluật tối ưu.
𝑟𝑞:If𝔛1is𝐴𝑞1a n d …and𝔛 n is𝐴𝑞𝑛T h e n 𝔛 n+1is𝐴𝑞(𝑛+1)
Như vậyvớimộtmẫudữliệup,mộtbộthamsốtínhmờcủacácbiếnđầu vàokíhiệulà=( 1 ,…, n+1 ), j ={L j ,𝑐 − },j=1, ,n+1,bộthamsốgiớihạnđộ dài tối đa của các từ sử dụng cho mỗi biếnk= (k 1, …,k n+1) và giới hạn độdàitốiđacủaluậtl maxta cóthểxâydựngmộthàmđểsinhramột luật ngônngữdạng(2.7)nhưsau:
Sinh ratậptừngôn ngữX j(kj)={𝐴𝑗1,…,𝐴𝑗𝑇}; foreach𝐴𝑗𝑖i nX j(kj) do
Tínhcáckhoảngmờtươngtựℭ(𝐴𝑗𝑖)củaS (kj) ; endfor endfor
Từmẫudữ liệup=(d p1 ,d p2,…,d pn ,d p(n+1))D,sinhluậtngônngữr p códạng(2.6);
Sinhlsốnguyên{i 1,…,i l }ngẫunhiênthỏamãn1≤i 1