Xõy dựng hệ luật mờ từ CSD L nhúm giải phỏ p2 giai doạn

Một phần của tài liệu xây dựng hệ luật mờ mamdani từ cơ sở dữ liệu số (Trang 35 - 43)

Cú thể thấy, trong lý thuyết tập mờ, việc xỏc định hàm thuộc là yếu tố gần nhƣ then chốt. Cú nhiều phƣơng phỏp đƣợc nghiờn cứu đƣa ra nhƣng nhỡn chung, việc xỏc định hàm thuộc phụ thuộc lớn vào ý kiến chủ quan của cỏc chuyờn gia, kinh nghiệm của ngƣời sử dụng. Một thuộc tớnh dạng định tớnh của CSDL, kiểu nhƣ “tuổi” cú thể chia thành cỏc tập mờ khỏc nhau, nhƣ “già”, “trẻ”, “rất trẻ”, “tƣơng đối già”... Với mỗi tập mờ nhƣ vậy, ta đều phải xỏc định hàm thuộc tƣơng ứng. Nhu cầu xỏc định phõn chia cỏc miền mờ cho một thuộc tớnh của CSDL cú thể thấy rừ qua bài toỏn khai phỏ luật kết hợp đƣợc trỡnh bày sau đõy.

Khai phỏ cỏc luật kết hợp từ cơ sở dữ liệu, cú xuất phỏt điểm từ bài toỏn nghiờn cứu số liệu bỏn hàng trong siờu thị. Ở bài toỏn này, số liệu đƣợc biểu diễn dƣới dạng bảng hai chiều, trong đú cỏc cột thể hiện cỏc loại mặt hàng (item), cỏc hàng thể hiện cỏc giao dịch (transactions) đó đƣợc tiến hành, số 1 cho thấy mặt hàng đƣợc mua, số 0 chỉ điều ngƣợc lại. Từ bảng dữ liệu rất lớn này, ngƣời ta mong muốn rỳt ra đƣợc cỏc quy luật giỳp cho quản lý, kiểu nhƣ "Nếu một ngƣời đó mua bỏnh mỳ và bơ, khả năng ngƣời đú cũng mua giăm bụng là rất cao". Luật cú dạng nhƣ vậy gọi là luật kết hợp và là hƣớng nghiờn cứu quan trọng trong lĩnh vực khai phỏ dữ liệu. Về sau, ngƣời ta thấy sẽ là rất khụng đầy đủ nếu chỉ xem xột cỏc cơ sở dữ liệu chỉ bao gồm cỏc phần tử 0 và 1. Chẳng hạn, trong CSDL nhõn sự của một cơ quan cú cỏc mục nhƣ tuổi, thu nhập.. cú giỏ trị trong miền số thực rất rộng. Để trớch xuất ra cỏc luật kết hợp, một phƣơng phỏp thƣờng đƣợc sử dụng là chuyển số liệu trong CSDL đó cho về CSDL chỉ chứa cỏc giỏ trị 0, 1 và ỏp dụng cỏc kết quả đó cú. Thớ dụ, trong mục "tuổi", cú thể chia ra cỏc miền "trẻ", "trung niờn" và "già" với cỏc miền giỏ trị tƣơng ứng là [0,35], [36,55], [56,80] và nếu một giỏ trị của CSDL ban đầu rơi vào miền giỏ trị nào thỡ ta ghi 1 cho vị trớ tƣơng ứng trong CSDL chuyển đổi, ngƣợc lại gỏn giỏ trị 0. Phƣơng phỏp này đơn giản về mặt thực thi nhƣng cú thể gõy băn khoăn do ranh giới cứng

29

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

mà ngƣời ta đƣa ra khi tiến hành chuyển đổi. Chẳng hạn hai ngƣời tuổi 35 và 36 tuy rất gần nhau về mặt tuổi tỏc nhƣng lại thuộc hai lớp khỏc nhau là "trẻ" và "trung niờn", dẫn tới việc đƣa ra những luật kết hợp cú thể thiếu tớnh chớnh xỏc. Và ngƣời ta sử dụng cỏch tiếp cận mờ để khắc phục điều này, theo đú, một giỏ trị bất kỳ của CSDL ban đầu khụng chuyển đổi về giỏ trị 0 hoặc 1 nhƣ trờn mà sẽ chuyển về một tập giỏ trị thực thuộc đoạn [0,1], là độ thuộc của giỏ trị đó cho vào cỏc tập mờ đƣợc xỏc định trƣớc. Thớ dụ, ngƣời tuổi 35 trong vớ dụ trờn, ở CSDL đó chuyển đổi sẽ nhận tập giỏ trị (trẻ, 0,8), (trung niờn, 0,6), (già, 0,1). Phƣơng phỏp này, tuy dẫn tới việc xử lý phức tạp hơn nhƣng dễ chấp nhận hơn về mặt trực quan và hiện đang đƣợc nhiều nhà nghiờn cứu quan tõm. Trong bài toỏn này, việc phõn chia thuộc tớnh “tuổi” thành cỏc tập mờ là nhiệm vụ đầu tiờn phải hoàn thành.

Việc chuyển đổi CSDL số sang CSDL mờ cơ bản gồm cỏc bƣớc sau: Bƣớc 1: Phõn chia khụng gian đầu vào và đầu ra của dữ liệu số tới vựng mờ.

Nhƣ đó nờu trong Chƣơng 1, cụng việc đầu tiờn phải tiến hành là phõn chia cỏc thuộc tớnh thành cỏc miền mờ. Nếu ta cú thể tạo nờn một tập cỏc tập mờ tốt (theo nghĩa sẽ giải thớch bờn dƣới), nhƣng bƣớc tiếp theo để xõy dựng hệ luật mờ sẽ đƣợc tiến hành thuận lợi, mang lại kết quả tốt. Ở đõy cú thể phõn chia nhúm giải phỏp này thành 2 nhúm giải phỏp con.

a) Tiến hành phõn chia miền giỏ trị thuộc tớnh thành cỏc miền mờ một

cỏch định trước, theo kinh nghiệm với nguyờn tắc đơn giản, dễ hiểu theo một số

tiờu chớ đƣợc cụng nhận rộng rói.

 Số lƣợng cỏc (hàm thuộc) MF mỗi biến là vừa phải

 Cỏc MF đƣợc phõn biệt, vớ dụ, hai MF khụng đặc trƣng cho cựng hoặc gần nhƣ cựng một nhón ngụn ngữ.

 Mỗi MF là chuẩn húa tức là nếu nú đạt đến giỏ trị 1 ớt nhất tại một điểm của miền giỏ trị .

30

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

 Miền giỏ trị đƣợc phủ hoàn toàn bởi cỏc miền mờ tƣơng ứng và it nhất một MF nhận giỏ trị β> 0 tại bất kỳ điểm nào trờn miền giỏ trị. Đểthỏa món cỏc tiờu chớ trờn, ta thấy: Điều kiện 1) đƣợc thỏa bởi hạn chế số cực đại cỏc miền mờ. Ngoài ra, điều kiện 3) đƣợc đỏp ứng bằng cỏch ỏp dụng MF chuẩn và cỏc phộp biến đổi của giải thuật di truyền khụng làm thay đổi trạng thỏi chuẩn của chỳng. Điều kiện đỏp ứng 2) và 4) là khú khăn hơn. Nếu cỏc MF đƣợc định nghĩa trờn toàn trục số và cỏc điều kiện sau đƣợc đỏp ứng thỡ cỏc điều kiện 2) và 4) cũng thỏa món:

1) Điều kiện đối xứng: Cỏc đồ thị của cỏc hàm thuộc của tất cả cỏc MF là đối xứng. Vớ dụ, Gaussian MF và tổng quỏt chuụng (Gbell) MF là đối xứng theo định nghĩa. Ngoài ra, MF khỏc nhƣ hỡnh tam giỏc và hỡnh thang cú thể dễ dàng thực hiện đối xứng.

2) α-điều kiện: Tại bất kỳ điểm giao nhau của hai MF, cỏc giỏ trị thuộc khụng lớn hơn α (để trỏnh cỏc hàm thuộc trựng nhau quỏ nhiều). 3) γ-điều kiện: Tại tõm của mỗi MF, khụng cú MF khỏc lại nhận giỏ trị thuộc lớn hơn γ. Tõm của một MF phụ thuộc vào MF loại đƣợc sử dụng. Cho MF hỡnh chuụng (gbell) (với thụng số a, b, c) tõm là tham số c. Cho tam giỏc MF (với cỏc thụng số a <b <c), b là tõm. Với hỡnh thang MF (với cỏc thụng số a <b <c <d), tõm là b+((c - b) /2)

4) β-điều kiện: Miền xỏc định đƣợc phủ hoàn toàn, tức là, tại mỗi điểm của miền xỏc định, ớt nhất một thành viờn MF cú giỏ trị nhỏ nhất là β.

Thớ dụ: Giả sử rằng cỏc khoảng miền của x1, x2và y là [x1-,x1+].[x2-,x2+] và [y-,

y+] tƣơng ứng, nơi "khoảng thời gian "của một biến phổ biến nhất sẽ nằm trong khoảng này (cỏc giỏ trị của một biến đƣợc phộp nằm ngoài khoảng miền của nú). Chia mỗi khoảng miền thành 2N + 1 vựng (N cú thể khỏc nhau cho cỏc biến khỏc nhau, và độ dài của cỏc vựng này cú thể bằng hoặc khụng bằng nhau), ký hiệu là SN(Small, N),. . , Si (small, 1), GE (Center), Bi (Big 1),. . , BN (Big N),và coi mỗi vựng là một vựng mờ thành viờn . Hỡnh 2.1 cho thấy một vớ dụ nơi khoảng miền của Z1 đƣợc chia thành năm vựng (N = 2), cỏc khoảng miền của Z2 đƣợc

31

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

chia thành bảy vựng (N = 3), và khoảng miền của y đƣợc chia thành năm vựng (N = 2). Hỡnh dạng của mỗi vựng thành viờn là hỡnh tam giỏc; một đỉnh nằm ở trung tõm của vựng và đó là thành viờn cú giỏ trị thống nhất; hai đỉnh khỏc nằm ở trung tõm của hai vựng lõn cận, tƣơng ứng, và cú thành viờn cỏc giỏ trị bằng số khụng.

b) Tiến hành phõn chia miền giỏ trị thuộc tớnh thành cỏc miền mờ một cỏch

tối ưu nhờ giải thuật GA. Trong nhúm giải phỏp con này, tiờu chuẩn tối ƣu của

việc phõn chia là hàm thớch hợp (fitness function), thƣờng đƣợc tớnh nhƣ sau: Fit( Cq) =

ở đú, tử số của phõn số là tổng độ hỗ trợ (support) của cỏc thuộc tớnh đơn phổ biến x (1 phần tử), núi cỏch khỏc là tổng cỏc độ thuộc của cỏc giỏ trị cột thuộc tớnh x vào tập mờ phõn chia x nếu độ hỗ trợ này lớn hơn giỏ trị cố định cho trƣớc (minsup). Cũn mẫu số, là tổng của hai đại lƣợng độ phủ kớn (coverage_factor) và độ chồng lấn ( overlap_factor) đo độ phủ kớn miền giỏ trị của cỏc hàm thuộc và sự chồng lấn của 2 hàm thuộc bất kỳ lờn nhau. Cỏc yếu tố này đƣa vào hàm thớch hợp để tạo nờn một cỏch phõn chia miền mờ hợp lý, đảm bảo cỏc miền mờ phủ kớn miền giỏ trị thuộc tớnh, để khụng cú giỏ trị nào thuộc CSDL ban đầu rơi vào vựng rỗng (khụng thuộc tập mờ nào), đồng thời cỏc hàm thuộc tạo ra cũng khụng quỏ chồng chộo nhau (đảm bảo cỏc tập mờ đƣợc phõn chia cú sự khỏc biệt nhất định), ngoài ra việc phõn chia đảm bảo cỏc miền chia tƣơng đối đều để độ hỗ trợ cho cỏc thuộc tớnh là tốt nhất. GA sẽ tiến hành cỏc vũng lặp cho đến khi hàm fit đạt cực đại (hoặc dừng bắt buộc sau khi số vũng lặp vƣợt ngƣỡng cho trƣớc). Phƣơng phỏp này cú thể cho ra FB (Fuzzy Base – CSDL mờ) tốt hơn phƣơng ỏn a) nhƣng khối lƣợng tớnh toỏn cũng rất lớn. Thụng thƣờng ngƣời ta phải hạn chế trong việc chọn tập MF ban đầu cú dạng đặc biệt (tam giỏc cõn) và quỏ trỡnh tạo đột biến chỉ tiến hành thay đổi rất nhỏ lờn vị trớ của cỏc tam giỏc cõn này mà khụng thay đổi hỡnh dạng.

32

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Bƣớc 2: Chuyển đổi CSDL số ban đầu thành CSDL chứa thụng tin mờ. Giả sử chỳng ta cú một CSDL cỏc cặp dữ liệu đầu vào-đầu ra mong muốn:

(1) (1) (1) (2) (2) (2)

1 2 1 2

(x , x ; y ), (x , x ; y ),...(1)

ở đú x1 và x2 là cỏc đầu vào, và y là đầu ra. Trƣờng hợp đơn giản, CSDL ban đầu cú 3 thuộc tớnh, trong đú cú 2 thuộc tớnh là đầu vào và 1 thuộc tớnh là đầu ra đƣợc chọn ở đõy chỉ đơn giản để nhấn mạnh và làm rừ những ý tƣởng cơ bản của cỏch tiếp cận mới nhằm mở rộng nhiều đầu vào và nhiều đầu ra sẽ đƣợc thảo luận sau này. Nhiệm vụ ở đõy là để tạo ra một tập mờ từ đầu vào đầu ra tại (1), và sử dụng cỏc quy tắc này mờ để xỏc định một ỏnh xạ. Trƣớc tiờn, cần xỏc định độ thuộc của x1(i), x2(i) và y(i) vào cỏc miền mờ khỏc nhau ở cỏc thuộc tớnh tƣơng ứng..

Vớ dụ, x1(1) cú độ thuộc 0.8 ở B1, 0.2 ở B2 và 0 trong tất cả cỏc vựng mờ khỏc. Tƣơng tự, x2(2) cú độ thuộc 1 trong CE và cú giỏ trị 0 trong tất cả cỏc vựng khỏc. Thứ hai, gỏn cho cỏc giỏ trị này nhón ngụn ngữ mà nú cú độ thuộc lớn nhất ở đú. Vớ dụ,x1(1) đƣợc coi là B1, và x2(2) đƣợc coi là CE. Nhƣ vậy, ta đó tiến hành xong việc chuyển đổi CSDL số ban đầu thành CSDL mờ, ở đú cỏc giỏ trị số đƣợc chuyển sang cỏc tập mờ là từ ngữ, nhón của cỏc miền mờ mà ở đú cỏc giỏ trị số tƣơng ứng đạt độ thuộc lớn nhất.

Bƣớc 3: Tạo luật mờ từ cặp dữ liệu đầu vào

Cuối cựng, xỏc định đƣợc một luật từ một cặp dữ liệu đầu vào-đầu ra nhƣ mong muốn

(x1(1), x2(1); y(1)) →[ x1(1)(0.8 in B1, max), x2(1)(0.7 in S1, max);

y(1)(0.9 in CE, max)] → Rule 1: IF x1is B1 and x2 is S1, THEN y is CE;

(x1(2), x2(2); y(2)) →[ x1(2)(0.6 in B1, max), x2(2)(1 in CE, max);

y(2)(0.7 in B1, max)] → Rule 2:IF x1is B1 and x2 is CE, THEN y is B1;

Cỏc luật đƣợc tạo ra theo cỏch nhƣ vậy đƣợc gọi là “and” luật ( luật hội), tức là cỏc luật trong điều kiện IF phải đỏp ứng đồng thời kết quả của phần THEN.

33

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Bƣớc 4: Gỏn độ tƣơng thớch vào từng luật

Vỡ thƣờng cú rất nhiều cỏc cặp dữ liệu, và mỗi cặp dữ liệu tạo ra một quy tắc, khả năng chắc chắn sẽ cú mõu thuẫn giữa cỏc luật, tức là cỏc quy tắc mà cú cựng một IF nhƣng khỏc nhau phần THEN.

Một cỏch để giải quyết cuộc xung đột là gỏn một độ tƣơng thớch cho mỗi luật tạo ra từ cặp dữ liệu, và chỉ chấp nhận từ nhúm xung đột luật cú độ tƣơng thớch lớn nhất. Bằng cỏch này khụng chỉ giải quyết vấn đề xung đột mà cũn làm số lƣợng luật đƣợc tạo ra giảm đỏng kể.

Cú thể sử dụng cỏch sau để gỏn một độ tƣơng thớch tới mỗi luật: Cho luật "IF x1 is A and x2 is B, THEN y is C" độ tƣơng thớch của luật này, ký hiệu là D (Rule), đƣợc định nghĩa là:

D (Rule) = mA(x1)mB(x2)mC(y)

Theo vớ dụ trờn:

Luật 1 cú bậc: D (Rule1) = mB1(x1)mS1(x2)mCE(y)= 0.8 x 0.7 x 0.9 = 0.504 Luật 2 cú bậc: D (Rule2) = mB1(x1)mCE(x2)mB1(y)= 0.6 x 1 x 0.7 = 0. 42 Sau cỏc bƣớc đó nờu trờn, bao gồm cả việc chỉ giữ lại luật cú độ tƣơng thớch lớn nhất trong số cỏc luật trựng vế trỏi nhƣng khỏc vế phải, ta thu đƣợc một tập cỏc luật mờ dạng Mamdani. Tuy nhiờn, số luật thu đƣợc cú thể là rất lớn. Bƣớc tiếp theo là sử dụng giải thuật di truyền (GA) để tối ƣu húa hệ luật nhằm thu đƣợc một hệ luật Mamdani nhỏ nhất cú thể ( theo nghĩa ớt luật và trong mỗi luật ớt thuộc tớnh tham gia) và vẫn đảm bảo yờu cầu về độ chớnh xỏc của hệ luật.

Bƣớc 5: Dựng GA sinh hệ luật mờ tối ƣu

Đõy là bài toỏn tối ƣu đa mục tiờu: xõy dựng hệ luật mờ vừa nhỏ gọn lại vừa cú sai số mụ hỡnh nhỏ nhất. Cỏc mục tiờu này thƣờng là mõu thuẫn với nhau. Trong bối cảnh nhƣ vậy, rất khú cú thể đạt đƣợc tối ƣu đồng thời mọi tiờu chớ. Trƣờng hợp này, ngƣời ta đƣa ra khỏi niệm Pareto. Một lời giải xX đƣợc gọi trội hơn (dominate) lời giải yX (tức là x tốt hơn y), ký hiệu xy, nếu:

i, fi(y) fi(x) và j, fj(y) <fj(x).

34

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Pareto của bài toỏn (1). Tập tất cả cỏc lời giải nhƣ vậy gọi là tập tối ƣu

Pareto, ký hiệu Sp. Tập ảnh của lời giải tối ƣu Pareto trờn khụng gian mục tiờu

đƣợc gọi là mặt Pareto (frontier). Tƣơng tự, đối với một tập lời giải S X nếu khụng cú bất kỳ lời giải yS trội hơn x thỡ x đƣợc gọi là một lời giải khụng bị chiếm ƣu thế bởi tập S đú, ta cũng ký hiệu xS ( tức x tốt hơn tập S).

Một lời giải tối ƣu Pareto x khụng thể núi tốt hơn một lời giải Pareto y, do đú chỳng ta càng tỡm ra nhiều lời giải tối ƣu Pareto cho bài toỏn càng tốt. Cỏc phƣơng phỏp tối ƣu cổ điển thực hiện chuyển bài toỏn đa mục tiờu về một mục tiờu bằng việc tập trung vào một mục tiờu tại một thời điểm và phải thực hiện nhiều lần phƣơng phỏp này để tỡm tập cỏc lời giải. Cỏc phƣơng phỏp tối ƣu mới nhất cú xu hƣớng giải quyết bài toỏn tối ƣu đa mục tiờu trong cựng một vũng lặp.

Nhƣ vậy, việc sinh hệ luật mờ tối ƣu ở đõy thực chất là dựng GA sinh ra một tập cỏc hệ luật mờ tối ƣu Pareto mà ngƣời ta thƣờng gọi là mặt Pareto, sao cho hàm thớch hợp

Fitness = k1R1 + k2R2

đạt cực tiểu. Ở đú ki là cỏc hệ số chỉ tầm quan trọng của cỏc giỏ trị Ri (nếu ngƣời sử dựng muốn ƣu tiờn giỏ trị nào thỡ hệ số cao hơn. R1 là tổng số luật cú trong RB cộng với số thuộc tớnh cú tham gia tạo nờn mỗi luật. R2 là số đo sai số của mụ hỡnh độ lệch trung bỡnh bỡnh phƣơng MSE (Mean squared error).

trong đú là kớch thƣớc tập dữ liệu, là đầu ra nhận đƣợc từ hệ luật với đầu vào là mẫu kiểm tra thứ l cũn là giỏ trị đầu ra thực sự của mẫu kiểm tra này.

Bƣớc 6: Xỏc định một ỏnh xạ dựa trờn kết hợp cỏc luật mờ cơ sở.

Sử dụng cỏch sau đõy để xỏc định đầu ra y từ cỏc đầu vào (x1, x2): đầu tiờn, xỏc định độ tƣơng thớch miOi của đầu vào (x1, x2) với tiền đề của luật mờ thứ

i (độ tƣơng thớch này cho ta biết đầu vào (x1, x2) “giống” đầu vào của luật thứ i đến mức nào): ) ( ) ( 1 2 2 1 x m x m m i Ii Ii i O

35

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Sau đú, sử dụng cụng thức khử mờ trọng tõm để xỏc định đầu ra      K i i O K i i i O i i m y m y 1 1 i

y ký hiệu giỏ trị trung tõm của khoảng O (trung tõm của một khoảng mờ đƣợc định nghĩa là điểm đú cú giỏ trị tuyệt đối nhỏ nhất trong số tất cả những điểm mà hàm thuộc cú giỏ trị là 1) và K là số cỏc luật mờ trong cơ sở.

Một phần của tài liệu xây dựng hệ luật mờ mamdani từ cơ sở dữ liệu số (Trang 35 - 43)

Tải bản đầy đủ (PDF)

(61 trang)