1. GA lập luận mang tớnh chất ngẫu nhiờn (stochastic), thay vỡ xỏc định
20
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
2. GA duyệt xột toàn bộ cỏc giải phỏp, sau đú chọn lấy giải phỏp tƣơng đối tốt nhất dựa trờn hệ số thớch nghi.
3. GA khụng để ý đến chi tiết vấn đề, trỏi lại chỉ chỳ ý đến giải phỏp đặc biệt là dóy số tƣợng trƣng cho giải phỏp.
4. GA rất thớch hợp cho việc tỡm kiếm giải phỏp cho vấn đề hay tỡm điều kiện tối ƣu cho việc điều hành, và phõn nhúm những giải phỏp cú đƣợc.
1.2.3. Cỏc bước quan trọng trong việc ỏp dụng giải thuật di truyền
Để giải quyết vấn đề bằng thuật giải di truyền chỳng ta cần thực hiện cỏc bƣớc sau:
Bƣớc 1: Chọn mụ hỡnh cho giải phỏp của vấn đề: Chọn một số tƣợng trƣng cho toàn bộ cỏc giải phỏp cú thể cú cho vấn đề.
Bƣớc 2: Chỉ định cho mỗi giải phỏp một mó. Mó cú thể là dóy của những số 1 và 0 thuộc hệ nhị phõn hay dóy số thập phõn, dóy của chữ hay dóy hỗn hợp của số và chữ. Trong giai đoạn mới làm quen với GA, chỉ nờn dựng hệ nhị phõn để làm mó cho giải phỏp.
Bƣớc 3: Tỡm hàm số thớch nghi cho vần đề và tớnh hệ số thớch nghi cho từng giải phỏp.
Bƣớc 4: Dựa trờn hệ số thớch nghi của cỏc giải phỏp để thực hiện sự tạo sinh
(reproduction) và biến hoỏ cỏc giải phỏp. Cỏc phƣơng thức biến hoỏ gồm: lai
ghộp (cross over), đột biến (mutation).
Bƣớc 5: Tớnh cỏc hệ số thớch nghi cho cỏc giải phỏp mới và loại bỏ những giải phỏp kộm nhất để chỉ cũn giữ lại một số nhất định cỏc giải phỏp.
Bƣớc 6: Nếu chƣa tỡm đƣợc giải phỏp tối ƣu hay tƣơng đối khỏ nhất hay chƣa hết hạn kỳ ấn định, trở lại bƣớc thứ tƣ để tỡm giải phỏp mới.
Bƣớc 7: Tỡm đƣợc giải phỏp tối ƣu hoặc nếu thời gian cho phộp đó chấm dứt thỡ bỏo cỏo kết quả tớnh đƣợc.
1.2.4. Cỏc phương thức biến hoỏ của giải thuật di truyền
Ba phƣơng thức sau dựng để biến hoỏ: - Tạo sinh (reproduction)
21
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
- Lai ghộp (cross over)
- Đột biến (mutation).
a. Tạo sinh: Tạo sinh là dựng những thành phần của thế hệ trƣớc để tạo thờm thành phần của thế hệ sau. Vậy thành phần nào sẽ đƣợc chọn cho việc tạo sinh? Cũng giống nhƣ trong thiờn nhiờn, những thành phần nào cú hệ số thớch nghi lớn hơn sẽ cú cơ hội đƣợc chọn để thực hiện việc tạo sinh.
b. Lai ghộp: Cỏc vớ dụ dƣới đõy thể hiện cỏc hỡnh thức của lai ghộp:
Vớ dụ 2.1:
Trƣớc khi lai ghộp 1001110(A) 0100011(B)
Sau khi lai ghộp tại vị trớ giữa số thứ 3 và thứ 4, chỳng ta sẽ cú: (A)1001 110 0100 011 (B’) (B)0100 011 1001 110 (A’) Vớ dụ 2.2: Trƣớc khi lai ghộp 1001110(A) 0100011(B)
Sau khi lai ghộp tại vị trớ giữa số thứ 4 và thứ 5, chỳng ta sẽ cú: (A)100 1110 010 1110 (B’’) (B) 010 0011 100 0011 (A’’) Vớ dụ 2.3: Trƣớc khi lai ghộp 1001110(A) 0100011(B)
Sau khi lai ghộp tại vị trớ giữa số thứ 2 và 3, giữa số thứ 5 và thứ 6 : (A)10 01110 01 01110 (B’’’)
22
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
c. Đột biến: Là việc thay đổi trị số của một số trong dóy số, thớ dụ 0 thành 1 hoặc 1 thành 0, cho trƣờng hợp dựng dóy số theo nhị phõn. So với lai ghộp phƣơng thức biến hoỏ dựa trờn đột biến rất ớt xảy ra. Theo kết quả nghiờn cứa của Kenneth De Jong thỡ tỷ lệ lai ghộp trung bỡnh là 0.6 trong khi tỷ lệ đột biến là 0.001, phần cũn lại 0.399 là tạo sinh.
Lai ghộp dựng lại những tin tức cú sẵn trong cỏc thành phần của thế hệ trƣớc và truyền lại cho thế hệ sau; trong khi đú đột biến tạo ra những tin tức hoàn toàn mới.
Vớ dụ về đột biến:
Vớ dụ 2.4:
11011 sẽ đƣợc biến đổi thành 110010, trong đú số 1 ở hàng cuối (tớnh từ trỏi) đó đƣợc đổi thành 0.
Vớ dụ 2.5:
11011 sẽ đƣợc biến đổi thành 110010, trong đú số 0 ở hàng thứ tƣ (tớnh từ trỏi) đó đƣợc đổi thành 1.
23
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
Chƣơng 2:
GIẢI BÀI TOÁN XÂY DỰNG HỆ LUẬT MỜ THEO CÁCH TIẾP CẬN CỦA Lí THUYẾT TẬP MỜ. ỨNG
DỤNG VÀO BÀI TOÁN HỒI QUY MỜ
2.1. Bài toỏn trớch chọn luật mờ từ cơ sở dữ liệu
Nhƣ đó núi ở phần trờn, lý thuyết tập mờ hiện đang ứng dụng rộng rói trong nhiều lĩnh vực khoa học cũng nhƣ kinh tế, xó hội, đặc biệt trong cỏc lĩnh vực cú liờn quan lập luận cú yếu tố con ngƣời tham gia nhƣ những hệ thống điều khiển mờ, hệ chuyờn gia, hệ hỗ trợ quyết định... Trong cỏc hệ thống nhƣ vậy, tri thức cú sẵn nhƣ kiểu kinh nghiệm của chuyờn gia đúng vai trũ cực kỳ quan trọng. Trƣớc kia, những tri thức nhƣ vậy thƣờng do cỏc chuyờn gia tự đỳc kết thành cỏc dạng quy tắc. Nhƣng đú là một cụng việc khú khăn vỡ nhiều lớ do. Trƣớc hết, cú những kinh nghiệm chớnh cỏc chuyờn gia cũng khụng thể diễn đạt bằng lời một cỏch tƣơng đối chớnh xỏc (chẳng hạn nờn điều chỉnh giú nhƣ thế nào trong lũ nung gốm tại thời điểm nào đú). Sau nữa, thời gian chuyờn gia dành cho cụng việc đỳc kết kinh nghiệm thƣờng là rất eo hẹp. Cuối cựng, việc biểu diễn cỏc kiến thức của chuyờn gia ở dạng mỏy tớnh xử lý đƣợc cũng thƣờng là khỏ khú khăn. Gần đõy, cựng với sự ra đời cỏc lĩnh vực nghiờn cứu khai phỏ tri thức núi chung, khai phỏ dữ liệu núi riờng, cú thể tiến hành thu thập tri thức này một cỏch tƣơng đối tự động từ cỏc kho thụng tin khổng lồ lƣu giữ đƣợc trong cỏc hệ thống thụng tin. Luận văn này cú nội dung nằm trong hƣớng nghiờn cứu núi trờn, cụ thể là giải bài toỏn hồi quy mờ dựa trờn cơ sở xõy dựng một siờu mặt xấp xỉ từ một Cơ sở dữ liệu (CSDL) số cho trƣớc. Siờu mặt xấp xỉ đƣợc biểu diễn dƣới dạng một hệ cỏc luật mờ Mamdani. Bài toỏn sẽ đƣợc trỡnh bày chi tiết ở phần sau. Trƣớc hết, tỏc giả trỡnh bày mục đớch và phƣơng phỏp chuyển đổi một CSDL số sang CSDL mờ - bƣớc khởi đầu quan trọng và cần thiết cho việc xõy dựng hệ luật mờ. Tiếp theo, để thấy tầm quan trọng của việc xõy dựng hệ luật mờ (Mamdani) –
24
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
mục tiờu chớnh của luận văn, tỏc giả giới thiệu một vài bài toỏn cú cựng một phƣơng phỏp giải là xõy dựng hệ luật mờ nhƣ vậy từ một CSDL số cho trƣớc.
2.1.1. Chuyển đổi CSDL số sang CSDL mờ: mục đớch và phương phỏp giải.
Về tổng thể, bài toỏn về khai phỏ dữ liệu đặt ra là cho trƣớc một Cơ sở dữ liệu (thƣờng là CSDL số, tức cỏc giỏ trị của CSDL là cỏc số thực), từ đú, bằng cỏc phƣơng phỏp xử lý nhất định, rỳt ra một hệ tri thức phản ỏnh cỏc quy luật ngầm chứa trong CSDL số này. Cỏc quy luật này cú thể biểu diễn dƣới dạng hệ luật IF X is A and Y is B THEN Z is C, trong đú X, Y, Z là cỏc biến mờ (thƣờng là cỏc biến ngụn ngữ), A, B, C là cỏc giỏ trị biến ngụn ngữ (thƣờng là cỏc tập mờ). Thớ dụ luật IF đường là xa và tốc độ di chuyển là trung bỡnh THEN thời gian đến đớch sẽ là lõu. Để cú thể sinh ra những luật nhƣ vậy, đầu tiờn ta phải chuyển húa miền giỏ trị của cỏc thuộc tớnh “khoảng cỏch”, “tốc độ”, “thời gian” thành cỏc miền mờ, hay núi cỏch khỏc là chia miền giỏ trị đú thành cỏc miền mờ cho cỏc bƣớc xử lý tiếp theo. Chẳng hạn, cú thể chia miền giỏ trị thuộc tớnh độ dài (cú cỏc giỏ trị min, max tƣơng ứng chẳng hạn là 0km, 200km) thành cỏc miền mờ “gần” (0km- 50km), “trung bỡnh” (51km-100km), “xa” (100km-200km). Trong lý thuyết tập mờ, mỗi miền mờ nhƣ vậy đƣợc coi là một tập mờ và ứng với một hàm thuộc (membership function - MF) nhằm xỏc định độ “thuộc” của giỏ trị biến vào tập mờ đó cho. Khi đú, một giỏ trị của một thuộc tớnh CSDL sẽ ứng với một tập cỏc giỏ trị của cỏc hàm thuộc ứng với cỏc tập mờ của thuộc tớnh đú và ta sẽ xử lý tập giỏ trị độ thuộc này thay cho xử lý bản thõn giỏ trị đú của CSDL. Phƣơng phỏp tiếp cận theo lý thuyết tập mờ cho ta một cỏch xử lý dữ liệu khỏ mềm dẻo, nhanh chúng so với cỏc phƣơng phỏp xử lý số cổ điển. Tuy vậy, vẫn cũn nhiều vấn đề đặt ra nhƣ việc phõn chia cỏc miền mờ thế nào cho hợp lý, làm sao xõy dựng đƣợc cỏc hàm thuộc nhanh chúng, phự hợp và cỏch xử lý cỏc hàm thuộc này thế nào để giữ đƣợc ngữ nghĩa gắn với chỳng...
2.1.2. Bài toỏn hồi quy mờ
Phõn tớch hồi quy là một bài toỏn cổ điển đó đƣợc nghiờn cứu từ lõu. Bản chất ban đầu của phõn tớch hồi quy là một phõn tớch thống kờ để xỏc định xem
25
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
cỏc biến độc lập quy định cỏc biến phụ thuộc nhƣ thế nào, qua đú căn cứ vào dữ liệu đầu vào dự đoỏn số liệu đầu ra tƣơng ứng nhằm phục vụ cho cỏc yờu cầu về quản lý, lờn kế hoạch...
Dạng đơn giản nhất của mụ hỡnh hồi quy chứa một biến phụ thuộc Y và một biến độc lập đơn X. Vớ dụ sự phụ thuộc của huyết ỏp Y theo tuổi tỏc X của một ngƣời hay sự phụ thuộc của tỉ lệ sinh của dõn số Y theo cỏc biện phỏp trỏnh thai đƣợc ỏp dụng X. Sự phụ thuộc này đƣợc gọi là hồi quy của Y lờn X. Cú hồi quy tuyến tớnh, hồi quy lụgic, hồi quy Poisson, học cú giỏm sỏt..., trong đú hồi quy tuyến tớnh là mụ hỡnh đƣợc nghiờn cứu nhiều vỡ khỏ phổ biến trong thực tế. Mụ hỡnh hồi quy tuyến tớnh cú dạng
yi = β0+β1xi1+...+βkxik+ xi i=1,..,n
trong đú yi là cỏc biến phụ thuộc, xik là cỏc biến độc lập, βi là tham số thực và xi là sai số của mụ hỡnh, với giả thiết xi là biến số theo luật phõn bố chuẩn với trung bỡnh E(xi) = 0 và phƣơng sai σ2
.
Để xỏc định cỏc giỏ trị βi và xi, ngƣời ta căn cứ vào cỏc số liệu quan sỏt và giải bài toỏn tối ƣu, cụ thể là cực tiểu húa sai số giữa số liệu thật và số liệu ƣớc lƣợng của mụ hỡnh. Mặc dự đó cú những kết quả trong nhiều ứng dụng khỏc nhau, mụ hỡnh hồi quy cổ điển vẫn cũn những tồn tại cần khắc phục. Đú là:
Mụ hỡnh đũi hỏi số lƣợng mẫu quan sỏt đủ lớn
Thụng thƣờng sẽ gặp khú khăn với giả thiết phõn bố
Sai số gặp phải khi đo đạc làm ảnh hƣởng lớn đến độ chuẩn của mụ hỡnh.
Sự khụng chớnh xỏc hay biến dạng do ta tuyến tớnh húa mụ hỡnh.
Trong nhiều trƣờng hợp, ta chỉ cú dữ liệu đầu vào là yếu tố kinh nghiệm của cỏc chuyờn gia, biểu thị qua cỏc đỏnh giỏ cú chất định tớnh, khụng phải định lƣợng.
26
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
Để khắc phục những nhƣợc điểm trờn, nhất là khi khụng cú đủ dữ liệu mẫu quan sỏt đƣợc (thƣờng cũng dẫn đến việc khú xỏc định đƣợc phõn bố thống kờ), ngƣời ta đó sử dụng mụ hỡnh hồi quy mờ, cú dạng:
Ỹ = y0 + y1x1 +.. + ynxn
ở đú Ỹ là đầu ra mờ, yi là cỏc hệ số mờ, (x1, x2, .., xn) vector n-chiều đầu vào số thực. Cỏc phƣơng phỏp giải bài toỏn hồi quy mờ dạng này thƣờng là cỏc phƣơng phỏp khụng phụ thuộc vào phõn bố xỏc suất của dữ liệu (distribution free method), cú thể làm việc đƣợc với số lƣợng mẫu nhỏ. Cú thể kể đến k-NN method (k ngƣời lỏng giềng gần nhất), Kernel method (hạt nhõn), Median smoothing (làm mịn trung bỡnh).. Tƣ tƣởng cơ bản của cỏc thuật toỏn loại này là tớnh toỏn cỏc hệ số mờ yi đƣợc giả thiết cú dạng tam giỏc với một nhỏt cắt α nào đú .
Những năm gần đõy, ngƣời ta thấy rằng mụ hỡnh hồi quy mờ nhƣ trờn cần phỏt triển để đỏp ứng nhu cầu khai phỏ dữ liệu trờn cỏc cơ sở dữ liệu ngày một lớn mà ngƣời ta tớch trữ đƣợc. Trƣớc hết, mụ hỡnh nhƣ trờn cũn tƣơng đối đơn giản, khụng phản ỏnh đƣợc cỏc mối quan hệ phức tạp của dữ liệu. Sau nữa, mụ hỡnh trờn ớt cú tớnh “thõn thiện” với con ngƣời vỡ là một mụ hỡnh toỏn học thuần tỳy. Thứ nữa, tuy chƣa phản ỏnh đƣợc nhiều mối quan hệ phức tạp của dữ liệu nhƣ sự phụ thuộc của 1 biến phụ thuộc vào nhiều biến độc lập, nhƣng việc tớnh toỏn trờn cỏc hàm thuộc (thụng qua nhỏt cắt α) lại ẩn chứa sự phức tạp nhất định cộng với sai số cú thể là lớn của mụ hỡnh. Cuối cựng, trong trƣờng hợp đầu vào là dữ liệu mang chất định tớnh, mụ hỡnh sẽ gặp phải khú khăn trong việc chuyển đổi sang số liệu định lƣợng. Trong cỏc nghiờn cứu gần nhất về mụ hỡnh hồi quy mờ, cỏc nhà nghiờn cứu tập trung sử dụng hệ mờ dựa trờn luật (fuzzy rule-base system - FRBS) Mamdani nhƣ là một hệ để xấp xỉ một đƣờng cong hợp lý.
Giả sử X = {X1,..., Xf,..., XF} là tập cỏc biến ngụn ngữ đầu vào và XF+1 là biến đầu ra. Giả sử Uf, với f = 1,..., F+1 là miền xỏc định của biến thứ f . Giả sử Pf= { } là một phõn hoạch mờ của Tf tập mờ trờn biến Xf . Hệ luật mờ Mamdani bao gồm M luật cú dạng
27
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
m = 1, ..., M
Nhƣ vậy, MFRBS cú đặc điểm khỏc cỏc mụ hỡnh khỏc là cỏc biến đầu vào và ra đều là mờ dƣới dạng từ của ngụn ngữ tự nhiờn. Đặc điểm này mang lại tớnh “thõn thiện” với con ngƣời vỡ suy luận trờn cỏc từ của ngụn ngữ tự nhiờn là đặc điểm của con ngƣời. Cỏc luật cũng đƣợc biểu diễn dƣới dạng quen thuộc với suy nghĩ và lập luận của con ngƣời. Hiện tại MFRBS đƣợc nghiờn cứu sử dụng rộng rói trong nghiờn cứu ở cỏc lĩnh vực điều khiển tự động, khai phỏ dữ liệu... Bài toỏn hồi quy mờ sử dụng MFRBS đƣợc giải quyết cơ bản theo cỏc bƣớc nhƣ sau:
1) Xỏc định một phõn hoạch biến đầu vào Xf thành Tf tập mờ . Vớ dụ biến ngụn ngữ “Tuổi” cú thể đƣợc phõn thành 4 tập mờ “trẻ”, “khỏ trẻ”, “trung niờn” và “già”.
2) Xỏc định cỏc hàm thuộc tƣơng ứng với cỏc tập mờ núi trờn.
3) Chuyển đổi số liệu từ CSDL mẫu thành cỏc giỏ trị biến ngụn ngữ tƣơng ứng. Vớ dụ căn cứ vào cỏc hàm thuộc đó xỏc định, tuổi 27 cú thể chuyển đổi thành “khỏ trẻ” với độ thuộc 0,8.
4) Từ dữ liệu chuyển đổi xỏc định một tập luật ban đầu, mỗi luật cú dạng (1). 5) Tiến hành rỳt gọn tập luật theo cỏc quy tắc heuristic để cú đƣợc tập luật
cuối cựng, đảm bảo tớnh đơn giản nhƣng cú độ chớnh xỏc tốt. Thớ dụ nếu 2 luật gần giống nhau (theo cỏc tiờu chuẩn nào đú) thỡ cú thể gộp lại. Hoặc cỏc thuộc tớnh ớt ảnh hƣởng (cũng theo tiờu chuẩn đỏnh giỏ nào đú) cú thẻ loại bỏ khỏi luật...
6) Trờn cơ sở hệ (1), với một giỏ trị đầu vào, cú thể nội suy ra giỏ trị đầu ra tƣơng ứng sử dụng mạng nơron và giải thuật di truyền.
Hiện nay, cỏc thuật toỏn liờn quan đến việc giải bài toỏn hồi quy mờ dựa trờn MFRBS đƣợc liờn tục nghiờn cứu phỏt triển, chủ yếu để cải thiện thời gian tớnh toỏn trờn cơ sở vẫn đảm bảo sai số thấp với những CSDL cỡ rất lớn. Thuật toỏn đƣợc nhắc đến nhiều nhất là thuật toỏn tiến húa đa mục tiờu (multi-objective evolutionary method), kết hợp đồng thời việc phõn hoạch tối ƣu cỏc tập mờ và
28
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
sinh hệ luật trờn cỏc tập mẫu rỳt gọn (theo cỏc tiờu chớ khỏc nhau), giảm đƣợc khối lƣợng tớnh toỏn đỏng kể trong khi vẫn đảm bảo sai số mụ hỡnh khụng cao.
2.2. Xõy dựng hệ luật mờ từ CSDL - nhúm giải phỏp 2 giai doạn.
Cú thể thấy, trong lý thuyết tập mờ, việc xỏc định hàm thuộc là yếu tố gần