Sơ lược về thuật giải di truyền (Genetic Algorit- 123docz.net

GAs là các giải thuật tìm kiếm các lời giải cho các bài toán thực tế sử dụng các nguyên lý lấy cảm hứng từ lý thuyết di truyền học tự nhiên [67, 68]. Ý tưởng cơ bản là tạo ra một quần thể gồm các cá thể (biểu diễn các lời giải khả thi cho bài toán cần giải) có thể tiến hóa qua quá trình đấu tranh sinh tồn và chọn lọc. GAs thường bắt đầu với một quần thể gồm các cá thể được khởi tạo một cách ngẫu nhiên và tiến hóa dần thành các cá thể tốt hơn thông qua việc áp dụng các toán tử di truyền mô phỏng theo quá trình di truyền trong tự nhiên. Quần thể sẽ tiến hóa thông qua quá trình chọn lọc tự nhiên.

Suốt quá trình lặp liên tiếp (được gọi là các thế hệ), các cá thể trong quần thể sẽ được đánh giá theo độ thích nghi của chúng và từ đó sẽ hình thành một quần thể mới thông qua cơ chế chọn lọc và các toán tử di truyền như lai ghép và đột biến. Một hàm đánh giá hay hàm thích nghi phải được xác định cho từng vấn đề cần giải quyết. Hàm đánh giá hay thích nghi sẽ trả về một số duy nhất ứng với mỗi cá thể (có thể là lời giải cho vấn đề), thể hiện sự thích nghi của cá thể với bài toán đặt ra.

Mặc dù GAs không được thiết kế đặc biệt cho máy học, nhưng vì GAs là giải thuật tìm kiếm toàn cục nên có lợi thế khi được áp dụng vào máy học. Nhiều phương pháp máy học dùng để tìm kiếm một mô hình tốt trong một không gian các mô hình, chẳng hạn như tìm một cơ sở luật tốt trong không gian các luật. Những phương pháp này có thể dùng để giải các vấn đề tìm kiếm hoặc các vấn đề tối ưu cơ bản. GAs thực hiện tìm kiếm trong không gian của mô hình bằng cách biểu diễn mỗi mô hình thành một nhiễm sắc thể (cá thể). Các cách biểu diễn khác nhau cho một nhiễm sắc thể làm cho GAs linh hoạt hơn. Quá trình học bằng giải thuật di truyền gồm các cấp độ phức tạp khác nhau tùy thuộc những thay đổi về cấu trúc của các giải thuật, từ trường hợp đơn giản nhất là tối ưu hóa các tham số đến trường hợp phức tạp nhất là học các luật của FRBSs.

 Biểu diễn di truyền (vấn đề cần giải quyết) gọi là kiểu gen (genotype) cho các giải pháp của bài toán gọi là kiểu hình (phenotype).

 Cách khởi tạo quần thể ban đầu của các giải pháp.

 Một hàm đánh giá còn gọi là hàm thích nghi (fitness function) trả về giá trị cho các nhiễm sắc thể.

 Các toán tử di truyền sửa đổi các cấu tạo di truyền của các con cháu trong quá trình sinh sản.

 Các giá trị của các tham số cần sử dụng như kích thước của quần thể, xác suất áp dụng các toán tử di truyền, v.v...

Hình 1.3 Minh họa một thuật giải GA căn bản

t := t + 1 Khởi tạo P(t=0) Đánh giá P(t) Chọn các cá thể cha mẹ từ P(t) Lai ghép các cá thể cha mẹ thành các cá thể con cháu Đột biến các cá thể con cháu

Đúng Sai

Điều kiện dừng thỏa mãn

Kết thúc Bắt đầu

Xuất Phương án/Lời giải Đưa các cá thể con cháu vào P( t + 1)

Khi xem xét các FRBSs, dựa vào cách học các luật, ta có hai cách tiếp cận sử dụng các thuật giải di truyền khác nhau trong việc mã hóa các luật của quần thể [11]:

 Phương pháp Pittsburgh: trong đó mỗi cá thể đại diện cho một tập luật [69].  Các phương pháp tiếp cận, trong đó mỗi cá thể mã hóa một luật duy nhất, và

tập luật được tạo ra bằng cách kết hợp một vài cá thể trong quần thể. Theo hướng tiếp cận này, có ba phương pháp đã được đề xuất :

 Phương pháp Michigan: trong đó mỗi cá thể được mã hóa thành một luật duy nhất. Các hệ thống thuộc loại này thường được gọi là các hệ thống học phân lớp. Các hệ thống này là các hệ thống dựa trên luật, có sử dụng học tăng cường và sử dụng GAs để học các luật chi phối các hoạt động trong một môi trường nhất định [12].

 Phương pháp IRL (Iterative Rule Learning): trong đó mỗi nhiễm sắc thể đại diện cho một luật, nhưng giải pháp cuối cùng là cá thể tốt nhất tìm được và là lời giải toàn cục được tìm ra khi thuật toán được chạy nhiều lần để tìm kiếm những cá thể tốt nhất. MOGUL [70, 71], SLAVE [72] đề xuất các phương pháp theo hướng này.

 Phương pháp "hợp tác-cạnh tranh" (The “cooperative-competitive” approach): trong đó toàn bộ hoặc một tập hợp con của quần thể tạo thành cơ sở luật. COGIN [73], REGAL [74] là những ví dụ đại diện cho hướng này.

1.4 Hệ thống dựa trên luật mờ di truyền

(Genetic Fuzzy Rule-Based Systems, GFRBSs)

Một số bài báo gần đây đã đề cập đến việc tự động tạo ra Cơ sở Tri thức (KB) từ dữ liệu số cho một FRBS bằng cách sử dụng GAs. Vấn đề mấu chốt là sử dụng một quá trình học bằng GAs để tự động hóa việc thiết kế KB và quá trình đó được xem như là một bài toán tìm kiếm tối ưu. Việc tìm kiếm một KB thích hợp cho một vấn đề (bài toán) đang quan tâm là tương đương với việc tham số hóa KB (các luật và các hàm thuộc), và tìm kiếm giá trị tối ưu của các tham số đó. Các tham số của KB tạo thành một không gian cần tối ưu hóa, sẽ được chuyển đổi thành các biểu diễn gen phù hợp để có thể thực hiện quá trình tìm kiếm trên đó.

Bước đầu tiên trong việc thiết kế một GFRBS là quyết định xem các bộ phận nào của KB cần được tối ưu bằng GAs. KB của một FRBS thường là sự kết hợp các thành phần khác nhau.

Ví dụ: KB của một FRBS theo mô hình Mamdani (xem hình 1.1) bao gồm hai thành phần:

 Cơ sở Dữ Liệu (DB): chứa định nghĩa của các hàm tỷ lệ của các biến đầu vào, đầu ra và các hàm thuộc của các tập mờ tương ứng với các nhãn ngôn ngữ.  Cơ sở Luật (RB): tập các luật mờ.

Quyết định xem thành phần nào của KB cần được tối ưu thì phụ thuộc vào hai mục tiêu mâu thuẫn nhau: kích thước của dữ liệu và tính hiệu quả của việc tìm kiếm bằng GAs. Một không gian tìm kiếm có kích thước nhỏ hơn thì sẽ dễ dàng tìm kiếm nhanh hơn và quá trình học cũng đơn giản hơn, nhưng các lời giải đạt được có thể chỉ là tối ưu cục bộ. Nếu không gian tìm kiếm gồm toàn bộ KB và dữ liệu là đầy đủ thì có nhiều khả năng chứa giải pháp tối ưu hơn, nhưng quá trình tìm kiếm có thể chậm và kém hiệu quả hơn. Với những nhận xét trên thì rõ ràng cần có một sự cân bằng giữa sự đầy đủ và kích thước của không gian tìm kiếm với tính hiệu quả của giải thuật tìm kiếm. Điều này dẫn đến các khả năng khác nhau để thiết kế GFRBSs và sẽ được xem xét chi tiết hơn trong các phần dưới đây.

Trước hết, cần phân biệt giữa việc tinh chỉnh, việc tinh giản và việc học một FRBS:

 Việc tinh chỉnh có liên quan tới việc tối ưu hóa của một FRBS hiện có, trong khi việc học liên quan tới phương pháp thiết kế tự động ngay từ đầu các luật mờ. Quá trình tinh chỉnh giả định rằng RB đã được xác định trước và mục tiêu là tìm kiếm một tập hợp các tham số tối ưu của DB cho các hàm thuộc và/hoặc hàm tỷ lệ (Hình 1.5).

 Quá trình học tập thực hiện tìm kiếm phức tạp trong không gian các cơ sở luật (RB) hoặc toàn bộ Cơ sở Tri thức (KB).

Hình 1.4 minh họa một phương pháp dùng GAs để xây dựng FRBS, gọi là phương pháp Pittsburgh. Trong phương pháp này, người ta sử dụng một hệ thống phát sinh ra các cơ sở luật (RB) để khởi tạo một quần thể ban đầu để có thể áp dụng

GAs. Các RB này sẽ lần lượt được đánh giá bởi một hệ thống đánh gía nhờ đầu vào từ môi trường và kết quả thực thi của đầu ra trong môi trường thực tế. Quá trình này được thực hiện bằng GAs qua nhiều thế hệ của các RB. Kết quả cuối cùng là một RB tối ưu cần tìm, cũng từ đó ta có được FRBS tối ưu cho bài toán. Một nhược điểm của phương pháp này là chi phí thời gian sẽ nhiều khi không gian tìm kiếm của bài toán lớn.

Quần thể các cơ sở luật Cơ sở luật Cơ sở luật Cơ sở luật Cơ sở Luật Bộ suy diễn Sự kiện Đầu ra Đầu vào HỆ THỐNG DỰA TRÊN LUẬT MỜ Hệ thống phát sinh các RB Hệ thống đánh giá Môi trường Tri thức Hành động Phản hồi Đánh giá RB RB cần đánh giá Quy trình tinh chỉnh Mô-đun đánh giá (DB) DB RB (đã xác định trước)

Hình 1.4. Học theo phương pháp tiếp cận Pittsburgh.

Hình 1.6 minh họa một phương pháp khác dùng GAs để xây dựng FRBS, gọi là phương pháp Michigan. Trong phương pháp này, người ta sử dụng một cơ chế tạo một cơ sở luật (RB) và một hệ thống phân phối độ tin cậy cho các luật dựa trên cơ chế thưởng phạt và thông tin đầu ra so với môi trường. RB sẽ tiến hóa qua nhiều thế hệ bằng Gas để đạt một RB tối ưu cuối cùng, cũng từ đó ta có được FRBS tối ưu cho bài toán. Phương pháp Michigan thường dùng để giải các bài toán phân lớp dữ liệu.

1.4.1. Tinh chỉnh bằng GAs

Tinh chỉnh các hàm tỷ lệ và hàm thuộc mờ là một nhiệm vụ quan trọng trong thiết kế FRBSs. Hàm tỷ lệ và hàm thuộc được tinh chỉnh bởi GAs theo một hàm thích nghi (hàm fitness) đã được xác định trước. Như đã nói ở trên, quá trình tinh chỉnh giả định rằng RB đã được xác định và mục tiêu là tìm kiếm một tập hợp các tham số tối ưu cho các thuộc và/hoặc các hàm tỷ lệ (Hình 1.5).

1.4.2. Tinh chỉnh hàm tỷ lệ

Hệ thống phân phối độ tin cậy Cơ chế tạo luật

Môi Trường Tri thức Hành động Thưởng phạt Luật Base Bộ suy diễn Engine Các sự kiện Đầu ra Interface Đầu vào Interface HỆ THỐNG DỰA TRÊN LUẬT MỜ HỆ THỐNG PHÂN LỚP MỜ

Hàm tỷ lệ được áp dụng cho các biến đầu vào và đầu ra của FRBSs để chuẩn hóa miền xác định, miền giá trị. Thông thường, các hàm tỷ lệ gồm một tham số đơn [75] hoặc là gồm hai tham số, một cận trên và một cận dưới [76] trong trường hợp tuyến tính, hoặc gồm một số tham số co/giãn trong trường hợp không tuyến tính [77, 78]. Cách tiếp cận thông thường là tinh chỉnh từ một đến bốn tham số (được định nghĩa trong hàm tỷ lệ) cho mỗi biến: một tham số trong hàm tỷ lệ đơn, hai tham số trong hàm tỷ lệ tuyến tính, và từ ba hoặc bốn tham số trong hàm tỷ lệ phi tuyến. Hầu hết các công trình nghiên cứu đều xem xét việc mã hóa bằng số thực các tham số của hàm tỷ lệ, nhưng cũng có thể sử dụng mã nhị phân, như trong [75], ba bit nhị phân biểu diễn một tham số của mỗi hàm tỷ lệ được sử dụng. Do số lượng các biến, cũng như số lượng các tham số đã được xác định nên cách tiếp cận này sẽ cần một số lượng bit cố định để mã hóa.

1.4.3. Tinh chỉnh hàm thuộc

Khi tinh chỉnh hàm thuộc, một cá thể được sử dụng để biểu diễn toàn bộ DB với tư cách là một nhiễm sắc thể mã hóa các hàm thuộc (tương ứng với các nhãn ngôn ngữ trong mỗi phân vùng mờ của FRBS). Các dạng phổ biến nhất cho các hàm thuộc (trong GFRBSs) là hình tam giác cân trong [78, 79] hoặc không cân trong [58, 80], hình thang [81, 82], hàm Gauss [83, 84]. Số lượng các tham số cho mỗi hàm thuộc thường dao động từ một đến bốn, mỗi tham số là có thể được mã hóa thành số nhị phân [85] hoặc số thực [86].

Cấu trúc của nhiễm sắc thể sẽ khác nhau tùy thuộc vào FRBSs đó sử dụng các biến ngôn ngữ (mô hình ngôn ngữ) hoặc sử dụng các biến mờ (mô hình xấp xỉ). Khi tinh chỉnh các hàm thuộc trong một mô hình ngôn ngữ [58], toàn bộ các phân vùng mờ được mã hóa thành nhiễm sắc thể và được tinh chỉnh sao cho vẫn duy trì ngữ nghĩa trong RB. Những cách tiếp cận này thường xem xét một số lượng các nhãn ngôn ngữ được định trước cho mỗi biến (không cần phải là giống nhau cho tất cả các biến). Điều này dẫn đến việc mã hóa hàm thuộc với chiều dài mã cố định. Nhưng ngay cả với chiều dài mã cố định, thì số lượng nhãn ngôn ngữ liên quan đến mỗi biến vẫn có thể khác nhau, bằng cách đơn giản là định nghĩa số lượng tối đa chiều dài của

mã này. Đây là quan niệm của [87] khi thiết kế một hệ thống TSK (đã đề cập ở mục 1.2.3.2) với các biến đầu vào ngôn ngữ.

1.4.4. Học Cơ sở luật bằng GAs

Việc học RB thường giả định rằng tập các hàm thuộc trong DB đã được xác định trước. Các hàm này tương ứng với các nhãn ngôn ngữ liên kết với các luật mờ trong RB (Hình 1.7). Điều này chỉ áp dụng cho FRBSs theo mô hình ngôn ngữ, trong mô hình xấp xỉ, tinh chỉnh các luật tương đương với việc hiệu chỉnh các hàm thuộc (xem phần tiếp theo).

Ba phương pháp học được mô tả trong phần trước có thể được xem xét để học RB: phương pháp Michigan [88, 89, 90], phương pháp Pittsburgh [91, 92, 93], và phương pháp học lặp [58, 70, 72]. RB có thể được biểu diễn bởi một ma trận quan hệ [93], một bảng quyết định [92], hoặc một danh sách các luật [91, 94, 95].

Các biểu diễn bằng ma trận quan hệ và bảng quyết định chỉ hữu ích khi hệ thống đã được rút gọn số lượng của các biến, vì khi có hơn hai hoặc ba biến đầu vào thì có thể sẽ dẫn đến sự cố là kích thước bộ nhớ không còn đủ. Do đó các phương pháp Pittsburgh có thể quản lý theo một mã khối. Biểu diễn bằng danh sách các luật được sử dụng nhiều nhất, áp dụng các mã hóa khác nhau cho các luật riêng biệt, và có thể được tinh chỉnh với ba phương pháp học đã đề cập ở trên. Thường thì số lượng các luật trong danh sách thay đổi nhưng trong một số trường hợp, số lượng này sẽ được chặn trên. Một cách tiếp cận phổ biến để mã hóa các luật là sử dụng dạng nối rời chính tắc (DNF) biểu diễn trong các hình thức của một chuỗi nhị phân chiều dài cố định [54, 72, 95]. Để biểu diễn cấu trúc của một danh sách các luật, một nhiễm sắc thể có thể được tạo ra bằng cách nối các mã của các luật riêng biệt. Trong cách tiếp cận Pittsburgh, mỗi nhiễm sắc thể mã hóa một Cơ sở luật RB hoặc trong cách tiếp cận Michigan, mỗi nhiễm sắc thể sẽ mã hóa một luật duy nhất.

Hình 1.9. Quy trình học RB, sau đó học DB. Quy trình học Mô-đun đánh giá (RB) RB DB (đã xác định trước) Qui trình học 1 Mô-đun đánh giá (RB) RB DB(đã xác định trước) Qui trình học 2 PROCE Mô-đun đánh giá (DB) DB RB ed Chiều dài cố định (Số các biến đầu vào và đầu ra)

Biến đầu vào thứ 1 Biến đầu ra cuối cùng

Giá trị ……… Giá trị

Biến , Giá trị ……… Biến , Giá trị Chiều dài thay đổi

Id của biến

Mã của nhãn ngôn ngữ Mã nhị phân của DNF Các tham số của tập mờ

Hình 1.7. Sơ đồ quy trình học RB.

Hình 1.10. Sơ đồ quy trình học KB.

Các luật bao gồm các mệnh đề của các biến dạng giá trị, trong đó biến có thể được xác định bởi vị trí hoặc nhãn (tên biến), và giá trị có thể có các dạng khác nhau (Hình 1.8). Khi sử dụng một mã vị trí (Hình 1.8, hàng đầu), các thông tin (giá trị) liên quan đến biến đó là vị trí của biến đó. Khi sử dụng mã phi-vị trí (Hình 1.8, hàng cuối), mã của một luật bao gồm các cặp (tên biến, giá trị). Trong cả hai trường hợp, mã vị trí và mã phi-vị trí, nội dung của phần giá trị có thể là: nhãn của một từ ngôn ngữ (của biến ngôn ngữ), mã nhị phân của một cấu trúc DNF (của biến ngôn ngữ), tham số xác định tập mờ (biến mờ) hoặc các giá trị thực (các hệ số) của đầu ra tuyến tính (đầu ra biến của các luật theo mô hình TSK).

Ngoài việc học RB, cách tiếp cận khác nhằm hoàn thiện DB ban đầu sau khi RB

Sơ lược về thuật giải di truyền (Genetic Algorithms, GAs)

Động cơ nghiên cứu