Tinh chỉnh bằng GAs - Tinh giản các luật trong hệ- 123docz.net

Tinh chỉnh các hàm tỷ lệ và hàm thuộc mờ là một nhiệm vụ quan trọng trong thiết kế FRBSs. Hàm tỷ lệ và hàm thuộc được tinh chỉnh bởi GAs theo một hàm thích nghi (hàm fitness) đã được xác định trước. Như đã nói ở trên, quá trình tinh chỉnh giả định rằng RB đã được xác định và mục tiêu là tìm kiếm một tập hợp các tham số tối ưu cho các thuộc và/hoặc các hàm tỷ lệ (Hình 1.5).

1.4.2. Tinh chỉnh hàm tỷ lệ

Hệ thống phân phối độ tin cậy Cơ chế tạo luật

Môi Trường Tri thức Hành động Thưởng phạt Luật Base Bộ suy diễn Engine Các sự kiện Đầu ra Interface Đầu vào Interface HỆ THỐNG DỰA TRÊN LUẬT MỜ HỆ THỐNG PHÂN LỚP MỜ

Hàm tỷ lệ được áp dụng cho các biến đầu vào và đầu ra của FRBSs để chuẩn hóa miền xác định, miền giá trị. Thông thường, các hàm tỷ lệ gồm một tham số đơn [75] hoặc là gồm hai tham số, một cận trên và một cận dưới [76] trong trường hợp tuyến tính, hoặc gồm một số tham số co/giãn trong trường hợp không tuyến tính [77, 78]. Cách tiếp cận thông thường là tinh chỉnh từ một đến bốn tham số (được định nghĩa trong hàm tỷ lệ) cho mỗi biến: một tham số trong hàm tỷ lệ đơn, hai tham số trong hàm tỷ lệ tuyến tính, và từ ba hoặc bốn tham số trong hàm tỷ lệ phi tuyến. Hầu hết các công trình nghiên cứu đều xem xét việc mã hóa bằng số thực các tham số của hàm tỷ lệ, nhưng cũng có thể sử dụng mã nhị phân, như trong [75], ba bit nhị phân biểu diễn một tham số của mỗi hàm tỷ lệ được sử dụng. Do số lượng các biến, cũng như số lượng các tham số đã được xác định nên cách tiếp cận này sẽ cần một số lượng bit cố định để mã hóa.

1.4.3. Tinh chỉnh hàm thuộc

Khi tinh chỉnh hàm thuộc, một cá thể được sử dụng để biểu diễn toàn bộ DB với tư cách là một nhiễm sắc thể mã hóa các hàm thuộc (tương ứng với các nhãn ngôn ngữ trong mỗi phân vùng mờ của FRBS). Các dạng phổ biến nhất cho các hàm thuộc (trong GFRBSs) là hình tam giác cân trong [78, 79] hoặc không cân trong [58, 80], hình thang [81, 82], hàm Gauss [83, 84]. Số lượng các tham số cho mỗi hàm thuộc thường dao động từ một đến bốn, mỗi tham số là có thể được mã hóa thành số nhị phân [85] hoặc số thực [86].

Cấu trúc của nhiễm sắc thể sẽ khác nhau tùy thuộc vào FRBSs đó sử dụng các biến ngôn ngữ (mô hình ngôn ngữ) hoặc sử dụng các biến mờ (mô hình xấp xỉ). Khi tinh chỉnh các hàm thuộc trong một mô hình ngôn ngữ [58], toàn bộ các phân vùng mờ được mã hóa thành nhiễm sắc thể và được tinh chỉnh sao cho vẫn duy trì ngữ nghĩa trong RB. Những cách tiếp cận này thường xem xét một số lượng các nhãn ngôn ngữ được định trước cho mỗi biến (không cần phải là giống nhau cho tất cả các biến). Điều này dẫn đến việc mã hóa hàm thuộc với chiều dài mã cố định. Nhưng ngay cả với chiều dài mã cố định, thì số lượng nhãn ngôn ngữ liên quan đến mỗi biến vẫn có thể khác nhau, bằng cách đơn giản là định nghĩa số lượng tối đa chiều dài của

mã này. Đây là quan niệm của [87] khi thiết kế một hệ thống TSK (đã đề cập ở mục 1.2.3.2) với các biến đầu vào ngôn ngữ.

1.4.4. Học Cơ sở luật bằng GAs

Việc học RB thường giả định rằng tập các hàm thuộc trong DB đã được xác định trước. Các hàm này tương ứng với các nhãn ngôn ngữ liên kết với các luật mờ trong RB (Hình 1.7). Điều này chỉ áp dụng cho FRBSs theo mô hình ngôn ngữ, trong mô hình xấp xỉ, tinh chỉnh các luật tương đương với việc hiệu chỉnh các hàm thuộc (xem phần tiếp theo).

Ba phương pháp học được mô tả trong phần trước có thể được xem xét để học RB: phương pháp Michigan [88, 89, 90], phương pháp Pittsburgh [91, 92, 93], và phương pháp học lặp [58, 70, 72]. RB có thể được biểu diễn bởi một ma trận quan hệ [93], một bảng quyết định [92], hoặc một danh sách các luật [91, 94, 95].

Các biểu diễn bằng ma trận quan hệ và bảng quyết định chỉ hữu ích khi hệ thống đã được rút gọn số lượng của các biến, vì khi có hơn hai hoặc ba biến đầu vào thì có thể sẽ dẫn đến sự cố là kích thước bộ nhớ không còn đủ. Do đó các phương pháp Pittsburgh có thể quản lý theo một mã khối. Biểu diễn bằng danh sách các luật được sử dụng nhiều nhất, áp dụng các mã hóa khác nhau cho các luật riêng biệt, và có thể được tinh chỉnh với ba phương pháp học đã đề cập ở trên. Thường thì số lượng các luật trong danh sách thay đổi nhưng trong một số trường hợp, số lượng này sẽ được chặn trên. Một cách tiếp cận phổ biến để mã hóa các luật là sử dụng dạng nối rời chính tắc (DNF) biểu diễn trong các hình thức của một chuỗi nhị phân chiều dài cố định [54, 72, 95]. Để biểu diễn cấu trúc của một danh sách các luật, một nhiễm sắc thể có thể được tạo ra bằng cách nối các mã của các luật riêng biệt. Trong cách tiếp cận Pittsburgh, mỗi nhiễm sắc thể mã hóa một Cơ sở luật RB hoặc trong cách tiếp cận Michigan, mỗi nhiễm sắc thể sẽ mã hóa một luật duy nhất.

Hình 1.9. Quy trình học RB, sau đó học DB. Quy trình học Mô-đun đánh giá (RB) RB DB (đã xác định trước) Qui trình học 1 Mô-đun đánh giá (RB) RB DB(đã xác định trước) Qui trình học 2 PROCE Mô-đun đánh giá (DB) DB RB ed Chiều dài cố định (Số các biến đầu vào và đầu ra)

Biến đầu vào thứ 1 Biến đầu ra cuối cùng

Giá trị ……… Giá trị

Biến , Giá trị ……… Biến , Giá trị Chiều dài thay đổi

Id của biến

Mã của nhãn ngôn ngữ Mã nhị phân của DNF Các tham số của tập mờ

Hình 1.7. Sơ đồ quy trình học RB.

Hình 1.10. Sơ đồ quy trình học KB.

Các luật bao gồm các mệnh đề của các biến dạng giá trị, trong đó biến có thể được xác định bởi vị trí hoặc nhãn (tên biến), và giá trị có thể có các dạng khác nhau (Hình 1.8). Khi sử dụng một mã vị trí (Hình 1.8, hàng đầu), các thông tin (giá trị) liên quan đến biến đó là vị trí của biến đó. Khi sử dụng mã phi-vị trí (Hình 1.8, hàng cuối), mã của một luật bao gồm các cặp (tên biến, giá trị). Trong cả hai trường hợp, mã vị trí và mã phi-vị trí, nội dung của phần giá trị có thể là: nhãn của một từ ngôn ngữ (của biến ngôn ngữ), mã nhị phân của một cấu trúc DNF (của biến ngôn ngữ), tham số xác định tập mờ (biến mờ) hoặc các giá trị thực (các hệ số) của đầu ra tuyến tính (đầu ra biến của các luật theo mô hình TSK).

Ngoài việc học RB, cách tiếp cận khác nhằm hoàn thiện DB ban đầu sau khi RB đã được tạo ra [70]. Quá trình đó bao gồm một quá trình học để có tạo ra RB với một DB đã được định nghĩa, tiếp theo là một quá trình học tương tự như mô tả trong ở phần trước đây. Trong trường hợp này, quá trình điều chỉnh liên quan đến việc học tập DB được gọi là hậu học DB. Hình 1.9 cho thấy cách tiếp cận này

1.4.5. Học Cơ sở Tri thức bằng GAs

Vì việc học KB bằng GAs liên quan đến các không gian tìm kiếm không đồng nhất (Hình 1.10) nên việc mã hóa KB bao gồm các biểu diễn di truyền khác nhau chẳng hạn như các nhiễm sắc thể có chiều dài thay đổi, nhiễm sắc thể gồm nhiều bộ gen và mỗi nhiễm sắc thể chỉ mã hóa một luật duy nhất thay vì mã hóa toàn bộ KB. Chi phí tính toán cho việc tìm kiếm bằng giải thuật di truyền sẽ tăng lên, tỷ lệ thuận

Quy trình học Mô-đun đánh giá (KB) KB DB RB

với sự tăng lên của độ phức tạp của không gian tìm kiếm. Trong GFRBs, người ta thường chọn giải pháp mã hóa từng luật riêng biệt hơn là mã hóa toàn bộ KB thành một nhiễm sắc thể, nhằm tạo ra một không gian phức tạp và linh động các luật để việc tìm kiếm một lời giải có thể khả thi và hiệu quả. Một lần nữa, việc học có thể xem xét bởi ba phương pháp như: Michigan [96, 97], Pittsburgh [14, 87, 99, 100, 101], và phương pháp học luật lặp [58, 60].

Một số đề xuất học KB bao gồm các FRBSs theo mô hình Mamdani-xấp xỉ với phân hoạch phân tán [15, 97, 98, 102], các FRBSs theo mô hình Mamdani dùng ngôn ngữ (các hàm tỷ lệ và các luật [100] hoặc các hàm thuộc và các luật [101], và hệ thống mờ dạng TSK [16, 87, 103].

Cách mã hóa KB trong các hệ thống có các biến ngôn ngữ liên quan đến việc mã hóa các luật và các hàm tỷ lệ/các hàm thuộc thành các bộ phận độc lập của một nhiễm sắc thể, hoặc sử dụng lặp đi lặp lại nhiều nhiễm sắc thể khác nhau [104]. Việc mã hóa này gồm các bước:

 Mã hóa RB (có thể được xem xét bất kỳ phương pháp cho các biến ngôn ngữ được mô tả ở mục 1.4.4).

 DB sẽ được mã hóa tương tự như mô tả tại các mục (1.4.1-1.4.3).

Liên quan chặt chẽ đến sơ đồ mã hóa, quá trình lai ghép các mã di truyền của hai cá thể cha mẹ liên quan đến các nhiễm sắc thể có chứa cấu trúc con (các luật và DB) có thể được xử lý theo các cách khác nhau:

 Hợp nhất các cấu trúc con có cùng kiểu [87].

 Áp dụng một quá trình song song cho hai cấu trúc con thuộc hai bộ phận không liên quan [101].

 Áp dụng một quá trình tuần tự khi hai cấu trúc con liên quan, trong đó hai cấu trúc đó được lai ghép nhau [100].

1.4.6. Tóm tắt các phương pháp tiếp cận cổ điển cho GRBFS

Các cách tiếp cận để tiến hóa FRBSs bằng GAs là:  Tinh chỉnh DB bằng GAs.

 Tinh chỉnh RB bằng GAs.  Tinh chỉnh KB bằng GAs.

Mặc dù tóm tắt trên là không đầy đủ, nhưng phần này đã tổng kết các phương pháp tiếp cận quan trọng nhất.

1.5 Động cơ nghiên cứu

Hiện nay các nhà nghiên cứu quan tâm đến hai mục tiêu của FRBSs là:

 Tính diễn giải được là tính chất phụ thuộc vào cấu trúc của mô hình (càng đơn giản càng tốt), số luật (càng nhỏ càng tốt), số điều kiện trong phần tiền đề của luật (càng ít càng tốt), số nhãn cho mỗi biến là tối ưu, dạng của hàm thuộc,…

 Tính chính xác cao: sai số nhỏ khi ứng dụng.

Tính diễn giải được là khả năng biểu diễn các hệ thống thuộc thế giới thực theo cách mà con người có thể hiểu được, giải thích được và có thể sử dụng các luật của hệ thống một cách dễ dàng. Do đó tính diễn giải được của một hệ thống là một tính chất mang tính chủ quan, nên cho tới hiện nay người ta vẫn chưa đưa ra được một độ đo cho tính chất nàymà được chấp nhận bởi nhiều nhà nghiên cứu [3]. Đây là một vấn đề vẫn đang được nghiên cứu [1, 2]. Vì vậy các nhà nghiên cứu thường chỉ đề cập đến vài yếu tố đặc trưng cho tính diễn giải được của hệ thống như đã đưa ra ở trên trong các nghiên cứu của mình [1, 2, 3]. Đây cũng là cách tiếp cận của đề tài về tính diễn giải được nên luận án sẽ quan tâm đến một số yếu tố đặc trưng của tính diễn giải được. Cụ thể là luận án đưa ra cách thiết kế các FRBSs có tính chính xác cao nhưng lại có cấu trúc đơn giản thể hiện qua bộ luật gọn nhẹ nhưng hiệu quả (số luật ít, số điều kiện trong phần tiền đề của luật ít), số nhãn cho mỗi biến là tối ưu, dạng của hàm thuộc thống nhất. Điều này được thể hiện qua sáu mô hình của luận án.

Ngoài ra, hai tính chất này thường mâu thuẫn nhau, nghĩa là nếu tính chính xác của FRBSs tăng lên thì tính diễn giải được sẽ bị giảm đi và ngược lại. Do đó, vấn đề là ta cần tìm một thỏa hiệp tốt nhất giữa hai tính chất này. Nói một cách khác, ta cần tìm một thỏa hiệp (ranh giới) tối ưu cho hai tính chất này cho mỗi FRBS cụ thể; trong đó tính chất chính xác và tính diễn giải được đều cùng tương đối tối ưu.

- Vào đầu thập niên 70-80 [3], các hệ thống mờ được thiết kế bởi các chuyên gia, thường là các hệ dựa trên luật dùng ngôn ngữ tự nhiên, có tính diễn giải được cao nhưng có tính chính xác không cao.

- Vào đầu những năm 90 [3], các hệ thống mờ được thiết kế tự động từ dữ liệu số, có tính chính xác cao nhưng có tính diễn giải được thấp. Các nhà nghiên cứu đã đề xuất các phương pháp thiết kế các hệ thống mờ bằng mạng nơron, GA, v.v…

- Vào cuối những năm 90 và đến hiện nay [3], các nhà nghiên cứu đã đề cập các hệ thống mờ đa mục tiêu và hai mục tiêu chủ yếu cần đạt được là tính diễn giải được cao và tính chính xác cao. Tuy nhiên hai mục tiêu này là mâu thuẫn nhau, do đó cần tìm một thỏa hiệp (ranh giới) tối ưu cho hai mục tiêu này trong một hệ thống mờ. Cụ thể là làm thế nào để tìm được ngưỡng tối đa e0 của tính chính xác mà không làm giảm tính diễn giải được và tìm được ngưỡng tối đa i0 của tính diễn giải được mà không làm giảm tính chính xác. Khi đó cặp (e0, i0) sẽ là ranh giới tối ưu cần tìm.

Hình 1.11. Các giai đoạn thiết kế các hệ thống mờ.

Hệ thống mờ có tính diễn giải cao Hệ thống mờ có tính chính xác cao

Xây dựng và huấn luyện hệ thống mờ có tính chính xác cao vào đầu những năm 90s

thấp tính chính xác cao th ấp tín h d iễ n g iả i ca

o Xây dựng hệ thống mờ đa mục tiêu

vào cuối những năm 90s-đến nay Hệ thống mờ có tính diễn giải cao

được tạo ra và được hiệu chỉnh thủ công

Để thực hiện điều này, đầu tiên ta cần cụ thể hóa tính chính xác qua một tiêu chuấn cụ thể nào đó. Giả sử có hai mô hình, ký hiệu lần lượt MH1, MH2, lần lượt có độ chính xác tương ứng là e1 và e2. Ta nói e1 là cao hơn hay bằng e2, ký hiệu e1 ≥ e2 nếu và chỉ nếu sai số của MH1 nhỏ hơn hay bằng sai số của MH2 khi ứng dụng lên tập dữ kiểm nghiệm (test data). Giá trị sai số của một mô hình trong các thực nghiệm của luận án là một trong các giá trị MSE, NDEI hay PI tùy thuộc yêu cầu của bài toán đó. Tiếp theo, ta cần cụ thể hóa tính diễn giải được qua một tiêu chuẩn cụ thể nào đó để dễ đánh giá vì như đã đề cập ở trên tính diễn giải được phụ thuộc nhiều yếu tố. Giả sử hai mô hình MH1, MH2 có tính diễn giải được thể hiện qua hai giá trị tương ứng là i1 = #R1 và i2 = #R2 trong đó #R1, #R2 lần lượt là số luật của mô hình MH1 và MH2. Ta nói i1 cao hơn hay bằng i2,ký hiệu i1 ≥ i2 nếu và chỉ nếu #R2 ≥ #R1. Nói cách khác số luật thấp hơn thì tính diễn giải sẽ cao hơn.

Trong thực tế [3], mỗi bài toán đa mục tiêu thường tồn tại nhiều cặp tối ưu (e, i). Điều này được lý giải như sau nhờ một quan hệ được định nghĩa sau: cặp (e1, i1) tốt hơn hay bằng cặp (e2, i2), ký hiệu là (e1, i1) ≥ (e2, i2) nếu và chỉ nếu e1 ≥ e2 và i1 ≥ i2. Có thể kiểm tra quan hệ này là một quan hệ thứ tự bộ phận. Lưu ý rằng về mặt lý thuyết, trong quan hệ thứ tự bộ phận thì có nhiều cặp (e1, i1) và (e2, i2) là không so sánh được với nhau nếu (e1 > e2 mà i2 > i1)hoặc (e2 > e1 mà i1 > i2). Hơn nữa, theo tính chất của một quan hệ thứ tự bộ phận thì nếu (e0, i0) là một cặp tối ưu cần tìm thì nó cũng chính là phần tử tối đại của quan hệ đó. Ngoài ra trong một quan hệ thứ tự bộ phận thì có thể có nhiều phần tối đại (nếu tồn tại) nên cũng sẽ có nhiều ranh giới tối ưu (e, i) cần tìm. Tuy nhiên vì không gian tìm kiếm củ a các bài toán đa mục tiêu thường rất lớn nên hoàn toàn không dễ gì tìm kiếm một cặp (i, e) tối ưu. Do đó nhà các nhà nghiên cứu đưa ra các phương pháp sử dụng GA, mạng nơron, v.v…để tìm