Các hướng tiếp cận giải bài toán phân lớp, hồi quy- 123docz.net

Mục tiêu cần đạt được khi xây dựng các FRBC/FRBS là độ chính xác và tính giải nghĩa được của hệ luật. Đây là hai mục tiêu xung đột nhau, do đó các giải pháp

được đề xuất đều cố gắng đạt được sự thỏa hiệp cả hai mục tiêu này bằng cách phát triển các thuật toán tiến hóa tối ưu đa mục tiêu cho phép học tự động sinh các FRBC/FRBS. Trong đó mục tiêu tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp (tức là số từ sử dụng trên mỗi biến ít, số luật ít, độ dài của các luật càng ngắn càng tốt).

Khi phát triển các thuật toán giải quyết các bài toán này, chúng ta thường tập trung vào giải quyết 3 vấn đề chính sau đây:

- Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ); - Sinh các luật mờ ứng cử cho hệ luật;

- Tìm kiếm hệ luật mờ tối ưu.

1.4.3.1. Vấn đề thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)

Các phương pháp tiếp cận theo lý thuyết tập mờ thường sử dụng các phân hoạch mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miền tham chiếu của biến như trong Cordón [23-24], Fazzolari [30], Ishibuchi [37-43], Mansoori [48], Trawinski [76]. Việc sử dụng phân hoạch mờ đều, về trực quan thì tính giải nghĩa được ở mức từ sẽ cao. Tuy nhiên, việc sử dụng cùng một phân hoạch mờ với các tập mờ cố định trước cho các tập dữ liệu khác nhau thì không phù hợp với thực tế. Vì trong thực tế ngữ nghĩa của các từ phụ thuộc vào từng ngữ cảnh tức là phụ thuộc vào từng tập dữ liệu cụ thể. Ví dụ từ “nóng” nếu nó là nhiệt độ của nước thì nó có giá trị trong khoảng [80oC đến 100oC], nhưng nếu nó là nhiệt độ thân nhiệt của người thì nó có giá trị trong khoảng [37,5oC đến 40oC]. Do đó, ngữ nghĩa của từ cần được xác định phù hợp với từng ngữ cảnh cụ thể thì mới có thể nâng cao được độ chính xác của FRBC/FRBS. Vì vậy, một yêu cầu tự nhiên là phải phát triển các thuật toán cho phép điều chỉnh ngữ nghĩa tính toán của từ (tập mờ), chẳng hạn như trong các công trình của Acala [11-14], Cordón [25], Nauck [53], Pulkkinen [70]. Một nhược điểm lớn của các phương pháp tiếp cận theo lý thuyết tập mờ là do không có cầu nối hình thức giữa ngữ nghĩa của các từ ngôn ngữ và các tập mờ nên khi thực hiện điều chỉnh thích nghi các tham số của các tập mờ thì thuật toán phải thực hiện tìm kiếm trong không gian rất lớn, phụ thuộc vào số lượng các nhãn ngôn ngữ được sử dụng trên mỗi biến, dẫn đến phải đưa ra các ràng buộc hạn chế số nhãn ngôn ngữ được sử dụng trên mỗi biến; các tập mờ có thể bị biến dạng sau quá trình hiệu chỉnh thích nghi nên chúng không phản ảnh đúng ngữ nghĩa định tính vốn có của các từ ngôn ngữ và dẫn đến hiện tượng mất mát thông tin khá lớn.

Để khắc phục nhược điểm này Nguyễn Cát Hồ và các cộng sự trong [4-8], [59], [61-63] đã ứng dụng ĐSGT để sinh các từ ngôn ngữ và xác định ngữ nghĩa tính toán

dựa trên tập mờ của từ. Theo tiếp cận này, các tác giả đã đặt vấn đề thiết kế ngôn ngữ sử dụng trong FRBC /FRBS cho mỗi tập dữ liệu, tập mờ chỉ là một dạng biểu diễn ngữ nghĩa tính toán của từ và được xây dựng dựa trên ngữ nghĩa định lượng của từ. Vì vậy, việc điều chỉnh ngữ nghĩa tính toán của từ ngôn ngữ cho phù hợp với từng tập dữ liệu được thực hiện rất dễ dàng trong cách tiếp cận này chỉ bằng việc điều chỉnh các tham số tính mờ của ĐSGT. Số lượng tham số tính mờ của mỗi biến là nhỏ, do đó, không gian tìm kiếm giảm đi rất nhiều và đặc biệt nó không phụ thuộc vào số từ được sử dụng cho mỗi biến.

1.4.3.2. Vấn đề sinh luật ứng cử

Các phương pháp tiếp cận theo lý thuyết tập mờ thường sinh luật bằng cách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến, mỗi một tổ hợp tạo ra một luật dạng (1.11) như trong các công trình của Cordón [23-25], Fazzolari [30], Gacto [33], Ishibuchi [37-43], López [46]. Nhược điểm của hướng tiếp cận này là khi tập dữ liệu có nhiều biến thì số luật sinh ra cỡ hàm mũ theo số biến. Ví dụ với tập dữ liệu có n biến, sử dụng T giá trị ngôn ngữ cho mỗi biến và tmax là chiều dài tối đa của luật thì số luật phải xem xét là T n * t

lmax=1 Cnl . Một số đề xuất tiếp cận dựa trên lý thuyết tập mờ sinh luật từ cây quyết định (decision tree) như trong Pulkkinen [70]. Phương pháp này đã làm giảm đáng kể số luật phải xem xét nhờ vào các kỹ thuật cắt tỉa trên cây, nhưng nếu sử dụng kỹ thuật sinh luật này trong các thuật toán cho phép tối ưu tham số tập mờ thì độ phức tạp thuật toán sẽ rất cao vì mỗi lần điều chỉnh tham số tập mờ ta lại phải xây dựng lại cây quyết định.

Hướng tiếp cận dựa trên ĐSGT được đề xuất bởi Nguyễn Cát Hồ [4-6], [59],

[61], thực hiện sinh luật từ mẫu dữ liệu. Theo đó, mỗi mẫu dữ liệu sinh ra một luật có độ dài n, từ các luật này sinh các luật có độ dài l n. Số luật ứng cử tối đa phải xem xét theo phương pháp này là N * tlmax=1Cnl , nó đã giảm đi rất nhiều so với

phương pháp sinh luật bằng tổ hợp. Phương pháp sinh luật này không phụ thuộc vào số từ ngôn ngữ được sử dụng trên mỗi biến và số lượng luật được sinh ra giảm đi nhiều. Luận án sử dụng phương pháp sinh luật này cho bài toán phân lớp mờ.

1.4.3.3. Vấn đề tìm hệ luật mờ tối ưu

Xây dựng hệ luật mờ là bài toán đa mục tiêu, với các mục tiêu xung đột nhau. Do đó, các thuật toán đã đề xuất đều nhằm hướng tới tìm ra các lời giải thỏa hiệp giữa các mục tiêu của bài toán. Việc xây dựng hệ mờ tự động có thể xem như là một bài toán tìm kiếm hoặc bài toán tối ưu đa mục tiêu. Các thuật toán tiến hóa, cụ thể là thuật toán di truyền được xem như là một công cụ hữu hiệu để giải bài toán này. Các thuật

toán thực hiện tìm kiếm trong không gian các lời giải có thể chấp nhận được để tìm ra lời giải tốt nhất thường gọi là lời giải tối ưu.

Nhiều thuật toán tiến hóa đa mục tiêu (Multi-Objective Evolutionary Algorithm

- MOEA) đã được đề xuất. Người đi đầu trong lĩnh vực này là Ishibuchi, Deb. Hiện tại trong cộng đồng nghiên cứu đã hình thành nhiều nhóm nghiên cứu mạnh trong lĩnh vực này như nhóm của Acalá, Antonelli, Cococcioni, Ducang, Herrera, Gacto, Nguyễn Cát Hồ, Huang W, Pulkkinen, Wang H.

MOEAs có thể chia thành hai thế hệ. Thế hệ thứ nhất bao gồm một số thuật toán nổi tiếng như: MOGA (Multi-Object Genetic Algorithm) do Carlos M. Fonseca đề xuất năm 1993 [21], NSGA (Non-dominated Sorting Genetic Algorithm) do Srinivas và Deb đề xuất năm 1994 [28], [74], NPGA (Niched-Pareto Genetic Algorithm) do Horn đề xuất năm 1994 [36], MOGLS (Multi-Objective Genetic Local Search) do Ishibuchi đề xuất năm 1996 [38]. Những thuật toán của thế hệ thứ nhất chủ yếu thực hiện dựa trên hai cơ chế: Thứ nhất là làm thế nào để chọn được các cá thể không bị trội tốt và thứ hai là làm thế nào để duy trì được tính đa dạng của các cá thể trong mặt Pareto tìm được. Thừa kế những cơ chế của những thuật toán ở thế hệ thứ nhất, các thuật toán thuộc thế hệ thứ hai bổ sung thêm khái niệm “phần tử thống trị (elitist)” để đảm bảo tính hội tụ của MOEA và khắc phục những hạn chế của thế hệ thứ nhất. Một số giải thuật nổi tiếng như là: SPEA và SPEA2 (Strength Pareto Evolutionary Algorithm 2) do Zitzle đề xuất lần lượt năm 1999 và

2001, trong đó SPEA2 là một phiên bản cải tiến của SPEA [84], PAES (Pareto

Archived Evolution Strategy) do Knowles và Corne đề xuất năm 2000 [45], (2+2)M-

PAES một phiên bản cải tiến của PAES do Cococcioni đề xuất năm 2007 [22],

PESA (Pareto Envelope-based Selection Algorithm) do Corne, Knowles, và Oates

đề xuất năm 2000 [26], NSGA-II(The Nondominated Sorting Genetic Algorithm II) Deb và cộng sự đề xuất năm 2002 [28].

Các hướng tiếp cận giải bài toán phân lớp, hồi quy bằng hệ luật mờ

Đại số gia tử mở rộng

Các thành phần của hệ mờ