Phát triển thuật toán sinh luật dựa trên cây quyết- 123docz.net

giải bài toán hồi quy

Vấn đề sinh luật ứng cử, các phương pháp tiếp cận dựa trên lý thuyết tập mờ thường sinh luật bằng cách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến như trong [11-19], [37], [43]. Nhược điểm của hướng tiếp cận này là khi tập dữ liệu có nhiều biến thì số luật sinh ra sẽ rất lớn lên đến hàm mũ. Một số đề xuất sinh luật mờ dựa trên cây quyết định (decision tree) giải bài toán phân lớp đã được đề xuất trong [70], phương pháp này đã làm giảm đáng kể số luật phải xem xét nhờ vào các kỹ thuật như là hạn chế chiều cao, cắt tỉa cây, tuy nhiên lại gặp khó khăn trong quá trình tối ưu tham số tập mờ bởi việc sinh ra cây quyết định đồng thời tối ưu tập mờ sẽ tốn rất nhiều chi phí tính toán do số lượng tham số cần phải tối ưu lớn. Hướng tiếp cận theo lý thuyết ĐSGT, Nguyễn Cát Hồ và cộng sự đề xuất một phương pháp sinh luật từ mẫu dữ liệu, dựa trên hệ khoảng tương tự được xây dựng bằng ĐSGT để phân hoạch miền dữ liệu [4-8], [59], [61-63]. Theo đó, mỗi mẫu dữ liệu sẽ rơi vào một siêu

hộp được xây dựng bằng các phân hoạch của các biến, trên cơ sở đó tác giả sinh ra một luật có độ dài (n) bằng số biến của tập mẫu dữ liệu, trong đó các giá trị tiền điều kiện và kết luận là các từ ngôn ngữ tương ứng với các cạnh của siêu hộp. Từ các luật này sinh ra các luật có độ dài nhỏ hơn max < n cho trước. Với phương pháp sinh luật

ứng cử này thì số luật tối đa phải xem xét giảm đi đáng kể so với phương pháp sinh luật tổ hợp. Nguyễn Cát Hồ và cộng sự đã chứng minh số luật sinh ra chỉ là hàm đa thức phụ thuộc vào số chiều của dữ liệu và độ dài tối đa của luật [59]. Tuy nhiên, hướng tiếp cận này chúng ta vẫn phải xem xét một số lượng luật khá lớn. Luận án đề xuất một phương pháp xây dựng LRBS giải bài toán hồi quy với các luật được sinh ra dựa trên cây quyết định và ĐSGT. Thuật toán giải quyết cả hai vấn đề sinh luật và tối ưu tham số của các tập mờ. Thuật toán đề xuất gồm 2 pha: pha thứ nhất tối ưu tham số của ĐSGT của mỗi biến của bài toán, ở pha này luận án sử dụng thuật giải di truyền để tìm kiếm tham số tối ưu; pha thứ 2, với bộ tham số tối ưu của ĐSGT tìm được ở pha 1, luận án xây dựng các ĐSGT và sử dụng nó để chuyển đổi cơ sở dữ liệu số của bài toán thành cơ sở dữ liệu giá trị ngôn ngữ tương ứng. Tiếp theo xây dựng cây quyết định từ cơ sở dữ liệu ngôn ngữ, sau đó sinh ra tập luật ứng cử.

Luận án thực hiện cải tiến thuật toán HA-PAES-MG-Kmax [62] để tìm LRBS tối ưu, thuật toán cái tiến được gọi là HA-De-PAES. Trong thuật toán này các bước thực hiện tương tự như thuật toán HA-PAES-MG-Kmax, tuy nhiên chỉ có điểm khác biệt đó là các luật được thêm vào hệ luật của các thể được chọn ngẫu nhiên từ tập luật ứng cử.

Phát triển thuật toán sinh luật dựa trên cây quyết định xây dựng hệ luật

Đại số gia tử mở rộng

Các thành phần của hệ mờ