Khai phá tri thức từ CSDL với hệ luật mờ

CHƯƠNG 1. KHAI PHÁ TRI THỨC MỜ

1.3. Khai phá tri thức từ CSDL với hệ luật mờ

Hệ luật mờ Mamdani (MFRBS - Mamdani Fuzzy Rule - Base System) bao gồm M luật có dạng

Rm: IF X1 is , , AND …AND XF is , , THEN XF+1 is , , (1) m = 1,..., M

Ở đó X = {X1,..., Xf,..., XF} là tập các biến ngôn ngữ đầu vào và XF+1 là biến đầu ra. Giả sử Uf, với f = 1,..., F+1 là miền xác định của biến thứ f. Giả sử Pf= { , , … , , } là một phân hoạch mờ của Tf tập mờ trên biến Xf.

MFRBS có đặc điểm khác các mô hình khác là các biến đầu vào và ra đều là mờ dưới dạng từ của ngôn ngữ tự nhiên. Đặc điểm này mang lại tính “thân thiện” với con người vì suy luận trên các từ của ngôn ngữ tự nhiên là đặc điểm của con người.Các luật cũng được biểu diễn dưới dạng quen thuộc với suy nghĩ và lập luận của con người. Hiện tại MFRBS được nghiên cứu sử dụng rộng rãi trong nghiên cứu ở các lĩnh vực điều khiển tự động, khai phá dữ liệu... Bài toán hồi quy mờ sử dụng MFRBS thường được giải quyết cơ bản theo các bước như sau.

1) Xác định một phân hoạch biến đầu vào Xfthành Tftập mờ , . Ví dụ biến ngôn ngữ “Tuổi” có thể được phân thành 4 tập mờ “trẻ”, “khá trẻ”, “trung niên” và “già”.

2) Xác định các hàm thuộc tương ứng với các tập mờ nói trên.

3) Chuyển đổi số liệu từ CSDL mẫu thành các giá trị biến ngôn ngữ tương ứng.

Ví dụ căn cứ vào các hàm thuộc đã xác định, tuổi 27 có thể chuyển đổi thành “khá trẻ”

với độ thuộc 0,8.

4) Từ dữ liệu chuyển đổi xác định một tập luật ban đầu, mỗi luật có dạng (1).

5) Tiến hành rút gọn tập luật theo các quy tắc heuristic để có được tập luật cuối cùng, đảm bảo tính đơn giản nhưng có độ chính xác tốt. Thí dụ nếu 2 luật gần giống nhau (theo các tiêu chuẩn nào đó) thì có thể gộp lại. Hoặc các thuộc tính ít ảnh hưởng (cũng theo tiêu chuẩn đánh giá nào đó) có thẻ loại bỏ khỏi luật...

6) Trên cơ sở hệ (1), với một giá trị đầu vào, có thể nội suy ra giá trị đầu ra tương ứng sử dụng mạng nơron và giải thuật di truyền.

Hiện nay, các thuật toán liên quan đến việc giải bài toán hồi quy mờ dựa trên MFRBS được liên tục nghiên cứu phát triển, chủ yếu để cải thiện thời gian tính toán trên cơ sở vẫn đảm bảo sai số thấp với những CSDL cỡ rất lớn. Thuật toán được nhắc đến nhiều nhất là thuật toán tiến hóa đa mục tiêu (MOEM: multi - objective evolutionary method), kết hợp đồng thời việc phân hoạch tối ưu các tập mờ và sinh hệ luật trên các tập mẫu rút gọn (theo các tiêu chí khác nhau), giảm được khối lượng tính toán đáng kể trong khi vẫn đảm bảo sai số mô hình không cao. (xem [9][10])

Như đã thấy, có rất nhiều các thuật toán trích xuất hệ luật mờ Mamdani được đề xuất. Các thuật toán này khá đa dạng, nhưng về cơ bản đều bao gồm 2 khối xử lý chính như sau:

a) Khối xử lý CSDL ban đầu, chuyển CSDL (thường là dạng số) thành CSDL (DB) có các giá trị là các từ ngôn ngữ bằng cách phân chia miền xác định của thuộc tính thành các miền mờ. DB này là một thành phần của Cơ sở tri thức (KB – Knowledge Base) cần xây dựng.

b) Khối xây dựng hệ luật mờ (RB –Rule Base) Mamdani dựa trên DB hiện có.

Thực chất kết quả cho ra không chỉ là một hệ luật mờ mà là cả một tập các hệ luật mờ là xấp xỉ một Pareto Front. Một lời giải xX được gọi trội hơn (dominate) lời giải yX (tức là x tốt hơn y), ký hiệu xy, nếu:

i, fi(y) fi(x) và j, fj(y) <fj(x).

Nếu không có bất kỳ một lời giải y trội hơn x thì ta gọi x là một lời giải tối ưu Pareto của bài toán (1). Tập tất cả các lời giải như vậy gọi là tập tối ưu Pareto, ký hiệu Sp. Tập ảnh của lời giải tối ưu Pareto trên không gian mục tiêu được gọi là mặt Pareto (frontier). Tương tự, đối với một tập lời giải S X nếu không có bất kỳ lời giải yS trội hơn x thì x được gọi là một lời giải không bị chiếm ưu thế bởi tập S đó, ta cũng ký hiệu xS (tức x tốt hơn tập S).

Một lời giải tối ưu Pareto x không thể nói tốt hơn một lời giải Pareto, do đó chúng ta càng tìm ra nhiều lời giải tối ưu Pareto cho bài toán càng tốt. Các phương pháp tối ưu cổ điển thực hiện chuyển bài toán đa mục tiêu về một mục tiêu bằng việc

tập trung vào một mục tiêu tại một thời điểm và phải thực hiện nhiều lần phương pháp này để tìm tập các lời giải. Các phương pháp tối ưu mới nhất có xu hướng giải quyết bài toán tối ưu đa mục tiêu trong cùng một vòng lặp.

Trên 2 khối xử lý chính đó, có thể liệt kê một số kiểu thuật toán cơ bản như sau:

- Thuật toán xử lý 2 bước riêng rẽ: tạo DB (tối ưu hoặc không) cố định trước, sau đó xây dựng RB. Có thể xem [8], ở đó tác giả cố định DB trên cơ sở chọn các MF có hình dạng đồng nhất (là tam giác cân) và phân bố đều trên miền xác định; hoặc [7], ở đó các MF có thể thay đổi chút ít nhằm tới một DB tương đối tốt cho việc xây dựng RB tiếp theo

- Thuật toán kiểu xử lý 2 bước trong một vòng lặp: tạo DB xong dùng DB đó xây dựng RB. Bước tiếp theo là kiểm tra độ phù hợp (fitness) của hàm mục tiêu, nếu chưa đạt lại quay lại chọn DB mới và xây dựng RB... Các thuật toán kiểu này đều dựa trên lõi là giải thuật đồng tiến hóa (coevolutionary approach) (xem [9][10])

Có thể nhận xét chung về các thuật toán này như sau:

- Những thuật toán xử lý 2 bước đơn giản hơn nhưng thường cho ra những RB kém tốt hơn do 2 bước tối ưu xử lý riêng rẽ và không có đảm bảo là DB tối ưu ở bước trước sẽ là DB tối ưu cho cả bước sau:

- Hiện nay, xu hướng là xây dựng các thuật toán đồng tiến hóa. Tuy nhiên các thuật toán này đòi hỏi khối lượng tính toán và bộ nhớ rất lớn. Do đó, gần đây xuất hiện các thuật toán làm việc với các DB rút gọn, dùng để kiểm tra độ phù hợp ([9]) hoặc để sinh luật ([10]). Các thuật toán này đã giảm được đáng kể khối lượng tính toán trong khi vẫn giữ được hiệu năng khi sinh RB.

- Các thuật toán đã liệt kê đều dựa trên cách tiếp cận tập mờ và do đó đều gặp ít nhiều khó khăn khi xây dựng MF ban đầu để vừa đảm bảo sự phù hợp ngữ nghĩa, vừa đơn giản trong xử lý. Thông thường, các thuật toán đã liệt kê đều đưa ra các ngưỡng bắt buộc để giới hạn số luật có trong RB và số thuộc tính tham gia trong mỗi luật.

Khai phá tri thức từ CSDL với hệ luật mờ

Một số khái niệm cơ bản

Bài toán khai phá luật kết hợp mờ