6. Bố cục của luận án
1.3. Sinh luật mờ từ dữ liệu
Vấn đề nghiên cứu xây dựng các mơ hình mờ dạng luật dựa trên dữ liệu ứng dụng cho các bài toán nhận dạng mẫu và phân lớp (classification), dự báo và hồi quy (regression), phân cụm (clustering), … đã được rất nhiều tác giả quan tâm nghiên cứu. Từ năm 1985, Sugeno đã đề xuất phương pháp xây dựng mơ hình mờ từ dữ liệu số hay cịn gọi là dữ liệu thơ [69][70], và phương pháp này đã thật sự chứng tỏ được hiệu quả trong việc phát triển các mơ hình mờ. Đã có rất nhiều nghiên cứu đề xuất các kỹ thuật khác nhau để xây dựng mơ hình mờ hướng dữ liệu.
Về cơ bản, bài toán sinh tập luật mờ từ dữ liệu vào - ra có thể mơ tả tóm tắt như sau: Cho N cặp dữ liệu vào - ra (𝑥𝑖, 𝑦𝑖), 𝑣ớ𝑖 𝑖 = 1,2, … , 𝑁. Cần sinh một tập luật mờ
từ các cặp dữ liệu vào - ra trên, sao cho tập luật mờ này xác định ánh xạ 𝑓: 𝑥 → 𝑦. Các bước cơ bản giải quyết bài toán này như sau [88]:
Bước 1: Xác định các tập mờ bao phủ các không gian dữ liệu đầu vào và đầu
ra. Ví dụ với biến đầu vào 𝑥 có các tập mờ 𝐴1, 𝐴2, … , 𝐴𝑟 có ⋃ 𝑠𝑢𝑝𝑝(𝐴𝑖) = [𝛼𝑖, 𝛽𝑖] và
mọi 𝑥𝑖 ∈ [𝛼𝑖, 𝛽𝑖]. Các dạng tập mờ có thể chọn như: hình tam giác, hình thang, Gauss.
Bước 2: Với mỗi cặp dữ liệu (𝑥𝑖, 𝑦𝑖), giả sử với biến đầu vào 𝑥, có 𝑥𝑖 ∈ 𝑠𝑢𝑝𝑝(𝐴𝑖) với độ thuộc 𝜇𝑖𝑗, 𝑣ớ𝑖 i = 1,2, . . . , N, j = 1,2, . . . , r, và biến đầu ra y có 𝑦𝑖 ∈ 𝑠𝑢𝑝𝑝(𝐵𝑖), với độ thuộc 𝜇𝑖, 𝑣ớ𝑖 𝑖 = 1,2, … , 𝑁 thì sinh được 1 luật:
𝐼𝐹 𝑥 𝑖𝑠 𝐴𝑖 𝑇𝐻𝐸𝑁 𝑦 𝑖𝑠 𝐵𝑖, với độ thuộc ∏ 𝜇𝑖𝑗
Bước 3: Với mỗi cặp dữ liệu (𝑥𝑖, 𝑦𝑖), có thể có nhiều luật mờ được sinh ra, chỉ
giữ lại luật có độ thuộc lớn nhất.
Kỹ thuật sinh luật mờ cơ bản trên là đơn giản, dễ thực hiện. Tuy nhiên, vì các hàm thành viên là cố định trong bước đầu tiên và không phụ thuộc vào các cặp dữ liệu vào-ra nên các hàm thành viên không đươc tối ưu hóa theo các cặp dữ liệu vào-ra và cơ sở luât mờ được tạo ra bởi phương pháp này có thể có số lượng khá lớn (theo kích thước bộ dữ liệu) do vậy địi hỏi một khối lượng tính tốn khổng lồ.
Phân cụm dữ liệu cũng là một giải pháp khá phổ biến để sinh luật mờ được nhiều tác giả quan tâm nghiên cứu và ứng dụng [34][64]. Với giải pháp này, tập dữ liệu vào – ra được phân cụm bằng các thuật tốn phân cụm, khi đó một luật mờ sẽ được sinh ra tương ứng với mỗi phân cụm. Giải pháp này đã được chứng tỏ là khá hiệu quả trong những trường hợp không gian dữ liệu lớn. Tuy nhiên, do các tập mờ được tạo ra riêng cho mỗi luật (tương ứng với mỗi phân cụm) nên làm hạn chế tính diễn dịch của tập luật.
Ngoài ra, nhiều giải pháp khác như: mạng nơ-ron nhân tạo (Artificial Neural Networks – ANN) [38], [80], Mạng tự tổ chức SOM [40], Cây quyết định [78], Đại số gia tử [4], …. đã được nhiều tác giả nghiên cứu đề xuất, cải tiến và ứng dụng để trích xuất tập luật mờ giải quyết các bài tốn phân lớp, dự báo, … Trong đó kỹ thuật trích xuất mơ hình mờ dựa trên máy học Véc-tơ hỗ trợ đã được nhiều tác giả nghiên cứu và chứng minh tính hiệu quả của giải pháp, đặc biệt là hiệu quả ở tốc độ học của máy học véc-tơ hỗ trợ [15], [17], [24], [35], [36], [56], [63]. Đặc biệt trong [24], [36] và [56] đã tổng hợp những nghiên cứu và ứng dụng mơ hình mờ trích xuất từ máy học véc-tơ hỗ trợ, ưu điểm nổi bật của mơ hình mờ trích xuất từ SVM so với SVM ngun thủy là “tính có thể diễn dịch được” của mơ hình mờ. Tuy nhiên việc trích xuất một mơ hình mờ đảm bảo “tính có thể diễn dịch được” vẫn là thách thức chưa được giải quyết của các nghiên cứu trích xuất mơ hình mờ từ SVM.