Nghiên cứu này đề xuất một giải pháp trích xuất tập luật mờ TSK từ máy học véc tơ hỗ trợ, trong đó có kết hợp giải pháp phân cụm K-Means để rút gọn tập luật. Hiệu quả của giải pháp đề xuất được đánh giá thông qua các kết quả thực nghiệm và có sự so sánh với kết quả của một số thực nghệm trên mô hình khác.
230 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Rút gọn tập luật mờ trích xuất từ máy học Véc-tơ hỗ trợ cách tích hợp thuật tốn phân cụm k-Means Nguyễn Đức Hiển1 Trường Cao đẳng Công nghệ thơng tin, Đại học Đà Nẵng ndhien@cit.udn.vn Tóm tắt Mơ hình mờ TSK mơ hình máy học véc-tơ hỗ trợ hồi quy có tương đương số điều kiện định Bằng cách thỏa mãn điều kiện đề đồng hàm đầu mơ hình mờ TSK máy học véc-tơ hỗ trợ hồi quy, xây dựng thuật tốn cho phép trích xuất mơ hình mờ TSK từ máy học véc-tơ hỗ trợ nghiên cứu đề xuất giải pháp trích xuất tập luật mờ TSK từ máy học véc tơ hỗ trợ, có kết hợp giải pháp phân cụm K-Means để rút gọn tập luật Hiệu giải pháp đề xuất đánh giá thơng qua kết thực nghiệm có so sánh với kết số thực nghệm mơ hình khác Từ khóa: Mơ hình mờ TSK, Máy học Véc-tơ hỗ trợ, Mơ hình mờ hướng liệu Đặt vấn đề Mơ hình mờ biết đến mơ hình hiệu việc xử lý thông tin mơ hồ khơng chắn; đồng thời thể lợi rõ ràng việc biểu diễn xử lý tri thức Hoạt động mơ hình mờ phụ thuộc nhiều vào hệ thống luật mờ q trình suy diễn tập luật mờ Đã có nhiều tác giả nghiên cứu đề xuất phương thức để xây dựng mơ hình mờ hướng liệu [3, 4, 5, 6, 7, 8, 9, 10] Vấn đề trích xuất mơ hình mờ từ máy học véc-tơ hỗ trợ (SVM - Support Vector Machine) nhóm tác giả J.-H Chiang P Y Hao nghiên cứu công bố lần [3] Một vấn đề máy học véc-tơ hỗ trợ tính xác mơ hình thu tỷ lệ thuận với số lượng support-vector (Sv) sinh ra; điều đồng nghĩa với việc số lượng luật mờ mô hình mờ trích xuất tăng lên Nói cách khác tăng hiệu suất mơ hình đồng nghĩa với việc làm giảm tính “sáng sủa” (tính “có thể hiểu được”) mơ hình Như vấn đề đặt làm trích xuất hệ thống mờ đảm bảo độ tin cậy kết dự đoán, đồng thời hạn chế số lượng luật mờ mơ hình Trong nghiên cứu này, chúng tơi đề xuất giải pháp tích hợp thuật toán phân cụm k-Means để rút gọn tập luât mờ trích xất được, đồng thời đảm bảo độ tin cậy kết dự đoán dựa vào mơ hình trích xuất Các phần nghiên cứu bao gồm: phần trình bày sơ lược tương đương mơ hình mờ TSK máy học véc-tơ hỗ trợ làm sở cho việc xây dựng thuật tốn trích xuất mơ hình mờ Phần giới thiệu thuật tốn fm-SVM* cho phép trích xuất tập luật mờ rút gọn từ SVM, có tích hợp thuật tốn phân cụm K-Mean Phần trình bày kết thực nghiệm mơ hình đề xuất, có kết hợp so sánh với số kết mơ hình đề xuất trước Cuối cùng, phần nêu lên số kết luận định hướng nghiên cứu Nguyễn Đức Hiển 231 Sự tương đồng mô hình mờ TSK máy học véc-tơ hỗ trợ Hệ thống mờ TSK bao gồm tập luật mờ “IF - THEN”, với phần kết luận luật hàm (không mờ) ánh xạ từ tham số đầu vào tới tham số đầu mơ hình [3,4,5,6,10] Giả sử có hệ thống mờ TSK với m luật mờ biểu diễn sau: R j : IF x1 is A 1j and x is A 2j and and x n is A nj THEN z g j x1 , x , , x n , j 1, 2, , m (1) Trong x i i 1, 2, n biến điều kiện; z biến định hệ thống mờ xác định hàm g j . ; A ij thuật ngữ ngôn ngữ xác định hàm thành viên tương ứng μ A j x Lưu ý, μ A j x hàm thành viên mờ xác định véc-tơ i i nhiều chiều Đầu hệ thống mờ tính tốn sau: m z f x j j 1 m j j 1 A x Aj (2) x Với n A j x A j xi i 1 (3) i Trong đó, z j giá trị đầu hàm g ( ) Bên cạnh đó, với vai trị giải vấn đề tối ưu hóa hồi quy, lý thuyết SVM vắn tắt sau [2,3,6,8]: Cho tập liệu huấn luyện x , y , , x , y X , X xác định miền 1 l l liệu đầu vào Với ε-Support Vector Regression, toán tối ưu hóa ràng buộc cần giải là: l * wT w C i i* w ,b , , i 1 (4) Sao cho: w T Φ x i b yi ε ξi , yi w Φ x i b ε ξ*i , với ξ i , ξ *i 0, i 1, 2, , l T Trong đó, C tham số chuẩn tắc, sai số cho phép, ξ i , ξ i * biến lỏng, Φ(x) hàm ánh xạ phi tuyến tính để tiền xử lý liệu phi tuyến tính đầ vào cách ánh xạ khơng gian thuộc tính nhiều chiều ℱ Và từ đưa đến việc giải tốn Quadratic Programming: l T * * i i )( j j xi x j i, j max l l , * i i* yi i i* i 1 i 1 (5) 232 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Sao cho: l i i* 0, and C i , i* 0, i 1, 2, , l i 1 Trong đó, α , α∗ nhân tử Lagrange Véc-tơ w có dạng: l w i i* xi (6) i 1 Và hàm định là: l T f x i i* xi x j b i 1 Gọi K x , x = Φ(x ) Φ x viết lại sau: (7) hàm nhân không gian đầu vào; hàm định (7) l f x i i* K xi , x b (8) i 1 Những điểm đầu vào x với (α − α∗ ) ≠ gọi véc-tơ hỗ trợ (SVs) Xét hàm đầu mơ hình mờ TSK (2) hàm định mơ hình máy học Véc-tơ hồi quy (8) Để (2) (8) đồng với nhau, trước tiên phải đồng hàm nhân (8) hàm thành viên (2) Ở đây, để thỏa mãn điều kiện Mercer [1] hàm thành viên Gauss chọn làm hàm nhân; đồng thời giá trị b (8) phải Khi hàm Gauss chọn làm hàm thành viên hàm nhân, đồng thời số luật mờ với số véc-tơ hỗ trợ (m = l) hàm định (8) trở thành: x x 2 f x i exp i i i 1 l * i (9) hàm kết đầu suy luận mờ (2) trở thành: x x 2 j 1z exp j j f x 1 x x l j exp j 1 j l j (10) Như cách biến đổi [8], hàm suy luận mờ (10) viết lại sau: x x 2 j f x z exp j 1 j l j Và chọn: z j αi α*i (11) (12) Nguyễn Đức Hiển 233 Như vậy, sở thỏa mãn điều kiện để đồng hàm đầu SVMs hệ thống mờ TSK, trích xuất mơ hình mờ TSK từ máy học Véc-tơ hỗ trợ Thuật toán trích xuất tập luật mờ rút gọn từ SVM cách tích hợp thuật tốn phân cụm K-Means Từ phân tích trên, chúng tơi đề xuất thuật tốn fm-SVM* cho phép trích xuất mơ hình mờ TSK từ máy học véc-tơ hỗ trợ gồm bước nhưu sau: - Bước 1: huấn luyện SVMs với tập liệu huấn luyện để trích xuất véc-tơ hỗ trợ tương ứng với giá trị = , phương sai , ( − ∗ ) = - Bước 2: dùng thuật toán K-Means để phân cụm ( , ) thành k cụm - Bước 3: chọn ( , ) là trung tâm cụm để thiết lập hàm thành viên Gauss cho luật mờ TSK; trung tâm hàm thành viên biên độ mờ Tập luật mờ TSK trích xuất có dạng: IF xi is Gaussmf i , svi THEN yi is B Sơ đồ thuật tốn fm-SVM* thể Hình Begin Input: Training data set Initialize parameters of SVMs : , = Variances : , = Centers Cluster ( , ) using k-Means extract fuzzy rules from SVM IF x is Gaussmf( , ) THEN y is B Output: TSK fuzzy model End Hình Mơ hình thuật tốn trích xuất tập luật mờ TSK 234 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Kết thực nghiệm Để đánh giá thuật toán fm-SVM* đề xuất, xây dựng hệ thống thử nghiệm dựa cơng cụ Matlab Trong thuật tốn fm-SVM* chúng tơi có sử dụng: 1) Thuật tốn học SVM thư viện LIBSVM phát triển nhóm Chih-Chung Chang [11], sử dụng để sản xuất SVs, làm sở để trích xuất luật mờ 2) Hàm công cụ kmeans Matlab [13] sử dụng để phân cụm SVs Ngoài ra, sử dụng hàm AVALFIS thư viện công cụ Matlab Fuzzy Logic để thực suy luận dựa luật mờ trích xuất Bên cạnh đó, thực nghiệm chúng tơi có kết hợp sử dụng thuật tốn trích xuất luật mờ f-SVM* nghiên cứu đề xuất [12] để so sánh đánh giá kết 4.1 Ví dụ hồi quy phi tuyến tính Với trường hợp thực nghệm này, tiến hành xây dựng liệu dựa toán hồi quy phi tuyến sau: sin x if x o Sinc x x 1 if x (13) Tập liệu huấn luyện xác định phạm vi từ −3π đến +3π Với 1.000 mẫu liệu sinh ra, 800 mẫu liệu sử dụng để huấn luyện cho máy học Véc-tơ hỗ trợ sinh luật mờ, 200 mẫu liệu lại sử dụng để thử nghiệm suy luận dựa tập luật mờ trích xuất Kết dự đốn với 200 mẫu liệu, dựa tập luật trích xuất với số lượng luật khác nhau, đánh giá qua thông số RMSE (Root Mean Squared Error), thể Bảng Tập luật mờ trích xuất trường hợp gom thành cụm, tương ứng với luật thể Bảng Bảng So sánh kết mơ hình qua thơng số RMSE - 4.1 Số luật mờ 50 10 Mơ hình áp dụng f-SVM* fm-SVM*