Tóm tắt Các hệ thống mờ có ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực mô phỏng quá trình và điều khiển. Thông thường việc thiết kế các hệ thống mờ có thể được thiết kế từ tri thức chuyên gia hoặc từ dữ liệu. Tiếp cận mỗi một phương pháp thiết kế đều có những thuận lợi và hạn chế riêng của nó. Bài báo được trình bày theo hướng xây dựng hệ luật mờ cho điều khiển từ dữ liệu. Có nhiều cách tiếp cận khác nhau nhưng bài báo tập trung vào phân tích phương pháp phân cụm trừ dữ liệu để tạo ra các luật mờ kết hợp sử dụng giải thuật di truyền để tối ưu hóa các thông số của hệ luật. Từ khóa: phân cụm trừ mờ, giải thuật di truyền, hệ điều khiển mờ. Abstract Fuzzy system is applied in various fields, in which fuzzy control is widely focussed. Usually, fuzzy control designed from knowledge of experts in the certain application fields or from data. Each approach has some advantages and some limitations. This paper is described a method for substractive clustering of application data to create fuzzy rules and then, parameters of fuzzy rules are optimised by genetic algorithm
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 101 Mã bài: 28 Phân cụm trừ mờ và giải thuật di truyền ứng dụng cho bài toán thiết kế hệ điều khiển tự động từ dữ liệu An Application of Fuzzy substructive clustering for designing automatic s ystem from data Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng* Đại học Thái Nguyên *Viện Công Nghệ Thông tin e-Mail: nguyenphuonghuy1979@gmail.com; tranmanhtuan.dhtn.cntt@gmail.com Tóm tắt Các hệ thống mờ có ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực mô phỏng quá trình và điều khiển. Thông thường việc thiết kế các hệ thống mờ có thể được thiết kế từ tri thức chuyên gia hoặc từ dữ liệu. Tiếp cận mỗi một phương pháp thiết kế đều có những thuận lợi và hạn chế riêng của nó. Bài báo được trình bày theo hướng xây dựng hệ luật mờ cho điều khiển từ dữ liệu. Có nhiều cách tiếp cận khác nhau nhưng bài báo tập trung vào phân tích phương pháp phân cụm trừ dữ liệu để tạo ra các luật mờ kết hợp sử dụng giải thuật di truyền để tối ưu hóa các thông số của hệ luật. Từ khóa: phân cụm trừ mờ, giải thuật di truyền, hệ điều khiển mờ. Abstract Fuzzy system is applied in various fields, in which fuzzy control is widely focussed. Usually, fuzzy control designed from knowledge of experts in the certain application fields or from data. Each approach has some advantages and some limitations. This paper is described a method for substractive clustering of application data to create fuzzy rules and then, parameters of fuzzy rules are optimised by genetic algorithm. Ký hiệu Ký hiệu Đơn vị Ý nghĩa i A 1 , i A 2 Các giá trị ngôn ngữ y hàm tuyến tính đầu ra i j p Các thông số hàm tuyến tính đầu ra r a Bán kính cụm x 1, x 2… Tập các điểm dữ liệu e Hằng số chấp nhận e Hằng số từ chối ab rr 5.1 Thông số chọn theo r a * giá trị đặt, giá trị cần Chữ viết tắt GA Genetic algorithm in1,in2 Input1, input2 SC Substractive clustering 1. Phần mở đầu Sự phát triển nhanh chóng của các hệ thống điều khiển, các hệ thống thông tin như hiện nay, thì hệ mờ được áp dụng thành công trong nhiều lĩnh vực như điều khiển tự động, phân lớp dữ liệu, phân tích việc ra quyết định, các hệ chuyên gia. Hệ luật mờ xây dựng từ tri thức nói chung hay hệ suy luận mờ nói riêng được xây dựng theo suy diễn của con người, là một phần quan trọng trong ứng dụng logic mờ cũng như trong lý thuyết tập mờ vào thực tế. Trong nhiều ứng dụng cho thiết kế các hệ thống điều khiển thông minh cũng như trong xây dựng các hệ trợ giúp quyết định, hệ mờ được xây dựng theo phân lớp dữ liệu, phân cụm dữ liệu, xây dựng cây quyết định [2,3,4,5]. Hệ điều khiển mờ được thực hiện từ các luật mờ, các luật mờ được xây dựng từ các tri thức của các chuyên gia trong một lĩnh vực cụ thể. 102 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng VCM2012 Phân cụm dữ liệu đang là một vấn đề quan tâm nghiên cứu của các tác giả trong và ngoài nước [2,3,4,5] và có nhiều thuật toán phân cụm được đề xuất. Trong đó, không ít thuật toán phân cụm kết hợp với việc sử dụng giải thuật di truyền trong quá trình thực hiện. Tuy nhiên các thuật toán được đưa ra mới chỉ xét đến khía cạnh phân chia dữ liệu thành các cụm với độ chính xác cao mà chưa để tâm đến sự tối ưu các luật sử dụng, ví dụ giải thuật GA K-means được sử dụng trong bài toán thị trường mua sắm trực tuyến do Kyoung-jae Kim và Hyunchul Ahn đưa ra là thuật toán sử dụng K- means kết hợp với giải thuật di truyền và được chứng tỏ có sự cải thiện đáng kể trong việc thực hiện phân nhóm so với các thuật toán phân cụm điển hình khác. Hoặc phương pháp phân cụm bán giám sát (Semi- Supervisor Clustering) dùng giải thuật di truyền do Ayhan Demiriz; Kristin P. Bennett và Mark J. Embrechts thuộc Rensselaer Polytechnic Institute - Troy, NY 12180 đề xuất năm 1999 là sự kết hợp các ưu điểm của các phương pháp học có giám sát và học không giám sát; giải thuật di truyền được sử dụng để tối ưu hóa hàm mục tiêu cho thủ tục phân cụm. Bằng các kết quả thực nghiệm, phương pháp này chỉ ra lợi thế trong trường hợp có ít mẫu huấn luyện. Trong các yêu cầu đặt ra cho quá trình phân cụm thì yêu cầu về độ chính xác luôn được đặt lên hàng đầu, ngoài ra với sự kết hợp các thuật toán phân cụm và giải thuật di truyền còn thỏa mãn được tính chất tối ưu của các luật được sử dụng. Vì vậy một cách tiếp cận khác mà bài báo nêu ra đó là xây dựng hệ luật mờ cho hệ điều khiển mờ từ dữ liệu sử dụng giải thuật di truyền và là một vấn đề thực tế. Trong hệ điều khiển mờ có rất nhiều thông số, các thông số của hàm thuộc, các điều kiện cũng như kết luận của luật…cần phải tinh chỉnh và cần phải tối ưu hóa. Để thực hiện mục tiêu trên, bài báo trình bày theo các phần: i) Mở đầu, ii)Tiếp cận hệ thống: đưa ra cái nhìn khái quát của bài toán trong quá trình xây dựng luật từ tri thức. Đề xuất một phương pháp tiếp cận là phân cụm trừ mờ, sử dụng giải thuật di truyền để tối ưu hóa các luật được hình thành sau quá trình phân cụm. iii) Kết quả thực nghiệm và iv) Kết luận. Trong quá trình thực hiện, độ tin cậy của các luật trong giải thuật di truyền được hiệu chỉnh cho phù hợp thể hiện tính linh hoạt của thuật giải đưa ra. 2. Tiếp cận hệ thống 2.1. Hệ điều khiển mờ Giả sử chúng ta có tập dữ liệu với cỡ p đầu vào và q đầu ra trong hệ điều khiển mờ có hệ luật mờ như sau. Theo Sugeno ở luật thứ i trong hệ luật được viết theo: R i : If x 1 is i A 1 and x 2 is i A 2 and and x p is i p A then y i is p 0 i +p 1 i x 1 + +p p i x p (1) Trong đó: x i là các biến vào i j A là giá trị ngữ nghĩa của biến đầu vào y i là hàm tuyến tính i j p là các thông số của hàm tuyến tính đầu ra Các biến đầu vào x 1 , x 2 là các biến thể hiện các đại lượng vật lý của hệ thống, cũng có thể là thời gian xử lý và độ ưu tiên (hoặc trọng số) trong khi biến đầu ra y k (với k = 1, 2, …, K) là đại lượng vật lý của đầu ra, có thể là chỉ số khả năng lựa chọn (hoặc chỉ số tuần tự) của luật k. k A 1 và k A 2 (với k = 1, 2, …, K) là các giá trị ngữ nghĩa của phần điều kiện của luật k nhận được bằng cách chiếu các cụm vào các miền của các đại lượng vật lý đầu vào hoặc là thời gian xử lý và độ ưu tiên tương ứng và k i p (với i = 1, 2; k = 1, 2, …, K) là các hằng của hàm tuyến tính đầu ra theo Sugeno. 2.2. Phân cụm trừ Phân cụm trừ (subtractive clustering) xác định các tâm cụm dựa trên mật độ các điểm lân cận. Xét một tập hợp dữ liệu gồm n điểm: 1 2 n , , , X x x x (2) Hàm tính mật độ cho một điểm dữ liệu là: n j xx r i ji a eP 1 4 2 2 (3) Trong đó: P i : Mật độ các điểm bao quanh điểm dữ liệu thứ i. r a : là một hằng số dương hay còn gọi là bán kính cụm. . : Khoảng cách Euclid giữa điểm dữ liệu thứ i với các điểm bao quanh. Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 103 Mã bài: 28 Khi mật độ của tất cả các điểm dữ liệu đã được tính, lựa chọn điểm có mật độ lớn nhất làm tâm cụm thứ nhất. Gọi * 1 x là vị trí tâm cụm đầu tiên, có mật độ là * 1 P thì * 1 1 ax n i i P m P . Tính lại mật độ cho các điểm dữ liệu theo công thức: 2 * 1 2 4 * 1 ; 1, , i b x x r i i P P P e i n (4) Và r b thường được chọn là ab rr 5.1 , tiếp tục chọn điểm có mật độ lớn nhất làm tâm cụm thứ 2. Trong trường hợp tổng quát khi đã có k tâm cụm thì mật độ của các điểm dữ liệu còn lại được tính theo công thức: 2 * 2 4 * ; 1, , i k b x x r i i k P P P e i n (5) Sử dụng 2 điểm cận là cận dưới ef * r P e và cận trên ef * r P e , với P ref là mật độ của tâm cụm thứ k, trong đó e và e lần lượt được gọi là hằng số chấp nhận và hằng số từ chối, thường được chọn lần lượt là 0.5 và 0.15. Một tâm cụm mới được chọn nếu điểm đó có mật độ lớn hơn cận trên. Nếu điểm có mật độ lớn nhất nhỏ hơn cận dưới thì thuật toán dừng. Phân cụm trừ bao gồm các thông số chủ yếu sau e , e , h , a r . Các thông số đó thường được chọn như sau: 0.3≥ a r ≥0.15; 1.5≥ h ≥1.25. Biểu diễn thuật toán: Các bước của thuật toán như sau Bước 1: Khởi tạo a r , h với b a r r h , e và e . Bước 2: Tính mật độ cho các điểm dữ liệu theo công thức (3). Chọn điểm có mật độ lớn nhất làm tâm cụm thứ nhất i n i PP 1 * 1 max và * 1 x là tâm cụm thứ nhất . Bước 3: Tính toán lại mật độ cho các điểm dữ liệu còn lại theo công thức (4). Bước 4: Gọi x * là điểm có mật độ lớn nhất là P * . - Nếu * e f r P P e : * x là một tâm cụm mới và tiếp tục bước 3. - Ngược lại nếu * ef r P P e : chuyển sang bước 5 - Ngược lại: + min d khoảng cách nhỏ nhất giữa * x và các tâm cụm trước đó. + Nếu 1 * min ref a P P r d : * x là một tâm cụm mới và tiếp tục bước 3. + Ngược lại: Thiết lập 0)( * xP . Chọn x* có mật độ P* lớn nhất và tiếp tục bước 4. Bước 5: Đưa ra các cụm kết quả. Khi đó, độ thuộc của điểm x i đối với một tâm cụm thứ k được xác định theo công thức (6): 2 2 4 i k a x x r ik e (6) 2.3 Tối ưu các thông số cho luật điều khiển mờ Các tham số tối ưu từ (1) được xác định bằng cách sử dụng bộ dữ liệu (x 1t , x 2t , y t ) với t = 1, 2, …, m. dữ liệu ra có thể được viết: K k k t k t K k k t K k k t k t t y w yw y 1 1 1 (7) Trong đó: t kk t xAw 11 ( t k xA 22 ) và K k k t k t k t ww 1 / Dưới dạng ma trận, đầu ra hệ thống là [2]: PXY (8) Ma trận đầu vào X được xác định ở từng luật là: m K mmmm K mmm K mm KKK xxxx xxxx X 22 1 11 11 21121 1 111111 1 11 1 1 , ,,, ,,, , , ,,, ,,, , (9) Với ma trận đầu ra được biết là: T m yyY , , 1 Khi đó ma trận P xác định theo bình phương cực tiểu là: YXXXP TT (10) 104 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng VCM2012 Các thông số của (1) cũng có thể xác định tối ưu theo phương pháp sử dụng giải thuật di truyền (H 3.) 3. Quá trình tực nghiệm 3.1 Áp dụng cho điều khiển con lắc ngược Quá trình thực nghiệm được thực hiện trên tập dữ liệu đặc trưng của các bộ điều khiển được thu thập qua dữ liệu thu nhận được từ sai lệch điều khiển và tác động điều khiển H1. Phương trình con lắc ngược có dạng (11): 1 2 22 21 11 22 2 212 21 cos cos sincossin x mM Lm mLIu mM xmL xx nM Lm xxmgLx xx (11) và được biểu diễn theo các thành phần sau: : B = 1 2 22 2 cos x mM Lm mLI f(x) = [mgLsin x 1 -x 2 2 m 2 L 2 cos x1sin x1/M+m]/B b = [mLcosx1/(M + m)]/B. Với L = 0.5 m, m = 50 g, M = 1 kg, xd = 0; 0 d x ; g = 9.8 m/s 0 5 10 15 20 25 -0.2 -0.1 0 0.1 0.2 0 5 10 15 20 25 0 0.2 0.4 0.6 0.8 H. 1 Tập dữ liệu cho phân cụm H. 2 Các luật được hình thanh qua phân cụm H. 3 Sơ dồ thuật tóan cho tìm kiếm tối ưu thông số Khởi tạo ngẫu nhiên quần thể Ch ấ p nh ậ n Đạt Ch ọn l ọc Lai t ạo D ột b i ến Kết thúc Bắt đầu Yes No Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 105 Mã bài: 28 -0.1 -0.05 0 0.05 0.1 0.15 0 0.05 0.1 0.15 -0.5 0 0.5 in1 in2 out1 -0.1 0 0.1 0 0.2 0.4 0.6 0.8 1 in1 Degree of membership in1cluster1in1cluster2in1cluster3 Ham thuoc dau vao 1 cho phan cum tru 0 0.05 0.1 0.15 0 0.2 0.4 0.6 0.8 1 in2 Degree of membership in2cluster1in2cluster2in2cluster3 Ham thuoc dau vao 2 cho phan cum tru H. 4 a) Ma trận suy diễn và b) Các hàm thuộc đầu vào in1, in2 theo cụm b) H. 5 a) Tín hiệu ra tiệm cận với tín hiệu yêu cầu b) Tác động điều khiển và sai lệch điều khiển Trên các hình 1 là tập dữ liệu đầu vào, Các dữ liệu đó đwojc phân cụm trừ mờ theo các luật ở hình 2a. Hàm thuộc của các luật và mặt suy diễn thể hiện trên hình 4a,b. Hình 5a là kết quả mô phỏng đáp ứng ra bám tín hiệu yêu cầu. điều khiển 3.2 Áp dụng cho điều khiển một hệ thống nhiệt Phương trình hệ thống nhiệt có dạng như sau (12): y(k+1)=ay(k)+b/(1+exp(0.5y(k)-r))u(k)+(1-a)y 0 (12) với a=exp(-pTs) ; b=(q/p)(1-exp(pTs)) Ts=25;r=40;y 0 =25;p=1.00151*10 (-4) ;q=8.6797*10 (-3) a) 0 10 20 30 40 50 60 70 80 90 100 20 30 40 50 60 0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 30 35 40 45 50 55 30 40 50 -200 0 200 in1 in2 out1 30 40 50 0 0.2 0.4 0.6 0.8 1 in1 Degree of membership in1cluster1 in1cluster2in1cluster3in1cluster4in1cluster5in1cluster6in1cluster7 in1cluster8in1cluster9in1cluster10in1cluster11in1cluster12in1cluster13 in1cluster14in1cluster15in1cluster16in1cluster17in1cluster18in1cluster19 in1cluster20in1cluster21 Ham thuoc dau vao 1 cho phan cum tru 30 40 50 0 0.2 0.4 0.6 0.8 1 in2 Degree of membership in2cluster1 in2cluster2in2cluster3in2cluster4in2cluster5in2cluster6in2cluster7 in2cluster8in2cluster9in2cluster10in2cluster11in2cluster12in2cluster13 in2cluster14in2cluster15in2cluster16in2cluster17in2cluster18in2cluster19 in2cluster20in2cluster21 Ham thuoc dau vao 2 cho phan cum tru H. 6 a) Tập dữ liệu đầu vào b) Ma trận suy diễn, Các hàm thuộc đầu vào in1, in2 theo cụm 0 20 40 60 80 100 120 140 160 180 0 10 20 30 40 50 60 70 80 H. 7 a) Tín hiệu ra tiệm cận với tín hiệu yêu cầu b) Tác động điều khiển Trên các hình 6a là các dữ liệu đầu vào, 6b là các hàm thuộc được phân theo cụm. Trên hình 7a (trên) là tín hiệu điều khiển bám quỹ đạo và 7b (dưới) là tín hiệu điều khiển. 4. Kết luận Bài báo trình bầy một phương pháp thiết kết hệ điều khiển theo phân cụm trừ mờ và giải thuật di truyền từ dữ liệu. Các kết quả của thuật toán được mô phỏng cho hai đối tượng điều khiển là con lắc ngược và lò nhiệt. Các kết quả mô phỏng cho thấy thuật toán điều khiển đề xuất đáp ứng được các chỉ tiêu của quá trình điều khiển. Việc thiết kế các hệ điều khiển từ dữ liệu là một trong những quan tâm rộng lớn trong thời gian gần đây và rất phù hợp với thực tế và đây cũang là một hướng nghiên cứu mới cần được quan tâm. Tài liệu tham khảo [1] Trần Mạnh Tuấn, Lê Bá Dũng, Markov model in proving the convergence of fuzzy genetic algorithm, accepted for presentation at the 2012 International Conference on Systems and Informatics (ICSAI2012) to be held from 19 to 20 May 2012, Yantai, China và Báo cáo tại Hội nghị CNTT và truyền thông, Cần thơ 10/2011 [2] S. L. Chiu, Fuzzy Model Identification Based on Cluster Estimation,Journal on Intelligent Fuzzy Systems, vol. 2, pp.267_278, 1994. [3] S. L. Chiu, Extracting Fuzzy Rules from Data for Function Approximation and Pattern Classification, Fuzzy Information Engineering: a Guide Tour of Applications, pp.149_162 (Chapter 9). D.Dubois, H. Prade, R.R. Yager (Eds.), Wiley, New York, 1997. [4] Demirli, K., S. X. Cheng, and P. Muthukumaran, Subtractive Clustering Based Modeling of Job Sequencing with Parametric Search, Fuzzy Sets and Systems. 137: 235-270, 2003. [5] JunYing Chen, Zheng Qin and Ji Jia,A Weighted Mean Subtractive Clustering 106 Nguyễn Phương Huy, Trần Mạnh Tuấn, Lê Bá Dũng VCM2012 Algorithm, Information Technology Journal 7 (2): 356-360, ISSN 1812-5638, 2008. [6] Mohammad GhasemiGol, Hadi Saoghi Yazdi, Reza Monsefi, A New Hierarchical Clustering Algorithm on Fuzzy Data (FHCA), International Journal of coputer and electrical engineering, Vol.2, No.1, February, 2010. [7] Agus Priyono, Muhammad Ridwad Jais Alias, Riza AtiQ O.K.Rahmat, Azmi Hassan, Mohd.Alauddin Mohd.Ali, Generation of fuzzy rules with subtractive clusterring, Universiti Teknologi Malaysia, Jurnal Teknologi, 43(D) Dis.2005:143-153 [8] Siamak Tafazoli, Mathieu Leduc and Xuehong Sun, Hysteresis Modeling using Fuzzy Subtractive Clutering, International Journal of Computational Cognition, Vol.4, No.3, September 2006 [9] C.D.Doan, S.Y.Liong and Dulakshi S.K.Karunasinghe, Derivation of effective and effcient data set with subtractive clustering method and genetic algorithm, Journal of Hydroinfomatics, 07.4.2005 [10] Lothar M.Schmitt, Fundamental Study Theory of genetic algorithms, Theoretical Computer Science 59 (2001) 1-61 [11] Gunter Rudolph, Convergence Analysis of Canonical Genetic Algorithms, IEEE transaction on neural networks, vol.5, No.1, January 1994 [12] Mohanad Alata, Mohammad Molhim, and Abdullah Ramini, Optimizing of Fuzzy C- Means Clustering Algorithm Using GA, World Academy of Science, Engineering and Technology, pages 224-229, 39 2008, . trung vào phân tích phương pháp phân cụm trừ dữ liệu để tạo ra các luật mờ kết hợp sử dụng giải thuật di truyền để tối ưu hóa các thông số của hệ luật. Từ khóa: phân cụm trừ mờ, giải thuật di truyền, . công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 101 Mã bài: 28 Phân cụm trừ mờ và giải thuật di truyền ứng dụng cho bài toán thiết kế hệ điều khiển tự động từ dữ liệu An Application of. dụng, ví dụ giải thuật GA K-means được sử dụng trong bài toán thị trường mua sắm trực tuyến do Kyoung-jae Kim và Hyunchul Ahn đưa ra là thuật toán sử dụng K- means kết hợp với giải thuật di