Mạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễn mờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng của khai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy Adaptive Resonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn các phương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm của Fuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụm cho các tập dữ liệu đạt độ chính xác cao nhất.
Nơng Thị Hoa Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53 SỬ DỤNG MẠNG NƠRON NHÂN TẠO FUZZY ART ĐỂ PHÂN CỤM DỮ LIỆU Nông Thị Hoa1*, Hồng Trọng Vĩnh2 Trường Đại học Cơng nghệ Thông tin & Truyền thông - ĐH Thái Nguyên Cơng ty FPT software TĨM TẮT Mạng nơron mờ mạng nơron nhân tạo mà phối hợp khái niệm mờ, luật suy diễn mờ với kiến trúc việc học mạng nơron Phân cụm liệu công cụ quan trọng khai thác liệu tìm tri thức số lượng lớn liệu Fuzzy ART (Fuzzy Adaptive Resonance Theory) mạng nơron mờ mà giải toán phân cụm liệu tốt phương pháp phân cụm truyền thống Trong nghiên cứu này, chúng tơi phân tích ưu điểm Fuzzy ART hướng dẫn chọn tham số mơ hình Fuzzy ART để giải toán phân cụm cho tập liệu đạt độ xác cao Các thực nghiệm làm với tập liệu chuẩn sở liệu UCI để chứng minh tính hiệu Fuzzy ART Kết thực nghiệm cho thấy Fuzzy ART cho kết phân cụm với độ xác cao Từ khóa: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, Clustering GIỚI THIỆU* Phân cụm liệu công cụ quan trọng khai thác liệu tìm tri thức số lượng lớn liệu Hơn nữa, phân cụm tổng hợp số lượng lớn liệu số lượng nhỏ nhóm nên phân cụm có ích cho cho việc hiểu số lượng lớn liệu Một số phương pháp phân cụm truyền thống đưa K-mean [2], phân cụm phân cấp [3], mơ hình SOM [6] độ phức tạp tính tốn phương pháp lớn Fuzzy ART [1] mạng nơron mờ có ưu điểm gồm: Học liệu huấn luyện thỏa mãn điều kiện định, sinh nhóm mà khơng phá vỡ nhóm tồn tại, dễ dàng lựa chọn tham số mạng Do đó, Fuzzy ART phân cụm liệu với độ xác cao giảm đáng kể độ phức tạp tính tốn BÀI TỐN PHÂN CỤM DỮ LIỆU Phát biểu tốn Cho tập liệu D Mỗi liệu I tập D biểu diễn véc tơ có M phần tử Mỗi thành phần I nằm khoảng [0, 1] Khi ta có: I=(I1, …., IM ) * Tel: 01238 492 484 Tập D có p nhóm Mỗi nhóm có véc tơ trọng số W gồm có M phần tử Khi véc tơ trọng số nhóm k biểu diễn sau: Wk=(Wk1, …., IkM ) Mỗi liệu I thuộc nhóm h định Yêu cầu: Dựa vào tương đồng liệu I véc tơ trọng số W nhóm để phân liệu I vào nhóm h Một số phương pháp giải truyền thống Teuvo Kohonen [6] đưa mơ hình q trình tự tổ chức mà gọi mơ hình SOM SOM mạng nơ ron nhân tạo thực học không giám sát để tạo biểu diễn cho không gian liệu vào với số chiều thấp M.Queen [2] đưa thuật toán K-mean mà phân chia tập liệu vào số cụm định việc cực tiểu hàm lỗi bình phương Sau đó, trọng số cụm cập nhật giá trị trung bình mẫu phân cụm Johnson [3] đưa thuật toán phân cụm phân cấp dựa vào nhập lại hai cụm gần Tuy nhiên phương pháp có độ phức tạp tính tốn cao việc ln tính lại trọng số phân lớp xét liệu huấn luyện 49 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nông Thị Hoa Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ FUZZY ART Mơ hình mạng ART Các mạng nơron ART phát triển Grossberg [4][5] để giải vấn đề tượng ổn định-linh hoạt Mạng ART thuật tốn học tăng cường nên mạng ART thích nghi với liệu Ở thời điểm, mạng ART không cho phép thay đổi mẫu lưu mẫu vào khớp với mẫu lưu với mức nhiễu định Nghĩa là, mạng ART có tính linh hoạt ổn định Một phân nhóm hình thành môi trường không khớp với mẫu lưu, môi trường thay đổi mẫu lưu trừ tương tự chúng đạt đến mức đặt trước Cấu trúc chung mạng ART thể Hình 106(06): 49 - 53 • tham số chọn α> 0; • tham số tốc độ học β∈[0, 1] • tham số ngưỡng ∈[0, 1]; Nội dung thuật tốn trình bày sau: Bước 1: Khởi tạo véc tơ trọng số phân lớp j tương ứng với véc tơ Wj= (Wj1, , WjM) trọng số thích nghi hay vết nhớ dài hạn Số nhóm tiềm N (j = i, , N) Khởi tạo (1) nhóm coi chưa hình thành Sau nhóm chọn để mã hóa, nhóm hình thành Như biểu diễn đây, vết nhớ dài hạn Wji không tăng dần theo thời gian Wji hội tụ tới giới hạn Bước 2: Lựa chọn nhóm chiến thắng: Với liệu vào I nhóm j, hàm chọn Tj định nghĩa (2) Hình 1: Mơ hình đơn giản mạng ART Một mạng ART điển hình có hai tầng: tầng liệu vào (F1) tầng liệu (F2) Tầng liệu vào chứa N nút với N số lượng mẫu liệu vào Số lượng nút tầng liệu động Mỗi nút tầng có véc tơ kiểu tương ứng Tính động mạng điều khiển hai hệ thống con: hệ thống ý hệ thống định hướng Hệ thống ý đưa nơron chiến thắng (hay nhóm) hệ thống định hướng định nhóm chấp nhận hay khơng chấp nhận liệu vào Mạng trạng thái cộng hưởng hệ thống định hướng chấp nhận nhóm chiến thắng, nghĩa véc tơ kiểu chiến thắng khớp đủ gần với mẫu liệu vào Thuật toán Fuzzy ART Thuật toán Carpenter trình bày ngắn gọn [1] Sau ba tham số thể tính động mơ hình Fuzzy ART: với phép toán AND, ⋏, logic mờ định nghĩa: (3) với dạng định nghĩa: (4) Để đơn giản việc ký hiệu, Tj(I) Công thức thường viết Tj liệu vào I cố định Sự chọn nhóm gắn số j, với (5) Nếu có nhiều Tj cực đại nhóm j với số nhỏ chọn Cụ thể hơn, nút hình thành theo thứ tự j = 1, 2, 3, Bước 3: Kiểm tra trạng thái mạng cộng hưởng hay thiết lập lại: Cộng hưởng xuất hàm đối chiếu nhóm chọn đạt điều kiện ngưỡng Điều kiện là: (6) Sau việc học diễn 50 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn Nơng Thị Hoa Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Thiết lập lại xuất (7) Sau đó, giá trị hàm chọn Tj thiết lập -1 cho biểu diễn liệu vào để ngăn lựa chọn lại liệu vào trình tìm kiếm Một số j chọn Cơng thức Q trình tìm kiếm tiếp tục j chọn thỏa mãn Công thức Nếu khơng có nhóm tồn thỏa mãn điều Cơng thức nhóm j sinh đặt Bước 4: Học liệu huấn luyện: :Véc tơ trọng số Wj cập nhật theo công thức (8) Phân cụm liệu Fuzzy ART: Chọn tập (D’) mẫu từ tập D Dùng tập D’ để Fuzzy ART huấn luyện Sau dùng tập liệu lại để kiểm tra khả phân cụm Fuzzy ART Để tăng hiệu việc học chọn nhiều tập khác để huấn luyện dùng phần liệu để kiểm tra khả phân cụm PHÂN TÍCH CÁC ƯU ĐIỂM VÀ HƯỚNG DẪN CHỌN CÁC THAM SỐ CHO FUZZY ART Các ưu điểm Fuzzy ART để giải toán phân cụm liệu Việc dùng mơ hình Fuzzy ART vào phân cụm liệu tận dụng hết ưu điểm Fuzzy ART Thứ nhất, Fuzzy ART học liệu huấn luyện để hình thành nhóm mức độ tương đồng liệu huấn luyện nhóm đạt đến ngưỡng định Điều kiện điều chỉnh để chất lượng nhóm cao Thứ hai, Fuzzy ART sinh nhóm mức độ tương đồng liệu huấn luyện nhóm khơng đạt ngưỡng tương đồng Do nhóm hình thành nên làm giảm chồng chéo nhóm Thứ ba, tham số Fuzzy ART lựa chọn dễ dàng miền giá trị ba tham số 106(06): 49 - 53 nằm miền [0, 1] chọn giá trị thích hợp hướng dẫn phần Theo phân tích trên, thấy Fuzzy ART giải tốt toán phân cụm hai lý sau: Fuzzy ART thiết kế để phân cụm liệu dễ dàng chọn tham số Fuzzy ART để khả phân cụm cao Hơn nữa, Fuzzy ART cập nhật trọng số nhóm chọn trọng số nhóm khơng phụ thuộc vào mẫu xét thuộc nhóm nên độ phức tạp tính tốn Fuzzy ART giảm nhiều so với phương pháp phân cụm truyền thống Nói cách khác, việc áp dụng Fuzzy ART cho toán phân cụm liệu hiệu mặt chất lượng giảm thời gian tính tốn Hướng dẫn chọn giá trị cho tham số Fuzzy ART Việc lựa chọn giá trị cho tham số để Fuzzy ART có khả phân cụm cao đơn giản Theo Công thức (2), α lớn khả liệu huấn luyện chọn vào nhóm lại giảm ngược lại Do tùy vào mục đích tốn phân cụm cần phân cụm thơ hay độ xác cao, chọn α nhỏ hay lớn Tham số β thể tốc độ học mơ hình Nói cách khác, β thể mức độ ảnh hưởng liệu huấn luyện đến trọng số nhóm Theo Cơng thức (8), β lớn ảnh hưởng liệu huấn luyện nhiều ngược lại Do tùy vào tính chất liệu tập mẫu, chọn β lớn liệu tập mẫu chuẩn chọn β nhỏ tập mẫu có chứa mẫu dị thường Theo Cơng thức (6), ρ lớn tương đồng liệu huấn luyện nhóm cao Do đó, chọn ρ thích hợp ứng với tính chất tập liệu cần phân cụm Nói cách khác, liệu phân bố rời rạc có nhiều liệu dị thường nên chọn ρ nhỏ ngược lại 51 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nơng Thị Hoa Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ KẾT QUẢ THỰC NGHIỆM Chúng tơi chọn tập liệu chuẩn từ sở liệu UCI1 Shape2 bao gồm Iris, Wine, Jain, Flame, R15 Các tập liệu khác từ số thuộc tính, số phân cụm, số mẫu huấn luyện, phân bố mẫu phân cụm Bảng thể thông tin tập liệu chọn Bảng 1: Đặc trưng tập liệu Thứ tự Tên tập liệu Iris Glass Wine Jain R15 Số phân cụm 15 Số thuộc tính 13 2 Số mẫu 150 214 178 373 600 106(06): 49 - 53 thực nghiệm với tập mẫu Flame Các kết thể Fuzzy ART có tỉ lệ phân cụm liệu từ 84.6% đến 100% Kết cho thấy Fuzzy ART phân lớp đạt hiệu cao với tập Flame Bảng 3: Tỷ lệ phần trăm mẫu phân cụm tập mẫu Flame Số mẫu 50 100 150 200 240 Kết 100 98.0 98.7 95 84.6 Kiểm tra với tập R15 Sự phân bố số mẫu 15 nhóm đồng đếu nhóm có 40 mẫu Bảng thể kết thực nghiệm với tập mẫu R15 Các kết thể Fuzzy ART có tỉ lệ phân cụm liệu từ 95.3% đến 97.3% Kết cho thấy Fuzzy ART phân lớp đạt hiệu cao với tập R15 Dữ liệu tập liệu chuẩn hóa miền [0,1] Chúng xác định giá trị tham số mơ hình để đạt kết phân cụm cao với α=0.5, β=0.1 ρ=0.4 Với tập liệu, làm thử nghiệm với số lượng mẫu tăng dần Tỷ lệ phần trăm mẫu phân cụm thể bảng tương ứng với tập liệu Kiểm tra với tập Iris Sự phân bố số mẫu ba nhóm đồng đếu nhóm có 50 mẫu Bảng thể kết thực nghiệm với tập mẫu Iris Các kết thể Fuzzy ART có tỉ lệ phân cụm liệu từ 93.3% đến 100% Kết cho thấy Fuzzy ART phân lớp đạt hiệu cao với tập Iris Kiểm tra với tập Wine Sự phân bố số mẫu ba nhóm 59, 71, 48 Bảng thể kết thực nghiệm với tập mẫu Wine Các kết thể Fuzzy ART có tỉ lệ phân cụm liệu từ 76.7% đến 100% Kết cho thấy Fuzzy ART phân lớp đạt hiệu cao với tập Wine Bảng 2: Tỷ lệ phần trăm mẫu phân cụm tập mẫu Iris Bảng 5: Tỷ lệ phần trăm mẫu phân cụm tập mẫu Wine Số mẫu Kết 30 60 90 120 150 100 98.3 93.3 95 96 Kiểm tra với tập Flame Sự phân bố số mẫu hai nhóm 87 153 Các số liệu từ Bảng thể kết Dữ liệu địa http:// archive.ics.uci.edu/ml/ datasets Dữ liệu địa http://cs.joensuu.fi/sipu/datasets/ Bảng 4: Tỷ lệ phần trăm mẫu phân cụm tập mẫu R15 Số mẫu 100 200 300 400 500 600 Kết 96 95.5 95.3 96 96.8 97.3 Số mẫu Kết 30 60 90 120 150 178 100 98.3 83.3 76.7 77.3 77.5 Kiểm tra với tập Jain Sự phân bố số mẫu hai nhóm 276 97 Các số liệu từ Bảng thể kết thực nghiệm với tập mẫu Jain Các kết thể Fuzzy ART có tỉ lệ phân cụm liệu từ 94.6% đến 99.6% Kết 52 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nông Thị Hoa Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ cho thấy Fuzzy ART phân lớp đạt hiệu cao với tập Jain Bảng 6: Tỷ lệ phần trăm mẫu phân cụm tập mẫu Jain Số mẫu 100 200 300 373 Kết 99 99.5 96.3 94.6 Việc lựa chọn ba tham số α, β, ρ kết phân cụm thực nghiệm cho thấy Fuzzy ART giải hiệu toán phân cụm liệu với tỷ lệ % phân cụm cao 95% hầu hết kiểm tra KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng sử dụng thành cơng mơ hình Fuzzy ART cho nhiệm vụ phân cụm liệu với việc lựa tham số mô hình để đạt kết phân cụm cao Kết thực nghiệm cho thấy độ xác nhóm Fuzzy phân cụm cao hầu hết trường hợp Hiện nay, thử nghiệm cho kết cao để khả phân cụm Fuzzy ART xác cần thiết kế thêm thuật tốn để tìm giá trị thích hợp cho tham số tùy vào tập liệu mẫu 106(06): 49 - 53 TÀI LIỆU THAM KHẢO G Carpenter, S Grossberg, and D B Rosen (1991), “Fuzzy ART: Fast Stable Learning and Categorization of Analog Patterns by an Adaptive Resonance System,” Neural Networks, vol 4, pp 759–771 J.B.MacQueen (1967), “Some methods for classification and analysis of multivariate observations,” Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, no 1, pp 281–297 S C Johnson (1967), "Hierarchical Clustering Schemes," Psychometrika, vol 32, issue 3, pp 241-254 S Grossberg (1976), “Adaptive pattern classification and universal recoding, II: Feedback, expectation, olfaction and illusions,” Biological Cybernetics, 23, 187-212 S Grossberg (1980), “How does a brain build a cognitive code”, Studies of mind and brain: Neural principles of learning, perception, development, cognition, and motor control (Chap I) Boston, MA: Reidel Press T Kohonen (1982), “Self-Organizing Formation of Topologically Correct Feature Maps,” Biological Cybernetics, Springer-Verlag, vol 69, pp 59–69 SUMMARY USING FUZZY ART NEURAL NETWORK FOR CLUTERING DATA Nong Thi Hoa1*, Hoang Trong Vinh2 College of Information Technology & Communication - TNU FPT software company Fuzzy neural network is an artificial neural network that combines fuzzy concepts, fuzzy inference rule with structure and learning ability of neural network Clustering is an important tool in data mining and knowledge discovery Fuzzy ART (Fuzzy Adaptive Resonance Theory) is a fuzzy neural network that solves effectively clustering problem Fuzzy ART clusters better than traditional methods based on three following advantages: Learning data until satisfying a given conddition, creating a new category without affecting to existing categories, and easily choosing parameters of Fuzzy ART In this papper, we apply Fuzzy ART for clustering brenchmark datasets After showing results of experiments, we present guide to choose suitable values for parameters of Fuzzy ART that the ability of clustering is the highest Then, we analysis the advantages of Fuzzy ART when it is applied to clustering data Results from experiments also show that Fuzzy ART cluster much effectively for clustering problems Key words: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, Clustering Ngày nhận bài: 15/5/2013; Ngày phản biện: 20/5/2013; Ngày duyệt đăng:26/7/2013 * Tel: 01238 492 484 53 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... FUZZY ART Các ưu điểm Fuzzy ART để giải toán phân cụm liệu Việc dùng mơ hình Fuzzy ART vào phân cụm liệu tận dụng hết ưu điểm Fuzzy ART Thứ nhất, Fuzzy ART học liệu huấn luyện để hình thành nhóm... cho thấy Fuzzy ART giải hiệu toán phân cụm liệu với tỷ lệ % phân cụm cao 95% hầu hết kiểm tra KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng sử dụng thành cơng mơ hình Fuzzy ART cho nhiệm vụ phân cụm liệu với... CƠNG NGHỆ FUZZY ART Mơ hình mạng ART Các mạng nơron ART phát triển Grossberg [4][5] để giải vấn đề tượng ổn định-linh hoạt Mạng ART thuật toán học tăng cường nên mạng ART thích nghi với liệu Ở thời