Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng

45 532 0
Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH MINH HOẠ Chƣơng - TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KPDL AN HỒNG SƠN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ VÀ ỨNG DỤNG 1.1 Giới thiệu chung khám phá tri thức khai phá liệu 1.2 Quá trình khám phá tri thức 1.3 Quá trình khai phá liệu 1.4 Các phƣơng pháp khai phá liệu 1.5 Các lĩnh vực ứng dụng thực tiễn KPDL 10 1.6 Các hƣớng tiếp cận kỹ thuật áp dụng KPDL 11 1.7 Các thách thức - khó khăn KPTT KPDL 12 1.8 Kết luận 12 Chƣơng - PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PCDL 13 CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 2.1 Khái niệm mục tiêu phân cụm liệu 13 2.2 Các ứng dụng phân cụm liệu 15 2.3 Các yêu cầu phân cụm 16 2.4 Những kỹ thuật tiếp cận phân cụm liệu 18 LUẬN VĂN THẠC SĨ KHOA HỌC HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO 2.5 THÁI NGUYÊN - 2008 2.4.1 Phƣơng pháp phân cụm phân hoạch 19 2.4.2 Phƣơng pháp phân cụm phân cấp 19 2.4.3 Phƣơng pháp phân cụm dựa mật độ 20 2.4.4 Phƣơng pháp phân cụm dựa lƣới 21 2.4.5 Phƣơng pháp phân cụm dựa mô hình 22 2.4.6 Phƣơng pháp phân cụm có liệu ràng buộc 22 Một số thuật toán phân cụm liệu 24 2.5.1 Các thuật toán phân cụm phân hoạch 24 2.5.2 Các thuật toán phân cụm phân cấp 26 2.5.3 Các thuật toán phân cụm dựa mật độ 29 2.5.4 Các thuật toán phân cụm dựa lƣới 32 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.5.5 Các thuật toán phân cụm dựa mô hình 35 2.5.6 Các thuật toán phân cụm có liệu ràng buộc 36 4.4.1 Xây dựng lớp mạng Layer1 cho tối ƣu trung tâm cụm 65 Chƣơng - KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ 37 4.4.2 Xây dựng lớp mạng Layer2 cho tối ƣu độ thuộc 68 3.1 Tổng quan phân cụm mờ 37 3.2 Các thuật toán phân cụm mờ 38 3.2.1 3.2.1.2 Thuật toán FCM 42 Thuật toán FCM(ε- Insensitive Fuzzy C-means) 46 3.2.2.1 Hàm mục tiêu 46 3.2.3 4.5 Thuật toán FCM(Fuzzy C-means) 39 3.2.1.1 Hàm mục tiêu 39 3.2.2 4.4 4.6 Mạng Nơron đa khớp dùng cho phân cụm 63 Sự hội tụ FBACN 72 4.5.1 Chứng minh hội tụ FBACN 72 4.5.2 Sự hội tụ FBACN liên tục Layer1 74 Giải thuật FBACN FBACN với việc học 75 Chƣơng - CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG 79 5.1 Cài đặt thử nghiệm thuật toán FCM 79 5.2 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh 82 3.2.2.2 Thuật toán FCM 48 KẾT LUẬN 86 Thuật toán FCM Cải tiến 49 TÀI LIỆU THAM KHẢO 87 3.2.3.1 Thuật toán 1: Thuật toán lựa chọn điểm liệu làm ứng viên cho việc chọn trung tâm cụm 49 3.2.3.2 Thuật toán 2: Thuật toán lƣợc bớt ứng viên 51 3.2.3.3 Thuật toán 3: Thuật toán chọn ứng viên làm cực tiểu hàm mục tiêu 51 3.2.3.4 Thuật toán 4: Gán trung tâm có liên kết “gần gũi” vào cụm 52 3.2.3.5 Tổng kết thuật toán FCM-Cải tiến 56 Chƣơng - MÔ HÌNH MẠNG NƠRON ĐA KHỚP DÙNG CHO PCM 58 4.1 4.2 Tổng quan mạng Nơron 58 Cấu trúc mạng Nơron 61 4.2.1 Hàm kích hoạt 61 4.2.2 Liên kết mạng 61 Bài toán huấn luyện mạng 61 Mạng HOPFIELD 62 4.2.3 4.3 4.3.1 4.3.2 Huấn luyện mạng 62 Sử dụng mạng .63 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH MINH HOẠ CNTT Công nghệ thông tin Hình 1.1 Quá trình Khám phá tri thức CSDL Cơ sở liệu Hình 1.2 Quá trình Khai phá liệu CEF Computational Energy Function Hình 2.1 Mô tả tập liệu vay nợ đƣợc phân thành cụm 114 DL Dữ liệu Hình 2.2 Các chiến lƣợc phân cụm phân cấp .220 FBACN Fuzzy Bi-directional Associative Clustering Network Hình 2.3 Cấu trúc phân cấp 221 (Mạng Nơron đa khớp phục vụ cho phân cụm mờ) Hình 2.4 Các cách mà cụm đƣa 23 FCM Fuzzy C-Means Hình 2.5 Các thiết lập để xác định ranh giới cụm ban đầu 24 HMT Hàm mục tiêu Hình 2.6 Tính toán trọng tâm cụm 25 KPDL Khai phá liệu Hình 2.7 Khái quát thuật toán CURE 27 KPTT Khám phá tri thức Hình 2.8 Các cụm liệu đƣợc khám phá CURE 27 LKM Liên kết mạng Hình 2.9 Hình dạng cụm đƣợc khám phá TT DBSCAN 30 MH Mô hình Hình 3.1 Mô tập liệu đơn chiều 44 NDA Nhận dạng ảnh Hình 3.2 Hàm thuộc với trọng tâm cụm A k-means 44 NN Neural Network Hình 3.3 Hàm thuộc với trọng tâm cụm A FCM 45 PCM Phân cụm mờ Hình 3.4 Các cụm khám phá đƣợc thuật toán FCM 46 PCDL Phân cụm liệu Hình 4.1 Mô hình mạng Nơron 60 TLTK Tài liệu tham khảo Hình 4.2 Mô hình học có giám sát 62 TT Thuật toán Hình 4.3 Mô hình FBACN 64 XLA Xử lý ảnh Hình 4.4 Mô hình Lớp Layer1 FBACN 65 Hình 4.5 Mô hình Lớp Layer2 FBACN 69 Hình 5.1 Giao diện thuật toán FCM khởi động 80 Hình 5.2 Giao diện thuật toán FCM làm việc 81 Hình 5.3 Giao diện chƣơng trình khởi động 83 Hình 5.4 Giao diện chƣơng trình chọn ảnh để phân cụm 84 Hình 5.5 Giao diện chƣơng trình thực phân cụm 85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu bƣớc trình khám phá tri thức, gồm CHƢƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC thuật toán khai thác liệu chuyên dùng dƣới số qui định hiệu VÀ KHAI PHÁ DỮ LIỆU tính toán chấp nhận đƣợc để tìm mẫu mô hình liệu 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Giới thiệu chung khám phá tri thức khai phá liệu Quá trình khám phá tri thức Quá trình khai phá liệu Các phƣơng pháp khai phá liệu Các lĩnh vực ứng dụng thực tiễn KPDL 10 Các hƣớng tiếp cận kỹ thuật áp dụng KPDL 11 Các thách thức - khó khăn KPTT KPDL 12 Kết luận 12 1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mô hình tồn CSDL nhƣng ẩn khối lƣợng lớn liệu 1.2 Quá trình khám phá tri thức Nếu cho rằng, điện tử truyền thông chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thƣờng, coi liệu nhƣ chuỗi bits, số ký hiệu “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Các bits thƣờng đƣợc sử dụng để đo thông tin, xem nhƣ liệu đƣợc loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Tri thức đƣợc xem nhƣ thông tin tích hợp, bao gồm kiện mối quan hệ chúng, đƣợc nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức đƣợc coi liệu mức độ cao trừu tƣợng tổng quát Hình 1.1: Quá trình KPTT Bao gồm bƣớc sau: Làm liệu (Data Cleaning): Loại bỏ liệu nhiễu liệu không quán Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mô hình liệu với tính năng: Phân Tích hợp liệu (Data Intergation): Dữ liệu nhiều nguồn đƣợc tổ hợp lại tích, tổng hợp, hợp thức, khả ích hiểu đƣợc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lựa chọn liệu (Data Selection): Lựa chọn liệu phù hợp Thống kê tóm tắt với nhiệm vụ phân tích trích rút từ sở liệu Chuyển đổi liệu (Data Transformation): Dữ liệu đƣợc chuyển đổi hay đƣợc hợp dạng thích hợp cho việc khai phá Khai phá liệu (Data Mining): Đây tiến trình cốt yếu Xác định nhiệm vụ Xác định DL liên quan Thu thập tiền xử lý DL phƣơng pháp thông minh đƣợc áp dụng nhằm trích rút mẫu liệu Thuật toán KPD L DL trực tiếp Đánh giá mẫu (Pattern Evaluation): Dựa độ đo xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức Mẫu Hình 1.2: Quá trình KPDL Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn kỹ  Xác định nhiệm vụ: Xác định xác vấn đề cần giải thuật biểu diễn hiển thị đƣợc sử dụng để đƣa tri thức lấy cho ngƣời  Xác định liệu liên quan: Dùng để xây dựng giải pháp  Thu thập tiền xử lý liệu: Thu thập liệu liên quan dùng 1.3 tiền xử lý chúng cho thuật toán KPDL hiểu đƣợc Đây Quá trình khai phá liệu KPDL giai đoạn quan trọng trình KPTT Về chất, giai đoạn tìm đƣợc thông tin mới, thông tin tiềm ẩn có CSDL chủ yếu phục vụ cho mô tả dự đoán Mô tả liệu tổng kết diễn tả đặc điểm chung thuộc tính liệu kho liệu mà ngƣời hiểu đƣợc Dự đoán dựa liệu thời để dự đoán quy luật đƣợc phát từ mối liên hệ thuộc tính liệu sở chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến quan tâm Quá trình KPDL bao gồm bƣớc đƣợc thể nhƣ Hình 1.2 sau: trình khó khăn, gặp phải nhiều vƣớng mắc nhƣ: liệu phải đƣợc nhiều (nếu đƣợc chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại nhiều lần toàn trình (nếu mô hình liệu thay đổi), v.v  Thuật toán khai phá liệu: Lựa chọn thuật toán KPDL thực việc PKDL để tìm đƣợc mẫu có ý nghĩa, mẫu đƣợc biểu diễn dƣới dạng luật kết hợp, định tƣơng ứng với ý nghĩa 1.4 Các phƣơng pháp khai phá liệu Với hai mục đích khai phá dƣ liệu Mô tả Dự đoán, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu:  Luật kết hợp (association rules)  Phân lớp (Classfication)  Hồi qui (Regression)  Trực quan hóa (Visualiztion) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 11  Phân cụm (Clustering) 1.6 Các hƣớng tiếp cận kỹ thuật áp dụng KPDL Vấn đề khai phá liệu đƣợc phân chia theo lớp hƣớng tiếp  Tổng hợp (Summarization)  Mô hình ràng buộc (Dependency modeling) cận sau:  Biểu diễn mô hình (Model Evaluation) - Phân lớp dự đoán (classification &prediction): Là trình xếp đối  Phân tích phát triển độ lệch (Evolution and deviation tƣợng vào lớp biết trƣớc (ví dụ: phân lớp bệnh nhân theo liệu hồ sơ bệnh án, phân lớp vùng địa lý theo liệu thời tiết ) Đối analyst) với hƣớng tiếp cận thƣờng sử dụng số kỹ thuật học máy nhƣ  Phƣơng pháp tìm kiếm (Search Method) Có nhiều phƣơng pháp khai phá liệu đƣợc nghiên cứu trên, định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp có ba phƣơng pháp đƣợc nhà nghiên cứu sử dụng nhiều là: toán đƣơc gọi học có giám sát - Học có thày (supervised Luật kết hợp, Phân lớp liệu Phân cụm liệu learning) - Phân cụm (clustering/segmentation): Sắp xếp đối tƣợng theo cụm Các lĩnh vực ứng dụng thực tiễn KPDL liệu tự nhiên, tức số lƣợng tên cụm chƣa đƣợc biết trƣớc Các đối KPDL lĩnh vực phát triển nhƣng thu hút đƣợc nhiều nhà tƣợng đƣợc gom cụm cho mức độ tƣơng tự đối tƣợng nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh cụm lớn mức độ tƣơng tự đối tƣợng nằm vực ứng dụng thực tế điển hình KPDL: cụm khác nhỏ Lớp toán đƣợc gọi học không giám 1.5 - Phân tích liệu hỗ trợ định sát - Học không thày (unsupervised learning) - Phân lớp văn bản, tóm tắt văn bản, phân lớp trang Web phân - Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức dạng đơn giản (Ví dụ: 80% sinh viên đăng ký học CSDL có tới 60% số họ cụm ảnh màu - Chuẩn đoán triệu chứng, phƣơng pháp điều trị y học đăng ký học Phân tích thiết kế hệ thống thông tin) Hƣớng tiếp cận đƣợc - Tìm kiếm, đối sánh hệ Gene thông tin di truyền sinh học ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn - Phân tích tình hình tài chính, thị trƣờng, dự báo gía cổ phiếu tài thông, tài thị trƣờng chứng khoán, - Phân tích chuỗi theo thời gian (sequential/temporal patterns): Cũng tƣơng chính, thị trƣờng chứng khoán - Phân tích liệu marketing, khách hàng tự nhƣ khai phá liệu luật kết hợp nhƣng có thêm tính thứ tự tính - Điều khiển lập lịch trình thời gian Một luật mô tả mẫu có dạng tiêu biểu X -> Y, phản ánh - Bảo hiểm xuất biến cố X dẫn đến việc xuất biến cố Y Hƣớng tiếp cận - Giáo dục đƣợc ứng dụng nhiều lĩnh vực tài thị trƣờng chứng khoán chúng có tính dự báo cao Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 13 - Mô tả khái niệm (concept desccription & summarization): Lớp toán CHƢƠNG thiên mô tả, tổng hợp tóm tắt khái niệm (Ví dụ: tóm tắt văn bản) 1.7 Các thách thức - khó khăn KPTT KPDL KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần đƣợc quan tâm: + Các sở liệu lớn, tập liệu cần sử lý có kích thƣớc cực lớn, Trong thực tế, kích thƣớc tập liệu thƣờng mức tera-byte (hàng ngàn giga-byte) + Mức độ nhiễu cao liệu bị thiếu + Số chiều lớn + Thay đổi liệu tri thức làm cho mẫu phát không phù hợp + Quan hệ trƣờng phức tạp 1.8 Kết luận PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1 2.2 2.3 2.4 Khái niệm mục tiêu phân cụm liệu 13 Các ứng dụng phân cụm liệu 15 Các yêu cầu phân cụm 16 Những kỹ thuật tiếp cận phân cụm liệu 18 2.4.1 Phƣơng pháp phân cụm phân hoạch 19 2.4.2 Phƣơng pháp phân cụm phân cấp 19 2.4.3 Phƣơng pháp phân cụm dựa mật độ 20 2.4.4 Phƣơng pháp phân cụm dựa lƣới 21 2.4.5 Phƣơng pháp phân cụm dựa mô hình 22 2.4.6 Phƣơng pháp phân cụm có liệu ràng buộc 22 2.5 Một số thuật toán phân cụm liệu 24 2.5.1 Các thuật toán phân cụm phân hoạch 24 2.5.2 Các thuật toán phân cụm phân cấp 26 2.5.3 Các thuật toán phân cụm dựa mật độ 29 2.5.4 Các thuật toán phân cụm dựa lƣới 32 2.5.5 Các thuật toán phân cụm dựa mô hình 35 2.5.6 Các thuật toán phân cụm có liệu ràng buộc 36 2.1 KPDL lĩnh vực trở thành hƣớng nghiên cứu thu hút đƣợc quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phƣơng pháp thuật toán liên tục đƣợc công bố Điều chứng tỏ ƣu thế, lợi ích khả ứng dụng thực tế to lớn KPDL Chƣơng trình bày số kiến thức tổng quan KPTT, khái niệm kiến thức KPDL Khái niệm mục tiêu phân cụm liệu Phân cụm liệu trình nhóm tập đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc cụm tƣơng đồng đối tƣợng thuộc cụm khác không tƣơng đồng Phân cụm liệu ví dụ phƣơng pháp học thầy Không giống nhƣ phân lớp liệu, phân cụm liệu không đòi hỏi phải định nghĩa trƣớc mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ… Ngoài phân cụm liệu đƣợc sử dụng nhƣ bƣớc tiền xử lí cho thuật toán khai phá liệu khác nhƣ phân loại mô tả đặc điểm, có tác dụng việc phát cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 15 tƣơng ứng Ngoài ra, dò tìm phần tử ngoại lai hƣớng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tƣợng liệu khác thƣờng so với liệu CSDL, tức đối tƣợng liệu không tuân theo hành vi mô hình liệu nhằm tránh ảnh hƣởng chúng tới trình kết phân cụm Mục tiêu phân cụm xác định đƣợc chất nhóm tập DL chƣa có nhãn Nhƣng để định đƣợc tạo thành cụm tốt Nó đƣợc tiêu chuẩn tuyệt đối “tốt” mà không phụ thuộc vào kq phân cụm Vì vậy, đòi hỏi ngƣời sử dụng phải Hình 2.1: Mô tả tập liệu vay nợ đƣợc phân thành cụm Phân cụm có ý nghĩa quan trọng hoạt động ngƣời Ngay từ lúc bé, ngƣời học cách làm để phân biệt mèo chó, động vật thực vật liên tục đƣa vào sơ đồ phân loại tiềm thức Phân cụm đƣợc sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trƣờng Với tƣ cách chức khai phá liệu, phân tích phân cụm đƣợc sử dụng nhƣ công cụ độc lập chuẩn để quan sát đặc trƣng cụm thu đƣợc bên phân bố liệu tập trung vào tập riêng biệt cụm để giúp cho việc phân tích đạt kết Một vấn đề thƣờng gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trƣớc chuyển sang giai đoạn phân tích cụm liệu Nhiễu đƣợc hiểu đối tƣợng liệu không xác, không tƣờng minh đối tƣợng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lí nhiễu phổ biến việc cung cấp tiêu chuẩn này, theo cách mà kết phân cụm đáp ứng yêu cầu Theo nghiên cứu cho thấy chƣa có phƣơng pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc CDL Hơn nữa, phƣơng pháp phân cụm cần có cách thức biểu diễn cấu trúc CDL, với cách thức biểu diễn khác có tƣơng ứng thuật toán phân cụm phù hợp Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực KPDL 2.2 Các ứng dụng phân cụm liệu Phân cụm liệu đƣợc ứng dụng nhiều lĩnh vực nhƣ: Thương mại: Tìm kiếm nhóm khách hàng quan trọng có đặc trƣng tƣơng đồng đặc tả họ từ ghi mua bán CSDL Sinh học: Phân loại gen với chức tƣơng đồng thu đƣợc cấu trúc mẫu thay giá trị thuộc tính đối tƣợng nhiễu giá trị thuộc tính Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 16 17 Thư viện: Phân loại cụm sách có nội dung ý nghĩa tƣơng đồng để cung cấp cho độc giả không thứ tự), liệu có thứ tự hay dạng hỗn hợp kiểu liệu Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thƣờng cao, nhận dạng gian lận thƣơng mại Khám phá cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định cụm dựa phép đo khoảng cách Euclidean Quy hoạch đô thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lí, nhằm cung cấp thông tin cho quy hoạch đô thị khoảng cách Manhattan Các thuật toán dựa phép đo nhƣ hƣớng tới việc tìm kiếm cụm hình cầu với mật độ kích cỡ tƣơng Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm WWW: Có thể khám phá nhóm tài liệu quan trọng, có nhiều ý tự Tuy nhiên, cụm có hình dạng Do đó, việc phát triển thuật toán khám phá cụm có hình dạng việc làm quan trọng nghĩa môi trƣờng Web Các lớp tài liệu trợ giúp cho việc KPTT từ Tối thiểu lượng tri thức cần cho xác định tham số đầu vào: Nhiều liệu thuật toán phân cụm yêu cầu ngƣời dùng đƣa vào tham số định phân tích phân cụm (nhƣ số lƣợng cụm mong muốn) 2.3 Các yêu cầu phân cụm Kết phân cụm thƣờng nhạy cảm với tham số đầu vào Phân cụm thách thức lĩnh vực nghiên cứu chỗ Nhiều tham số khó để xác định, với tập liệu có lƣợng ứng dụng tiềm chúng đƣợc đƣa yêu cầu đối tƣợng lớn Điều gây trở ngại cho ngƣời dùng đặc biệt chúng Sau yêu cầu phân cụm mà làm cho khó điều chỉnh đƣợc chất lƣợng phân cụm KPDL: Khả thích nghi với liệu nhiễu: Hầu hết CSDL thực Có khả mở rộng: Nhiều thuật toán phân cụm làm việc tốt với chứa đựng liệu ngoại lai, liệu lỗi, liệu chƣa biết tập liệu nhỏ chứa 200 đối tƣợng, nhiên, CSDL liệu sai Một số thuật toán phân cụm nhạy cảm với liệu nhƣ lớn chứa tới hàng triệu đối tƣợng Việc phân cụm với tập dẫn đến chất lƣợng phân cụm thấp liệu lớn làm ảnh hƣởng tới kết Vậy làm cách để chúng Ít nhạy cảm với thứ tự liệu vào: Một số thuật toán phân ta phát triển thuật toán phân cụm có khả mở rộng cao cụm nhạy cảm với thứ tự liệu vào, ví dụ nhƣ với tập CSDL lớn ? liệu, đƣợc đƣa với thứ tự khác với thuật Khả thích nghi với kiểu thuộc tính khác nhau: Nhiều thuật toán sinh cụm khác Do đó, việc quan trọng toán đƣợc thiết kế cho việc phân cụm liệu có kiểu khoảng (kiểu số) phát triển thuật toán mà nhạy cảm với thứ tự vào liệu Tuy nhiên, nhiều ứng dụng đòi hỏi việc phân cụm với nhiều kiểu Số chiều lớn: Một CSDL kho liệu chứa số liệu khác nhau, nhƣ kiểu nhị phân, kiểu tƣờng minh (định danh - chiều số thuộc tính Nhiều thuật toán phân cụm áp dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 18 19 tốt cho liệu với số chiều thấp, bao gồm từ hai đến chiều Ngƣời 2.4.1 Phương pháp phân cụm phân hoạch ta đánh giá việc phân cụm có chất lƣợng tốt áp dụng đƣợc cho Kỹ thuật phân hoạch tập hợp liệu có n phần tử thành k liệu có từ chiều trở lên Nó thách thức với đối tƣợng nhóm xác định số cụm đƣợc thiết lập Số cụm đƣợc thiết liệu cụm không gian với số chiều lớn, đặc biệt xét lập đặc trƣng đƣợc lựa chọn trƣớc Phƣơng pháp tốt cho việc tìm không gian với số chiều lớn thƣa có độ nghiêng lớn cụm hình cầu không gian Euclidean Ngoài ra, phƣơng pháp Phân cụm ràng buộc: Nhiều ứng dụng thực tế cần thực phụ thuộc vào khoảng cách điểm để lựa chọn điểm phân cụm dƣới loại ràng buộc khác Một nhiệm vụ đặt liệu có quan hệ gần với điểm khác điểm liệu tìm nhóm liệu có trạng thái phân cụm tốt thỏa mãn quan hệ có quan hệ xa so với điểm khác Tuy ràng buộc nhiên, phƣơng pháp xử lí cụm có hình dạng kỳ quặc Dễ hiểu dễ sử dụng: Ngƣời sử dụng chờ đợi kết cụm có mật độ điểm dầy đặc Các thuật toán phân hoạch liệu có độ phân cụm dễ hiểu, dễ lý giải dễ sử dụng Nghĩa là, phân cụm có phức tạp lớn xác định nghiệm tối ƣu toàn cục cho vấn đề PCDL, thể cần đƣợc giải thích ý nghĩa ứng dụng rõ ràng phải tìm kiếm tất cách phân hoạch đƣợc Chính vậy, thực Với yêu cầu đáng lƣu ý này, nghiên cứu ta phân tích phân tế thƣờng tìm giải pháp tối ƣu cục cho vấn đề cách sử dụng cụm diễn nhƣ sau: Đầu tiên, ta nghiên cứu kiểu liệu khác cách hàm tiêu chuẩn để đánh giá chất lƣợng cụm nhƣ để hƣớng dẫn chúng gây ảnh hƣởng tới phƣơng pháp phân cụm Thứ hai, ta đƣa cho trình tìm kiếm phân hoạch liệu Nhƣ vậy, ý tƣởng thuật cách phân loại chung phƣơng pháp phân cụm Sau đó, ta toán phân cụm phân hoạch tối ƣu cục sử dụng chiến lƣợc ăn tham nghiên cứu chi tiết phƣơng pháp phân cụm, bao gồm phƣơng pháp (Greedy) để tìm kiếm nghiệm phân hoạch, phân cấp, dựa mật độ, Ta khảo sát phân cụm 2.4.2 Phương pháp phân cụm phân cấp không gian đa chiều biến thể phƣơng pháp khác Phƣơng pháp xây dựng phân cấp sở đối tƣợng liệu xem xét Nghĩa xếp tập liệu cho thành cấu trúc 2.4 Những kỹ thuật tiếp cận phân cụm liệu Các kỹ thuật phân cụm có nhiều cách tiếp cận ứng dụng có dạng hình cây, phân cấp đƣợc xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến kỹ thuật là: thực tế, hƣớng tới hai mục tiêu chung chất lƣợng cụm * Hòa nhập nhóm, thƣờng đƣợc gọi tiếp cận Bottom-Up khám phá đƣợc tốc độ thực thuật toán Hiện nay, kỹ thuật * Phân chia nhóm, thƣờng đƣợc gọi tiếp cận Top-Down phân cụm phân loại theo cách tiếp cận sau : Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 61 4.2 Cấu trúc mạng Nơron 4.2.1 Hàm kích hoạt Hàm kích hoạt Nơron mạng Nơron đóng vai trò quan trọng liên kết Nơron Hàm đặc trƣng cho mức độ liên kết Nơron Trong lý thuyết mạng Nơron, phép tổng hợp tín hiệu đầu vào n thƣờng đƣợc kí hiệu dƣới dạng: net j   xi ji với x j , j  n tín hiệu i 1 vào ji  (j1, ,jn ) trọng số, n số tín hiệu đầu vào Đầu Nơron j thƣờng đƣợc kí hiệu outj fj, đƣợc gọi hàm kích hoạt n Hình 4.1: Mô hình mạng Nơron Mạng Nơron nhân tạo (Artificial Neural Network) mô hình toán học bao gồm nút xử lý thông tin sở (gọi đơn vị xử lý Nơron) có out j  f j  f ( i xi (t )   ) , với  ngƣỡng kích hoạt Nơron, t thời gian, f i 1 hàm kích hoạt 4.2.2 Liên kết mạng mối liên hệ tƣơng hỗ cao, tiến hành xử lý thông tin song song phân tán có Sự liên kết mạng Nơron tuỳ thuộc vào nguyên lý tƣơng tác lực tính toán mạnh (ví dụ học, nhớ suy diễn từ mẫu đầu Nơron riêng biệt với Nơron khác tạo cấu trúc mạng liệu ) Mỗi liên kết hai Nơron kèm theo trọng số đó, đặc Nơron Về nguyên tắc có nhiều kiểu liên kết Nơron nhƣng trƣng cho đặc tính kích hoạt/ức chế Nơron Có thể xem trọng số thực tế ta thƣờng gặp dạng nhƣ: Mạng truyền thẳng mạng hồi phƣơng tiện để lƣu giữ thông tin dài hạn mạng Nơron nhiệm vụ quy trình huấn luyện (hay gọi trình học) mạng cập nhật trọng 4.2.3 Bài toán huấn luyện mạng số có thêm thông tin mẫu học, hay nói cách khác, trọng số Bài toán huấn luyện mạng trình giải toán tối ƣu hóa tham số đƣợc điều chỉnh cho dáng điệu vào mô hoàn toàn phù mạng, chủ yếu trọng số liên kết mạng cấu trúc dạng liên kết hợp với môi trƣờng xem xét Vì vậy, cấu trúc mạng Nơron chủ yếu Nơron, lớp dựa thông tin có hệ thống đƣợc đặc trƣng loại Nơron mối liên hệ xử lý thông tin Thƣờng trình huấn luyện mạng nơtron(hay gọi thuật học) chúng đó, mạng Nơron có nhiều ứng dụng nhiều lĩnh vực nhƣ đƣợc thực qua phép so sánh đầu mạng với tín hiệu đạo nhận dạng, phân lớp ảnh, phân tích - nén liệu, toán tối ƣu, dự báo, Mô hình học có giám sát đƣợc mô nhƣ Hình 4.2 dƣới đây: chuẩn đoán,… Và xu đại kết hợp mạng Nơron với logic mờ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 63 p   x x , if i  j với Xs=(xs1, ,xsm)  ji  s1 sj si  0, i  j 4.3.2 Sử dụng mạng Giả sử ta đƣa vào mạng tín hiệu vào véctơ X Hình 4.2: Mô hình học có giám sát Sử dụng mạng để tính đầu tƣơng ứng với tín hiệu vào X trình lặp gồm bƣớc: Sai số e = y-d sở để huấn luyện mạng Ban đầu, đặt X(0)=X Gọi Y(1) véctơ tín hiệu tƣơng ứng với Tiếp theo tìm hiểu mô hình mạng Nơron đƣợc áp dụng lần cho X(0) lan truyền mạng nhiều mạng Hopfield Y(1)= out(1)= Tính (HF, X(0)) 4.3 Nếu Y (0)  X (0) tiếp tục lặp với bƣớc t = t+1 X(t+1)=Y(1) Ngƣợc Mạng HOPFIELD Năm 1982 nhà vật lý ngƣời Mỹ J.J Hopfield đề xuất mô hình lại dừng mạng Nơron (Neural Network - NN) cho phép tạo ánh xạ liệu từ tín hiệu vào sang tín hiệu theo kiểu tự kết hợp, tức tín hiệu vào X thuộc Tiếp theo nghiên cứu mô hình mạng Nơron dùng cho phân cụm mờ, mạng Nơron đa khớp miền giá trị D kết Y phải thuộc miền D Nhờ vậy, mà véctơ tín hiệu vào X bị thiếu thông tin bị biến dạng đƣợc 4.4 Mạng Nơron đa khớp dùng cho phân cụm Một vài năm trƣớc, hệ thống Nơron động(đôi gọi mạng Nơron phục hồi dạng nguyên Trong ứng dụng, mạng Hopfield mô đƣợc khả tự kết hồi quy) đƣợc sử dụng nhiều trình xử lý thông tin hợp não ngƣời Ngoài ra, với số cải biên mạng Hopfield đƣợc dùng để giải toán tối ƣu, toán xử lý liệu điều khiển tự động 4.3.1 Huấn luyện mạng Mạng Hopfield học dựa nguyên tắc học có giám sát Giả sử có p mẫu học tƣơng ứng với véctơ tín hiệu vào Xs, với s = 1, 2, , p Mạng Hopfield xác định ma trận trọng số W cho: Xs = Tinh(Xs,W) với s =1, 2, p Với ma trận trọng số W đƣợc xác định nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 65 4.4.1 Xây dựng lớp mạng Layer1 cho tối ƣu trung tâm cụm Lớp Layer1 FBACN sử dụng mạng Hopfield mạng Nơron đa khớp tuỳ thuộc vào ràng buộc FC-partition (FC- fuzzy c) Nếu ràng buộc làm cho hàm mục tiêu có dạng bậc cao, dạng logarithm, dạng sin, v.v ta sử dụng mạng Nơron đa khớp thay dùng mạng Hopfield đơn giản Hình 4.3: Mô hình FBACN Cấu trúc mạng Nơron đa khớp-FBACN đƣợc đƣa nhƣ hình 4.3 Lớp hồi quy Layer1 đƣợc thực mạng Hopfield để tối ƣu hoá trung tâm cụm Trong lớp hồi quy Layer2 đƣợc thực mạng Nơron đa khớp nối để tối ƣu độ thuộc Kết hợp Layer1 Layer2 tạo thành lớp hồi quy 3, lớp làm nên cấu trúc động mạng Hoạt động FBACN đƣợc mô tả nhƣ sau: Thứ khởi tạo ngẫu nhiên trung tâm cụm độ thuộc thành viên Layer1 Layer2 tƣơng ứng Thứ 2, khởi tạo độ thuộc thành viên Layer2 đƣợc truyền sang Layer1 Thứ 3, dựa việc nhận đƣợc độ thuộc thành viên, Layer1 thực trình hồi quy để thu đƣợc trung tâm cụm tối ƣu Thứ 4, trung tâm cụm Layer1 truyền sang Layer2 Thứ 5, dựa việc nhận đƣợc trung tâm cụm mới, thực trình hồi quy để thu đƣợc độ thuộc thành viên tối ƣu Việc hoàn tất trình từ bƣớc đến bƣớc đƣợc gọi trình lặp Quá trình lặp diễn đạt tới tiêu chuẩn tới hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 4.4: Mô hình Lớp Layer1 FBACN Gọi  ji trọng số kết nối hoạt động Nơron j với Nơron vào i Tất đầu vào đến Nơron thứ j đƣợc kí hiệu ij Khi đó, tổng hợp tín hiệu n đầu vào Nơron j là: net j   vi ji  i j (1) Với vi đầu Nơron i 1 i, f hàm đơn điệu tăng liên tục Ta có hàm kích hoạt f (net j )  1  exp(r.net j ) (2) đây, ngƣỡng r > làm tăng tính thích nghi khả tính toán mạng Nơron Giả sử g số đệ quy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 67 s v(j g 1)  f (net (j g ) )  f (  ji vi( g )  i j ) (3) (7) để khử biểu thức véctơ trƣớc đƣợc đem so sánh với hàm tính toán lƣợng thăng giá trị Thăng giá trị đƣợc khai triển công thức (7) với i 1 Khi đó, ta diễn tả mạng Nơron thông qua ma trận NET sau: NET = WV + I lần khử là: (4) với n c p zm (U ; v)    2vi ,l xk ,l  vi2,l (ui ,k )m (8) k 1 i 1 l 1  net1    net NET         nets  11 1s   v1  i1           v i 2s  W   21 V   2 I   2              vs  is  s1 ss  , , Quan sát (6) (8) ta thấy khác hai công thức cách ký hiệu khác Trong mạng Nơron, hoạt động Nơron đƣợc ký hiệu cách ký hiệu dƣới dòng Chẳng hạn, hoạt động vi với i  s Tuy nhiên, sau khai triển hàm mục tiêu Để đánh giá tính ổn định hệ thống hình 4.4, dùng hàm tính toán lƣợng CEF(computational energy function-CEF) E   V T W V  I T V s s s Hay cụ thể là: E      ji vi v j   i j v j Ta có CEF(E) là: j 1 i 1 j 1 FC-pariton, có từ viết dƣới dòng tham số v i,l, với l  1, i  c Để thống cách thể hiện, ta ký hiệu lại nhƣ sau: (5) (6) vi,l  v(i 1) pl Khi đó, ta viết lại biểu thức (8) nhƣ sau: n Trong công thức (6) E dạng toàn phƣơng Vì vậy, mạng Nơron (9) c p zm (U ; v)   [2(ui ,k )m v(i 1) p l xk ,l (u j ,k )m v(2i 1) p l ] động ta dùng hàm mục tiêu dạng toàn phƣơng để tối ƣu hóa Số Nơron s Layer1 (6) c  p tham số i1    n i Ta có I    ,với i(i 1) p l  2 uim,k xk ,l , i  c l  p   k 1   i  c p  Tiếp theo, ta lý giải phù hợp hàm mục tiêu FC-partion hàm tính toán lƣợng FBACN Ta có hàm mục tiêu FC-partion là: n c zm (U ; v)     xkT xk  2viT xk  viT vi (ui,k )m k 1 i 1 (7) Trong Layer1 FBACN, tham số tối ƣu trung tâm cụm v i Các độ thuộc ui,k đƣợc thực từ lớp tới Layer1 kích hoạt hồi quy Layer1 để tối ƣu vi Ngoài ra, ui,k tạm thời coi số (10) k 1 i 1 l 1 (11) phần tử ma trận W đƣợc xác định bởi:  n m , ij 2 u , i, j  c  n  ji   k 1 i / p ,k 0, i  j  (12) với ký hiệu | x | cách lấy số nguyên cao gần so với x hồi quy Layer1 Từ định nghĩa hàm mục tiêu, véctơ trung tâm cụm vi  (vi1 , vi , , vip )  R p véctơ p chiều Vì vậy, ta phải khai triển Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 69 Theo công thức Lagrange ta phát biểu lại toán nhƣ sau: Quá trính tối ƣu Layer1: Mục tiêu mạng hồi quy làm cho hàm mục tiêu xấp xỉ tới giá trị T nhỏ Do W ma trận đối xứng nên W =W, ta lấy gradient véctơ lƣợng (5) ta đƣợc: (13) (14) j 1 Tiếp theo, xây dựng hàm kích hoạt (liên tục rời rạc) f đƣợc sử dụng Layer1 FBACN theo công thức sau: (15) v  k 1 i 1  i 1 (16)   Ta ký hiệu lại ui ,k  u( k 1).c i di,k  d( k 1).ci (17)  m 2    (u( k 1).c i ) d( k 1).c i   (  u( k 1).c i  1)  n c  k 1 i 1 c i 1 (18)  Trong công thức (18) số hạng có bậc cao (u( k 1).ci )m (thông thường hợp với toán tối ƣu bậc hai Vì vậy, ta phát triển mạng Nơron đa khớp cho toán tối ƣu chung Tức mạng Nơron đa khớp giải đƣợc với  j giá trị dƣơng nhỏ để điều chỉnh vj Ta thấy net (j g )  v j  v  ta chọn m=2) với k=1, 2, ,n i = 1, 2, , c Nhƣng mạng Hopfield phù (g) ( g)  v j   j , if net j  v( g 1)  f (net (j g ) )   ( g ) g  v j   j , if net j  (g) j c Khi đó, ta biểu diễn lại hàm mục tiêu là: s E  (E )T V  (NET ) T V   net j v j ( g 1) j n với  tham số Lagrange (thƣờng 10000    100000 ) E   (W T  W ).V  I  W V  I  NET c   m    (ui,k ) di,k     ui,k  1  với hàm mục tiêu bậc cao có ràng buộc s   j >0, E   net j v j  j 1 Mô hình mạng Nơron đa khớp đơn giản đƣợc sử dụng cho Layer2 nhƣ sau: Trong kiểu kiến trúc này, cập nhật hệ số  j với giá trị không hạn chế Theo phƣơng pháp mà ta thiết kế cách lựa chọn giá trị phù hợp với tiến triển Layer1 4.4.2 Xây dựng lớp mạng Layer2 cho tối ƣu độ thuộc Lớp mạng Layer2 FBACN có chức tối ƣu hóa lớp độ thuộc Ta coi vi số tạm thời lớp Layer2 hồi quy Ta có tập xk  vi  di ,k Khi đó, công thức: m zm (U ; v)     ui,k  xk  vi c n i 1 k 1 c n đƣợc viết lại   (ui,k )m di,k i 1 k 1 Khi đó, toán tối ƣu lớp Layer2 FBACN là: làm c n m   (ui,k ) di,k với ràng buộc i 1 k 1 c  ui,k  1, Hình 4.5: Mô hình Lớp Layer2 FBACN Tính động mạng Nơron đa khớp hình 4.5 là: k  n i 1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 71 S u(j g1)  f (net (j g ) )  f ( ( ji ui( g )  z ji ui( g ) )  i j ) , với j=1, 2, , s i 1 Ta có ma trận đầu vào mạng: NET  W U  Z.U  I Với (19) (20)  z11 z12  z1s  u1      z z  z u 2s  U    Z   21 22         uS   zs1 zs  zss  U ( m 1) Do ma trận trọng số W đối xứng (W gọi đối xứng A W.B = B.W.A), hàm tính toán lƣợng (22) đƣợc biểu diễn là: 1 1 E   U T W.U (m -1)   U T Z U  U T I m 2 u    u      , m > U(1) = U  m 1  u nxc  m 1 m 1 (21) lƣợng mạng Nơron đƣợc tính công thức: U điều chỉnh hai ma trận trọng số W Z Khi đó, ma trận NET mạng Nơron đa khớp đƣợc xác định nhƣ sau: Gọi h hàm số xác định bởi: h(u j )  u mj1 (26) Khi đó, h đƣợc gọi hàm để tính umj 1 Và tính động lớp Layer2 đƣợc thể công thức: 1 1 E   U (Tm1) W.U -  U T Z U  U T I m 2 (22) Với số lƣợng Nơron s lớp Layer2 n  c Ta tính toán phần   d2   tức phần tử      dcn   s u(jg 1)  f (net(jg) )  f ( ( ji (u(j g ) )m1  z ji u(j g ) )  ij ) i 1 mdi , i  j   ji   , i, j  1,2, c  n i j 0 , (23) Z ma trận cỡ (c  n)  (c  n) đƣợc xác định nhƣ sau: (27) Với net j tổng đầu vào Nơron thứ j đƣợc tính công thức: s net j   ( ji u im1  z ji u i )  i j (28) i 1 Theo công thức (25), ta có gradient lƣợng E : s E  ( ( ji uim1  z ji ui )  i j ), j  s u j i 1 W đƣợc tính theo công thức sau: Từ (28) (29) ta có E  net j , j  s u j với s = n  c (29) (30) Quá trình tối ƣu Layer2  i  i  2 , if (    1).c  j    c z ji   c    c  với i,j = 1, 2, , c  n 0,  otherwise (24) Và ma trận I ma trận chiều cỡ c  n đƣợc xác định nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên (25) NET  W.Um1  Z.U  I Ta ký hiệu chuyển vị U(m-1) là: U(Tm 1) Khi đó, hàm tính toán  d1  tử ma trận W, Z I nhƣ sau: W   m      2   2  I       2  http://www.lrc-tnu.edu.vn Khi hàm mục tiêu (18) đƣợc cân với hàm tính toán lƣợng (25) gradient tính toán lƣợng đƣợc liên kết với giá trị net vào, kết tối ƣu dần đạt đƣợc mạng tiến triển Từ khái niệm lƣợng, hàm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 73 rời rạc f hàm kích hoạt mạng Nơron đa khớp đƣợc xây dựng giống Nếu  thỏa mãn (32)  có điểm cố định Thật vậy, giả sử có nhƣ lớp thứ nhất: điểm cố định x y Khi theo (32) ta có: d ( x, y )  c* d ( x, y ) Vì vậy, Vectơ lƣợng gradient đƣợc tính toán liên quan đến uj:   net j u j d(x,y)=0, nên x = y Vậy ta khái quát điều thông qua định lý sau: Hàm kích hoạt rời rạc đƣợc đƣa : ( g 1) j u Định lý ánh xạ co(ánh xạ thu gọn-AXC): Ánh xạ co không gian (g) (g)  uj   j , if net j   f (net )   (g)  uj   j , otherwise Metric đầy đủ có điểm cố định ( g) j (31) Định lý 1: Cho mạng Nơron nhân tạo hồi quy kết nối đầy đủ gồm Với vectơ lƣợng gradient âm công thức (31), đảm bảo Nơron s với kích hoạt động net (j g 1)    ji f (neti( g ) )  i j (33), với f s i 1 mạng Layer2 tối ƣu trình tiến hoá hàm có giới hạn, liên tục có giá trị thực, hàm có đạo hàm có giới hạn 4.5 Sự hội tụ FBACN thỏa mãn: f ' max  ji  c **  4.5.1 Chứng minh hội tụ FBACN Một yếu tố quan trọng cho mạng hồi quy khả ổn định mạng Trƣớc đƣa tính ổn định mạng FBACN, bắt đầu với vài định nghĩa không gian Metric định lý đƣa Steck sau định lý hội tụ phổ quát thỏa mãn điều kiện: Bổ đề: với hàm f thỏa mãn điều kiện giả thuyết, với ' x, y  R ta có f ( x )  f ( y)  fmax xy (35) biến cho mạng Nơron đa khớp nối đƣợc đƣa nhƣ sau: khớp nối gồm s Nơron có hai trọng số  ji z ji với tính động kích hoạt sau: 2) d( x, y)   x  y S net (j g1)    ji ( f (net (j g ) ))m1  z ji f (net (j g ) )  i j 3) d( x, y)  d( y, x), x, y  X i 1 (36) f hàm có giới hạn, liên tục có giá trị thực Nếu f thỏa mãn điều 4) d( x, z)  d( x, y)  d( y, z) x, y, z  X Định nghĩa 2: Cho X không gian Metric với khoảng cách d  : X  X Điểm x đƣợc gọi điểm cố định  ( x )  x kiện: ( f m1 )'max  ji z ji  c**  , (với i, j = 1, 2, , s) (37) mạng hội tụ s đến giá trị cố định với giá trị khởi đầu mạng Định nghĩa 3: Ánh xạ  co tồn c*, với  c*  cho: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên điểm cố định giá trị khởi tạo mạng Định lý 2(đối với mạng Nơron đa khớp nối): Ứng với mạng Nơron đa 1) d( x, y)  0, x, y  X d ( x), ( y )   c d ( x, y ) , x, y  X (34) mạng hội tụ đến Dựa vào định nghĩa, định lý bổ đề trên, định lý hội tụ phổ Định nghĩa 1: Trong không gian Metric cho tập X hàm d: X  X  R * , i & j  s s (32) http://www.lrc-tnu.edu.vn Chứng minh: Theo định lý ánh xạ co, để chứng minh FBACN hội tụ đến điểm phải tồn số Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 75 c* (0,1) cho với giá trị netx  (netx1, netx2 , , netxS ) S hàm cấp hàm f x Giả sử f '' (net j )  ta có netj=0 Vì nety  (nety1, nety2 , , netyS ) S d (netx), (nety)   c * d (netx, nety) (38) vậy, giá trị max f ' đạt cực đại địa phƣơng netj = giá trị  j rj ' fmax  f ' (net j )  Ta định nghĩa hàm số:  s  (net)  (net1 , net2 , , nets )    ( ji ( f (neti )) m1  z ji f (neti ))  i j  j 1  i 1  s Với không gian  s đầy đủ với Metric lựa chọn, ta có: s d (netx, nety )  netx  nety   netxi  netyi , netx, nety s i1 (40) S S    ( f (netxi )) m 1 j 1 i 1 S  ( f (netyi ))m 1  ji  f (netxi )  f (netyi ) z ji  S '     ( f ' m 1 )'max netxi  netyi  ji  fmax netxi  netyi z ji  j 1 i 1 S S i 1 j 1   netxi  netyi  c** = c* d (netx, nety ) S ** 1 Ta có n. j rj   rj  (47) với s số lƣợng Nơron có mạng s s.n. j '  ji  c**  tìm đƣợc số c**  (0,1) cho fmax s (41) (42) (48) Điều thỏa mãn điều kiện định lý nên ta có mạng hội tụ đến điểm Kết luận: Quá trình tính toán chứng minh, ta có đƣợc kết sau:  Với Layer1, mạng thoả mãn giả thuyết định lý 1, nên mạng hội tụ c   c  s.c Theo (37) c  (0,1) * ' '  ji  2n fmax  2n. j rj (46) Mặt khác 2n   ji  nên ta có  fmax s  c  p lớp Layer1 Vì ta chọn rj  , ta n. j s d ((netx), (nety))  (netx)  (nety ) = Ta có : với (39) (45) ** (43) ** j 1 Theo (42) (43) ánh xạ ánh xạ co Do đó, theo điều kiện (37) mạng Nơron xét hội tụ điểm  Với Layer2, mạng thoả mãn giả thuyết định lý 2, nên mạng hội tụ 4.6 Giải thuật FBACN FBACN với việc học Giải thuật FBACN đƣợc thực qua bƣớc sau: 4.5.2 Sự hội tụ FBACN liên tục Layer1 GIẢI THUẬT CỦA FBACN Hàm kích hoạt Layer1 đƣợc xây dựng nhƣ sau: f (net j )  2 j  exp(rj net j ) 1) Thiết lập giá trị c, m, λ, ε hệ số iδv, iδu lớp Layer1  (v j   j ) (44) 2) Đặt hệ số ổn định  v u cho Layer1 Layer2 tƣơng ứng Với  j rj số thực dƣơng Ta cần tìm giá trị max đạo hàm cấp (44) Ta biết đạo hàm cấp hàm f cực đại x đạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Layer2 tƣơng ứng http://www.lrc-tnu.edu.vn 3) Khởi tạo ngẫu nhiên trung tâm cụm v(i1) pl , i=1, 2, , c l = 1, , n Layer1 lớp thành viên u i ,k   M fc với k=1, 2, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 77 else u : u   u j j .,n i = 1, 2, ,c Layer2 4) Cập nhật hệ số  v  i v  u  i u giá trị mạng ban đầu j j 14) if (( u  u ) & ( u  u ) & & ( u  u ) then goto 15) s net(0) j  với j =1, 2, , s j else {g:= g+1; goto 11)} (s=c.p Layer1 s=n.c Layer2) 15) if U 5) Thiết lập số hồi quy g =1 cho Layer1 (g)  U(g1)   then Stop else goto 6) Trong Layer1, tính ma trận trọng số W theo công thức (12), ma trận tín hiệu vào bên I theo công thức (11), giá trị mạng NET nhƣng từ bƣớc 10 đến bƣớc thứ 14 đƣợc thay 10’ đến 17’ Trƣớc hết theo công thức (4) 7) For j = to s if net net (g) j ( g 1) j Đối với FBACN với việc học thuật toán tƣơng tự nhƣ FBACN, ta định nghĩa số tham số: p0 số tỉ lệ xác suất nằm [0,1], sử  then  v :  v / ; j j dụng để tính xác suất EquiCycle chu kỳ thăng ấm(có nghĩa vòng lặp xử lý cần giữ thăng ấm nhiệt độ T) Tstart nhiệt độ xung 8) For j = to s if net (j g )  then v j : v j   v else v j : v j   v quanh, Tstop nhiệt độ dừng(tức dừng việc học) Tstep tổng nhiệt độ thấp j vòng lặp j 9) if (( v   v ) & ( v   v ) & & ( v   v ) then goto 10) s else {g:= g+1; goto 6)} Giải thuật FBACN với việc học đƣợc thực nhƣ sau: GIẢI THUẬT CỦA FBACN VỚI VIỆC HỌC 1’ -> 9’ = -> FBACN 10) Đặt số hồi quy g=1 cho Layer2 10’) Đặt T = Tstart 11) Trong Layer2, tính ma trận trọng số W theo công thức (23), ma 11’) Đặt số hồi quy g = cho Layer2 trận trọng số Z theo công thức (24) I  2 ,2 , , 2 T ma trận NET  W.U  m 1  Z U  I (23), ma trận trọng số Z theo công thức (24) ma trận tín hiệu vào từ bên I ma trận giá trị mạng NET 12) For j = to s if net 12’) Trong Layer2, tính giá trị ma trận trọng số W theo công thức 13’) if g  EquiCycle then (g) net( g1)  then  :  / ; u u j j j j { For j =1 to s 13) For j = to s p (j g )  ( g)  then u : u   if net j j uj j Số hóa Trung tâm Học liệu – Đại học Thái Nguyên { Tính xác xuất http://www.lrc-tnu.edu.vn p0 1enet j u / T Số hóa Trung tâm Học liệu – Đại học Thái Nguyên j ; http://www.lrc-tnu.edu.vn 78 79 a(j g )  Rand ( 0,1) CHƢƠNG }} CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG esle { For j =1 to s { p(jg)  0; a(jg)  5.1 5.2 }}; 14’) for j = to s if ((net(jg).net(jg1) )  0) &(a(jg1) p(jg1)  0)) then 5.1 then { if Rand([0,1])  0.5 then else u j : u j   u net(jg)  hiệu tính thực tốt Thuật toán FCM đƣợc bắt đầu j cách chọn C cụm chọn ngẫu nhiên c điểm làm trung tâm cụm chọn phân hoạch ngẫu nhiên C cụm tính trọng tâm cụm Nếu j } then u j : u j   u u j : u j  u u j : u j  u số lƣợng liệu nhỏ số cụm ta gán liệu trọng tâm cụm, trọng tâm có số cụm Nếu số lƣợng liệu lớn số cụm, với j liệu, ta tính toán độ tƣơng tự có trọng số điểm trọng tâm j }} cụm lấy khoảng cách tối thiểu Dữ liệu thuộc cụm có khoảng cách (( u1  u ) & (u2  u ) & & (us  u ) then goto 17’) tối thiểu tới liệu Khi không chắn vị trí trọng tâm, else else {g:= g+1; goto 12’)} 17’) if T>Tstop then {T:=T-Tstep; goto 11’)} else goto 18’) 18’) if Cài đặt thử nghiệm thuật toán FCM FCM thuật toán đƣợc áp dụng nhiều phân cụm liệu a(g)  p(jg) if j 16’) if thuật toán FCM ứng dụng thuật toán FCM-Cải tiến vào trình nhận j 15’) for j =1 to s { else { if Chƣơng trình bày kết xây dựng chƣơng trình thử nghiệm dạng ảnh  u :  u / j Cài đặt thử nghiệm thuật toán FCM 79 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh 82 U (g)  U(g1)   then Stop else goto 4) ta cần điều chỉnh vị trí trọng tâm dựa vào liệu cập nhật Sau đó, ta gán tất liệu tới trọng tâm Quá trình đƣợc lặp lại không liệu di chuyển sang cụm khác Về mặt toán học, vòng lặp chứng minh hội tụ cực tiểu cục Quá trình cài đặt thuật toán đƣợc mô thông qua giao diện chƣơng trình nhƣ Hình 5.1 Hình 5.2 dƣới đây:  Ngôn ngữ sử dụng Visual C++ 6.0  Tham số ban đầu: Số cụm = 3, tham số mũ m =  Dữ liệu đầu vào điểm màu khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 80 81 Dƣới hình ảnh thu đƣợc chạy chƣơng trình với số cụm nhập vào cụm Hình 5.1: Giao diện chƣơng trình khởi động Khi ngƣời sử dụng nhập số cụm vào khung “Nhập số cụm”, kích chuột vào khung chƣơng trình để tạo điểm cụm, vị trí điểm đƣợc thể khung “Toạ độ xy” Chƣơng trình tự động tạo cụm liệu cách tối giản tổng bình phƣơng khoảng cách liệu Hình 5.2: Giao diện chƣơng trình làm việc Chƣơng trình tự động phân thành cụm thông qua số màu cụm tâm cụm trọng tâm cụm tƣơng ứng ta kích chuột vào khung chƣơng trình để tạo điểm Mỗi điểm tọa độ biểu thị cho đối tƣợng với mô tả hai thuộc tính đối tƣợng màu sắc điểm số nhãn biểu thị cho cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 82 5.2 83 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh Bài toán nhận dạng trình phân loại đối tƣợng đƣợc biểu diễn theo mô hình gán cho chúng vào lớp dựa theo quy luật mẫu chuẩn Nhận dạng có nhiều ứng dụng, đƣợc áp dụng vào nhiều lĩnh vực, chẳng hạn nhƣ nhận dạng vân tay, nhận dạng chữ viết, nhận dạng ảnh… Và phân cụm màu bƣớc quan trọng trình nhận dạng ảnh Do số lƣợng điểm ảnh lớn, thƣờng 80.000 điểm ảnh số lƣợng màu mẫu liệu ảnh phụ thuộc vào độ sắc nét ảnh Nếu ảnh có chất lƣợng tốt số lƣợng màu lớn, nhƣng dù ảnh có chất lƣợng nhƣ số lƣợng màu lớn Mặt khác, nhận dạng ảnh, quan tâm tới số yếu tố định, chẳng hạn nhƣ mắt, lông mày, miệng da, nên số lƣợng màu mà ta quan tâm không lớn lắm, áp dụng thuật toán FCM-Cải tiến vào việc phân cụm màu nhận dạng ảnh ứng dụng cần thiết toán Quá trình ứng dụng thuật toán FCM-Cải tiến đƣợc mô thông qua giao diện chƣơng trình với Hình 5.3, Hình 5.4 Hình 5.5 dƣới đây: Hình 5.3: Giao diện chƣơng trình khởi động Khi chƣơng trình khởi động xong, ta chọn ảnh nguồn để thực  Ngôn ngữ sử dụng Visual C++ 6.0 cách ấn vào nút “Mở File Ảnh” chọn ảnh cần thực nhƣ Hình  Tham số ban đầu: Khai báo mảng lƣu trữ số lƣợng màu ảnh, mảng 5.4 dƣới đây: lƣu trữ số trung tâm cụm, số lƣợng cụm, tham số mũ  Dữ liệu đầu vào File ảnh màu(Bitmap)  Dữ liệu đầu ảnh màu đƣợc nhận dạng với số cụm màu đƣợc thuật toán FCM-Cải tiến thực phân cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 84 85 Hình 5.4: Giao diện chƣơng trình chọn ảnh để phân cụm Hình 5.5: Giao diện chƣơng trình thực phân cụm Sau chọn xong, ta ấn vào nút “Thực phân cụm” Chƣơng trình thực trình nhận dạng phân cụm màu theo thuật toán FCM-Cải tiến hiển thị kết khung “Ảnh Đích” nhƣ Hình 5.5 dƣới Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 86 87 KẾT LUẬN TÀI LIỆU THAM KHẢO Trong trình tìm hiểu hoàn thành luận văn tốt nghiệp với đề tài “Nghiên cứu số phương pháp phân cụm mờ ứng dụng”, dù đạt Tài liệu Tiếng Việt: đƣợc kiến thức định, nhƣng em nhận thấy phân cụm liệu KPDL nói chung phân cụm liệu mờ nói riêng lĩnh vực nghiên Đại học Quốc gia Hà Nội, Hà Nội cứu rộng lớn, nhiều triển vọng Đề tài cố gắng tập trung tìm hiểu, nghiên cứu trình bày đƣợc số kỹ thuật thuật toán phân cụm liệu phổ Nguyễn Trọng Thuần, “Điều khiển Logic ứng dụng”, Nhà xuất Khoa học Kỹ thuật, 2004 biến, số kỹ thuật phân cụm mờ mô hình mạng nơron đa khớp dùng cho phân cụm mờ KPDL nay, trình bày số cải tiến thuật toán Phan Đình Diệu (1999), “Lô Gích Các Hệ Tri Thức”, NXB Bùi Công Cƣờng Nguyễn Doãn Phƣớc, “Hệ mờ, mạng nơron ứng dụng ”, NXB Khoa học kỹ thuật, 2006 Vũ Thanh Nguyên, “Ứng dụng logic mờ, mạng nơron mờ, hệ phân cụm mờ(FCM-Cải tiến) dựa phƣơng pháp có, cài đặt thử luật mờ phân tích dự báo mặt hàng chiến lược”, Hội thảo khoa nghiệm thuật toán phân cụm mờ(FCM) với ứng dụng phân cụm điểm màu học Hệ mờ, mạng nơron ứng dụng, lần 1, Hà nội 8-9/11/2006 thực cài đặt ứng dụng thuật toán FCM-Cải tiến việc phân cụm màu toán nhận dạng ảnh màu Ngô Quốc Tạo, “Giáo trình Xử Lý Ảnh”, Lớp CHCLC-ĐH Công Nghệ-ĐHQG Hà Nội 2001-2002 Tuy nhiên, hạn chế tài liệu thời gian nên em tìm hiểu đƣợc số kỹ thuật điển hình phân cụm đặc biệt phân cụm mờ, cài đặt thử nghiệm số thuật toán ứng dụng nhƣng Nguyên 2006-2008 số kỹ thuật khác chƣa đƣợc tìm hiểu khai thác, cài đặt thử nghiệm chƣa áp dụng đƣợc cho toán phân cụm tổng quát Ngô Quốc Tạo, “Bài giảng môn Data Mining”, Lớp CHK5-ĐH Thái Ngô Quốc Tạo, “Bài giảng môn Xử Lý Ảnh”, Lớp CHK5-ĐH Thái Nguyên 2006-2008 Tài liệu Tiếng Anh: Trong thời gian tới em tiếp tục nghiện cứu thêm số kỹ thuật Daniel T Larose, “Discovering Knowledge in Data: An phân cụm đặc biệt thuật toán phân cụm mờ kết hợp song song ứng Introduction toData Mining”, ISBN 0-471-66657-2 CopyrightC dụng vào số toán thực tế Việt Nam hy vọng dần đƣa 2005 John Wiley & Sons, Inc kiến thức có từ đề tài sớm trở thành thực tế, phục vụ cho sống ngƣời A Arning, R Agrawal, and P Raghavan Alinear method for deviation detection in larger databases, “In Proc 1996 Int Conf Học viên thực An Hồng Sơn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Data Mining and Knowledge Discovery (KDD-96)”, Portland, Oregon, August 1996 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 88 89 10 P.S Bradley, U Fayyad, C Reina, Scaling Clustering Algorithms 21 G.Bueno, R.Gonzalez, J.Gonzalez, and M.Garcia-Rojo, “Fuzzy to Large Databases, “In Proc of 4th International conference on colour C-means clustering for pattern segmentation in histological Knowledge Discovery and Dala Mining (Kdd-98)”, New York 1998 images”, The 3rd European Medical and Biological Engineering 11 D Fisher, “Knowledge acquisition via incremental conceptual clustering, In Machine Learning”, pp 139-/72, 1987 Conference, 2005 22 Chih-Hsiu Wei, Chin - Shyurng Fahn, “The multisynapse neural 12 D Gibson, J Kleinberg, P Raghavan, “Clustering Categorical Data: An Approach Based on Dynamical Systems”, VLDB Journal (3-4) pp 222-236, 2000 network and its application to fuzzy clustering” 23 J.H.Wang and C.Y.Peng, “Optimal clustering using neural network”, in Proc IEEE Int Conf Syst., Man, Cybern., vol.2, 1998, 13 J Han, M Kamber, “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, 2001 pp.1625-1630 24 Y.Guo, X.Yin, and W.Gong, “ART2 neural network clustering for 14 A.K Jain, R.C Dubes, “Algorithms for clustering data”, Ptentice Hall, Englewood Cliffs, NJ, 1988 hierarchical simulation”, in Proc SPIE Int Soc.Opt.Eng., vol 2.1998, pp.35-48 15 R.A Jarvis, E.A Patrick, “Clustering using a similarity measure 25 M.F.Augusteijn and U.J.Steck, “Supervised adaptive clustering: A based on shared near neighbors”, IEEE Transactions on Computers hybrid neural network clustering C22, pp 1025-1034, 1973 Comput.Applicat., vol.7,no 1, pp.78-89, 1998 algorithm”, neural 16 M Manago, Y Kodratoff, “Inđuction of Decision Trees from 26 E C Tsao, J C Bezdek, and N R Pal, “Fuzzy Kohonen Complex Structuted Data, In Knowledge Discovery in Databases”, clustering network”, Patterm recognition, vol.27, no.5, pp.757-764, AAAI/Th MIT press, pp 289-306, 1991 1994 17 J.C.Bezdek, “Pattern Recognition with fuzzy Objective Function Algorithms”, New York, Plenum, 1981 18 W.Pedrycz, “Algorithms of fuzzy network for medical image segmentation”, IEEE Trans Nuclear clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 “Fuzzy Sets and System”, vol 3, pp 177-183, 1981 “Algorithms of fuzzy clustering Sci., vol.43, 1996 28 Hathaway 19 M.P.Windham, “Cluster validity for fuzzy clustering algorithms”, 20 W.Pedrycz, 27 J Lin, K Cheng, and C.Mao, “A fuzzy Hopfield neural R.J and Bezdek J.CNTT (2000), “Generalized fuzzy c-means clustering Strategies using LP Norm Distances”, IEEE Trans.Fuzzy Syst, No 5, pp.576-582 with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 29 J.E.Steck and S.N.Balakrishnan, “Use of Hopfield newral networks in optimal guidance”, IEEE Trans Aerosp.Electron Syst., vol.30, no.1, pp 287-293, Jan.1994 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... hợp này đƣợc gọi là Phân cụm mờ Phân cụm mờ là phƣơng pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ƣu phân hoạch mờ Dunn (1973) mở rộng phƣơng pháp phân cụm và đã phát triển thuật toán phân cụm mờ Ý tƣởng của thuật... các phƣơng pháp phân cụm trên đã và đang đƣợc phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đƣợc phát triển trên cơ sở của các phƣơng pháp đó nhƣ: Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số Phân cụm khái niệm:... phân cụm phân hoạch Phân cầu đối với dữ liệu nhiều chiều mà phƣơng pháp phân phân cụm dựa trên mật cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp PCDL cổ điển, độ không giải quyết đƣợc Ƣu điểm của phƣơng pháp phân cụm dựa trên lƣới hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phƣơng pháp này đã đƣợc là thời gian xử lí nhanh và độc lập với số đối tƣợng dữ liệu trong tập dữ liệu áp dụng. .. chiến lƣợc phân cụm phân cấp đối tƣợng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối Thực tế áp dụng, có nhiều trƣờng hợp kết hợp cả hai phƣơng pháp phân tƣợng trong một ô Phƣơng pháp này gần giống với phƣơng pháp phân cụm cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng phân cấp nhƣng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu pháp phân cấp có... [0, 1] Nhƣ vậy, ma trận U đƣợc sử dụng để mô tả cấu trúc cụm của X bằng cách giải thích u ik nhƣ bậc thành viên xk với cụm i Cho u = (u1, u2, , uc1) là phân hoạch mờ C Các thuật toán trong phân cụm mờ K-means là thuật toán PCDL rõ và C-means là thuật toán phân cụm mờ tƣơng ứng, hai thuật toán này cùng sử dụng chung một chiến lƣợc phân cụm dữ liệu Thuật toán C-means mờ hay còn gọi tắt là thuật toán FCM... hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phƣơng pháp này gần giống với phƣơng pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã đƣợc xác định trƣớc đó, nhƣng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm 2.4.6 Phương pháp phân cụm có dữ liệu ràng buộc Sự phát triển của PCDL... áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại này chỉ ra lƣợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các mạng nơron Mạng Kohonen có tầng nơron vào và. .. màu), y học (phân loại bệnh, phân Trong các phƣơng pháp phân cụm đã giới thiệu trong chƣơng trƣớc, loại triệu chứng), … Tuy nhiên, nhƣợc điểm lớn nhất của thuật toán FCM là mỗi phƣơng pháp phân cụm phân hoạch một tập dữ liệu ban đầu thành các tập dữ liệu lớn, tập dữ liệu nhiều chiều, nhạy cảm với các nhiễu và phần tử cụm dữ liệu có tính tự nhiên và mỗi đối tƣợng dữ liệu chỉ thuộc về một cụm ngoại lai... tƣởng của thuật toán là xây đựng một phƣơng pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek (1981) cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đƣa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và đƣợc chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ 3.2 3.2.1 Thuật toán FCM(Fuzzy C-means) 3.2.1.1 Hàm mục tiêu Kỹ thuật này phân hoạch một tập n vectơ đối tƣợng dữ liệu... chọn giải pháp tốt nhất thƣớc độ rộng biến đổi Hơn nữa, nó tỉ lệ tốt với CSDL lớn mà không làm Ngoài ra thuật toán K-means ra, phân cụm phân hoạch còn bao gồm giảm chất lƣợng phân cụm một số các thuật toán khac nhƣ: Thuật toán PAM; Thuật toán CLARA; Thuật toán CLARANS 2.5.2 Các thuật toán phân cụm phân cấp Thuật toán CURE Trong khi hầu hết các thuật toán thực hiện phân cụm với các cụm hình cầu và kích

Ngày đăng: 10/08/2016, 18:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan