1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu một số PHƯƠNG PHÁP PHÂN cụm mờ và ỨNG DỤNG

81 254 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 917,51 KB

Nội dung

BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN THỊ NGA NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC ĐỊNH HƯỚNG NGHIÊN CỨU NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN CÔNG HÀO Thừa Thiên Huế, 2018 LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sĩ khoa học định hướng nghiên cứu với đề tài “Nghiên cứu số phương pháp phân cụm mờ ứng dụng” cơng trình nghiên cứu cá nhân Các kết nêu luận văn trung thực, đảm bảo độ chuẩn xác cao Các tài liệu tham khảo, trích dẫn có xuất xứ rõ ràng Tôi xin chịu trách nhiệm cơng trình nghiên cứu riêng mình! Thừa Thiên Huế, tháng năm 2018 Tác giả luận văn Nguyễn Thị Nga LỜI CẢM ƠN Để hoàn thành luận văn “Nghiên cứu số phương pháp phân cụm mờ ứng dụng”, nhận nhiều giúp đỡ quý báu tập thể cá nhân Trước hết, tơi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Công Hào người Thầy tận tâm hướng dẫn khoa học trình học tập, nghiên cứu triển khai luận văn Tôi xin chân thành cảm ơn tập thể quý thầy cô Khoa Công nghệ Thơng tin, Phòng Sau Đại học thuộc trường Đại học Khoa học, Đại học Huế; Sở Giáo dục Đào tạo tỉnh Kon Tum; Trường THPT Duy Tân tỉnh Kon Tum tạo điều kiện thuận lợi cho tơi suốt q trình học tập, nghiên cứu thực luận văn Xin biết ơn gia đình, người thân, bạn bè đồng nghiệp điểm tựa vững để tơi hồn thành luận văn Thừa Thiên Huế, tháng năm 2018 Tác giả luận văn Nguyễn Thị Nga MỤC LỤC Trang Lời cam đoan Lời cảm ơn Mục lục Danh mục bảng Danh mục hình Danh mục chữ viết tắt PHẦN MỞ ĐẦU PHẦN NỘI DUNG CHƯƠNG 1: MỘT SỐ KIẾN THỨC CƠ SỞ CỦA LÝ THUYẾT TẬP MỜ 1.1 TẬP MỜ THÔNG TIN KHÔNG CHẮC CHẮN 1.1.1 Khái niệm tập mờ 1.1.2 Tập lát cắt tập mờ 1.1.3 Một số khái niệm đặc trưng tập mờ 1.2 BIẾN NGÔN NGỮ .7 1.2.1 Định nghĩa .7 1.2.2 Các đặc trưng biến ngôn ngữ 1.3 CÁC PHÉP TÍNH TRÊN TẬP MỜ 1.3.1 Phép hợp mờ 1.3.2 Phép giao mờ 1.3.3 Phép lấy phần 10 1.3.4 Phép tổng tích đại số tập mờ .10 1.3.5 Phép tích Descartes tập mờ 11 1.3.6 Phép tập trung 11 1.3.7 Phép dãn 12 1.3.8 Phép tổ hợp lồi .12 1.4 MỜ HÓA KHỬ MỜ .13 1.4.1 Phương pháp mờ hóa 13 1.4.2 Phương pháp khử mờ 14 1.5 TIỂU KẾT CHƯƠNG .16 CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ 17 2.1 TỔNG QUAN VỀ PHÂN CỤM 17 2.1.1.Khái niệm phân cụm liệu 17 2.1.2 Mục tiêu phân cụm liệu 19 2.1.3 Quy trình phân cụm liệu 19 2.1.4 Yêu cầu phân cụm liệu 20 2.1.5 Vấn đề tồn phân cụm liệu 21 2.1.6 Phân loại kiểu liệu 22 2.1.7 Độ đo tương tự phi tương tự 23 2.2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 24 2.2.1 Phân cụm phân hoạch 26 2.2.2 Phân cụm phân cấp 30 2.2.3 Phân cụm dựa mật độ 35 2.2.4 Phân cụm dựa hình 40 2.2.5 Phân cụm dựa ràng buộc .41 2.3 PHÂN CỤM DỮ LIỆU MỜ .43 2.3.1 Giới thiệu phân cụm liệu mờ 43 2.3.2 Một số thuật toán phân cụm mờ 44 2.4 TIỂU KẾT CHƯƠNG .51 CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN PHÂN LOẠI BỆNH ĐỘNG KINH VIÊM GAN 52 3.1 ĐẶT VẤN ĐỀ 52 3.1.1 Hiện trạng phương pháp chuẩn đoán viêm gan 52 3.1.2 Hiện trạng phương pháp chuẩn đoán động kinh .53 3.2 PHÁT BIỂU BÀI TOÁN 55 3.2.1 Bài toán bệnh động kinh 55 3.3 PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN .59 3.4 CÁC BƯỚC THU THẬP XỬ LÝ DỮ LIỆU .60 3.4.1 Nguồn liệu 60 3.4.2 Chuẩn bị liệu 60 3.5 PHỎNG .60 3.5.1 Các bước .60 3.5.2 Kết đạt 61 3.6 NHẬN XÉT KẾT QUẢ 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 DANH MỤC CÁC BẢN Bảng 3.1: Bộ liệu động kinh .55 Bảng 3.2: Năm cụm liệu sau phân cụm 55 Bảng 3.3: Bộ liệu phân lớp “viêm gan” UCI 58 Bảng 3.4: Danh sách hàm chức .59 Bảng 3.5: Tham số đầu vào toán phân loại bệnh động kinh .61 Bảng 3.6: Kết phân cụm thuật toán FCM 62 Bảng 3.7: Kết phân cụm thuật toán KFCM .63 Bảng 3.8: Kết phân cụm thuật toán PFCM 63 Bảng 3.9: Kết phân cụm thuật toán QPSO_FCM 63 Bảng 3.10: So sánh kết phân cụm thuật toán phân cụm mờ 64 Bảng 3.11: Thống kê trung bình giá trị 65 Bảng 3.12: Kết số đánh giá chất lượng phân cụm .65 Bảng 3.13: Giá trị đầu vào cho toán phân cụm viêm gan 66 Bảng 3.14: Kết đánh giá “entropy purity” 67 Bảng 3.15: Chất lượng phân cụm thuật toán phân cụmmờ 68 Bảng 3.16: Khoảng cách trung bình đến tâm cụm 68 DANH MỤC CÁC HÌNH Hình 1.1: Phép tập trung 12 Hình 2.1: Hình dạng loại cụm 17 Hình 2.2: Sự thay đổi tâm cụm k-means có phần tử ngoại lai 28 Hình 2.3: Phân cụm phân cấp Top-down Bottom-up 30 Hình 2.5: Liên kết đôi 31 Hình 3.1: Các bước thực nghiệm 60 Hình 3.2: Hình ảnh phân cụm tham số đầu vào options 62 Hình 3.3: Tỉ lệ phân cụm FCM .62 Hình 3.4: So sánh thuật toán phân cụm mờ 65 Hình 3.5: So sánh Purity MI thuật toán phân cụm mờ 66 Hình 3.6: So sánh Dunn Davie thuật tốn phân cụm mờ 66 Hình 3.7: Đánh giá Entropy Purity thuật toán phân cụmmờ .68 DANH MỤC CÁC CHỮ VIẾT TẮT Từ viết tắt Tiếng anh CURE Clustering using representatives DM EM Eps FCM HMT KCTB KFCM MI Dissimilarity measure Expectation-Maximization Epsilon Fuzzy clustering means Kernel fuzzy clustering means Mutual information PAM Partitioning around methoids PCĐ PFCM Possibilistic fuzzy clustering means QPSO_FC M SM Quantum_behavied particle swam fuzzy clustering means Similarity measure STING Statistical information grid approach Tiếng việt Phân cụm sử dụng đại diện Độ đo phi tương tự Tối ưu hóa kỳ vọng Giá trị mục tiêu tối thiểu Phân cụm mờ Hàm mục tiêu Khoảng cách trung bình Phân cụm mờ Kernel Dữ liệu hỗn hợp Phân hoạch quanh đối tượng đại diện Phân cụm Phân cụm mờ dựa vào đặc trưng Phân cụm mờ dựa vào tối ưu hóa quần thể Độ đo tương tự Phân cụm dựa lưới liệu PHẦN MỞ ĐẦU Hơn thập niên trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) khơng ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Thống kê cho thấy, lượng thông tin hệ thống tin học sau 20 tháng lại tăng gấp đôi Cuối thập kỷ 80 kỷ 20 phát triển rộng khắp sở liệu quy tạo bùng nổ thơng tin tồn cầu Vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động kinh doanh Khai phá liệu hướng tiếp cận với khả giúp công ty trọng vào thông tin có nhiều ý nghĩa từ tập hợp liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử Với ưu mình, khai phá liệu chứng tỏ tính hữu dụng mơi trường kinh doanh đầy tính cạnh tranh ngày Khai phá liệu bao hàm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phần lớn thừa kế từ lĩnh vực sở liệu, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê, tính toán hiệu cao Các toán chủ yếu khai phá liệu phân lớp/dự đoán (classification/prediction), khai phá luật kết hợp (association rules mining), khai phá chuỗi (sequence mining), phân cụm (Clustering) - hướng nghiên cứu khai phá liệu, kĩ thuật nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên, tiềm ẩn tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định Một vài ví dụ ý nghĩa thực tiễn phân cụm liệu sau:  Khai thác thông tin từ văn sử dụng kỹ thuật phân cụm để phân tích loại văn để truyền đạt thơng tin cho người sử dụng cách trực 3.4.2 Chuẩn bị liệu Dữ liệu thu thập ba loại tệp:  Tệp định dạng liệu(*.names): Định nghĩa tên lớp, tên thuộc tính, giá trị thuộc tính, kiểu thuộc tính  Tệp mẫu liệu (*.data): Gồm mẫu liệu chứa đầy đủ thơng tin giá trị thuộc tính giá trị lớp  Tệp mẫu liệu (*.text): Gồm mẫu liệu chứa đầy đủ thông tin giá trị thuộc tính giá trị lớp 3.5 PHỎNG Chương trình xây dựng tảng Matlab 2015b Trong phần tơi trình bày kết thực nghiệm liệu xác định mục 3.2, với số thuật tốn phân cụm trình bày chương 3.5.1 Các bước Tiền xử lý liệu Dữ liệu UCI Đánh giá kết Khởi tạo tham số đầu vào Áp dụng thuật toán phân cụm Hình 3.1: Các bước thực nghiệm Bước Tiền xử lý liệu  Chuyển tệp mẫu liệu định dạng “*.xlsx”  Chuẩn hóa liệu đoạn [0, 1] Bước Khởi tạo tham số đầu vào Options, K Trong đó: 58  Options (1): Hệ sốmờ (m)  Options (2): Số lần lặp tối đa (max_loop)  Options (3): Giá trị tối thiểu hàm mục tiêu (Esp)  Options (4): Hiển thị giá trị sau lần lặp  Options (6): Hằng số a (hàm thuộc)  Options (7): Hằng số b (đặc trưng)  Options (8): Hệ số mũ hàm đặc trưng  K: Số cụm Bước Gọi hàm phân cụm Bước Đánh giá kết 3.5.2 Kết đạt Kết cụ thể đính kèm file Ketqua.xlsx 3.5.2.1 Bài tốn bệnh động kinh Bảng 3.5: Tham số đầu vào toán phân loại bệnh động kinh M Max_loop Eps display A b 200 1.00E-05 1 200 1.00E-10 1 4 200 1.00E-10 1 200 1.00E-10 1 4 Với tham số đầu vào lần lược thực lần thuật toán nhằm đánh giá thay đổi đầu đồng thời so sánh ưu điểm, nhược điểm thuật toán để làm minh chứng cho đánh giá thuật toán nêu chương 59 Hình 3.2: Hình ảnh phân cụm tham số đầu vào options a) Thuật toán FCM: Bảng 3.6: Kết phân cụm thuật toán FCMXOptions FCM m eps Thời gian HMT Số lần lặp 1.00E-05 2.6 -6.6E-06 8.6 0.4166 5601.00 50.9 2 1.00E-10 7.2 -6.9E-11 24.0 0.4166 5442.00 49.4 1.00E-10 3.9 -4.3E-11 12.4 0.4166 5440.60 49.4 1.00E-10 7.4 -8.0E-11 24.4 0.4166 5395.40 49.0 5.3 -1.6E-06 17.4 0.4166 49.9 Trung bình KCT B PCĐ 5494.5 Tỉ lệ Thay đổi giá trị đầu vào: chất lượng phân cụm không ổn định kết phụ thuộc vào khởi tạo ma trận tâm cụm ma trận phụ thuộc Trong trình thử nghiệm giá trị m=2 với eps=1.00E-05 cho kết tốt nhất, giá trị m phải thử nghiệm nhiều lần dựa vào kinh nghiệm 60 TỈ LỆ PHẦN TRĂM PHÂN CỤM ĐÚNG 52 50 50.92 48 O1 49.47 49.46 49.05 O2 O3 O4 PCD Hình 3.3: Tỉ lệ phân cụm FCM b) Thuật toán KFCM Bảng 3.7: Kết phân cụm thuật toán KFCM XKFCM Thời gian HMT Số lần lặp KCTB PCĐ 1.2 -6.0E-06 2.0 0.4166 5380.4 0.8 -6.2E-06 2.0 0.4166 5618.8 0.8 -6.2E-06 2.0 0.4166 5468.4 0.8 -6.3E-06 2.0 0.4166 5467.0 0.9 -6.1E-06 2.0 0.4166 5489.2 Tỉ lệ 48.9127 51.0800 49.7127 49.7000 49.9018 Số lần lặp biến động, thay đổi giá trị m eps thời gian thực giảm, chất lượng phân cụm tăng Khi m=2 eps=1.00E-10 cho kết phân cụm tốt c) Thuật toán PFCM Bảng 3.8: Kết phân cụm thuật toán PFCM XOptions m eps n PFCM 1.00E-05 Thời gian 112.0 1.00E-10 115.7 1.00E-10 149.7 1.00E-10 65.1 Trung bình 110.6 HMT 2.2E-06 -1.5E11 -1.1E01 -8.5E11 -2.8E02 61 Số lần lặp 117.8 116.0 148.2 63.2 111.3 KCT B 0.427 0.420 0.419 0.416 0.418 PCĐ Tỉ lệ 6182.8 6163.8 6261.8 5612.4 6055.2 56.2 56.0 56.9 51.0 55.0 Thuật toán hội tụ sớm tăng giá trị nghĩa thời gian thuật toán thực giảm đáng kể, khoảng cách trung bình đến tâm cụm giảm Khi m=4 eps=1.00E-10 cho kết phân cụm tốt Nhìn chung thời gian hội tụ thuật toán chậm d) Thuật toán QPSO_FCM Bảng 3.9: Kết phân cụm thuật toán QPSO_FCM XQPSO_FCM Thời gian Số lần lặp KCTB PCĐ Tỉ lệ 0.3 2.0 0.4167 5477.20 49.79 0.3 2.0 0.4171 5531.80 50.29 0.3 2.0 0.4170 5430.80 49.37 0.3 2.0 0.4171 5541.80 50.38 0.3 2.0 0.4170 5495.4 49.96 Chất lượng phân cụm tương đối ổn định Khi m=4 eps=1.00E-10 cho kết phân cụm tốt giảm phụ thuộc vào tham số đầu vào m e) So sánh chất lượng phân cụm thuật toán phân cụm mờ: Bảng 3.10: So sánh kết phân cụm thuật toán phân cụm mờ Thời gian HMT Số lần lặp KCTB Options 4 4 FCM 2.63 7.23 3.91 7.36 -6.6E-06 -6.9E-11 -4.3E-11 -8.0E-11 8.6 24.0 12.4 24.4 0.4166 0.4166 0.4166 0.4166 KFCM 1.17 1.15 1.13 1.22 -6.3E-06 -6.3E-06 -6.2E-06 -6.2E-06 2.0 2.0 2.0 2.0 0.4166 0.4166 0.4166 0.4166 62 QPSO_FCM 0.29 0.30 0.31 0.29 2.0 2.0 2.0 2.0 0.4167 0.4171 0.4170 0.4171 PFCM 112.04 115.73 149.65 65.12 2.2E-06 -1.5E-11 -1.1E-01 -8.5E-11 117.8 116.0 148.2 63.2 0.4273 0.4205 0.4198 0.4165 PCĐ Tỉ lệ 4 5601.0 5442.0 5440.6 5395.4 50.92 49.47 49.46 49.05 5497.6 5604.8 5497.2 5600.4 49.98 50.95 49.97 50.91 63 5477.2 5531.8 5430.8 5541.8 49.79 50.29 49.37 50.38 6182.8 6163.8 6261.8 5612.4 56.21 56.03 56.93 51.02 Bảng 3.11: Thống kê trung bình giá trị X FCM KFCM HMT -1.64633E-06 -6.25152E-06 KCTB 0.41660111 0.416601184 0.417083143 0.416517204 PCĐ 5469.75 5550 5495.4 6055.2 QPSO_FCM PFCM -0.028154513 9.96 50.4 55.05 T hờ i g ia n 17.35 0.3 1.17 5.28 50.92 110.64 111.3 S o s án h th i g ian , s ố lần lặp , tỉ lệ p h ân c ụ m đ ú n g Số l ầ n l ặ p FCM KFCM Tỉ l ệ QPSO_FCM PFCM Hình 3.4: So sánh thuật toán phân cụm mờ Dựa vào bảng kết lược đồ số lần thực thuật toán PFCM vượt hẳn so với thuật toán phân cụm mờ khác Bảng 3.12: Kết số đánh giá chất lượng phân FCM KFCM QPSO_FC M 64 PFCM MIN MAX cụmX DUNN 1.5E-09 4.0E-09 3.2E-04 3.2E-03 1.5E-09 3.2E-03 DAVIE 3.7E+07 3.6E+07 5.3E+02 6.8E+01 6.8E+01 3.7E+07 PURIT Y 0.21021 0.21043 0.214832 0.21217 0.21021 0.21483 MI 9.4E-04 9.8E-04 5.8E-04 5.9E-04 5.8E-04 9.8E-04 0.22 0.22 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21 9.4 0E-04 1.20E-03 0.21 1.00E-03 9.80E-04 5.80E-04 0.21 0.21 5.90E-04 0.21 8.00E-04 6.00E-04 00E-04 2.00E-04 0.00E+00 FCM KFCM QPSO_FCM PURITY PFCM MI Hình 3.5: So sánh Purity MI thuật tốn phân cụm mờ 3.50E-03 4.00E+07 3.00E-03 3.50E+07 2.50E-03 3.00E+07 2.50E+07 2.00E-03 2.00E+07 1.50E-03 1.50E+07 1.00E-03 1.00E+07 5.00E-04 5.00E+06 0.00E+00 FCM KFCM QPSO_FCM DAVIE DUNN Linear (DAVIE) Linear (DUNN) 65 0.00E+00 PFCM Hình 3.6: So sánh Dunn Davie thuật toán phân cụm mờ 3.5.2.2 Bài toán viêm gan Bảng 3.13: Giá trị đầu vào cho toán phân cụm viêm gan m Số lần lặp Eps display a b 200 1.00E10 1 option Với tham số đầu vào lần lược thực lần thuật toán nhằm đánh giá thay đổi đầu đồng thời so sánh ưu điểm, nhược điểm thuật toán để làm minh chứng cho đánh giá thuật toán nêu chương Bảng 3.14: Kết đánh giá “entropy purity” Entropy Purity KMEAN 0.217529 0.75483871 EM 0.216345 0.658064516 FCM 0.210974 0.580645161 PFCM 0.212027 0.614740642 KMEAN 0.220572 0.316129032 EM 0.219399 0.670967742 FCM 0.210974 0.580645161 PFCM 0.212027 0.614740642 KMEAN 0.221061 0.232258065 EM 0.219399 0.670967742 FCM 0.210974 0.592073027 PFCM 0.212027 0.614740642 KMEAN 0.220793 0.320967742 EM 0.215354 0.638709677 FCM 0.210974 0.592073027 66 PFCM 0.212027 0.548387097 Qua lần thực nghiệm với liệu viêm gan cho thấy chất lượng phân cụm thuật toán phân cụm rõ chiếm ưu tương đồng liệu sau phân cụm độ xác cụm tả lược đồ thể giá trị trung bình Entropy Purity (hình 3.6) sau: Đánh giá phân cụm 0.66 0.22 0.22 0.7 0.22 0.59 0.6 0.22 0.22 0.5 0.22 0.21 0.4 0.4 0.21 0.21 0.3 0.21 0.2 0.21 0.1 0.21 0.21 0.6 KMEAN EM FCM entropy PFCM purity Hình 3.7: Đánh giá Entropy Purity thuật toán phân cụmmờ Bảng 3.15: Chất lượng phân cụm thuật toán phân cụmmờ KMEAN EM FCM PFCM PCĐ 36 54.5 65 85 TỈ LỆ % 23.22581 35.16129 41.93548 54.83871 Rõ ràng dựa vào bảng kết 3.14 ta thấy chất lượng phân cụm thuật toán phân cụm mờ cải thiện lớn với liệu viêm gan đầu vào Bảng 3.16: Khoảng cách trung bình đến tâm cụm KMEAN CỤM 0.204048 67 CỤM 0.12744 EM FCM PFCM 0.152288 0.141898 0.139607 0.125616 0.125551 0.126546 3.1 NHẬN XÉT KẾT QUẢ Kết thực nghiệm cho thấy thuật toán phân cụm liệu mờ cho kết tốt phân cụm rõ với liệu chọn thực nghiệm Trong thuật toán phân cụm liệu mờ thuật tốn PFCM cho kết phân cụm chậm nhất, thuật toán KFCM QPSO_FCM cho kết phân cụm nhanh gần tương đương Nhưng số đánh giá phân cụm mờ thể cho thấy thuật tốn phân cụm có ưu nhược điểm riêng, chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc sở liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc sở liệu, với cách thức biểu diễn khác có tương ứng thuật tốn phân cụm phù hợp 68 KẾT LUẬN Trong trình tìm hiểu hoàn thành luận văn với đề tài “Nghiên cứu số phương pháp phân cụm mờ ứng dụng”, luận văn tập trung nghiên cứu lý thuyết áp dụng số kỹ thuật phân cụm liệu liệu UCI Đây bước khởi đầu trình tìm hiểu vấn đề cần quan tâm giải toán phân cụm liệu thực tế Trong khuôn khổ luận văn chưa áp dụng cụ thể vào sở liệu thực tế nào, dừng lại liệu UCI nên kết thực nghiệm chưa mang ý nghĩa thực tế Tuy nhiên có số kết ban đầu phát cụm liệu Những kết mà luận văn thực hiện:  Về lý thuyết, luận văn tập trung tìm hiểu kỹ thuật phân cụm truyền thống, chi tiết số thuật toán phân cụm rõ, phân cụm mờ phương pháp cải tiến phân cụm mờ  Về thực tiễn, luận văn đưa kết kiểm chứng cho lý thuyết sau trình cài đặt thử nghiệm liệu UCI bao gồm kết phân cụm, cải tiến chất lượng phân cụm Hướng phát triển đề tài sau xử lý giá trị khuyết, phát loại bỏ thuộc tính dư thừa, cải tiến phương pháp tính độ tương đồng, nhằm nâng cao chất lượng tốc độ phân cụm Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu nữa, đặc biệt triển khai giải toán cụ thể thực tế 69 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Nguyễn Công Hào (2009), Logic mờ ứng dụng, Nxb Khoa Học, Huế [2] Vũ Thị Lành (2014), Một số độ đo mức tương tự tập mờ trực cảm (Vague sets), thử nghiệm phân cụm liệu, Luận văn tốt nghiệp chuyên nghành khoa học máy tính, đại học Thái Nguyên [3] Trần Tuấn Minh (2009), Nghiên cứu số phương pháp khai thác liệu ứng dụng, Báo cáo đề tài khoa học cấp bộ, trường đại học Đà Lạt [4] An Hồng Sơn (2008), Nghiên cứu số phương pháp phân cụm mờ ứng dụng, Luận văn thạc sĩ khoa học, đại học Thái Nguyên [5] Trần Mạnh Tuấn (2016), Nghiên cứu số phương pháp phân cụm bán giám sát mờ phân đoạn ảnh nha khoa, Luận án tiến sĩ toán học, Viện Hàn Lâm Khoa Học Công Nghệ Việt Nam Tài liệu tiếng anh [6] A.Safana, J.S.Leena Jasmine (2014), Possibilistic Fuzzy C Means Algorithm For Mass classificaion In Digital Mammogram, Senior Grade Assistant professor, PG Velammal Engineering College, Chennai [7] A.K Jain, R.C Dubes (1998), Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ [8] D Gibson, J Kleinberg, P Raghavan (2000), Clustering Categorical Data: An Approach Based on Dynamical Systems, VLDB Journal (3-4) pp 222-236 [9] D.Vanisri (2014), “A Novel Kernel Based Fuzzy C Means Clustering With Cluster Validity Measures”, International Journal of Computer Science and Mobile Computing, Vol.3 Issue.12, pg 254-260 [10] Eui-Hong (Sam) Han, George Karypis, Vipin Kumar (2000), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, Glaros.dtc.umn.edu/gkhome/fetch/papers/chameleon.pdf, Wednesday, July 25, 2018, 10:45:46 AM 70 [11] G.Gong (1998), Hepatitis Data Set, https://archive.ics.uci.edu/ml/machinelearning-databases/hepatitis, Friday, August 3, 2018, 9:04:47 PM [12] Martin Theus – Lehrstuhl fur Rechner (2004), Fuzzy Clustering, Martin Theus – Lehrstuhl fur Rechner orientierte Statistik und Datenanalse Multivariate Statistische erfahrn-ss2004+E8 [13] Jon Garibaldi, Turhan Ozen, Xiao Ying Wang (2003), “Application of the Fuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIR Data for Cancer Diagnosis”, Department of Computer Science and Information Technology The University of Nottingham, United Kingdom [14] J Han, M Kamber (2001), “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers [15] Qiuyi Wu (2017), “Epileptic Seizure Recognition Data Set”, https://archive.ics.uci.edu/ml/machine-learning-databases/ Epileptic, Thursday, March 22, 2018, 10:03:22 AM [16] TSUEN-HO HSU (1999), “An Application of Fuzzy Clustering in GroupPositioning Analysis”, Proc Natl Sci, Counc ROC© Vol 10, No 2, 2000 pp 157-167 [17] Shiqin Yang (2017), Research on Homogeneous and Heterogeneous Particle Swarm Optimization for Global Optimization Problems, Hosei University 71 28,40,71,74-75,77 (6 1-27,29-39,41-70,72-73,76,78-81 (75 72 ... ảnh hưởng tới phương pháp phân cụm  Thứ hai, ta đưa cách phân loại chung phương pháp phân cụm Sau đó, ta nghiên cứu chi tiết phương pháp phân cụm, bao gồm phương pháp phân hoạch, phân cấp, dựa... quan phân cụm số thuật toán phân cụm mờ 14 Chương 2: MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ 2.1 TỔNG QUAN VỀ PHÂN CỤM 2.1.1 Khái niệm phân cụm liệu Định nghĩa 2.1: Cho X tập liệu: (2.1) Ta định nghĩa m phân. .. web mảng ứng dụng lớn kỹ thuật phân cụm văn nghiên cứu Kaur 2013, Hu et al 2008… Trong phân cụm ta có hai hướng phân cụm rõ phân cụm mờ Một ví dụ cho dễ hình dung việc phân cụm rõ phân cụm học

Ngày đăng: 16/10/2018, 07:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Vũ Thị Lành (2014), Một số độ đo mức tương tự giữa các tập mờ trực cảm (Vague sets), thử nghiệm phân cụm dữ liệu, Luận văn tốt nghiệp chuyên nghành khoa học máy tính, đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Một số độ đo mức tương tự giữa các tập mờ trực cảm(Vague sets), thử nghiệm phân cụm dữ liệu
Tác giả: Vũ Thị Lành
Năm: 2014
[3]. Trần Tuấn Minh (2009), Nghiên cứu một số phương pháp khai thác dữ liệu và ứng dụng, Báo cáo đề tài khoa học cấp bộ, trường đại học Đà Lạt Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp khai thác dữ liệu vàứng dụng
Tác giả: Trần Tuấn Minh
Năm: 2009
[4]. An Hồng Sơn (2008), Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng, Luận văn thạc sĩ khoa học, đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân cụm mờ và ứngdụng
Tác giả: An Hồng Sơn
Năm: 2008
[5]. Trần Mạnh Tuấn (2016), Nghiên cứu một số phương pháp phân cụm bán giám sát mờ trong phân đoạn ảnh nha khoa, Luận án tiến sĩ toán học, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam.Tài liệu tiếng anh Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân cụm bán giámsát mờ trong phân đoạn ảnh nha khoa
Tác giả: Trần Mạnh Tuấn
Năm: 2016
[6]. A.Safana, J.S.Leena Jasmine (2014), Possibilistic Fuzzy C Means Algorithm For Mass classificaion In Digital Mammogram, Senior Grade Assistant professor, PG Velammal Engineering College, Chennai Sách, tạp chí
Tiêu đề: Possibilistic Fuzzy C Means AlgorithmFor Mass classificaion In Digital Mammogram
Tác giả: A.Safana, J.S.Leena Jasmine
Năm: 2014
[7]. A.K. Jain, R.C. Dubes (1998), Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ Sách, tạp chí
Tiêu đề: Algorithms for clustering data
Tác giả: A.K. Jain, R.C. Dubes
Năm: 1998
[8]. D. Gibson, J. Kleinberg, P. Raghavan (2000), Clustering Categorical Data: An Approach Based on Dynamical Systems, VLDB Journal 8 (3-4) pp. 222-236 Sách, tạp chí
Tiêu đề: Clustering Categorical Data: AnApproach Based on Dynamical Systems
Tác giả: D. Gibson, J. Kleinberg, P. Raghavan
Năm: 2000
[9]. D.Vanisri (2014), “A Novel Kernel Based Fuzzy C Means Clustering With Cluster Validity Measures”, International Journal of Computer Science and Mobile Computing, Vol.3 Issue.12, pg. 254-260 Sách, tạp chí
Tiêu đề: A Novel Kernel Based Fuzzy C Means Clustering WithCluster Validity Measures”, "International Journal of Computer Science andMobile Computing
Tác giả: D.Vanisri
Năm: 2014
[10]. Eui-Hong (Sam) Han, George Karypis, Vipin Kumar (2000), CHAMELEON:A Hierarchical Clustering Algorithm Using Dynamic Modeling, Glaros.dtc.umn.edu/gkhome/fetch/papers/chameleon.pdf, Wednesday, July 25, 2018, 10:45:46 AM Sách, tạp chí
Tiêu đề: CHAMELEON:"A Hierarchical Clustering Algorithm Using Dynamic Modeling
Tác giả: Eui-Hong (Sam) Han, George Karypis, Vipin Kumar
Năm: 2000
[11]. G.Gong (1998), Hepatitis Data Set, https://archive.ics.uci.edu/ml/machine-learning-databases/hepatitis, Friday, August 3, 2018, 9:04:47 PM Sách, tạp chí
Tiêu đề: Hepatitis Data Set
Tác giả: G.Gong
Năm: 1998
[12]. Martin Theus – Lehrstuhl fur Rechner (2004), Fuzzy Clustering, Martin Theus – Lehrstuhl fur Rechner orientierte Statistik und Datenanalse Multivariate Statistische erfahrn-ss2004+E8 Sách, tạp chí
Tiêu đề: Fuzzy Clustering
Tác giả: Martin Theus – Lehrstuhl fur Rechner
Năm: 2004
[13]. Jon Garibaldi, Turhan Ozen, Xiao Ying Wang (2003), “Application of the Fuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIR Data for Cancer Diagnosis”, Department of Computer Science and Information Technology The University of Nottingham, United Kingdom Sách, tạp chí
Tiêu đề: Application of theFuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIRData for Cancer Diagnosis
Tác giả: Jon Garibaldi, Turhan Ozen, Xiao Ying Wang
Năm: 2003
[14]. J. Han, M. Kamber (2001), “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Data Mining Concepts and Techniques
Tác giả: J. Han, M. Kamber
Năm: 2001
[15]. Qiuyi Wu (2017), “Epileptic Seizure Recognition Data Set”, https://archive.ics.uci.edu/ml/machine-learning-databases/ Epileptic, Thursday, March 22, 2018, 10:03:22 AM Sách, tạp chí
Tiêu đề: Epileptic Seizure Recognition Data Set
Tác giả: Qiuyi Wu
Năm: 2017
[16]. TSUEN-HO HSU (1999), “An Application of Fuzzy Clustering in Group- Positioning Analysis”, Proc. Natl. Sci, Counc. ROC© Vol. 10, No. 2, 2000.pp. 157-167 Sách, tạp chí
Tiêu đề: An Application of Fuzzy Clustering in Group-Positioning Analysis"”
Tác giả: TSUEN-HO HSU
Năm: 1999
[17]. Shiqin Yang (2017), Research on Homogeneous and Heterogeneous Particle Swarm Optimization for Global Optimization Problems, Hosei University Sách, tạp chí
Tiêu đề: Research on Homogeneous and Heterogeneous ParticleSwarm Optimization for Global Optimization Problems
Tác giả: Shiqin Yang
Năm: 2017

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w