Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
320,14 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRẦN THỊ YẾN PHÂN CỤM DỮ LIỆU TRỪ MỜ VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS LÊ BÁ DŨNG Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Lê Bá Dũng, ngƣời tận tình hƣớng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin đƣợc bày tỏ lòng biết ơn tới thầy tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể lớp nói chung cá nhân em nói riêng Tôi xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp ủng hộ, động viên giúp đỡ để hoàn thành tốt luận văn Tôi xin gửi lời cảm ơn tới Ban giám hiệu trƣờng Đại học Khoa học, Ban chủ nhiệm Khoa Toán-Tin tạo điều kiện thuận lợi cho tham gia khóa học hoàn thành luận văn Một lần nữa, xin chân thành cảm ơn Thái Nguyên, tháng 09 năm 2012 Học viên Trần Thị Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết tìm hiểu, nghiên cứu tài liệu cách nghiêm túc dƣới hƣớng dẫn PGS TS Lê Bá Dũng Nội dung luận văn đƣợc phát triển từ ý tƣởng, sáng tạo thân kết có đƣợc hoàn toàn trung thực Học viên Trần Thị Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH vii MỞ ĐẦU .1 Chƣơng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu 1.2 Các ứng dụng phân cụm liệu 1.3 Các yêu cầu phân cụm liệu 1.4 Các kỹ thuật tiếp cận số thuật toán phân cụm liệu 1.4.1 Các phương pháp phân cụm phân hoạch - Partitioning Methods 1.4.2 Phương pháp phân cụm phân cấp - Hierarchical Methods 1.4.3 Phương pháp phân cụm dựa mật độ - Density-Based Methods 12 1.4.4 Phương pháp phân cụm dựa lưới - Grid-Based Methods 14 1.4.5 Phương pháp phân cụm dựa mô hình - Model-Based Clustering Methods15 1.4.6 Phương pháp phân cụm có liệu ràng buộc 17 Chƣơng 19 PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 19 2.1 Phân cụm mờ thuật toán phân cụm mờ 19 2.1.1 Tổng quan phân cụm mờ 19 2.1.2 Thuật toán phân cụm C-Means mờ (FCM) 21 2.2 Thuật toán phân cụm trừ (SC - Subtractive Clustering) 25 2.3 Thuật toán phân cụm trừ mờ (FSC – Fuzzy Subtractive Clustering) 28 Chƣơng 31 ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 31 3.1 Ứng dụng thuật toán SC cho xây dựng hệ luật 31 3.1.1 Trích xuất luật với tính toán xấp xỉ hàm 31 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2 Hệ thống suy diễn mờ (FIS) cho toán nút giao thông vùng ngoại ô 33 3.2 Ứng dụng thuật toán FSC vào phân đoạn ảnh 37 3.2.1 Phân đoạn ảnh 37 3.2.2 Phân đoạn ảnh sử dụng thuật toán phân cụm trừ mờ FSC 39 3.2.3 Thử nghiệm với thuật toán phân cụm trừ 40 3.2.4 Thử nghiệm với thuật toán phân cụm trừ mờ 42 3.2.5 Thử nghiệm thuật toán phân SC FSC ảnh 43 PHỤ LỤC 46 KẾT LUẬN .49 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 50 TÀI LIỆU THAM KHẢO 51 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT CURE Clustering Using Representatives DBSCAN Density based Spatial Clutering of Application with Noise DENCLUE Clustering Based on Density Distribution Functions EM Expectation Maximization FCM Fuzzy C-Means FSC Fuzzy Subtractive Clustering OPTICS Ordering Points to Identify the Clustering Structure SC Subtractive Clustering Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH Hình 2.1: Hai nhóm liệu phân cụm trừ mờ Hình 3.1: Biểu đồ liệu vào liệu Hình 3.2: Kết sau phân cụm Hình 3.3: Hàm thành viên tƣơng ứng với biến vào số ô tô sở hữu Hình 3.4: Hàm thành viên tƣơng ứng với biến vào số lƣợng việc làm Hình 3.5: Hàm thành viên tƣơng ứng với biến vào thu nhập trung bình Hình 3.6: Ảnh ban đầu thuật toán phân cụm trừ Hình 3.7: Ảnh kết thuật toán phân cụm trừ Hình 3.8: Ảnh ban đầu thuật toán phân cụm trừ mờ Hình 3.9: Ảnh kết thuật toán phân cụm trừ mờ Hình 3.10: Ảnh đầu vào cho thuật toán Hình 3.11: Ảnh kết thuật toán SC với 122 cụm Hình 3.12: Ảnh kết thuật toán FSC với 18 cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, khai phá liệu (Datamining) trở thành xu hƣớng nghiên cứu phổ biến lĩnh vực học máy công nghệ tri thức Nhiều thành tựu nghiên cứu Datamining đƣợc áp dụng thực tế Datamining có nhiều hƣớng quan trọng hƣớng phân cụm liệu (Data Clustering) Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tƣơng tự" (similar) với phần tử cụm khác "phi tƣơng tự" (dissimilar) với Phân cụm liệu phƣơng pháp học không giám sát Hiện nay, phƣơng pháp phân cụm đƣợc phát triển áp dụng nhiều lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích liệu, nghiên cứu thị trƣờng, xử lý ảnh,… Các thuật toán phân cụm đa dạng nhƣ Kmeans, Pam, C-means, C-means mờ, thuật toán phân cụm trừ,… Để tăng tính ổn định xác kết phân cụm, ngày có tiếp cận Một cách tiếp cận đƣợc nghiên cứu ứng dụng lý thuyết mờ vào toán phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn bao gồm nội dung sau: Chương 1: Tổng quan phân cụm liệu Chương 2: Phƣơng pháp phân cụm trừ mờ Chương 3: Ứng dụng phƣơng pháp phân cụm trừ mờ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu, trình phân chia tập liệu ban đầu thành cụm cho phần tử cụm “tƣơng tự” với phần tử cụm khác “phi tƣơng tự” với Số cụm liệu đƣợc phân đƣợc xác định trƣớc theo kinh nghiệm đƣợc tự động xác định theo phƣơng pháp phân cụm Trong học máy, phân cụm liệu đƣợc xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chƣa biết trƣớc thông tin cụm hay thông tin tập huấn luyện Trong nhiều trƣờng hợp, phân lớp đƣợc xem vấn đề học có giám sát phân cụm liệu bƣớc phân lớp liệu, phân cụm liệu khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Phân cụm có ý nghĩa quan trọng hoạt động ngƣời Ngay từ lúc bé, ngƣời học cách làm để phân biệt mèo chó, động vật thực vật liên tục đƣa vào sơ đồ phân loại tiềm thức Phân cụm đƣợc sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trƣờng Với tƣ cách chức khai phá liệu, phân cụm đƣợc sử dụng nhƣ công cụ độc lập chuẩn để quan sát đặc trƣng cụm thu đƣợc bên phân bố liệu tập trung vào tập riêng biệt cụm để giúp cho việc phân tích đạt kết Một vấn đề thƣờng gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lý liệu nhằm khắc phục loại bỏ nhiễu trƣớc chuyển sang giai đoạn phân tích cụm liệu Nhiễu đƣợc hiểu đối tƣợng liệu không xác, không tƣờng minh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đối tƣợng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tƣợng nhiễu giá trị thuộc tính tƣơng ứng Ngoài ra, dò tìm phần tử ngoại lai hƣớng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tƣợng liệu khác thƣờng so với liệu sở liệu, tức đối tƣợng liệu không tuân theo hành vi mô hình liệu nhằm tránh ảnh hƣởng chúng tới trình kết phân cụm Tóm lại, phân cụm liệu cần phải giải vần đề nhƣ sau: - Biểu diễn liệu, - Xây dựng hàm tính độ tƣợng tự, - Xây dựng tiêu chuẩn phân cụm, - Xây dựng mô hình cho cấu trúc cụm liệu, - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo, - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Theo nghiên cứu cho thấy chƣa có phƣơng pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc liệu Hơn nữa, phƣơng pháp phân cụm cần có cách thức biểu diễn cấu trúc liệu, với cách thức biểu diễn khác có tƣơng ứng thuật toán phân cụm phù hợp Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực khai phá liệu Mục tiêu phân cụm xác định đƣợc chất cụm liệu tập liệu chƣa có nhãn, theo cho phép sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thông tin tiềm ẩn, hữu ích phục vụ cho việc định Tuy nhiên, tiêu chí đƣợc xem tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... tiếp cận đƣợc nghiên cứu ứng dụng lý thuyết mờ vào toán phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn... PHÁP PHÂN CỤM TRỪ MỜ 19 2.1 Phân cụm mờ thuật toán phân cụm mờ 19 2.1.1 Tổng quan phân cụm mờ 19 2.1.2 Thuật toán phân cụm C-Means mờ (FCM) 21 2.2 Thuật toán phân. .. VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu 1.2 Các ứng dụng phân cụm liệu 1.3 Các yêu cầu phân cụm liệu 1.4 Các kỹ thuật tiếp cận số thuật toán phân