(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng(Luận văn thạc sĩ) Phân cụm dữ liệu dựa trên mật độ và ứng dụng
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ NGỌC THANH PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN – 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ NGỌC THANH Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học TS NGUYỄN HUY ĐỨC Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn THÁI NGUYÊN – 2016 LỜI CÁM ƠN Để hoàn thành luận văn này, trước hết em xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Huy Đức, tận tình hướng dẫn, bảo, định hướng, đóng góp ý kiến quý báu suốt trình em thực luận văn Em xin chân thành cảm ơn thầy, cô giáo trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên tạo điều kiện tốt để em hồn thành khóa học Đồng thời, em xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tôi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt trình học tập làm luận văn Thái Nguyên, ngày 17 tháng 09 năm 2016 Học viên Vũ Ngọc Thanh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỤC LỤC MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU 11 1.1 Tổng quan khai phá liệu 11 1.1.1 Khái niệm 11 1.1.2 Tiến trình khai phá liệu 12 1.1.3 Các mơ hình khai phá liệu 14 1.1.4 Các hướng tiếp cận kỹ thuật sử dụng khai phá liệu 15 1.1.5 Các dạng liệu khai phá 16 1.1.6 Các ứng dụng khai phá liệu 17 1.2 Tổng quan phân cụm liệu 19 1.2.1 Khái niệm 19 1.2.2 Các mục tiêu phân cụm liệu 20 1.2.3 Các ứng dụng phân cụm liệu 22 1.2.4 Các yêu cầu phân cụm liệu 23 1.2.5 Những vấn đề tồn phân cụm liệu 26 1.2.6 Một số khái niệm cần thiết tiếp cận phân cụm liệu 26 1.2.7 Những kỹ thuật tiếp cận phân cụm liệu 31 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU DỰA TRÊN MẬT ĐỘ 37 2.1 Giới thiệu 37 2.2 Thuật toán DBSCAN 38 2.3 Thuật toán DBRS 49 2.4 Thuật toán OPTICS 55 2.5 Thuật toán DENCLUDE 56 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 3.1 Ý tưởng toán 60 3.2 Nguồn liệu đầu vào 60 3.3 Phương pháp giải toán 60 3.4 Kết thực nghiệm 61 KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 67 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC HÌNH ẢNH Hình 1.1: Tiến trình khám phá tri thức từ sở liệu Hình 1.2: Kiến trúc điển hình hệ khai phá liệu Hình 1.3: Ví dụ phân cụm liệu Hình 1.4: Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.5: Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 2.1: Ví dụ đối tượng nòng cốt, đối tượng biên đối tượng nhiễu Hình 2.2: Ví dụ mật độ đạt trực tiếp Hình 2.3: Ví dụ mật độ đạt Hình 2.4: Ví dụ mật độ liên thơng Hình 2.5: Minh họa đồ thị khoảng cách 4-dist xếp CSDL Hình 2.6: Kết thực nghiệm đánh giá thời gian thực thuật tốn (tính theo giây) thuật tốn nhóm tác giả Hình 2.7: Các cụm phát CLARANS (a) DBSCAN (b) Hình 2.8: Các cụm phát DBRS(a), DBSCAN(b), K-Means(c), CLARANS(d) Hình 2.9: Sắp xếp cụm OPTICS phụ thuộc vào ɛ Hình 2.10: DENCLUE với hàm phân phối Gaussian Hình 3.1: Kết qua sau phân cụm chương trình thực nghiệm Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC TỪ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Khai phá tri thức sở liệu KDD Knowledge Discovery in Databases Khai phá tri thức KPTT Knowledge Discovery Khai phá liệu KPDL Data Mining Phân cụm liệu PCDL Data Clustering Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Trong vài thập niên gần đây, với thay đổi phát triển khơng ngừng ngành cơng nghệ thơng tin nói chung ngành công nghệ phần cứng, phần mềm, truyền thông hệ thống liệu phục vụ lãnh vực kinh tế - xã hội nói riêng Thì việc thu thập thơng tin nhu cầu lưu trữ thông tin ngày lớn Bên cạnh việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lí có nhiều sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật khai phá liệu trở thành lĩnh vực thời công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định, dự đoán,… khai phá liệu (Data mining) đời nhằm giải yêu cầu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính cơng nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering) Phân cụm liệu q trính tìm kiếm để phân cụm liệu, mẫu liệu từ tập Cơ sở liệu lớn Phân cụm liệu phương pháp học khơng giám sát Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 Phân cụm liệu kỹ thuật để khai thác liệu có hiệu Phân cụm liệu ứng dụng nhiều lĩnh vực khác nhau: kinh tế, bảo hiểm, quy hoạch đô thị, nghiên cứu địa chấn v.v… Có nhiều kỹ thuật tiếp cận phân cụm liệu, tùy thuộc vào toán thực tế mà chọn phương pháp cho phù hợp Trong luận văn em xin trình bày nghiên cứu thân phương pháp “Phân cụm liệu dựa mật độ ứng dụng” Bố cục luận văn sau: Ngoài phần mở đầu, mục lục, danh mục hình ảnh, kết luận, tài liệu tham khảo, phụ lục Luận văn chia phần chính: Phần 1: Tổng quan khai phá liêu phân cụm liệu Phần giới thiệu khái niệm khai phá liệu phân cụm liệu Các phương pháp, lãnh vực hướng tiếp cận phân cụm liệu Phần 2: Phương pháp phân cụm liệu dựa mật độ Phần trình bày chi tiết phương pháp phân cụm liệu dựa mật độ thuật toán tiêu biểu phương pháp Phần 3: Xây dựng chương trình thực nghiệm Xây dựng chương trình thực nghiệm phân cụm liệu dựa mật độ với giải thuật DBSCAN Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering) Phân cụm liệu q trính tìm kiếm để phân cụm liệu, mẫu liệu từ tập Cơ sở liệu lớn Phân cụm liệu phương... phương pháp, lãnh vực hướng tiếp cận phân cụm liệu Phần 2: Phương pháp phân cụm liệu dựa mật độ Phần trình bày chi tiết phương pháp phân cụm liệu dựa mật độ thuật toán tiêu biểu phương pháp... giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ Ngồi phân cụm liệu cịn sử dụng