1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu

14 1,3K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 0,98 MB

Nội dung

Sinh Viên thực hiện: 1. Lê Thị Châu Tra 2. Nguyễn Thị Hạnh 3. Lê Thị Thanh Nga 4. Nguyễn Văn Mẫn 5. Vũ Thành Hưng I. Giới thiệu về Clustering 1. Clustering là gì? Thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm. Nếu nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hàng ngày. Ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…. . I. Giới thiệu về Clustering 2. Mục đích của Clustering Mục đích chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng II. Nội Dung 1. Ứng dụng của Clustering - Kinh doanh - Sinh học - Địa lý - Bảo hiểm - Hoạch định thành phố - Một công cụ độc lập để xem xét phân bố dữ liệu - Làm bước tiền xử lý cho các thuật toán khác II. Nội Dung 2. Một số yêu cầu của Clustering Các yêu cầu của gom cụm trong khai phá dữ liệu: - Scalability: Có thể thay đổi kích cỡ. - Khả năng làm việc với các loại thuộc tính khác nhau. - Khám phá ra các cụm có hình dạng bất kì. - Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers). II. Nội Dung 3. Các loại dữ liệu trong Clustering Các biến khoảng tỷ lệ: Biến trị khoảng là các phép đo liên tục của các thang đo tuyến tính, thô. Ví dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt độ thời tiết. Các biến nhị phân: Biến nhị phân chỉ có hai trạng thái là 0 hay 1. Các biến định danh: Biến định danh là mở rộng của biến nhị phân với nhiều hơn hai trạng thái. Các biến thứ tự :có thể là liên tục hay rời rạc II. Nội Dung Các biến thang đo tỉ lệ: Là các biến có độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ. Các biến có kiểu hỗn hợp: Một cơ sở dữ liệu có thể chứa đồng thời cả sáu loại biến. Khi đó có thể dùng công thức được gán trọng để kết hợp các hiệu quả. Các kiểu dữ liệu phức tạp: Tất cả các đối tượng được xem xét a trong KPDL là không quan hệ => Loại dữ liệu phức tạp. 3. Các loại dữ liệu trong Clustering II. Nội Dung 4. Các phương pháp Clustering chủ yếu a. Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tượng. Khác với phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm. Trong phương pháp phân cấp có thể dùng điều kiện dừng. II. Nội Dung * Mô tả phương pháp Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho: - Mỗi cụm chứa ít nhất một đối tượng - Mỗi đối tượng thuộc về một cụm duy nhất - Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn. 4. Các phương pháp Clustering chủ yếu b. Phương pháp dựa trên phân hoạch: II. Nội Dung * Các phương pháp Phương pháp gom cụm k-mean - Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng. - Output:k cụm đã được gom. - Thuật giải 4. Các phương pháp Clustering chủ yếu b. Phương pháp dựa trên phân hoạch: [...]... tương tự tùy thuộc vào dữ liệu được dùng và loại tương tự cần tìm - Các phương pháp gom cụm + Các phương pháp phân cấp + Các phương pháp dựa trên phân hoạch Link Tài Liệu Tham Khảo http://donghoqualac.wordpress.com/2011/06/24/t%E1%BB%9 3ng-quan-v%E1%BB%81-cong-ngh%E1%BB%87 -clustering/ https://sites.google.com/site/chungdb/home /clustering http://www.ebook.edu.vn/?page=1.5&tag =clustering http://vi.wikipedia.org/wiki/Ph%C3%A2n_nh%C3%B3m_d...II Nội Dung 4 Các phương pháp Clustering chủ yếu b Phương pháp dựa trên phân hoạch: Thuật toán k-medoid - Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng - Output: k cụm đã được gom - Thuật toán II Kết Luận - Phân tích gom cụm các đối tượng dựa trên sự tương tự - Phân tích gom cụm có phạm vi ứng dụng to lớn - Có thể tính độ đo tương tự cho nhiều loại dữ liệu khác nhau - Việc lựa chọn... https://sites.google.com/site/chungdb/home /clustering http://www.ebook.edu.vn/?page=1.5&tag =clustering http://vi.wikipedia.org/wiki/Ph%C3%A2n_nh%C3%B3m_d %E1%BB%AF_li%E1%BB%87u http://luanvan.co/luan-van/de-tai-nghien-cuu-gom-cumclustering -trong- khai- pha-du-lieu-35312/ . giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…. . I. Giới thiệu về Clustering 2. Mục đích của Clustering Mục đích chính của phương pháp phân cụm dữ liệu. lập để xem xét phân bố dữ liệu - Làm bước tiền xử lý cho các thuật toán khác II. Nội Dung 2. Một số yêu cầu của Clustering Các yêu cầu của gom cụm trong khai phá dữ liệu: - Scalability: Có. được xem xét a trong KPDL là không quan hệ => Loại dữ liệu phức tạp. 3. Các loại dữ liệu trong Clustering II. Nội Dung 4. Các phương pháp Clustering chủ yếu a. Phân cấp: Tạo phân cấp cụm chứ

Ngày đăng: 06/04/2015, 20:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w