1. Trang chủ
  2. » Công Nghệ Thông Tin

TÌM HIỂU AGNES KHAI PHÁ DỮ LIỆU

40 474 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 487,4 KB

Nội dung

TÌM HIỂU AGNES TRONG KHAI PHÁ DỮ LIỆU PHÂN CỤM DỮ LIỆU là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm tương tự với nhau và các phần tử trong các cụm khác nhau sẽ phi tương tự với nhau.

Trang 1

PHÂN CỤM DỮ LIỆU BẰNG PHƯƠNG PHÁP PHÂN CẤP VÀ THUẬT TOÁN

AGNES

Giảng viên hướng dẫn: TS Nguyễn Thị Kim Ngân

Nhóm học viên: 1 Trần Thị Mai Oanh

2 Phạm Thị Nhan

3 Viladet Phothimath

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

BÀI TIỂU LUẬN

ĐỀ TÀI:

Trang 2

Phân cụm trong khai phá dữ liệu

Phân cụm bằng phân cấp và thuật toán AGNES Phân cụm bằng phương pháp phân cấp

Trang 3

Phân cụm trong kpdl

Khái niệm:

PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" với nhau

Trang 4

Phân cụm trong kpdl

Độ tương tự được xác định dựa trên giá trị các thuộc tính mô tả đối tượng

Thông thường, phép đo khoảng cách thường được sử dụng để đánh giá độ tương tự hay phi tương tự

Trang 5

Phân cụm trong kpdl

Bài toán phân cụm:

Input: Tập dữ liệu D gồm n phần tử trong không gian m chiều

+ D = {x1, x2,…,xn}

+ xi = (x1i, x2i,…, xmi) mô tả m thuộc tính của phần tử thứ i

Output: Phân các dữ liệu thuộc D thành các cụm sao cho:

+ Các phần tử trong cùng một cụm có tính chất tương tự nhau (gần nhau).+ Các phần tử ở các cụm khác nhau có tính chất khác nhau (xa nhau)

Trang 6

Các ứng dụng của phân cụm

Thương mại: PCDL có thể giúp các thương nhân khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các

mẫu mua bán trong CSDL khách hàng

Sinh học: PCDL được sử dụng để xác định các loại sinh vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu

Trang 7

Các ứng dụng của phân cụm

Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ liệu thu được từ các hình ảnh chụp từ vệ tinh khiến người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết

Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,…nhằm cung cấp thông tin cho quy hoạch đô thị

Trang 8

Các ứng dụng của phân cụm

Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm

Địa lý : Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng.

W W W: Gom nhóm các tài liệu liên quan để dễ dàng tìm kiếm, giảm kích thước dữ liệu lớn,…

Trang 9

tiêu chuẩn gom nhóm

- Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao với:

* Tương tự cao trong một lớp

* Tương tự thấp giữa các lớp

- Chất lượng của kết quả gom cụm phụ thuộc vào:

* Độ đo tương tự được sử dụng

* Phương pháp cài đặt độ đo tương tự

Trang 10

tiêu chuẩn gom nhóm

- Độ đo khoảng cách d(x,y): thường dùng để xác định sự khác nhau hay giống nhau giữa 2 đối tượng Độ đo khoảng cách thỏa mãn các điều kiện:

• d(x,y) ≥ 0

• d(x,y) =0 khi và chỉ khi x=y

• d(x,y) = d(y,x)

• d(x,z) ≤ d(x,y) + d(y,z)

Trang 11

độ đo khoảng cách

• Các biến khoảng tỷ lệ

Ví dụ: Trọng lượng, chiều cao, tuổi,

 Cần chuẩn hóa dữ liệu để tránh phụ thuộc đơn vị đo

* Độ đo khoảng cách phổ biến cho biến tỷ lệ theo khoảng là độ đo khoảng cách

Trang 14

độ đo khoảng cách

Các biến nhị phân:

- Biến nhị phân chỉ có hai trạng thái là 0 và 1 Ví dụ: Giới tính

- Bảng Contingency Table cho dữ liệu nhị phân

Trang 16

độ đo khoảng cách

Các Kiểu dữ liệu khác nhau yêu cầu độ đo khác nhau

+ Các biến theo tỉ lệ khoảng: Khoảng cách Euclide

+ Các biến nhị phân: hệ số đối sánh đơn giản, hệ số Jaccard.+ Các biến tên, thứ tự, tỉ lệ: khoảng cách Minkowski

Trang 17

phân cụm bằng phương pháp phân cấp

Phương pháp phân cấp

- Tạo các cụm được phân cấp.

- Không cần số các cụm K ban đầu ở đầu vào

- Thường biểu diễn dưới dạng cây các cụm, gọi là dendrogam, trong đó:

Các lá của cây biểu diễn từng đối tượng

Các nút biểu diễn cho các cụm

Trang 18

phân cụm bằng phương pháp phân cấp

Phương pháp phân cấp

Trang 19

Cách xác định khoảng cách giữa các nhóm

Single Link : Khoảng cách gần nhất giữa hai đối tượng thuộc hai cụm khác nhau

d(A B)min = min (dij), i∈A, j∈B

Complete Link: khoảng cách xa nhất giữa 2 đối tượng thuộc 2 cụm khác nhau

d (A B)max = max (dij), i∈A,j∈B

Trang 20

THUẬT TOÁN AGNES

Giới thiệu:

AGNES (Agglomerative Nesting)

+ Được giới thiệu tại Kaufmann và Rousseeuw (1990)

+ Thực hiện trong các gói thống kê

+ Sử dụng phương pháp Single Link và ma trận khoảng cách.+ Hợp nhất các cluster

+ Cuối cùng tất cả các nút thuộc cùng một cluster

Trang 21

BÀI TOÁN

Input : CSDL gồm n đối tượng, m thuộc tính.

Output : k cụm.

Trang 22

THUẬT TOÁN AGNES

1 Chuyển đổi các đặc trưng (thuộc tính - Features) của đối tượng (objects) vào ma trận khoảng cách

2 Xem mỗi đối tượng là một cluster (chẳng hạn, nếu ta có 4 đối tượng, ban đầu chúng ta sẽ có 4 clusters)

3. Lặp lại 2 bước sau cho đến khi số cluster bằng 1

a. Gộp (liên kết) 2 cluster gần nhất

b. Cập nhật ma trận khoảng cách

Trang 24

Các ô chứa dấu (?) trong bảng trên được tính theo công thức của độ đo khoảng cách

Chú ý: Sau mỗi lần gom các cụm cần cập nhật ma trận khoảng cách và tính lại giá trị khoảng cách

giữa các cụm đã gom bằng Single Link

Trang 25

Giả sử có 6 đối tượng cần phân cụm A,B,C,D,E,F, mỗi đối tượng có 2 thuộc tính X1 và X2 như sau:

Yêu cầu : Sử dụng Single Link, ma trận khoảng cách và thuật toán AGNES vẽ đồ thị dendrogram tương ứng

Trang 27

Bước 2 : Sử dụng Euclide tính khoảng cách của tất cả các đối tượng

Trang 29

Ví dụ

Bước 3: Tính lại khoảng cách từ cluster (D,F) đến các clusters khác

- Khoảng cách từ cluster (D, F) và cluster A d (D,F)A = min(d DA ,d FA ) =

Trang 31

Tính lại khoảng cách giữa các clusters

- Khoảng cách giữa cluster (A, B) và cluster C: d (A,B)C = min(d AC ,d BC ) =

min(5.66,4.95)=4.95

- Khoảng cách giữa cluster (A, B) và cluster (D,F):

d (A,B)DF = min(d AD ,d AF ,d BD ,d BF ) = min(3.61,2.92,3.2,2.5)=2.5

- Khoảng cách giữa cluster (A, B) và cluster E: d (A,B)E = min(d AE ,d BE ) =

min(4.24,3.54)=3.54

 Cập nhật ma trận khoảng cách:

 Khoảng cách từ (D,F)

đến E là khoảng cách nhỏ nhất =1

Trang 34

Ví dụ

Chọn cách gộp các cluster bằng Single Linkage

 Khoảng cách từ ((D,F),E) đến C là khoảng cách nhỏ nhất =1.41

 Nhóm cụm ((D,F),E) vào cluster (C).

 Ma trận khoảng cách:

(A,B) (((D,F),E),C)

Trang 36

Ví dụ

Chọn cách gộp các cluster bằng Single Linkage

 Nhóm 2 clusters còn lại (A,B) và (((D, F), E), C)

 Được 1 cluster duy nhất gồm toàn bộ 6 đối tượng ((((D,F),E),C),(A,B))

2

A B

C

D F

E

Trang 37

Ưu và nhược điểm của tt agnes

Ưu điểm:

Không cần xác định trước số nhóm K

Trang 38

Ưu và nhược điểm của tt agnes

Nhược điểm:

+ Độ phức tạp là O(n2) với n là số đối tượng Ví dụ với n = 60:

Trang 39

Ưu và nhược điểm của tt agnes

Nhược điểm:

+ Không thể quay lui về bước trước

+ Khó xác định phương pháp tích tụ hay chia nhỏ + Nhạy cảm với nhiễu, cá biệt

+ Gặp vấn đề khi các nhóm có kích thước khác nhau + Có xu hướng phân chia các nhóm dữ liệu lớn

Trang 40

THANKS!!!

Ngày đăng: 03/11/2017, 22:16

HÌNH ẢNH LIÊN QUAN

- Bảng Contingency Table cho dữ liệu nhị phân - TÌM HIỂU AGNES KHAI PHÁ DỮ LIỆU
ng Contingency Table cho dữ liệu nhị phân (Trang 14)
Cá cô chứa dấu (?) trong bảng trên được tính theo công thức của độ đo khoảng cách. - TÌM HIỂU AGNES KHAI PHÁ DỮ LIỆU
c ô chứa dấu (?) trong bảng trên được tính theo công thức của độ đo khoảng cách (Trang 24)

TỪ KHÓA LIÊN QUAN

w