TÌM HIỂU AGNES TRONG KHAI PHÁ DỮ LIỆU PHÂN CỤM DỮ LIỆU là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm tương tự với nhau và các phần tử trong các cụm khác nhau sẽ phi tương tự với nhau.
Trang 1PHÂN CỤM DỮ LIỆU BẰNG PHƯƠNG PHÁP PHÂN CẤP VÀ THUẬT TOÁN
AGNES
Giảng viên hướng dẫn: TS Nguyễn Thị Kim Ngân
Nhóm học viên: 1 Trần Thị Mai Oanh
2 Phạm Thị Nhan
3 Viladet Phothimath
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
ĐỀ TÀI:
Trang 2Phân cụm trong khai phá dữ liệu
Phân cụm bằng phân cấp và thuật toán AGNES Phân cụm bằng phương pháp phân cấp
Trang 3Phân cụm trong kpdl
Khái niệm:
PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" với nhau
Trang 4Phân cụm trong kpdl
Độ tương tự được xác định dựa trên giá trị các thuộc tính mô tả đối tượng
Thông thường, phép đo khoảng cách thường được sử dụng để đánh giá độ tương tự hay phi tương tự
Trang 5Phân cụm trong kpdl
Bài toán phân cụm:
Input: Tập dữ liệu D gồm n phần tử trong không gian m chiều
+ D = {x1, x2,…,xn}
+ xi = (x1i, x2i,…, xmi) mô tả m thuộc tính của phần tử thứ i
Output: Phân các dữ liệu thuộc D thành các cụm sao cho:
+ Các phần tử trong cùng một cụm có tính chất tương tự nhau (gần nhau).+ Các phần tử ở các cụm khác nhau có tính chất khác nhau (xa nhau)
Trang 6Các ứng dụng của phân cụm
• Thương mại: PCDL có thể giúp các thương nhân khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các
mẫu mua bán trong CSDL khách hàng
• Sinh học: PCDL được sử dụng để xác định các loại sinh vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu
Trang 7Các ứng dụng của phân cụm
• Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ liệu thu được từ các hình ảnh chụp từ vệ tinh khiến người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết
• Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,…nhằm cung cấp thông tin cho quy hoạch đô thị
Trang 8Các ứng dụng của phân cụm
• Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm
• Địa lý : Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng.
• W W W: Gom nhóm các tài liệu liên quan để dễ dàng tìm kiếm, giảm kích thước dữ liệu lớn,…
Trang 9tiêu chuẩn gom nhóm
- Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao với:
* Tương tự cao trong một lớp
* Tương tự thấp giữa các lớp
- Chất lượng của kết quả gom cụm phụ thuộc vào:
* Độ đo tương tự được sử dụng
* Phương pháp cài đặt độ đo tương tự
Trang 10tiêu chuẩn gom nhóm
- Độ đo khoảng cách d(x,y): thường dùng để xác định sự khác nhau hay giống nhau giữa 2 đối tượng Độ đo khoảng cách thỏa mãn các điều kiện:
• d(x,y) ≥ 0
• d(x,y) =0 khi và chỉ khi x=y
• d(x,y) = d(y,x)
• d(x,z) ≤ d(x,y) + d(y,z)
Trang 11độ đo khoảng cách
• Các biến khoảng tỷ lệ
Ví dụ: Trọng lượng, chiều cao, tuổi,
Cần chuẩn hóa dữ liệu để tránh phụ thuộc đơn vị đo
* Độ đo khoảng cách phổ biến cho biến tỷ lệ theo khoảng là độ đo khoảng cách
Trang 14độ đo khoảng cách
Các biến nhị phân:
- Biến nhị phân chỉ có hai trạng thái là 0 và 1 Ví dụ: Giới tính
- Bảng Contingency Table cho dữ liệu nhị phân
Trang 16độ đo khoảng cách
Các Kiểu dữ liệu khác nhau yêu cầu độ đo khác nhau
+ Các biến theo tỉ lệ khoảng: Khoảng cách Euclide
+ Các biến nhị phân: hệ số đối sánh đơn giản, hệ số Jaccard.+ Các biến tên, thứ tự, tỉ lệ: khoảng cách Minkowski
Trang 17phân cụm bằng phương pháp phân cấp
Phương pháp phân cấp
- Tạo các cụm được phân cấp.
- Không cần số các cụm K ban đầu ở đầu vào
- Thường biểu diễn dưới dạng cây các cụm, gọi là dendrogam, trong đó:
• Các lá của cây biểu diễn từng đối tượng
• Các nút biểu diễn cho các cụm
Trang 18phân cụm bằng phương pháp phân cấp
Phương pháp phân cấp
Trang 19Cách xác định khoảng cách giữa các nhóm
Single Link : Khoảng cách gần nhất giữa hai đối tượng thuộc hai cụm khác nhau
d(A B)min = min (dij), i∈A, j∈B
Complete Link: khoảng cách xa nhất giữa 2 đối tượng thuộc 2 cụm khác nhau
d (A B)max = max (dij), i∈A,j∈B
Trang 20THUẬT TOÁN AGNES
Giới thiệu:
AGNES (Agglomerative Nesting)
+ Được giới thiệu tại Kaufmann và Rousseeuw (1990)
+ Thực hiện trong các gói thống kê
+ Sử dụng phương pháp Single Link và ma trận khoảng cách.+ Hợp nhất các cluster
+ Cuối cùng tất cả các nút thuộc cùng một cluster
Trang 21BÀI TOÁN
Input : CSDL gồm n đối tượng, m thuộc tính.
Output : k cụm.
Trang 22THUẬT TOÁN AGNES
1 Chuyển đổi các đặc trưng (thuộc tính - Features) của đối tượng (objects) vào ma trận khoảng cách
2 Xem mỗi đối tượng là một cluster (chẳng hạn, nếu ta có 4 đối tượng, ban đầu chúng ta sẽ có 4 clusters)
3. Lặp lại 2 bước sau cho đến khi số cluster bằng 1
a. Gộp (liên kết) 2 cluster gần nhất
b. Cập nhật ma trận khoảng cách
Trang 24Các ô chứa dấu (?) trong bảng trên được tính theo công thức của độ đo khoảng cách
Chú ý: Sau mỗi lần gom các cụm cần cập nhật ma trận khoảng cách và tính lại giá trị khoảng cách
giữa các cụm đã gom bằng Single Link
Trang 25Giả sử có 6 đối tượng cần phân cụm A,B,C,D,E,F, mỗi đối tượng có 2 thuộc tính X1 và X2 như sau:
Yêu cầu : Sử dụng Single Link, ma trận khoảng cách và thuật toán AGNES vẽ đồ thị dendrogram tương ứng
Trang 27Bước 2 : Sử dụng Euclide tính khoảng cách của tất cả các đối tượng
Trang 29Ví dụ
Bước 3: Tính lại khoảng cách từ cluster (D,F) đến các clusters khác
- Khoảng cách từ cluster (D, F) và cluster A d (D,F)A = min(d DA ,d FA ) =
Trang 31Tính lại khoảng cách giữa các clusters
- Khoảng cách giữa cluster (A, B) và cluster C: d (A,B)C = min(d AC ,d BC ) =
min(5.66,4.95)=4.95
- Khoảng cách giữa cluster (A, B) và cluster (D,F):
d (A,B)DF = min(d AD ,d AF ,d BD ,d BF ) = min(3.61,2.92,3.2,2.5)=2.5
- Khoảng cách giữa cluster (A, B) và cluster E: d (A,B)E = min(d AE ,d BE ) =
min(4.24,3.54)=3.54
Cập nhật ma trận khoảng cách:
Khoảng cách từ (D,F)
đến E là khoảng cách nhỏ nhất =1
Trang 34Ví dụ
Chọn cách gộp các cluster bằng Single Linkage
Khoảng cách từ ((D,F),E) đến C là khoảng cách nhỏ nhất =1.41
Nhóm cụm ((D,F),E) vào cluster (C).
Ma trận khoảng cách:
(A,B) (((D,F),E),C)
Trang 36Ví dụ
Chọn cách gộp các cluster bằng Single Linkage
Nhóm 2 clusters còn lại (A,B) và (((D, F), E), C)
Được 1 cluster duy nhất gồm toàn bộ 6 đối tượng ((((D,F),E),C),(A,B))
2
A B
C
D F
E
Trang 37Ưu và nhược điểm của tt agnes
Ưu điểm:
Không cần xác định trước số nhóm K
Trang 38Ưu và nhược điểm của tt agnes
Nhược điểm:
+ Độ phức tạp là O(n2) với n là số đối tượng Ví dụ với n = 60:
Trang 39Ưu và nhược điểm của tt agnes
Nhược điểm:
+ Không thể quay lui về bước trước
+ Khó xác định phương pháp tích tụ hay chia nhỏ + Nhạy cảm với nhiễu, cá biệt
+ Gặp vấn đề khi các nhóm có kích thước khác nhau + Có xu hướng phân chia các nhóm dữ liệu lớn
Trang 40THANKS!!!