1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết

32 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,17 MB

Nội dung

Bài giảng Khai phá dữ liệu: Chương 6 Phân cụm dữ liệu, cung cấp cho người học những kiến thức như: Giới thiệu bài toán phân cụm; Một số độ đo cơ bản cho phân cụm; Phân cụm K-mean gán cứng; Phân cụm phân cấp; Biểu diễn cụm và gán nhãn; Đánh giá phân cụm. Mời các bạn cùng tham khảo!

Chương Phân cụm liệu KHAI PHÁ DỮ LIỆU Nội dung Giới thiệu toán phân cụm Một số độ đo cho phân cụm Phân cụm K-mean gán cứng Phân cụm phân cấp Biểu diễn cụm gán nhãn Đánh giá phân cụm DM DW 348 Giới thiệu toán phân cụm  Bài toán   Tập liệu D = {di} Phân liệu thuộc D thành cụm    Đo “tương tự” (gần) ?     Các liệu cụm: “tương tự” (gần nhau) Dữ liệu hai cụm: “không tương tự” (xa nhau) Tiên đề phân cụm: Nếu người dùng lựa chọn đối tượng d họ lựa chọn đối tượng cụm với d Khai thác “cách chọn lựa” người dùng Đưa số độ đo “tương tự” theo biểu diễn liệu Một số nội dung liên quan    Xây dựng độ đo tương tự Khai thác thông tin bổ sung Số lượng cụm cho trước, số lượng cụm không cho trước DM DW 349 Sơ tiếp cận phân cụm  Phân cụm mơ hình phân cụm phân vùng    Phân cụm đơn định phân cụm xác suất    Đơn định: Mỗi liệu thuộc cụm Xác suất: Danh sách cụm xác suất liệu thuộc vào cụm Phân cụm phẳng phân cụm phân cấp    Mơ hình: Kết mơ hình biểu diễn cụm liệu Vùng: Danh sách cụm vùng liệu thuộc cụm Phẳng: Các cụm liệu không giao Phân cấp: Các cụm liệu có quan hệ phân cấp cha- Phân cụm theo lô phân cụm tăng   Lô: Tại thời điểm phân cụm, tồn liệu có Tăng: Dữ liệu tiếp tục bổ sung trình phân cụm DM DW 350 Các phương pháp phân cụm  Các phương pháp phổ biến   Phân cụm phân vùng (phân cụm phẳng)       Phân vùng, phân cấp, dựa theo mật độ, dựa theo lưới, dựa theo mơ hình, phân cụm mờ Xây dựng bước phân hoạch cụm đánh giá chúng theo tiêu chí tương ứng Tiếp cận: từ lên (gộp dần), từ xuống (chia dần) Độ đo tương tự / khoảng cách K-mean, k-mediod, CLARANS, … Hạn chế: Không điều chỉnh lỗi Phân cụm phân cấp     Xây dựng hợp (tách) dần cụm tạo cấu trúc phân cấp đánh giá theo tiêu chí tương ứng Độ đo tương tự / khoảng cách HAC: Hierarchical agglomerative clustering DW CHAMELEON, BIRRCH CURE, … DM 351 Các phương pháp phân cụm  Phân cụm dựa theo mật độ     Phân cụm dựa theo lưới     Sử dụng lưới ô cỡ: nhiên cụm “ô” phân cấp Tạo phân cấp ô lưới theo số tiêu chí: số lượng đối tượng ô STING, CLIQUE, WaweCluster… Phân cụm dựa theo mơ hình     Hàm mật độ: Tìm phần tử nơi có mật độ cao Hàm liên kết: Xác định cụm lân cận phần tử DBSCAN, OPTICS… Giải thiết: Tồn số mơ hình liệu cho phân cụm Xác định mơ hình tốt phù hợp với liệu MCLUST… Phân cụm mờ    Giả thiết: khơng có phân cụm “cứng” cho liệu đối tượng thuộc số cụm DW DM Sử dụng hàm mờ từ đối tượng tới cụm 352 FCM (Fuzzy CMEANS),… Một số độ đo  Độ đo tương đồng      Biểu diễn: vector n chiều Giá trị nhị phân: Ma trận kề, độ đo Jaccard Giá trị rời rạc [0,m]: Chuyển m giá trị thành nhị phân, độ đo Jaccard Giá trị thực : độ đo cosin hai vector Độ đo khác biệt      Đối ngẫu độ đo tương đồng Thuộc tính nhị phân: đối cứng, khơng đối xứng Giá trị rời rạc: tương tự dạng đơn giản (q thuộc tính giống nhau) Giá trị thực: Khoảng cách Manhattan, Euclide, Mincowski Tính xác định dương, tính đối xứng, tính bất đẳng thức tam giác DM DW 353 Một số độ đo  Ví dụ độ khác biệt CSDL xét nghiệm bệnh nhân  Quy giá trị nhị phân: M/F, Y/N, N/P  Lập ma trận khác biệt cho cặp đối tượng  Ví dụ, cặp (Nam, Vân): a=2, b=1, c=1, d=3 D(Nam, Vân) =(1+1)/(2+1+1)=0.5  DM DW 354 Phân cụm K-mean gán cứng  Một số lưu ý  Điều kiện dừng  Sau bước khơng có thay đổi cụm  Điều kiện dừng cưỡng     Khống chế số lần lặp Giá trị mục tiêu đủ nhỏ Vấn đề chọn tập đại diện ban đầu bước Khởi động Có thể dùng độ đo khoảng cách thay cho độ đo tương tự DM DW 355 a Thuât toán K-mean gán cứng  Một số lưu ý (tiếp) ví dụ    Trong bước 2: trọng tâm khơng thuộc S Thực tế: số lần lặp  50 Thi hành k-mean với liệu đĩa  Toàn liệu lớn: nhớ  Với vòng lặp: duyệt CSDL đĩa lần   Tính độ tương tự d với ci Tính lại ci mới: bước 2.1 khởi động (tổng, đếm); bước DW 2.2 cộng tăng đếm; bước 2.3 thực k phép DM chia 356 HAC với độ đo khác  Ảnh hưởng độ đo   Trên: Hoạt động thuật toán khác theo độ đo khác nhau: độ tương tự cực tiểu (complete-link) có tính cầu so với cực đại DW DM Dưới: Độ tương tự cực đại (Single-link) tạo cụm chuỗi dòng 364 b Phân cụm phân cấp BIRCH  Balanced Iterative Reducing Clustering Using Hierarchies    Tính khả cỡ: Làm việc với tập liệu lớn Tính bất động: Gán khơng đổi đối tượng –> cụm Khái niệm liên quan  Đặc trưng phân cụm CF: tóm tắt cụm  CF = , n: số phần tử, LS: vector tổng thành phần liêu; SS : vector tổng bình phương thành phần đối tượng Khi ghép cụm khơng tính lại tổng Cây đặc trưng phân cụm CF Tree      Một cân Hai tham số: bề rộng b ngưỡng t Thuật toán xây dựng DM DW 365 BIRCH: Năm độ đo khoảng cách DM DW 366 Cây đặc trưng phân cụm CF Tree    Mỗi nút khơng có nhiều B cành Mỗi nút có nhiều L đặc trưng phân cụm mà đảm bảo ngưỡng T Cỡ nút xác định số chiều không gian liệu tham số P kích thước trang nhớ DM DW 367 Chèn vào CF Tree BIRCH   Cây ban đầu rỗng Chèn “cụm” a vào     Xác định thích hợp: Duyệt từ gốc xuống cách đệ quy để tới nút gần a theo khoảng cách nói Biến đổi lá: Nếu gặp L1 gần a nhất, kiểm tra xem L1 có “hấp thụ“ a khơng (chưa vượt ngưỡng); có đặc trưng CF L1 bổ sung; Nếu không, tạo nút cho a; không đủ nhớ cho cần chia cũ Biến đổi đường tới bổ sung phần tử Tinh chỉnh việc trộn: DW Tian Zhang, Raghu Ramakrishnan, Miron Livny (1996) BIRCH: An Efficient DM Data Clustering Method for Very Large Databases, SIGMOD Conference 1996: 368 103-114 Các thuật toán phân cụm khác   Phân cụm phân cấp từ xuống DIANA    RObust Clustering using linKs: xử lý liệu rời rạc, định “gần” theo tập phần tử láng giềng sim (p, q) > >0 Phân cụm dựa mật độ DBSCAN  Density-Based Spatial Clustering of Application with Noise  #-neighborhood: vùng lân cận bán kính # | #-neighborhood| > MinPts gọi đối tượng lõi P đạt trực mật độ từ q q đối tượng lõi p thuộc #neighborhood q Đạt có dãy mà sau đạt trực tiếp từ trước     Đối ngẫu phân cụm phân cấp từ xuống: phần tử khác biệt -> cụm khác biệt S, Thêm vào S phần tử có d > Phân cụm phân cấp ROCK   Nghiên cứu giáo trình Phân cụm phân cấp dựa mơ hình   Làm phù hợp phân bố cụm với mơ hình toán học Phân cụm cực đại kỳ vọng, phân cụm khái niệm, học máy mạng nơron DM DW 369 Biểu diễn cụm gán nhãn  Các phương pháp biểu diễn điển hình  Theo đại diện cụm       Đại diện cụm làm tâm Tính bán kính độ lệch chuẩn để xác định phạm vi cụm Cụm khơng ellip/cầu hóa: khơng tốt Theo mơ hình phân lớp  Chỉ số cụm nhãn lớp  Chạy thuật tốn phân lớp để tìm biểu diễn cụm Theo mơ hình tần số  Dùng cho liệu phân loại  Tần số xuất giá trị đặc trưng cho cụm Lưu ý   Dữ liệu phân cụm ellip/cầu hóa: đại diện cụm cho biểu diễn DW tốt DM Cụm hình dạng bất thường khó biểu diễn 370 Gán nhãn cụm  Phân biệt cụm (MU)    Hướng “trọng tâm” cụm   Chọn đặc trưng tương quan cụm Nxy (x có đặc trưng t, y liệu thuộc C)  N11 : số liệu chứa t thuộc cụm C  N10 : số liệu chứa t không thuộc cụm C  N01 : số liệu không chứa t thuộc cụm C  N00 : số liệu không chứa t không thuộc cụm C  N: Tổng số liệu Dùng đặc trưng tần số cao trọng tâm cụm Tiêu đề  Chon đặc trưng liệu cụm gần trọng tâm DM DW 371 Ví dụ: Gán nhãn cụm văn  Ví dụ   Ba phương pháp chọn nhãn cụm cụm cụm (622 tài liệu), cụm (1017 tài liệu), cụm 10 (1259 tài liệu) phân cụm 10000 tài liệu Reuters-RCV1 centroid: từ khóa có tần số cao trọng tâm; mutual information (MU): thông tin liên quan phân biệt cụm; title: tiêu đề tài liệu gần trọng tâm DW Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information DM Retrieval, Cambridge University Press 2008 372 Đánh giá phân cụm  Đánh giá chất lượng phân cụm khó khăn   Chưa biết cụm thực Một số phương pháp điển hình    Người dùng kiểm tra  Nghiên cứu trọng tâm miền phủ  Luật từ định  Đọc liệu cụm Đánh giá theo độ đo tương tự/khoảng cách  Độ phân biệt cụm  Phân ly theo trọng tâm Dùng thuật toán phân lớp  Coi cụm lớp  Học phân lớp đa lớp (cụm)  Xây dựng ma trận nhầm lẫn phân lớp DW  Tính độ đo: entropy, tinh khiết, xác, hồi tưởng, độDM 373 đo F đánh giá theo độ đo Đánh giá theo độ đo tương tự  Độ phân biệt cụm     Cực đại hóa tổng độ tương tự nội cụm Cực tiểu hóa tổng độ tương tự cặp cụm khác Lấy độ tương tự cực tiểu (complete link), cực đại (single link) Một số phương pháp điển hình  Phân ly theo trọng tâm DM DW 374 Ví dụ: Chế độ đặc điểm phân cụm web  Hai chế độ    Trực tuyến: phân cụm kết tìm kiếm người dùng Ngoại tuyến: phân cụm tập văn cho trước Đặc điểm   Chế độ trực tuyến: tốc độ phân cụm  Web số lượng lớn, tăng nhanh biến động lớn  Quan tâm tới phương pháp gia tăng Một lớp quan trọng: phân cụm liên quan tới câu hỏi tìm kiếm  Trực tuyến  Ngoại tuyến Carpineto C., Osinski S., Romano G., Weiss D (2009) A survey of web clustering engines, ACM Comput Surv , 41(3), Article 17, 38 pages DW DM 375 Ví dụ DM DW 376 Phân cụm kết tìm kiếm DM DW 377 Trường Đại học Phan Thiết Bài giảng KHAI PHÁ DỮ LIỆU ... Surv , 41(3), Article 17, 38 pages DW DM 375 Ví dụ DM DW 3 76 Phân cụm kết tìm kiếm DM DW 377 Trường Đại học Phan Thiết Bài giảng KHAI PHÁ DỮ LIỆU ... Spinger, DM 2007 DW 359 b Thuât toán PAM (K-mediod)  K-mediod    Biến thể K-mean: thay trọng tâm phần tử D Hàm mục tiêu PAM: Partition Around Mediods DM DW 360 Phân cụm phân cấp   HAC: Hierarchical... Zhang, Raghu Ramakrishnan, Miron Livny (19 96) BIRCH: An Efficient DM Data Clustering Method for Very Large Databases, SIGMOD Conference 19 96: 368 10 3-1 14 Các thuật toán phân cụm khác   Phân

Ngày đăng: 30/11/2021, 09:20

HÌNH ẢNH LIÊN QUAN

 Phân cụm mô hình và phân cụm phân vùng - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
h ân cụm mô hình và phân cụm phân vùng (Trang 4)
 Phân cụm dựa theo mô hình - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
h ân cụm dựa theo mô hình (Trang 6)
 Phân cụm phân cấp dựa trên mô hình - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
h ân cụm phân cấp dựa trên mô hình (Trang 23)
 Các phương pháp biểu diễn điển hình - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
c phương pháp biểu diễn điển hình (Trang 24)
 Một số phương pháp điển hình - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
t số phương pháp điển hình (Trang 27)
 Một số phương pháp điển hình - Bài giảng Khai phá dữ liệu: Chương 6 - Trường ĐH Phan Thiết
t số phương pháp điển hình (Trang 28)