KHAI PHÁ DỮ LIỆU

Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2011-2012 Nội dung môn học: Giới thiệu Khai phá liệu Giới thiệu ề công cụ WEKA Tiền xử lý liệu Phát luật kết hợp Các kỹ thuật phân lớp dự đoán Các kỹ thuật phân nhóm Phân nhóm dựa chia cắt (k-Means) Khai Phá Dữ Liệu Học ọ có vs khơng g có g giám sát Học có giám sát (Supervised learning) Tập liệu (dataset) bao gồm ví dụ, dụ mà ví dụ gắn kèm với nhãn lớp/giá trị đầu mong muốn Mục đích học (xấp xỉ) giả thiết (vd: phân lớp, hàm mục tiêu, ) tiêu ) phù hợp với tập liệu có Giả thiết học (learned hypothesis) sau dùng để phân lớp/dự đoán ví dụ Học khơng có giám sát (Unsupervised learning) Tập liệu (dataset) bao gồm ví dụ, mà ví dụ khơng có thơng tin nhãn lớp/giá trị đầu mong muốn Mục đích tìm (học) nhóm/các cấu trúc/các quan hệ tồn tập liệu có Khai Phá Dữ Liệu Phân nhóm Phân nhóm/cụm (Clustering) phương pháp học khơng có giám sát sử dụng phổ biến Học phân nhóm Tồn phương pháp học khơng có giám sát khác, ví dụ: Lọc cộng tác (Collaborative filtering), Khai phá luật kết hợp (Association rule mining) mining), Đầu vào: tập liệu khơng có nhãn (các ví dụ khơng có nhãn lớp/giá trị đầu mong muốn) Đầu ra: nhóm (cụm) ví dụ Một nhóm (cluster) tập ví dụ Tương tự với (theo ý nghĩa, đánh giá đó) Khác biệt với ví dụ thuộc nhóm khác Khai Phá Dữ Liệu Phân nhóm – Ví dụ ụ Một ví dụ phân nhóm – đó, ví dụ đ phân hâ chia hi thành h nhóm hó [Liu, 2006] Khai Phá Dữ Liệu Phân nhóm – Các thành phần p Hàm tính khoảng cách (độ tương tự, độ khác biệt) Giải ả thuật phân nhóm • Phân nhóm dựa chia cắt (Partition-based clustering) • Phân nhóm dựa tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM) ợp ((Mixture models)) • Các mơ hình hỗn hợp • … Đánh giá chất lượng phân nhóm (Clustering quality) • Khoảng cách/sự khác biệt nhóm → Cần cực đại hóa • Khoảng cách/dự khác biệt bên nhóm → Cần cực tiểu ể hóa Khai Phá Dữ Liệu Phân nhóm k-Means Là phương pháp phổ biến phương pháp phân nhóm dựa chia cắt (partition (partition-based based clustering) Tập liệu D={x1,x2,…,xr} • i ví dụ (một vectơ khơng gian n chiều) •x Giải thuật k-means phân chia (partitions) tập liệu thành k nhóm • Mỗi nhóm (cluster) có điểm trung tâm, gọi centroid •k k (tổng số nhóm thu được) giá trị xác định trước (vd: định người thiết kế hệ thống phân nhóm) Khai Phá Dữ Liệu k-Means – Các bước Với giá trị k xác định trước • Bước B 1 Ch Chọn ngẫu ẫ nhiên hiê k víí dụ d (được (đ gọii h hạtt nhân – seeds) để sử dụng làm điểm trung tâm ban đầu ((initial centroids)) k nhóm • Bước Đối với ví dụ, gán vào nhóm (trong số k nhóm) có điểm trung tâm (centroid) gần ví dụ • Bước Đối với nhóm, tính tốn lại điểm trung tâm (centroid) dựa tất ví dụ thuộc vào nhóm • Bước Dừng lại điều kiện hội tụ (convergence criterion) thỏa mãn; không, quay lại Bước Khai Phá Dữ Liệu k-means(D, k) D: The dataset k: The number of clusters Randomly select k instances in D as the initial centroids while not CONVERGENCE for each instance x∈D Compute the distance from x to each centroid Assign x to the cluster whose centroid is closest to x end d for f for each cluster Re-compute p its centroid based on its own instances end while return {The k clusters} Khai Phá Dữ Liệu Điều kiện ệ hội ộ tụ ụ Q trình phân nhóm kết thúc, nếu: • Khơng có (hoặc có khơng đáng kể) việc gán lại ví dụ vào nhóm khác, • Khơng có (hoặc có khơng đáng kể) thay đổi điểm trung tâm ( (centroids) t id ) ủ nhóm, hó h ặ • Giảm khơng đáng kể tổng lỗi phân nhóm: k Error = ∑ ∑ d (x, m i ) i =1 x∈Ci Ci: Nhóm thứ i mi: Điểm trung tâm (centroid) nhóm Ci d(x, mi): Khoảng cách (khác biệt) ví dụ x điểm trung tâm mi Khai Phá Dữ Liệu 10 k-Means – Minh họa ọ (1) ( ) [Liu, 2006] Khai Phá Dữ Liệu 11 k-Means – Minh họa ọ ((2)) [Liu, 2006] Khai Phá Dữ Liệu 12 Điểm trung tâm, Hàm khoảng cách Xác định điểm trung tâm: Điểm trung bình (Mean centroid) mi = Ci ∑x x∈Ci • ((vectơ)) mi điểm trung g tâm ((centroid)) nhóm Ci • |Ci| kích thước nhóm Ci (tổng số ví dụ Ci) Hàm khoảng cách: Euclidean distance d ( x, m i ) = x − m i = (x1 − mi1 )2 + (x2 − mi )2 + + (xn − )2 • (vectơ) mi điểm trung tâm (centroid) nhóm Ci • d(x,mi) khoảng cách ví dụ x điểm trung tâm mi Khai Phá Dữ Liệu 13 k-Means – Các ưu điểm Đơn giản • Rất dễ cài ài đặt • Rất dễ hiểu Hiệ Hiệu ả • Độ phức tạp thời gian ~ O(r.k.t) r: Tổng số ví dụ (kích thước tập liệu) k: Tổng số nhóm thu t: Tổng số bước lặp (của q trình phân nhóm) • Nếu ế ả giá trị k t ề nhỏ, ỏ giải ả thuật k-means xem có độ phức tạp mức tuyến tính k means giải thuật phân nhóm dùng phổ biến k-means Khai Phá Dữ Liệu 14 k-Means – Các nhược điểm (1) Giá trị k (số nhóm thu được) phải xác định trước Giải thuật k-means cần xác định cách tính điểm trung bình (centroid) nhóm • Đối ố với thuộc tính định danh (nominal attributes), giá trị trung bình xác định giá trị phổ biến Giải thuật k-means k means nhạy cảm (gặp lỗi) với ví dụ ngoại lai (outliers) • Các ví dụ ụ ngoại g lai ví dụ ụ ((rất)) khác biệt ệ với tất ví dụ ụ khác • Các ví dụ ngoại lai lỗi q trình thu thập/lưu liệu • Các ví dụ ngoại lai có giá trị thuộc tính (rất) khác biệt với giá trị thuộc tính ví dụ khác Khai Phá Dữ Liệu 15 k-Means – Các ví dụ ụ ngoại g lai [Liu, 2006] Khai Phá Dữ Liệu 16 Giải q y vấn đề ngoại g lai • Giải pháp Trong q trình phân nhóm, cần loại bỏ số ví dụ ụq khác biệt ệ với ((cách xa)) điểm trung g tâm (centroids) so với ví dụ khác ─ Để chắn (khơng loại nhầm), theo dõi ví dụ ngoại lai (outliers) qua vài (thay 1) bước lặp phân nhóm, nhóm trước định loại bỏ • Giải p pháp p Thực ự ệ việc ệ lấy y mẫu ngẫu g nhiên ((a random sampling) ─ Do trình lấy mẫu lựa chọn tập nhỏ tập liệu ban đầu, đầu nên khả ngoại lai (outlier) chọn nhỏ ─ Gán ví dụ cịn lại tập liệu vào nhóm tùy theo đánh giá khoảng cách (hoặc độ tương tự) Khai Phá Dữ Liệu 17 k-Means – Các nhược điểm (2) Giải thuật k-means phụ thuộc vào việc chọn điểm trung tâm ban đầu (initial centroids) 1st centroid 2nd centroid [Liu, 2006] Khai Phá Dữ Liệu 18 k-Means – Các hạt nhân ban đầu (1) Sử dụng hạt nhân (seeds) khác → Kết tốt hơn! • Thực giải thuật k k-means means nhiều lần, lần bắt đầu với tập (khác lần trước) hạt nhân chọn ngẫu nhiên [Liu, 2006] Khai Phá Dữ Liệu 19 k-Means – Các hạt nhân ban đầu (2) Lựa chọn ngẫu nhiên hạt nhân thứ (m1) Lựa chọn hạt nhân thứ (m2) xa tốt so với hạt nhân thứ … Lựa chọn hạt nhân thứ i (mi) xa tốt so với hạt nhân gần số {m1, m2, … , mi-1} Khai Phá Dữ Liệu 20 k-Means – Các nhược điểm (3) Giải thuật k-means khơng phù hợp để phát nhóm (cụm) khơng có dạng hình elip hình cầu [Liu, 2006] Khai Phá Dữ Liệu 21 Tài liệu ệ tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Khai Phá Dữ Liệu 22

Định dạng
Số trang	22
Dung lượng	646,01 KB