KHAI PHÁ DỮ LIỆU

22 10 0
KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2011-2012 Nội dung môn học: „ Giới thiệu Khai phá liệu „ Giới thiệu ề công cụ WEKA „ Tiền xử lý liệu „ Phát luật kết hợp „ Các kỹ thuật phân lớp dự đoán „ Các kỹ thuật phân nhóm ‰ Phân nhóm dựa chia cắt (k-Means) Khai Phá Dữ Liệu Học ọ có vs khơng g có g giám sát „ Học có giám sát (Supervised learning) ‰ ‰ ‰ „ Tập liệu (dataset) bao gồm ví dụ, dụ mà ví dụ gắn kèm với nhãn lớp/giá trị đầu mong muốn Mục đích học (xấp xỉ) giả thiết (vd: phân lớp, hàm mục tiêu, ) tiêu ) phù hợp với tập liệu có Giả thiết học (learned hypothesis) sau dùng để phân lớp/dự đoán ví dụ Học khơng có giám sát (Unsupervised learning) ‰ ‰ Tập liệu (dataset) bao gồm ví dụ, mà ví dụ khơng có thơng tin nhãn lớp/giá trị đầu mong muốn Mục đích tìm (học) nhóm/các cấu trúc/các quan hệ tồn tập liệu có Khai Phá Dữ Liệu Phân nhóm „ Phân nhóm/cụm (Clustering) phương pháp học khơng có giám sát sử dụng phổ biến ‰ „ Học phân nhóm ‰ ‰ „ Tồn phương pháp học khơng có giám sát khác, ví dụ: Lọc cộng tác (Collaborative filtering), Khai phá luật kết hợp (Association rule mining) mining), Đầu vào: tập liệu khơng có nhãn (các ví dụ khơng có nhãn lớp/giá trị đầu mong muốn) Đầu ra: nhóm (cụm) ví dụ Một nhóm (cluster) tập ví dụ ‰ ‰ Tương tự với (theo ý nghĩa, đánh giá đó) Khác biệt với ví dụ thuộc nhóm khác Khai Phá Dữ Liệu Phân nhóm – Ví dụ ụ Một ví dụ phân nhóm – đó, ví dụ đ phân hâ chia hi thành h nhóm hó [Liu, 2006] Khai Phá Dữ Liệu Phân nhóm – Các thành phần p „ Hàm tính khoảng cách (độ tương tự, độ khác biệt) „ Giải ả thuật phân nhóm • Phân nhóm dựa chia cắt (Partition-based clustering) • Phân nhóm dựa tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM) ợp ((Mixture models)) • Các mơ hình hỗn hợp • … „ Đánh giá chất lượng phân nhóm (Clustering quality) • Khoảng cách/sự khác biệt nhóm → Cần cực đại hóa • Khoảng cách/dự khác biệt bên nhóm → Cần cực tiểu ể hóa Khai Phá Dữ Liệu Phân nhóm k-Means „ Là phương pháp phổ biến phương pháp phân nhóm dựa chia cắt (partition (partition-based based clustering) „ Tập liệu D={x1,x2,…,xr} • i ví dụ (một vectơ khơng gian n chiều) •x „ Giải thuật k-means phân chia (partitions) tập liệu thành k nhóm • Mỗi nhóm (cluster) có điểm trung tâm, gọi centroid •k k (tổng số nhóm thu được) giá trị xác định trước (vd: định người thiết kế hệ thống phân nhóm) Khai Phá Dữ Liệu k-Means – Các bước Với giá trị k xác định trước • Bước B 1 Ch Chọn ngẫu ẫ nhiên hiê k víí dụ d (được (đ gọii h hạtt nhân – seeds) để sử dụng làm điểm trung tâm ban đầu ((initial centroids)) k nhóm • Bước Đối với ví dụ, gán vào nhóm (trong số k nhóm) có điểm trung tâm (centroid) gần ví dụ • Bước Đối với nhóm, tính tốn lại điểm trung tâm (centroid) dựa tất ví dụ thuộc vào nhóm • Bước Dừng lại điều kiện hội tụ (convergence criterion) thỏa mãn; không, quay lại Bước Khai Phá Dữ Liệu k-means(D, k) D: The dataset k: The number of clusters Randomly select k instances in D as the initial centroids while not CONVERGENCE for each instance x∈D Compute the distance from x to each centroid Assign x to the cluster whose centroid is closest to x end d for f for each cluster Re-compute p its centroid based on its own instances end while return {The k clusters} Khai Phá Dữ Liệu Điều kiện ệ hội ộ tụ ụ Q trình phân nhóm kết thúc, nếu: • Khơng có (hoặc có khơng đáng kể) việc gán lại ví dụ vào nhóm khác, • Khơng có (hoặc có khơng đáng kể) thay đổi điểm trung tâm ( (centroids) t id ) ủ nhóm, hó h ặ • Giảm khơng đáng kể tổng lỗi phân nhóm: k Error = ∑ ∑ d (x, m i ) i =1 x∈Ci Ci: Nhóm thứ i ƒ mi: Điểm trung tâm (centroid) nhóm Ci ƒ d(x, mi): Khoảng cách (khác biệt) ví dụ x điểm trung tâm mi ƒ Khai Phá Dữ Liệu 10 k-Means – Minh họa ọ (1) ( ) [Liu, 2006] Khai Phá Dữ Liệu 11 k-Means – Minh họa ọ ((2)) [Liu, 2006] Khai Phá Dữ Liệu 12 Điểm trung tâm, Hàm khoảng cách „ Xác định điểm trung tâm: Điểm trung bình (Mean centroid) mi = Ci ∑x x∈Ci • ((vectơ)) mi điểm trung g tâm ((centroid)) nhóm Ci • |Ci| kích thước nhóm Ci (tổng số ví dụ Ci) „ Hàm khoảng cách: Euclidean distance d ( x, m i ) = x − m i = (x1 − mi1 )2 + (x2 − mi )2 + + (xn − )2 • (vectơ) mi điểm trung tâm (centroid) nhóm Ci • d(x,mi) khoảng cách ví dụ x điểm trung tâm mi Khai Phá Dữ Liệu 13 k-Means – Các ưu điểm „ Đơn giản • Rất dễ cài ài đặt • Rất dễ hiểu „ Hiệ Hiệu ả • Độ phức tạp thời gian ~ O(r.k.t) ƒ r: Tổng số ví dụ (kích thước tập liệu) ƒ k: Tổng số nhóm thu ƒ t: Tổng số bước lặp (của q trình phân nhóm) • Nếu ế ả giá trị k t ề nhỏ, ỏ giải ả thuật k-means xem có độ phức tạp mức tuyến tính „ k means giải thuật phân nhóm dùng phổ biến k-means Khai Phá Dữ Liệu 14 k-Means – Các nhược điểm (1) „ Giá trị k (số nhóm thu được) phải xác định trước „ Giải thuật k-means cần xác định cách tính điểm trung bình (centroid) nhóm • Đối ố với thuộc tính định danh (nominal attributes), giá trị trung bình xác định giá trị phổ biến „ Giải thuật k-means k means nhạy cảm (gặp lỗi) với ví dụ ngoại lai (outliers) • Các ví dụ ụ ngoại g lai ví dụ ụ ((rất)) khác biệt ệ với tất ví dụ ụ khác • Các ví dụ ngoại lai lỗi q trình thu thập/lưu liệu • Các ví dụ ngoại lai có giá trị thuộc tính (rất) khác biệt với giá trị thuộc tính ví dụ khác Khai Phá Dữ Liệu 15 k-Means – Các ví dụ ụ ngoại g lai [Liu, 2006] Khai Phá Dữ Liệu 16 Giải q y vấn đề ngoại g lai • Giải pháp Trong q trình phân nhóm, cần loại bỏ số ví dụ ụq khác biệt ệ với ((cách xa)) điểm trung g tâm (centroids) so với ví dụ khác ─ Để chắn (khơng loại nhầm), theo dõi ví dụ ngoại lai (outliers) qua vài (thay 1) bước lặp phân nhóm, nhóm trước định loại bỏ • Giải p pháp p Thực ự ệ việc ệ lấy y mẫu ngẫu g nhiên ((a random sampling) ─ Do trình lấy mẫu lựa chọn tập nhỏ tập liệu ban đầu, đầu nên khả ngoại lai (outlier) chọn nhỏ ─ Gán ví dụ cịn lại tập liệu vào nhóm tùy theo đánh giá khoảng cách (hoặc độ tương tự) Khai Phá Dữ Liệu 17 k-Means – Các nhược điểm (2) „ Giải thuật k-means phụ thuộc vào việc chọn điểm trung tâm ban đầu (initial centroids) 1st centroid 2nd centroid [Liu, 2006] Khai Phá Dữ Liệu 18 k-Means – Các hạt nhân ban đầu (1) „ Sử dụng hạt nhân (seeds) khác → Kết tốt hơn! • Thực giải thuật k k-means means nhiều lần, lần bắt đầu với tập (khác lần trước) hạt nhân chọn ngẫu nhiên [Liu, 2006] Khai Phá Dữ Liệu 19 k-Means – Các hạt nhân ban đầu (2) „ Lựa chọn ngẫu nhiên hạt nhân thứ (m1) „ Lựa chọn hạt nhân thứ (m2) xa tốt so với hạt nhân thứ „ … „ Lựa chọn hạt nhân thứ i (mi) xa tốt so với hạt nhân gần số {m1, m2, … , mi-1} „ Khai Phá Dữ Liệu 20 k-Means – Các nhược điểm (3) „ Giải thuật k-means khơng phù hợp để phát nhóm (cụm) khơng có dạng hình elip hình cầu [Liu, 2006] Khai Phá Dữ Liệu 21 Tài liệu ệ tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Khai Phá Dữ Liệu 22

Ngày đăng: 08/09/2020, 18:10

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan