, luật kết hợp, khai phá luật kết hợp-Các kỹ thuật phân nhóm docx

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	35
Dung lượng	415,69 KB

Nội dung

Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học:  Giới thiệu về Khai phá dữ liệu ề  Giới thiệu v ề công cụ WEK A  Tiền xử lý dữ liệu  Phát hiện các luật kết hợp  Các kỹ thuật phân lớpvàdự đoán  Các kỹ thuật phân lớp và dự đoán  Các kỹ thuật phân nhóm  Phân nhóm dựatrênchiacắt(k - Means)  Phân nhóm dựa trên chia cắt (k - Means)  Phân nhóm dựa trên tích tụ phân cấp (HAC) 2 Khai Phá Dữ Liệu H ọ c có vs. khôn g có g iám sát ọ gg  Học có giám sát (Supervised learning)  Tậpdữ liệu (dataset) bao gồmcácvídụ mà mỗivídụ được gắn  Tập dữ liệu (dataset) bao gồm các ví dụ , mà mỗi ví dụ được gắn kèm với một nhãn lớp/giá trị đầu ra mong muốn  Mục đích là học (xấp xỉ) một giả thiết (vd: một phân lớp, một hàm mục tiêu ) phù hợpvớitậpdữ liệuhiệncó mục tiêu , ) phù hợp với tập dữ liệu hiện có  Giả thiết học được (learned hypothesis) sau đó sẽ được dùng để phân lớp/dự đoán đối với các ví dụ mới  Học không có giám sát (Unsupervised learning)  Tập dữ liệu (dataset) bao gồm các ví dụ, mà mỗi ví dụ không có thông tin về nhãn lớp/giá trị đầu ra mong muốn thông tin về nhãn lớp/giá trị đầu ra mong muốn  Mục đích là tìm ra (học) các nhóm/các cấu trúc/các quan hệ tồn tại trong tập dữ liệu hiện có 3 Khai Phá Dữ Liệu Phân nhóm  Phân nhóm/cụm (Clustering) là phương pháp học không có giám sát đượcsử dụng phổ biếnnhất có giám sát được sử dụng phổ biến nhất  Tồn tại các phương pháp học không có giám sát khác, ví dụ: Lọc cộng tác (Collaborative filtering), Khai phá luật kết hợp (Association rule mining) (Association rule mining) ,  Học phân nhóm  Đầu vào: mộttậpdữ liệu không có nhãn (các ví dụ không có nhãn  Đầu vào: một tập dữ liệu không có nhãn (các ví dụ không có nhãn lớp/giá trị đầu ra mong muốn)  Đầu ra: các nhóm (cụm) của các ví dụ  Một nhóm (cluster) là một tập các ví dụ  Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)  Khác biệtvớicácvídụ thuộc các nhóm khác  Khác biệt với các ví dụ thuộc các nhóm khác 4 Khai Phá Dữ Liệu Phân nhóm – Ví d ụ ụ Mộtvídụ về phân nhóm – trong đó, các ví dụ đ hâ hi thà h 3 hó đ ượcp hâ nc hi a thà n h 3 n hó m [Liu, 2006] 5 Khai Phá Dữ Liệu Phân nhóm – Các thành p hần p  Hàm tính khoảng cách (độ tương tự, độ khác biệt) ả  Gi ả ithuật phân nhóm • Phân nhóm dựatrênchiacắt (Partition-based clustering) • Phân nhóm dựa trên tích tụ phân cấp (Hierarchical clustering) • Phân nhóm dựa trên tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM) • Các mô hình hỗnh ợp ( Mixture models ) ợp () • …  Đánh giá chất lượng phân nhóm (Clustering quality) Đánh giá chất lượng phân nhóm (Clustering quality) • Khoảng cách/sự khác biệt giữa các nhóm → Cần được cực đại hóa • Khoảng cách/dự khác biệt bên trong một nhóm → Cần được cực ể ti ể u hóa 6 Khai Phá Dữ Liệu Phân nhóm k-Means  Là phương pháp phổ biến nhất trong các phương pháp phân nhóm dựatrênchiacắt (partition - based clustering) phân nhóm dựa trên chia cắt (partition based clustering)  Tập dữ liệu D={x 1 ,x 2 ,…,x r } • là mộtvídụ (mộtvectơ trong một không gian n chiều) • x i là một ví dụ (một vectơ trong một không gian n chiều)  Giải thuật k-means phân chia (partitions) tập dữ liệu thành k nhóm thành k nhóm • Mỗi nhóm (cluster) có một điểm trung tâm, được gọi là centroid • k (tổng số các nhóm thu được) là mộtgiátrị đượcxácđịnh trước k (tổng số các nhóm thu được) là một giá trị được xác định trước (vd: được chỉ định bởi người thiết kế hệ thống phân nhóm) 7 Khai Phá Dữ Liệu k-Means – Các bước chính Với một giá trị k được xác định trước B ớ 1Ch ẫ hiê k íd (đ ilà áht • B ư ớ c 1 . Ch ọn ng ẫ u n hiê n k v í d ụ (đ ược gọ i là c á c h ạ t nhân – seeds) để sử dụng làm các điểm trung tâm ban đầu ( initial centroids ) của k nhóm ( ) • Bước 2. Đối với mỗi ví dụ, gán nó vào nhóm (trong số k nhóm) có điểm trung tâm (centroid) gần ví dụ đó nhất • Bước 3. Đối với mỗi nhóm, tính toán lại điểm trung tâm (centroid) của nó dựa trên tất cả các ví dụ thuộc vào nhóm đó nhóm đó • Bước 4. Dừng lại nếu điều kiện hội tụ (convergence criterion ) đượcthỏa mãn; nếu không, quay lạiBước2 criterion ) được thỏa mãn; nếu không, quay lại Bước 2 8 Khai Phá Dữ Liệu k-means(D, k) D : The dataset D : The dataset k: The number of clusters Randomly select k instances in D as the initial centroids Randomly select k instances in D as the initial centroids while not CONVERGENCE for each instance x∈D Compute the distance from x to each centroid Assign x to the cluster whose centroid is closest to x df en d f or for each cluster Re-com p ute its centroid based on its own instances p end while return {The k clusters} 9 Khai Phá Dữ Liệu Điều ki ệ n h ộ i t ụ ệ ộ ụ Quá trình phân nhóm kết thúc, nếu: • Không có (hoặc có không đáng kể)việc gán lạicácvídụ vào các • Không có (hoặc có không đáng kể) việc gán lại các ví dụ vào các nhóm khác, hoặc • Không có (hoặc có không đáng kể) thay đổi về các điểm trung tâm (tid)ủ áhó h ặ ( cen t ro id s ) c ủ a c á c n hó m, h o ặ c • Giảm không đáng kể về tổng lỗi phân nhóm: k  C i : Nhóm thứ i ∑ ∑ =∈ = k iC i dError 1 2 ),( x i mx  m i : Điểm trung tâm (centroid) của nhóm C i  d(x, m i ): Khoảng cách (khác biệt) giữa ví dụ x và điểm trung tâm m i 10 Khai Phá Dữ Liệu [...]... {m 1, m 2, … , mi-1} Khai Phá Dữ Liệu 20 k-Means – Các nhược điểm (3) Giải thuật k-means không phù hợp để phát hiện các nhóm (cụm) không có dạng hình elip hoặc hình cầu [Liu, 2006] Khai Phá Dữ Liệu 21 Phân nhóm tích tụ phân cấp (1) Sinh ra một chuỗi lồng nhau của các nhóm, được gọi là g dendrogram • Cũng được gọi là một phân loại (taxonomy) /phân cấp (hierarchy)/cây (tree) của các ví dụ [Liu, 2006] Khai. .. nhất • Giải thuật kết thúc khi tất cả các ví dụ được hợp nhất thành một nhóm duy nhất (là nút gốc trong dendrogram) Khai Phá Dữ Liệu 23 Giải thuật HAC – Ví dụ ậ ụ (Venn diagram) [Liu, 2006] Khai Phá Dữ Liệu 24 Khoảng cách g g giữa 2 nhóm Giải thuật HAC cần định nghĩa việc tính toán khoảng cách giữa 2 nhóm • Trước khi hợp nhất, cần tính khoảng cách giữa mỗi cặp 2 nhóm có thể Có nhiều phương pháp để đánh... (long chain) [Liu, 2006] Khai Phá Dữ Liệu 26 HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): Khoảng cách giữa 2 nhóm là khoảng cách lớn nhất giữa g g các ví dụ (các thành viên) của 2 nhóm đó C1 + + C2 Nhạy cảm (gặp lỗi phân nhóm) ỗ đối với các ngoại lai (outliers) Có xu h ớ sinh ra các nhóm hướng i h á hó có dạng “bụi cây” (clumps) [Liu, 2006] Khai Phá Dữ Liệu 27 HAC – Liên kết trung bình... nhóm – đưa đến các biến thể khác nhau của giải thuật HAC • Liên kết đơn (Single link) • Liên kết hoàn toàn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • … Khai Phá Dữ Liệu 25 HAC – Liên kết đơn HAC liên kết đơn (Single link): Khoảng cách giữa 2 nhóm là khoảng cách nhỏ nhất giữa các ví dụ (các thành viên) của 2 nhóm đó C1 + + C2 Có xu hướng sinh ra các nhóm. .. Khai Phá Dữ Liệu 22 Phân nhóm tích tụ phân cấp (2) Phân nhóm dựa trên tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) sẽ xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) Giải thuật HAC • Bắt đầu, mỗi ví dụ chính là một nhóm (là một nút trong dendrogram) • Hợp nhất 2 nhóm có mức độ tương tự (g ) nhau nhất ợp ộ g ự (gần) Cặp 2 nhóm có khoảng cách nhỏ nhất trong số các cặp nhóm. .. Giải thuật HAC – Độ p ậ ộ phức tạp ạp Tất cả các biến thể của giải thuật HAC đều có độ phức tạp tối thiểu mức O(r2) •r: Tổng số các ví dụ (kích thước của tập dữ liệu) Phương pháp phân nhóm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) Các phương pháp phân nhóm HAC liên kết hoàn toàn (Complete-link) và liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr) Do độ phức tạp cao, giải thuật. .. trên liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên của một nhóm) Khoảng cách g g giữa 2 nhóm là khoảng cách trung bình của g g tất cả các cặp ví dụ (mỗi ví dụ thuộc về một nhóm) Khai Phá Dữ Liệu 28 HAC – Liên kết trung tâm g HAC liên kết trung tâm (Centroid link): Khoảng cách giữa 2 nhóm là khoảng cách giữa 2 điểm trung ể tâm (centroids) của 2 nhóm đó + C1 + C2 Khai Phá Dữ Liệu... khác Khai Phá Dữ Liệu 15 k-Means – Các ví dụ ngoại lai ụ g ạ [Liu, 2006] Khai Phá Dữ Liệu 16 Giải quyết vấn đề ngoại lai q y g ạ • Giải pháp 1 Trong quá trình phân nhóm, cần loại bỏ một số các ví dụ q khác biệt với ( ụ quá ệ (cách xa) các điểm trung tâm ) g (centroids) so với các ví dụ khác ─ Để chắc chắn (không loại nhầm ), theo dõi các ví dụ ngoại lai (outliers) qua một vài (thay vì chỉ 1) bước lặp phân. .. trong liên kết trung bình (Average-link) là sự thỏa hiệp giữa các khoảng cách trong liên kết hoàn toàn (Complete-link) và liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả năng lỗi) của phương pháp phân nhóm d hó dựa trên liên kết hoàn t à đối với các ngoại l i ( tli ) t ê liê h à toàn ới á i lai (outliers) • Để giảm xu hướng sinh ra các nhóm có dạng “chuỗi dài” của phương pháp phân nhóm dựa... (2) Giải thuật k-means phụ thuộc vào việc chọn các điểm trung tâm ban đầu (initial centroids) 1st centroid 2nd centroid [Liu, 2006] Khai Phá Dữ Liệu 18 k-Means – Các hạt nhân ban đầu (1) Sử dụng các hạt nhân (seeds) khác nhau → Kết quả tốt hơn! • Thực hiện giải thuật k-means nhiều lần, mỗi lần bắt đầu với một tập (khác k means lần trước) các hạt nhân được chọn ngẫu nhiên [Liu, 2006] Khai Phá Dữ Liệu . các nhóm khác 4 Khai Phá Dữ Liệu Phân nhóm – Ví d ụ ụ Mộtvídụ về phân nhóm – trong đ , các ví dụ đ hâ hi thà h 3 hó đ ượcp hâ nc hi a thà n h 3 n hó m [Liu, 2006] 5 Khai Phá Dữ Liệu Phân nhóm. Khai phá dữ liệu ề  Giới thiệu v ề công cụ WEK A  Tiền xử lý dữ liệu  Phát hiện các luật kết hợp  Các kỹ thuật phân lớpvàdự đoán  Các kỹ thuật phân lớp và dự đoán  Các kỹ thuật. đoán  Các kỹ thuật phân nhóm  Phân nhóm dựatrênchiacắt(k - Means)  Phân nhóm dựa trên chia cắt (k - Means)  Phân nhóm dựa trên tích tụ phân cấp (HAC) 2 Khai Phá Dữ Liệu H ọ c có

Ngày đăng: 28/06/2014, 22:20

Xem thêm