Chương 4 - Các phương pháp học không giám sát. Chương này trình bày những nội dung chính sau: Giới thiệu HAC, khoảng cách giữa hai cụm, phân tích đơn, liên kết hoàn toàn, liên kết trung bình, liên kết trung tâm, các hàm khoảng cách,... Mời các bạn cùng tham khảo nội dung chi tiết.
Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu hệ thống học máy Các phương pháp học dựa xác suất Các phương pháp học có giám sát Cá phương Các h pháp há học h không khô giám iá sát át Phân cụm dựa tích tụ phân cấp: HAC (Hierarchical agglomerative clustering) Lọc cộng tác Học tăng cường Học Máy (IT 4862) HAC (1) Sinh chuỗi lồng cụm, gọi dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) HAC (2) Phân cụm dựa tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) Giải thuật HAC • Bắt đầu, ví dụ cụm (là nút dendrogram) • Hợp ợp cụm ụ có mức độ ộ tương g tự ự (g (gần)) Cặp gồm cụm có khoảng cách nhỏ số cặp cụm • Tiếp tục q trình hợp • Giải thuật kết thúc tất ví dụ hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) Khoảng g cách g cụm ụ Giải thuật HAC cần định nghĩa việc tính tốn khoảng cách cụm • Trước hợp nhất, cần tính khoảng cách cặp cụm Có nhiều phương pháp để đánh giá khoảng cách cụm – đưa đến biến thể khác giải thuật HAC • Liên kết đơn (Single link) • Liên kết hồn tồn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • … Học Máy (IT 4862) HAC – Liên kết đơn HAC liên kết đơn (Single link): Khoảng cách cụm khoảng cách nhỏ ví dụ (các thành viên) cụm C1 + + C2 Có xu hướng sinh cụm có dạng “chuỗi dài” (long chain) [Liu, 2006] Học Máy (IT 4862) HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): Khoảng cách cụm khoảng g cách lớn g ví dụ (các thành viên) cụm C1 + + C2 Nhạy cảm (gặp lỗi ỗ phân cụm) ngoại lai (outliers) Có xu hướng h sinh i h cụm có dạng “bụi cây” (clumps) [Liu, 2006] Học Máy (IT 4862) HAC – Liên kết trung g bình Khoảng cách liên kết trung bình (Average-link) thỏa hiệp khoảng cách liên kết hồn tồn (Complete-link) liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả lỗi) phương pháp phân cụm dựa d t ê liên liê kết hoàn h toàn t ới ngoạii lai l i (outliers) ( tli ) • Để giảm xu hướng sinh cụm có dạng “chuỗi dài” phương pháp phân cụm dựa liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên cụm) Khoảng g cách g cụm ụ khoảng g cách trung g bình tất cặp ví dụ (mỗi ví dụ thuộc cụm) Học Máy (IT 4862) HAC – Liên kết trung g tâm HAC liên kết trung tâm (Centroid link): Khoảng cách cụm khoảng cách điểm ể trung tâm (centroids) cụm C1 + + C2 Học Máy (IT 4862) 10 Giải thuật ậ HAC – Độ ộp phức tạp ạp Tất biến thể giải thuật HAC có độ phức tạp tối thiểu mức O(r2) •r: Tổng số ví dụ (kích thước tập liệu) Phương pháp phân cụm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) Các phương pháp phân cụm HAC liên kết hồn tồn (Complete-link) liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr) Do độ phức tạp cao, giải thuật HAC khó áp dụng tập liệu có kích thước (rất) lớn Học Máy (IT 4862) 11 Các hàm khoảng g cách Một thành phần quan trọng phương pháp phân cụm • Cần xác định hàm tính độ khác biệt (dissimilarity/distance functions), hàm tính độ tương tự (similarity functions) Các hàm tính khoảng cách khác • Các kiểu liệu khác Dữ liệu kiểu số (Numeric data) Dữ liệu kiểu định danh (Nominal data) • Các toán ứng dụng cụ thể Học Máy (IT 4862) 12 Hàm khoảng cách cho thuộc tính số Họ hàm khoảng cách hình học (khoảng cách Minkowski) Các hàm dùng phổ biến • Khoảng cách Euclid • Khoảng cách Manhattan (khoảng cách City-block) Ký hiệu d(xi, xj) khoảng cách ví dụ (2 vectơ) xi xj Khoảng cách Minkowski (với p số nguyên dương) d(xi , xj ) = [(xi1 − xj1) p + (xi2 − xj ) p + + (xin − xjn) p ]1/ p Học Máy (IT 4862) 13 Hàm k/c cho thuộc tính nhị phân Sử dụng ma trận để biểu diễn hàm tính khoảng g cách • a: Tổng số thuộc tính có giá trị xi xj • b: Tổng số thuộc tính có giá trị xi có g giá trị g xj • c: Tổng số thuộc tính có giá trị xi có giá trị xj • d: Tổng số thuộc tính có giá trị xi xj ví dụ xj ví dụ xi 0 a b c d Hệ số phù hợp đơn giản (Simple matching coefficient) coe c e t) Tỷỷ lệ ệ sa sai lệch ệc giá g trịị thuộc tính ví dụ: b+c d (x i , x j ) = a+b+c+d Học Máy (IT 4862) 14 Hàm k/c cho thuộc tính định danh Hàm khoảng cách dựa phương pháp đánh giá tỷ lệ khác biệt giá trị thuộc tính ví dụ Với ví dụ xi xj, ký hiệu p tổng số thuộc tính (trong tập liệu), liệu) q số thuộc tính mà giá trị xi xj p−q d (x i , x j ) = p Học Máy (IT 4862) 15 Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) 16 ... cộng tác Học tăng cường Học Máy (IT 4862) HAC (1) Sinh chuỗi lồng cụm, gọi dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862)... xj p−q d (x i , x j ) = p Học Máy (IT 4862) 15 Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) 16 ... thuật kết thúc tất ví dụ hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) Khoảng g cách g cụm ụ Giải thuật HAC cần định nghĩa