máy học,nguyễn nhật quang,dhbkhn Học Máy (IT 4862) ễ hậNguyễn Nhật Quang quangnn fit@mail hut edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011 2012 CuuDuong[.]
Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 CuuDuongThanCong.com https://fb.com/tailieudientucntt Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu hệ thống học máy Các phương pháp học dựa xác suất Các phương pháp học có giám sát Cá phương Các h pháp há học h không khô giám iá sát át Phân cụm dựa tích tụ phân cấp: HAC (Hierarchical agglomerative clustering) Lọc cộng tác Học tăng cường Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (1) Sinh chuỗi lồng cụm, gọi dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (2) Phân cụm dựa tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) Giải thuật HAC • Bắt đầu, ví dụ cụm (là nút dendrogram) • Hợp ợp cụm ụ có mức độ ộ tương g tự ự (g (gần)) Cặp gồm cụm có khoảng cách nhỏ số cặp cụm • Tiếp tục q trình hợp • Giải thuật kết thúc tất ví dụ hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoảng g cách g cụm ụ Giải thuật HAC cần định nghĩa việc tính tốn khoảng cách cụm • Trước hợp nhất, cần tính khoảng cách cặp cụm Có nhiều phương pháp để đánh giá khoảng cách cụm – đưa đến biến thể khác giải thuật HAC • Liên kết đơn (Single link) • Liên kết hồn tồn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • … Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết đơn HAC liên kết đơn (Single link): Khoảng cách cụm khoảng cách nhỏ ví dụ (các thành viên) cụm + C1 + C2 Có xu hướng sinh cụm có dạng “chuỗi dài” (long chain) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): Khoảng cách cụm khoảng g cách lớn g ví dụ (các thành viên) cụm + C1 + C2 Nhạy cảm (gặp lỗi ỗ phân cụm) ngoại lai (outliers) Có xu hướng h sinh i h cụm có dạng “bụi cây” (clumps) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết trung g bình Khoảng cách liên kết trung bình (Average-link) thỏa hiệp khoảng cách liên kết hoàn toàn (Complete-link) liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả lỗi) phương pháp phân cụm dựa d t ê liên liê kết hoàn h toàn t ới ngoạii lai l i (outliers) ( tli ) • Để giảm xu hướng sinh cụm có dạng “chuỗi dài” phương pháp phân cụm dựa liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên cụm) Khoảng g cách g cụm ụ khoảng g cách trung g bình tất cặp ví dụ (mỗi ví dụ thuộc cụm) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết trung g tâm HAC liên kết trung tâm (Centroid link): Khoảng cách cụm khoảng cách điểm ể trung tâm (centroids) cụm C1 + + C2 Học Máy (IT 4862) CuuDuongThanCong.com 10 https://fb.com/tailieudientucntt Giải thuật ậ HAC – Độ ộp phức tạp ạp Tất biến thể giải thuật HAC có độ phức tạp tối thiểu mức O(r2) •r: Tổng số ví dụ (kích thước tập liệu) Phương pháp phân cụm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) Các phương pháp phân cụm HAC liên kết hồn tồn (Complete-link) liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr) Do độ phức tạp cao, giải thuật HAC khó áp dụng tập liệu có kích thước (rất) lớn Học Máy (IT 4862) CuuDuongThanCong.com 11 https://fb.com/tailieudientucntt Các hàm khoảng g cách Một thành phần quan trọng phương pháp phân cụm • Cần xác định hàm tính độ khác biệt (dissimilarity/distance functions), hàm tính độ tương tự (similarity functions) Các hàm tính khoảng cách khác • Các kiểu liệu khác Dữ liệu kiểu số (Numeric data) Dữ liệu kiểu định danh (Nominal data) • Các toán ứng dụng cụ thể Học Máy (IT 4862) CuuDuongThanCong.com 12 https://fb.com/tailieudientucntt Hàm khoảng cách cho thuộc tính số Họ hàm khoảng cách hình học (khoảng cách Minkowski) Các hàm dùng phổ biến • Khoảng cách Euclid • Khoảng cách Manhattan (khoảng cách City-block) Ký hiệu d(xi, xj) khoảng cách ví dụ (2 vectơ) xi xj Khoảng cách Minkowski (với p số nguyên dương) d(xi , xj ) = [(xi1 − xj1) p + (xi2 − xj ) p + + (xin − xjn) p ]1/ p Học Máy (IT 4862) CuuDuongThanCong.com 13 https://fb.com/tailieudientucntt Hàm k/c cho thuộc tính nhị phân Sử dụng ma trận để biểu diễn hàm tính khoảng g cách • a: Tổng số thuộc tính có giá trị xi xj • b: Tổng số thuộc tính có giá trị xi có g giá trị g xj • c: Tổng số thuộc tính có giá trị xi có giá trị xj • d: Tổng số thuộc tính có giá trị xi xj ví dụ xj ví dụ xi 1 0 a b c d Hệ số phù hợp đơn giản (Simple matching coefficient) coe c e t) Tỷỷ lệ ệ sa sai lệch ệc giá g trịị thuộc tính ví dụ: b+c d (x i , x j ) = a+b+c+d Học Máy (IT 4862) CuuDuongThanCong.com 14 https://fb.com/tailieudientucntt Hàm k/c cho thuộc tính định danh Hàm khoảng cách dựa phương pháp đánh giá tỷ lệ khác biệt giá trị thuộc tính ví dụ Với ví dụ xi xj, ký hiệu p tổng số thuộc tính (trong tập liệu), liệu) q số thuộc tính mà giá trị xi xj p−q d (x i , x j ) = p Học Máy (IT 4862) CuuDuongThanCong.com 15 https://fb.com/tailieudientucntt Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) CuuDuongThanCong.com 16 https://fb.com/tailieudientucntt ... hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt... Học Máy (IT 4862) CuuDuongThanCong.com 15 https://fb.com/tailieudientucntt Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy. .. dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (2) Phân cụm dựa tích