1. Trang chủ
  2. » Tất cả

máy học,nguyễn nhật quang,dhbkhn

16 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 468,85 KB

Nội dung

máy học,nguyễn nhật quang,dhbkhn Học Máy (IT 4862) ễ hậNguyễn Nhật Quang quangnn fit@mail hut edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011 2012 CuuDuong[.]

Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 CuuDuongThanCong.com https://fb.com/tailieudientucntt Nội dung d môn ô học: h „ Giới thiệu chung g „ Đánh giá hiệu hệ thống học máy „ Các phương pháp học dựa xác suất „ Các phương pháp học có giám sát „ Cá phương Các h pháp há học h không khô giám iá sát át „ Phân cụm dựa tích tụ phân cấp: HAC (Hierarchical agglomerative clustering) „ Lọc cộng tác „ Học tăng cường Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (1) „ Sinh chuỗi lồng cụm, gọi dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (2) „ Phân cụm dựa tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) „ Giải thuật HAC • Bắt đầu, ví dụ cụm (là nút dendrogram) • Hợp ợp cụm ụ có mức độ ộ tương g tự ự (g (gần)) ƒ Cặp gồm cụm có khoảng cách nhỏ số cặp cụm • Tiếp tục q trình hợp • Giải thuật kết thúc tất ví dụ hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt Khoảng g cách g cụm ụ „ Giải thuật HAC cần định nghĩa việc tính tốn khoảng cách cụm • Trước hợp nhất, cần tính khoảng cách cặp cụm „ Có nhiều phương pháp để đánh giá khoảng cách cụm – đưa đến biến thể khác giải thuật HAC • Liên kết đơn (Single link) • Liên kết hồn tồn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • … Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết đơn HAC liên kết đơn (Single link): ƒ Khoảng cách cụm khoảng cách nhỏ ví dụ (các thành viên) cụm + C1 + C2 ƒ Có xu hướng sinh cụm có dạng “chuỗi dài” (long chain) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): ƒ Khoảng cách cụm khoảng g cách lớn g ví dụ (các thành viên) cụm + C1 + C2 ƒ Nhạy cảm (gặp lỗi ỗ phân cụm) ngoại lai (outliers) ƒ Có xu hướng h sinh i h cụm có dạng “bụi cây” (clumps) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết trung g bình „ Khoảng cách liên kết trung bình (Average-link) thỏa hiệp khoảng cách liên kết hoàn toàn (Complete-link) liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả lỗi) phương pháp phân cụm dựa d t ê liên liê kết hoàn h toàn t ới ngoạii lai l i (outliers) ( tli ) • Để giảm xu hướng sinh cụm có dạng “chuỗi dài” phương pháp phân cụm dựa liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên cụm) „ Khoảng g cách g cụm ụ khoảng g cách trung g bình tất cặp ví dụ (mỗi ví dụ thuộc cụm) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Liên kết trung g tâm HAC liên kết trung tâm (Centroid link): „ Khoảng cách cụm khoảng cách điểm ể trung tâm (centroids) cụm C1 + + C2 Học Máy (IT 4862) CuuDuongThanCong.com 10 https://fb.com/tailieudientucntt Giải thuật ậ HAC – Độ ộp phức tạp ạp „ Tất biến thể giải thuật HAC có độ phức tạp tối thiểu mức O(r2) •r: Tổng số ví dụ (kích thước tập liệu) „ Phương pháp phân cụm HAC liên kết đơn (Single-link) có độ phức tạp mức O(r2) „ Các phương pháp phân cụm HAC liên kết hồn tồn (Complete-link) liên kết trung bình (Average-link) có độ phức tạp mức O(r2logr) „ Do độ phức tạp cao, giải thuật HAC khó áp dụng tập liệu có kích thước (rất) lớn Học Máy (IT 4862) CuuDuongThanCong.com 11 https://fb.com/tailieudientucntt Các hàm khoảng g cách „ Một thành phần quan trọng phương pháp phân cụm • Cần xác định hàm tính độ khác biệt (dissimilarity/distance functions), hàm tính độ tương tự (similarity functions) „ Các hàm tính khoảng cách khác • Các kiểu liệu khác ƒ Dữ liệu kiểu số (Numeric data) ƒ Dữ liệu kiểu định danh (Nominal data) • Các toán ứng dụng cụ thể Học Máy (IT 4862) CuuDuongThanCong.com 12 https://fb.com/tailieudientucntt Hàm khoảng cách cho thuộc tính số „ Họ hàm khoảng cách hình học (khoảng cách Minkowski) „ Các hàm dùng phổ biến • Khoảng cách Euclid • Khoảng cách Manhattan (khoảng cách City-block) „ Ký hiệu d(xi, xj) khoảng cách ví dụ (2 vectơ) xi xj „ Khoảng cách Minkowski (với p số nguyên dương) d(xi , xj ) = [(xi1 − xj1) p + (xi2 − xj ) p + + (xin − xjn) p ]1/ p Học Máy (IT 4862) CuuDuongThanCong.com 13 https://fb.com/tailieudientucntt Hàm k/c cho thuộc tính nhị phân „ Sử dụng ma trận để biểu diễn hàm tính khoảng g cách • a: Tổng số thuộc tính có giá trị xi xj • b: Tổng số thuộc tính có giá trị xi có g giá trị g xj • c: Tổng số thuộc tính có giá trị xi có giá trị xj • d: Tổng số thuộc tính có giá trị xi xj „ ví dụ xj ví dụ xi 1 0 a b c d Hệ số phù hợp đơn giản (Simple matching coefficient) coe c e t) Tỷỷ lệ ệ sa sai lệch ệc giá g trịị thuộc tính ví dụ: b+c d (x i , x j ) = a+b+c+d Học Máy (IT 4862) CuuDuongThanCong.com 14 https://fb.com/tailieudientucntt Hàm k/c cho thuộc tính định danh „ Hàm khoảng cách dựa phương pháp đánh giá tỷ lệ khác biệt giá trị thuộc tính ví dụ „ Với ví dụ xi xj, ký hiệu p tổng số thuộc tính (trong tập liệu), liệu) q số thuộc tính mà giá trị xi xj p−q d (x i , x j ) = p Học Máy (IT 4862) CuuDuongThanCong.com 15 https://fb.com/tailieudientucntt Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy (IT 4862) CuuDuongThanCong.com 16 https://fb.com/tailieudientucntt ... hợp thành cụm (là nút gốc dendrogram) Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt... Học Máy (IT 4862) CuuDuongThanCong.com 15 https://fb.com/tailieudientucntt Tài liệu tham khảo •B Liu Web Data Mining: Exploring Hyperlinks, g Data Springer, p g 2006 Contents, and Usage Học Máy. .. dendrogram g • Cũng gọi phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) ví dụ [Liu, 2006] Học Máy (IT 4862) CuuDuongThanCong.com https://fb.com/tailieudientucntt HAC (2) „ Phân cụm dựa tích

Ngày đăng: 25/11/2022, 22:46

w