1. Trang chủ
  2. » Tất cả

Học Máy (IT4862)

42 6 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 820,92 KB

Nội dung

Học Máy (IT4862) Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021[.]

Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: Giới thiệu Học máy Khai phá liệu Tiền xử lý liệu Đánh giá hiệu hệ thống Hồi quy Phân lớp Phân cụm Bài toán phân cụm Phân cụm dựa phân tách: k-Means Phân cụm phân cấp: HAC Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Học có vs khơng có giám sát ◼ Học có giám sát (Supervised learning) ❑ ❑ ❑ ◼ Tập liệu (dataset) bao gồm ví dụ, mà ví dụ gắn kèm với nhãn lớp/giá trị đầu mong muốn Mục đích học (xấp xỉ) giả thiết/hàm mục tiêu (vd: phân lớp, hồi quy) phù hợp với tập liệu có Hàm mục tiêu học (learned target function) sau dùng để phân lớp/dự đoán ví dụ Học khơng có giám sát (Unsupervised learning) ❑ ❑ Tập liệu (dataset) bao gồm ví dụ, mà ví dụ khơng có thơng tin nhãn lớp/giá trị đầu mong muốn Mục đích tìm (xác định) cụm/các cấu trúc/các quan hệ tồn tập liệu có Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Phân cụm ◼ Phân cụm/nhóm (Clustering) phương pháp học khơng có giám sát sử dụng phổ biến ❑ ◼ Bài toán Phân cụm: ❑ ❑ ◼ Tồn phương pháp học khơng có giám sát khác, ví dụ: Lọc cộng tác (Collaborative filtering), Khai phá luật kết hợp (Association rule mining), Đầu vào: Một tập liệu khơng có nhãn (các ví dụ khơng có nhãn lớp/giá trị đầu mong muốn) Đầu ra: Các cụm (nhóm) ví dụ Một cụm (cluster) tập ví dụ: ❑ ❑ Tương tự với (theo ý nghĩa, đánh giá đó) Khác biệt với ví dụ thuộc cụm khác Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Phân cụm – Ví dụ minh họa Các ví dụ phân chia thành cụm [Liu, 2006] Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Phân cụm – Các thành phần ◼ Hàm tính khoảng cách (độ tương tự, độ khác biệt) ◼ Giải thuật phân cụm • Dựa phân tách (Partition-based clustering) • Dựa tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM) • Các mơ hình hỗn hợp (Mixture models) • … ◼ Đánh giá chất lượng phân cụm (Clustering quality) • Khoảng cách/sự khác biệt cụm → Cần cực đại hóa • Khoảng cách/sự khác biệt bên cụm → Cần cực tiểu hóa Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Bài toán phân cụm: Đánh giá hiệu ◼ Làm để đánh giá hiệu phân cụm? ◼ External evaluation: Sử dụng thêm thông tin bên ngồi (ví dụ: nhãn lớp ví dụ) ◼ Ví dụ: Accuracy, Precision,… ◼ Internal evaluation: Chỉ dựa ví dụ phân cụm (mà khơng có thêm thơng tin bên ngồi) ◼ Rất thách thức! ◼ Là trọng tâm trình bày Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Internal evaluation: Nguyên tắc ◼ ◼ Sự gắn kết (compactness/coherence) ◼ Khoảng cách ví dụ cụm (intra-cluster distance) Sự tách biệt (separation) ◼ Khoảng cách ví dụ thuộc cụm khác (inter-cluster distance) Khoảng cách ví dụ thuộc cụm khác (intercluster distance) Khoảng cách ví dụ cụm (intracluster distance) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Internal evaluation: Các độ đo (1) ◼ RMSSTD (Root-mean-square standard deviation) ◼ ◼ Đánh giá gắn kết (compactness) cụm thu Mong muốn giá trị RMSSTD nhỏ tốt! ◼ ◼ ◼ ◼ ◼ k: Số lượng cụm Ci: Cụm thứ i mi: Điểm trung tâm (center/centroid) cụm Ci P: Tổng số chiều (số lượng thuộc tính) biểu diễn ví dụ ni: Tổng số ví dụ thuộc cụm Ci Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Internal evaluation: Các độ đo (2) ◼ R-squared ◼ ◼ Đánh giá phân tách (separation) cụm thu Mong muốn giá trị R-squared lớn tốt! ◼ ◼ ◼ ◼ ◼ k: Số lượng cụm Ci: Cụm thứ i mi: Điểm trung tâm (center/centroid) cụm Ci D: Tập tồn ví dụ g: Điểm trung tâm (center/centroid) tồn ví dụ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 ... cụm phân cấp: HAC Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Học có vs khơng có giám sát ◼ Học có giám sát (Supervised learning) ❑ ❑ ❑... cụm khác Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Phân cụm – Ví dụ minh họa Các ví dụ phân chia thành cụm [Liu, 2006] Nhập môn Học máy Khai phá liệu –... dụ x điểm trung tâm mi ▪ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 16 k-Means – Minh họa (1) [Liu, 2006] Nhập môn Học máy Khai phá liệu – Introduction to

Ngày đăng: 22/11/2022, 22:13