Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long

87 45 0
Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng Học máy - Bài 7: Học máy không giám sát cung cấp cho người học các kiến thức: Phân tích cụm, phương pháp phân cấp, thuật toán K-means, khởi tạo tâm cụm, phân đoạn, nén ảnh,... Mời các bạn cùng tham khảo nội dung chi tiết.

Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website mơn học: https://sites.google.com/a/wru.vn/cse445fall2016/ Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Học máy không giám sát • Học khơng giám sát: tập cơng cụ thống kê xử lý liệu có biến đầu vào, khơng có biến đích – Ta có X’s mà khơng có nhãn Y – Mục tiêu: phát mẫu/các đặc tính liệu • vd trực quan hóa diễn giải liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 Học có giám sát vs khơng giám sát Học máy có giám sát: X Y biết Học máy khơng giám sát: biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 Học không giám sát • Ví dụ ứng dụng: – Biết mơ ung thư n bệnh nhân bị ung thư vú, cần xác định nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm biểu diễn Gen chứa hàng ngàn biến Figure1.3, ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 Học không giám sát • Ví dụ ứng dụng: – Cho tập tài liệu văn bản, cần xác định tập tài liệu có chung chủ đề thể thao, trị, ca nhạc, – Cho ảnh khn mặt có số chiều cao, tìm biểu diễn đơn giản/thu gọn ảnh để đưa vào phân lớp nhận dạng khuôn mặt CSE 445: Học máy | Học kỳ 1, 2016-2017 (AT&T Laboratories Cambridge) Học không giám sát • Tại học khơng giám sát ln thách thức lớn? – Phân tích khám phá liệu (Exploratory data analysis) – mục tiêu không định nghĩa rõ ràng – Khó đánh giá hiệu – khơng biết đáp án (“right answer” unknown) – Xử lý liệu với số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 Học không giám sát • Hai cách tiếp cận: – Phân tích cụm (Cluster analysis) • Xác định nhóm mẫu đồng (có đặc tính chung) – Giảm chiều liệu (Dimensionality Reduction) • Tìm cách biểu diễn với số chiều thấp dựa tính chất trực quan hóa liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân tích cụm & K means CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân cụm • Phân cụm: tập phương pháp nhằm tìm nhóm liệu – Các mẫu có đặc điểm chung nhóm khác với mẫu ngồi nhóm – Việc gom nhóm phân tích cấu trúc liệu nội tại, điều khác với phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân cụm vs Phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Mối liên kết quan trọng Dưới ta có kết phân cụm liệu Phương pháp tính mối liên kết khác kết đem lại khác xa Phương pháp liên kết đầy liên kết trung bình dường có cỡ cụm nhau, nhiên liên kết đơn lại cho số cụm nhiều hợp lần CSE 445: Học máy | Học kỳ 1, 2016-2017 73 Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 74 Giảm chiều liệu CSE 445: Học máy | Học kỳ 2, 2015-2016 75 0.5 0.0 −0.5 −1.0 Second principal component 1.0 Giảm chiều liệu • • • • • ••• • • • • • •• • • • • • • • • • • •• • • • • • • • • • ••• • • • • • • •••• • • • • •• • • •• • • • • • • • • • •• • • • • •• • • •• • • • •• • • −1.0 −0.5 0.0 0.5 1.0 First principal component CSE 445: Học máy | Học kỳ 2, 2015-2016 76 Phép chiếu CSE 445: Học máy | Học kỳ 2, 2015-2016 77 Phân tích thành phần Principal Component Analysis (PCA) CSE 445: Học máy | Học kỳ 2, 2015-2016 78 Phân tích thành phần • Khi không cần giữ đặc trưng gốc (feature), PCA phương pháp hiệu để giảm chiều liệu • PCA xây dựng khơng gian chiều hơn, lại có khả biểu diễn liệu tốt tương đương khơng gian cũ • PCA đảm bảo độ biến thiên (variability) liệu chiều nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 79 Phân tích thành phần • Các trục tọa độ không gian xây dựng cho trục, độ biến thiên liệu lớn • Các trục tọa độ không gian tổ hợp tuyến tính khơng gian cũ • Về mặt ngữ nghĩa, PCA xây dựng feature dựa feature quan sát (vẫn biểu diễn tốt liệu ban đầu) nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 80 Phân tích thành phần • Trong không gian mới, liên kết tiềm ẩn liệu khám phá • Ví dụ: Thị trường ta quan tâm có hàng ngàn mã cổ phiếu làm cách để quan sát liệu từ hàng ngàn cổ phiếu ta hình dung xu hướng toàn thị trường… nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 81 Phân tích thành phần Minh họa PCA: phép chiếu lên trục tọa độ khác cho cách nhìn khác liệu nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 82 Phân tích thành phần Giả sử tập liệu ban đầu (tập điểm màu xanh) quan sát khơng gian chiều (trục màu đen) hình bên trái Rõ ràng trục không biểu diễn tốt mức độ biến thiên liệu PCA tìm hệ trục tọa độ (là hệ trục màu đỏ hình bên trái) Sau tìm khơng gian mới, liệu chuyển sang không gian để biểu diễn hình bên phải Rõ ràng hình bên phải cần trục tọa độ biểu diễn tốt độ biến thiên liệu so với hệ trục chiều ban đầu nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 83 Thuật toán PCA Cho ma trận: = { ∈ ℛ × } Tiền xử lý liệu: Chuẩn hóa liệu ma trận Có cách thường dùng: • Centered PCA: mang tất biến (các cột ) gốc tọa độ • Normed PCA: mang tất biến gốc tọa độ, đồng thời chuẩn hóa độ lệch chuẩn (standarddeviation) • Sau bước tiền xử lí, ma trận đầu vào cho bước CSE 445: Học máy | Học kỳ 2, 2015-2016 84 Thuật toán PCA Xây dựng khơng gian • Tính ma trận hiệp phương sai đặc trưng (cột) = ì Tớnh p giỏ tr riờng i (i=1 p) véc-tơ riêng ui ma trận • Sắp xếp giá trị riêng véc-tơ riêng theo thứ tự giảm dần Khi trục khơng gian véc-tơ riêng ui (chúng trực giao-vng góc đơi một) CSE 445: Học máy | Học kỳ 2, 2015-2016 85 Thuật toán PCA Chuyển liệu từ không gian ban đầu vào không gian • Thông thường, ta chọn k véc-tơ riêng p véc-tơ xếp theo thứ tự giảm dần (k

Ngày đăng: 15/05/2020, 23:00

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan