Phân tích thành phần chính • Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể • Các trục tọa độ trong không [r]
(1)Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016/ Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides các khóa học CME250 ĐH Stanford và IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 (2) Học máy không giám sát • Học không giám sát: tập các công cụ thống kê xử lý liệu có biến đầu vào, không có biến đích – Ta có X’s mà không có các nhãn Y – Mục tiêu: phát các mẫu/các đặc tính liệu • vd trực quan hóa diễn giải liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 (3) Học có giám sát vs không giám sát Học máy có giám sát: X và Y đã biết Học máy không giám sát: biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 (4) Học không giám sát • Ví dụ ứng dụng: – Biết các mô ung thư n bệnh nhân bị ung thư vú, cần xác định các nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm biểu diễn Gen chứa hàng ngàn biến Figure1.3, ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 (5) Học không giám sát • Ví dụ ứng dụng: – Cho tập các tài liệu văn bản, cần xác định tập các tài liệu có chung chủ đề thể thao, chính trị, ca nhạc, – Cho các ảnh khuôn mặt có số chiều cao, tìm biểu diễn đơn giản/thu gọn các ảnh này để đưa vào phân lớp nhận dạng khuôn mặt CSE 445: Học máy | Học kỳ 1, 2016-2017 (AT&T Laboratories Cambridge) (6) Học không giám sát • Tại học không giám sát luôn thách thức lớn? – Phân tích khám phá liệu (Exploratory data analysis) – mục tiêu không định nghĩa rõ ràng – Khó đánh giá hiệu – không biết đáp án đúng (“right answer” unknown) – Xử lý liệu với số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 (7) Học không giám sát • Hai cách tiếp cận: – Phân tích cụm (Cluster analysis) • Xác định các nhóm mẫu đồng (có các đặc tính chung) – Giảm chiều liệu (Dimensionality Reduction) • Tìm cách biểu diễn với số chiều thấp dựa trên tính chất và trực quan hóa liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 (8) Phân tích cụm & K means CSE 445: Học máy | Học kỳ 1, 2016-2017 (9) Phân cụm • Phân cụm: là tập các phương pháp nhằm tìm các nhóm liệu – Các mẫu có đặc điểm chung cùng nhóm khác với các mẫu ngoài nhóm – Việc gom nhóm là phân tích cấu trúc liệu nội tại, điều này khác với phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 (10) Phân cụm vs Phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 10 (11) Phân lớp Lớp “A” CSE 445: Học máy | Học kỳ 1, 2016-2017 Lớp “B” 10 11 (12) Phân lớp Lớp “A” CSE 445: Học máy | Học kỳ 1, 2016-2017 Lớp “B” 11 12 (13) Phân cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 13 (14) Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 14 (15) Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 15 (16) Phân cụm • Các kiểu mô hình phân cụm – Hai mô hình phân cụm thông dụng: – Phương pháp dựa trên tâm cụm (Centroid-based) – Phương pháp phân cấp (Hierarchical) – Các mô hình khác: – Phân cụm dựa trên mô hình (Model-based) • Mỗi cụm thể phân bố thống kê tham số • Dữ liệu là hỗn hợp các phân bố – Khái niệm phân cụm fuzzy cứng vs mềm • Cứng (Hard): Các mẫu chia thành các cụm riêng biệt • Mềm (Soft): Các mẫu có thể thuộc nhiều cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 16 (17) Phương pháp phân cấp • Phương pháp phân cấp (phân cụm cây) – Các cụm dựa trên khoảng cách các mẫu – Hiển thị theo phân cấp mà không theo cách phân hoạch liệu Figure 10.9 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 Sørlie, Therese, et al (2003) "Repeated observation of breast tumor subtypes in independent gene expression data sets," PNAS 17 (18) PhâncụmK means • Gom nhóm liệu thành K cụm riêng biệt – Mỗi cụm K định nghĩa véc tơ tâm cụm (centroid) • Tâm cụm: giá trị trung bình tất các đối tượng cụm – Mỗi đối tượng gán cho cụm đơn (tâm cụm gần nhất) – Yêu cầu số lượng cụm đầu vào K – “Phân cụm tốt” cực tiểu biến đổi các cụm • “Tính tương tự (Similarity)” đo theo khoảng cách Euclidean CSE 445: Học máy | Học kỳ 1, 2016-2017 18 (19) PhâncụmK means *Một số hình vẽ bài trình bày này lấy từ "An Introduction to Statistical Learning, with applications in R" (Springer, 2013) với đồng ý các tác giả: G James, D Witten, T Hastie and R Tibshirani Figure 10.5 , ISL 2013* CSE 445: Học máy | Học kỳ 1, 2016-2017 19 (20) PhâncụmK means Figure 10.5 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 20 (21) PhâncụmK means • Các tâm cụm cực tiểu biến đổi các cụm – Các tâm cụm (trung tâm cụm): • Bài toán cực tiểu hóa này là tối ưu tổ hợp – Giải pháp cho cực tiểu hóa địa phương ta sử dụng phương pháp lặp CSE 445: Học máy | Học kỳ 1, 2016-2017 21 (22) ThuậttoánK means 1) Khởi tạo chọn ngẫu nhiên K tâm cụm 2) Phân hoạch liệu cách gán đối tượng vào cụm mà nó gần tâm 3) Tính các tâm cụm cụm 4) Lặp lại và thỏa mãn điều kiện – “thỏa mãn điều kiện” các tâm cụm ổn định và các đối tượng không dịch chuyển các cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 22 (23) ThuậttoánK means Khởi tạo tâm cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 23 (24) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu CSE 445: Học máy | Học kỳ 1, 2016-2017 24 (25) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 25 (26) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 26 (27) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm Cập nhật tâm cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 27 (28) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 28 (29) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 29 (30) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 30 (31) ThuậttoánK means Khởi tạo tâm cụm Gán các cụm ban đầu Cập nhật các tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm Cập nhật tâm cụm Gán lại các cụm Thỏa mãn điều kiện CSE 445: Học máy | Học kỳ 1, 2016-2017 31 (32) ThuậttoánK means • Khởi tạo không tốt dẫn đến kết phân cụm kém CSE 445: Học máy | Học kỳ 1, 2016-2017 32 (33) Khởi tạo tâm cụm • Chọn ngẫu nhiên K đối tượng • Phân hoạch ngẫu nhiên liệu • Chọn K điểm xa “far apart” • Khởi tạo cách sử dụng kết phương pháp phân cụm khác CSE 445: Học máy | Học kỳ 1, 2016-2017 33 (34) Bao nhiêu cụm? • K-means yêu cầu đầu vào K (# cụm) – Ta cần hiểu bài toán ứng dụng để chọn K – Ngược lại, việc chọn K xác định từ liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 34 (35) CSE 445: Học máy | Học kỳ 1, 2016-2017 35 (36) Bao nhiêu cụm? • Không thể tính giá trị K để cực tiểu mục tiêu J – J giảm đồng thời với tăng K • Phương pháp dựa trên kinh nghiệm (Heuristic): – Với giá trị ứng viên K, – Tính toán phân cụm K meansM lần, tìm mục tiêu nhỏ JK – Tìm điểm “khuỷu tay (elbow)” đường mục tiêu (K vs JK) CSE 445: Học máy | Học kỳ 1, 2016-2017 36 (37) Bao nhiêu cụm? CSE 445: Học máy | Học kỳ 1, 2016-2017 37 (38) Bao nhiêu cụm? CSE 445: Học máy | Học kỳ 1, 2016-2017 38 (39) Thuật toán K means • Ưu điểm – Dễ cài đặt – Luôn hội tụ với số lần lặp ít – Có thể triển khai trên tập liệu với số chiều lớn • Nhược điểm – Giá trị K là tham số đầu vào (khó xác định tối ưu) – Thuật toán lặp trả cực tiểu địa phương* CSE 445: Học máy | Học kỳ 1, 2016-2017 39 (40) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 40 (41) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 40 41 (42) Thuật toán K means • Ưu điểm – Dễ cài đặt – Luôn hội tụ với số lần lặp ít – Có thể triển khai trên tập liệu với số chiều lớn • Nhược điểm – Giá trị K là tham số đầu vào (khó xác định tối ưu) – Thuật toán lặp trả cực tiểu địa phương* – Giả thiết tất các cụm hình cầu và có kích thước xấp xỉ * CSE 445: Học máy | Học kỳ 1, 2016-2017 42 (43) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 43 (44) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 44 (45) Thuật toán K means • Ưu điểm – Dễ cài đặt – Luôn hội tụ với số lần lặp ít – Có thể triển khai trên tập liệu với số chiều lớn • Nhược điểm – – – – Giá trị K là tham số đầu vào (khó xác định tối ưu) Thuật toán lặp trả cực tiểu địa phương* Giả thiết tất các cụm hình cầu và có kích thước xấp xỉ * Nhạy với các phần tử ngoại lai* CSE 445: Học máy | Học kỳ 1, 2016-2017 45 (46) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 46 (47) Thuật toán K means CSE 445: Học máy | Học kỳ 1, 2016-2017 47 (48) Thuật toán K means • Ưu điểm – Dễ cài đặt – Luôn hội tụ với số lần lặp ít – Có thể triển khai trên tập liệu với số chiều lớn • Nhược điểm – – – – – Giá trị K là tham số đầu vào (khó xác định tối ưu) Thuật toán lặp trả cực tiểu địa phương* Giả thiết tất các cụm hình cầu và có kích thước xấp xỉ * Nhạy với các phần tử ngoại lai* *một số nhược điểm khắc phục vài biến thể K‐means CSE 445: Học máy | Học kỳ 1, 2016-2017 48 (49) ThuậttoánK means • Khắc phục nhược điểm – Khởi tạo không tốt ta chạy thuật toán nhiều lần – K-medians: Tâm cụm tính giá trị trung vị thay cho giá trị trung bình K-means – K medoids • • • • Yêu cầu: “tâm cụm” phải là các điểm liệu xử lý tốt các phần tử ngoại lai linh hoạt – có thể dùng nhiều độ đo thời gian tính toán lâu vì phải tính các tâm cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 49 (50) Ví dụ: Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 50 (51) Phân đoạn/nén ảnh • Ảnh điểm ảnh (pixels) véc tơ RGB (colors) • Áp dụng K-means tập hợp các véc tơ RGB – Một véc tơ RGB ứng với điểm ảnh – Các cụm thể các màu giống • Thay điểm ảnh tâm cụm liên quan – Kết trên ảnh với K màu khác CSE 445: Học máy | Học kỳ 1, 2016-2017 50 51 (52) Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 52 (53) Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 53 (54) Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 54 (55) Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 55 (56) Phân đoạn/nén ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 56 (57) ThuậttoánK means • Chúng ta thực thuật toán với liệu có thuộc tính (rất dễ để minh họa) – Trong thực tế, ta thường gặp nhiều thuộc tính phân tích liệu • Phân cụm khó khăn nhiều gặp số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 57 (58) Phân cụm chữ viết tay MNIST dataset: http://cis.jhu.edu/~sachin/digit/digit.html CSE 445: Học máy | Học kỳ 1, 2016-2017 58 (59) Phân cụm chữ viết tay CSE 445: Học máy | Học kỳ 1, 2016-2017 59 (60) Phân cụm chữ viết tay • Áp dụng K means, sử dụng = 10 CSE 445: Học máy | Học kỳ 1, 2016-2017 60 (61) Phân cụm chữ viết tay CSE 445: Học máy | Học kỳ 1, 2016-2017 60 61 (62) Phân cụm phân cấp • Phân cụm theo phương pháp K-Means yêu cầu chọn tham số đầu vào là số lượng cụm K • Nếu ta không muốn làm theo cách trên, ta có thể dùng phương pháp phân cụm phân cấp • Phân cụm phân cấp có ưu điểm là hiển thị các quan sát (mẫu) dạng hình cây nên dễ hình dung, gọi là phân cụm theo cấu trúc cây (Dendogram) CSE 445: Học máy | Học kỳ 1, 2016-2017 62 (63) Phân cụm phân cấp • Đầu tiên nhập các điểm gần (5 và 7) • Độ cao việc hợp (theo trục dọc) phản ánh độ tương tự các điểm • Sau các điểm hợp nhất, chúng xem mẫu để tiếp tục tiến hành giải thuật −1.5 0.0 −1.0 −0.5 0.5 1.0 1.5 X2 0.0 2.0 2.5 0.5 3.0 −1.5 CSE 445: Học máy | Học kỳ 1, 2016-2017 −1.0 −0.5 0.0 X1 0.5 1.0 63 (64) • CSE 445: Học máy | Học kỳ 1, 2016-2017 X2 • Mỗi “lá” cây phân cấp biểu diễn 45 mẫu Phần đáy cây, mẫu là lá riêng biệt Tuy nhiên, càng lên cao các lá hợp với Việc này thể các mẫu có độ tương tự với các mẫu khác Khi di chuyển cao lên phần cây, số lượng mẫu đã hợp Trước đó (phần cây) với mẫu hợp nhất, chúng có chung đặc tính (gần) với −2 • Diễn giải phương pháp phân cấp −6 −4 −2 X1 64 (65) Lựa chọn các cụm Để chọn các cụm ta kẻ đường thẳng ngang cây phân cấp Ta có thể chọn số lượng cụm tùy thuộc vào vị trí đường kẻ One Cluster Two Clusters CSE 445: Học máy | Học kỳ 1, 2016-2017 Three Clusters 65 (66) Giải thuật (trộn các cụm) Phân cụm cấu trúc cây: • Khởi tạo với điểm là cụm riêng biệt (n cụm), chính là nút dendrogram • Tính toán độ tương tự (gần) các điểm/cụm • Hợp cụm mà chúng có độ tương tự cao nhất, ta còn lại n-1 cụm • Hợp cụm có độ tương tự cao nhất, ta còn lại n-2 cụm • Quá trình trên tiếp tục còn cụm (là nút gốc dendrogram) CSE 445: Học máy | Học kỳ 1, 2016-2017 66 (67) Ví dụ −0.5 X2 −0.5 X2 −1.0 −1.0 1 −1.5 −1.5 −0.5 0.0 0.5 1.0 −1.5 −1.0 −0.5 X1 9 0.5 1.0 0.0 0.0 −0.5 X2 −1.0 −1.0 1 −1.5 −1.5 −1.0 −1.5 0.0 X1 X2 0.5 −1.0 0.5 −1.5 −0.5 Bắt đầu với cụm Hợp và Hợp và Hợp cụm (5,7) với Quá trình tiếp tục tất các cụm hợp 0.0 0.0 0.5 0.5 −0.5 0.0 X1 CSE 445: Học máy | Học kỳ 1, 2016-2017 0.5 1.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 X1 67 (68) Ta định nghĩa khác biệt ntn? Việc triển khai phương pháp phân cấp cần giải vấn đề khá hiển nhiên, đó là làm để định nghĩa khác biệt (dissimilarity) mối liên kết (linkage) cụm hợp (5, 7) và cụm 8? Có lựa chọn: Liên kết đầy (Complete Linkage) Liên kết đơn (Single Linkage) Liên kết trung bình các nhóm (Average Linkage) Liên kết tâm (Centroid Linkage) CSE 445: Học máy | Học kỳ 1, 2016-2017 68 (69) Các phương pháp liên kết C1 Liên kết đầy: Khoảng cách cụm là khoảng cách lớn mẫu tương ứng cụm đó + + C2 • Nhạy cảm (gặp lỗi phân cụm) các ngoại lai (outliers) • Có xu hướng sinh các cụm có dạng “bụi cây” (clumps) [Liu, 2006] CSE 445: Học máy | Học kỳ 1, 2016-2017 69 (70) Các phương pháp liên kết Liên kết đơn: Khoảng cách cụm là khoảng cách nhỏ các mẫu (các thành viên) cụm đó Có xu hướng sinh các cụm có dạng “chuỗi dài” (long chain) C1 + + C2 [Liu, 2006] CSE 445: Học máy | Học kỳ 1, 2016-2017 70 (71) Các phương pháp liên kết Liên kết trung bình: Khoảng cách liên kết trung bình (Average-link) là thỏa hiệp các khoảng cách liên kết hoàn toàn (Complete-link) và liên kết đơn (Single-link) • Để giảm mức độ nhạy cảm (khả lỗi) phương pháp phân cụm dựa trên liên kết đầy các ngoại lai (outliers) ■ • Để giảm xu hướng sinh các cụm có dạng “chuỗi dài” phương pháp phân cụm dựa trên liên kết đơn (dạng “chuỗi dài” không phù hợp với khái niệm tự nhiên cụm) Khoảng cách cụm là khoảng cách trung bình tất các cặp mẫu (mỗi mẫu thuộc cụm) CSE 445: Học máy | Học kỳ 1, 2016-2017 71 (72) Các phương pháp liên kết Liên kết tâm: Khoảng cách các tâm các mẫu tương ứng C1 + + C2 CSE 445: Học máy | Học kỳ 1, 2016-2017 72 (73) Mối liên kết quan trọng Dưới đây ta có kết phân cụm trên cùng liệu Phương pháp tính mối liên kết khác kết đem lại khác xa Phương pháp liên kết đầy và liên kết trung bình dường có cỡ cụm nhau, nhiên liên kết đơn lại cho số cụm nhiều vì lá cây hợp lần CSE 445: Học máy | Học kỳ 1, 2016-2017 73 (74) Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 74 (75) Giảm chiều liệu CSE 445: Học máy | Học kỳ 2, 2015-2016 75 (76) 0.5 0.0 −0.5 −1.0 Second principal component 1.0 Giảm chiều liệu • • • • • ••• • • • • • •• • • • • • • • • • • •• • • • • • • • • • ••• • • • • • • •••• • • • • •• • • •• • • • • • • • • • •• • • • • •• • • •• • • • •• • • −1.0 −0.5 0.0 0.5 1.0 First principal component CSE 445: Học máy | Học kỳ 2, 2015-2016 76 (77) Phép chiếu CSE 445: Học máy | Học kỳ 2, 2015-2016 77 (78) Phân tích thành phần chính Principal Component Analysis (PCA) CSE 445: Học máy | Học kỳ 2, 2015-2016 78 (79) Phân tích thành phần chính • Khi không cần giữ các đặc trưng gốc (feature), PCA là phương pháp hiệu để giảm chiều liệu • PCA xây dựng không gian ít chiều hơn, lại có khả biểu diễn liệu tốt tương đương không gian cũ • PCA đảm bảo độ biến thiên (variability) liệu trên chiều nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 79 (80) Phân tích thành phần chính • Các trục tọa độ không gian xây dựng cho trên trục, độ biến thiên liệu trên đó là lớn có thể • Các trục tọa độ không gian là tổ hợp tuyến tính không gian cũ • Về mặt ngữ nghĩa, PCA xây dựng feature dựa trên các feature đã quan sát (vẫn biểu diễn tốt liệu ban đầu) nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 80 (81) Phân tích thành phần chính • Trong không gian mới, các liên kết tiềm ẩn liệu có thể khám phá • Ví dụ: Thị trường ta quan tâm có hàng ngàn mã cổ phiếu làm cách nào để quan sát liệu từ hàng ngàn cổ phiếu này ta hình dung xu hướng toàn thị trường… nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 81 (82) Phân tích thành phần chính Minh họa PCA: phép chiếu lên các trục tọa độ khác có thể cho cách nhìn khác cùng liệu nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 82 (83) Phân tích thành phần chính Giả sử tập liệu ban đầu (tập điểm màu xanh) quan sát không gian chiều (trục màu đen) hình bên trái Rõ ràng trục này không biểu diễn tốt mức độ biến thiên liệu PCA đó tìm hệ trục tọa độ (là hệ trục màu đỏ hình bên trái) Sau tìm không gian mới, liệu chuyển sang không gian này để biểu diễn hình bên phải Rõ ràng hình bên phải cần trục tọa độ biểu diễn tốt độ biến thiên liệu so với hệ trục chiều ban đầu nguồn: http://phvu.net/ CSE 445: Học máy | Học kỳ 2, 2015-2016 83 (84) Thuật toán PCA Cho ma trận: = { ∈ ℛ × } Tiền xử lý liệu: Chuẩn hóa liệu ma trận Có cách thường dùng: • Centered PCA: mang tất các biến (các cột ) cùng gốc tọa độ • Normed PCA: mang tất các biến cùng gốc tọa độ, đồng thời chuẩn hóa cùng độ lệch chuẩn (standarddeviation) • Sau bước tiền xử lí, ma trận là đầu vào cho bước CSE 445: Học máy | Học kỳ 2, 2015-2016 84 (85) Thuật toán PCA Xây dựng không gian • Tính ma trận hiệp phương sai các đặc trưng (cột) = ∈ℛ × • Tính p giá trị riêng λi (i=1 p) và véc-tơ riêng ui ma trận • Sắp xếp giá trị riêng và véc-tơ riêng theo thứ tự giảm dần Khi đó các trục không gian chính là các véc-tơ riêng ui (chúng trực giao-vuông góc đôi một) CSE 445: Học máy | Học kỳ 2, 2015-2016 85 (86) Thuật toán PCA Chuyển liệu từ không gian ban đầu vào không gian • Thông thường, ta chọn k véc-tơ riêng đầu tiên p véc-tơ xếp theo thứ tự giảm dần (k<p) • Gọi: • Khi đó tọa độ các điểm hệ tọa độ là: CSE 445: Học máy | Học kỳ 2, 2015-2016 = 86 (87) Questions? CSE 445: Học máy | Học kỳ 2, 2015-2016 87 (88)