1. Trang chủ
  2. » Tất cả

PCA trong giảm chiều dữ liệu

17 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 571,88 KB

Nội dung

1 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN MÔN ĐẠI SỐ TUYẾN TÍNH ĐỀ TÀI 11 PHÂN TÍCH THÀNH PHẦN CHÍNH ( PCA PRINCIPAL COMPONENT ANA.

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN MƠN ĐẠI SỐ TUYẾN TÍNH ĐỀ TÀI 11: PHÂN TÍCH THÀNH PHẦN CHÍNH ( PCA: PRINCIPAL COMPONENT ANALYSIS ) ĐỂ GIẢM CHIỀU DỮ LIỆU Lớp L07 - Nhóm GV hướng dẫn: Thầy Đặng Văn Vinh ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN ĐỀ TÀI 11: PHÂN TÍCH THÀNH PHẦN CHÍNH PCA ( PCA: PRINCIPAL COMPONENT ANALYSIS ) ĐỂ GIẢM CHIỀU DỮ LIỆU Lớp L07 - Nhóm GV hướng dẫn: Thầy Đặng Văn Vinh Lớp L07_Nhóm Danh sách thành viên STT HỌ TÊN MSSV Trịnh Thị Ngọc Ánh 2112832 Trương Việt Hoàng 2110186 Đặng Ngọc Phú 2114410 Bùi Trọng Phúc 2112029 Nguyễn Ngọc Thịnh 2114896 Huỳnh Đắc Tín 2112445 Lê Minh Triết 2115067 TP.HCM, 12/2021 TĨM TẮT BÁO CÁO Ứng dụng Phân tích thành phần ( PCA : Principal Component Analysis ) giảm chiều liệu ( Dimensionality Reduction ) đề tài hay thú vị mang giá trị nghiên cứu học tập cao Cùng với yêu thích mơn Đại số tuyến tính mong muốn tìm tịi học hỏi lý nhóm em định thực đề tài Đề tài yêu cầu giải thông số liệu biểu diễn chúng cách trực quan Để thực tốt tiêu chí đề nhóm em cần tìm hiểu kiến thức tảng PCA Machine Learning liên hệ với ứng dụng thực tế Song song với cần vận dụng kiến thức thầy cô giảng dạy để hồn thành đề tài cách tốt Sau thực đề tài, nhóm em có nhìn sâu sắc gắn kết lý thuyết thực tế Cũng góp phần cố kiến thức tảng chuyên đề Phân tích thành phần Bên cạnh giúp chúng em phát huy khả làm việc nhóm, xử lí thơng tin liệu, nâng cao hiểu biết sử dụng công nghệ thông tin học tập công việc sau LỜI MỞ ĐẦU Đại số tuyến tính mơn học có tầm quan trọng sinh viên ĐH Bách Khoa TPHCM nói riêng sinh viên ngành khối khoa học kỹ thuật – công nghệ nói chung Do đó, việc dành cho mơn học khối lượng thời gian định thực hành điều tất yếu để giúp cho sinh viên có sở vững môn KHTN làm tiền đề để học tốt môn khác chương trình đào tạo Trong suốt trình thực tập lớn nói trên, nhóm chúng em nhận nhiều quan tâm ủng hộ, giúp đỡ tận tình thầy cơ, anh chị bạn bè Ngồi ra, nhóm xin gửi lời tri ân chân thành đến Thầy Đặng Văn Vinh, giảng viên người hướng dẫn nhóm em đề tài Nhờ có thầy hết lịng bảo mà nhóm hồn thành tiểu luận tiến độ giải tốt vướng mắc gặp phải Sự hướng dẫn thầy chìa khóa cho hành động nhóm phát huy tối đa mối quan hệ hỗ trợ thầy trị mơi trường giáo dục Lời cuối, xin lần gửi lời biết ơn sâu sắc đến cá nhân, thầy dành thời gian dẫn cho nhóm Đây niềm tin, nguồn động lực to lớn để nhóm đạt kết Mục lục Chương 1: Mở đầu : Sơ lược đề tài Yêu cầu Điều kiện Nhiệm vụ Chương 2: Cơ sở lý thuyết: Khái niệm bản: Áp dụng vào đề tài: Các bước tiến hành PCA: ……… 11 Chương 3: Ứng dụng thực tế: Giới thiệu: ….………………… 13 Thực tiễn: ……………………… 14 Chương 4: Kết luận: …………………………… 16 Danh mục hình ảnh minh họa: Hình 2.2.1: hình ảnh lạc đà 10 Hình 2.3.1: bước tiến hành PCA………………………… 12 Hình 3.1.1: hình ảnh vector component ………………… 13 Hình 3.1.2: minh họa tốn chuyển hệ tọa độ ………… 13 Chương 1: Mở đầu 1.1-Sơ lược Dimensionality Reduction ( giảm chiều liệu ): Dimensionality Reduction (giảm chiều liệu), kỹ thuật quan trọng Machine Learning Các feature vectors tốn thực tế có số chiều lớn, tới vài nghìn Ngồi ra, số lượng điểm liệu thường lớn Nếu thực lưu trữ tính tốn trực tiếp liệu có số chiều cao gặp khó khăn việc lưu trữ tốc độ tính tốn Vì vậy, giảm số chiều liệu bước quan trọng nhiều toán Đây coi phương pháp nén liệu Dimensionality Reduction, nói cách đơn giản, việc tìm hàm số, hàm số lấy đầu vào điểm liệu ban đầu 𝑥 ∈ 𝑅𝐷 với D lớn, tạo điểm liệu 𝑧 ∈ 𝑅𝐾 có số chiều K < D Phương pháp đơn giản thuật toán Dimensionality Reduction dựa mơ hình tuyến tính, có tên Principal Component Analysis (PCA), tức Phân tích thành phần Phương pháp dựa quan sát liệu thường không phân bố ngẫu nhiên không gian mà thường phân bố gần đường/mặt đặc biệt 1.2-Yêu cầu đề tài: 1/ Nêu sở lý thuyết phân tích thành phần (PCA: principle component analysis) 2/ Ứng dụng phân tích PCA để giảm chiều liệu 1.3- Điều kiện: • Sinh viên cần có kiến thức mơn Đại số tuyến tính nói chung hiểu biết phép phân tích thành phần machine learning nói riêng • Tìm hiểu ứng dụng phân tích thành phần PCA thực tiễn 1.4- Nhiệm vụ: • Tìm hiểu sở lý thuyết tảng thuật toán PCA • Khơng thiết phải dùng matlab để minh họa, phải có ví dụ thực tế Chương 2: Cơ sở lý thuyết 2.1-Khái niệm bản: Phương pháp phân tích thành phần chính ( PCA ) phương pháp biến đổi từ không gian nhiều chiều thành khơng gian chiều, cụ thể giảm chiều liệu từ D K < D giữ lại K phần tử quan trọng Tuy nhiên, việc làm chắn chưa phải tốt chưa biết xác định thành phần quan trọng Hoặc trường hợp xấu nhất, lượng thông tin mà thành phần mang nhau, bỏ thành phần dẫn đến việc lượng thông tin lớn Tuy nhiên, biểu diễn vector liệu ban đầu hệ sở mà có tầm quan trọng thành phần khác rõ rệt, bỏ qua thành phần quan trọng Mục tiêu tìm K chiều mà đảm bảo liệu biểu diễn, không bị trùng lắp không bị mát thơng tin ( tách biệt hồn tồn ) 2.2- Áp dụng lí thuyết để phân tích đề tài: PCA phương pháp biến đổi giúp giảm số lượng lớn biến có tương quan với thành tập biến cho biến tạo tở hợp tuyến tính biến cũ khơng có tương quan lẫn Ví dụ, có 1000 biến ban đầu có tương quan tuyến tính với nhau, sử dụng phương pháp PCA xoay chiều không gian cũ thành chiều không gian mà cịn 10 biến khơng có tương quan tuyến tính mà nhiều lượng thơng tin từ nhóm biến ban đầu Hay nói cách khác, PCA phương pháp tìm hệ sở cho thông tin liệu chủ yếu tập trung vài tọa độ cách trực quan, phần lại mang lượng nhỏ thơng tin ( để đơn giản tính tốn, PCA tìm hệ trực chuẩn làm sở ) ( hình ảnh minh họa cho PCA : lạc đà, nhiên với cách nhìn khác ( trục thơng tin khác ) ta lại có cách thu nhận thơng tin khác từ cho kết luận khác ) Lấy ví dụ việc có hai camera đặt dùng để chụp người, camera đặt phía trước người camera đặt đầu Rõ ràng hình ảnh thu từ camera đặt phía trước người mang nhiều thơng tin so với hình ảnh nhìn từ phía đầu Vì vậy, ảnh chụp từ phía đầu bỏ qua mà khơng có q nhiều thơng tin hình dáng người bị Vậy ta kể đến số đặc tính PCA sau: • Giúp giảm số chiều liệu - Giúp visualization liệu có q nhiều chiều thơng tin • Do liệu ban đầu có số chiều lớn (nhiều biến) PCA giúp xoay trục tọa độ, xây dựng trục tọa độ đảm bảo độ biến thiên liệu giữ lại nhiều thông tin mà không ảnh hưởng tới chất lượng mơ hình dự báo (Maximize the variability) • Do PCA giúp tạo hệ trục tọa độ nên mặt ý nghĩa toán học, PCA giúp xây dựng biến factor tở hợp tuyến tính biến ban đầu • Trong khơng gian mới, giúp khám phá thêm thông tin quý giá mà chiều thông tin cũ thông tin quý giá bị che (Điển hình cho ví dụ lạc đà phía trên) Và số hạn chế PCA: • Chỉ làm việc với liệu numeric • Nhạy cảm với điểm outlier ( điểm dị biệt làm méo mó tính chuẩn hóa liệu ) 10 • Khơng phù hợp với mơ hình phi tuyến, PCA hồn tồn dựa biến đởi tuyến tính 2.3- Các bước tiến hành PCA: Phương pháp PCA "chiếu" (biểu diễn) liệu đa chiều lên khơng gian có sở trực giao thức, ta xem sở khơng gian biến hình ảnh liệu gốc không gian biểu diễn thơng qua biến độc lập tuyến tính Vấn đề chuyển liệu ban đầu sang khơng gian thơng tin đáng quan tâm liệu ban đầu liệu có bị mất? Để giải vấn đề phương pháp PCA tìm khơng gian với tiêu chí cố gắng phản ánh nhiều thông tin gốc tốt thước đo cho khái niệm "thông tin" phương sai Một điểm hay biến không gian độc lập nên ta tính tốn tỷ lệ giải thích phương sai từng biến liệu điều cho phép ta cân nhắc việc dùng số biến để giải thích liệu Nói cách ngắn gọn, mục tiêu phương pháp PCA tìm khơng gian ( với số chiều nhỏ không gian cũ ) Các trục tọa độ không gian xây dựng cho trục, độ biến thiên liệu lớn ( maximize the variability ) Bước Tính giá trị trung bình 𝑋 𝑋 Bước Tính véctơ 𝑋̂ = 𝑋 − 𝑋 Tính ma trận hiệp phương sai: 𝑆 = 𝑁−1 𝑋̂ 𝑇 𝑋̂ Bước Tìm trị riêng 𝑆 xếp theo giá trị giảm dần 𝜆1 > 𝜆2 > ⋯ > 𝜆𝑚 tìm véctơ riêng đơn vị ứng với trị riêng Bước Chọn 𝑘 trị riêng ban đầu 𝑘 véctơ riêng đơn vị ứng với trị riêng Lập ma trận A có cột véctơ riêng chọn Ma trận A phép biến đổi cần tìm Bước Tỉnh ảnh 𝐴𝑇 𝑋̂ 𝑇 véctơ 𝑋̂ Dữ liệu 𝑋 ban đầu xấp xỉ 𝑋 ≈ 𝐴𝑋̂ + 𝑋 Mỗi cột 𝐴𝑋̂ 𝑇 chứa tọa độ hàng ma trận sở từ cột ma trận 𝑃 Lưu ý: 1/ Ma trận 𝑆 ma trận đối xứng thực trị riêng 𝑆 số thực không âm 2/ Ma trận 𝑆 chéo hóa trực giao 11 3/ Trên đường chéo 𝑆 phương sai véctơ 𝑥1 ; 𝑥2 ; … ; 𝑥𝑁 Phần tử 𝑠𝑖𝑗 , hiệp phương sai 𝑥𝑖 𝑥𝑗 Tổng phần tử đường chéo S phương sai bảng liệu Giả sử 𝑆 = 𝑃𝐷𝑃𝑇 Trên đường chéo 𝐷 giá trị riêng 𝑆 Tổng giá trị riêng 𝑆 tổng phần tử 𝑆 (bằng vết 𝑆) 4/ Ma trận 𝑃 ma trận trực giao Mỗi ma trận trực giao tương ứng với phép quay Các cột ma trận 𝑃 tạo nên hệ trực chuẩn Nếu ta chọn sở trực chuẩn họ véctơ cột ma trận 𝑃, ta xây dựng hệ trục tọa độ dựa véctơ có phép quay từ hệ trục ban đầu sang hệ trục tọa độ 5/ Nếu liệu mẫu (sample data), 𝑆 = 𝑁−1 Nếu liệu dân số (population data), 𝑆 = 12 ∙ 𝑋̂ 𝑇 𝑋̂ 𝑁 ∙ 𝑋̂ 𝑇 𝑋̂ Ý nghĩa ma trận hiệp phương sai: Ma trận hiệp phương sai tập hợp m biến ngẫu nhiên ma trận vuông hạng ( m x m ) phần tử nằm đường chéo ( từ trái sang phải, từ xuống ) phương sai tương ứng biến này, phần tử cịn lại ( khơng nằm đường chéo ) hiệp phương sai đôi hai biến ngẫu nhiên khác tập hợp • • • Các phần tử đường chéo ma trận hiệp phương sai phương sai mẫu liệu theo từng chiều không gian m chiều Ma trận hiệp phương sai có tính chất đối xứng qua đường chéo Có thể tạm hiểu rằng, độ lớn giá trị phần tử cxy ma trận hiệp phương sai thể mức độ tương quan (thể phép nhân vô hướng, tiếng Anh: dot product) độ lệch (thao tác trừ cho giá trị trung bình => tạm gọi "độ lệch") mẫu liệu theo chiều xx (dòng thứ x ma trận hiệp phương sai) chiều yy (cột thứ y ma trận hiệp phương sai) Chương 3: Ứng dụng thực tế 3.1- Giới thiệu: PCA ( Principal Component Analysis ), components ( thành phần ) ta nói thực chất vectors độc lập tuyến tính chọn cho chiếu điểm liệu lên vector điểm liệu có variance lớn ( biến động nhiều nhất, phương sai lớn nhất) Để trực quan đến ví dụ hình bên, chọn vector component theo thứ tự: 1st Comp có mức độ variance lớn nhất, ta chọn trước, sau đến 2nd Comp… Khi làm thực tế cần xác định thử sai xem chọn components hợp lý mang lại kết tốt 13 Xét cách nhìn khác PCA toán chuyển hệ tọa độ hình dưới: Ví dụ sau giải thích lý cần chọn thành phần để liệu có độ biến thiên phương sai nhiều : Xét tốn phân loại : Ung thư/ Khơng ung thư, Spam/Normal… Bây chọn thành phần mà chiếu lên điểm liệu khơng có phương sai lớn, đè lên co cụm lại chỗ => không trực quan khó phân loại Nói cách khác tìm đường hay mặt phẳng chia tách liệu thành hai phần khác cho hai loại khác Do đó, ta phải chọn thành phần cho chiếu data lên comp có phương sai lớn 3.2- Thực tiễn: • Tài chính định lượng: Trong tài định lượng, phân tích thành phần áp dụng trực tiếp vào việc quản lý rủi ro danh mục đầu tư phát sinh lãi suất Giao dịch nhiều công cụ hốn đởi thường chức 30–500 cơng cụ hốn đởi định giá thị trường tìm cách giảm xuống thường thành phần chính, thể đường lãi suất sở vĩ mô Việc chuyển đổi rủi ro thể dạng rủi ro thành hệ số tải (hoặc hệ số nhân) cung cấp đánh giá hiểu biết vượt khả sẵn có để đơn giản xem xét chung rủi ro nhóm 30–500 riêng lẻ • Khoa học thần kinh: Một biến thể phân tích thành phần sử dụng khoa học thần kinh để xác định thuộc tính cụ thể kích thích làm tăng xác suất tạo điện hoạt động tế bào thần kinh Kỹ thuật gọi phân tích hiệp phương sai kích hoạt tăng đột biến Trong ứng dụng điển hình, người thử nghiệm trình bày trình tiếng 14 ồn trắng tác nhân kích thích (thường đầu vào cảm giác cho đối tượng thử nghiệm dòng điện tiêm trực tiếp vào tế bào thần kinh) ghi lại chuỗi điện hoạt động, gai, kết tế bào thần kinh tạo Có lẽ, số đặc điểm kích thích làm cho tế bào thần kinh có nhiều khả tăng đột biến Để trích xuất tính này, người thử nghiệm tính tốn ma trận hiệp phương sai nhóm kích hoạt tăng đột biến , tập hợp tất kích thích (được xác định tùy ý khoảng thời gian hữu hạn, thường theo thứ tự 100 ms) trước tăng đột biến Các dấu hiệu riêng khác biệt ma trận hiệp phương sai kích hoạt tăng đột biến ma trận hiệp phương sai tập hợp kích thích trước (tập hợp tất kích thích, xác định khoảng thời gian dài) sau hướng khơng gian kích thích với phương sai nhóm kích thích tăng đột biến khác nhiều so với phương sai nhóm kích thích trước Cụ thể, eigenvectors có giá trị dương lớn tương ứng với hướng mà phương sai nhóm kích hoạt tăng đột biến cho thấy thay đởi tích cực lớn so với phương sai nhóm trước Vì hướng thay đởi kích thích dẫn đến tăng đột biến, chúng thường ước tính tốt đặc điểm kích thích có liên quan tìm kiếm • Ứng dụng phân tích thành phần chính để đánh giá đặc tính hóa học kháng khuẩn nọc ong mật Apis Mellifera: Mục đích nghiên cứu sử dụng Phân tích thành phần (PCA) để làm rõ mơ hình phân bố chung tương đồng bốn thành phần (apamine, phospholipase A 2, peptide phân giải tế bào mast, melittin) nọc ong thu thập từ hai dòng ong mật nhiều tháng năm khác Nội dung thành phần nọc ong phân tích sắc ký lỏng hiệu suất cao (HPLC) Ngồi ra, hoạt tính kháng khuẩn sản phẩm đặc trưng việc xác định Nồng độ ức chế tối thiểu (MIC) Sử dụng PCA tìm mô tả mối tương quan thành phần nọc ong hoạt tính kháng khuẩn chúng Đây có lẽ nghiên cứu thành phần hoạt tính nọc ong so sánh áp dụng cách tiếp cận Nó dịng ong dường tiêu chí để phân loại mẫu nọc độc ong Hơn nữa, mối tương quan chặt chẽ phospholipase A 2và melittin xác nhận Phân tích PCA cho thấy có mối quan hệ yếu thành phần nọc ong mật phân tích giá trị MIC Do đó, thành phần nhỏ nọc ong có lẽ ảnh hưởng đáng kể đến hoạt động kháng khuẩn 15 Chương 4: Kết luận Qua đề tài ứng dụng phân tích thành phần PCA để giảm chiều liệu, nhóm chúng em có nhìn sâu sắc gắn kết lý thuyết thực tế môn Đại số tuyến tính nói riêng Trong q trình thực đề tài, nhóm chúng em tìm cho kiến thức bở ích sâu sắc phương pháp giảm chiều liệu cách thức tìm K features – phân tích thành phần Việc chọn vào nhóm làm tập lớn khiến chúng em gặp nhiều bỡ ngỡ Nhưng sau đó, tụi em học cách phân chia nhiệm vụ cho nhau, có tinh thần trách nhiệm đội nhóm, với cố gắng nỗ lực để hồn thành trách nhiệm Một lần nữa, xin cảm ơn thầy cô tạo điều kiện cho chúng em có hội để làm việc phát triển nhau, giúp đỡ tiến đường học tập 16 Tài liệu tham khảo: [1] Bộ mơn Tốn ứng dụng – Khoa Khoa học Ứng dụng: Giáo trình Đại số tuyến tính (Tài liệu lưu hành nội bộ), trường ĐH Bách Khoa – ĐH Quốc gia TPHCM, 2020 [2]:https://machinelearningcoban.com/2017/06/15/pca/#241-d-liu-mt-chiu [3]:https://en.wikipedia.org/wiki/Principal_component_analysis#PCA_and_information_t heory [4]:https://rpubs.com/vudt1993/257891 [5]:https://tuanvanle.wordpress.com/2013/12/25/phuong-phap-phan-tich-thanh-phanchinh-principal-component-analysis-pca/ [6]:https://www.miai.vn/2021/04/22/principal-component-analysis-pca-tuyet-chieu-giamchieu-du-lieu/ [7]: https://minhng.info/toan-hoc/ma-tran-hiep-phuong-sai-covariance-matrix.html 17

Ngày đăng: 31/03/2023, 22:47

TỪ KHÓA LIÊN QUAN