1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn học phần Đại số tuyến tính Đề tài phân tích pca Để giảm chiều dữ liệu

20 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích PCA Để Giảm Chiều Dữ Liệu
Tác giả Đào Văn Mạnh, Đỗ Hoàng Long, Đỗ Thành Đạt, Đoàn Minh Hiếu, Đoàn Văn Lâm, Hồ Minh Trí, Hồ Thị Thanh Thảo, Hoàng Bảo, Hoàng Hà Nam Cường, Huỳnh Công Bảo
Người hướng dẫn TS. Nguyễn Xuân Mỹ
Trường học Đại Học Bách Khoa
Chuyên ngành Đại Số Tuyến Tính
Thể loại bài tập lớn
Năm xuất bản 2024
Thành phố Bình Dương
Định dạng
Số trang 20
Dung lượng 323,73 KB

Nội dung

TÓM TẮT BÁO CÁO-Phân tích thành phần chính PCA: Principal Component Analysis trong việc giảm chiều dữ liệu Dimensionality Reduction là một chủ đề rất thú vị và mang lại giá trị cao cho v

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG

BÀI TẬP LỚN HỌC PHẦN ĐẠI SỐ TUYẾN TÍNH

ĐỀ TÀI:

PHÂN TÍCH PCA ĐỂ GIẢM CHIỀU DỮ LIỆU

LỚP DL07 – NHÓM 02 – HK 241 NGÀY NỘP: 14/11/2024 Giảng viên hướng dẫn: TS Nguyễn Xuân Mỹ

Sinh viên thực hiện Mã số

sinh viên

Điểm số Chữ ký

Đào Văn Mạnh 2412008

Đỗ Hoàng Long 2411909

Đỗ Thành Đạt 2410663

Đoàn Minh Hiếu 2410975

Đoàn Văn Lâm 2411833

Hồ Minh Trí 2413627

Hồ Thị Thanh Thảo 2413191

Hoàng Bảo 2410223

Hoàng Hà Nam Cường 2410426

Huỳnh Công Bảo 2410231

Dĩ An - Bình Dương - 2024

Trang 2

TÓM TẮT BÁO CÁO

-Phân tích thành phần chính (PCA: Principal Component Analysis) trong việc giảm chiều dữ liệu (Dimensionality Reduction) là một chủ đề rất thú vị

và mang lại giá trị cao cho việc học tập và nghiên cứu Việc yêu thích Đại số tuyến tính cùng với khát khao học hỏi và khám phá đã thúc đẩy nhóm chúng

em chọn đề tài này

-Để đáp ứng các yêu cầu đặt ra, nhóm cần tìm hiểu kỹ lưỡng về lý thuyết PCA trong lĩnh vực Machine Learning và tìm hiểu các ứng dụng thực tiễn của nó Đồng thời, nhóm cũng cần vận dụng những kiến thức đã được thầy

cô giảng dạy để hoàn thành công việc một cách hiệu quả nhất

-Quá trình thực hiện đề tài đã giúp nhóm nhận thức rõ hơn về sự liên kết giữa lý thuyết và thực hành Điều này đã góp phần củng cố nền tảng kiến thức về PCA và giúp nhóm rèn luyện kỹ năng làm việc nhóm, xử lý dữ liệu, cũng như phát triển khả năng sử dụng công nghệ thông tin trong học tập và công việc sau này

Trang 3

LỜI MỞ ĐẦU

• Chúng em xin gửi một lời cảm ơn thật chân thành đến trường Đại học Bách khoa – ĐHQG Tp.HCM đã tạo điều kiện tốt nhất cho chúng em được bổ sung kiến thức về bộ môn Đại số tuyến tính Chúng em cũng xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn: Nguyễn Xuân Mỹ

đã hết sức mình giảng dạy các buổi học trên lớp Nhờ tấm lòng nhiệt huyết của cô từ những bài giảng lý thuyết, bài tập, đã giúp cho chúng

em trang bị một hành trang kiến thức vững chãi Từ đó chúng em càng được tiếp thêm động lực học tập, nỗ lực, phát triển bản thân, trong suốt hành trình đại học Nhờ sự hướng dẫn của của cô là cánh cửa cho mọi hành động của nhóm và phát huy hết mình để chúng em có thể hoàn thành BTL đúng tiến độ và giải quyết những vướng mắc gặp phải

• Bộ môn Đại số tuyến tính là môn học có tầm quan trọng đối với sinh viên Đại học Bách Khoa Tp.HCM và đây cũng là môn học có tính ứng dụng rất cao và rất thực tế trong cuộc sống Nhờ có bài tập lớn mà chúng em lại có thêm một góc nhìn mới mẻ về các môn đại cương, nó khiến chúng em thích thú và tò mò tìm hiểu về bài tập nhóm của mình

Để học bộ môn này một cách tốt nhất từng thành viên nhóm em đã và đang rất cố gắng hoàn thiện bản thân tốt nhất có thể Nhưng không thể nào tránh được những sự thiếu sót và bỡ ngỡ

• Chúng em rất mong nhận được sự đóng góp ý kiến từ các thầy, cô về những sai sót chúng em mắc phải, để cho chúng em rút kinh nghiệm và xem nó là bài học quý báu để hoàn thiện bản thân hơn cho tương lai

Trang 4

MỤC LỤC

Chương 1: Mở đầu : 5

• I Lí do chọn đề tài

• II Yêu cầu

• III Nhiệm vụ

Chương 2: Cơ sở lý thuyết : 11

• I Sơ lược về phân tích thành phần chính PCA

• II Khái niệm về phân tích thành phần chính PCA

• III Ưu và nhược điểm của phương pháp

• VI Các bước phân tích thành phần chính

• V Ứng dụng thực tế của PCA

Chương 3: Các bước dùng PCA để giảm chiều dữ liệu 13 Chương 4: Thực hành : 16

Chương 5: Sản phẩm code Matlab : 19

• I Đoạn code

• II Kết quả

Chương 6: Kết luận : 20

• I Các bước tiến hành PCA

• II Hình ảnh về vecto Component

• III Minh hoạ về bài toán chuyển hệ toạ độ

Trang 5

CHƯƠNG 1: MỞ ĐẦU

I Lý do chọn đề tài

- Trong bối cảnh bùng nổ dữ liệu hiện nay, phân tích dữ liệu trở thành một thách thức khi số lượng và kích thước các biến trong tập dữ liệu không ngừng gia tăng Việc xử lý dữ liệu có nhiều chiều không chỉ làm giảm hiệu suất tính toán mà còn dẫn đến nguy cơ quá khớp trong các mô hình học máy Phương pháp Phân tích thành phần chính (PCA) là công cụ quan trọng giúp giảm chiều dữ liệu một cách hiệu quả, giữ lại các thông tin quan trọng và loại bỏ nhiễu không cần thiết

- Nhóm em chọn đề tài này vì PCA không chỉ là phương pháp giảm chiều phổ biến, mà còn giúp cải thiện độ chính xác và tốc độ trong các bài toán học máy Việc hiểu sâu về PCA sẽ mang lại nhiều lợi ích thiết thực, giúp tối

ưu hóa các mô hình phân tích và đưa ra những quyết định dữ liệu tốt hơn

II Yêu cầu

• Nêu cơ sở lý thuyết của Phân tích thành phần chính (PCA: Principal Component Analysis)

• Ứng dụng của phân tích PCA để giảm chiều dữ liệu

III Nhiệm vụ

• Tìm hiểu về cơ sở lý thuyết nền tảng của thuật toán PCA

• Dùng MATLAB để minh họa đồng thời có các ví dụ thực tế

Trang 6

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

I Sơ lược về phân tích thành phần chính - PCA

Phân tích thành phần chính (Principal Component Analysis – PCA) là một phương pháp được sử dụng để phân tích và giảm kích thước của dữ liệu trong Khoa học dữ liệu và Công nghệ máy học PCA được triển khai nhằm

hỗ trợ sắp xếp các tập hợp biến ban đầu thành một tập hợp mới với kích thước ít chiều hơn, trong đó bao hàm các “thành phần chính” – là các tổ hợp tuyến tính của các biến gốc, để chứa nhiều thông tin về sự biến động của dữ liệu

Quy trình PCA sử dụng bắt đầu với việc nhận chuẩn hóa để đảm bảo dữ liệu có cùng kích thước đo lường Tiếp theo, để xem xét mối quan hệ giữa các biến, thực hiện tính toán ma trận hiệp phương sai Sau đó, PCA tính các giá trị riêng và vector riêng, cho phép tìm ra những thành phần có mức độ biến động lớn nhất Sau đó, các thành phần này sẽ được sắp xếp theo thứ tự quan trọng để cho phép người thực hiện quá trình sàng lọc và chỉ giữ lại các thành phần có chứa nhiều thông tin

II.Khái niệm về phân tích thành phần chính - PCA

• Phương pháp phân tích thành phần chính (PCA) là phương pháp biến đổi từ một không gian nhiều chiều thành một không gian mới ít chiều hơn, cụ thể là giảm chiều dữ liệu từ D về K với K < D, chỉ giữ lại K

là phần tử quan trọng nhất

• Mục tiêu của chúng ta là tìm ra K chiều mà có thể đảm bảo rằng các

dữ liệu khi được biểu diễn không bị trùng lặp, không bị mất mát thông tin (tách biệt nhau hoàn toàn)

III Ưu và nhược điểm của phân tích thành phần chính

- PCA:

*Ưu điểm:

• Một trong những lợi thế chính của việc sử dụng PCA để trực quan hóa

dữ liệu là nó có thể xử lý các tập dữ liệu có chiều cao khó có thể vẽ

Trang 7

biểu đồ hoặc diễn giải theo cách khác PCA có thể giảm độ phức tạp

và nhiều của dữ liệu, đồng thời làm nổi bật các tính năng và mối quan

hệ quan trọng nhất Vì dụ, bạn có thể sử dụng PCA để trực quan hóa những điểm giống và khác nhau giữa các nhóm khách hàng, sản phẩm hoặc gen khác nhau, dựa trên nhiều thuộc tính

• Loại bỏ nhiễu và giữ lại thông tin quan trọng: PCA xác định và giữ lại các thành phần (principal components) mang nhiều thông tin nhất, giúp loại bỏ nhiễu và các biến ít ý nghĩa trong dữ liệu gốc Điều này giúp mô hình tập trung vào các phần quan trọng nhất của dữ liệu

• Tăng hiệu suất và giảm chi phí tính toán: Khi dữ liệu được giảm chiều,

số lượng biến phải xử lý trong các thuật toán machine learning cũng giảm theo, giúp cải thiện tốc độ tính toán và hiệu suất của mô hình Điều này đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn

• Cải thiện độ chính xác của mô hình: Khi loại bỏ các chiều không cần thiết và chỉ giữ lại các thành phần có ý nghĩa, mô hình có thể tránh việc xử lý các biến gây nhiễu, dẫn đến cải thiện hiệu suất dự đoán và

độ chính xác của mô hình

• Ứng dụng rộng rãi và dễ thực hiện: PCA là một kỹ thuật tiêu chuẩn, được sử dụng phổ biến trong nhiều lĩnh vực và dễ triển khai với các thư viện machine learning phổ biến như Scikit-Learn, giúp các nhà phân tích

và khoa học dữ liệu dễ dàng áp dụng cho các tập dữ liệu lớn, phức tạp

*Nhược điểm:

• Tuy nhiên, PCA cũng có một số hạn chế và nhược điểm đối với việc trực quan hóa dữ liệu Một trong những nhược điểm chính của PCA là nó

có thể mất một số thông tin khi dữ liệu bị giảm chiều của dữ liệu Điều này có thể dẫn đến việc các yếu tố quan trọng hoặc bóp méo dữ liệu và khiến việc xác định các yếu tố ảnh hưởng khó khăn hơn Ví dụ, bạn có thể mất đi một số mẫu quan trọng trong khi tập trung vào những mẫu mạnh nhất

• Một nhược điểm khác của PCA là nó có thể nhạy cảm với việc mở rộng quy mô và các giá trị ngoại lệ, điều này có thể ảnh hưởng đến chất lượng

và tính ổn định của kết quả Do đó, bạn cần phải xử lý trước và chuẩn hóa dữ liệu cẩn thận trước khi áp dụng PCA

Trang 8

• Nhạy cảm với nhiễu

PCA có thể bị ảnh hưởng nhiều bởi các điểm dữ liệu nhiễu (outliers) Khi có nhiễu nhiều, phương sai của các thành phần chính sẽ thay đổi và dẫn đến kết quả không ổn định Điều này có thể ảnh hưởng xấu đến độ chính xác khi phân tích dữ liệu

• Không đảm bảo tối ưu hóa cho các mục tiêu cụ thể của bài toán

Mục tiêu chính của PCA là giảm chiều dựa trên phương sai lớn nhất, nhưng không phải lúc nào phương sai lớn cũng là yếu tố giúp tăng hiệu suất của mô hình Trong các bài toán phân loại, có thể có những biến nhỏ nhưng lại quan trọng đối với việc phân biệt các nhóm PCA có thể

bỏ qua các biến này nếu phương sai của chúng thấp

VI Các bước phân tích thành phần chính - PCA:

• Bước 1: Tính giá trị trung bình X của X

• Bước 2: Tính vectơ ˆX = X − X

• Tính ma trận hiệp phương sai: S = 1

N −1XˆTX.ˆ

• Bước 3: Tìm trị riêng của S và sắp xếp theo thứ tự giá trị giảm dần:

λ1 > λ2 > · · · > λm Các vectơ riêng tương ứng với các giá trị riêng

• Bước 4: Chọn k trị riêng đầu tiên và các vectơ riêng ứng với những trị riêng này Lập ma trận A với các cột là các vectơ riêng đã chọn Ma trận

A là phép biến đổi cần tìm

• Bước 5: Tính ảnh ATXˆT của vector ˆX

Dữ liệu X ban đầu được xấp xỉ bởi X ≈ AATX + X.ˆ

Mỗi cột của A ˆXT chứa tọa độ của các hàng của ma trận ˆX trong cơ sở

từ các cột của ma trận A

Trang 9

Lưu ý:

1 Ma trận S là ma trận đối xứng thực và các trị riêng của S là các số thực không âm

2 Ma trận P luôn chéo hóa trực giao được

3 Trên đường chéo của S là phương sai của các vector x1, x2, , xn Phần

tử sij là hiệp phương sai của xi và xj Tổng các phần tử trên đường chéo của S là phương sai của bảng dữ liệu Giả S = P DPT Trên đường chéo của D là các giá trị riêng của S Tổng các giá trị riêng của S bằng tổng các phần tử của S (bằng vết của S)

4 Ma trận P là ma trận trực giao Mỗi ma trận trực giao tương ứng với một phép quay

Các cột của ma trận P tạo nên hệ trục chuẩn Nếu ta chọn cơ sở trực chuẩn là hệ vector cột của ma trận P , thì ta xây dựng được hệ trục tọa

độ mới dựa trên các vector này và có một phép quay từ hệ trục tọa độ ban đầu sang hệ trục tọa độ mới

5 Nếu dữ liệu mẫu (sample data), thì

S = 1

N − 1

ˆ

XTX.ˆ Nếu dữ liệu dân số (population data), thì

S = 1 N

ˆ

XTX.ˆ

V.Ứng dụng thực tế của PCA:

• 5.1 Giới thiệu:

- PCA ( Principal Component Analysis ), các components (thành phần)

ở đây ta nói thực chất là các vectors độc lập tuyến tính được chọn sao cho khi chiếu các điểm dữ liệu lên vector đó thì các điểm dữ liệu có sự variance lớn nhất ( biến động nhiều nhất, phương sai lớn nhất)

Để trực quan hơn chúng ta đi đến ví dụ như hình bên, chúng ta chọn 2 vector component theo thứ tự: 1st Comp sẽ có mức độ variance lớn nhất, ta

Trang 10

chọn trước, sau đó đến 2nd Comp và cứ thế Khi làm thực tế chúng ta sẽ cần xác định hoặc thử sai xem sẽ chọn bao nhiêu components là hợp lý và mang lại kết quả tốt nhất

- Xét một cách nhìn khác thì PCA cũng là một bài toán chuyển hệ tọa độ như hình dưới:

Ví dụ sau đây sẽ giải thích lý do tại sao chúng ta cần chọn thành phần để

dữ liệu có độ biến thiên phương sai nhiều nhất: Xét bài toán phân loại : Ung thư/Không ung thư, Spam/Normal Bây giờ nếu chúng ta chiếu một thành phần mà chiếu lên đó các điểm dữ liệu không có sự khác biệt lớn, thì rõ ràng thành phần này không có nhiều ý nghĩa – không trực quan cho việc phân loại Nó sẽ khiến cho máy học khó khăn hơn để đưa ra quyết định Do đó, ta cần chiếu các điểm sao cho khi chiếu data lên có độ biến thiên lớn nhất

Trang 11

• 5.2 Thực tiễn:

Trong tài chính định lượng,phân tích thành phần chính có thể được

áp dụng trực tiếp vào việc quản lý rủi ro của các danh mục đầu tư phát sinh lãi suất Giao dịch nhiều công cụ hoán đổi tương tự là một chức năng của 30–500 công cụ hoán đổi có thể định giá trên thị trường được tính cách giản xuống thông qua 3 hoặc 4 thành phần chính, thể hiện đường đi của lãi suất trên cơ sở vị mô Việc chuyển đổi rủi ro được thể hiện dưới dạng các rủi ro thành hệ số tải (hoặc hệ số nhân) cùng các các đánh giá và hiểu biết vượt

ra ngoài khả năng săn có để chỉ đơn giản là xem xét chung các rủi ro đối với nhóm 30–500 riêng lẻ

- Khoa học thần kinh:

Một biến thể của phân tích các thành phần chính được sử dụng trong khoa học thần kinh để xác định các thuộc tính cụ thể của một kích thích làm tăng xác suất tạo ra điện thế hoạt động của tế bào thần kinh Kỹ thuật này được gọi là phân tích hiệp phương sai kích hoạt tăng đột biến Trong một ứng dụng điển hình, người thử nghiệm trình bày quá trình tiềm tàng như một tác nhân kích thích (thường là đầu vào cảm giác cho đối tượng thử nghiệm hoặc như một dòng điện được tiêm trực tiếp vào tế bào thần kinh) và ghi lại một chuỗi các điện thế hoạt động, hoặc các gai, kết quả là do tế bào thần kinh tạo ra Có lẽ, một số đặc điểm của kích thích làm cho tế bào thần kinh

có nhiều khả năng tăng đột biến Để trích xuất các tính năng này, người thử nghiệm tính toán ma trận hiệp phương sai của nhóm được kích hoạt tăng đột biến, tập hợp tất cả các kích thích (được xác định và tùy ý trong một khoảng thời gian hữu hạn, thường là theo thứ tự 100ms) ngay trước khi tăng đột biến Các dấu hiệu riêng của sự khác biệt giữa ma trận hiệp phương sai được kích hoạt tăng đột biến và ma trận hiệp phương sai của tập hợp kích thích trước đó (tập hợp tất cả các kích thích, được xác định trong cùng một khoảng thời gian dài) sau đó chỉ ra các hướng trong không gian của các kích thích cùng với phương sai của nhóm kích thích tăng đột biến khác nhiều nhất

so với phương sai của nhóm kích thích trước đó Cụ thể, các eigenvectors có giá trị riêng nhất tương ứng với các hướng mà phương sai của nhóm được kích hoạt tăng đột biến cho thấy sự thay đổi tức lớn nhất so với phương sai nhóm trước đó Vì vậy là những hướng thay đổi kích thích dẫn đến tăng đột biến, chúng thường là những yếu tố tính tốt của các đặc điểm kích thích có liên quan được tìm kiếm

Trang 12

- Ứng dụng phân tích thành phần chính để đánh giá các đặc tính hoá học và kháng khuẩn của nọc ong mật

- Mục đích của nghiên cứu này là sử dụng Phân tích thành phần chính (PCA) để làm rõ các mô hình phân bố chung hoặc sự tương đồng của bốn thành phần chính (apamine, phospholipase A2, peptide phân giải tế bào mast, và melittin) của nọc ong được thu thập từ hai dòng ong mật trong nhiều tháng và năm khác nhau Nội dung của các thành phần nọc ong chính này được đánh giá bằng sắc ký lỏng hiệu suất cao (HPLC) Ngoài ra, hoạt tính kháng khuẩn của sản phẩm được đặc trưng bởi vết ức chế tối thiểu (MIC)

- Sử dụng PCA có thể tìm ra mối tương quan giữa các thành phần của nọc ong hoặc giữa các thành phần của nọc với hoạt động ức chế ở các giá trị MIC Do đó, sự hiện diện của một số thành phần có thể ảnh hưởng đến hoạt động của các chất tiếp cận như vậy Nó được chỉ ra rằng dòng ong hoặc nơi lưu trữ chỉ duy nhất ảnh hưởng nhỏ tới mức độ của các thành phần Ngoài

ra, mối tương quan chặt chẽ giữa phospholipase A2 và melittin đã được xác nhận Phân tích PCA cho thấy có mối quan hệ yếu giữa các thành phần nọc ong mật được phân tích và giá trị MIC Do đó, các thành phần nhỏ của nọc ong có lẽ cũng ảnh hưởng đáng kể đến hoạt động kháng khuẩn của nó

Ngày đăng: 10/01/2025, 15:23