ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG TM TM BÁO CÁO BÀI TẬP LỚN ĐẠI SỐ TUYẾN TÍNH GVHD TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ NHÓM L06 07 TP HCM, 0[.]
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG TM TM BÁO CÁO BÀI TẬP LỚN ĐẠI SỐ TUYẾN TÍNH GVHD: TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ NHÓM: L06-07 TP HCM, 04/05/2022 DANH SÁCH THÀNH VIÊN NHĨM 07 STT HỌ VÀ TÊN MSSV Lương Đình Khoa 2113755 Dương Phước Lộc 2110341 Trần Thụy Thùy Ngân 2110380 Nguyễn Quang Phong 2114401 Trần Đoàn Nhật Vy 2115357 Lê Anh Tuấn 2112576 GHI CHÚ NHẬN XÉT CỦA GVHD: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………… TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022 Chữ ký Giáo viên hướng dẫn Đặng Văn Vinh MỤC LỤC PHẦN I: PHƯƠNG PHAP PHÂN TICH THANH PHẦN CHINH PCA Sơ lươc vê phương pháp PCA Một sô thuật khái niêm tốn thơng kê Cơ sơ lí thuyêt Các bước phân tích PCA Mơ phong thuật tốn Nhươc điêm cua phương pháp PCA Một sô ưng dụng linh vưc khác PHẦN II: ƯNG DUNG PCA TRONG HÔI QUY TUYÊN TINH Định nghia hồi quy tuyên tính Mô ta thuật toán Ví dụ minh hoa 10 PHẦN III: TAI LIỆU THAM KHẢO 12 ĐỀ TÀI: PHÂN TÍCH THÀNH PHÂN CHÍNH (PCA: PRINCIPLE COMPONENT ANALYSIS) ỨNG DỤNG CỦA PHÂN TÍCH PCA ĐÊ HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION) PHÂN I: PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHÂN CHÍNH PCA Sơ lươc vê phương pháp PCA a Trong công tác nghiên cưu thưc tê, ta thu thập đươc liêu đươc thê hiên dạng nhiêu giá trị cua nhiêu cá thê Những giá trị tạo thành “đám mây liêu” hêt sưc phưc tạp viêc phân tích thơng tin từ gặp nhiêu khó khăn b Đê giai quyêt khó khăn ta cần có phương pháp giúp ta nhìn rõ sư tương quan cua giá trị liêu với nhau, từ đưa đươc liên kêt ẩn cua chiêu làm viêc với chiêu hiêu qua có thê Với ý tương ta xây dưng đươc phương pháp phân tính thành phần PCA (Principle Component Analysis) Phương pháp đóng vai trị vơ quan trong ngành khoa hoc, kỹ thuật, thông kê, kinh tê… c Động lưc nghiên cưu PCA: Giam đươc sô chiêu cua liêu PCA xây dưng khơng gian chiêu biêu diễn liêu tôt tương đương không gian cũ Trong không gian liên kêt liêu tiêm ẩn mà khơng gian cũ khó phát hiên có thê đươc khám phá dễ dàng Môt sô tht khái niêm tốn thơng kê a = b Kì vọng (Me an): giá t rị mong mn, bi di ễn gi trị trung bì nh cua biên: + +…+ Đô lêch chuẩn (Standard Deviation): thuật ngữ đê đo tính biên động cua giá trị, cho thấy sư chênh lêch vê giá trị cua thời điêm đánh giá so với giá = − trị trung bình: c Phương sai (Variance): đại lương đặc trưng cho sư phân tán cua liêu so với giá trị trung bình, từ dễ dàng= hình( −dung) đươc liêu ta xét: d Hiêp phương sai (Covariance): đại lương đo sư biên thiên cua hai biên ngẫu nhiên (khác với phương sai – đo sư biên thiên đôi với biên) Ký hiêu: cov(x,y) e Cov(x,y) = − − Ma trân hiêp phương sai: Đôi với viêc thông kê, ta cần thuật ngữ đê thê hiên đầy đu phương sai hiêp phương sai cua biên với Từ đó, ta tạo một× ma trận hiêp phương sai cua m biên ngẫu nhiên ma trận vuông (m m), đó, phần từ nằm đường chéo (từ trái sang phai, từ xuông dưới) lần lươt phương sai tương ưng cua biên, phần tử cịn lại (khơng nằm đường chéo) hiệp phương sai cua đôi hai biên ngẫu nhiên khác tập hơp Cơ sơ li thuyêt a Nhân xét Với ý tương ban đầu, ta hy vong tạo không gian nho mà có thê lưu giữ lại thơng tin quan Nhưng khó đê ta cân nhắc xem có thê giam đươc chiêu chiêu Do đó, cần xây dưng thuật ngữ phương sai hay goi độ phân tán cua liêu Dưa sư so sánh phương sai chiêu, ta đên khía cạnh quan - lương thơng tin có chiêu Từ đó, ta có thê bo≈ qua chiêu khơng quan - có phương sai cua chúng không đáng kê ( 0) Theo định nghia phương sai, phương sai cua bang sô liêu ban đầu X có giá trị định, tổng phương sai theo chiêu Dữ liêu ban đầu X (D chiêu) có phương sai đáng kê tất ca chiêu, có thê nói chiêu ban đầu cua liêu X có mưc độ quan định, ta khơng thê bo qua chiêu cua Vì vậy, ta cần sô phép biên đổi đê xoay chiêu liêu X cho đên có K chiêu đê có đươc phương sai lớn Vì phương sai cua liêu X khơng đổi, ta có thê nói (D – K) chiêu cịn lại tầm quan nho (phương sai không đáng kê) ta có thê bo qua chiêu Ci cùng, ta có thê biêu diễn X sơ với "tổn thất" khơng gian có chiêu nho b Phương sai lớn Mục tiêu cần có chon phép biên đổi tuyên tính P cua V cho phương sai anh cua X qua phép biên đổi lớn Giá trị trung bình cua liêu là: = Đê đơn gian, uta xét phép biên=đổi P lên không gian chiêu đươc sinh bơi vecto đơn vị 1, tưc + +…+ Phương sai cua anh cua X qua phép biên đổi là: { với: − }= = − = − ( −) − Tìm giá trị lớn cua = 1với 1u1 = Sử dụng phương pháp nhân tử Lagrange cua giai tích hàm nhiêu biên, ta có: L= - (1- )=0u Điêm dừng xay.ra trị riêng cua S va vecto riêng cua S tương ưng với trị riêngu Vecto riêng đươc goi thành phần thư Các bước phân tich PCA Bước 1: Tính giá trị trung bình cua X N-1 Bước 2: Tính vectơ X = X -X X X Tính ma trận hiêp phương sai S= Bước 3: Tìm trị riêng cua S xêp theo giá trị giam dần λ1 > λ > …>λm tìm vectơ riêng đơn vị ưng với giá trị riêng Bước 4: Chon trị riêng ban đầu vectơ riêng đơn vị ưng với trị riêng Lập ma trận A có cột làXvectơ chonX Ma trận A phép biên đổi cần tìm Bước 5: Tính anh cua vectơ Mơ phong tht tốn Nhươc điêm cua phương pháp PCA a Gia thuyêt vê đô quan trọng cua chiêu liêu: mơ hình PCA dưa gia thiêt chiêu quan liêu chiêu có phương sai độ liêu lớn Tuy nhiên thưc tê khơng phai lúc chiêu phân bơ liêu lớn mang lại hiêu qua tôt cho viêc phân tích liêu b Nhay cam với sư nhiêu: nhiễu xuất hiên, độ lêch cua nhiễu mà chiêu có phương sai cua liêu lớn bị anh hương đáng kê c Thiêu sot thông tin: PCA giữ lại chiêu quan đôi với liêu, nhiên nêu có sai sót viêc chon sơ chiêu giữ lại lương thơng tin mà ta đánh sau q trình phân tích đáng kê Mơt sô ưng dung linh vưc khác Ưng dụng vào phân tích thị trường chưng khốn Giam dung lương liêu Công nghê thông tin Ưng dụng nhận diên khuôn mặt PHÂN II: ỨNG DỤNG PCA TRONG HỒI QUY TUYẾN TÍNH Đinh nghia quy tuyên tinh “Hồi quy tuyên tính” phương pháp thông kê đê hồi quy liêu với biên phụ thuộc có giá trị liên tục biên độc lập có thê có hai giá trị liên tục giá trị phân loại Nói cách khác “Hồi quy tun tính” phương pháp đê dư đoán biên phụ thuộc (Y) dưa giá trị cua biên độc lập (X) Nó có thê đươc sử dụng cho trường hơp muôn dư đốn sơ lương liên tục Ví dụ: Dư đoán thời gian người dùng dừng lại trang sơ trang truy cập website đó, dư đốn giao thơng cửa hàng bán le v.v… Mơ ta tht tốn Trong mơ hình hồi quy tun tính, đê tìm đươc đường thăng (hay mặt phăng) cuôi “khớp nhất” với liêu, ta phai thiêu đươc “sư sai khác” điêm liêu với điêm mà mơ hình hồi quy dư đốn Các tốn hồi thường đươc giai phương pháp “bình thương cưc tiêu” Ngồi ra, sơ mơ hình hồi quy tuyên tính đơn gian, PCA cung cấp cho ta định nghia cua dạng sai khác tổng bình phương khoang cách từ điêm liêu tới “mặt phăng” tạo bơi thành phần sau phân tích PCA, từ đưa hướng giai qut khác đê tìm đường thăng (mặt phăng) khớp Vi du minh họa function Bai_Tap_Lon_DSTT_3 clc close all clear all %Create random matrix Z=randn(1000,2); %Plot subplot(3,1,1); scatter(Z(:,1),Z(:,2),'k.'); title('Bieu dien cac diem cua ma tran bat ki tren thi'); grid on; %Prepare the data Z1=rand(2,2); X=Z*Z1; atb=mean(X); %Plot subplot(3,1,2); scatter(X(:,1),X(:,2),'b.'); title('Do thi cua du lieu'); grid on; 10 %PCA X2 = [mean(X(:, 1)), mean(X(:, 2))]; X3 = X - X2.*ones(1000,2); X4 = mean(X3); S = cov(X3); [P D] = eig(S); e1 = P(:,2); e2 = P(:,1); d1 = e1(2,1); d2 = e1(1,1); %Create function a = d1/d2; x1 = X4(1,1); y1 = X4(1,2); b = y1 - a*x1; fprintf('Phuong trinh hoi quy tuyen tinh là: y = %f*x + %f',a,b); %Plot x =[-4:0.02:4]; y = a*x + b; subplot(3,1,3); scatter(X(:,1),X(:,2),'b.') hold on plot(x,y,'r') title('Phuong trinh hoi quy tuyen tinh'); grid on end 11 PHÂN III: TÀI LIỆU THAM KHẢO Đặng Văn Vinh Giáo Trình Đại Sơ Tun Tính Nhà Xuất Ban Đại Hoc Qc Gia TP.Hồ Chí Minh, 2020 I.T Jolliffe Principal Component Analysis Springer, 2nd edition, 2002 Wikipedia contributors Principal component analysis – Wikipedia, the free encyclopedia, 2020 Naresh Kumar Advantages and disadvantages of principal component analysis in machine learning, the professionals point http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantagesof4.html,2020 G.Strang Introduction to Linear Algebra Wellesley-Cambridge Press, 2003 Wikipedia contributors Linear regression – Wikipedia, the free encyclopedia, 2020 Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên, Principal component analysis http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018 Machine Learning ban contributors Principal components analysis – Machine Learning ban, 2020 12