luận văn thạc sĩ một số mô hình phân tích thành phần chính ba chiều

Ph÷ìng sai cừamội chiÃu l phữỡng sai cừa thnh phƯn tữỡng ựng ữủc lĐy trản tonbở dỳ liằu.. Trong ch÷ìngn y, chóng tỉi s³ trẳnh by vÃ phƠn tẵch hai chiÃu, phƠn tẵch giĂ tr kẳ d, phƠn tẵcht

Ma trên

ành nghắa 1.1.1 Ma trên cù m ì n l mởt bÊng gỗm mn số thỹc ữủc sưp xáp th nh m dỏng v n cởt Ma trên A cù m ì n thữớng ữủc kẵ hiằu nhữ sau:

Ma trận A = (a_ij) là một ma trận với các phần tử a_ij là tỷ lệ của ma trận trên nơm trản dỏng Với m = n, ma trận này được gọi là ma trận vuông cấp m Các phần tử a_11, a_22, , a_mm được gọi là các phần tử chéo chính của ma trận Ma trận ỡn và cấp n là ma trận vuông cấp n có mỗi phần tử nơm trản ữớng ch²o chẵnh bằng 1, trong khi các phần tử khác bằng 0 Ta có thể hiểu ma trận ỡn và cấp n là I_n, với n là số chiều của ma trận.

Trong trữớng hủp khổng cƯn chú ỵ án cĐp cừa ma trên, ta kẵ hiằu ma trên ỡn và bði

I ành nghắa 1.1.3 Ma trên ữớng ch²o l ma trên vuổng cõ cĂc phƯn tỷ nơm ngo i ữớng ch²o chẵnh bơng 0 Ma trên ữớng ch²o D cõ dÔng nhữ sau

Ta thữớng kẵ hiằu ma trên ữớng ch²o bði diag (a 11 , a 22 , , a nn ) vợi a 11 , a 22 , , a nn l cĂc phƯn tỷ nơm trản ữớng ch²o chẵnh.

Ma trận có thể mở rộng được gọi là ma trận dọc Ma trận có thể mở rộng được gọi là ma trận cột Định nghĩa 1.1.4: Ma trận vuông A có thể mở rộng được gọi là ma trận nghịch đảo tồn tại khi ma trận vuông B có thể thỏa mãn AB = BA = I_n Khi B được gọi là ma trận nghịch đảo của A, thì A được ký hiệu là A^(-1) Định nghĩa 1.1.5: Cho ma trận A = (a_ij) m x n Ma trận chuyển vị của A, ký hiệu A^T, là ma trận được xác định bởi A^T = (a_ji) n x m.

Ma trên vuổng A ữủc gồi l ối xựng náu A T = A , v ữủc gồi l ma trên phÊn ối xựng náu A T = −A ành nghắa 1.1.6 Ma trên vuổng A ữủc gồi l ma trên trỹc giao náu A T A = AA T =

Để tính định thức của ma trận A cấp n, công thức được sử dụng là det(A) = a11A11 + a12A12 + + a1nA1n, trong đó Aik = (-1)^(i+k) det(Mik) và Mik là

Tứ ành nghắa 1.1.7, ta cõ

Định thức của ma trận A được tính bằng công thức det(A) = ad - bc Đối với ma trận A có kích thước m x n với 1 ≤ s ≤ min(m, n), các phần tử trong ma trận con cấp s được xác định từ ma trận A Ma trận con cấp s của A là ma trận có kích thước s x s được tạo ra từ các phần tử của A Đặc biệt, ma trận con cấp cao nhất khác 0 của A được gọi là ma trận con cấp s của A.

Mởt ma trên A cõ thº cõ nhiãu ành thực con cỡ sð cũng cĐp.

HÔng cừa ma trên A l cĐp cừa ành thực con cỡ sð Kẵ hiằu hÔng cừa ma trên A l rank(A)

Tứ ành nghắa 1.1.9, ta cõ nhêt x²t sau.

Nhên x²t 1.1.1 Cho A l ma trên cĐp m ì n , B l ma trên cĐp n ì p (i) Náu rank(B) = n thẳ rank(A.B) = rank(A)

Náu rank(A) = n thẳ rank(A.B) = rank(B) Định nghĩa 1.1.10 cho thấy rằng vát cừa ma trên vuông A có thể xác định bờ tường các phân tỷ trản ướng cho chính cừa ma trên A, và vữc kẵ hiằu l T r(A).

V²ctỡ riảng GiĂ trà riảng GiĂ trà kẳ dà

ành nghắa 1.2.1 Cho A l ma trên vuổng cĐp n Khi õ a thực bêc n cừa bián λ ữủc xĂc ành nhữ sau

Mỗi ma trận A trên không gian R^n có các giá trị riêng λ được gọi là các giá trị riêng của ma trận A Các vector riêng u tương ứng với giá trị riêng λ được xác định qua phương trình Au = λu.

Tứ ành nghắa 1.2.1, ta cõ nhên x²t sau.

Nhên x²t 1.2.1 (i) Náu λ l mởt giĂ trà riảng cừa A thẳ det(A − λI) = 0 Khi õ hằ phữỡng trẳnh thuƯn nhĐt

(ii) Mội giĂ trà riảng cõ thº cõ nhiãu v²ctỡ riảng.

(iii) Mội v²ctỡ riảng ch¿ ựng vợi mởt giĂ trà riảng duy nhĐt.

Náu λ = 0 l mởt giĂ trà riảng cừa ma trên A thẳ A khổng khÊ nghàch Ngữủc lÔi, náu mồi giĂ trà riảng cừa A ãu khĂc 0 thẳ ma trên A khÊ nghàch Ảnh lỵ 1.2.1 (ảnh lẵ phờ cừa ma trên ối xựng) cho A l ma trên ối xựng cĐp n Khi â, mồi giĂ trà riảng cừa ma trên A ãu l số thỹc.

(ii) Tỗn tÔi ma trên ữớng ch²o D cĐp n v ma trên trỹc giao U cĐp n sao cho

A = U DU T , trong õ cĂc phƯn tỷ nơm trản ữớng ch²o chẵnh cừa D l cĂc giĂ trà riảng cừa

A , v cĂc v²ctỡ cởt cừa U l cĂc v²ctỡ riảng cừa A tữỡng ựng vợi cĂc giĂ trà riảng õ Tực l , náu

Giả sử λ là một giá trị riêng và u là một vectơ riêng của ma trận A Khi đó, tồn tại một vectơ thực, khác không, sao cho Au = λu Bằng cách chuẩn hóa vectơ u sao cho u^T u = 1, ta có thể xác định λ = u^T A u là một số thực.

(ii) Ta s³ chựng minh (ii) bơng phữỡng phĂp quy nÔp toĂn hồc.

Với n = 1, kết quả trả về là một ma trận Giả sử kết quả trả về vỏn vẹn một ma trận trên không gian cấp nhỏ hơn hoặc bằng n - 1, ta sẽ chứng minh kết quả trả về trong trường hợp ma trận A là ma trận đối xứng cấp n Xét P(t) = det(tI - A) là một hàm thực có bậc bằng n Theo định lý cơ sở bên cạnh số, hàm thực P(t) sẽ có n nghiệm là λ1, λ2, , λn, và chính là các giá trị riêng của ma trận A Với λ1 là một giá trị riêng của A và u1 là một vectơ riêng tương ứng Sử dụng phép biến đổi trực giao Gram-Schmidt, ta có thể tìm được ma trận V1 có cấp n - 1 sao cho [u1, V1] là một ma trận trực giao Ta có V1T AV1 là ma trận trên không gian cấp (n - 1) Khi đó, theo quy tắc chuẩn hóa, ta có thể viết V1T AV1 = Q1 D1 QT1, trong đó

D 1 = diag (λ 2 , λ 3 , , λ n ) l ma trên ữớng ch²o vợi cĂc λ 2 , λ 3 , , λ n l (n − 1) giĂ trà riảng cừa A v Q 1 l ma trên trỹc giao cĐp (n − 1) gỗm (n − 1) v²ctỡ riảng cõa V 1 T AV 1 t÷ìng ùng.

Ta ành nghắa ma trên U 1 cĐp n ì (n − 1) bði U 1 = V 1 Q 1 Khi õ U = u 1 U 1 l ma trên trỹc giao Ta cõ

Ma trận A là ma trận vuông, với D = diag (λ1, λ2, , λn) là dạng chuẩn của nó Khi A là ma trận trên cùng một không gian, thì ma trận A^T A sẽ là một số thực không âm.

Chứng minh rằng A T A là ma trận đối xứng Theo định nghĩa về ma trận đối xứng, ta có thể thấy rằng A T A luôn là một ma trận đối xứng Với mọi ma trận A, ma trận A T A sẽ có các thuộc tính đối xứng rõ ràng.

A T A , tỗn tÔi mởt v²ctỡ riảng tữỡng ựng v (chồn v sao cho v l v²ctỡ ỡn và) sao cho

0 ≤ kAvk 2 = (Av) T (Av) = v T A T Av = v T λv = λ kvk 2 = λ.

Trong bài viết này, chúng ta sẽ khám phá ý nghĩa và giá trị của các giá trị riêng trong ma trận Định nghĩa 1.2.2 chỉ ra rằng cho ma trận A với kích thước m ≥ n, các giá trị riêng λ1, λ2, , λn là các giá trị đặc trưng của ma trận A^T A Các giá trị σi = √λi, với i = 1, n, được gọi là các giá trị kỳ dị của ma trận A.

Tẵch cõ hữợng cừa cĂc v²ctỡ Tẵch Kronecker v tẵch Katri-Rao cừa cĂc

Tích Kronecker của hai vectơ a và b được định nghĩa là a ◦ b = ab^T, trong đó a = [a₁, a₂, , aₘ] và b = [b₁, b₂, , bₙ] Đối với hai ma trận A = [aᵢⱼ] và B = [bᵢⱼ], tích Kronecker của chúng sẽ tạo ra một ma trận mới với kích thước m×n, trong đó mỗi phần tử của A được nhân với toàn bộ ma trận B.

A v B l ma trên cù (mp ì nq) , kẵ hiằu l A ⊗ B , v ữủc ành nghắa nhữ sau:

Theo định nghĩa, tích Khatri-Rao của hai ma trận A và B là một ma trận mới có kích thước bằng tích của các kích thước của A và B Cụ thể, nếu A có kích thước p × q và B cũng có kích thước p × q, thì tích Khatri-Rao K của A và B sẽ có kích thước p × q Để thực hiện phép tích Khatri-Rao, cho hai ma trận A = [a₁, a₂, , aₖ] và B = [b₁, b₂, , bₖ], kết quả sẽ là ma trận K có kích thước bằng số hàng của A và B, với mỗi cột của K được xây dựng từ các cột tương ứng của A và B.

A B , v ữủc ành nghắa nhữ sau:

MậT Sẩ Mặ HNH PHN TCH HAI CHIU V ÙNG DệNG

Trong nghiên cứu này, chúng tôi trình bày phương pháp tách giá trị chính (SVD) và phương pháp tách thành phần chính (PCA) của ma trận và một số ứng dụng của hai mô hình này Các kết quả trong nghiên cứu này được trích dẫn từ các tài liệu [2,3,8,11,13].

Mð ¦u

Cho X l ma trên thỹc cù m ì n Mổ hẳnh phƠn tẵch hai chiãu cừa ma trên X ữủc mổ tÊ nhữ sau:

X i=1 a i ◦ b i + E, (2.1) trong õ E ∈ R mìn l ma trên dữ, A ∈ R mìr v B ∈ R nìr l cĂc ma trên cõ cĂc cởt t÷ìng ùng l a 1 , , a r v b 1 , , b r

Lữu ỵ rơng và các cởt cừa ma trên a i ◦ b i có thể được xác định thông qua rank (a i ◦ b i ) = 1 khi a i và b i đồng thời khẳng định Trong bối cảnh này, ma trên X được phân tách thành các ma trên cõ hÔng 1 và ma trên dữ E Nếu E = O, thì thẳ c°p (A, B) được coi là nghiằm úng tốt nhĐt của (2.1).

X = AB T Náu E 6= O mìn thẳ AB T ữủc gồi l xĐp x¿ hÔng r cừa X

Náu (A, B) l mởt nghiằm cừa (2.1) m kEk 2 = P i,j e 2 ij nhọ nhĐt thẳ (A, B) ữủc gồi l nghiằm tối ữu cừa (2.1) v AB T tữỡng ựng ữủc gồi l xĐp x¿ hÔng r tốt nhĐt cõa X PhƠn tẵch (2.1) ữủc mổ tÊ bơng hẳnh Ênh nhữ sau.

Phân tách hai chiều tối ưu của một hàm thường được thực hiện thông qua phương pháp phân tách chính dựa trên phương pháp phân tách giá trị kề dày.

PhƠn tẵch giĂ trà kẳ dà (SVD)

PhƠn tẵch giĂ trà kẳ dà

ành nghắa 2.2.1 Cho X l ma trên cù m ì n vợi m ≥ n , rank(X) = r , r ≤ n Ma trên X ữủc gồi l cõ phƠn tẵch giĂ trà kẳ dà náu X ữủc phƠn tẵch th nh dÔng

X = U SV T , (2.2) trong õ U l ma trên cù m ì n vợi U T U = I n , V l ma trên trỹc giao cĐp n , v

S = diag(σ 1 , , σ n ) vợi σ 1 ≥ ≥ σ n ≥ 0 l cĂc giĂ trà kẳ dà cừa X

Các vectơ cột của ma trận U ứng với các vectơ trái của X, trong khi các vectơ cột của ma trận V ứng với các vectơ phải của X SVD của một ma trận X luôn tồn tại.

Chứng minh rằng các giá trị riêng λ1, λ2, , λn của ma trận XTX là các giá trị thực không âm Theo định lý về giá trị riêng của ma trận, tồn tại ma trận V = h v1 v2 vn ∈ Rn×n sao cho

Khổng mĐt tẵnh tờng quĂt, giÊ sỷ tỗn tÔi r ≤ n sao cho λ 1 ≥ λ 2 ≥ ≥ λ r > 0 v λ r+1 = = λ n = 0 Khi â

Trong bài viết này, chúng ta xem xét các vectơ chuẩn hóa trong không gian R^n Đối với mọi i ≥ r + 1, ta có σ_i = √λ_i với i = 1, n Khi đó, các giá trị σ được sắp xếp theo thứ tự σ_1 ≥ σ_2 ≥ ≥ σ_r và σ_j = 0 cho r + 1 ≤ j ≤ n Đối với mỗi i thuộc {1, 2, , r}, ta xác định u_i = σ^(-1)_i Xv_i, dẫn đến các vectơ u_1, u_2, , u_r thuộc R^m có chuẩn bậc 1 Chúng ta bổ sung vào tập hợp {u_1, u_2, , u_r} các vectơ u_{r+1}, , u_n thuộc R^m sao cho các vectơ u_1, , u_n tạo thành một cơ sở chuẩn của R^n Cuối cùng, ma trận U được định nghĩa là U = (u_1, u_2, , u_n) với điều kiện U^T U = I_n.

Ta chựng minh X = U SV T , hay XV = U S Thêt vêy, vợi mội i > r , vẳ X T Xv i = 0 nản kXv i k 2 = v i T X T v i = 0 Do õ Xv i = 0 v

Trong trữớng hủp rank (X) = r < n , thẳ SVD cừa X cõ dÔng ch°t cửt nhữ sau:

X = U r S r V r T, trong đó U r, V r là các ma trận lân cận được tạo bởi các cởt ưu tiểu của U, V và S r là ma trận lân cận trên con đường r Khai triển (2.3) được gọi là phân tách SVD, thể hiện cấu trúc của X.

Thuêt toĂn tẳm SVD cừa mởt ma trên

Cho X l ma trên cù m ì n , vợi m ≥ n º tẳm SVD cừa ma trên X , chúng ta thỹc hiằn cĂc bữợc sau.

• Bữợc 1 Tẵnh ma trên X T X v giÊi phữỡng trẳnh det X T X − λI

= 0 º tẳm cĂc giĂ trà riảng λ 1 ≥ λ 2 ≥ ≥ λ n ≥ 0 cừa ma trên X T X Tứ õ suy ra cĂc giĂ trà kẳ dà cừa X l σ i = √ λ i , i = 1, n v S = diag (σ 1 , σ 2 , , σ n )

• Bữợc 2 Tữỡng ựng vợi mội giĂ trà riảng λ i , tẳm v²ctỡ riảng v i ∈ R n sao cho

X T X − λI v i = 0 Tứ õ tẳm ữủc ma trên trỹc giao V cĐp n chựa cĂc v²ctỡ kẳ dà phÊi cừa X

• Bữợc 3 XĂc ành cĂc v²ctỡ kẳ dà trĂi cừa X theo cổng thực u i = 1 σ i

Bờ sung n − r v²ctỡ u r+1 , , u n v o hằ {u 1 , u 2 , , u r } sao cho {u 1 , u 2 , , u n } lêp th nh mởt cỡ sð trỹc chuân cừa R n Tứ õ nhên ữủc ma trên trỹc giao U chựa cĂc v²ctỡ kẳ dà trĂi cừa X , v

X = U SV T l phƠn tẵch SVD cừa ma trên X

Vẵ dử

Vẵ dử 2.2.1 Tẳm SVD cừa ma trên X =

Bữợc 1: Tẳm cĂc giĂ trà kẳ dà cừa ma trên X

GiÊi phữỡng trẳnh det(X T X − λI) = 0 , ta tẳm ữủc cĂc giĂ trà riảng λ cừa X T X l λ 1 = 2, λ 2 = 1 Do õ cĂc giĂ trà kẳ dà cừa X l σ 1 = √

Bữợc 2: Tẳm ma trên V GiÊi phữỡng trẳnh (X T X − λI)v = 0 ta tẳm ữủc cĂc v²ctỡ riảng tữỡng ựng l v 1 =

Vêy phƠn tẵch SVD cừa ma trên X l

Mởt số tẵnh chĐt cừa ma trên liản quan án SVD cừa nõ

nâ ành lỵ 2.2.2 HÔng cừa mởt ma trên bơng số cĂc giĂ trà kẳ dà khĂc khổng cừa nõ.

Chứng minh rằng với ma trận \( X \in \mathbb{R}^{m \times n} \) có hạng \( r \) và \( m \geq n \), ta có phân tách SVD là \( X = U S V^T \), trong đó \( U_r = [u_1, u_2, \ldots, u_r] \) và \( V_r = [v_1, v_2, \ldots, v_r] \) Theo tính chất của ma trận, ta có \( \text{rank}(U_r) = \text{rank}(U_r U_r^T) = \text{rank}(I_r) = r \) và \( \text{rank}(V_r) = \text{rank}(V_r V_r^T) = \text{rank}(I_r) = r \).

Do õ, theo Nhên x²t 1.1.1, ta cõ rank(X) = rank(U SV T ) = rank(U r SV r T ) = rank(SV r T ) = rank(S) = r. ành lỵ 2.2.3 Cho X l ma trên cù m ì n GiÊ sỷ X cõ phƠn tẵch SVD dữợi dÔng khai triºn l

X = σ 1 u 1 v 1 T + + σ r u r v r T Vợi k l số nguyản dữỡng thọa k ≤ r , °t X k = σ 1 u 1 v 1 T + + σ k u k v T k Khi õ rank(X k ) = k

Chựng minh ữa X k vã dÔng

M°t khĂc, do rank (diag (σ 1 , σ 2 , , σ k )) = rank (v 1 , v 2 , , v k ) nản rank σ 1 v 1 T , σ 2 v 2 T , , σ k v T k

PhƠn tẵch th nh phƯn chẵnh (PCA)

ị tữðng

Giá trị dữ liệu ban đầu x ∈ R m và dữ liệu được giảm chiều l z ∈ R r với r < m Cách chọn giá trị giảm nhất cho dữ liệu từ m và r < m là cần thiết để đảm bảo tính tương quan giữa các chiều dữ liệu Có hai câu hỏi được đặt ra: Câu hỏi thứ nhất, làm thế nào để xác định tương quan của mọi chiều dữ liệu? Câu hỏi thứ hai, nếu tìm tương quan của các chiều dữ liệu là như nhau, ta cần bỏ chiều nào? Để trả lời câu hỏi thứ nhất, ta quan sát Hình 2.2a Giá trị các điểm dữ liệu có thể nằm trong hai phân thực (phương đứng) giống hệt nhau hoặc sai khác nhau rất ít (phương sai nhỏ) Như vậy, các điểm này hoàn toàn có thể được liên kết, và ta ngầm hiểu rằng chúng sẽ được xếp xó bề mặt của các phân thực Ngược lại, việc làm này nếu được áp dụng lên các phân thực (phương ngang) sẽ khiến lượng thông tin bị mất đi rất nhiều do sai số xếp xó quá lớn Vì vậy, lượng thông tin theo mỗi phân thực có thể được coi là một bề mặt phương sai của dữ liệu trên phân thực đó.

Cơ hội thực hiện tưởng tượng với trường hợp Hình 2.2b cho thấy trong cả hai chiều, phương sai của dữ liệu rất lớn, việc bị mởt trong hai chiều dẫn đến việc lưu trữ thông tin bị ảnh hưởng nghiêm trọng Tuy nhiên, quan sát ban đầu cho thấy chúng ta cần chú ý đến một góc phù hợp, trong đó một trong hai chiều dữ liệu có thể giữ được sự ổn định và dữ liệu có xu hướng phân bố xung quanh một hướng nhất định.

Hẳnh 2.2: Vẵ dử vã phữỡng sai cừa dỳ liằu trong khổng gian hai chiãu (a) Chiãu thự hai cõ phữỡng sai (t¿ lằ vợi ở rởng cừa ữớng hẳnh chuổng) nhọ hỡn chiãu thự nhĐt (b) CÊ hai chiãu cõ phữỡng sai Ăng kº Phữỡng sai cừa mội chiãu l phữỡng sai cừa th nh phƯn tữỡng ựng ữủc lĐy trản to n bở dỳ liằu Phữỡng sai t¿ lằ thuên vợi ở phƠn tĂn cừa dỳ liằu. ị tữðng chẵnh cừa PCA: Tẳm mởt hằ trỹc chuân mợi sao cho trong hằ n y, cĂc th nh phƯn quan trồng nhĐt nơm trong r th nh phƯn Ưu tiản.

PCA là một phương pháp giảm chiều dữ liệu thông qua việc xoay trục tọa độ, nhằm tối ưu hóa sự phân tán của dữ liệu trong không gian mới Phương pháp này giúp tập trung thông tin vào các thành phần chính, từ đó giảm thiểu thông tin dư thừa và giữ lại những yếu tố quan trọng nhất.

PhƠn tẵch th nh phƯn chẵnh

Để chuẩn hóa dữ liệu X ∈ R, cần thực hiện các bước sao cho mỗi cột có giá trị trung bình bằng 0 và phương sai bằng 1 Phân tích thành phần chính (PCA) sẽ được áp dụng cho X, với các thành phần chính được xác định trên các trục A ∈ R m và B ∈ R n, nhằm mục đích biểu diễn dữ liệu một cách hiệu quả và giảm thiểu chiều không gian.

X = AB T + E, trong đó A là ma trận chứa các thành phần chính, và các cột của nó là các thành phần chính Ma trận B là ma trận tải, các tải trọng là các hệ số cho phép tạo ra các biến quan sát từ các thành phần chính Cặp (A, B) được gọi là nghiềm PCA, giúp giảm chiều dữ liệu và tối ưu hóa thông tin.

Ngo i ra, PCA ữủc trẳnh b y theo mởt cĂch khĂc dữợi dÔng v²ctỡ nhữ sau:

X i=1 a i b T i + E. iãu n y cho thĐy PCA l xĐp x¿ X vợi tờng cừa r ma trên cõ hÔng 1.

Mửc tiảu cừa PCA l l m giÊm tối thiºu kE k 2 =

Trong phân tích ma trận, ta có thể nhận thấy rằng hạng của ma trận \( AB^T \) không vượt quá hạng của ma trận \( X \) Điều này có nghĩa là hạng của ma trận \( U_r S_r (V_r)^T \) cũng không vượt quá hạng của \( X \) Số lượng thành phần tối thiểu cần thiết để biểu diễn \( X \) là số lượng giá trị riêng khác 0 của \( X \), hay hạng của \( X \) Do đó, không nhất thiết phải lấy số thành phần \( r \) lớn hơn số lượng biến \( n \) Trên thực tế, \( r \) thường được chọn nhỏ hơn nhiều so với \( n \).

Để thực hiện phân tích chính xác trong SVD, cần xác định các giá trị riêng của ma trận X Phân tích ưu tiên các giá trị riêng lớn nhất sẽ giúp tối ưu hóa việc giảm chiều dữ liệu Khi tính toán, ta có thể sử dụng công thức tr(BB T) = tr(m - 1/2 S r^2), trong đó tr(S r^2) là tổng các giá trị riêng của ma trận r Điều này cho phép chúng ta hiểu rõ hơn về cấu trúc dữ liệu và các mối quan hệ giữa các thành phần trong ma trận X.

Tẳm cĂc th nh phƯn chẵnh cừa b i toĂn PCA thổng qua SVD 19

X²t mởt vectỡ x bĐt kẳ Th nh phƯn chẵnh l tờ hủp tuyán tẵnh s = m

P i=1 w i x i là phương pháp tối ưu hóa trong thống kê, giúp cải thiện độ chính xác của dữ liệu Với cách tiếp cận này, các thành phần chính được xác định nhằm tối ưu hóa kết quả, đồng thời giảm thiểu sai số Điều này đặc biệt quan trọng trong việc phân tích dữ liệu, nơi mà các biến quan sát có thể ảnh hưởng lớn đến kết quả cuối cùng.

Chúng ta cƯn ữa ra r ng buởc cho chuân cừa vectỡ w = (w 1 , w 2 , , w m ) º ỡn giÊn, chúng ta r ng buởc w cõ chuân bơng 1 , tực l kwk = v u u t m

Các bước khắc phục và giá trị chuẩn của chúng ta có thể đưa ra và rõ ràng phương sai của một tờ hộp tuyết tĩnh bất kỳ có thể được tính thông qua mà trên hiệp phương sai của dữ liệu Xét một tờ hộp tuyết tĩnh với T x = m.

P i=1 w i x i GiÊ sỷ giĂ trà trung bẳnh bơng 0 , tực l E {x} = 0 Khi õ

= w T Cw, trong â C = E xx T l ma trên hiằp phữỡng sai Vẳ vêy, b i toĂn cỡ bÊn PCA ữủc x¡c ành nh÷ sau: w:kwk=1 max w T Cw.

Với ma trận C và ma trận D = diag(λ₁, , λₙ), chúng ta có thể phân tích cấu trúc của ma trận trên không gian nản Điều này cho phép chúng ta hiểu rõ hơn về tính chất của ma trận trong không gian R.

C = UDU^T, trong đó λ1, , λn là các giá trị riêng của C, và các vectơ cởt của U là các vectơ riêng của C ứng với các giá trị riêng λ Thực hiện biến đổi v = U^T w Khi đó, ta nhận được w^T C w = w^T U D U^T w = v^T D v = n.

Với việc áp dụng quy tắc giao nản kvk = kwk, ta có thể thiết lập rằng r ng buởc kvk = 1 Tiếp tục thực hiện phép biến đổi m i = v 2 i, với i từ 1 đến n Khi r ng buởc kvk = 1, ta nhận thấy rằng r ng buởc m i ≥ 0 và tổng P n i=1 m i = 1 Cuối cùng, bài toán được chuyển sang dạng tối đa hóa.

Rõ ràng, bài toán cho thấy giá trị lợn Nhật tắm ướt khi môi trường ẩm ướt và các mối liên hệ với giá trị lợn Nhật bỗng 1 và các mối còn lại bỗng 0 Kết quả cho thấy sự biến động của giá trị lợn Nhật Điều này ảnh hưởng đến các yếu tố như biến động và ưu thế của vectơ giá trị thực tế.

U Nhữ vêy, th nh phƯn chẵnh Ưu tiản ữủc tẳm mởt cĂch dạ d ng thổng qua phƠn tẵch giĂ trà riảng.

Các vectơ riêng của ma trận được sử dụng trong việc tối ưu hóa phương sai cho phép xác định cấu trúc giao tiếp hiệu quả Điều này giúp tối ưu hóa các tham số để đạt được giá trị riêng lớn nhất Để thực hiện tối ưu hóa này, chúng ta cần đảm bảo rằng các vectơ riêng được sắp xếp theo thứ tự giảm dần Từ đó, bài toán tối ưu sẽ thu được kết quả tốt nhất khi áp dụng cho các vectơ riêng tương ứng với giá trị riêng lớn nhất Logic này cũng áp dụng cho các thành phần chính trong phân tích dữ liệu.

Để thực hiện phân tách thành phần chính, chúng ta cần xác định các vectơ riêng trong không gian U sao cho các giá trị riêng giảm dần Việc này giúp chúng ta hiểu rõ hơn về cấu trúc dữ liệu Khi thực hiện phân tách thành phần chính, ta có thể biểu diễn dữ liệu dưới dạng s_i = u^T_i x.

Lữu ỵ rơng tĐt cÊ cĂc λ i ãu khổng Ơm ối vợi ma trên hiằp phữỡng sai.

Tẵnh duy nhĐt nghiằm cừa PCA

ành lỵ 2.3.1 Náu (A, B) l mởt nghiằm cừa mổ hẳnh PCA thẳ (AQ, BQ) cụng l mởt nghiằm cừa mổ hẳnh PCA, vợi Q l ma trên trỹc giao cĐp r

Lúc n y, Q ữủc gồi l ph²p quay trỹc giao.

Chựng minh GiÊ sỷ (A, B) l mởt nghiằm cừa mổ hẳnh PCA.

Vợi Q l mởt ma trên trỹc giao cĐp r , tực l QQ T = Q T Q = I r , ta cõ

(AQ) (AQ) T = AQQ T A T = AI r A T = AA T = I m , v

Suy ra (AQ) l ma trên trỹc giao cù m ì r M°t kh¡c, ta câ

(AQ) (BQ) T = AQQ T B T = AI r B T = AB T , v

Vêy (AQ, BQ) l mởt nghiằm cừa mổ hẳnh PCA

Tứ ành lẵ 2.3.1 , ta cõ nhên x²t sau:

Nhên x²t 2.3.1 (i) Nghiằm (A, B) cừa PCA khổng duy nhĐt.

(ii) Ph²p quay trỹc giao Q s³ cho ta ma trên tÊi cõ cĐu trúc ỡn giÊn hỡn, do õ cĂc nhƠn tố s³ ữủc diạn giÊi dạ d ng hỡn.

Thuêt toĂn tẳm PCA cừa mởt ma trên

GiÊ sỷ X l ma trên cù m ì n , vợi m ≥ n º tẳm PCA cừa ma trên X , chúng ta thỹc hiằn cĂc bữợc sau:

• Bữợc 1: Tẳm SVD ch°t cửt cừa ma trên X , ta ữủc X = U r S r (V r ) T vợi r ≤ n

• Bữợc 2: Tẵnh ma trên A v B theo cổng thực sau:

• Bữợc 3: Náu nghiằm (A, B) chữa tốt thẳ chồn ph²p quay Q , vợi Q l ma trên trỹc giao cĐp r , ta tẳm ữủc nghiằm cừa mổ hẳnh PCA l (AQ, BQ)

ìu v nhữủc iºm cừa PCA

PCA cõ nhiãu °c tẵnh tốt

• Giúp giÊm số chiãu cừa dỳ liằu.

PCA xây dựng một không gian mới với chiều rộng hơn, giúp thể hiện rõ ràng các trục tọa độ ở cửa không gian cụ Những lối cỏ khê nông biểu diễn dữ liệu tốt, đảm bảo sự hiệu quả trong việc tối ưu hóa không gian cụ, đồng thời giảm thiểu sự biến thiên của dữ liệu trong không gian mới.

Các trục tọa ở trong không gian mới là hợp tuyến tính của không gian cụ, do đó, một ngữ nghĩa PCA xây dựng feature mới dựa trên các feature quan sát được Điều này giúp nhận diện những feature nổi bật và biểu diễn tốt dữ liệu ban đầu.

Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mở ra những cơ hội phát hiện rõ ràng hơn, hoặc những liên kết như thế có thể hiển thị rõ.

Bản cÔnh õ, PCA cụng cõ mởt v i hÔn chá sau

• Ch¿ l m viằc vợi dỳ liằu số (numeric).

• NhÔy cÊm vợi cĂc iºm nơm bản ngo i/cỹc trà (outlier/extreme).

• Khổng phũ hủp vợi mổi trữớng phi tuyán, do PCA ho n to n dỹa trản cĂc bián ời tuyán tẵnh.

Mởt số ựng dửng cừa SVD v PCA

Ùng dửng trong xỷ lẵ Ênh

Phân tách SVD là một phương pháp quan trọng trong lý thuyết và thực tiễn Một trong những ứng dụng chính của nó là sử dụng SVD trong hiểu chính xác hình ảnh số, giúp cải thiện khả năng truyền tải thông tin qua internet Trong một bức hình kỹ thuật số, mỗi điểm ảnh được thể hiện bằng ba giá trị màu: đỏ (red), xanh (blue), và lục (green), với các giá trị từ 0 đến 255 Do đó, với một hình ảnh có độ phân giải 960 x 1440 pixels, chúng ta cần lưu trữ 3 ma trận, tương đương với 4,147,200 số Tuy nhiên, trong thực tế, khi truyền tải hoặc lưu trữ thông tin hình ảnh, chúng ta có thể không cần đến toàn bộ hình ảnh, hoặc một số phần của các hình ảnh có thể bị loại bỏ Sử dụng phân tách SVD, chúng ta có thể loại bỏ rất nhiều thông tin không cần thiết.

Vẵ dử mởt hẳnh Ênh 960 ì 1440 pixels ữủc phƠn tẵch th nh ba ma trên X , Y , Z cõ cũng ở lợn 960 ì 1440 GiÊ sỷ X cõ phƠn tẵch SVD l

Theo ảnh 2.4.1, với mỗi giá trị k ≤ r, ma trận X có thể biểu diễn dưới dạng X = σ₁u₁v₁ᵀ + + σₖuₖvₖᵀ, trong đó σₖ là các giá trị riêng và uₖ, vₖ là các vectơ riêng tương ứng Với k = 20, ta cần lưu trữ 20 giá trị riêng, 20 vectơ uᵢ và 20 vectơ vᵢ, tổng cộng là 48.020 số Tương tự, đối với hai ma trận Y và Z, số lượng các số cần lưu trữ cho mỗi ma trận là 48.020, dẫn đến tổng số lượng là 144.060 Rõ ràng, phân tách SVD giúp giảm thiểu lượng thông tin cần lưu trữ một cách hiệu quả.

Bơng cĂch sỷ dửng phƯn mãm Matlab, chúng ta cõ thº hiằu ch¿nh ở n²t cừa hẳnh Ênh theo tham số k tũy chồn X²t vẵ dử sau:

Hẳnh 2.4: nh hiằu ch¿nh vợi k = 10

Ùng dửng trong Eigenface

Eigenface là một trong những phương pháp phổ biến nhất trong lĩnh vực nhận diện khuôn mặt Nó sử dụng các vector đặc trưng trong không gian chiều thấp hơn để đại diện cho khuôn mặt, giúp giảm thiểu số lượng dữ liệu cần thiết cho việc nhận diện Một ảnh khuôn mặt có kích thước khoảng 200x200 pixel sẽ tạo ra 40.000 chiều, trong khi đó, các vector đặc trưng thường chỉ có số chiều nhỏ hơn nhiều.

Eigenface thỹc ra chẵnh l PCA CĂc eigenfaces chẵnh l cĂc v²ctỡ riảng ựng vợi cĂc trà riảng lợn nhĐt cừa ma trên hiằp phữỡng sai.

Trong bài viết này, chúng tôi sẽ giới thiệu về cơ sở dữ liệu Yale Face, một bộ dữ liệu quan trọng trong lĩnh vực nhận diện khuôn mặt Bộ dữ liệu này bao gồm 15 người khác nhau, mỗi người có 11 bức ảnh thể hiện các trạng thái cảm xúc và điều kiện ánh sáng khác nhau, như: centerlight, glasses, happy, leftlight, noglasses, normal, rightlight, sad, sleepy, surprised, và wink Mỗi bức ảnh có kích thước 116 x 98 pixel, giúp tạo ra một nguồn tài nguyên phong phú cho nghiên cứu và phát triển trong lĩnh vực nhận diện khuôn mặt.

Hẳnh 2.8 dữợi Ơy l vẵ dử vã cĂc bực Ênh cừa ngữới cõ id l 10.

Hẳnh 2.8: Vẵ dử vã Ênh cừa mởt ngữới trong Yale Face Database

Ta có thể thấy rằng số chiều dài liệu là 116 và chiều rộng là 98, cho ra diện tích 11368, một số khá lớn Tuy nhiên, với tường có kích thước 15 và 11, diện tích chỉ đạt 165 Điều này cho thấy rằng diện tích của tường nhỏ hơn nhiều so với diện tích của liệu Trong ví dụ này, chúng ta đặt k = 100.

Hẳnh 2.9 dữợi Ơy biºu diạn 18 v²ctỡ riảng Ưu tiản tẳm ữủc bơng PCA CĂc v²ctỡ tẳm ữủc ð dÔng v²ctỡ cởt, ta cƯn phÊi phửc hỗi hẳnh dÔng chúng º cõ thº minh hoÔ nh÷ c¡c bùc £nh.

Hẳnh 2.9: CĂc eigenfaces tẳm ữủc bơng PCA

Eigenfaces là một phương pháp mạnh mẽ trong việc nhận diện khuôn mặt, cho phép thu thập và phân tích thông tin từ nhiều hình ảnh khác nhau của một người Qua việc áp dụng phân tích thành phần chính (PCA), chúng ta có thể trích xuất các đặc trưng chính từ các khuôn mặt, tạo ra những biểu diễn hiệu quả hơn cho không gian hình ảnh Kết quả của quá trình này giúp cải thiện độ chính xác trong việc nhận diện và phân loại khuôn mặt, đồng thời thể hiện rõ ràng các mối quan hệ giữa các đặc điểm khuôn mặt khác nhau.

Hẳnh 2.10: H ng trản: cĂc Ênh gốc H ng dữợi: cĂc Ênh ữủc suy ra tứ eigenfaces nh ð h ng dữợi cõ nhiãu nhiạu những văn mang nhỳng °c iºm riảng m mưt ngữới cõ thº phƠn biằt ữủc

Nhữ vêy, v²ctỡ vợi số chiãu k = 100 trong khổng gian mợi mang khĂ Ưy ừ thổng tin cừa v²ctỡ cõ số chiãu D = 11368 trong khổng gian ban Ưu.

MậT Sẩ Mặ HNH PHN TCH THNH PHN CHNH BA

Trong chữỡng n y, chúng tổi trẳnh b y vã Mổ hẳnh Cadecomp/Parafac (CP) v Mổ hẳnh Tucker3 CĂc kát quÊ trong chữỡng n y ữủc trẵch dăn tứ cĂc t i liằu [5,7,9,10].

MÊng ba chiãu

Ba loÔi v²ctỡ cừa mÊng ba chiãu

ành nghắa 3.1.3 Cho X l mÊng cù m ì n ì p Chúng ta ành nghắa ba loÔi v²ctỡ cõa X nh÷ sau:

(i) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự hai v thự ba ữủc gồi l cĂc v²ctỡ cởt, hay cĂc v²ctỡ mode- 1 , cừa X

(ii) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự nhĐt v thự ba ữủc gồi l cĂc v²ctỡ dỏng, hay cĂc v²ctỡ mode- 2 , cừa X

(iii) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự nhĐt v thự hai ữủc gồi l cĂc v²ctỡ lợp, hay cĂc v²ctỡ mode- 3 , cừa X

Hẳnh 3.2: CĂc v²ctỡ cởt, dỏng, v lợp

Ba loÔi lĂt cưt cừa mÊng ba chiãu

ành nghắa 3.1.4 Cho X l mÊng cù m ì n ì p Chúng ta ành nghắa ba loÔi lĂt cưt cõa X nh÷ sau.

(i) CĂc lĂt cưt theo chiãu 12 , kẵ hiằu X k (12) , k = 1, , p , l cĂc ma trên thu ữủc tứ

X bơng cách thay đổi hai chỉ số ưu tiên và giữ chỉ số cuối cũng cố ảnh Lật cút theo chiều 12 còn giữ gồi là lật cút chính diện và có dòng sau.

(ii) CĂc lĂt cưt theo chiãu 23 , kẵ hiằu X i (23) , i = 1, , m , l cĂc ma trên thu ữủc tứ

X bơng cĂch thay ời hai ch¿ số cuối v giỳ ch¿ số Ưu tiản cố ành LĂt cưt theo chiãu 23 cỏn ữủc gồi l lĂt cưt ngang v cõ dÔng sau

(iii) CĂc lĂt cưt theo chiãu 13 , kẵ hiằu X j (13) , j = 1, , n , l cĂc ma trên thu ữủc tứ

X bơng cĂch thay ời ch¿ số Ưu v ch¿ số thự ba, v giỳa ch¿ số thự hai cố ành.

LĂt cưt theo chiãu 13 cỏn ữủc gồi l lĂt cưt ựng v cõ dÔng sau

Hẳnh 3.3: CĂc lĂt cưt ngang, ựng, v chẵnh diằn

HÔng cừa mÊng ba chiãu

Náu X = a ◦ b ◦ c, với a = [a1, , am]T, b = [b1, , bm]T, c = [c1, , cm]T là các vectơ khác nhau, dẫn đến việc rank(X) = 1 Khi đó, mọi phần tử xijk của X được xác định bởi xijk = aibjc k Hằng của mảng ba chiều X là số nhỏ nhất của các mảng có hằng 1 sao cho tương đương chúng bằng X.

Tứ ảnh nghĩa 3.1.6 cho thấy sự tương tác giữa ảnh nghĩa hồng của mảng hai chiều và hồng của mảng ba chiều Tuy nhiên, việc xác định hồng của mảng ba chiều phức tạp hơn so với mảng hai chiều.

Năm 1989, Kruskal đã đưa ra một số tính chất đặc biệt của không gian ba chiều Ngoài ra, Kruskal cũng đã chứng minh một số khác biệt giữa không gian hai chiều và không gian ba chiều.

Hồng cừa mêng hai chiều được xác định bằng các thuật toán đơn giản, trong khi việc xác định hồng cừa mêng ba chiều lại phức tạp hơn Điều này cho thấy rằng các thuật toán trong không gian ba chiều cần phải được phát triển và tối ưu hóa để đạt được độ chính xác cao hơn.

Hằng số mảng hai chiều có kích thước nhỏ hơn hoặc bằng min(m, n), trong khi hằng số mảng ba chiều có kích thước không xác định, rất khó xác định và hằng số này có thể lớn hơn m, n, p Định nghĩa 3.1.7 cho X là mảng có kích thước m, n, p Hằng mode-i, k có thể hiểu là rank i (X), được định nghĩa là hằng số của tập các vectơ mode-i, với i = 1, 2, 3.

Vợi ma trên X , rank 1 (X ) l hÔng cởt, rank 2 (X ) l hÔng h ng.

Vợi mÊng ba chiãu X cõ cù m ì n ì p , ta cõ rank 1 (X) = rank x T jk = h x 1jk x mjk i T

; rank 3 (X) = rank x T ij = h x ij1 x ijp i T

Bảng ba (rank 1 (X), rank 2 (X), rank 3 (X)) được gọi là hàm số hình học của X Đối với mạng hai chiều X, ta có rank 1 (X) = rank 2 (X) = rank(X) Tuy nhiên, điều này không đúng cho mạng ba chiều.

Vẵ dử 3.1.1 Cho X l mÊng 2 ì 2 ì 2 vợi hai lĂt cưt chẵnh diằn

 Khi â, ta câ rank 1 (X) = rank

Nõi chung rank i (X ) khổng giống nhau vợi i = 1, 2, 3 Vẵ dử 3.1.2 Cho X l mởt mÊng cù 2 ì 2 ì 2 vợi hai lĂt cưt chẵnh diằn

 Khi â, ta câ rank 1 (X) = rank

Suy ra rank 1 (X ) = rank 2 (X ) = rank 3 (X) Tuy nhiản rank(X) = 3 Thêt vêy,

Trữớng hủp 1: GiÊ sỷ X biºu diạn ữủc dữợi dÔng

Hằ phữỡng trẳnh vổ nghiằm.

Trữớng hủp 2: GiÊ sỷ X biºu diạn ữủc dữợi dÔng

Tứ (6) v b 2 2 = 0 suy ra a 1 1 , b 1 2 , c 1 2 6= 0 M°t khĂc, tứ (7) v a 2 2 = 0 suy ra a 1 2 , b 1 1 , c 1 2 6= 0

Do õ a 1 2 b 1 2 c 1 2 + a 2 2 b 2 2 c 2 2 6= 0 Vêy (8) vổ nghiằm, k²o theo hằ phữỡng trẳnh trản vổ nghiằm Vẳ vêy, º hằ phữỡng trẳnh cõ nghiằm thẳ c 1 1 6= 0

Tữỡng tỹ, ta cõ c 2 1 , b 1 1 , b 2 1 , a 1 1 , a 2 1 6= 0 Náu b 1 1 6= 0 thẳ tứ (2) , (4) , (6) v (8) suy ra

Hằ vổ nghiằm Do õ hằ phữỡng trẳnh trản vổ nghiằm Vêy º hằ phữỡng trẳnh cõ nghiằm thẳ b 1 1 = 0 Tữỡng tỹ, b 2 2 = 0 Tứ õ suy ra (6) vổ nghiằm.

X = a 1 ◦ b 1 ◦ c 1 + a 2 ◦ b 2 ◦ c 2 Trữớng hủp 3: GiÊ sỷ X biºu diạn ữủc dữợi dÔng

 a 1 1 b 1 1 c 1 1 + a 2 1 b 2 1 c 2 1 + a 3 1 b 3 1 c 3 1 = −1 a 1 1 b 1 2 c 1 1 + a 2 1 b 2 2 c 2 1 + a 3 1 b 3 2 c 3 1 = 0 a 1 2 b 1 1 c 1 1 + a 2 2 b 2 1 c 2 1 + a 3 2 b 3 1 c 3 1 = 0 a 1 2 b 1 2 c 1 1 + a 2 2 b 2 2 c 2 1 + a 3 2 b 3 2 c 3 1 = 1 a 1 1 b 1 1 c 1 2 + a 2 1 b 2 1 c 2 2 + a 3 1 b 3 1 c 3 2 = 0 a 1 1 b 1 2 c 1 2 + a 2 1 b 2 2 c 2 2 + a 3 1 b 3 2 c 3 2 = 1 a 1 2 b 1 1 c 1 2 + a 2 2 b 2 1 c 2 2 + a 3 2 b 3 1 c 3 2 = 1 a 1 2 b 1 2 c 1 2 + a 2 2 b 2 2 c 2 2 + a 3 2 b 3 2 c 3 2 = 0 GiÊi hằ phữỡng trẳnh, ta chồn ữủc a 1 =

Mổ hẳnh Candecomp/Parafac (CP)

Mổ hẳnh

Năm 1970, Carroll đã giới thiệu mô hình PCA ba chiều, liên quan đến các phương pháp phân tách như Candecomp và Parafac Phân tách CP của một mảng ba chiều là phân tách mảng theo cách tương tự như các mảng hai chiều Mô hình CP là một phương pháp phân tách CP cho mảng dữ liệu Với một mảng X, mô hình CP có thể được diễn đạt như sau:

Y(t) + E, (3.1) trong đó E là mảng dữ liệu, q là số cho trước, a_t ∈ R^m, b_t ∈ R^n, c_t ∈ R^p là các vector có ở dạng bậc 1, g_t là trọng số của thành phần thứ t Y(t) = g_t (a_t ◦ b_t ◦ c_t) là các mảng hạng 1, gọi là các thành phần Cố gắng phân tách CP (3.1) có thể được thực hiện bằng cách giảm thiểu kEk_2 = P_ijk e^2_ijk Khi mổ hỏng CP (3.1) có thể thu được mổ tắt bằng hình ảnh như sau:

Hẳnh 3.4: PhƠn tẵch ba chiãu

Chúng ta kẵ hiằu A = [a 1 a q ] ∈ R mìq , B = [b 1 b q ] ∈ R nìq v C = [c 1 c q ] ∈

R pìq , gồi l cĂc ma trên th nh phƯn Khi õ chúng ta cõ thº ữa ra kẵ hiằu cho mổ hẳnh CP nhữ sau.

 g 1 c k1 a 11 b 11 + + g q c kq a 1q b 1q g 1 c k1 a 11 b n1 + + g q c kq a 1q b nq g 1 c k1 a 21 b 11 + + g q c kq a 2q b 1q g 1 c k1 a 21 b n1 + + g q c kq a 2q b nq

g 1 c k1 a m1 b 11 + + g q c kq a mq b 1q g 1 c k1 a m1 b n1 + + g q c kq a mq b nq

Do đó, khi xem xét các phương pháp trồng cây, chúng ta cần chú ý đến sự phát triển của từng loại cây, có thể là A, B hoặc C Ngoài ra, còn một phương pháp khác là viết mô hình CP thông qua việc sử dụng tách Khatri - Rao trong ba dòng dữ liệu ẩn.

Ró r ng cõ mởt sỹ tữỡng ỗng giỳa mổ hẳnh (2.1) v mổ hẳnh (3.1) cùng với Hẳnh (2.1) và Hẳnh (3.4) Ba (A, B, C) thọa mãn mổ hẳnh CP được gọi là nghiằm cừa mổ hẳnh CP hoặc xĐp x¿ hÔng q cừa X Các ma trên A, B, C được gọi là các ma trên th nh phƯn.

Náu q = rank(X) là mức độ tối ưu của CP trong khi náu q < rank(X) và kEk 2 nhọ nhĐt cho thấy CP tối ưu hóa hoặc xĐp x¿ hÔng q tốt nhất của X Do đó, hÔng cừa X là số q nhọ nhĐt để X có thể phân tách CP thành nhiều phần.

Thuêt toĂn tẳm nghiằm CP cừa mởt mÊng

Trong phần này, chúng ta có thể giới thiệu các trồng số trong mô hình (3.1) đã được đưa vào trong ma trận C Thuật toán đơn giản nhất phù hợp với mô hình CP được gọi là thuật toán bậc phương tối thiểu luân phiên (ALS), có giải thuật như sau:

• Bữợc 1 Khði tÔo vợi cĂc ma trên A , B , C bĐt kẳ, ta cõ: ε o = l (A, B, C ) = p

• Bữợc 2 Vợi B v C cố ành, tẳm A tốt nhĐt theo cổng thực sau:

• Bữợc 3 Vợi A v C cố ành, tẳm B tốt nhĐt theo cổng thực sau:

• Bữợc 4 Vợi A v B cố ành, tẳm C tốt nhĐt theo cổng thực sau: c k = (A B) T (A B) −1

• Bữợc 5 L°p lÔi cĂc bữợc 1, 2, 3, 4 cho án khi ε o < ε vợi ε > 0 cho trữợc n o â.

Vẵ dử

Cho X l mÊng cù 3 ì 3 ì 2 vợi hai lĂt cưt chẵnh diằn

Vợi q = 3 , bơng cĂch sỷ dửng phƯn mãm Matlab vợi ε = 10 −7 , ta nhên ữủc nghiằm

 , v cĂc trồng số tữỡng ựng l g 1 = 2258.674 , g 2 = 2324.58 , g 3 = 4579.80

Mổ hẳnh Tucker3

Mổ hẳnh

Nôm 1966, Tucker ữa ra mổ hẳnh Tucker3, ữủc ành nghắa nhữ sau

Mổ hẳnh CP (3.1) là trường hợp đặc biệt của mổ hẳnh Tucker3 Với các điều kiện q = r = s và g tuv = 0 khi (t, u, v) khác (t, t, t), mổ hẳnh (3.8) trở thành mổ hẳnh (3.1) Mềnh G thuộc R qìrìs với phần g tuv được gọi là mềnh nhƠn Thông thường, các ma trận A thuộc R mìq, B thuộc R nìr và C thuộc R pìs có thể được sử dụng để mô tả mối quan hệ giữa chúng trong mổ hẳnh Tucker3 Mổ hẳnh Tucker3 có thể được áp dụng để thực hiện các phép toán thực tế.

 a 1t b 1u a 1t b 2u a 1t b nu a 2t b 1u a 2t b 2u a 2t b nu a mt b 1u a mt b 2u a mt b nu

B T + E k (12) , trong õ G v ∈ R qìr l lĂt cưt chẵnh diằn thự v cừa G Tứ õ, chúng ta cõ thº viát mổ hẳnh Tucker3 dữợi dÔng ma trên nhữ sau:

G 1 ã ã ã G s i Khi õ, ta cõ thº mổ tÊ mội phƯn tỷ cừa X nhữ sau:

X v=1 a it b ju c kv g tuv Náu r = s = p v G l mÊng cĐp q ì q ì q siảu ch²o vợi q lĂt cưt chẵnh diằn sau

 , thẳ kẵ hiằu cừa mổ hẳnh CP (3.1) ữủc phĂt biºu lÔi dữợi dÔng X = (A, B, C ) G + E

Mổ hẳnh Tucker3 cõ thº ữủc thỹc hiằn bði thuêt toĂn ALS Vợi q ≤ m , r ≤ n , s ≤ p , mổ hẳnh Tucker3 s³ cho chúng ta mởt xĐp x¿ hÔng (q, r, s) a tuyán tẵnh tốt nhĐt cừa

Thuêt toĂn

°t X = X mìnp = X npìm T , trong õ X npìm ữủc xĂc ành nhữ trong (3.9) Nhớ Kroonenberg and De Leeuw (1980), mổ hẳnh Tucker3 trð nản phũ hủp bơng cĂch giÊm thiºu h m sau:

, (3.10) vợi giÊ thiát A , B v C l cĂc ma trên trỹc giao Thuêt toĂn ALS cho mổ hẳnh Tucker3 (3.9) ữủc thỹc hiằn nhữ sau:

• Bữợc 1 Khði tÔo vợi B , C bĐt kẳ.

• Bữợc 2 Tẵnh ma trên A l ma trên gỗm q v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 3 Tẵnh ma trên B l ma trên gỗm r v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 4 Tẵnh ma trên C l ma trên gỗm s v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 7 L°p lÔi cĂc bữợc 1, 2, 3, 4, 5, 6 cho án khi ε o < ε vợi ε cho trữợc n o â.

Mối quan hằ giỳa CP v Tucker3

Mởt trong nhỳng tẵnh nông hĐp dăn nhĐt cừa CP l tẵnh duy nhĐt cừa nõ Tẵnh duy nhĐt cừa nghiằm CP thữớng ữủc nghiản cựu cho mởt mÊng Â ữủc iãu ch¿nh phũ hủp X b = X − E Chúng ta giÊ sỷ cĂc trồng số g t trong (3.1) ữủc bũ v o cĂc ma trên th nh phƯn Cõ thº thĐy rơng cĂc ma trên th nh phƯn (A, B, C) trong (3.1) ch¿ cõ thº l duy nhĐt º thay ời kẵch thữợc v hoĂn và cĂc cởt cừa A, B, C Thêt vêy, náu (A, B, C) l nghiằm CP cừa (3.1) thẳ A, B, C.

Trong bài viết này, chúng ta sẽ khám phá các ma trận (AP T a, BP T b, CP T c) trong không gian P, cùng với các ma trận T a, T b, T c liên quan đến hướng chuyển động Các ma trận này được xác định bởi các yếu tố I q Ngoài ra, chúng ta cũng sẽ thảo luận về những lựa chọn thay thế duy nhất có thể ảnh hưởng đến CP (A, B, C), được coi là duy nhất và có tính chất bền vững.

(A, B, C) l nghiằm CP thẳ ối vợi ma trên P =

P j=1 a j ◦ b j ◦ c j náu v ch¿ náu α j β j γ j = 1, j = 1, 2, 3 Vẳ vêy A, B, C

Trong bài viết này, chúng ta sẽ khám phá các ma trận A, B, C trong không gian Tucker3 Đặc biệt, chúng ta sẽ tìm hiểu về các ma trận này và mối quan hệ của chúng với không gian G Hơn nữa, nếu S thuộc R^q, V thuộc R^r và W thuộc R^s, chúng ta sẽ xem xét các ma trận trong không gian biến đổi.

. iãu n y cõ nghắa l chúng ta cõ thº quay cĂc ma trên th nh phƯn v mÊng core tứ

Một phương pháp quay riêng được cấu trúc ở dạng giản trong mạng score có thể được tìm thấy trong Kiers (1998b) Một phương pháp quay trực giao cũng được cấu trúc ở dạng giản trong mạng score, như được nêu trong Kiers (1998a).

CÁc điều kiện kinh doanh cho tình duy nhất nhằm cừa mổ hình CP hiện nay hữu nhữ Â ữủc giải quyết một cách trọn vẹn Trong khi đó, các điều kiện duy nhất của mổ hình Tucker3 chỉ chữa ra cho một số trường hợp hợp đặc biệt nào đó.

Luên vôn Â Ôt ữủc mởt số kát quÊ sau:

Tóm tắt về hai phương pháp phân tách hai chiều, đó là Phân tách giá trị riêng (SVD) và Phân tách thành phần chính (PCA), cùng với một số ứng dụng của hai phương pháp này.

2 Nghiản cựu, trẳnh b y lÔi hai mổ hẳnh phƠn tẵch ba chiãu, õ l Mổ hẳnh CP v

Mổ hẳnh Tucker3, v mối quan hằ giỳa hai mổ hẳnh n y.

M°c dũ Â rĐt cố gưng những luên vôn s³ khổng trĂnh khọi nhỳng thiáu sõt, kẵnh mong nhên ữủc nhỳng ỵ kián õng gõp cừa Quỵ ThƯy, Cổ v cĂc bÔn º luên vôn ữủc ho n thiằn hỡn.

[1] Nguyạn Duy Thuên, Phi MÔnh Ban, Nổng Quốc Chinh, Ôi số tuyán tẵnh, Nh xuĐt bÊn Ôi hồc Sữ phÔm, (2003).

[2] Vụ Hỳu Tiằp, Machine Learning cỡ bÊn, Nh xuĐt bÊn Khoa hồc v Kÿ thuêt, (2018).

[3] Aapo Hyv ¨ a rinen, Principal component analysis, Based on material from the book Natural Image Statistics to be published by Springer-Verlag in 2009, 2009.

[4] Carl D Meyer, Matrix analysis and applied lineara, SIAM, Philadelphia 2000.

[5] Caroll J D and Chang J J, Analysis of individual differences in multidimensional scaling via an n -way generalization of Eckart-Young decomposition, Psychome- trika, 35 (30), p.283-319, 1970.

[6] David C Lay, Linear algebra and its applications, Addison-Wesley, Reading, MA, 1994.

[7] Harshman R A., Foundations of Parafac procedure: Models and conditions for an

"explanatory" multimodal factor analysis, UCLA Working papers in Phonetics,

[8] I J Good, Some applications of the singular value decomposition of matrix Tech- nometrics, 11, p.823 - 831, 1969.

[9] Kruskal J B., Rank, decomposition and uniqueness for three-way and N -way ar- rays, In R Coppi & S Bolassco (Eds.), Multiway data analysis, Elsevier Science Publisher B.V (North Holland), 1989.

[10] Lam Thi Thanh Tam, Some new methods for three-mode factor analysis and multi- set factor analysis, PhD Thesis, University of Groningen, The Netherlands 2015.

[11] Stewart G W., On the early history of the singular value decomposition, SIAM Review, 35, p.551 - 566, 1993.

[12] Thomas S Sgores, Applied linear algebra and matrix analysis, Springer, 2000 Tham khÊo trản Internet:

[13] Website: https://tuanvanle.wordpress.com/2013/12/25/phuong- phap-phan-tich-thanh-phan-chinh-principal-component-analysis- pca/?fbclid=IwAR1NNGSbA5WSa0hydV7FmNv90zYigO_OzBcZ02z8iXyORl99 tzYhvcLzO5s.

Tiêu đề	Luận Văn Thạc Sĩ Một Số Mô Hình Phân Tích Thành Phần Chính Ba Chiều
Tác giả	Nguyễn Thái Mỹ
Người hướng dẫn	TS. Lê Thà Thanh Tâm
Trường học	Trường Đại Học Quy Nhơn
Chuyên ngành	Toán Học
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hồ Chí Minh

Định dạng
Số trang	58
Dung lượng	2,92 MB