MatrixComputations-3
cơ sở đại số tuyến tính cho giá trịkỳ dị1 Các khái niệm.1.1 Chuẩn vector.Định nghĩa 1.1.1 Cho a1, . . . , an∈ Rm, khi đóspan{a1, . . . , an} = {nj=1βjaj: βj∈ R}Định nghĩa 1.1.2 (Chuẩn vector) Một chuẩn vector trên Rnlà một hàm f :Rn→ R thỏa:(i)f(x) ≥ 0 x ∈ Rn, (f(x) = 0, x = 0)(ii)f(x + y) ≤ f(x) + f(y) x, y ∈ Rn(iii)f(αx) = |α|f(x) α ∈ R, x ∈ RnKý hiệu, x - chuẩn x.xp= (|x1|p+ ··· + |xn|p)1pp ≥ 1 : p-chuẩn của x.Các chuẩn quan trọng:x1= |x1| + ··· + |xn|x2= (|x1|2+ ··· + |xn|2)12= (xTx)12x∞= max1≤i≤n|xi|* Các tính chất của chuẩn vector.(i) Bất đẳng thức Holder:|xTy| ≤ xpyq,1p+1q= 1.(ii) Bất đẳng thức Cauchy-Schwartz:|xTy| ≤ x2y2.(iii) Mọi chuẩn trên Rnđều tương đương, i.e. nếu .αvà .βlà các chuẩntrên Rn, thì tồn tại c1và c2sao choc1xα≤ xβ≤ c2xα.Khi đó, một dãy hội tụ trong α - chuẩn thì cũng hội tụ trong β - chuẩn.68 1.2 Chuẩn Ma trận.Định nghĩa 1.2.1 Cho A là một ma trận cấp m× n, ta có các khái niệm sauran(A) = {y ∈ Rm: y = Ax, x ∈ Rn} - Miền giá trị (range) của A.null(A) = {x ∈ Rn: Ax = 0} - không gian rỗng (null space) của A.Nếu A = {a1, . . . , an} là một phân hoạch cột, thìran(A) = span{a1, . . . , an}.Định nghĩa 1.2.2 (Đạo hàm) Cho A(α) = (aij(α))m×n. Nếu (aij(α)) là cáchàm khả vi theo biến α, thì ma trận A(α) có đạo hàmA(α) =ddαA(α) = (ddαaij(α)) = (aij(α))Giả sử A(α) ∈ Rm×r, B(α) ∈ Rr×nlà các ma trận của các hàm khả vi theobiến α, khi đóddα[A(α)B(α)] = [ddαA(α)]B(α) + A(α)[ddαB(α)]Định nghĩa 1.2.3 (Chuẩn ma trận) Hàm f : Rm×n→ R được gọi là mộtchuẩn ma trận nếu thỏa:(i) f(A) ≥ 0 A ∈ Rm×n, (f(A) = 0, A = 0).(ii) f(A + B) ≤ f(A) + f (B) A, B ∈ Rm×n.(iii) f(αA) = |α|f(A) α ∈ R, A ∈ Rm×n.Ký hiệu, A - chuẩn của ma trận A.Chuẩn ma trận được dùng nhiều trong đại số tuyến tính số đó là Frobenius-chuẩn:AF=mi=1nj=1|a2ij|.p - chuẩn:Ap= supx=0Axpxp= supx=0 A(xxp) p= maxxp=1Axp.Nhận xét. ABp≤ ApBp.Ta nói rằng các chuẩn f1, f2, f3trên Rm×q, Rm×n, Rn×qlà tương hỗ nhất quán(mutually consistent) nếu với mọi A ∈ Rm×n, B ∈ Rn×q, ta cóf1(AB) ≤ f2(A)f3(B).69 Nói chung, không phải tất cả các chuẩn đều thỏa: AB ≤ AB.Chẳng hạn, nếu A= max|aij| vàA = B =1 11 1,thì AB> AB.p - chuẩn có một tính chất quan trọng: với mọi A ∈ Rm×nvà x ∈ Rnta cóAxp≤ Apxp. Tổng quát hơn, với mọi chuẩn vector .αtrên Rnvà .βtrên Rm, ta cóAxβ≤ Aα,βxαvớiAα,β= supx=0Axβxα.Khi đó, ta nói .α,βlà phụ thuộc (subordinate) .αvà .β. Do {x ∈ Rn:xα= 1} là compact và .βlà liên tục, ta nhận đượcAα,β= maxxα=1Axβ= Ax∗βvới x∗∈ Rncó α-chuẩn bằng 1.1.2.1 Các tính chất.Cho A ∈ Rm×nta có các tính chất sau:A2≤ AF≤√nA2maxi,j|aij| ≤ A2≤√mn maxi,j|aij|A1= max1≤j≤nmj=1|aij|A∞= max1≤j≤mnj=1|aij|1√nA∞≤ A2≤√mA∞1√mA1≤ A2≤√nA1.70 Nếu 1 ≤ i1≤ i2≤ m, 1 ≤ ji1≤ j2≤ n, thìA(i1: i2, j1: j2)p≤ Ap.Một dãy {A(k)} ∈ Rm×nhội tụ nếulimk→∞A(k)− A = 0.Định lý 1.2.1 Nếu A ∈ Rm×n, thì tồn tại z ∈ Rn,z2= 1 sao cho ATAz =µ2z, µ = A2.Chứng minh. Giả sử z ∈ Rn,z2= 1 sao cho Az2= A2. Đặtg(x) =12Ax22x22=12xTATAxxTxKhi đó, ∇g(z) = 0, nên ta nhận được∂g(z)∂zi= [(zTznj=1(ATA)ijzj− (zTATAz)zi]/(zTz)2= 0⇒nj=1(ATA)ijzj= (zTATAz)zi⇔mi=1nj=1(ATA)ijzj=mi=1(zTATAz)zi⇔ ATAz = (zTATAz)z = Az22Đặt µ = Az2= A2. Chú ý. 1 Theo kết quả định lý, A22chính là nghiệm của phương trình đặctrưng p(λ) = det(ATA − λI) = 0.Hệ quả 1.2.1 Nếu A ∈ Rm×n, thì A2≤A1A∞.Chứng minh. Nếu z = 0 sao cho ATAz = µ2z, µ = z2, thìµ2z1= ATAz1≤ AT1A1z1= A∞A1z1. 71 1.2.2 Phép nhiễu và nghịch đảo.Bổ đề 1.2.1 Nếu F ∈ Rn×nvà Fp< 1, thì I − F là không suy biến và(I − F )−1=∞k=0Fkvới(I − F )−1p≤11 − Fp.Chứng minh. Giả sử I − F là suy biến. Khi đó, phương trình (I − F )x = 0có nghiệm x = 0 và Ixp= F xpsuy ra xp= F xp≤ Fpxp, vậyFp≥ 1 (mâu thuẩn). Vậy I − F là không suy biến.Xét đồng nhất thức(Nk=0Fk)(I − F ) = I − FN+1.Do Fp< 1 và Fkp≤ Fkpnên limk→∞Fk= 0.Như vậy,( limN→∞Nk=0Fk)(I − F ) = I.Điều đó chỉ ra rằng(I − F )−1= ( limN→∞Nk=0Fk) =∞k=0FkVà khi đó,(I − F )−1p= ∞k=0Fkp≤∞k=0Fkp=11 − Fp. Theo kết quả định lý, ta có (I − F )−1− Ip≤F p1−F p.Định lý 1.2.2 Nếu A là không suy biến và r = A−1Ep< 1, thì A + E làkhông suy biến và (A + E)−1− A−1p≤ EpA−12p/(1 − r).Chứng minh. Từ A là không suy biến suy ra A + E = A(I − F ), với F =−A−1E. Khi đó, Fp= r < 1, theo bổ đề trên I − F là không suy biến và72 (I − F )−1p< 1/(1− r). Ta có, (A + E)−1= (A(I − F ))−1= (I − F )−1A−1,do đó(A + E)−1p≤A−1p1 − r.áp dụng: B−1= A−1− B−1(B − A)A−1ta nhận được (A + E)−1− A−1=−A−1E(A + E)−1, và khi đó(A + E)−1− A−1p≤ A−1pEp(A + E)−1p=A−12pEp1 − r. 1.3 Tính trực giao.Một tập các vector {x1,··· , xp} ⊂ Rmlà trực giao nếu xTixj= 0,∀i = j.Phần bù trực giao của S ⊆ Rmdược định nghĩaS⊥= {y ∈ Rm: yTx = 0,∀x ∈ S}.Ma trận Q ∈ Rm×mđược gọi là trực giao nếu QTQ = I.Định lý 1.3.1 Nếu V1∈ Rn×rcó các cột trực giao, thì tồn tại V2∈ Rn×(n−r)để cho V = [V1V2] là trực giao.Khi đó, ran(V1)⊥= ran(V2).Nhận xét.(ii) Nếu QTQ = I, thì Qx22= xTQTQx = xTx = x22.(ii) Nếu Q và Z là các ma trận trực giao, thìQAZF= AF, |QAZ2= A2.2 Các giá trị kỳ dị của ánh xạ tuyến tính -Phân tích giá trị kỳ dị (SVD).Không gian Rntrang bị tích vô hướng <. , .>.Định lý 2.1 Cho L : Rn→ Rmlà ánh xạ tuyến tính. Khi đó tồn tại cơ sở trựcchuẩn e1, . . . , encủa Rnvà ´e1, . . . , ´emcủa Rm, và các số λ1≥ . . . ≥ λr> 0,với r = rankL, sao choLej= λj´ej(j = 1, . . . , r), Lej= 0 (j = r + 1, . . . , n).73 Chứng minh. Xét dạng toàn phương trên Rn: q(x) =< Lx, Lx >= xTATAx.Tồn tại cơ sở trực chuẩn e1, . . . , encủa Rnsao choq(x) =nk=1λ2kx2k, với x =nk=1xkek,và λ1≥ . . . ≥ λr> 0 = λr+1= . . . = λn.Khi đó, ´ej=1λjLej, j = 1, . . . , r, là hệ trực chuẩn, nên có thể bổ sung thànhhệ cơ sở trực chuẩn của Rm. Đó là cơ sở thỏa định lý. Dạng ma trận của định lý trên là:Định lý 2.2 (Singular Value Decomposition (SVD))Cho A là một m × n - ma trận thực. Khi đó, tồn tại các ma trận trực giaoU = (u1, . . . , um) ∈ Rm×mvà V = (v1, . . . , vn) ∈ Rn×nvà các số λ1≥ ··· ≥λq≥ 0, với q = min(m, n), sao choUTAV = diag(λ1, . . . , λq) ∈ Rm×nChứng minh. Cho x ∈ Rnvà y ∈ Rmlà các vector đơn vị trong 2-chuẩn thỏaAx = λy, λ = A2. Khi đó, tồn tại V2∈ Rn×(n−1)và U2∈ Rm×(m−1)để choV = [xV2] ∈ Rn×nvà U = [yU2] ∈ Rm×mlà các ma trận trực giao. Khi đó,UTAV =λ wT0 B= A1, B = UT2AV2∈ R(m−1)×(n−1).Ta có,A1λw22= (λ w)AT1A1λw≥ (λ2+ wTw)2.Do đó, A122≥ (λ2+wTw). Mà λ2= A22= A122, nên ta nhận được w = 0.Tiếp tục, chứng minh quy nạp với B = UT2AV2∈ R(m−1)×(n−1), ta nhận đượcchứng minh của định lý. Định nghĩa 2.1 Các giá trị λi= λi(L), i = 1, . . . , q trong các định lý trênđược gọi là các giá trị kỳ dị của L hay của A, uivà viđược gọi là các vectorkỳ dị trái thứ i và phải thứ i tương ứng. λ0(L) = 1.Ví dụ.A =0.96 1.722.28 0.96= UDVT=−0.8 0.60.6 0.81 00 30.6 0.8−0.8 0.6T.A =0.96 1.722.28 0.96= UDVT=0.6 −0.80.8 0.63 00 10.8 0.60.6 −0.8T.74 3 Hình học của các giá trị kỳ dị.Không gian vector tích ngoại thứ k của Rn,kRn, cảm sinh tích vô hướng:< w, ´w >= det(< vi, ´vj>)1≤i,j≤k, với w = v1∧ ··· ∧ vk, ´w = ´v1∧ ··· ∧ ´vk. Khiđó,v1∧ ··· ∧ vk = V olk(v1,··· , vk).Mỗi ánh xạ tuyến tính L : Rn→ Rm, sinh ra ánh xạ tuyến tínhLk:kRn→kRm, Lk(v1∧ ··· ∧ vk) = Lv1∧ ··· ∧ LvkKý hiệu wk(L) = Lk = maxw=1Lk(w), w0(L) = 1(k = 1,··· , q =min(m, n)).Theo chứng minh định lý trên ta có:Mệnh đề 3.1 Gọi r = rank L. Khi đó(i) L(Bn(0, 1)) là một ellipsoid r-chiều, với độ dài các nửa trục là λ1(L),··· , λr(L).(ii) wk(L) = λ0(L)··· λk(L) = max{V olk(L(C)) : C hộp đơn vị k-chiều trongRn}.Chứng minh: Xem [6].4 ý nghĩa của các giá trị kỳ dị.Từ các định lý trên, ta có nhận xét:(i) rank L = r khi và chỉ khi λr(L) > 0, λr+1= 0.(ii) Trong phân tích SVD, gọi D = diag(λ1, . . . , λq) ∈ Rm×n, khi đó, AV =UD, ATU = V DT, và ta cóAvi= λiuiATui= λivii = 1 : minm, nA = UDVT=qk=1λkukvTk(iii)A2= λ1, λi(A) = uTiAviminx=0Ax2x2= λq, q = min{m, n}.75 Định lý 4.1 Giả sử A ∈ Rm×ncó phân tích SVD UTAV = diag(λ1,··· , λr) ∈Rm×n. Nếu k < r = rank(A) vàAk=ki=1λiuivTi,thìminrank(B)=kA − B2= A − Ak2= λk+1.Chứng minh. Do UTAkV = diag(λ1,··· , λk, 0,··· , 0), nên rank(Ak) = k, vàdo UT(A − Ak)V = diag(0,··· , 0, λk+1,··· , λr, 0,··· , 0), nên A − Ak2=λk+1.Giả sử B ∈ Rm×n, rank(B) = k. Khi đó, tồn tại hệ trực chuẩn {x1,··· , xn−k} ⊂Rnsao cho null(B) = span{x1,··· , xn−k}. Từ số chiều suy ranull(B) = span{x1,··· , xn−k} ∩ span{v1,··· , vk+1} = {0}.Giả sử z là vector đơn vị trong tập giao trên. Do Bz = 0 vàAz =k+1i=1λi(vTiz)ui, (do vTk+jz = 0, j = 2,··· )nên ta cóA − B22≥ (A − B)z22= Az22=k+1i=1λ2i(vTiz)2≥ λ2k+1.Từ đó suy ra kết quả định lý. Nhận xét.(i) Các giá trị kỳ dị đo khoảng cách đến các tập kỳ dị:Giá trị kỳ dị nhỏ nhất của A là khoảng cách (theo 2- chuẩn) của A đến tậptất cả các ma trận có hạng khuyết (≤ rank(A)). Nói cách khác, với 0 ≤ k <q = min(m, n), đặt Σk= {L ∈ L(Rm, Rn: rank(L) = k}. Khi đóλk+1(L) = d(L, Σk) = d(L, Σ0∪ ··· ∪ Σk).(ii) ε − rank của một ma trận A, được ký hiệu và xác địnhrε= rank(A, ε) = minA−B2≤εrank(B).Khi đó ta cóλ1(A) ≥ ··· ≥ λrε(A) > ε ≥ λrε+1(A) ≥ ··· ≥ λq, q = min(m, n).76 (iii) Cho A là ma trận vuông cấp n khả nghịch. Khi đó hệ phương trình tuyếntính Ax = b có duy nhất nghiệm x = A−1b.Theo phân tích SVD,A =ni=1λiuivTi= UDVT,nênx = (UDVT)−1b =ni=1uTibλivi.Vậy nếu λnbé, A, b thay đổi nhỏ dẫn tới x thay đổi lớn.5 Quan hệ với một số đánh giá kỳ dị khác.Định lý 5.1 (Eckart-Young). Khi A là ma trận khả nghịch cấp n,λn(A) = d(A, Σn−1) =1A−1.Chứng minh. Từ phân tích SVD của A, ta có phân tích SVD A−1= (UDVT)−1=V D−1UT.Suy ra A−1 = λ1(A−1) =1λn(A). Một chứng minh khác xem [1].Số Rabier. Cho A ∈ L(Rn, Rm). Đặtν(A) = infϕ=1A∗ϕ,trong đó A∗là ánh xạ liên hợp của A.Ta có ν(A) > 0 ⇔ A là toán ánh. Các tính chất của số Rabier xem [3, 4, 5].Khi n ≥ m, ν(A) = λm(A) = min{|λ| : λ2là giá trị riêng của AA∗}.Số Kuo. Cho A = (A1,··· , Am) ∈ L(Rn, Rm). Ký hiệu Ai= grad Ai, <(Aj)j=i> là không gian tuyến tính được sinh ra bởi các Aj, j = i. Đặtk(A) = min1≤k≤md(Ak, < (Aj)j=k>).là số Kuo của A.77