Chương 3 Nghịch đảo suy rộng trong không gian hữu hạn chiều 15 3.1. Phân tích giá trị kỳ dị của ma trận
3.2. Giả nghịch đảo (nghịch đảo suy rộng)
Ta xét bài toán tìm nghiệm của phương trình
Ax = y (3.3)
trong đó A ∈ Rm,n và y ∈ Rm cho trước. Nếu m = n và A không suy biến thì bài toán có duy nhất nghiệm được cho bởi công thức x = A−1y.
Trong trường hợp tổng quát, khi A có thể suy biến hoặc ma trận hình
chữ nhật (m 6= n), thì phương trình có thể vô nghiệm, có một nghiệm hoặc vô số nghiệm. Ta sẽ đi tìm mà trận G ∈ Rn,m sao cho x := Gy là một nghiệm của (3.3) theo nghĩa suy rộng. Đó là ma trận thỏa mãn tính chất nếu y ∈ R(A), tức là y = Az, z ∈ Rn, ta có
AGy = AGAz = y.
Điều này được thỏa mãn nếu ma trận G có tính chất sau đây
AGA = A. (3.4)
Mục đích của phần này là xây dựng được một ma trận như thế. Cho TA : Rn → Rm là ánh xạ song tuyến tính xác định bởi ma trận A ∈ Rm,n, tức là
TAx :=Ax, x∈ Rn. Khi đó, ánh xạ tuyến tính
TA
−1
N(A)⊥ :R(A) → N(A)⊥
xác định và ma trận G ∈ Rn,m biểu diễn ánh xạ tuyến tính này thỏa mãn điều kiện (3.4). Điều này cho ta gợi ý về định nghĩa sau đây.
Định nghĩa 3.2 Cho A ∈ Rm,n. Định nghĩa ánh xạ tuyến tính bởi TA+ : Rm → Rn bởi
TA+y :=
θ, nếu y ∈ R(A)⊥ TA
−1
N(A)⊥y, nếu y ∈ R(A).
Khi đó, ma trận A+ ∈ Rn,m biểu diễn ánh xạ tuyến tính TA+ được gọi là giả nghịch đảo (nghịch đảo suy rộng) của A, tức là TA+ = TA+.
Rõ ràng, ma trận giả nghịch đảo A+ của A chính là ma trận nghịch đảo A−1 thông thường trong trường hợp A ∈ Rn,n và A không suy biến. Tuy nhiên, ta cần để ý rằng, một số tính chất chỉ đúng trong trường hợp nghịch đảo thông thường nhưng không không đúng với trường hợp giả nghịch đảo.
Ví dụ 3.2 Cho A :=
1 −1 0 0
. Khi đó, R(At) được sinh bởi các véctơ
1
−1
và
0 0
và cơ sở của N(A)⊥ = R(At) được cho trước bởi véctơ
1
−1
. Bây giờ ta thấy A
1
−1
=
2 0
nên do đó A+
2 0
=
1
−1
.
Sử dụng đẳng thức R(A)⊥ = N(At), ta thấy một cơ sở của R(A)⊥ được cho bởi véctơ
0 1
; do đó A+
0 1
=
0 0
. Từ đây, ta có
A+
2 0 0 1
=
1 0
−1 0
A+ =
1 0
−1 0
2 0 0 1
−1
= 1 2
1 0
−1 0
Do đó, ta có
A2 = A, (A+)2 6= A+.
Từ ví dụ trên, ta thấy hai vấn đề, thứ nhất, trong trường hợp tổng quát tính chất sau đây không đúng (AB)+ =B+A+ mặc dù AB = BA và thứ hai, bài toán đặt ra làm sao để tìm A+ từ A (với m, n kích thước nhỏ).
Trước khi đưa ra cách tính ma trận giả nghịch dựa trên phân tích giá trị kỳ dị, ta đưa ra một định nghĩa tương đương với khái niệm giả nghịch. Để định nghĩa được, ta cần ký hiệu sau:
NếuS là một không gian con đóng của một không gian Hilbert(Rn), ta ký hiệu PS là phép chiếu trực giao lên S. Theo định lý về phép chiếu:
z = PSx khi và chỉ khi (z−x, u) = 0,∀u ∈ S;
ở đõy, (ã,ã) là tớch vụ hướng trong khụng gian Hilbert (Rn).
Định lý 3.6 Giả sử A ∈Rm,n và G ∈Rn,m. Khi đó, các điều kiện sau là tương đương
a) G = A+.
b) AG =PR(A), GA =PR(G).
c) AGA = A, GAG= G, (AG)t = AG, (GA)t = GA.
Chứng minh:
a)⇒ b). Từ định nghĩa của A+, ta thu được các đồng nhất AA+y =θ nếu y ∈ R(A)⊥, AA+y = y nếu y ∈ R(A), A+Ax= θ nếu x∈ R(A+)⊥, A+Ax =x nếu x∈ R(A+), điều này suy ra tính chất b).
b)⇒ c). Vì phép chiếu là đối xứng nên rõ ràng thấy ngay điều kiện (AG)t =AG, (GA)t = GA
được thỏa mãn.
Đẳng thức
AGA = A, GAG =G được suy ra từ AGA= PR(A)A, GAG = PR(G)G.
c)⇒ b). Ta có
(AG)(AG) = AG, GAG = PR(G)G,
và điều này chứng tỏ rằng AG là một phép chiếu trực giao. Từ R(A) = R(AGA) ⊂ R(AG)⊂ R(A)
ta thu được R(A) = R(AG), AG= PR(A). Bằng các lập luận tương tự ta có thể chứng minh GA =PR(G).
b) ⇒ a). Vì ta biết rằng ma trận giả nghịch A+ tồn tại và thỏa mãn các điều kiện b) và c) nên ta chỉ cần chứng minh nghiệm của phương trình trong c) là duy nhất. Giả sử rằng G := G1 và G := G2 thỏa mãn phương trình trong c). Nếu V :=G1−G2, ta có
AV A = θ, (AV)t =AV, (V A)t = V A.
Từ đây suy ra
(AV)tAV = (AV A)V = θ, (V A)tV A =V(AV A) =θ, điều này chứng tỏ
θ = AV =AG1 −AG2, θ = V A= G1A−G2A.
Do đó, G1 =G1AG1 = G2AG1 = G2AG2 = G2. Ví dụ 3.3 Cho A ∈ Rm,n. Khi đó ta có
A+ =
(AtA)−1At nếu rank (A) = n At(AAt)−1 nếu rank (A) = m.
Điều này có thể chứng minh bằng cách sử dụng điều kiện c) trong Định lý 3.6.
Định lý 3.7 Cho A ∈ Rm,n và A = U DVt là một phân tích giá trị kỳ dị của A. Khi đó,
D+ = diag(σ+1, . . . , σn+), A+ = V D+Ut, trong đú σ1 ≥ ã ã ã ≥σn là cỏc giỏ trị kỳ dị của A và
σi+ =
σi−1 nếu σi > 0 0 nếu σi = 0
,1 ≤ i ≤ n.
Chứng minh: Ta có
D = diag(σ1, . . . , σn) và
D+ = diag(σ1+, . . . , σ+n)
như trong Ví dụ 3.3. Đẳng thức A+ = V D+Ut được chứng minh bằng cách sử dụng đồng nhất c) trong Định lý 3.6 cho G = V D+Ut.
Bây giờ, ta sẽ đưa ra một số tính chất cơ bản của ma trận giả nghịch đảo. Từ Định lý 3.6 dễ dàng kiểm tra được các khẳng định sau đây:
Hệ quả 3.3 Giả sử A inRm,n. Khi đó, i) R(A) =R(AA+) =R(AAt)
R(A+) =R(At) = R(A+A) =R(AtA);
ii) R(A)⊥ =N(A+) = N(At) =N(AA+);
iii) (A+)+ = A, (A+)t = (At)+;
iv) At = AtAA+ =A+AAt, (AtA)+ = A+(At)+;
v) Nếu λ ∈ R thì (λA)+ = λ+A+ trong đó λ+ = λ−1 nếu λ 6= 0 và = 0 nếu λ = 0.
3.3. Nghiệm bình phương tối thiểu
Trong phần này, ta xét lại phương trình
Ax = y (3.5)
trong đó A ∈ Rm,n và y ∈ Rm. Sử dụng ma trận giả nghịch A+ của A, ta thu được nghiệm tổng quát A+y của (3.5). Trong phần này, ta sẽ coi nghiệm giả A+y cũng là nghiệm bình phương tối thiểu, tức là một véctơ mà làm cho chuẩn Euclidean của Ax−y nhỏ nhất có thể.
Định lý 3.8 Cho A ∈ Rm,n và y ∈ Rm. Khi đó, a) Bài toán
min{kAx−yk| x ∈ Rn} (3.6) luôn có một nghiệm x.¯
b) Nghiệm của (3.6) được xác định duy nhất khi và chỉ khi N(A) = {θ}.
c) Mọi nghiệm x¯ của (3.6) là nghiệm của phương trình
AtAx = Aty. (3.7)
Chứng minh: Cho y1 và y2 lần lượt là các phép chiếu của y trong R(A) và R(A)⊥, tức là y = y1+y2, y1 ∈ R(A), y2 ∈R(A)⊥, y1ty2 = 0.
a) Vì y1 −Ax ∈ R(A) với mọi x ∈Rn nên theo định lý Pythago ta có kAx−yk2 = kAx−y1k2 +ky2k2, x∈ Rn.
DO đó, x¯ là nghiệm của (3.6) khi và chỉ khi x¯ là nghiệm của Ax= y1. Vì y1 ∈ R(A) nên tồn tại nghiệm x¯ của phương trình Ax = y1.
b) Khẳng định được suy ra từ khẳng định nghiệm của Ax = y1 được xác định một cách duy nhất khi và chỉ khi N(A) = {θ}.
c) Ta có Ax¯ = y1 ∈ R(A), y− A¯x ∈ R(A)⊥. Vì R(A) = N(At)⊥ nên ta thu được θ = Aty2 = At(y−Ax).¯
Định nghĩa 3.3 Cho A ∈ Rm,n vày ∈ Rm. Một véctơx¯ ∈ Rn được gọi là nghiệm bình phương tối thiểu của phương trình Ax =y nếu x¯ là nghiệm của phương trình chuẩn tắc AtAx = Aty.
Chú ý 3.1 1) Nếuy ∈ R(A)thì nghiệm và nghiệm bình phương tối thiểu là trùng nhau.
2) Thay vì xét bài toán (3.6), ta có thể xét bài toán min{kAx−yk∗| x ∈ Rn}
trong đó k.k∗ là chuẩn bất kỳ trong Rn. Các chuẩn khác nhau dẫn đến các nghiệm tối ưu khác nhau và do đó các nghiệm tổng quát của phương trình Ax = y cũng khác nhau. Giá trị nhỏ nhất trong chuẩn l1 hoặc chuẩn l∞ khá phức tạp do ánh xạ x 7→ kAx−yk∗ không khả vi theo các chuẩn này.
Từ Định lý 3.8, dễ dàng thấy rằng tập
L(y) := {x¯ ∈ Rn| x¯ là nghiệm bình phương tối thiểu của Ax =y}
là một tập con lồi, đóng, khác rỗng của Rn. Do đó, theo định lý về phép chiếu, tồn tại duy nhất véctơ x∗ ∈L(y) sao cho
kx∗k = min{k¯xk| x¯ ∈ L(y)}.
Định nghĩa 3.4 Cho A ∈ Rm,nvà y ∈ Rm. Khi đó nghiệm bình phương tối thiểu của Ax = y được gọi là nghiệm có chuẩn bé nhất theo Ax = y khi và chỉ khi
kxk = min{k¯xk| x¯ là nghiệm tối thiểu của Ax =y}.
Sau đây, ta sẽ chỉ ra nghiệm có chuẩn bé nhất có thể được sử dụng để tính toán ma trận giả nghịch.
Định lý 3.9 Cho A ∈ Rm,n và y ∈ Rm. Khi đó, x := A+y là nghiệm có chuẩn bé nhất, được xác định duy nhất của phương trình Ax = y.
Chứng minh: Với mọi x ∈ Rn, ta có
kAx−yk = k(Ax−AA+y) + (AA+ −I)yk2
=kAx−AA+yk2+k(AA+ −I)yk2
≥ kAx−AA+yk2
vì AA+ − I là phép chiếu trực giao lên R(A)⊥ (theo Định lý 3.6). Điều này chứng tỏ rằng x :=A+y là một nghiệm bình phương tối thiểu và mọi nghiệm bình phương tối thiểu của Ax = y là nghiệm của Ax = AA+y.
Tuy nhiên, nghiệm của Ax= AA+y có dạng
x=PR(A)x+ (I −PR(A))x =A+Ax−(x−A+Ax)
=A+AA+y + (x−A+y) =A+y+ (x−A+y) từ đây dẫn đến
kxk2 = kA+yk2 +kx−A+yk2 ≥ kA+yk2.
Từ đây, ta suy ra x= A+y là nghiệm có chuẩn bé nhất và xác định duy nhất.
Kết luận
Luận văn nhằm tìm hiểu một khái niệm mới khi giải phương trình toán tử tuyến tính, hoặc hệ phương trình đại số tuyến tính mà các phương trình này có thể không có nghiệm, hoặc có nhiều nghiệm: nghịch đảo suy rộng. Khái niệm này được mô tả cho toán tử tuyến tính trong không gian Hilbert, sau đó được trình bày cho toán tử sinh bởi các ma trận.
Tài liệu tham khảo
[1] Baumeister J., Stable Solution of Inverse Problems.Friedr. Vieweg &
Sohn, Braunschweig, 1987.
[2] Ben-Israel A., Generalized inverses of matrices and their applications.
Extremal methods and systems analysis (Internat. Sympos., Univ.
Texas, Austin, Tex., 1977), pp. 154–186, Lecture Notes in Econom.
and Math. Systems, 174, Springer, Berlin-New York, 1980.
[3] Ben-Israel A. and Greville T.N.E., Generalized Inverses. Theory and Applications. Second edition. Springer-Verlag, New York, 2003.
[4] Gauss C.F., Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium, Frid. Perthes et I.H. Besser, Hamburg 1809, 265 pages.
[5] Legendre A.-M., Nouvelles méthodes pour la détermination des or- bites des comètes [New Methods for the Determination of the Orbits of Comets] (in French), Paris: F. Didot, 1805.
[6] Moore E.H., On the reciproral of the general algebraic matrix, Bull.
Amer. Math. Soc. 26(1920), 394–395.
[7] Nashed M.Z., Generalized Inverses and Applications (Proc. Sem., Math. Res. Center, Univ. Wisconsin, Madison, Wis., 1973). Publ.
Math. Res. Center Univ. Wisconsin, No. 32, Academic Press, New York, 1976.
[8] Penrose R.A., Generalized inverse for matrices.Proc. Cambridge Phi- los. Soc. 51(1955). 406–413.