Có rất nhiều công thức người ta rút ra từ các số liệu thực nghiệm. Chẳng hạn như: công thức liên hệ nhiệt độ, thể tích và áp suất; công thức liên hệ lượng mưa với mực nước sông; công thức liên hệ thể tích một hồ chứa với lưu lượng nước... Khi thiết lập được những công thức kiểu này ta có thể dự báo điều gì đó. Trong chương này ta tìm hiểu một trong những kỹ thuật để xây dựng công thức từ các số liệu thực nghiệm. Giả sử ta làm một dãy thí nghiệm, và hy vọng đầu ra y gần như là một hàm tuyến tính đối với đầu vào t, tức là một hàm có dạng y = C + Dt. Ví dụ như: (1) Trong một số khoảng thời gian, ta đo khoảng cách đến một vệ tinh đang trên đường tới sao Hỏa. Trong trường hợp này t là thời gian, y là khoảng cách, và trừ khi động cơ hoạt động hoặc lực hấp dẫn là mạnh, vệ tinh có thể di chuyển với vận tốc v gần như không đổi: y = y0 + vt. (2) Chúng ta có thể thay đổi sức nặng mà một công trình phải chịu đựng, và đo sức căng do nó sinh ra. Trong thí nghiệm này t là sức nặng, còn y được đọc từ máy đo sức căng. Trừ khi sức nặng là quá lớn đến nỗi vật liệu nát vụn, trong lý thuyết đàn hồi thường có quan hệ tuyến tính y = C + Dt
Trang 1C hương 8
_
Có rất nhiều công thức người ta rút ra từ các số liệu thực nghiệm Chẳng hạn như: công thức liên hệ nhiệt độ, thể tích và áp suất; công thức liên hệ lượng mưa với mực nước sông; công thức liên hệ thể tích một hồ chứa với lưu lượng nước Khi thiết lập được những công thức kiểu này ta có thể dự báo điều gì đó Trong chương này ta tìm hiểu một trong những kỹ thuật để xây dựng công thức từ
các số liệu thực nghiệm Giả sử ta làm một dãy thí nghiệm, và hy vọng đầu ra y gần như là một hàm tuyến tính đối với đầu vào t, tức là một hàm có dạng y = C + Dt Ví dụ như:
(1) Trong một số khoảng thời gian, ta đo khoảng cách đến một vệ tinh đang trên đường tới
sao Hỏa Trong trường hợp này t là thời gian, y là khoảng cách, và trừ khi động cơ hoạt động hoặc lực hấp dẫn là mạnh, vệ tinh có thể di chuyển với vận tốc v gần như không đổi: y = y0 + vt
(2) Chúng ta có thể thay đổi sức nặng mà một công trình phải chịu đựng, và đo sức căng do
nó sinh ra Trong thí nghiệm này t là sức nặng, còn y được đọc từ máy đo sức căng Trừ khi sức nặng là quá lớn đến nỗi vật liệu nát vụn, trong lý thuyết đàn hồi thường có quan hệ tuyến tính y = C + Dt
Giả sử trong một dãy thí nghiệm ta thu được m kết quả y tại m giá trị t khác nhau
(t1; y1), (t2; y2), , (t m ; y m)
Vấn đề là làm thế nào để tính các hệ số C và D từ những kết quả này? Nếu quan hệ này đúng là tuyến tính, và không có sai số khi thí nghiệm, thì không có gì đáng làm; hai phép đo của y tại những giá trị khác nhau của t sẽ đủ để xác định đường thẳng y = C + Dt và toàn bộ những kết quả đo khác
sẽ nằm trên đường này Nhưng nếu có sai số, và những điểm đo thêm chệch khỏi đường thẳng, thì
hệ phương trình 2 ẩn sau đây vô nghiệm
C + Dt1 = y1
C + Dt2 = y2
C + Dt m = y m
Ký hiệu
A =
m
t
t t
1
1
1
2 1
- ma trận hệ số, x =
D
C
- vectơ ẩn, b =
m
y
y y
2 1
ta viết gọn hệ trên ở dạng Ax = b
Phương pháp bình phương tối thiểu, còn gọi là phương pháp bình phương nhỏ nhất, là một kỹ thuật để tìm một nghiệm gần đúng cho một hệ phương trình tuyến tính không có nghiệm đúng Kỹ thuật bình phương tối thiểu đã được A M Legendre và C F Gauss xây dựng độc lập nhau Bài báo đầu tiên về vấn đề này đã được Legendre công bố vào năm 1806 mặc dù có bằng chứng rõ ràng là Gauss đã khám phá ra nó khi đang là sinh viên chín năm trước bài báo của
Trang 2Legendre và đã sử dụng phương pháp này để tính toán thiên văn Ý tưởng chính của phương pháp là
mở rộng khái niệm nghiệm của Ax = b để phương trình này luôn có nghiệm Cụ thể như sau: Do không gian cột C(A) (không gian con của R m ) gồm tất cả những vectơ có dạng Ax (Xem 4.2), nên
Ax = b vô nghiệm khi và chỉ khi b không thuộc không gian này Trong C(A) ta chọn vectơ p sao cho
p gần b nhất, tức là độ dài ||b - p|| nhỏ nhất Khi đó x = xˆ sao cho p = A xˆ được gọi là nghiệm bình phương tối thiểu của Ax = b Nếu Ax = b có nghiệm thông thường thì b thuộc C(A), nên vectơ p =
A xˆ thuộc C(A) mà gần b nhất chính là b và do đó xˆ trùng với nghiệm thông thường Như vậy
nghiệm bình phương tối thiểu là mở rộng của nghiệm thông thường Hình dưới đây minh họa
phương pháp này trong trường hợp b ∈ R3, A = [a1 a2] là ma trận thực 3×2 với a1 và a2 không cùng phương Do
C(A) = {x1a1+x2a2| x1, x2 ∈R}
nên C(A) là mặt phẳng có cặp vectơ chỉ phương là a1 và a2 Trong hình học sơ cấp ta đã biết rằng p thuộc C(A) mà gần b nhất phải là hình chiếu vuông góc của b trên C(A)
8.1 PHÉP CHIẾU
Bây giờ ta mở rộng khái niệm phép chiếu trong hình học sơ cấp Thay cho đường thẳng hay mặt phẳng đi qua gốc tọa độ của R3, ta xét không gian cột C(A), là không gian con của R m
Định nghĩa Cho A là ma trận thực cỡ m×n, b là vectơ trong R m Hình chiếu của b trên không
gian cột C(A) là vectơ p thuộc C(A) sao cho b - p trực giao với mọi vectơ thuộc C(A)
Cách tìm hình chiếu
cột a1
cột a2
p = A xˆ
b
Trang 3Giả sử A là ma trận thực cỡ m×n, có cột j là a j (j = 1, , n) Theo định nghĩa
C(A) ={ x1a1 + x2a2 + ⋅⋅⋅ + x n a n | x j ∈R }
nên mỗi vectơ y thuộc C(A) có dạng y = x1a1 + x2a2 + ⋅⋅⋅ + x n a n Dễ thấy rằng b - p trực giao với mọi
y thuộc C(A) khi và chỉ khi b - p trực giao với tất cả các vectơ a j (j = 1, , n), tức là
T j
a (b - p) = 0 (j = 1, , n)
Vì T
j
a (b - p) là hàng j của ma trận AT nhân với b - p, nên các phương trình trên được viết gộp ở
dạng ma trận là
AT(b - p) = 0 (1)
Mặt khác p thuộc C(A), nên p có dạng p = 1
∧
x a1 + ⋅ ⋅ ⋅ + x n
∧
a n Ký hiệu xˆ = ( 1
∧
x , , x n
∧
), thì p =
A xˆ Phương trình (1) tương đương với phương trình
AT(b - A xˆ ) = 0
Ta viết lại phương trình này ở dạng quen thuộc
ATA xˆ = ATb (2)
(2) được gọi là phương trình chuẩn tắc Như vậy ta có phương pháp xác định hình chiếu như sau:
Giải phương trình chuẩn tắc (2) để xác định xˆ = ( 1
∧
x , , x n
∧
) Hình chiếu của b trên không gian C(A) là p = A xˆ
Ví dụ 1 Cho
A =
2 1 0 1 1
1
và b =
0 0
6
Tìm hình chiếu p của b trên C(A)
Giải
ATA =
2 1 0
1 1 1
2 1 0 1 1
1
5 3
3 3
và ATb =
2 1 0
1 1 1
0 0
6 =
0
6
Phương trình chuẩn tắc ATA
∧
x = ATb để tìm x∧ là
5 3
3 3
∧
∧
2
1
x
x
=
0 6
Trang 4Giải phương trình này ta được
∧
x=
∧
∧
2
1
x
x =
−3
5 Hình chiếu là
p = A
∧
x =
2 1 0 1 1
1
−3
5 =
−1 2
5 ☺
Có ba câu hỏi được đặt ra đối với ma trận thực A cỡ m×n và vectơ b trong R m:
1) Hình chiếu p của b trên không gian cột C(A) có luôn luôn tồn tại?
2) Nếu tồn tại hình chiếu thì nó có duy nhất không?
3) Độ dài của b - p so với độ dài của b - y với y thuộc C(A)\{p}thế nào?
Định lý sau đây trả lời cả ba câu hỏi này
Định lý 8.1.1 Cho A là ma trận thực cỡ m×n Đối với mỗi b∈Rm tồn tại duy nhất hình chiếu p của
b trên không gian cột C(A) Ngoài ra
||b - y|| > ||b - p||
đối với bất kỳ y thuộc C(A)\{p}
Chứng minh
Áp dụng Hệ quả 6.1.4 cho ma trận AT, với mỗi b ∈R m tồn tại duy nhất vectơ x r ∈ C((AT)T) = C(A)
và tồn tại duy nhất vectơ x n ∈N(AT) sao cho b = x r + x n Vì AT(b - x r )= ATx n = 0, nên p = x r là hình
chiếu của b trên không gian cột C(A)
Với bất kỳ y thuộc C(A)\{p}, thì
(b - y) 2 = [(b - p) + (p - y)]2 = (b - p)2 + (p - y)2 + 2(b - p)⋅(p - y) (3)
Do p - y thuộc C(A), còn b - p trực giao với mọi vectơ thuộc C(A), nên (b - p)⋅(p - y) = 0 Thay vào
(3) ta có
(b - y) 2 = (b - p)2 + (p - y)2
Do đó
(b - y) 2 > (b - p)2 Khai căn hai vế ta có
||b - y|| > ||b - p|| ☺
Bình luận Tính chất của hình chiếu p hoàn toàn như trong hình học sơ cấp: b - p trực giao với mọi
vectơ của C(A) Vì ||b - y|| = khoảng cách giữa b và y, ||b - p|| = khoảng cách giữa b và p, nên bất
đẳng thức ||b - y|| > ||b - p|| nói lên rằng p là vectơ thuộc không gian C(A) mà gần b nhất
Trang 5Chú ý Vì p luôn tồn tại và p = A xˆ , nên xˆ luôn tồn tại Nói chung thì ∧x không duy nhất, mặc dù
theo Định lý 8.1.1 p = A∧x là duy nhất
Ví dụ 2 Cho
A =
−
−
−
1 1 1 1 1
1
và b =
0 0
6
Tìm x∧ và tìm hình chiếu p của b trên C(A)
Giải
ATA =
−
−
1 1 1
−
−
−
1 1 1 1 1
1
−
− 3 3
3 3
−
−
1 1 1
0 0
6
−6
6
Phương trình chuẩn tắc ATA
∧
x = ATb là
−
− 3 3
3 3
∧
∧
2
1
x
x =
−6
6
Nó có nghiệm tổng quát ∧x = (t, t - 2) ( x không duy nhất) ∧
Hình chiếu là
p = A
∧
x =
−
−
−
1 1 1 1 1
1
−2
t
t
=
2 2
2 ☺
Sau đây là điều kiện để x∧ là duy nhất
Định lý 8.1.2 Nếu A là ma trận thực cỡ m×n, có hạng bằng n, thì AT
A khả nghịch và phương trình chuẩn tắc
ATA
∧
x = ATb
Trang 6có nghiệm duy nhất (x = (ATA)-1ATb)
Chứng minh ATA là ma trận n×n, vì vậy muốn chứng minh nó khả nghịch ta chỉ cần chỉ ra det(ATA ) ≠ 0 Giả sử z là một nghiệm của ATA x = 0 Thế thì Az ∈ N(AT) Nhưng Az ∈C(A) và C(A)∩N(AT) = {0} (do C(A) và N(AT) trực giao), nên Az = 0 Do r(A) = n nên hệ Ax = 0 chỉ có nghiệm tầm thường (z = 0) Như vậy ATA x = 0 cũng chỉ có nghiệm tầm thường Do đó r(ATA ) = n
Suy ra det(ATA) ≠ 0 (Định lý 4.3.1) Từ đây, cũng theo Quy tắc Cramer, phương trình chuẩn tắc có nghiệm duy nhất ☺
Với các giả thiết của Định lý 8.1.2, ta có công thức xác định hình chiếu
p = A x∧ = A(ATA)-1ATb
Nói chung A không phải là ma trận vuông, nên ta có thể mắc sai lầm khi tách (ATA)-1 thành A-1 nhân
(AT)-1
Định nghĩa Cho A là ma trận thực cỡ m×n, có hạng bằng n Ma trận P = A(ATA)-1AT được gọi là
ma trận chiếu
Ví dụ 3 Cho
A =
2 1 0 1 1
1
và b =
0 0
6
Tìm ma trận chiếu P Từ đó tính p và so sánh với Ví dụ 1
Giải
ATA =
5 3
3 3
có ma trận nghịch đảo là (ATA)-1 =
6
1
−
− 3 3
3 5
P = A(ATA)-1AT =
2 1 0 1 1
1 6
1
−
− 3 3
3 5
2 1 0
1 1 1
= 6
1
−
−
5 2 1
2 2 2
1 2 5
p = Pb =
6
1
−
−
5 2 1
2 2 2
1 2 5
0 0
6 =
−1 2
5
Kết quả là p như ở Ví dụ 1 ☺
Nhận xét
Trang 71) P chính là ma trận chính tắc của một phép biến đổi tuyến tính từ R vào R , cho tương ứng mỗi
vectơ b∈R m với hình chiếu p = Pb của nó trên C(A) Phép biến đổi tuyến tính này chính là phép chiếu (vuông góc) lên C(A)
2) P2 = A(ATA)-1ATA (ATA)-1AT = AI(ATA)-1AT = A(ATA)-1AT =P Suy ra P2 = P và Pp = P(Pb) = P2b
= Pb = p Điều này nói lên rằng với cùng một phép chiếu thì hình chiếu của một hình chiếu p là chính p
3) Do b - p trực giao với C(A) và N(AT) là phần bù trực giao của C(A) (Định lý cơ bản của ĐSTT, Phần 2), nên b - p thuộc N(AT) Trong khi đó b - p = b - Pb = (I - P)b, nên I - P cũng là ma trận của phép chiếu lên không gian con N(AT) (Nó chiếu mỗi vectơ b lên không gian con N(AT))
Phép chiếu sử dụng cơ sở trực chuẩn: Q thay cho A
Những công thức xác định ∧x , hình chiếu p và ma trận chiếu P sẽ trở nên đơn giản hơn khi ma trận
A là ma trận Q mà có tất cả các cột là v1, v2, , v n lập thành một tập trực chuẩn Hàng thứ i của QT
là v iT Theo Quy tắc nhân ma trận, phần tử hàng i, cột j của QTQ là
v iT⋅vj = v i⋅vj =
=
≠
j i khi
j i khi
1
0
,
nên QTQ = I Do vậy, theo Định lý 8.1.2 ta có
∧
x = QTb p = Q x∧ = QQTb P = QQT
Ví dụ 4 Cho
Q =
0 1 0 0 0
1
và b =
4 3
5
Tìm x∧, p và P
Giải
∧
0 1 0
0 0 1
4 3
5 =
3
5
p = Q x = ∧
0 1 0 0 0
1
3
5 =
0 3 5
Trang 8P = QQT =
0 0 0
0 1 0
0 0 1
☺
Chú ý Nếu A là ma trận thực, có có tất cả các cột là a1, a2, , a n độc lập tuyến tính, nhưng chúng không lập thành tập trực chuẩn, thì ta có thể dùng Phương pháp trực giao hóa Gram-Schmidt để từ
các cột này xây dựng tập trực giao {v1, v2, , v n } Khi đó thay cho A ta làm việc với ma trận Q =
[v1 v2 v n]
8.2 ỨNG DỤNG CỦA PHÉP CHIẾU
Mở rộng khái niệm nghiệm của phương trình Ax = b
Hệ phương trình Ax = b có thể vô nghiệm (Ta hay gặp tình huống này khi số phương trình nhiều hơn số ẩn) Bây giờ dựa vào phép chiếu ta đi mở rộng khái niệm nghiệm của Ax = b để phương
trình này luôn có nghiệm
Với mỗi vectơ Ax, độ dài ||b - Ax|| là khoảng cách từ b tới Ax Với hình chiếu p = A x∧ của b trên C(A), theo Định lý 8.1.1
||b - Ax|| > ||b - p|| = ||b - A∧x || ∀ Ax ∈ C(A)\{p}, nên ||b - Ax|| đạt min tại x = ∧x
Định nghĩa Cho A là ma trận thực cỡ m×n, b∈Rm Nghiệm bình phương tối thiểu của hệ Ax = b
là
∧
x ∈R n sao cho ||b - A x∧|| = b Ax
n
R x
−
∈
Nếu Ax = b có nghiệm thông thường x = v, tức là Av = b, thì ||b - Av|| = 0 nên
||b - Av|| = b Ax
n
R x
−
∈
Do đó, trong trường hợp này nghiệm v cũng là một nghiệm bình phương tối thiểu Như vậy khái
niệm nghiệm bình phương tối thiểu là mở rộng của khái niệm nghiệm thông thường
Với mỗi vectơ Ax thuộc C(A), ta gọi e = b - Ax là vectơ sai số Do ||e|| = căn bậc hai của tổng bình phương các thành phần của e, mà xˆ lại làm cho ||e|| nhỏ nhất nên người ta gọi xˆ là nghiệm bình phương tối thiểu Mục 8.1 đã chỉ ra rằng nghiệm bình phương tối thiểu xˆ luôn tồn tại
(nhưng có thể không duy nhất) và tìm được bằng cách giải phương trình chuẩn tắc ATA xˆ = ATb
Trang 9
Chọn đường khớp nhất với một tập điểm dữ liệu trên mặt phẳng
Giả sử bằng thực nghiệm thu được tập hợp gồm các điểm (t i , y i ) (i = 1, 2, , m), gọi là tập điểm dữ liệu Để tìm mối quan hệ hàm giữa t và y ta thường chọn một hàm số f(t) thuộc lớp hàm số quen thuộc, như lớp hàm đa thức Trên mặt phẳng tọa độ, đồ thị của f(t) là một đường cong có thể không
đi qua tất cả các điểm dữ liệu, tức là nói chung f(ti ) ≈ y i Độ lệch giữa f(t i ) và y i là f(t i ) - y i Đồ thị
của hàm số f(t) thuộc lớp hàm số đã chọn sao cho ∑
=
−
n
i
i
t f
1
2
) ) ( ( bé nhất được gọi là đường khớp
nhất với tập điểm dữ liệu (theo nghĩa bình phương tối thiểu) Ta ứng dụng phương pháp bình phương tối thiểu để lựa chọn một đường khớp nhất
Ví dụ 5
Cho dữ liệu
Hãy tìm đường khớp nhất có phương trình trong lớp hàm tuyến tính
Giải Đường phải tìm có phương trình dạng y = C + Dt Ta xác định C và D bằng cách giải hệ phương trình
C + D⋅0 = 1
C + D⋅3 = 4
C + D⋅6 = 5
Hệ này không có nghiệm thông thường, nên ta đi tìm nghiệm bình phương tối thiểu
Ký hiệu
A =
6 3 0 1 1
1
, x =
D
C
, b =
5 4
1 ,
ta có phương trình chuẩn tắc
ATA
∧
x = ATb hay
45 9
9 3
D
C
42 10
Giải hệ này được nghiệm bình phương tối thiểu ∧x=
3
2 , 3
4 Như vậy đường khớp nhất là
Trang 10y = 3
3
2
t
Ví dụ 6
Cho dữ liệu
Hãy tìm đường parabol khớp nhất
Giải Parabol phải tìm có phương trình dạng y = C + Dt + Et2 Ta xác định C, D và E bằng cách giải
hệ phương trình
C + D⋅0 + E⋅0 = 3
C + D⋅1 + E⋅1 = 2
C + D⋅2 + E⋅4 = 4
C + D⋅3 + E⋅9 = 4
Hệ này không có nghiệm thông thường, nên ta đi tìm nghiệm bình phương tối thiểu
Ký hiệu
A =
9 3 1
4 2 1
1 1 1
0 0 1
, x =
E D
C
, b =
4 4 2
3 ,
ta có phương trình chuẩn tắc
Trang 11∧
x = ATb hay
98 36 14
36 14 6
14 6 4
E D
C
=
54 22
13
Giải hệ này được nghiệm bình phương tối thiểu ∧x= (2.75,−0.25,0.25) Như vậy đường khớp nhất
là parabol
y = 2.75 - 0.25t + 0.25t2 ☺
Xác định hằng số lò-xo
Định luật Hook khẳng định rằng lực tác dụng lên một lò-xo là tỷ lệ với độ biến dạng của lò-xo Như
vậy, nếu F là lực tác dụng và x là độ biến dạng của lò-xo, thì F = kx Hằng số tỷ lệkđược gọi là
hằng số lò-xo
Một số sinh viên vật lý muốn xác định hằng số của một lò xo cho trước Họ tác dụng các lực
3, 5, và 8 pound làm lò-xo dãn 4, 7, và 11 inch, tương ứng Sử dụng Định luật Hook, họ nhận được
hệ phương trình sau:
4k = 3, 7k = 5, 11k = 8 hay
11 7
4 [k] =
8 5
3
Rõ ràng hệ này vô nghiệm nên mỗi phương trình cho một giá trị khác nhau của k Tuy nhiên họ có
thể tìm nghiệm bình phương tối thiểu của hệ Phương trình chuẩn tắc là 186k = 135, nên k ≈ 0.726
Gauss tìm quỹ đạo của hành tinh Ceres
Vào ngày 1/1/1801, nhà thiên văn G.Piazzi người Ý đã khám phá ra hành tinh lùn Ceres Ông đã theo dõi được nó trong sáu tuần nhưng sau đó nó đã biến mất do ảnh hưởng của Mặt trời Một số nhà thiên văn hàng đầu đã công bố những bài báo dựđoán quỹđạo của hành tinh này Gauss cũng công bố một dự báo, nhưng quỹ đạo được ông dựđoán khác xa những người khác Ceres đã được xác định lại vị trí theo một quan sát vào 7/12/1801 và theo một quan sát nữa vào 1/1/1802 Trong cả hai trường hợp vị trí đều rất gần với dựđoán của Gauss Gauss đã lập tức nổi tiếng trong giới thiên
văn và trong một thời gian ngắn đã nổi tiếng là một nhà thiên văn hơn là một nhà toán học Một trong những giải đáp cho thành công của Gauss là ông ta đã sử dụng phương pháp bình phương tối thiểu