PHƯƠNG PHÁP BÌNH PHƯƠNG TỐI THIỂU

Có rất nhiều công thức người ta rút ra từ các số liệu thực nghiệm. Chẳng hạn như: công thức liên hệ nhiệt độ, thể tích và áp suất; công thức liên hệ lượng mưa với mực nước sông; công thức liên hệ thể tích một hồ chứa với lưu lượng nước... Khi thiết lập được những công thức kiểu này ta có thể dự báo điều gì đó. Trong chương này ta tìm hiểu một trong những kỹ thuật để xây dựng công thức từ các số liệu thực nghiệm. Giả sử ta làm một dãy thí nghiệm, và hy vọng đầu ra y gần như là một hàm tuyến tính đối với đầu vào t, tức là một hàm có dạng y = C + Dt. Ví dụ như: (1) Trong một số khoảng thời gian, ta đo khoảng cách đến một vệ tinh đang trên đường tới sao Hỏa. Trong trường hợp này t là thời gian, y là khoảng cách, và trừ khi động cơ hoạt động hoặc lực hấp dẫn là mạnh, vệ tinh có thể di chuyển với vận tốc v gần như không đổi: y = y0 + vt. (2) Chúng ta có thể thay đổi sức nặng mà một công trình phải chịu đựng, và đo sức căng do nó sinh ra. Trong thí nghiệm này t là sức nặng, còn y được đọc từ máy đo sức căng. Trừ khi sức nặng là quá lớn đến nỗi vật liệu nát vụn, trong lý thuyết đàn hồi thường có quan hệ tuyến tính y = C + Dt

Trang 1

C hương 8

_

Có rất nhiều công thức người ta rút ra từ các số liệu thực nghiệm Chẳng hạn như: công thức liên hệ nhiệt độ, thể tích và áp suất; công thức liên hệ lượng mưa với mực nước sông; công thức liên hệ thể tích một hồ chứa với lưu lượng nước Khi thiết lập được những công thức kiểu này ta có thể dự báo điều gì đó Trong chương này ta tìm hiểu một trong những kỹ thuật để xây dựng công thức từ

các số liệu thực nghiệm Giả sử ta làm một dãy thí nghiệm, và hy vọng đầu ra y gần như là một hàm tuyến tính đối với đầu vào t, tức là một hàm có dạng y = C + Dt Ví dụ như:

(1) Trong một số khoảng thời gian, ta đo khoảng cách đến một vệ tinh đang trên đường tới

sao Hỏa Trong trường hợp này t là thời gian, y là khoảng cách, và trừ khi động cơ hoạt động hoặc lực hấp dẫn là mạnh, vệ tinh có thể di chuyển với vận tốc v gần như không đổi: y = y0 + vt

(2) Chúng ta có thể thay đổi sức nặng mà một công trình phải chịu đựng, và đo sức căng do

nó sinh ra Trong thí nghiệm này t là sức nặng, còn y được đọc từ máy đo sức căng Trừ khi sức nặng là quá lớn đến nỗi vật liệu nát vụn, trong lý thuyết đàn hồi thường có quan hệ tuyến tính y = C + Dt

Giả sử trong một dãy thí nghiệm ta thu được m kết quả y tại m giá trị t khác nhau

(t1; y1), (t2; y2), , (t m ; y m)

Vấn đề là làm thế nào để tính các hệ số C và D từ những kết quả này? Nếu quan hệ này đúng là tuyến tính, và không có sai số khi thí nghiệm, thì không có gì đáng làm; hai phép đo của y tại những giá trị khác nhau của t sẽ đủ để xác định đường thẳng y = C + Dt và toàn bộ những kết quả đo khác

sẽ nằm trên đường này Nhưng nếu có sai số, và những điểm đo thêm chệch khỏi đường thẳng, thì

hệ phương trình 2 ẩn sau đây vô nghiệm

C + Dt1 = y1

C + Dt2 = y2

C + Dt m = y m

Ký hiệu

A =













m

t

t t

1

2 1

- ma trận hệ số, x = 











D

C

- vectơ ẩn, b =













m

y

y y

2 1

ta viết gọn hệ trên ở dạng Ax = b

Phương pháp bình phương tối thiểu, còn gọi là phương pháp bình phương nhỏ nhất, là một kỹ thuật để tìm một nghiệm gần đúng cho một hệ phương trình tuyến tính không có nghiệm đúng Kỹ thuật bình phương tối thiểu đã được A M Legendre và C F Gauss xây dựng độc lập nhau Bài báo đầu tiên về vấn đề này đã được Legendre công bố vào năm 1806 mặc dù có bằng chứng rõ ràng là Gauss đã khám phá ra nó khi đang là sinh viên chín năm trước bài báo của

Trang 2

Legendre và đã sử dụng phương pháp này để tính toán thiên văn Ý tưởng chính của phương pháp là

mở rộng khái niệm nghiệm của Ax = b để phương trình này luôn có nghiệm Cụ thể như sau: Do không gian cột C(A) (không gian con của R m ) gồm tất cả những vectơ có dạng Ax (Xem 4.2), nên

Ax = b vô nghiệm khi và chỉ khi b không thuộc không gian này Trong C(A) ta chọn vectơ p sao cho

p gần b nhất, tức là độ dài ||b - p|| nhỏ nhất Khi đó x = xˆ sao cho p = A xˆ được gọi là nghiệm bình phương tối thiểu của Ax = b Nếu Ax = b có nghiệm thông thường thì b thuộc C(A), nên vectơ p =

A xˆ thuộc C(A) mà gần b nhất chính là b và do đó xˆ trùng với nghiệm thông thường Như vậy

nghiệm bình phương tối thiểu là mở rộng của nghiệm thông thường Hình dưới đây minh họa

phương pháp này trong trường hợp b ∈ R3, A = [a1 a2] là ma trận thực 3×2 với a1 và a2 không cùng phương Do

C(A) = {x1a1+x2a2| x1, x2 ∈R}

nên C(A) là mặt phẳng có cặp vectơ chỉ phương là a1 và a2 Trong hình học sơ cấp ta đã biết rằng p thuộc C(A) mà gần b nhất phải là hình chiếu vuông góc của b trên C(A)

8.1 PHÉP CHIẾU

Bây giờ ta mở rộng khái niệm phép chiếu trong hình học sơ cấp Thay cho đường thẳng hay mặt phẳng đi qua gốc tọa độ của R3, ta xét không gian cột C(A), là không gian con của R m

Định nghĩa Cho A là ma trận thực cỡ m×n, b là vectơ trong R m Hình chiếu của b trên không

gian cột C(A) là vectơ p thuộc C(A) sao cho b - p trực giao với mọi vectơ thuộc C(A)

Cách tìm hình chiếu

cột a1

cột a2

p = A xˆ

b

Trang 3

Giả sử A là ma trận thực cỡ m×n, có cột j là a j (j = 1, , n) Theo định nghĩa

C(A) ={ x1a1 + x2a2 + ⋅⋅⋅ + x n a n | x j ∈R }

nên mỗi vectơ y thuộc C(A) có dạng y = x1a1 + x2a2 + ⋅⋅⋅ + x n a n Dễ thấy rằng b - p trực giao với mọi

y thuộc C(A) khi và chỉ khi b - p trực giao với tất cả các vectơ a j (j = 1, , n), tức là

T j

a (b - p) = 0 (j = 1, , n)

Vì T

j

a (b - p) là hàng j của ma trận AT nhân với b - p, nên các phương trình trên được viết gộp ở

dạng ma trận là

AT(b - p) = 0 (1)

Mặt khác p thuộc C(A), nên p có dạng p = 1

∧

x a1 + ⋅ ⋅ ⋅ + x n

∧

a n Ký hiệu xˆ = ( 1

∧

x , , x n

∧

), thì p =

A xˆ Phương trình (1) tương đương với phương trình

AT(b - A xˆ ) = 0

Ta viết lại phương trình này ở dạng quen thuộc

ATA xˆ = ATb (2)

(2) được gọi là phương trình chuẩn tắc Như vậy ta có phương pháp xác định hình chiếu như sau:

Giải phương trình chuẩn tắc (2) để xác định xˆ = ( 1

∧

x , , x n

∧

) Hình chiếu của b trên không gian C(A) là p = A xˆ

Ví dụ 1 Cho

A =











 2 1 0 1 1

1

và b =











 0 0

6

Tìm hình chiếu p của b trên C(A)

Giải

ATA = 











2 1 0

1 1 1











 2 1 0 1 1

1









 5 3

3 3

và ATb = 











2 1 0

1 1 1











 0 0

6 = 









 0

6

Phương trình chuẩn tắc ATA

∧

x = ATb để tìm x∧ là











 5 3

3 3













∧

2

1

x

= 









 0 6

Trang 4

Giải phương trình này ta được

∧

x=













∧

2

1

x

x = 











−3

5 Hình chiếu là

p = A

∧

x =











 2 1 0 1 1

1













−3

5 =













−1 2

5 ☺

Có ba câu hỏi được đặt ra đối với ma trận thực A cỡ m×n và vectơ b trong R m:

1) Hình chiếu p của b trên không gian cột C(A) có luôn luôn tồn tại?

2) Nếu tồn tại hình chiếu thì nó có duy nhất không?

3) Độ dài của b - p so với độ dài của b - y với y thuộc C(A)\{p}thế nào?

Định lý sau đây trả lời cả ba câu hỏi này

Định lý 8.1.1 Cho A là ma trận thực cỡ m×n Đối với mỗi b∈Rm tồn tại duy nhất hình chiếu p của

b trên không gian cột C(A) Ngoài ra

||b - y|| > ||b - p||

đối với bất kỳ y thuộc C(A)\{p}

Chứng minh

Áp dụng Hệ quả 6.1.4 cho ma trận AT, với mỗi b ∈R m tồn tại duy nhất vectơ x r ∈ C((AT)T) = C(A)

và tồn tại duy nhất vectơ x n ∈N(AT) sao cho b = x r + x n Vì AT(b - x r )= ATx n = 0, nên p = x r là hình

chiếu của b trên không gian cột C(A)

Với bất kỳ y thuộc C(A)\{p}, thì

(b - y) 2 = [(b - p) + (p - y)]2 = (b - p)2 + (p - y)2 + 2(b - p)⋅(p - y) (3)

Do p - y thuộc C(A), còn b - p trực giao với mọi vectơ thuộc C(A), nên (b - p)⋅(p - y) = 0 Thay vào

(3) ta có

(b - y) 2 = (b - p)2 + (p - y)2

Do đó

(b - y) 2 > (b - p)2 Khai căn hai vế ta có

||b - y|| > ||b - p|| ☺

Bình luận Tính chất của hình chiếu p hoàn toàn như trong hình học sơ cấp: b - p trực giao với mọi

vectơ của C(A) Vì ||b - y|| = khoảng cách giữa b và y, ||b - p|| = khoảng cách giữa b và p, nên bất

đẳng thức ||b - y|| > ||b - p|| nói lên rằng p là vectơ thuộc không gian C(A) mà gần b nhất

Trang 5

Chú ý Vì p luôn tồn tại và p = A xˆ , nên xˆ luôn tồn tại Nói chung thì ∧x không duy nhất, mặc dù

theo Định lý 8.1.1 p = A∧x là duy nhất

Ví dụ 2 Cho

A =













−

1 1 1 1 1

1

và b =











 0 0

6

Tìm x∧ và tìm hình chiếu p của b trên C(A)

Giải

ATA = 











−

1 1 1













−

1 1 1 1 1

1











−

− 3 3

3 3











−

1 1 1











 0 0

6











−6

6

Phương trình chuẩn tắc ATA

∧

x = ATb là













−

− 3 3

3 3













∧

2

1

x

x = 











−6

6

Nó có nghiệm tổng quát ∧x = (t, t - 2) ( x không duy nhất) ∧

Hình chiếu là

p = A

∧

x =













−

1 1 1 1 1

1













−2

t

=











 2 2

2 ☺

Sau đây là điều kiện để x∧ là duy nhất

Định lý 8.1.2 Nếu A là ma trận thực cỡ m×n, có hạng bằng n, thì AT

A khả nghịch và phương trình chuẩn tắc

ATA

∧

x = ATb

Trang 6

có nghiệm duy nhất (x = (ATA)-1ATb)

Chứng minh ATA là ma trận n×n, vì vậy muốn chứng minh nó khả nghịch ta chỉ cần chỉ ra det(ATA ) ≠ 0 Giả sử z là một nghiệm của ATA x = 0 Thế thì Az ∈ N(AT) Nhưng Az ∈C(A) và C(A)∩N(AT) = {0} (do C(A) và N(AT) trực giao), nên Az = 0 Do r(A) = n nên hệ Ax = 0 chỉ có nghiệm tầm thường (z = 0) Như vậy ATA x = 0 cũng chỉ có nghiệm tầm thường Do đó r(ATA ) = n

Suy ra det(ATA) ≠ 0 (Định lý 4.3.1) Từ đây, cũng theo Quy tắc Cramer, phương trình chuẩn tắc có nghiệm duy nhất ☺

Với các giả thiết của Định lý 8.1.2, ta có công thức xác định hình chiếu

p = A x∧ = A(ATA)-1ATb

Nói chung A không phải là ma trận vuông, nên ta có thể mắc sai lầm khi tách (ATA)-1 thành A-1 nhân

(AT)-1

Định nghĩa Cho A là ma trận thực cỡ m×n, có hạng bằng n Ma trận P = A(ATA)-1AT được gọi là

ma trận chiếu

Ví dụ 3 Cho

A =











 2 1 0 1 1

1

và b =











 0 0

6

Tìm ma trận chiếu P Từ đó tính p và so sánh với Ví dụ 1

Giải

ATA = 









 5 3

3 3

có ma trận nghịch đảo là (ATA)-1 =

6

1













−

− 3 3

3 5

P = A(ATA)-1AT =











 2 1 0 1 1

1 6

1













−

− 3 3

3 5













2 1 0

1 1 1

= 6

1













−

5 2 1

2 2 2

1 2 5

p = Pb =

6

1













−

5 2 1

2 2 2

1 2 5











 0 0

6 =













−1 2

5

Kết quả là p như ở Ví dụ 1 ☺

Nhận xét

Trang 7

1) P chính là ma trận chính tắc của một phép biến đổi tuyến tính từ R vào R , cho tương ứng mỗi

vectơ b∈R m với hình chiếu p = Pb của nó trên C(A) Phép biến đổi tuyến tính này chính là phép chiếu (vuông góc) lên C(A)

2) P2 = A(ATA)-1ATA (ATA)-1AT = AI(ATA)-1AT = A(ATA)-1AT =P Suy ra P2 = P và Pp = P(Pb) = P2b

= Pb = p Điều này nói lên rằng với cùng một phép chiếu thì hình chiếu của một hình chiếu p là chính p

3) Do b - p trực giao với C(A) và N(AT) là phần bù trực giao của C(A) (Định lý cơ bản của ĐSTT, Phần 2), nên b - p thuộc N(AT) Trong khi đó b - p = b - Pb = (I - P)b, nên I - P cũng là ma trận của phép chiếu lên không gian con N(AT) (Nó chiếu mỗi vectơ b lên không gian con N(AT))

Phép chiếu sử dụng cơ sở trực chuẩn: Q thay cho A

Những công thức xác định ∧x , hình chiếu p và ma trận chiếu P sẽ trở nên đơn giản hơn khi ma trận

A là ma trận Q mà có tất cả các cột là v1, v2, , v n lập thành một tập trực chuẩn Hàng thứ i của QT

là v iT Theo Quy tắc nhân ma trận, phần tử hàng i, cột j của QTQ là

v iT⋅vj = v i⋅vj =







=

≠

j i khi

1

0

,

nên QTQ = I Do vậy, theo Định lý 8.1.2 ta có

∧

x = QTb p = Q x∧ = QQTb P = QQT

Ví dụ 4 Cho

Q =











 0 1 0 0 0

1

và b =











 4 3

5

Tìm x∧, p và P

Giải

∧











0 1 0

0 0 1











 4 3

5 = 









 3

5

p = Q x = ∧











 0 1 0 0 0

1











 3

5 =











 0 3 5

Trang 8

P = QQT =













0 0 0

0 1 0

0 0 1

☺

Chú ý Nếu A là ma trận thực, có có tất cả các cột là a1, a2, , a n độc lập tuyến tính, nhưng chúng không lập thành tập trực chuẩn, thì ta có thể dùng Phương pháp trực giao hóa Gram-Schmidt để từ

các cột này xây dựng tập trực giao {v1, v2, , v n } Khi đó thay cho A ta làm việc với ma trận Q =

[v1 v2 v n]

8.2 ỨNG DỤNG CỦA PHÉP CHIẾU

Mở rộng khái niệm nghiệm của phương trình Ax = b

Hệ phương trình Ax = b có thể vô nghiệm (Ta hay gặp tình huống này khi số phương trình nhiều hơn số ẩn) Bây giờ dựa vào phép chiếu ta đi mở rộng khái niệm nghiệm của Ax = b để phương

trình này luôn có nghiệm

Với mỗi vectơ Ax, độ dài ||b - Ax|| là khoảng cách từ b tới Ax Với hình chiếu p = A x∧ của b trên C(A), theo Định lý 8.1.1

||b - Ax|| > ||b - p|| = ||b - A∧x || ∀ Ax ∈ C(A)\{p}, nên ||b - Ax|| đạt min tại x = ∧x

Định nghĩa Cho A là ma trận thực cỡ m×n, b∈Rm Nghiệm bình phương tối thiểu của hệ Ax = b

là

∧

x ∈R n sao cho ||b - A x∧|| = b Ax

n

R x

−

∈

Nếu Ax = b có nghiệm thông thường x = v, tức là Av = b, thì ||b - Av|| = 0 nên

||b - Av|| = b Ax

n

R x

−

∈

Do đó, trong trường hợp này nghiệm v cũng là một nghiệm bình phương tối thiểu Như vậy khái

niệm nghiệm bình phương tối thiểu là mở rộng của khái niệm nghiệm thông thường

Với mỗi vectơ Ax thuộc C(A), ta gọi e = b - Ax là vectơ sai số Do ||e|| = căn bậc hai của tổng bình phương các thành phần của e, mà xˆ lại làm cho ||e|| nhỏ nhất nên người ta gọi xˆ là nghiệm bình phương tối thiểu Mục 8.1 đã chỉ ra rằng nghiệm bình phương tối thiểu xˆ luôn tồn tại

(nhưng có thể không duy nhất) và tìm được bằng cách giải phương trình chuẩn tắc ATA xˆ = ATb

Trang 9

Chọn đường khớp nhất với một tập điểm dữ liệu trên mặt phẳng

Giả sử bằng thực nghiệm thu được tập hợp gồm các điểm (t i , y i ) (i = 1, 2, , m), gọi là tập điểm dữ liệu Để tìm mối quan hệ hàm giữa t và y ta thường chọn một hàm số f(t) thuộc lớp hàm số quen thuộc, như lớp hàm đa thức Trên mặt phẳng tọa độ, đồ thị của f(t) là một đường cong có thể không

đi qua tất cả các điểm dữ liệu, tức là nói chung f(ti ) ≈ y i Độ lệch giữa f(t i ) và y i là f(t i ) - y i Đồ thị

của hàm số f(t) thuộc lớp hàm số đã chọn sao cho ∑

=

−

n

i

t f

1

2

) ) ( ( bé nhất được gọi là đường khớp

nhất với tập điểm dữ liệu (theo nghĩa bình phương tối thiểu) Ta ứng dụng phương pháp bình phương tối thiểu để lựa chọn một đường khớp nhất

Ví dụ 5

Cho dữ liệu

Hãy tìm đường khớp nhất có phương trình trong lớp hàm tuyến tính

Giải Đường phải tìm có phương trình dạng y = C + Dt Ta xác định C và D bằng cách giải hệ phương trình

C + D⋅0 = 1

C + D⋅3 = 4

C + D⋅6 = 5

Hệ này không có nghiệm thông thường, nên ta đi tìm nghiệm bình phương tối thiểu

Ký hiệu

A =











 6 3 0 1 1

1

, x = 











D

C

, b =











 5 4

1 ,

ta có phương trình chuẩn tắc

ATA

∧

x = ATb hay 









 45 9

9 3













D

C









 42 10

Giải hệ này được nghiệm bình phương tối thiểu ∧x= 









 3

2 , 3

4 Như vậy đường khớp nhất là

Trang 10

y = 3

3

2

t

Ví dụ 6

Cho dữ liệu

Hãy tìm đường parabol khớp nhất

Giải Parabol phải tìm có phương trình dạng y = C + Dt + Et2 Ta xác định C, D và E bằng cách giải

hệ phương trình

C + D⋅0 + E⋅0 = 3

C + D⋅1 + E⋅1 = 2

C + D⋅2 + E⋅4 = 4

C + D⋅3 + E⋅9 = 4

Hệ này không có nghiệm thông thường, nên ta đi tìm nghiệm bình phương tối thiểu

Ký hiệu

A =













9 3 1

4 2 1

1 1 1

0 0 1

, x =













E D

C

, b =













4 4 2

3 ,

ta có phương trình chuẩn tắc

Trang 11

∧

x = ATb hay













98 36 14

36 14 6

14 6 4













E D

C

=











 54 22

13

Giải hệ này được nghiệm bình phương tối thiểu ∧x= (2.75,−0.25,0.25) Như vậy đường khớp nhất

là parabol

y = 2.75 - 0.25t + 0.25t2 ☺

Xác định hằng số lò-xo

Định luật Hook khẳng định rằng lực tác dụng lên một lò-xo là tỷ lệ với độ biến dạng của lò-xo Như

vậy, nếu F là lực tác dụng và x là độ biến dạng của lò-xo, thì F = kx Hằng số tỷ lệkđược gọi là

hằng số lò-xo

Một số sinh viên vật lý muốn xác định hằng số của một lò xo cho trước Họ tác dụng các lực

3, 5, và 8 pound làm lò-xo dãn 4, 7, và 11 inch, tương ứng Sử dụng Định luật Hook, họ nhận được

hệ phương trình sau:

4k = 3, 7k = 5, 11k = 8 hay











 11 7

4 [k] =











 8 5

3

Rõ ràng hệ này vô nghiệm nên mỗi phương trình cho một giá trị khác nhau của k Tuy nhiên họ có

thể tìm nghiệm bình phương tối thiểu của hệ Phương trình chuẩn tắc là 186k = 135, nên k ≈ 0.726

Gauss tìm quỹ đạo của hành tinh Ceres

Vào ngày 1/1/1801, nhà thiên văn G.Piazzi người Ý đã khám phá ra hành tinh lùn Ceres Ông đã theo dõi được nó trong sáu tuần nhưng sau đó nó đã biến mất do ảnh hưởng của Mặt trời Một số nhà thiên văn hàng đầu đã công bố những bài báo dựđoán quỹđạo của hành tinh này Gauss cũng công bố một dự báo, nhưng quỹ đạo được ông dựđoán khác xa những người khác Ceres đã được xác định lại vị trí theo một quan sát vào 7/12/1801 và theo một quan sát nữa vào 1/1/1802 Trong cả hai trường hợp vị trí đều rất gần với dựđoán của Gauss Gauss đã lập tức nổi tiếng trong giới thiên

văn và trong một thời gian ngắn đã nổi tiếng là một nhà thiên văn hơn là một nhà toán học Một trong những giải đáp cho thành công của Gauss là ông ta đã sử dụng phương pháp bình phương tối thiểu

Định dạng
Số trang	12
Dung lượng	385,07 KB