Luận văn thạc sĩ Toán ứng dụng: Hồi quy và ứng dụng

Wolfowitz 1956 đã chứng minh ước lượng này làvững với hàm tuyến tính và hàm phân phối xác suất của các hệ số hồi quy.Trên đà phát triển của mô hình hồi quy thì các lý thuyết về phân tích

Hồi quy đơn

Đặc trưng của mô hình

1 Biến ứng y i trong phép thử thứ i là tổng của hai thành phần: số hạng hằng số β 0 + β 1 x i và sai số ngẫu nhiên ε i Do đó, y i cũng là một biến ngẫu nhiên.

2 Vì E(ε i ) = 0 nên E(y i ) = E(β 0 + β 1 x i + ε i ) = β 0 + β 1 x i + E(ε i ) = β 0 + β 1 x i Do đó, biến ứng y i , khi bậc của x trong quan trắc thứ i là x i , xuất phát từ phân phối xác suất với kỳ vọng là

E(y i ) = β 0 + β 1 x i (1.2) Vì vậy, hàm hồi quy cho mô hình (1.1) là

Bởi vì hàm hồi quy liên quan đến kỳ vọng phân phối xác suất của y khi biết x đối với bậc x.

3 Biến ứng y i trong phép thử thứ i lớn hơn hoặc nhỏ hơn giá trị tương ứng trong hàm hồi quy một sai số ε i

4 Các sai số ε i được giả định có phương sai không đổi σ 2 Do đó, các biến ứng y có cùng phương sai không đổi

Do đó, trong mô hình hồi quy (1.1), ta giả sử rằng phân phối xác suất của y có cùng một phương sai σ 2 , với bất cứ bậc nào của biến dự báo x.

5 Các sai số được giả định không tương quan Vì các sai số ε i và ε j không tương quan, nên các biến ứng y i và y j cũng không tương quan.

6 Tóm lại, mô hình hồi quy (1.1) chỉ ra rằng các biến ứng y i có phân phối xác suất với kỳ vọng là E(y i ) = β 0 + β 1 x i và phương sai làσ 2 , đồng thời chúng giống nhau ở tất cả các bậc của x Hơn nữa, y i và y j là không tương quan.

Các hệ sốβ 0 và β 1 trong mô hình hồi quy (1.1) được gọi là cáchệ số hồi quy β 1 là hệ số góc của đường hồi quy Điều đó cho ta thấy sự thay đổi kỳ vọng của phân phối xác suất của y trên mỗi đơn vị tăng trong x Tham số β 0 là hệ số chặn y của đường hồi quy Khi mô hình mà x = 0, thì β 0 cho ta biết kỳ vọng phân phối xác suất của y.Khi mô hình không tồn tại x = 0, thì β 0 không có ý nghĩa cụ thể trong mô hình hồi quy.

Ước lượng của hàm hồi quy

Phương pháp bình phương cực tiểu

Trong việc xây dựng đường hồi quy ta cần ước lượng các hệ sốβ 0 và β 1 sao cho sai số ε là nhỏ nhất có thể Do đó, ta sẽ dùng chuẩn L 2 để đo độ lớn của ε Điều này có nghĩa là ta muốn chọn các hệ số β 0 và β 1 sao cho E(|ε| 2 )đạt cực tiểu Khi đó, phương pháp xây dựng đường hồi quy này được gọi là bình phương cực tiểu Đối với quan trắc (x i , y i ), phương pháp bình phương cực tiểu được xem là độ lệch của y i từ giá trị kỳ vọng của nó y i − (β 0 + β 1 x i ) (1.6) Đặc biệt, phương pháp bình phương cực tiểu đòi hỏi ta phải xét tổng n độ lệch bình phương Tiêu chí này được ký hiệu bởi Q như sau

(y i − β 0 − β 1 x i ) 2 (1.7)Theo phương pháp bình phương cực tiểu, các ước lượng của β 0 và β 1 lần lượt được kí hiệu làb 0vàb 1để cực tiểu hóaQtừ các quan trắc mẫu đã biết(x 1 , y 1 ), (x 2 , y 2 ), , (x n , y n ).

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng Ước lượng bình phương cực tiểu.

Các ước lượng b 0 và b 1 thỏa các tiêu chí bình phương cực tiểu có thể được tìm theo hai cách cơ bản sau.

1 Các phương pháp số có thể được sử dụng để đánh giá một cách có hệ thống các tiêu chí bình phương cực tiểu Q cho các ước lượng khác nhau b 0 và b 1 cho đến khi tìm ra những giá trị cực tiểu của Q.

2 Các quá trình phân tích thường có thể được sử dụng để xác định các giá trị của b 0 và b 1 để cực tiểu hóa Q Cách tiếp cận bằng phân tích là khả thi khi mô hình hồi quy không phức tạp về mặt toán học.

Sử dụng phương pháp phân tích, ta có thể tìm ra các giá trị b 0 và b 1 trong mô hình hồi quy (1.1) để Q đạt cực tiểu đối với bất kỳ tập dữ liệu mẫu cụ thể được cho bởi các phương trình sau n

Các phương trình (1.8) và (1.9) được gọi là phương trình chuẩn; b 0 và b 1 được gọi là bộ ước lượng điểm của β 0 và β 1 tương ứng.

Từ các phương trình chuẩn (1.8) và (1.9), ta tìm được giá trị cho b 0 và b 1 b 1 = P(x i − x)(y ¯ i − y) ¯

= ¯ y − b 1 x, ¯ (1.11) trong đó x ¯ và y ¯là kỳ vọng của các quan trắc x i và y i , tương ứng.

Tính chất của ước lượng bình phương cực tiểu Định lý 1.2.1 (Gauss-Markov) ([7], Theorem 1.6) Dưới các điều kiện của mô hình hồi quy (1.1), các ước lượng bình phương cực tiểu b 0 và b 1 trong (1.11)và (1.10) là không chệch và phương sai cực tiểu giữa tất cả các ước lượng tuyến tính là không chệch.

Từ định lý trên ta có các nhận xét sau.

Thứ nhất, định lý này khẳng định rằngb 0 và b 1 là các ước lượng không chệch Như vậy

E(b 0 ) = β 0 , E(b 1 ) = β 1 , trong đó ước lượng này không cùng tiến đến giá trị cao nhất hoặc thấp nhất trong các dữ liệu quan trắc.

Thứ hai, định lý này chỉ ra rằng các ước lượng b 0 và b 1 là chính xác hơn so với các ước lượng khác thuộc nhóm các ước lượng không chệch là các hàm tuyến tính của các quan trắc y 1 , , y n

Với các ước lượng mẫu b 0 và b 1 của các tham số trong hàm hồi quy (1.3)

E(y) = β 0 + β 1 x, (1.12) ta ước lượng hàm hồi quy như sau ˆ y = b 0 + b 1 x, (1.13) trong đó y ˆlà giá trị ước lượng của hàm hồi quy tại bậc x của biến dự đoán y ˆlà một ước lượng điểm của giá trị biến ứng khi bậc biến dự báo là x Nó có thể được biểu diễn như một phần mở rộng của định lý Gauss-Markov (1.2.1) mà y ˆlà một ước lượng không chệch của E(y) với phương sai cực tiểu trong lớp ước lượng tuyến tính không chệch.

Phần nhiễu thứ i là sự sai khác giữa giá trị quan trắc y i và giá trị hiệu chỉnh y ˆ i tương ứng Phần nhiễu này được kí hiệu e i và được định nghĩa như sau e i = y i − y ˆ i (1.14) Đối với mô hình hồi quy (1.1), phần nhiễu e i trở thành e i = y i − (b 0 + b 1 x i ) = y i − b 0 − b 1 x i (1.15)

Ước lượng phương sai σ 2 của sai số

Ước lượng điểm của σ 2

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng

Ta biết rằng phương sai σ 2 của một quần thể đơn được ước lượng bằng phương sai mẫu s 2 Trong phương sai mẫu s 2 , ta xét độ lệch của một quan trắc y i từ kỳ vọng được ước lượng y ¯và lấy tổng bình phương của các độ lệch này, ta được n

Ta sẽ xác định được phương sai mẫu hiệu chỉnh bằng cách chia tổng bình phương ở trên cho (n − 1) Ta được s 2 = Pn i=1 (y i − y) ¯ 2 n − 1 , trong đó số bậc tự do chỉ làn − 1bởi vì y ¯được sử dụng như một ước lượng chưa biết cho kỳ vọng à của quần thể Hơn nữa, phương sai mẫu hiệu chỉnh là một ước lượng không chệch của phương sai σ 2 của một quần thể Mặt khác, phương sai mẫu hiệu chỉnh cũng được gọi làtrung bình bình phương bởi vì tổng các bình phương được chia bởi số bậc tự do.

Từ (1.4), mỗi quan trắc y i trong mô hình hồi quy (1.1) cho ta phương sai σ 2 và sai số ε i Ta cần tính tổng bình phương độ lệch chuẩn Ta thấy rằng y i bây giờ xuất phát từ phân phối xác suất khác nhau với các kỳ vọng khác nhau và phụ thuộc vào bậc của x i Do đó, độ lệch của một quan trắc y i phải được tính toán theo giá trị ước lượng y của riêng nó Do đó, các độ lệch là các phần nhiễu y i − y ˆ i = e i , i = 1, , n và tổng bình phương sai số hoặc tổng bình phương phần nhiễu được viết tắt (SSE) là

Tổng bình phương SSE có n − 2 bậc tự do Hai bậc tự do bị mất vì cả β 0 và β 1 phải được ước lượng để thu được ước lượng kỳ vọng y ˆ i Do đó, kỳ vọng bình phương sai số hoặc kỳ vọng bình phương phần nhiễu được viết tắt (MSE) là s 2 = MSE = SSE n − 2 =

Có thể chỉ ra rằng MSE là một ước lượng không chệch của σ 2 đối với mô hình hồi quy (1.1)

Một ước lượng độ lệch chuẩn σ là s = √

MSE và chính là căn bậc hai dương củaMSE.

Mô hình hồi quy sai số chuẩn

Mô hình

• y i là giá trị của biến ứng trong phép thử thứ i,

• x i là một hằng số đã biết, cụ thể là, giá trị của biến dự báo phép thử thứ i,

• β 0 và β 1 là các tham số,

• ε i là sai số ngẫu nhiên độc lập tuân theo N (0, σ 2 ), i = 1, , n.

Ước lượng tham số bằng phương pháp hợp lý cực đại

Khi dạng hàm của phân phối xác suất của các sai số được xác định, các ước lượng của các tham số β 0 , β 1 , và σ 2 có thể thu được bằng phương pháp hợp lí cực đại Đặc biệt, phương pháp hợp lí cực đại chọn các ước lượng mà giá trị của các tham số hầu như vững với dữ liệu mẫu Trong khuôn khổ luận văn này, phương pháp hợp lí cực đại được trình bày cho trường hợp đơn giản được lấy mẫu với một tham số trong một quần thể đơn Sau đó, ta giải thích phương pháp này cho các mô hình hồi quy.

Phương pháp hợp lí cực đại sử dụng hàm mật độ xác suất tại y i như một thước đo tính vững cho quan trắc y i Sử dụng hàm mật độ cho phân phối xác suất chuẩn, ta tìm hàm mật độ cho y i , ký hiệu là f i

Phương pháp hợp lí cực đại sử dụng tích của các hàm mật độ như là thước đo tính nhất quán của giá trị tham số với dữ liệu mẫu Tích này được gọi là giá trị hợp lớ của giỏ trị à và được kớ hiệu bởi L(à) Nếu giỏ trị của à là vững với dữ liệu mẫu, thỡ mật độ tương đối lớn và tớch L(à) sẽ lớn (nghĩa là cú giỏ trị hợp lớ) Ngược lại, nếu giỏ trị của à khụng vững với dữ liệu, mật độ sẽ nhỏ và tớch L(à) sẽ là nhỏ.

Phương phỏp hợp lớ cực đại chọn ra ước lượng hợp lớ cực đại mà giỏ trị của à cú giá trị hợp lí là cực đại Cũng giống như đối với phương pháp bình phương cực tiểu, ta có hai phương pháp xác định ước lượng hợp lí cực đại: nghiên cứu số liệu một cách có hệ thống và sử dụng phân tích hậu nghiệm Trong một số trường hợp, các phân tích hậu nghiệm cho các ước lượng hợp lí cực đại hiệu quả Đối với những trường hợp khác, ta cần sự hỗ trợ của điện toán.

Tổng quát, hàm mật độ của một quan trắc y i cho mô hình hồi quy sai số chuẩn (1.19) như sau f i = 1

, (1.20) trong đó E(y i ) = β 0 + β 1 x i và σ 2 (y i ) = σ 2 Hàm hợp lí cho n quan trắc y 1 , y 2 , , y n là tích của các hàm mật độ riêng biệt trong (1.20) Vì phương sai σ 2 của sai số thường không được biết, hàm hợp lí là một hàm của ba tham số β 0 , β 1 và σ 2 như sau

Các giá trị của β 0 , β 1 và σ 2 cực đại hóa hàm hợp lí này là các ước lượng hợp lí cực đại, lần lượt được ký hiệu là β ˆ 0 , β ˆ 1 và σ ˆ 2 Những ước lượng này có thể được xác định bằng phương pháp giải tích Cụ thể, ta có

Tham số Ước lượng hợp lí cực đại β 0 β ˆ 0 = b 0 giống như (1.11) β 1 β ˆ 1 = b 1 giống như (1.10) σ 2 σ ˆ 2 =

Như vậy, các ước lượng hợp lí cực đại của β 0 và β 1 là các ước lượng mẫu đã được chỉ ra bởi phương pháp bình phương cực tiểu Tuy nhiên, ước lượng σ ˆ 2 bằng phương pháp hợp lí cực đại là chệch và thông thường ước lượng không chệch MSEtrong (1.17) được sử dụng Ta nhấn mạnh rằng các ước lượng không chệch MSE hoặcs 2 thì không quá khác biệt so với ước lượng hợp lí cực đại σ ˆ 2 , đặc biệt trong trường hợp n không quá nhỏ s 2 = MSE = n n − 2 σ ˆ 2 (1.22)

Hồi quy logistic đơn

Giới thiệu

Phương pháp hồi quy đã trở thành một thành phần không thể thiếu của bất kỳ phân tích dữ liệu nào liên quan đến việc mô tả mối quan hệ giữa một biến ứng với một hay nhiều biến giải thích Thông thường biến kết quả là rời rạc và nhận hai hoặc nhiều giá trị Mô hình hồi quy logistic là mô hình hồi quy thường được sử dụng thường xuyên để phân tích các dữ liệu này.

Trước khi bắt đầu nghiên cứu kỹ lưỡng mô hình hồi quy logistic, điều quan trọng là ta cần phải hiểu được mục đích của một phân tích sử dụng mô hình này cũng giống như bất kỳ mô hình hồi quy khác được sử dụng trong thống kê; tức là, tìm ra mô hình hiệu chỉnh “tốt nhất” có thể để mô tả mối quan hệ giữa một biến kết quả (phụ thuộc hoặc đáp ứng) và một tập các biến độc lập (dự đoán hoặc giải thích) Các biến độc lập thường được gọi là các hiệp biến.

Mô hình hồi quy logistic khác với mô hình hồi quy tuyến tính là biến kết quả trong hồi quy logistic là nhị phân hoặc lưỡng phân Sự khác biệt giữa hồi quy logistic và hồi quy tuyến tính được phản ánh cả dưới dạng mô hình và các giả thiết của chúng. Đầu tiên, sự khác biệt này được giải thích bởi các phương pháp được áp dụng cho việc phân tích trong mô hình logistic mặc dù chúng vẫn dựa vào nguyên tắc trong hồi quy tuyến tính Như vậy, các kỹ thuật được sử dụng trong phân tích hồi quy tuyến tính hỗ trợ cách tiếp cận của ta đối với hồi quy logistic. Đại lượng E(Y |x) được đọc là “giá trị kỳ vọng của Y, khi giá trị x đã biết” Trong hồi quy tuyến tính, ta giả sử rằng kỳ vọng này có thể được biểu diễn như là một phương trình tuyến tính theo x như sau

Biểu thức này chỉ ra rằng E(Y |x)nhận giá trị nằm trong khoảng −∞ và +∞ Không có gì đáng ngạc nhiên rằng một số phân phối tích lũy phổ biến được sử dụng để xác định một mô hình cho E(Y |x) trong trường hợp Y là lưỡng phân Mô hình mà ta sử dụng được dựa trên phân phối logistic.

Nhiều hàm phân phối đã được đề xuất để sử dụng trong phân tích một biến kết quả lưỡng phân Có hai lý do chính để chọn phân phối logistic Thứ nhất, từ quan điểm toán học, logit là một hàm tương đối dễ sử dụng và mang tính linh hoạt Thứ hai, các tham số mô hình của chúng là cơ sở cho những ước lượng có ý nghĩa về mặt hiệu quả. Để đơn giản hóa ký hiệu, ta sử dụng π(x) = E(Y |x) đại diện cho kỳ vọng của Y dưới điều kiện x khi phân phối logistic được sử dụng Dạng đặc biệt của mô hình hồi quy logistic mà ta sử dụng là π(x) = e β 0 +β 1 x

Một phép biến đổi của π(x) được gọi là biến đổi logit Đây là trọng tâm của nghiên cứu của mô hình hồi quy logistic Phép biến đổi này được biểu diễn theo π(x) như sau g(x) = ln π(x) 1 − π(x)

Tầm quan trọng của biến đổi này là g (x) có nhiều tính chất đặc trưng của một mô hình hồi quy tuyến tính Hàm Logit g (x) là tuyến tính theo tham số của nó, có thể liên tục, nhận giá trị từ −∞ đến +∞ và phụ thuộc vào x.

Sự khác biệt quan trọng thứ hai giữa hồi quy tuyến tính và logistic liên quan đến phân phối có điều kiện của biến kết quả Trong hồi quy tuyến tính ta giả sử rằng một quan trắc của biến kết quả có thể biểu diễn bằng y = E(Y |x) + ε Đại lượng ε được gọi là sai số và biểu diễn độ lệch quan trắc từ kỳ vọng có điều kiện Đối với hồi quy logistic, ta biểu diễn giá trị của biến kết quả cho x dưới dạng y = π(x) + ε Ở đây, đại lượng ε có thể nhận được một trong hai giá trị sau Nếu y = 1 thì ε = 1 − π(x) với xác suất π(x), và nếu y = 0 thì ε = −π(x) với xác suất 1 − π(x) Như vậy, ε có phân phối với kỳ vọng là không và phương sai bằng π(x)[1 − π(x)] Đây là phân phối có điều kiện của biến kết quả theo phân phối nhị thức với xác suất được đưa ra bởi kỳ vọng có điều kiện π(x).

Dưới đây, ta điểm lại các đặc điểm của phân tích hồi quy khi biến kết quả là lưỡng phân

1 Mô hình cho kỳ vọng có điều kiện của phương trình hồi quy nhận giá trị trong đoạn [0,1] Mô hình hồi quy logistic,π(x), được đưa ra trong phương trình (1.23), thỏa mãn tính chất trên.

2 Phân phối nhị thức mô tả phân phối của sai số và là phân phối thống kê dùng để phân tích.

3 Các nguyên lý dùng để phân tích hồi quy tuyến tính cũng được áp dụng trong hồi quy logistic.

Sự thích hợp của mô hình hồi quy logistic

Giả sử ta có một mẫu n quan trắc độc lập theo cặp (x i , y i ), i = 1, 2, , n, trong đó y i kí hiệu giá trị của một biến kết quả lưỡng phân và x i là giá trị của biến độc lập cho quan trắc thứ i Hơn nữa, giả sử rằng biến kết quả đã được mã hoá là 0 biểu thị cho sự vắng mặt và 1 biểu thị cho sự có mặt của đặc tính nào đó của mẫu được quan trắc Việc mã hóa này cho một kết quả lưỡng phân được sử dụng trong mục này Việc hiệu chỉnh mô hình hồi quy logistic trong phương trình (1.23) đối với một tập hợp dữ liệu đòi hỏi ta phải ước lượng các giá trị của tham số chưa biết β 0 và β 1 Trong phương trình hồi quy tuyến tính, phương pháp thường được sử dụng để ước lượng các giá trị tham số là bình phương cực tiểu Trong phương pháp này, ta chọn những giá trị của β 0 vàβ 1 cực tiểu hóa độ lệch tổng bình phương các giá trị quan trắc của Y từ các giá trị dự đoán dựa trên mô hình Theo các giả sử thông thường của phương pháp hồi quy tuyến tính, phương pháp ước lượng bình phương cực tiểu cho ta các ước lượng với một số đặc trưng thống kê Tuy nhiên, khi phương pháp bình phương cực tiểu được áp dụng cho một mô hình với một kết quả lưỡng phân, các ước lượng không còn có những tính chất như vậy.

Phương pháp tổng quát về ước lượng dẫn đến hàm bình phương cực tiểu dưới mô hình hồi quy tuyến tính (khi các sai số có phân phối chuẩn) được gọi là hợp lí cực đại Phương pháp này cung cấp nền tảng cho cách tiếp cận của ta để ước lượng với mô hình hồi quy logistic trong mục này Tổng quát, phương pháp hợp lí cực đại giúp ta tìm được các tham số chưa biết; trong đó các tham số này làm cực đại xác suất thu được từ tập dữ liệu đã quan trắc Để áp dụng phương pháp này, ta phải xây dựng

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng một hàm, gọi là hàm hợp lí Hàm này biểu diễn xác suất của dữ liệu quan trắc như là một hàm của các tham số không biết Các ước lượng hợp lí cực đại của các tham số là các giá trị cực đại của hàm này Do đó, các kết quả ước lượng là gần nhất với các dữ liệu quan trắc được Bây giờ, ta sẽ mô tả làm thế nào để xác định các giá trị này cho mô hình hồi quy logistic.

NếuY được mã hoá bằng 0 hoặc 1 thì biểu thức π(x) trong (1.23) cho ta (cho một giá trị tùy ý của β = (β 0 , β 1 ), vector của các tham số) xác suất có điều kiện của Y bằng 1 khi biết x, ta kí hiệu điều này là Pr(Y = 1|x) Ngược lại, đại lượng 1 − π(x) cho ta xác suất có điều kiện của Y bằng 0 khi biết x, ta kí hiệu là Pr(Y = 0|x) Như vậy, đối với những cặp (x i , y i ), trong đó y i = 1, xây dựng cho hàm hợp lí là π(x i ), đối với những cặp mà có y i = 0 thì hàm hợp lí là 1 − π(x i ), trong đó π(x i ) biểu thị giá trị của π(x) được tính tại x i Một cách thuận tiện để biểu diễn việc xây dựng cho hàm hợp lí đối với cặp (x i , y i ) là π(x i ) y i [1 − π(x i )] 1−y i (1.24)

Khi các quan trắc được giả sử là độc lập, hàm hợp lí thu được như tích các số hạng được cho trong phương trình (1.24) như sau l(β) = n

Theo nguyên tắc của hợp lí cực đại ta cần ước lượng giá trị β để cực đại hóa biểu thức trong phương trình (1.25) Hơn nữa, điều này sẽ thực hiện một cách dễ dàng bằng cách lấy log của phương trình (1.25) Như vậy, hàm hợp lí-log, được xác định là

{y i ln[π(x i )] + (1 − y i ) ln[1 − π(x i )]} (1.26) Để tìm giá trị của β cực đại hóa L(β) ta đạo hàm L(β) theo β 0 và β 1 và cho các kết quả bằng 0 Những phương trình này, được biết đến như phương trình hợp lí, là n

Trong phương trình hồi quy tuyến tính, các phương trình hợp lí, thu được bằng cách đạo hàm hàm tổng bình phương độ lệch đối với β, là tuyến tính tham số khôngNguyễn Thị Cẩm Vân -K2015 12 xác định Vì vậy ta dễ dàng tính toán Đối với hồi quy logistic các biểu thức trong phương trình (1.27) và (1.28) không tuyến tính theo β 0 và β 1 , và do đó ta cần có phương pháp đặc biệt để giải quyết Cụ thể, nghiệm của (1.27) và (1.28) thu được bằng cách sử dụng phương pháp bình phương cực tiểu có trọng số.

Giá trị của β là nghiệm của phương trình (1.27) và (1.28) được gọi là ước lượng hợp lí cực đại và được ký hiệu là β ˆ Nói chung, “∧” dùng để kí hiệu cho lượng ước lượng hợp lí cực đại của đại lượng tương ứng Đại lượng này cho ta ước lượng của xác suất có điều kiện của Y bằng 1, khi biết x bằng x i Như vậy, π(x ˆ i ) đại diện cho giá trị của dự đoán cho mô hình hồi quy logistic Một hệ quả thú vị của phương trình

Nghĩa là, tổng các giá trị quan trắc của ybằng với tổng của giá trị dự đoán (kỳ vọng).

Kiểm định ý nghĩa của các hệ số

Sau khi ước lượng các hệ số, ta cần đánh giá ý nghĩa của các biến trong mô hình đã được hiệu chỉnh Điều này thường bao gồm việc xây dựng và kiểm định giả thuyết thống kê để xác định liệu rằng các biến độc lập trong mô hình thật sự có “ý nghĩa” liên quan đến biến kết quả Phương pháp để thực hiện kiểm định này là khá tổng quát Trong mục này, ta sẽ trình bày cách tiếp cận chung cho trường hợp một biến độc lập Đối với trường hợp nhiều biến ta sẽ trình bày ở Chương 2.

Một cách tiếp cận để kiểm tra ý nghĩa của hệ số của một biến trong bất kỳ mô hình liên quan đến câu hỏi: “Liệu rằng mô hình bao gồm biến được giả định cho ta thông tin về biến kết quả có tốt hơn so với mô hình không chứa biến được giả định ở trên hay không?” Câu hỏi này được trả lời bằng cách so sánh các giá trị quan trắc được của biến ứng với các giá trị được dự đoán trong cả 2 mô hình; có chứa biến giả định và không có biến giả định Các hàm toán học được sử dụng để so sánh các giá trị quan trắc và dự đoán phụ thuộc vào bài toán cụ thể Nếu giá trị dự đoán trong mô hình có giả định tốt hơn, hoặc chính xác hơn theo một nghĩa nào đó, so với mô hình không chứa biến giả định, thì ta cảm thấy rằng biến được giả định này là “ý nghĩa” Điều quan trọng cần lưu ý là ta không xem xét liệu rằng các giá trị được dự đoán có phải là sự biểu diễn chính xác các giá trị quan trắc theo nghĩa tuyệt đối hay không Thay vào đó, câu hỏi của ta được đặt ra theo nghĩa tương đối.

Phương pháp chung để đánh giá ý nghĩa của các biến được minh họa trong mô hình hồi quy tuyến tính Điều này hổ trợ cho cách tiếp cận được sử dụng cho hồi quy logistic So sánh hai cách tiếp cận này làm nổi bật sự khác biệt giữa mô hình hóa các biến ứng liên tục và lưỡng phân.

Trong hồi quy tuyến tính, người ta đánh giá ý nghĩa của hệ số góc bởi bảng phân tích phương sai Phân vùng bảng tổng bình phương độ lệch của các quan trắc về kỳ vọng của chúng thành hai phần

• Tổng bình phương các độ lệch của các quan trắc về đường hồi quy SSE (hoặc tổng bình phương phần nhiễu).

• Tổng bình phương của các giá trị dự đoán, dựa trên mô hình hồi quy về kỳ vọng của biến phụ thuộc SSR (hoặc dựa vào tổng bình phương hồi quy). Đây chỉ là một cách thuận tiện để biểu diễn so sánh giá trị quan trắc được với các giá trị dự đoán trong hai mô hình Trong hồi quy tuyến tính, việc so sánh các giá trị quan trắc và dự đoán được dựa trên bình phương khoảng cách giữa hai giá trị nêu trên Nếu y i kí hiệu giá trị quan trắc được và y ˆ i kí hiệu giá trị dự đoán cho quan trắc thứ i trong mô hình thì thống kê được sử dụng để đánh giá sự sai khác này là

Trong mô hình không chứa biến độc lập được giả định thì hệ số chỉ là β 0 và β 0 = ¯ y (trung bình của biến ứng) Trong trường hợp này, y ˆ i = ¯ y và SSE bằng tổng của tổng các bình phương Nếu mô hình có chứa biến độc lập trong mô hình thì bất kỳ sự suy giảm nào trong SSE là do hệ số góc của đường hồi quy cho biến độc lập không phải là không Sự thay đổi giá trị của SSE này là do sự biến thiên của dữ liệu hồi quy, ta kí hiệu là SSR; nghĩa là,

Trong hồi quy tuyến tính, ta quan tâm đến độ lớn của SSR Nếu SSR có giá trị lớn, thì biến độc lập là quan trọng; ngược lại, nếu SSR có giá trị nhỏ, thì biến độc lập không hữu ích trong việc dự đoán biến ứng.

Tương tự, nguyên tắc của hồi quy logistic như sau: so sánh giá trị quan trắc của biến ứng với các giá trị dự đoán được từ các mô hình, có chứa biến giả định và khôngNguyễn Thị Cẩm Vân -K2015 14 có biến giả định Trong hồi quy logistic, so sánh giá trị quan trắc với các giá trị được dự đoán dựa trên hàm hàm hợp lí-log được trình bày trong phương trình (1.27) Để hiểu rõ hơn về sự so sánh này, ta xem giá trị quan trắc của biến ứng như là giá trị dự đoán trong một mô hình bão hòa Mô hình bão hòa là mô hình có chứa số tham số bằng với số lượng quan trắc của dữ liệu.

Ước lượng khoảng tin cậy

Để kiểm định ý nghĩa thống kê của mô hình, ta cần tính toán và diễn giải các khoảng tin cậy cho các tham số Ví dụ, trong trường hợp hồi quy tuyến tính ta cần xác định những hàm số góc, hệ số tự do và “đường” (tức là hàm logit) Trong một số tình huống, ta cũng quan tâm đến ước lượng khoảng cho các giá trị được hiệu chỉnh (nghĩa là xác suất được dự đoán).

Tương tự như trong việc xác định các ý nghĩa kiểm định của mô hình, ta cũng áp dụng lý thuyết thống kê để xây dựng các khoảng ước lượng Đặc biệt, các ước lượng khoảng tin cậy cho hệ số góc và hệ số chặn thường được dựa trên các kiểm định Wald và đôi khi được gọi là các khoảng tin cậy Wald Các giá trị tới hạn của một khoảng tin cậy 100(1 − α)% cho hệ số góc là β ˆ 1 ± z 1−α/2 SE( ˆc β 1 ) (1.32) và đối với hệ số tự do là β ˆ 0 ± z 1−α/2 SE( ˆc β 0 ), (1.33) trong đú z 1−α/2 là điểm tới hạn trờn của100(1 − α/2)% theo phõn phối chuẩn và SE(ã)c được kí hiệu cho ước lượng dựa trên mô hình của sai số chuẩn của ước lượng tham số tương ứng.

Chương 2CÁC MÔ HÌNH HỒI QUY

Giới thiệu

Trong chương này, ta xem xét mối quan hệ tuyến tính giữa một hay nhiềuy (biến phụ thuộc hoặc biến ứng) và một hoặc nhiều x (các biến độc lập hoặc dự báo) Ta sử dụng một mô hình tuyến tính để biểu thị mối liên hệ y với x Dưới ý nghĩa thống kê, ta tiến hành ước lượng và kiểm định các tham số trong mô hình Một vấn đề được quan tâm ở đây là ta phải chọn bao nhiêu biến phản ánh được những đặc tính của mô hình.

Ta có thể phân biệt ba trường hợp theo số lượng các biến như sau 1 Hồi quy tuyến tính đơn: duy nhất một y và duy nhất một x. 2 Hồi quy tuyến tính bội: một y và nhiều hơn một x.

3 Hồi quy tuyến tính bội đa biến: nhiều hơn một y và nhiều hơn một x. Để phân biệt giữa trường hợp 2 và trường hợp 3, ta thấy rằng trường hợp 2 như hồi quy bội đơn biến vì chỉ có duy nhất một biến y Như vậy trong trường hợp 3, thuật ngữ đa biến chỉ ra rằng có nhiều hơn một biếny và bội tức là, có nhiều hơn một biến x.

Thông thường, các biến độc lập có hai dạng cơ bản là cố định và ngẫu nhiên Ở đây, thuật ngữ ngẫu nhiên phản ánh tất cả các y và xđược đo, hoặc quan trắc không bị các nhà nghiên cứu kiểm soát, cố định thì ngược lại. Để cung cấp một cơ sở vững chắc cho hồi quy bội đa biến, ta xem xét một số đặc trưng của hồi quy bội với x cố định ở mục 2.2 Trường hợp xngẫu nhiên cho hồi quy bội được trình bày ngắn gọn trong mục 2.3 Nội dung chương này được trình bày dựa vào chương 2, trang 322-361 sách Method of Multivariate Analysis [9] và chương

2, trang 48-60 sách Applied Logistic Regression [5] Trong chương này, ta xét hai mô hình là mô hình hồi quy đa biến và hồi quy logistic đa biến.

Hồi quy bội: x cố định

Mô hình x cố định

Trong mô hình hồi quy x cố định, ta biểu diễn mỗi y trong một mẫu n quan trắc như là một hàm tuyến tính của x và một sai số ngẫu nhiên ε i , i = 1, , n. y 1 = β 0 + β 1 x 11 + β 2 x 12 + ã ã ã + β q x 1q + ε 1 y 2 = β 0 + β 1 x 21 + β 2 x 22 + ã ã ã + β q x 2q + ε 2

Số lượng x được kí hiệu bởi q Các β trong (2.1) được gọi là các hệ số hồi quy Các giả thiết cho mô hình trên như sau

Ta làm rõ hơn ý nghĩa của các giả thiết trên như sau Giả thiết 1 cho rằng mô hình là tuyến tính và không cần thêm thông tin để dự đoán y; tất cả sự biến thiên còn lại trong y là hoàn toàn ngẫu nhiên và không thể dự đoán Như vậy, nếu E(ε i ) = 0 và x cố định, thỡ E(y i ) = β 0 + β 1 x i1 + β 2 x i2 + ã ã ã + β q x iq , và trung bỡnh của y được biểu diễn theo cỏc x i1 , ã ã ã , x nq , i = 1, ã ã ã , n mà khụng cần quan tõm đến những yếu tố khác Trong giả thiết 2, phương sai của mỗi ε i là như nhau, dẫn đến var(y i ) = σ 2 , vì các x cố định Giả thiết 3 cho rằng các sai số không tương quan, dẫn đến các y cũng không tương quan; nghĩa là, cov(y i , y j ) = 0.

Do đó, ba giả thiết trên có thể được điều chỉnh lại theo y như sau (A4) E(y i ) = β 0 + β 1 x i1 + β 2 x i2 + ã ã ã + β q x iq i = 1, 2, , n.

Theo ngôn ngữ ma trận, các mô hình cho n quan trắc trong (2.1) có thể được viết lại một cách chính xác như sau

Với ký hiệu này, ba giả thiết (A1), (A2), (A3) trở thành (A7) E(ε) = 0.

(A8) cov(ε) = σ 2 I. Ta cũng có thể viết lại theo y như sau (A9) E(y) = Xβ.

Lưu ý rằng giả thiết (A10) là sự kết hợp của giả thiết (A5) và (A6); nghĩa là,cov(y) = σ 2 I tức là var(y i ) = σ 2 và cov(y i , y j ) = 0 Để ước lượng và kiểm định, ta cần có điều kiện n > q + 1.

Ước lượng bình phương cực tiểu trong mô hình x cố định

Nếu giả thiết (A4) được thỏa, thì ta có E(y i ) = β 0 + β 1 x i1 + β 2 x i2 + + β q x iq Ta cần phải ước lượng cho cỏc giỏ trị β 1 , , β q và sau đú ước lượng cỏc E(y i ), i = 1, ã ã ã , q. Nếu các ước lượng β i , i = 1, , q được ký hiệu là β ˆ 0 , β ˆ 1 , , β ˆ q , thì

E(y ˆ i ) = ˆ β 0 + ˆ β 1 x i1 + ˆ β 2 x i2 + + ˆ β q x iq Tuy nhiên, E(y ˆ i ) thường được kí hiệu bởiy ˆ i Vì vậy, y ˆ i là ước lượng của E(y i ), không phải của y i Bây giờ, ta sẽ tìm hiểu thế nào là ước lượng bình phương cực tiểu của β i , i = 0, , q. Ước tính bình phương cực tiểu của β 0 , β 1 , , β q cực tiểu hóa tổng bình phương độ lệch n quan trắc của cácy i , i = 1, , ntừ các giá trị “mô phỏng” của chúng; nghĩa là, từ giá trị y ˆ i được dự đoán theo mô hình Do đó, ta cần tìm β ˆ 0 , β ˆ 1 , , β ˆ q để cực tiểu

Nguyễn Thị Cẩm Vân -K2015 18 hóa biểu thức sau

Giá trị β ˆ = ( ˆ β 0 , β ˆ 1 , , β ˆ q ) 0 thỏa SSE đạt cực tiểu trong (2.4) được xác định bởi β ˆ = (X 0 X) −1 X 0 y (2.5)

Trong (2.5), ta giả sửX 0 Xlà không chính tắc Điều này sẽ được thỏa mãn khin > q+1 và không có x j nào là tổ hợp tuyến tính của các x khác.

Trong biểu thức (2.4), ta nhận thấy rằng β ˆ 1 = s xy /s 2 x Tích X 0 y có thể được sử dụng để tính hiệp phương sai của x với y X 0 X có thể được sử dụng để xác định ma trận hiệp phương sai của x, trong đó bao gồm các phương sai và hiệp phương sai của x Vì X 0 X thường không phải là ma trận đường chéo nên mỗi β ˆ j phụ thuộc vào s x j y và s 2 x j cũng như mối quan hệ của x j với x khác.

Bây giờ, bằng công cụ đại số, ta chỉ ra rằng β ˆ = (X 0 X) −1 X 0 y trong (2.5) cực tiểu hóa SSE Nếu ta chọn hàng thứ i của X; nghĩa là, x 0 i = (1, x i1 , x i2 , , x iq ) và thay chúng vào (2.4), thì ta được

Giá trị y i − x 0 i β ˆ là thành phần thứ i của vector y − X ˆ β Do đó,

SSE = (y − X ˆ β) 0 (y − X ˆ β) (2.6) Để chứng tỏ β ˆ là giá trị làm cho SSE đạt cực tiểu, ta giả sử b là một ước lượng mà có thể làm cho SSE đạt giá trị nhỏ hơn SSE được ước lượng bởi β ˆ Thật vậy, ta thêm X( ˆ β − b) vào biểu thức (2.6) Khi đó

Bằng việc khai triển biểu thức trên theo y − X ˆ β và X( ˆ β − b), ta được

Số hạng thứ ba triệt tiêu nếu ta thay thế β ˆ = (X 0 X) −1 X 0 y bằng X 0 X ˆ β Số hạng thứ hai là một dạng xác định dương bậc hai Vì vậy SSE đạt cực tiểu khib = ˆ β Như vậy không tồn tại b nào để có thể làm giảm giá trị của SSE hơn so với β ˆ

2.2.3 Ước lượng cho σ 2 Ta có thể chỉ ra rằng

E(SSE) = σ 2 [n − (q + 1)] = σ 2 (n − q − 1) (2.7) Do đó, ta có thể thu được một ước lượng không chệch của σ 2 như sau s 2 = SSE n − q − 1 = 1 n − q − 1 (y − X ˆ β) 0 (y − X ˆ β) (2.8) Ta cũng có thể biểu diễn SSE dưới dạng

Ta lưu ý rằng có n số hạng trong y 0 y và q + 1 số hạng trong β ˆ 0 X 0 y Sự khác biệt là mẫu số của s 2 trong (2.8) Từ (2.8), ta thấy rằng giữa SSE và s 2 khác biệt nhau n − q − 1 lần Do đó, bậc tự do (mẫu số) của SSE được giảm bởi q + 1.

Sự cần thiết cho việc điều chỉnh q + 1đối với bậc tự do của SSE có thể được minh hoạ bằng một mẫu ngẫu nhiên đơn giản của một biến ngẫu nhiên y từ một quần thể với trung bỡnh à và phương sai σ 2 Tổng bỡnh phương P i (y i − à) 2 cú n bậc tự do, trong khi P i (y i − y) ¯ 2 có n − 1 bậc tự do Khi đó

Ta nhận thấy rằng y ¯ phự hợp hơn à, vỡ kỳ vọng của quần thể thỡ tốt hơn so với kỳ vọng của mẫu Vì vậy, (bình phương) độ lệch từ y ¯sẽ có xu hướng nhỏ hơn độ lệch từ à Trờn thực tế, ta thấy rằng n

Như vậy P i (y i − y) ¯ 2 biểu diễn như là một tổng của n thành phần lấy bình phương và trừ đi 1 lần bình phương tương ứng với n − 1 bậc tự do Chính xác hơn, ta có

Mô hình hiệu chỉnh cho Kỳ vọng

Để làm giảm sự phân tán của dữ liệu, ta thường “trung tâm hóa” các xbằng cách trừ đi trung bình của chúng,x ¯ 1 =Pn i=1 x i1 /n, x ¯ 2 =Pn i=1 x i2 /n Như vậy,(¯ x 1 , x ¯ 2 , , x ¯ q ) là trung bình các cột của X trong (2.2) Với các x đã được trung tâm hóa, mô hình mới cho mỗi y i trong (2.1) trở thành y i = α + β 1 (x i1 − x ¯ 1 ) + β 2 (x i2 − x ¯ 2 ) + ã ã ã + β q (x iq − x ¯ q ) + ε i , (2.11) trong đó α = β 0 + β 1 x ¯ 1 + β 2 x ¯ 2 + ã ã ã + β q x ¯ q (2.12) Để ước lượng β 1 =

 , ta sử dụng x trung tâm hóa trong ma trận

, (2.13) trong đó x 0 i = (x i1 , x i2 , , x iq ) và x ¯ 0 = (¯ x 1 , x ¯ 2 , , x ¯ q ) Sau đó, bằng cách tương tự như (2.5), ước lượng bình phương cực tiểu của β 1 là β ˆ 1 = (X 0 c X c ) −1 X 0 c y (2.14)

Nếu E(y) = β 0 + β 1 x 1 + ã ã ã + β q x q được ước lượng tại x 1 = ¯ x 1 , x 2 = ¯ x 2 , , x q = ¯ x q, kết quả là giống như α trong (2.12) Do đó, ta ước lượng α bởi y ¯ ˆ α = ¯ y.

Nói cách khác, nếu x ban đầu được biến đổi thành ¯ x = (¯ x 1 , x ¯ 2 , , x ¯ q ) 0 , thì đường hồi quy của mô hình thích hợp là y ˆ Với α ˆ = ¯ y, ta thu được β ˆ 0 = ˆ α − β ˆ 1 x ¯ 1 − β ˆ 2 x ¯ 2 − ã ã ã − β ˆ q x ¯ q = ¯ y − β ˆ 0 1 x ¯ (2.15) như là một ước lượng của β 0 trong (2.12) Đồng thời, các ước lượng β ˆ 0 và β ˆ 1 trong (2.14) và (2.15) giống như ước lượngβ ˆ = (X 0 X) −1 X 0 ytrong (2.5) khi sử dụng phương pháp bình phương cực tiểu.

Ta có thể biểu diễnβ ˆ 1 trong (2.14) dưới dạng phương sai và hiệp phương sai mẫu.

Các ma trận hiệp phương sai mẫu của y và x là

, (2.16) trong đó s yy là phương sai của y, s yj là hiệp phương sai của y và x j , s jj là phương sai của x j , s jk là hiệp phương sai của x j và x k , và s 0 yx = (s y1 , s y2 , ã ã ã , s yq ) Những phương sai và hiệp phương sai mẫu tương đương một cách toán học với các công thức tương tự đối với các biến ngẫu nhiên, trong đó các phương sai mẫu và hiệp phương sai là ước lượng phương sai và hiệp phương sai quần thể Tuy nhiên, ở đây các x được xem như là hằng số cố định từ mẫu Ví dụ, công thức s 11 =Pn i=1 (x i1 − x ¯ 1 ) 2 /(n − 1)như là tổng của n giá trị của x 1 nhưng không ước lượng được phương sai của quần thể. Để biểu diễn β ˆ 1 theo S xx và s yx trong (2.16), đầu tiên ta lưu ý những phần tử đường chéo của X 0 c X c là tổng bình phương được hiệu chỉnh Các thành phần ngoài đường chéo của X 0 c X c là tổng các bình phương đã được hiệu chỉnh.

1 n − 1 X 0 c y = s yx , (2.18) mặc dù y chưa được trung tâm hóa.

Bây giờ, bằng cách nhân và chia (2.14) cho n − 1, ta thu được β ˆ 1 = (n − 1)(X 0 c X c ) −1 X 0 c y n − 1 =

Kiểm định giả thuyết

Trong phần này, ta nhắc lại hai kiểm định cơ bản của β Để áp dụng kiểm định F, ta giả định rằng y là N n (Xβ, σ 2 I). p Kiểm định của hồi quy tổng quát

Giả thuyết hồi quy tổng quát cho thấy không có bất kỳ x nào dự đoán y, có thể được biểu diễn như H 0 : β 1 = 0, bởi vì β 0 1 = (β 1 , β 2 , , β q ) Ta không thể khẳng định β 0 = 0 trong giả thuyết bởi vì y có thể cắt trục tung tại 0.

Ta có thể biểu diễn SSE = y 0 y − β ˆ 0 X 0 y trong (2.9) dưới dạng y 0 y = (y 0 y − β ˆ 0 X 0 y) + ˆ β 0 X 0 y, (2.21) trong đó y 0 yphân hoạch thành một phần của β và một phần của các độ lệch của mô hình đã hiệu chỉnh. Để hiệu chỉnh y cho kỳ vọng của nó, ngoại trừ β 0 = 0, ta trừ n y ¯ 2 ở cả hai vế của (2.21), ta được y 0 y − n y ¯ 2 = (y 0 y − β ˆ 0 X 0 y) + ( β ˆ 0 X 0 y − n y ¯ 2 ) (2.22)

= SSE + SSR, trong đó y 0 y − n y ¯ 2 =P i (y i − y) ¯ 2 là tổng các tổng bình phương được điều chỉnh cho kỳ vọng và SSR = β ˆ 0 X 0 y − n y ¯ 2 là tổng bình phương điều chỉnh của đường hồi quy cắt trục tung.

Ta kiểm định H 0 : β 1 = 0 cho kỳ vọng

SSE/(n − q − 1) , (2.23) có phân phối là F q,n−q−1 khi H 0 : β 1 = 0 đúng Ta bác bỏ H 0 nếu F > F α,q,n−q−1 p Kiểm định trên một tâp hợp con của β Để đơn giản hóa mô hình, ta có thể kiểm định giả thuyết rằng một số β nào đó bằng 0 Trong các trường hợp khác, ta cần xác định rằng liệu một β j cụ thể có thể bị loại bỏ hay không.

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng Để thuận tiện cho việc trình bày, lấy các β bị loại bỏ và sắp xếp chúng ở vị trí sau cùng trong dãy các β và kí hiệu tập hợp này là β d , trong đó d phản ánh cho số lượng những β sẽ bị xóa nếu H 0 : β d = 0 được chấp nhận Tập hợp con giữ lại trong mô hình thu gọn được ký hiệu là β r Như vậy β được biểu diễn như sau β =

. Đặt h là số các tham số trongβ d Khi đó, ta có q + 1 − h tham số trong β r Để kiểm định giả thuyết H 0 : β d = 0, ta điều chỉnh mô hình tổng thể có chứa tất cả các β trong β và sau đó hiệu chỉnh mô hình chỉ còn chứa các β trong β r Lấy X r là các cột của X tương ứng với β r Do đó, mô hình rút gọn được viết lại như sau y = X r β r + ε (2.24) và β r được ước lượng bởi β ˆ r = (X 0 r X r ) −1 X 0 r y Để so sánh sự thích hợp của mô hình đầy đủ và mô hình rút gọn, ta tính β ˆ 0 X 0 y − β ˆ 0 r X 0 r y, (2.25) trong đó β ˆ 0 X 0 y là tổng các bình phương của đường hồi quy đối với mô hình đầy đủ và β ˆ 0 r X 0 r y là tổng các bình phương của đường hồi quy cho mô hình rút gọn Sự khác biệt trong (2.25) chỉ ra β d đóng góp “nhiều hơn hay ít hơn” so với β r Ta cũng có thể kiểm định H 0 : β d = 0 với thống kê F

SSE f /(n − q − 1) , (2.27) trong đó SSR f = β ˆ 0 X 0 y và SSR r = β ˆ 0 r X 0 r y Thống kê F trong (2.26) và (2.27) tuân theo F h,n−q−1 nếu H 0 đúng Ta bác bỏ H 0 nếu F > F α,h,n−q−1

Kiểm định trong (2.26) thì không quá khó để thực hiện Ta cần đánh giá mô hình đầy đủ và xác định mô hình hồi quy và tổng các bình phương sai số β ˆ 0 X 0 y và y 0 y − β ˆ 0 X 0 y Sau đó, ta đánh giá mô hình rút gọn và thu được tổng các bình phương sai số trong mô hình hồi quy rút gọn này Tiếp theo, ta xác định sự sai khác giữa β ˆ 0 X 0 y và β ˆ 0 r X 0 r y như sau β ˆ 0 X 0 y − n y ¯ 2 − ( β ˆ 0 r X 0 r y − n¯ y 2 ) = β ˆ 0 X 0 y − β ˆ 0 r X 0 r y.

Ngoài ra, ta có thể thu được β ˆ 0 X 0 y − β ˆ 0 r X 0 r y như là sự khác biệt giữa tổng các bình phương sai số trong hai mô hình

Một phép kiểm định cho một β j ở trên và β khác có thể thu được bởi việc áp dụng (2.26) Để kiểm định H 0 : β j = 0, ta sắp xếp β j ở vị trí cuối trong β β =

, trong đó β r = (β 0 , β 1 , , β q−1 ) 0 chứa tất cả β ngoại trừ β j Bởi (2.26), kiểm định thống kê là

SSE f /(n − q − 1) , (2.28) trong đó F chính là F 1,n−q−1 Lưu ý rằng h = 1 Kiểm định của H 0 : β j = 0 bởi thống kê F trong (2.28) được gọi là kiểm định F một phần.

Do thống kê F trong (2.28) có 1 và n − q − 1 bậc tự do, nên đây là bình phương của một t− thống kê t− thống kê tương đương với (2.28) là t = β ˆ j s √ g jj hay t 2 n−q−1 = F 1,n−q−1 , trong đó g jj là phần tử ở đường chéo thứ j của (X 0 X) −1 và s =p

R 2 trong hồi quy x cố định

Tỷ lệ của tổng biến thiên (được hiệu chỉnh) trong y có thể được xác định trong mô hình hồi quy đối với x được kí hiệu bởi R 2 như sau

R 2 = tổng các bình phương của đường hồi quy tổng các bình phương toàn phần

Tỷ số R 2 được gọi là hệ số bội xác định, hoặc phổ biến hơn là tương quan bội bình phương Tương quan bội R được định nghĩa là căn bậc hai dương của R 2

Kiểm định F đối với hồi quy tổng quát trong (2.23) có thể được biểu diễn theo R 2 là

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng Đối với mô hình rút gọn (2.24), R 2 có thể được viết như

Khi đó, kiểm định cho H 0 : β d = 0 trong mô hình đầy đủ và rút gọn trong (2.26) theo R 2 và R 2 r , trở thành

Ta có thể biểu diễn R 2 dưới dạng phương sai, hiệp phương sai và tương quan mẫu

R 2 = s 0 yx S −1 xx s yx s yy = r 0 yx R −1 xx r yx , (2.33) trong đó s yy , s yx , và S xx được định nghĩa trong (2.6) r yx và R xx xuất hiện từ việc phân chia tương tự như ma trận tương quan mẫu của y và x như sau

 1 r yx r yx ã ã ã r yx r yx 1 r yx ã ã ã r yx

Chọn lựa tập con

Trong thực tế, thường xuất hiện nhiều x hơn cần thiết để dự đoán y Một vài trong số chúng có thể dư thừa và có thể được loại bỏ Ngoài suy luận logic cho phép ta loại bỏ bớt một số biến, ta còn có những suy luận thống kê hổ trợ cho việc loại bỏ này Ví dụ, nếu một x được xóa khỏi mô hình được xem xét, các phương sai của β j và của y ˆ i sẽ được rút gọn.

Hai phương pháp phổ biến nhất để lựa chọn tập hợp con là (1) kiểm tra tất cả các tập con dương và (2) sử dụng kỹ thuật bước Ta sẽ bàn về những điều này trong hai ý tiếp theo. p Tất cả tập con dương

Cách tiếp cận tối ưu để lựa chọn tập hợp con là kiểm tra tất cả các tập con dương của x Điều này có thể không khả thi về mặt tính toán nếu kích cỡ mẫu và số lượng các biến là lớn.

Ta trình bày ba tiêu chí để so sánh các tập con khi tìm tập hợp con tốt nhất Để phù hợp với các ký hiệu được sử dụng trong luận văn, số lượng các biến trong mộtNguyễn Thị Cẩm Vân -K2015 26 tập hợp con được kí hiệu bởi p − 1, trong đó p là số tham số trong mô hình Tổng số các biến trong một tập con được lựa chọn được ký hiệu là k − 1, với k tham số trong mô hình.

1 R 2 p Từ (2.29) R p 2 là tỷ lệ tổng của tổng các bình phương (hiệu chỉnh) giải thích cho mô hình hồi quy, R 2 là một thước đo cho sự phù hợp của mô hình Chỉ số p là một chỉ số của kích thước tập con, vì nó chỉ ra số lượng các tham số trong mô hình, bao gồm một hệ số chặn Tuy nhiên, R 2 p không đạt cực đại với bất kỳ giá trị p nào nhỏ hơn k bởi vì nó không thể giảm khi một biến được thêm vào mô hình Thông thường, ta tìm tập con tốt này với R 2 p lớn nhất cho mỗi p = 2, 3, , k và sau đó chọn một giá trị p không làm cho R 2 tăng nữa.

2 s 2 p Một tiêu chí hữu ích là ước lượng phương sai cho mỗi tập con như trong (2.9) như sau s 2 p = SSE p n − p (2.35)

Với mỗi p = 2, 3, , k, ta tìm tập con vớis 2 p cực tiểu Nếu k là khá lớn, khip → k thì s 2 p giảm đến cực tiểu toàn phần (nhỏ hơn s 2 k ) và sau đó tăng lên Giá trị cực tiểu của s 2 p có thể nhỏ hơn s 2 k nếu giảm SSE p với một biến bổ sung không tác động đối với sự mất mát của bậc tự do trong mẫu số Một cách phổ biến ta thường chọn tập con với s 2 p cực tiểu tuyệt đối Tuy nhiên, theo Hocking (1976), quá trình này có thể phù hợp cho tính duy nhất của độ nhiễu cho mẫu Do đó, ta có thể chỉ ra một hoặc nhiều biến dự báo không liên quan Một giải pháp khác là chọn p sao cho min p s 2 p = s 2 k hoặc, chính xác hơn, chọn giá trị nhỏ nhất của p sao cho min p s 2 p < s 2 k , vì sẽ không có p < k sao cho min p s 2 p là chính xác bằng s 2 k

3 C p Tiêu chí C p là do Mallows (1964, 1973) đề xuất Tiếp theo, nội dung được trình bày dựa vào Myers (1990) Kỳ vọng của bình phương sai số, E[ˆ y i −E(y i )] 2 , được sử dụng để xây dựng tiêu chí C p bởi vì kỳ vọng này liên kết giữa yếu tố phương sai và yếu tố độ lệch Mục đích là tìm ra một mô hình đạt được cân bằng giữa phương sai và độ lệch của các giá trị đã hiệu chỉnh y ˆ i Ta biết rằng, các giá trị y ˆ i phụ thuộc vào mô hình Do đó, nếu mô hình không chính xác; nghĩa là E(ˆ y i ) 6= E(y i ) thì độ lệch tăng; ngược lại, mô hình chính xác; nghĩa làE(ˆ y i ) = E(y i ), thì E[ˆ y i − E(y i )] 2 = var(ˆ y i ) Tổng quát, khi ta khảo sát nhiều mô

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng hình, với các giá trị pkhác nhau thì y ˆ i không hoàn toàn dựa trên mô hình chính xác bởi vì

Với một giá trị pđã biết, tổng kỳ vọng bình phương sai số cho n quan trắc mẫu, được chuẩn hóa bằng cách chia cho σ 2 , ta được

Trước khi xác định C p như là một ước lượng trong (2.38), ta có một số kết quả sau. Đầu tiên, ta chỉ ra rằng P i var(y i )/σ 2 bằng p Thật vậy, với mô hình cho tất cả n quan trắc, ta có y = X p β p + ε.

Giả sử rằng, mô hình được xác định và mô hình chính xác này (tạo ra σ 2 ) chứa các β và các cột bổ sung của ma trận X Nếu ta kí hiệu hàng thứ i của X p bằng x 0 pi , thì số hạng đầu tiên ở vế phải của (2.38) trở thành

Thay (2.40) và (2.41) vào (2.38), ta được

Trong thực tế, MSE từ mô hình đầy đủ σ 2 là thường được ước lượng bởi s 2 k Như vậy, ta ước lượng (2.42) bởi

Thay (2.35) vào (2.43), ta được một dạng biểu diễn khác của C p như sau

Trong (2.43), ta thấy rằng nếu độ lệch là nhỏ cho một mô hình cụ thể, C p sẽ gần p. Vì lý do này, C p = p thường được biểu diễn chung với các giá trị C p trong một số mô hình Ta tìm các giá trị nhỏ của C p gần đường p này.

Trong một nghiên cứu bằng phương pháp Monte Carlo, Hilton (1983) đã so sánh một số tiêu chí lựa chọn tập hợp con dựa trên MSE p và C p Ba cách chọn tốt nhất là

• Tập con với p nhỏ nhất sao cho C p < p, nhìn chung cách này cho kết quả tốt nhất.

• Tập con với p nhỏ nhất sao cho s 2 p < s 2 k , cách này cho kết quả tương đối tốt.

• Tập con có cực tiểu là s 2 p , cách này cho kết quả tốt trong trường hợp k nhỏ. p Sự chọn theo bước Đối với nhiều tập dữ liệu, đôi khi không thực tế khi kiểm tra tất cả các tập con có thể có, thậm chí với một thuật toán hiệu quả như của Furnival và Wilson (1974).

Trong các trường hợp này, ta có thể sử dụng phương pháp tiếp cận theo từng bước, được sử dụng rộng rãi và hầu như không có giới hạn về số lượng các biến hoặc quan trắc Bởi phương pháp MANOVA hoặc phương pháp tất định ta sẽ lựa chọn các biến phụ thuộc để chia nhóm Trong mục này, ta quan tâm đến việc lựa chọn các biến độc lập x để đưa ra mô hình y trong hồi quy (rõ ràng, y là biến phụ thuộc vào các x).

Ta xem xét quá trình lựa chọn thuận, cách này thường sử dụng kiểm định F tại mỗi bước Ở bước đầu tiên, y được hồi quy trên mỗi x j , và x với giá trị F lớn nhất là “dự định thêm vào” mô hình Ở bước thứ hai, ta tìm biến đạt giá trị F từng phần lớn nhất trong kiểm định ý nghĩa của từng biến ứng với các biến đã được xác định trong bước 1 Do đó, nếu ta kí hiệu biến đầu tiên được chọn là x 1 , thì ở bước thứ hai ta tính toán thống kê từng phân F như sau

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng cho mỗi j 6= 1 và chọn biến làm cho cực đại hóa F, trong đó MSR = (SSR f − SSR r )/h và MSE = SSE f /(n − q − 1) là các kỳ vọng bình phương cho hồi quy và sai số, như trong (2.27) Cụ thể, SSR f = SSR(x 1 , x j ) và SSR r = SSR(x 1 ) Lưu ý rằng h = 1 vì chỉ có một biến được thêm vào, và MSE được tính bằng cách chỉ sử dụng biến đã thêm vào kết hợp với biến tiềm năng Quá trình này tiếp tục ở mỗi bước cho đến khi F từng phần lớn nhất với một biến thêm vào nhỏ hơn một giá trị ngưỡng F được chọn trước đó hoặc cho đến khi giá trị p tương ứng vượt quá một mức đã được xác định nào đó.

Quá trình lựa chọn theo bước tương tự tìm biến tốt nhất để nhập vào mỗi bước.

Hồi quy bội: các x ngẫu nhiên

Trong mục 2.2, ta đã giả sử rằng các x cố định và sẽ có cùng giá trị mặc dù mẫu được lấy khác; nghĩa là, một ma trận X sẽ được sử dụng khi ta quan trắc một vector y nào đó Tuy nhiên, nhiều ứng dụng hồi quy liên quan đến các x chỉ ra rằng các x này là các biến ngẫu nhiên.

Như vậy trong trường hợpx ngẫu nhiên, các giá trị của x 1 , x 2 , , x q không thuộc tác động bởi người thiết kế thí nghiệm Chúng xuất hiện một cách ngẫu nhiên cùng với y Do đó, trên mỗi đối tượng ta sẽ quan trắc y, x 1 , x 2 , , x q

Nếu ta giả sử rằng (y, x 1 , x 2 , , x q ) có phân phối chuẩn đa biến, thì β, R ˆ 2 và các kiểm định F có cùng công thức như trong trường hợp x cố định Như vậy với giả sử chuẩn đa biến, ta có thể tiến hành ước lượng và kiểm định tương tự trong trường hợp x ngẫu nhiên và x cố định.

Hồi quy bội đa biến: Ước lượng

Hồi quy tuyến tính đa biến

Bây giờ ta xét mô hình hồi quy bội đa biến, trong đó đa biến đề cập đến các biến phụ thuộc và bội liên quan đến các biến độc lập Trong trường hợp này, nhiềuy được đo tương ứng với tập hợp các x Mỗi y 1 , y 2 , , y p là được dự đoán bởi tất cả các x 1 , x 2 , , x q

Với n giá trị quan trắc của vector y có thể được liệt kê dưới dạng các hàng của

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng ma trận sau

Vì mỗi hàng của Y chứa các giá trị của p biến phụ thuộc được xác định trên một đối tượng Mỗi cột của Y bao gồm n quan trắc một trong số p biến và tương ứng với y vector trong mô hình hồi quy (đơn biến) mục (2.3).

Với n giá trị của x 1 , x 2 , , x q có thể được mô tả bởi một ma trận tương tự như ma trận X trong công thức mô hình hồi quy bội trong mục 2.2.1

Ta giả sử X luôn cố định từ mẫu đến mẫu.

Với mỗi bộ y gồm p giá trị sẽ phụ thuộc vào x theo cách riêng của chúng, mỗi cột của Y sẽ cần các β khác nhau Do đó, ta có một cột của β cho mỗi cột của Y và các cột này tạo thành một ma trận B = (β 1 , β 2 , , β p ) Vì vậy, ta có mô hình đa biến là

Y = XB + Ξ, trong đó Y là ma trận cấp n × p, X là ma trận cấp n × (q + 1) và B là ma trận cấp (q + 1) × p Ở đây, ký hiệu Ξ được đại diện cho các sai số ε.

Tương tự với trường hợp đơn trong mục 2.2.1, các giả thiết cho các ước lượng như sau

(B2) cov(y i ) = Σ ∀i = 1, 2, , n trong đó y i 0 là hàng thứ i củaY. (B3) cov(y i , y j ) = O ∀i 6= j.

Giả thiết (B1) cho biết mô hình tuyến tính là chính xác và không cần thiết bổ sung x để dự đoán y Giả thiết (B2) khẳng định rằng mỗi vector quan trắc (hàng) trongY đều có ma trận hiệp phương sai giống nhau Giả thiết (B3) cho rằng các vector quan trắc (các hàng Y) không tương quan với nhau Như vậy, ta giả sử rằng y trongNguyễn Thị Cẩm Vân -K2015 32 một vector quan trắc (vector theo hàng trong Y) tương quan với nhau nhưng các y luôn độc lập khi xem xét sự độc lập của chúng so với bất kỳ vector theo hàng trong vector quan trắc khác.

Ma trận hiệp phương sai Σ trong giả thiết (B2) chứa các phương sai và hiệp phương sai của y i1 , y i2 , , y ip trong y i bất kì cov(y i ) = Σ =

Ma trận hiệp phương sai cov(y i , y j ) = O trong giả thiết (B3) chứa các hiệp phương sai của y i1 , y i2 , , y ip với y j1 , y j2 , , y jp

 cov(y i1 , y j1 ) cov(y i1 , y j2 ) ã ã ã cov(y i1 , y jp ) cov(y i2 , y j1 ) cov(y i2 , y j2 ) ã ã ã cov(y i2 , y jp )

cov(y ip , y j1 ) cov(y ip , y j2 ) ã ã ã cov(y ip , y jp )

Ước lượng bình phương cực tiểu trong mô hình đa biến

Ta gọi B ˆ làước lượng bình phương cực tiểu choB vì B ˆ “cực tiểu hóa” E = ˆ Ξ 0 Ξ ˆ, tương tự như biểu diễn của SSE, ta có

Rõ ràng, ma trận B ˆ cực tiểu hóa E Thật vậy, nếu ta lấy B 0 là một ước lượng tốt hơn B ˆ và cộng thêm ma trận xác định dương X ˆ B − XB 0 vào Y − X ˆ B trong E = (Y − X ˆ B) 0 (Y − X ˆ B) Kết quả chỉ ra rằng B ˆ là cực tiểu Ước lượng bình phương cực tiểu B ˆ cũng cực tiểu hóa đại lượng vô hướng tr(Y − X ˆ B) 0 (Y − X ˆ B) và

|(Y − X ˆ B) 0 (Y − X ˆ B)|.Ta lưu ý rằng trong mô hình Y = XB + Ξ, có mỗi cột trongB tương ứng với mỗi cột trong Y; nghĩa là, mỗi y j , j = 1, 2, , p, được dự đoán một cách khác nhau bởi x 1 , x 2 , , x q Trong ước lượng B = (X ˆ 0 X) −1 X 0 Y, ta có một kết quả tương tự Ma

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng trận tích (X 0 X) −1 X 0 được nhân với mỗi cột của Y Như vậy cột thứ j của B ˆ là ước lượng bình phương cực tiểu của β ˆ cho biến phụ thuộc thứ j: y j Để biểu diễn chính xác hơn, ta kí hiệu p cột của Y bằng y (1) , y (2) , , y (p) để phân biệt chúng vớin hàng của y 0 i , i = 1, 2, , n Khi đó

Các tính chất của ước lượng bình phương cực tiểu β ˆ

Ước lượng bình phương cực tiểu B ˆ có thể thu được mà không cần áp dụng các giả thiết E(y) = XB, cov(y i ) = Σ và cov(y i , y j ) = O Tuy nhiên, khi những giả thiết này thỏa, B ˆ có những tính chất sau.

1 Các ước lượng B ˆ là không chệch; nghĩa là, E( B) = ˆ B Điều này có nghĩa là nếu ta lấy lặp lại các mẫu ngẫu nhiên từ cùng một quần thể, giá trị trung bình của các B ˆ sẽ là B.

2 Các ước lượng bình phương cực tiểu β ˆ jk trong B ˆ có phương sai cực tiểu trong tất cả các ước lượng không chệch tuyến tính Kết quả này được biết như định lý Gauss-Markov Hạn chế đối với ước lượng không chệch này là cần phải loại bỏ các ước lượng hằng vì chúng có phương sai bằng không Tính chất phương sai cực tiểu này dành cho các ước lượng bình phương cực tiểu là rất quan trọng đối với phân phối tổng quát của nó; tính chuẩn của các y là không cần thiết.

3 Tất cả β ˆ jk trong B ˆ đều tương quan với nhau Điều này là do sự tương quan giữa các x với nhau và giữa các y với nhau Các β ˆ trong một cột nhất định của B ˆ tương quan bởi vì x 1 , x 2 , , x q là tương quan Nếu x 1 , x 2 , , x q trực giao với nhau thì các β ˆ trong mỗi cột của B ˆ sẽ không tương quan Như vậy mối quan hệ của x với nhau ảnh hưởng đến mối quan hệ của cácβ ˆ theo cột với nhau Ngược lại, các β ˆ theo cột tương quan từng đôi một vì y 1 , y 2 , , y p là tương quan.

Do sự tương quan giữa các cột trong B ˆ , ta cần kiểm định đa biến các giả thiết dành cho B Ta không thể sử dụng một kiểm định F từ mục 2.2.5 trên mỗi cột của B, bởi vì các kiểm định F này giải thích về mối tương quan hoặc phản ánh mức ý nghĩa α. Do đó, ta cần một số kiểm định đa biến thích hợp được nêu ra trong mục 2.5.

Một ước lượng cho Σ

Ta thấy rằng, S e là ước lượng không chệch của Σ; nghĩa là, E(S e ) = Σ.

Mô hình hiệu chỉnh cho Kỳ vọng

Nếu x được trung tâm hóa bằng cách trừ đi trung bình của chúng, ta có ma trận X được trung tâm hóa như trong (2.13) như sau

Ma trận B có thể được tách thành

Tương tự (2.14) và (2.15), ta có ước lượng sau

B ˆ 1 = (X 0 c X c ) −1 X 0 c Y, (2.49) β 0 0 = ¯ y 0 − x ¯ 0 B ˆ 0 , (2.50) trong đó y ¯ 0 = (¯ y 1 , y ¯ 2 , , y ¯ p ) và x ¯ 0 = (¯ x 1 , x ¯ 2 , , x ¯ p ) Những ước lượng này cho kết quả tương tự như B = (X ˆ 0 X) −1 X 0 Y trong (2.45) Hơn nữa, ước lượng B ˆ 1 trong (2.49) có thể được biểu diễn dưới dạng ma trận hiệp phương sai mẫu, tương tự (2.19) Để xác định B ˆ 1 , ta nhân và chia (2.49) cho n − 1 như sau

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng trong đó S xx và S xy là các khối từ ma trận hiệp phương sai mẫu của y 1 , y 2 , , y p và x 1 , x 2 , , x q Hơn nữa, ta còn có biểu diễn của S như sau

Kiểm định giả thuyết của hồi quy bội đa biến

Kiểm định của hồi quy toàn phần

Đầu tiên, ta xét giả thuyết rằng không có bất kỳ x nào dự đoán y bất kỳ; nghĩa là H 0 : B 1 = O, trong đó B 1 bao gồm tất cả các hàng của B ngoại trừ hàng đầu tiên

Ta không nhất thiết giả thuyết β 0 0 = 0 0 , bởi vì điều này sẽ hạn chế tất cả các y để có hệ số chặn là không Giả thuyết khác là H 1 : B 1 6= O Điều này ngụ ý rằng: Ở đây, ta quan tâm đến câu hỏi liệu rằng ta có thể biến đổi giả thuyết H 1 : B 1 6= 0 trở thành H 1 : B 1 = 0 hay không? Câu hỏi này sẽ được làm sáng tỏ trong trình bày dưới đây.

Từ (2.48) ta có thể biểu diễn Y 0 Y như sau

Tương tự (2.22), ta trừ 2 vế phương trình cho n¯ y¯ y 0 , ta được

= E + H, (2.53) trong đó E = Y 0 Y − B ˆ 0 X 0 Y và H = ˆ B 0 X 0 Y − n¯ y¯ y 0 Hồi quy toàn phần của tổng các bình phương và ma trận tích H = ˆ B 0 X 0 Y − n¯ y¯ y 0 có thể được dùng để kiểm định H 0 : B 1 = O.

Ta có thể kiểm định H 0 : B 1 = O bởi Λ = |E|

|Y 0 Y − n¯ y¯ y 0 | , (2.54) trong đó Λ là phân phối Wilk Λ p,q,n−q−1 khi H 0 : B 1 = O là đúng, p là số lượng của y và q là số lượng của x Ta bác bỏ H 0 với mức ý nghĩa α nếu Λ ≤ Λ α,p,q,n−q−1 Nếu H là “lớn” do các giá trị lớn của β ˆ jk , thì|E + H| sẽ được kỳ vọng hiệu quả hơn |E| để dẫn đến việc bác bỏ Λ Khi H lớn, ta thấy rằng hồi quy tổng các bình phương trên đường chéo là lớn Lưu ý rằng bậc tự do như trong kiểm định đơn biến cho hồi quy của y trên x 1 , x 2 , , x q.

Có hai cách biểu diễn khác cho Λ kiểm định Wilks trong (1.55) Thứ nhất, giả sử tồn tại λ 1 , λ 2 , , λ s các giá trị riêng của E −1 H, ta có Λ = s

, (2.55) trong đó s = min(p, q ) Thứ hai, Λ-kiểm định Wilks cũng có thể được viết dưới dạng Λ = |S|

|S xx ||S yy | , (2.56) trong đó S được phân chia như trong (2.52).

Dạng của Λ trong (2.56) là giống như trong kiểm định tính độc lập của y và x, trong đóy vàxlà hai vector ngẫu nhiên Trong mục này, cácy là các biến ngẫu nhiên và các x cố định Do đó S yy là ma trận hiệp phương sai mẫu của các y theo nghĩa thông thường, trong khi đó S xx được biểu diễn như trong mục 2.2.4.

Do biểu thức (2.56) có tính chất đối xứng theo x và y; nghĩa là, Λ có phân phối Λ q,p,n−p−1 hoặc Λ p,q,n−p−1 Nói cách khác, nếu ta hồi quy x theo y, ta sẽ có một B ˆ khác nhưng có cùng giá trị của kiểm định Λ.

Ngoài ra, ta còn có thể kiểm định giả thuyếtH 0 : B 1 = O bằng cách sử dụng kiểm định thống kê của Roy hoặc Pillai.

Ta nhắc lại kiểm định Roy θ = λ 1

1 + λ 1 , (2.57) trong đó λ 1 là giá trị riêng lớn nhất của E −1 H θ α là điểm tới hạn Các thông số kèm theo là s = min(p, q ), m = 1

Giả thuyết này bị bác bỏ nếu θ > θ α

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng Trong khi đó, kiểm định thống kê của Pillai được định nghĩa là

1 + λ i , (2.58) và kiểm định thống kê Lawley-Hotelling được cho bởi

X i=1 λ i , (2.59) trong đó λ 1 , λ 2 , , λ s là các giá trị riêng của E −1 H Đối với V (s) , điểm tới hạn được miêu tả bởi s, m, và n như đã được nhắc đến trong kiểm định của Roy Điểm phần trăm trên là ν E U (s) /ν H , trong đó ν H = q và ν E = n − q − 1 Ngoài ra, ta có thể sử dụng F-xấp xỉ cho V (s) và U (s)

KhiH 0 là đúng, tất cả bốn kiểm định thống kê nêu trên đều có xác suất bác bỏ là α; nghĩa là, tất cả đều có cùng một xác suất của sai lầm loại I KhiH 0 là sai, các kiểm định phụ thuộc vào các giá trị riêng của quần thể (λ 1 , λ 2 , , λ s từ E −1 Hlà ước lượng của các giá trị riêng của quần thể) Nếu các giá trị riêng của quần thể bằng nhau hoặc gần bằng nhau, tính hiệu quả của kiểm định lần lượt là V (s) ≥ Λ ≥ U (s) ≥ θ. Nếu chỉ có một giá trị riêng của quần thể là khác không, tính hiệu quả của kiểm định được đảo ngược lại: θ ≥ U (s) ≥ Λ ≥ V (s)

Trong trường hợp một giá trị riêng của quần thể đơn khác 0, hạng của B 1 là 1.

Khi đó, nhiều tình huống có thể xảy ra; ví dụ, B 1 có thể chỉ có một hàng khác không,ta nói rằng chỉ có một x dự đoán cho y Mặt khác, một cột đơn không có nghĩa là chỉ một trong số các y được dự đoán bởi các x Ngoài ra, B 1 sẽ có hạng là 1 nếu tất cả các hàng đều bằng nhau hoặc tổ hợp tuyến tính của các hàng khác, điều này cho thấy tất cả các x đều có hàng dự đoán cho y Tương tự như vậy, tất cả các cột bằng nhau hoặc tổ hợp tuyến tính của các cột khác; do đó, ta nói rằng chỉ một chiều trong các y liên quan đến các x.

Kiểm định trên một tập con của x

Ta xét giả thuyết rằng các y không phụ thuộc vào h số hạng cuối của x, x q−h+1 , x q−h+2 , , x q Như vậy, ta kỳ vọng rằng không có p thành phần trong y không được dự đoán bởi bất kỳ x nào trong sốh thành phần Để diễn giải giả thuyết này, ta tách ma trận B thành

Nguyễn Thị Cẩm Vân -K2015 38 trong đó như trong mục 2.2.5, các chỉ số r kí hiệu cho tập con của β jk được giữ lại trong mô hình rút gọn và d đại diện cho tập con củaβ jk bị xóa nếu chúng không phải là các yếu tố dự báo quan trọng của các y Như vậy, B d có h hàng Giả thiết có thể được biểu diễn như sau

Nếu X r chứa các cột của X tương ứng với B r , thì mô hình rút gọn là

Y = X r B r + Ξ (2.60) Để so sánh sự thích hợp của mô hình đầy đủ và mô hình rút gọn, ta sử dụng sự khác biệt giữa hồi quy tổng các bình phương và ma trận tích cho mô hình đầy đủ B ˆ 0 X 0 Y và hồi quy tổng các bình phương và ma trận tích cho mô hình rút gọnB ˆ 0 r X 0 r Y Tương tự (2.25), sự khác biệt này trở thành ma trận H như sau

Do đó, kiểm địnhH 0 : B d = Olà kiểm định cho mô hình đầy đủ, được dựa trênhthành phần bị xóa trong x rút gọn x q−h+1 , x q−h+2 , , x q đối với điều kiện x 1 , x 2 , , x q−h

Như vậy, để thực hiện kiểm định, ta sử dụng ma trận E dựa trên mô hình đầy đủ E = Y 0 Y − B ˆ 0 X 0 Y Khi đó

= Y 0 Y − B ˆ 0 r X 0 r Y và Λ-thống kê Wilk được xác định là Λ(x q−h+1 , , x q |x 1 , , x q−h ) = |E|

Thống kê này có phân phối Λ p,h,n−q−1 khi H 0 = B d = O đúng Lưu ý rằng, các bậc tự do cho trường hợp y đa biến tương tự như trường hợp y đơn biến (hồi quy bội) trong mục 2.2.5.

Với Λ(x q−h+1 , , x q |x 1 , , x q−h ), Λ-thống kê Wilks (2.62) cung cấp một kiểm định cho mô hình đầy đủ dựa trên mô hình rút gọn Từ mẫu số của (2.62), ta có Y 0 Y − B ˆ 0 r X 0 r Y là ma trận sai số cho mô hình rút gọn của Y = X r B r + Ξ trong

(2.61) Ma trận sai số này có thể được sử dụng trong kiểm định mức ý nghĩa cho hồi quy toàn phần dựa trên mô hình rút gọn như sau Λ r = |Y 0 Y − B ˆ 0 r X 0 r Y|

Bởi vì Λ r trong (2.63) có mẫu số giống Λ trong (2.54); do đó, rõ ràng (2.62) chính là tỷ lệ của Λ-kiểm định Wilks cho hồi quy toàn phần trong mô hình đầy đủ đối với Λ-kiểm định Wilks cho hồi quy toàn phần trong mô hình rút gọn Λ(x q−h+1 , , x q |x 1 , , x q−h ) = |Y 0 Y − B ˆ 0 X 0 Y|

= Λ f Λ r , (2.64) trong đó Λ f được nêu trong (2.54) Do đó, bằng cách lấy tỉ lệ kiểm định hồi quy toàn phần cho mô hình đầy đủ đối với kiểm định cho mô hình rút gọn cho ta kết quả giá trị của kiểm định Λ. Để áp dụng các kiểm định thống kê của Roy, Pillai và Lawley-Hotelling có thể thu được từ các giá trị riêng của E −1 H = (Y 0 Y − B ˆ 0 X 0 Y) −1 (Y 0 Y − B ˆ 0 r X 0 r Y) Đồng thời, các thông số cần thiết cho kiểm định trên là ν H = h, ν E = n − q − 1, và s = min(p, h), m = 1

Chọn lựa tập con

Quá trình từng bước

Lựa chọn tập con giữa các x và lựa chọn giữa các y sẽ được trình bày trong mục này. p Tìm tập hợp con của các x

Ta bắt đầu quá trìnhlựa chọn thuận dựa trên Λ-thống kê Wilks Ở bước đầu tiên, ta kiểm định hồi quy dựa trên p thành phần của y trên mỗi x j Khi đó, ma trận B ˆ bao gồm hai hàng, trong đó một hàng có chứa các hệ số chặn và một hàng tương ứng với x j như sau

Ta sử dụng kiểm định thống kê hồi quy toàn phần (2.54) như sau Λ(x j ) = |Y 0 Y − B ˆ 0 j X 0 j Y|

Thống kê này có phân phối Λ p,1,n−2 , vì B ˆ j có hai hàng và X j có hai cột Sau khi xác định Λ(x j ) cho mỗi j, ta chọn biến sao cho Λ(x j ) đạt cực tiểu Lưu ý rằng, ở bước đầu tiên, ta không kiểm định từng biến với sự tồn tại của các biến khác Ta đang tìm biến x j mà dự đoán chính xác cho p thành phần của y bởi chính nó, mà không quan tâm đến các x khác. Ở bước thứ hai, ta cần tìm ra một biến x j nào đó để Λ cực tiểu đối với x được điều chỉnh ở bước đầu tiên, trong đó thống kê Λ được nêu trong (2.64) Khi đó, từ (2.64), ta có Λ(x j |x 1 ) = Λ(x 1 , x j ) Λ(x 1 ) , (2.65) trong đó x 1 kí hiệu biến được chọn ở bước đầu tiên Bởi việc áp dụng (2.65) cho mỗi x j 6= x 1, ta chọn biến sao cho Λ(x j |x 1 ) đạt cực tiểu.

Nếu ta kí hiệu biến thứ hai được chọn là x 2 , thì ở bước thứ ba ta tìm x j để Λ đạt cực tiểu Λ(x j |x 1 , x 2 ) = Λ(x 1 , x 2 , x j ) Λ(x 1 , x 2 ) (2.66)

Thống kê Λ Wilks riêng phần chính là thống kê F vì ν H = h = 1 tại mỗi bước.

Sau m biến đã được lựa chọn, Λ riêng phần sẽ có dạng sau ở bước tiếp theo Λ(x j |x 1 , x 2 , , x m ) = Λ(x 1 , x 2 , , x m , x j ) Λ(x 1 , x 2 , , x m ) , (2.67)

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng trong đó m biến đầu tiên được nhập vào và ta kí hiệu là x 1 , x 2 , , x m, và x j là một biến tiềm năng từ q − m biến còn lại Ở bước này, ta sẽ chọn x j cực tiểu hóa (2.67).

Thống kê Λ Wilks riêng phần trong (2.67) có phân phối Λ p,1,n−m−1 Ta tiếp tục quá trình, mang lại biến “tốt nhất” ở mỗi bước, cho đến khi một bước nào đó làm cho giá trị của Λ riêng phần cực tiểu không thể nhỏ hơn giá trị Λ đã được xác định ở bước trước Điều này tương đương với thống kê F riêng phần tương ứng giảm xuống dưới giá trị được xác định ở bước trước Ngoài ra, quy tắc dừng có thể được diễn tả theo p-giá trị củaΛ riêng phần hoặcF Nếu p-giá trị này ở một số bước nào đó lớn hơn giá trị đã xác định ở bước trước, ta sẽ dừng quá trình lại. Đối với mỗi x j , sẽ tương ứng với 1 hàng của ma trận B ˆ vì x j có một hệ số tương ứng cho p thành phần của y Vì vậy, nếu mộtx nhất định dự đoán thậm chí chỉ một thành phần trong y, thì chúng cũng nên được giữ lại.

Quá trình từng bước là một phần mở rộng của lựa chọn thuận Mỗi lần một biến được chọn, tất cả các biến đã nhập trước đó được kiểm tra bởi Λ riêng phần hay F. Nếu biến này phản ánh quá ít sự “quan trọng” thì chúng dư thừa và có thể bị loại bỏ.

Quá trình loại bỏ nghịch bắt đầu với tất cả x (tất cả các hàng của B ˆ ) bao gồm trong mô hình và loại bỏ bớt từng biến ở mỗi bước bằng cách sử dụng Λ riêng phần hay F Trong bước đầu tiên, Λ riêng phần cho mỗi x j là Λ(x j |x 1 , , x j−1 , x j+1 , , x q ) = Λ(x 1 , , x q ) Λ(x 1 , , x j−1 , x j+1 , , x q ) (2.68)

Thống kê này có phân phối Λ p,1,n−q−1 hay F p,n−q−p Nếu 1 biến nào đó làm cho Λ lớn nhất hoặc F cực tiểu thì ta sẽ loại bỏ biến này Ở bước thứ hai, một Λ riêng phần hoặc F được tính một trong số biến số q − 1 còn lại và một lần nữa là biến ít quan trọng trong sự hiện diện của những biến khác sẽ bị loại bỏ Tiếp tục quá trình lại bỏ này, quá trình này sẽ dừng khi giá trị Λ riêng phần không thể nhỏ hơn giá trị Λ riêng phần ở bước trước, ngược lại cho giá trị của F Ngoài ra, ta còn dựa vàop-giá trị để xác định một quy tắc dừng.

Một quá trình tương tự như lựa chọn theo từng bước sẽ không tìm được tập con tối ưu, đặc biệt nếu có nhiều biến dự báo Tuy nhiên, giá trị của Λ thống kê Wilks được tìm bằng cách lựa chọn từng bước có thể không xa đối với giá trị tập con tối ưu.

Thật vậy, trường hợp đa biến khác nhau, các dự đoán đúng của y trong quần thể có thể bị bỏ sót bởi vì dự đoán này bị tác động bởi sai số phương sai Mặt khác, xNguyễn Thị Cẩm Vân -K2015 42 không phải là dự báo đúng có thể xuất hiện trong mẫu, đặc biệt đối với các mẫu nhỏ. p Tìm tập hợp con của y

Sau khi một tập con củax đã được chọn, ta quan tâm đến câu hỏi liệu rằng những x này có dự đoán được p thành phần của y Nếu một y nào đó không liên quan đến bất kỳ x nào, chúng có thể bị loại bỏ khỏi mô hình để đạt được sự đơn giản hơn Các y có thể được kiểm tra sự dư thừa này theo cách cho các tập con của các biến phụ thuộc sử dụng một mô hình đầy đủ và rút gọn Λ Wilks dành cho y Ta tiếp tục sử dụng thống kê Λ riêng phần để quyết định việc thêm hoặc xóa một y tương tự như (2.65), (2.66) hoặc (2.67).

Ví dụ, để thêm một y vào bước thứ ba của một quá trình lựa chọn tiến khi hai biến nhập vào y 1 và y 2 đã được xác định Khi đó Λ(y j |y 1 , y 2 ) = Λ(y 1 , y 2 , y j ) Λ(y 1 , y 2 ) , (2.69) với mỗiy j 6= y 1 hoặcy 2 và ta chọn y j để cực tiểu hóaΛ(y j |y 1 , y 2 ) Tương tự, nếuy 1 , y 2 , và y 3 đã được xác định “trong mô hình” thì ta kiểm tra tính khả thi của việc bổ sung một y nào đó khác với ba y trên, thì thống kê Λ riêng phần sẽ là Λ(y j |y 1 , y 2 , y 3 ) = Λ(y 1 , y 2 , y 3 , y j ) Λ(y 1 , y 2 , y 3 ) (2.70) Thống kê này có phân phối Λ 1,q,n−q−4 , trong đóq là số lượng xhiện tại trong mô hình và số lượng y hiện tại trong mô hình là bốn Hai giá trị Λ Wilks trong tử số và mẫu số ở vế phải của (2.70) lần lượt là Λ(y 1 , y 2 , y 3 , y j ) và Λ(y 1 , y 2 , y 3 ), thu được từ (2.54).

Do p = 1, Λ 1,q,n−q−4 trong (2.70) trở thành kiểm định F q,n−q−4 Trong bước đầu tiên của quá trình loại bỏ nghịch, ta sẽ xóa y j sao cho Λ đạt cực đại Λ(y j |y 1 , , y j−1 , y j+1 , , y q ) = Λ(y 1 , , y q ) Λ(y 1 , , y j−1 , y j+1 , , y q ) (2.71) Thống kê này có phân phối Λ 1,ν H ,ν E−q−1 Trong trường hợp này, nếu ν H = q và ν E = n − q − 1 thì phân phối của (2.71) là Λ 1,q,n−q−p và thống kê này có thể được biến đổi chính xác thành F Lưu ý rằng, q thành phần của x có thể đã được rút gọn trong một tập hợp con trên x, như trong mục 2.6.1 Tương tự, p là số lượng thành phần của y và sẽ giảm trong các bước tiếp theo.

Quy tắc dừng cho một trong hai cách tiếp cận tiến hoặc lùi có thể được xác định bởi p-giá trị hoặc các giá trị “ngưỡng” của Λ hoặc F tương ứng Một quá trình từng bước có thể được tạo ra như một sự cải tiến của phương pháp lựa chọn thuận.

Từ cách thức kiểm tra ý nghĩa của x trong (2.67), ta có thể điều chỉnh để kiểm tra y trong (2.71) Cụ thể, phân phối củaΛ p,ν H ,ν E là tương tự nhưΛ ν H ,p,ν E +ν H −p , cũng có thể được xem là đối xứng của Λ trong (2.56) như sau Λ = |S|

Thống kê này có phân phối Λ p,q,n−q−1 hoặc tương đương vớiΛ q,p,n−q−1 Như vậy, ta có thể đảo ngược vai trò của y và x; ta có thể giả định các x như là các biến phụ thuộc và y là các biến độc lập Thống kê Λ riêng phần trong (2.67) có phân phối Λ p,1,n−q−1 Nếu ta hoán đổi vai trò của p và q thì y và x được thay đổi như là các biến phụ thuộc và độc lập Điều này tương đương với Λ 1,q,n−p−1+1−q = Λ 1,q,n−p−q và là phân phối của(2.71).

Tất cả tập con có thể

Nhắc lại rằng, trong mục 2.2.7, ta đã trình bày các tiêu chíR 2 p , s 2 p và C p để so sánh tất cả các tập hợp con có thể của x để dự đoán y đơn biến trong hồi quy bội, trong đó p − 1 biểu thị số lượng tập hợp con của x được chọn từ một tập hợp k − 1 biến độc lập đã biết Bây giờ, ta làm rõ một số ma trận xuất hiện trong 3 tiêu chí ở trên cho trường hợp y đa biến, theo Mallows (1973) và Sparks, Coutsourides, và Troskie (1983).

Trong mục này, ta sử dụng p kí hiệu cho số cột trong X (và số hàng trong B) Số lượng các y sẽ được kí hiệu bởi m.

Bây giờ, ta mở rộng ba tiêu chí R p 2 , s 2 p và C p thành các ma trận tương tự; kí hiệu chúng lần lượt là R 2 p , S p và C p Chúng có thể được rút gọn dưới dạng vô hướng bằng cách sử dụng vết hoặc định thức.

1 R 2 p Trong trường hợp y đơn biến, R p 2 cho một tập con (p − 1) biến của x được xác định bởi (1.32) như sau

R 2 p = β ˆ 0 p X 0 p y − n y ¯ 2 y 0 y − n y ¯ 2 Sự mở rộng trực tiếp của R 2 p cho trường hợp y đa biến được cho bởi ma trận

R 2 p = (Y 0 Y − n¯ y¯ y 0 ) −1 ( ˆ β 0 p X 0 p Y − n¯ y¯ y 0 ), (2.73) trong đó p − 1 là số lượng x được chọn từ k − 1 biến của x Để biến đổi R 2 p thành dạng vô hướng, ta có thể sử dụng tr(R 2 p )/m, bằng cách chia cho m KhiNguyễn Thị Cẩm Vân -K2015 44 đó, 0 ≤ tr(R 2 p )/m ≤ 1 Tương tự trường hợp đơn biến, ta xác định tập con làm cho tr(R 2 p )/m đạt cực đại đối với mỗi giá trị p = 2, 3, , k Tiêu chí tr(R 2 p )/m không đạt được cực đại của nó cho đến khi p tiến đến k Tuy nhiên, ta chỉ cần tìm giá trị pthích hợp theo ý nghĩa nào đó của nó Ta cũng có thể sử dụng |R 2 p | thay thế cho tr(R 2 p )/m.

2 S p Một mở rộng trực tiếp từ tiêu chí đơn biến s 2 p = MSE p = SSE p /(n − p) dành cho trường hợp đa biến như sau

S p = E p n − p , (2.74) trong đó E p = Y 0 Y − β ˆ 0 p X 0 p Y Để biến đổi thành dạng vô hướng, ta có thể sử dụng tr(S p ) hoặc |S p |, tương tự cho s 2 p như trong trường hợp đơn biến Những nhận xét trong mục 2.2.7 cũng áp dụng ở đây; nghĩa là, ta có thể chọn tập con với giá trị cực tiểu của tr(S p ) hoặc tập con với p-giá trị cực tiểu sao cho tr(S p ) < tr(S k ).

3 C p Để mở rộng tiêu chí C p vào trường hợp y đa biến, ta nhắc lại mô hình như sau

Y = X p B p + Ξ, trong đó p − 1 là số lượng x được chọn và k − 1 số lượng của x trong “mô hình đầy đủ” Các giá trị dự đoán của các y được cho bởi

Ta quan tâm đến các giá trị dự đoán của các vector quan trắc; nghĩa là, ˆ y 1 , ˆ y 2 , , ˆ y n là các vector cột của ma trận Y ˆ như sau

Nói chung, các vector dự đoán ˆ y i là các ước lượng chệch của E(y i ) trong mô hình chính xác, bởi vì ta đang khảo sát nhiều mô hình mà E(ˆ y i ) 6= E(y i ) Vì kỳ vọng bình phương sai số trong trường hợp đơn biến E[ˆ y i − E(y i )] 2 (2.36) và(2.37) nên ta xác định một ma trận của bình phương kỳ vọng và tích các sai số,

E[ˆ y i − E(y i )][ˆ y i − E(y i )] 0 Bằng cách cộng E(ˆ y i ) vào E[ˆ y i − E(y i )][ˆ y i − E(y i )] 0 và trừ E(ˆ y i ) vào E[ˆ y i − E(y i )][ˆ y i − E(y i )] 0 , ta được

= cov(ˆ y i ) + (độ lệch trong y ˆ i )(độ lệch trong y ˆ i ) 0 (2.75)

Tương tự (2.38), ma trận C p là ước lượng của tổng của các thành phần trong (2.75), sau đó ta nhân thêm Σ −1 để chuẩn hoá. Đầu tiên, ta tìm cov(ˆ y i ), để thuận tiện ta biểu diễn theo hàng cov(ˆ y 0 i ) = cov(x 0 pi B ˆ p ) = cov(x 0 pi B ˆ p(1) , x 0 pi B ˆ p(2) , , x 0 pi B ˆ p(m) ), trong đó B ˆ = ( β ˆ (1) , β ˆ (2) , , β ˆ (m) ), đã nêu trong (1.47) Điều này có thể biểu diễn như sau cov(ˆ y 0 i ) =

σ m1 x 0 pi (X 0 p X p ) −1 x pi ã ã ã σ mm x 0 pi (X 0 p X p ) −1 x pi

= x 0 pi (X 0 p X p ) −1 x pi Σ, trong đó m là số lượng của y và Σ = cov(y i ) Lấy tổng n quan trắc, ta được n

X i=1 x 0 pi (X 0 p X p ) −1 x pi = pΣ (2.77) Để tính tổng của thành phần thứ hai ở vế phải trong (2.75), ta có n

(độ lệch trong ˆ y i )(độ lệch trong ˆ y i ) 0 = (n − p)E(S p − Σ), (2.78) trong đó S p được cho bởi (2.74).

Bởi (2.77) và (2.78), ta lấy tổng (2.75) và nhân với Σ −1 để thu được ma trận của tổng bình phương kỳ vọng và tích các sai số đã được chuẩn hóa bởi Σ −1 như sau Σ −1 n

= pI + (n − p)Σ −1 E(S p − Σ) (2.79)Nguyễn Thị Cẩm Vân -K2015 46

Sử dụng S k = E k /(n − k), ma trận hiệp phương sai mẫu dựa trên k − 1biến như là một ước lượng của Σ −1 , ta có thể ước lượng (2.79) như sau

= S −1 k E p + (2p − n)I (2.81) Đây là phương pháp đã giới thiệu bởi Mallows (1973) Ta có thể sử dụng tr(C p ) hoặc |C p | để rút gọn (2.81) đến dạng vô hướng Nhưng nếu 2p − n là âm, |C p | có thể âm, và Sparks, Coutsourides, và Troskie (1983) đã giới thiệu một hiệu chỉnh cho |C p | như sau

|C p | = |E −1 k E p | (2.82) Việc hiệu chỉnh này luôn luôn cho kết quả dương. Để xác định tập con tối ưu của x cho mỗi giá trị của p, ta có thể kiểm tra tất cả tập con và tìm ma trận C p “cực tiểu” cho mỗi p Trong (2.79), ta thấy rằng độ lệch là 0, vì “quần thể C p ” bằng với pI Vì vậy, ta tìm C p là “nhỏ” và gần pI. Khi bàn về vết, ta tìm tr(C p )gần pm, trong đó m là số lượng y trong vector của các quan trắc; nghĩa là, tr(I) = m. Để xác định giá trị “mục tiêu” cho (2.82), ta biểu diễn E −1 k E p theo C p trong (2.81) như sau

Khi độ lệch là O, ta có C p = pI và (2.83) trở thành

Do đó, ta tìm những tập con sao cho tr(C p ) ≤ pm hoặc |E −1 k E p | = n − p n − k m

Tóm lại, khi kiểm tra tập tất cả các tập hợp con, một hoặc tất cả các tiêu chí có thể hữu ích trong việc xác định tập con tốt nhất hay tập hợp con tốt nhất cho mỗi p như sau tr(R 2 p )/m, |R 2 p |, tr(S p ), |S p |, tr(C p ), |E −1 k E p |.

Hồi quy đa biến: x ngẫu nhiên

Trong các mục 2.4 và 2.5, giả sử rằngxđược cố định và các giá trị giống nhau trong việc lấy mẫu lặp lại Trong nhiều ứng dụng, x là các biến ngẫu nhiên Trong trường hợp như vậy, các giá trị củax 1 , x 2 , , x q không nằm dưới sự kiểm soát của người thực hiện thí nghiệm hay ta nói chúng xuất hiện ngẫu nhiên cùng với y 1 , y 2 , , y p Trên mỗi đối tượng, ta quan trắc p + q giá trị trong vector (y 1 , y 2 , , y p , x 1 , x 2 , , x q ).

Nếu ta giả sử rằng (y 1 , y 2 , , y p , x 1 , x 2 , , x q ) có phân phối chuẩn đa biến, thì tất cả các ước lượng và kiểm định đều có cùng công thức như trong trường hợp x cố định Do đó, không có sự khác biệt trong trường hợp x cố định và trường hợp x ngẫu nhiên.

Hồi quy Logistic

Mô hình hồi quy logistic bội

Xét một tập hợp gồmp biến độc lập kí hiệu bởi vector x 0 = (x 1 , x 2 , , x p ) Ta giả sử rằng các biến này là được lấy tỉ lệ một cách thích hợp Xác suất có điều kiện của biến xuất được kí hiệu là Pr(Y = 1|x) = π(x) Công thức logit của mô hình hồi quy logistic bội được cho bởi công thức g(x) = ln π(x) 1 − π(x)

= β 0 + β 1 x 1 + β 2 x 2 + ã ã ã + β p x p (2.86) trong mô hình hồi quy logistic bội như sau π(x) = e g(x)

Nếu một số biến độc lập là rời rạc hay biến theo thang quy định như chủng tộc, giới tính, nhóm điều trị, và v.v thì không thích hợp để đưa vào mô hình logistic Trong tình huống này, phương pháp lựa chọn là sử dụng một tập hợp các biến thiết kế (hoặc các biến giả).

Tóm lại, nếu một biến theo thang đo quy định cók giá trị cụ thể, thì ta cần phải tạo ra k − 1 biến giả Để minh họa cho ý tưởng sử dụng các biến giả trong luận văn này, ta giả sử rằng biến x j là độc lập thứ j có bậc k j Các biến giả k j − 1 sẽ được ký hiệu là D jl và các hệ số cho các biến giả sẽ được ký hiệu làβ jl , l = 1, 2, , k j − 1 Như vậy, một biểu diễn cho một mô hình với p biến, với biến rời rạc thứ j là g(x) = β 0 + β 1 x 1 + ã ã ã + k j −1

Sự thích hợp của mô hình hồi quy logistic bội

Giả sử ta có một mẫu gồm n quan trắc độc lập (x i , y i ), i = 1, 2, , n Tương tự trường hợp đơn biến, sự thích hợp mô hình đòi hỏi chúng ta phải ước lượng vector β 0 = (β 0 , β 1 , , β p ) Các phương pháp ước lượng đã sử dụng trong trường hợp đa biến là giống như trong tình huống đơn biến - ước lượng hợp lý cực đại Phương trình hợp lý gần như giống hệt phương trình được đưa ra trong mô hình hồi quy đơn với chỉ thay đổi là π(x) được định nghĩa là trong phương trình (2.86) Bằng cách đạo hàm phương trình log-hợp lí theo p + 1 hệ số, ta thu được p + 1 phương trình hợp lí.

Phương trình hợp lý được biểu thị như sau: n

Lấy β ˆ kí hiệu cho nghiệm của các phương trình ở trên Như vậy, các giá trị thích hợp cho mô hình hồi quy logistic bội là π( ˆ xi ), giá trị của biểu thức trong phương trình (2.87) được xét bằng cách sử dụng giá trị của β ˆ và x i

Nếu mô hình hồi quy logistic đã được khái quát hóa, cả về khái niệm và ký hiệu cho trường hợp đa biến, thì ta cần ước lượng sai số chuẩn một cách rõ ràng.

Các phương pháp ước lượng phương sai và hiệp phương sai của các hệ số ước lượng được dựa trên lý thuyết về ước lượng hợp lý lớn nhất Rao, (1973) Lý thuyết này cho rằng các ước lượng thu được từ ma trận của đạo hàm riêng cấp 2 của hàm log-hợp lí Đạo hàm riêng có dạng tổng quát sau

X i=1 x ij x il π i [1 − π i ], (2.89) với j, l = 0, 1, 2, , p, trong đó π i là kí hiệu choπ(x i ) Ma trận cấp (p + 1) × (p + 1)chứa những số hạng âm trong các phương trình (2.88) và (2.89) được kí hiệu là I(β) Ma trận này được gọi làma trận thông tin được quan trắc Phương sai và hiệp phương sai của hệ số ước lượng thu được từ ma trận nghịch đảo, cụ thể Var(β) =I −1 (β) Ngoại trừ những trường hợp đặc biệt, ta không thể viết ra biểu thức rõ ràng cho những phần tử trong ma trận này Do đó, ta sẽ kí hiệuVar(β j )là phương sai củaβ ˆ j cho phần tử đường chéo thứ j của ma trận này và kí hiệu Cov(β j , β l ) là hiệp phương sai của β ˆ j và β ˆ l cho phần tử tùy ý ngoài đường chéo Var(c β) ˆ thu được bằng cách ước lượng Var(β) tại β ˆ Ta sử dụng Var( ˆc β j ) và Cov( ˆd β j , β ˆ l ), j, l = 0, 1, 2, , p để kí hiệu cho các giá trị trong ma trận này Ta hầu như chỉ sử dụng ước lượng sai số chuẩn cho ước lượng các hệ số, kí hiệu là

SE( ˆc β j ) = [ Var( ˆc β j )] 1/2 , (2.90) với j = 0, 1, 2, , p Ta sử dụng kí hiệu này trong việc xây dựng phương pháp kiểm định hệ số và ước lượng khoảng tin cậy.

Dạng biến đổi của ma trận thông tin ˆ I( ˆ β) = X 0 VX ˆ rất hữu ích trong việc đánh giá sự thích hợp của mô hình, với X là ma trận cấp (p + 1) × (p + 1) chứa dữ liệu cho các đối tượng vàX là ma trận đường chéo cấp(p + 1) × (p + 1) với phần tử trên đường chéo là π ˆ i (1 − π ˆ i ) Cụ thể, ma trận X là

 và ma trận V làNguyễn Thị Cẩm Vân -K2015 50

 , trong đó π ˆ i = ˆ π(xi ) là giá trị của phương trình (2.87) khi sử dụng β ˆ và hiệp biến của đối tượng i là x i

Ước lượng khoảng tin cậy

Ta đã thảo luận về ước lượng khoảng tin cây cho hệ số, hàm logit và xác suất logistic cho mô hình hồi quy logistic một biến Phương pháp sử dụng ước lượng khoảng tin cậy cho mô hình hồi quy logistic bội cơ bản gần giống như hồi quy logistic đơn. Ước lượng khoảng tin cậy cho hàm logit phức tạp hơn đối với mô hình hồi quy đa biến Ý tưởng ban đầu là tương tự, nhưng trong hàm logit có nhiều số hạng Biểu thức tổng quát cho ước lượng logit cho mô hình chứa p hiệp biến là ˆ g(x) = ˆ β 0 + ˆ β 1 x 1 + ˆ β 2 x 2 + ã ã ã + ˆ β p x p (2.91)

Nói cách khác, biểu diễn ước lượng của logit trong phương trình (2.91) là thông qua sử dụng kí hiệu vector như g( ˆ x) = x 0 β ˆ, trong đó β ˆ 0 = ( ˆ β 0 , β ˆ 1 , β ˆ 2 , , β ˆ p ) kí hiệu cho ước lượng của p + 1 hệ số và vector x 0 = (x 0 , x 1 , x 2 , , x p ) đại diện cho tập hợp các giá trị của p−biến trong mô hình và hằng số x 0 = 1. Ước lượng phương sai của ước lượng logit trong phương trình (2.91) là

Ta có thể biểu diễn kết quả này chính xác hơn nữa bằng cách sử dụng biểu thức ma trận cho ước lượng phương sai của ước lượng của các hệ số Từ biểu thức cho ma trận thông tin được quan trắc, ta có

Từ phương trình (2.93), dạng biểu diễn tương đương cho ước lượng trong phương trình (2.92) như sau

Phương pháp ước lượng khác

Trong mục trước, ta đã thảo luận hàm biệt thức ước lượng các hệ số của mô hình hồi quy logistic và ta cũng có thể sử dụng chúng trong trường hợp đa biến Cách tiếp cận này để ước lượng các hệ số hồi quy logistic được dựa trên giả định rằng phân phối của các biến độc lập, cho giá trị của các biến kết quả, là chuẩn đa biến Hai điểm cần lưu ý như sau

• Sự giả định về chuẩn đa biến là khó xảy ra vì sự xuất hiện thường xuyên của các biến độc lập phân loại.

• Ước lượng hàm biệt thức của các hệ số không là phân phối chuẩn các biến độc lập, đặc biệt là biến nhị phân, sẽ chệch khỏi 0 Khi đó, các hệ số là khác 0. Đặc biệt, giả sử cho cách tiếp cận hàm biệt thức là phân phối có điều kiện X (vector của p hiệp biến của các biến ngẫu nhiên) được cho bởi biến kết quả, Y = y, là chuẩn đa biến với vector trung bình phụ thuộc vào y, nhưng ma trận hiệp phương sai thì không Sử dụng kí hiệu được định nghĩa trong chương trước chúng ta có (X|y = j ) ∼ N (à j ,P

) trong đú à j chứa trung bỡnh của p biến độc lập cho quần thể con được xác định bởi y = j và P là ma trận hiệp biến cấp p × p cho các biến này.

Dưới giả sử này, Pr(Y = 1|x) = π(x), các hệ số được xác định như sau β 0 = ln θ 1 θ 2

X, (2.96) trong đó θ 1 = Pr(Y = 1) và θ 0 = 1 − θ 1 kí hiệu cho phần quần thể y bằng 1 hoặc 0, một cách tương ứng. Ước lượng hàm biệt thức của β 0 và β được xác định bằng cách thay các giá trị à j , j = 0, 1,P và θ 1 vào phương trình (2.95) và (2.96) Ước lượng thường được sử dụng là ước lượng hợp lý cực đại dưới mô hình chuẩn bội; nghĩa là, ta chọn ˆ à j =xj , trong đó x¯ là trung bình của x trong nhóm con của mẫu với y = j, j = 0, 1. Ước lượng của ma trận hiệp phương sai, P

, là phần mở rộng đa biến Điều này được biểu diễn như sau

(n 0 + n 1 − 2) ,Nguyễn Thị Cẩm Vân -K2015 52 trong đó Sj , j = 0, 1 là ma trận cấp p × p của ước lượng không chệch của phương sai và hiệp phương sai được tính trong nhóm con bởi y = j, j = 0, 1.

Chương 3 PHÂN TÍCH NHÂN TỐ

Trong phân tích nhân tố, ta biểu diễn các biếny 1 , y 2 , , y pdưới dạng tổ hợp tuyến tính của một số biến ngẫu nhiên f 1 , f 2 , , f m (m < p) mà ta gọi là các nhân tố đặc trưng Các nhân tố hay còn được gọi là các biến “ẩn” mang gần như đầy đủ các thông tin cho toàn bộ y Tính đa dạng từ cá thể đến cá thể của các nhân tố giống như các biến ban đầu Tuy nhiên, các nhân tố này không thể đo được hay quan sát được Do đó, tồn tại nhiều giả thiết đối với các biến này.

Ta xét một ma trận tương quan Nếu sự tương quan giữa các biến trong một tập con là lớn và sự tương quan của các biến này là nhỏ đối với các biến khác, thì ta có thể xác định một nhân tố đại diện cho các biến này Một cách tổng quát, ta có thể phân nhóm một mẫu thành các tập con mà giữa các biến trong một tập con này có sự tương quan gần như giống nhau Như vậy, ta sẽ xác định được một số nhân tố để đại diện cho mẫu này Nội dung chương này được trình bày dựa vào chương 13 trang423 - 466 sách Methods of Multivariate Analysis [9] Trong chương này, ta xét mô hình nhân tố trực giao và các phương pháp phân tích nhân tố cho mô hình đó.

Mô hình nhân tố trực giao

Tính không duy nhất của các nhân tố chuyển

Tính duy nhất của nhân tố chuyển thể hiện rõ như sau Khi ta nhân một ma trận trực giao vào các hệ số chuyển trong (3.3) thì ta vẫn được một ma trận hiệp phương sai là Σ = ΛΛ 0 + Ψ.

Nguyễn Thị Cẩm Vân -K2015 58 Để làm rõ điều này, ta lấy T là một ma trận trực giao tùy ý Rõ ràng TT 0 = I, bằng cách thêm TT 0 vào mô hình (3.3), ta được y − à = ΛTT 0 f + ε.

Sau đó, ta kết hợp T với Λ và kết hợp T 0 với f thì mô hình trở thành y − à = Λ ∗ f ∗ + ε, (3.15) trong đó Λ ∗ = ΛT, (3.16) f ∗ = T 0 f (3.17)

Nếu Λ trong Σ = ΛΛ 0 + Ψ được thay thế bởi Λ ∗ = ΛT, thì ta có Σ = Λ ∗ Λ ∗0 + Ψ = ΛT(ΛT) 0 + Ψ

= ΛTT 0 Λ 0 + Ψ = ΛΛ 0 + Ψ, bởi vì TT 0 = I Do đó, hệ số chuyển mới Λ ∗ = ΛT trong (3.16) một lần nữa tạo ra ma trận hiệp phương sai Λ trong (3.10) Cụ thể, Σ = Λ ∗ Λ ∗0 + Ψ = ΛΛ 0 + Ψ (3.18)

Các nhân tố mới f ∗ = T 0 f trong (3.17) thỏa mãn các giả thiết (3.5), (3.6), (3.9); nghĩa là, E(f ∗ ) = 0, cov(f ∗ ) = I, cov(f ∗ , ε) = 0.

Phương sai tương đối h 2 i = λ 2 i1 + λ 2 i2 + + λ 2 im , i = 1, 2, , p, được xác định trong (3.14), cũng không bị ảnh hưởng bởi phép biến đổi Λ ∗ = ΛT Phương sai tương đối h 2 i là tổng bình phương của hàng thứ i củaΛ Nếu ta kí hiệu hàng thứi của Λ là λ 0 i , thì tổng bình phương này được kí hiệu theo vector làh 2 i = λ 0 i λ i Hàngi củaΛ ∗ = ΛT là λ ∗ i 0 = λ 0 i T, và phương sai tương đối tương ứng là h ∗2 i = λ ∗ i 0 λ ∗ i = λ 0 i TT 0 λ i = λ 0 i λ i = h 2 i

Do đó, phương sai tương đối vẫn giữ nguyên cho các nhân tố chuyển mới Chú ý h 2 i = λ 2 i1 +λ 2 i2 + +λ 2 im = λ 0 i λ i là khoảng cách ban đầu đến điểm λ 0 i = (λ i1 , λ i2 , , λ im ) trong không gian nhân tố chuyểnmchiều Bởi vì khoảng cáchλ 0 i λ i là giống như λ ∗ i 0 λ ∗ i ,điểm λ ∗ i được quay từ điểm λ i (Ở đây, phép quay được sử dụng là phép quay trục bởi vì phép nhân 1 vector với 1 ma trận trực giao cho ta 1 phép quay trục.)

Phép quay giúp ta tạo ra các nhân tố chuyển mới Các nhân tố mới này không bị tác động bởi bất kì giả thiết nào Điều này rất có ích trong việc giải thích ý nghĩa các nhân tố.

Lưu ý rằng các hệ số trong (3.1) được áp dụng cho các nhân tố, chứ không phải các biến, vì chúng là các hàm số xác định và là các thành phần chính Như vậy trong phân tích nhân tố, các biến quan trắc không liên quan đến phép quay, vì chúng là các hàm xác định và các thành phần chính.

Ước lượng của hệ số chuyển và phương sai tương đối

Phương pháp thành phần chính

Kỹ thuật đầu tiên ta xem xét thường được gọi là phương pháp thành phần chính.

Tên gọi này có thể gây nhầm lẫn giữa phân tích nhân tố và phân tích thành phần chính Do đó, ta cần nhấn mạnh rằng, phương pháp thành phần chính để ước lượng hệ số chuyển, ta không tính toán bất kỳ thành phần chính nào.

Từ một mẫu ngẫu nhiêny 1 , y 2 , , y n, ta xác định ma trận hiệp phương sai mẫu S và tìm ra một ước lượng Λb Ước lượng này gần đúng với biểu thức (3.10), với S thay cho Σ

Trong cách tiếp cận thành phần chính, ta loại bỏ Ψb trong S Khi đó, S trở thành S = ΛbΛb 0 Đối với nhân tố S, ta sử dụng phân tích phổ

S = CDC 0 , (3.20) trong đóClà một ma trận trực giao được xây dựng với các vector trực chuẩn (c 0 i c i = 1) củaS như là các cột vàDlà một ma trận đường chéo với các giá trị riêngθ 1 , θ 2 , , θ p

Nguyễn Thị Cẩm Vân -K2015 60 của S trên đường chéo

Ta sử dụng ký hiệu θ i cho các giá trị riêng thay vì λ i để tránh nhầm lẫn với ký hiệu λ ij đã được sử dụng cho hệ số chuyển. Để phân tích CDC 0 trong (3.20) thành dạng ΛbΛb 0 , ta thấy rằng tất cả các giá trị riêng θ i của ma trận nửa xác định dương S là dương hoặc 0 Ta phân tích D thành

Bởi việc phân tích D, (3.20) trở thành

Như vậy, biểu thức (3.22) có dạng S = ΛbΛb 0 , nhưng ta không áp đặt Λb là CD 1/2 bởi vì CD 1/2 là ma trận cấp p × p, và ta đang cần tìm một ma trận Λb cấp p × m, với m < p Do đó, ta định nghĩa D 1 = diag(θ 1 , θ 2 , , θ m ) với m trị riêng lớn nhất θ 1 > θ 2 > ã ã ã > θ m và C 1 = (c 1 , c 2 , , c m ) chứa cỏc vector riờng tương ứng Khi đú, ta ước lượng Λ bởi m cột đầu tiên của CD 1/2 như sau Λ = Cb 1 D 1/2 1 = (p θ 1 c 1 ,p θ 2 c 2 , ,p θ m c m ), (3.23) trong đó ma trận Λb cấp p × m ma trận C 1 cấpp × m và ma trận D 1/2 1 cấp m × m. Phần tử đường chéo thứ i của ΛbΛb 0 là tổng bình phương hàng thứ i của Λb hoặc λ ˆ 0 i λ ˆ i =Pm j=1 λ ˆ 2 ij Do đó, để làm rõ xấp xỉ của S trong (3.19), ta định nghĩa ψ ˆ i = s ii − m

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng và

S ∼ = ΛbΛb 0 + Ψ,b (3.25) trong đó Ψb = diag( ˆ ψ 1 , ψ ˆ 2 , , ψ ˆ p ) Như vậy trong (3.25) các phương sai trên đường chéo củaS được xác định một cách chính xác, nhưng các hiệp phương sai ngoài đường chéo chỉ là gần đúng Một lần nữa, đây là thử thách của phân tích nhân tố.

Trong phương pháp ước lượng này, tổng bình phương của các hàng và cột của Λ ˆ bằng các phương sai tương đối và các giá trị riêng tương ứng Tương tự, phương sai tương đối thứ i được ước lượng bởi h ˆ 2 i = m

Như vậy, ˆ h 2 i là tổng bình phương hàng thứicủaΛ ˆ Vì các vector riêng được chuẩn hóa (các cột của C) có mô-đun là 1, tổng bình phương cột thứ j Λ ˆ là giá trị riêng thứ j của S p

Bởi (3.24) và (3.26), phương sai của biến thứ i được phân hoạch thành một phần đối với các nhân tố và một phần đối với biến s ii = ˆ h 2 i + ˆ ψ i

Như vậy, nhân tố thứj cho taλ ˆ 2 ij trong s ii Sự đóng góp của nhân tố thứ j đối với tổng phương sai mẫu tr(S) = s 11 + s 22 + ã ã ã + s pp là

Phương sai nhân tố thứ j = p

Khi đó, phương sai đối với nhân tố thứ j là tổng bình phương của hệ số chuyển cột thứ j của Λ ˆ Bởi (3.25), phương sai đối với nhân tố thứ j bằng với giá trị riêng thứ j (θ j ) Tỷ lệ của tổng phương sai mẫu dựa vào nhân tố thứ j là

Nếu các biến không đối xứng, ta có thể sử dụng các biến chuẩn hóa và ma trận tương quan R Các giá trị riêng và vector riêng của R sau đó được sử dụng thay cho S trong (3.23) để xác định các ước lượng của hệ số chuyển Trong thực tế, R được sử dụng thường xuyên hơn so với S Vì điểm nhấn trong phân tích nhân tố là tái tạo các hiệp phương sai hoặc các tương quan thay vì các phương sai, nên việc sử dụng R trong phân tích nhân tố thích hợp hơn so với sử dụng phân tích thành phần chính.

Nếu ta đang phân tích R, thì tỷ lệ tương tự như (3.30) là

Pp i=1 ˆ λ 2 ij tr(S) = θ j p , (3.31) trong đó p là số lượng các biến.

Ta có thể đánh giá sự thích hợp của mô hình phân tích nhân tố bằng cách so sánh 2 vế của (3.25) Ma trận sai số

E = S − ( ΛbΛb 0 + Ψ)b có các phần tử 0 trên đường chéo nhưng các phần tử nằm ngoài đường chéo thì khác 0 Bất đẳng thức sau cho ta thấy rằng E bị chặn

X ij e 2 ij ≤ θ 2 m+1 + θ m+2 2 + ã ã ã + θ p 2 ; (3.32) nghĩa là, tổng bình phương các phần tử ma trận E = S − ( ΛbΛb 0 + Ψ)b là gần bằng tổng bình phương các giá trị riêng bị loại bỏ trong S Nếu các giá trị riêng nhỏ là hệ số chuyển, khi phần nhiễu trong ma trận sai số S − ( ΛbΛb 0 + Ψ)b là nhỏ và mô hình là thích hợp.

Phương pháp nhân tố chính

Trong phương pháp tiếp cận thành phần chính để ước lượng hệ số chuyển, ta bỏ qua Ψ và sử dụng S hoặc R Phương pháp nhân tố chính (còn gọi là phương pháp trục chính) sử dụng một ước lượng ban đầu Ψ ˆ và S − Ψ ˆ hoặc R − Ψ ˆ xác định

R − Ψ ˆ ∼ = ΛbΛb 0 , (3.34) trong đó Λ ˆ là ma trận cấp p × m được tính tương tự như (3.23) bằng cách sử dụng giá trị riêng và vector riêng của S − Ψ ˆ hoặc R − Ψ ˆ.

Phần tử đường chéo thứ icủaS − Ψ ˆ được cho bởi s ii − ψ ˆ i là phương sai tương đối thứ i hay ˆ h 2 i = s ii − ψ ˆ i Tương tự, phần tử đường chéo của R − Ψ ˆ là các phương sai tương đối ˆ h 2 i = 1 − ψ ˆ i (Rõ ràng, các giá trịψ ˆ và h ˆ 2 i khác biệt khi sử dụng S so với khi sử dụng R Với các giá trị đường chéo này, S − Ψ ˆ và R − Ψ ˆ có dạng

Một ước lượng ban đầu cho một phương sai tương đối trong R − Ψ ˆ là tương quan bội bình phương giữa y i và p − 1 biến khác hay ta nói ˆ h 2 1 = R 2 i Điều này có thể được xác định như sau ˆ h 2 1 = R 2 i = 1 − 1 r ii , (3.37) trong đó r ii là phần tử đường chéo thứ i của R −1 Với S − Ψ ˆ, ước lượng ban đầu của phương sai tương đối được thực hiện tương tự

(3.37) như sau ˆ h 2 1 = s ii − 1 s ii , (3.38) trong đó s ii là phần tử đường chéo thứi củaS và s ii là phần tử đường chéo thứ icủa S −1

Ta có thể chỉ ra rằng (3.38) tương đương với ˆ h 2 1 = s ii − 1 s ii = s ii R i 2 (3.39) Đây là một ước lượng quan trọng dành cho các y i có cùng phương sai. Để sử dụng (3.37) hoặc (3.38), R hoặc S phải là không chính tắc Nếu R là chính tắc, ta có thể sử dụng giá trị tuyệt đối hoặc bình phương của tương quan lớn nhất trong hàng thứ i của R như là một ước lượng của phương sai tương đối.

Sau khi thu được ước lượng phương sai tương đối, ta tính giá trị riêng và vector riêng của S − Ψ ˆ hoặc R − Ψ ˆ và sử dụng (3.23) để thu được ước lượng của nhân tốNguyễn Thị Cẩm Vân -K2015 64 chuyển Λ ˆ Sau đó các cột và hàng của Λ ˆ lần lượt được sử dụng để xác định các giá trị riêng mới và các phương sai tương đối Tổng bình phương cột thứ j của Λ ˆ là giá trị riêng thứ j của S − Ψ ˆ hoặc R − Ψ ˆ và tổng bình phương hàng thứ i của Λ ˆ là phương sai tương đối của y i Tỷ lệ phương sai được giải thích bởi nhân tố thứ j là θ j tr(S − Ψ) ˆ = θ j

, trong đó θ j là giá trị riêng thứ j của S − Ψ ˆ hoặc R − Ψ ˆ Các ma trận S − Ψ ˆ vàR − Ψ ˆ không cần thiết phải nửa xác định dương và thường sẽ có vài giá trị riêng âm,nhỏ Trong trường hợp này, tỷ lệ của phương sai tích lũy sẽ vượt quá 1 và sau đó giảm xuống 1 vì các giá trị riêng âm được thêm vào (Lưu ý rằng, ta không thể thu được các hệ số chuyển (3.23) cho các giá trị riêng âm).

Phương pháp nhân tố chính được lặp lại

Phương pháp nhân tố chính có thể được lặp lại để cải thiện các ước lượng của phương sai tương đối Sau khi thu được Λ ˆ từ S − Ψ ˆ hoặc R − Ψ ˆ trong (3.33) hoặc (3.34) bằng cách sử dụng ước lượng phương sai tương đối ban đầu, ta có thể thu được ước lượng phương sai tương đối mới từ hệ số chuyển trong Λ ˆ bằng cách sử dụng (3.26) như sau h ˆ 2 i = m

Các giá trị của ˆ h 2 i được thay thế vào đường chéo của S − Ψ ˆ hoặc R − Ψ ˆ, từ đó ta thu được một giá trị mới của Λ ˆ bởi việc sử dụng lại biểu thức (3.23) Quá trình này được tiếp tục cho đến khi ước lượng phương sai tương đối hội tụ (Đối với một số bộ dữ liệu, quá trình lặp không hội tụ) Sau cùng, các giá trị riêng và vector riêng của S − Ψ ˆ hoặc R − Ψ ˆ được áp dụng vào (3.23) để thu được hệ số chuyển.

Phương pháp nhân tố chính và phương pháp nhân tố chính được lặp lại sẽ cho ta kết quả gần với những kết quả từ phương pháp thành phần chính khi một trong hai điều kiện sau đây là đúng.

1 Các tương quan là khá lớn với m nhỏ.

2 Số lượng các biến p là lớn.

Một hạn chế của cách tiếp cận lặp này là đôi khi phương pháp này dẫn đến một ước lượng ˆ h 2 i vượt quá 1 (khi phân tíchR) Kết quả như vậy được biết đến trong công trình của Heywood (1931) Nếu h ˆ 2 i > 1, thì ψ ˆ i < 0 bởi (3.24) và (3.26), điều này rõ ràng là không đúng, vì ta không thể có một phương sai riêng âm Vì vậy khi phương sai tương đối vượt quá 1, quá trình lặp sẽ dừng.

Phương pháp hợp lí cực đại

Nếu ta giả sử các quan trắc y 1 , y 2 , , y n tạo thành một mẫu ngẫu nhiên thỏa N p (à, Σ), thỡ Λ và Ψ cú thể được ước lượng bằng phương phỏp hợp lớ cực đại Cỏc ước lượng Λ ˆ và Ψ ˆ thỏa các điều kiện sau

Những phương trình này được tính một cách lặp đi lặp lại và trong thực tế, quá trình này có thể không hội tụ hoặc có thể như trường hợp Heywood.

Ta lưu ý rằng tỷ lệ phương sai được giải thích bởi các nhân tố, như được nêu ra bởi (3.30) hoặc (3.31), sẽ không nhất thiết là theo thứ tự giảm dần đối với nhân tố hợp lí cực đại, bởi vì những nhân tố được xác định ở đây là từ phương pháp thành phần chính hoặc nhân tố chính.

Lựa chọn m nhân tố

Một số tiêu chí đã được đề xuất để chọn m Ta xem xét bốn tiêu chí, tương tự như các tiêu chí được giới thiệu trong “Phân tích thành phần chính” để xác định số lượng các thành phần chính để giữ lại.

1 Chọn m bằng số lượng các nhân tố cần thiết cho phương sai để giải thích cho tỷ lệ phần trăm nào đó được xác định trước, chẳng hạn 80%, của tổng phương sai tr(S) hoặc tr(R).

2 Chọn m bằng số lượng giá trị riêng lớn hơn giá trị riêng trung bình Đối với R trung bình này là 1; đối với S trung bình này là Pp j=1 θ j /p.

3 Sử dụng kiểm địnhscree dựa trên đồ thị các giá trị riêng của S hoặcR Nếu đồ thị giảm mạnh, cùng với một đường thẳng với hệ số góc nhỏ hơn nhiều, ta chọn m bằng với số lượng các giá trị riêng trước khi đường thẳng này được xây dựng.

4 Kiểm định giả thiết m là đúng bằng số các nhân tố, H 0 : Σ = ΛΛ 0 + Ψ, trong đó Λ là ma trận cấp p × m.

Phương pháp 1 áp dụng đặc biệt đối với phương pháp thành phần chính Theo (3.30), tỷ lệ của tổng phương sai mẫu (phương sai được giải thích) đối với nhân tố thứj từ SlàPp j=1 ˆ λ 2 ij /tr(S) Tỷ lệ tương ứng từR là Pp j=1 λ ˆ 2 ij /pnhư trong (3.31) Sự đóng góp tất cả m nhân tố cho tr(S) hoặc p là tổng của bình phương của tất cả các phần tử của Λ ˆ hay Pp i=1

Pm j=1 ˆ λ 2 ij Đối với phương pháp thành phần chính, ta thấy rằng tổng này cũng bằng với tổng của m giá trị riêng đầu tiên hoặc tổng của tất cả các phương sai tương đối p p

Do đó, ta chọn m đủ lớn để tổng các phương sai tương đối hoặc tổng các giá trị riêng (phương sai được giải thích) chiếm một phần tương đối lớn của tr(S) hoặc p.

Phương pháp 1 có thể được mở rộng cho phương pháp nhân tố chính, trong đó các ước lượng ban đầu của các phương sai tương đối được sử dụng cho S − Ψ ˆ hoặc R − Ψ ˆ Tuy nhiên, S − Ψ ˆ hoặc R − Ψ ˆ thường có một số giá trị riêng âm Do đó, khi các giá trị m từ 1 đến p, tỷ lệ tích lũy của các giá trị riêng Pm j=1 θ j /Pp j=1 θ j sẽ vượt quá 1 và sau đó giảm dần về 1 vì các giá trị riêng âm được thêm vào Do đó tỷ lệ phần trăm, chẳng hạn80%, sẽ đạt được với giá trị của m nhỏ hơn giá trị trong trường hợp của S hoặc R Do đó, ta thường chọn m khi tỷ lệ phần trăm đạt 100%.

Trong phương pháp nhân tố chính lặp, m được xác định trước khi lặp và P i ˆ h 2 i thu được sau khi lặp P i ˆ h 2 i = tr(S − Ψ) ˆ Để chọn m trước khi lặp, ta có thể sử dụng các giá trị riêng của S hoặc R, như trong phương pháp thành phần chính.

Phương pháp 2 là một tiêu chí phổ biến Một biến thể của phương pháp 2 là khi sử dụng R − Ψ ˆ, ta chọn m bằng số các giá trị riêng dương (thường sẽ có một số giá trị riêng âm của R − Ψ ˆ) Tuy nhiên, tiêu chí này thường sẽ dẫn đến kết quả quá nhiều nhân tố, vì tổng các giá trị riêng dương sẽ vượt quá tổng của các phương sai tương đối.

Kiểm định scree trong phương pháp 3 được đặt tên theo thuật ngữ địa chất scree, ta đề xuất tên gọi cho kiểm định scree là kiểm định từng phần

H 0 : Σ = ΛΛ 0 + Ψ với H 1 : Σ 6= ΛΛ 0 + Ψ, trong đó Λ là ma trận cấp p × m Kiểm định thống kê dành cho một hàm của tỷ số hợp lí là n − 2p + 4m + 11

(3.45) Đây là xấp xỉ χ 2 ν khi H 0 đúng, trong đó ν = 1

2 [(p − m) 2 − p − m] và Λ ˆ , Ψ ˆ là các ước lượng hợp lí cực đại Nếu việc bác bỏ H 0 xảy ra khi m quá nhỏ, thì ta cần xác định thêm nhân tố.

Trong thực tế, khi n lớn, kiểm định trong phương pháp 4 thường cho thấy nhiều nhân tố quan trọng hơn ba phương pháp còn lại Do đó, ta có thể xét giá trị của m được chỉ ra bởi kiểm định là giới hạn trên của số lượng các nhân tố có ý nghĩa thực sự. Đối với nhiều bộ dữ liệu, việc lựa chọnm sẽ không ngẫu nhiên Điều này làm nhiều nhà thống kê hoài nghi về ý nghĩa của phân tích nhân tố Tóm lại, ta có thể bắt đầu với một trong các phương pháp (ví dụ như phương pháp 2) cho lựa chọn ban đầu của m Ta sẽ kiểm tra kết quả phần trăm của tr(R) hoặc tr(S) và sau đó sẽ kiểm tra hệ số chuyển sau khi thực hiện phép quay Nếu phần trăm của phương sai hoặc sự giải thích không thỏa, ta sẽ thử nghiệm các giá trị khác của m để đi đến 1 kết quả chấp nhận được giữa phần trăm củatr(R)và khả năng giải thích của các yếu tố Phải thừa nhận rằng, đây là một quá trình chủ quan và đối với các bộ dữ liệu như vậy, ta cũng còn nghi ngờ về kết quả.

Khi một bộ dữ liệu được hiệu chỉnh một cách thành công bằng một mô hình phân tích nhân tố, ba phương pháp đầu tiên gần như luôn luôn cho cùng một giá trị m Do đó, ta sẽ ít nghi ngờ về những giá trị này Do đó, đối với một bộ dữ liệu “tốt”, toàn bộ quy trình trở nên khách quan hơn nhiều.

Phép quay

Giới thiệu

Các nhân tố chuyển (các hàng của Λ) trong mô hình quần thể khi nhân với một ma trận trực giao cho ta 1 phép quay các hệ số chuyển Các hệ số chuyển mới vẫnNguyễn Thị Cẩm Vân -K2015 68 giữ được các tính chất thiết yếu của hệ số chuyển ban đầu; chúng vẫn tạo ra ma trận hiệp phương sai và thỏa mãn tất cả các giả thiết cơ bản Ta cũng có thể dùng phép quay đối với ước lượng ma trận chuyển Λ ˆ để thu được Λ ˆ ∗ = ΛT ˆ , trong đó T là trực giao Bởi vì TT 0 = I, hệ số chuyển phép quay cho cùng một ước lượng của ma trận hiệp phương sai như trước

Về mặt hình học, hệ số chuyển hàng thứ i của Λ ˆ tạo thành tọa độ của một điểm trong không gian hệ số chuyển tương ứng với y i Phép quay pđiểm cho ta tọa độ của chúng đối với các trục mới (các nhân tố) nhưng giữ được bản chất hình học cơ bản của chúng Ta hy vọng sẽ tìm ra một hệ quy chiếu mới trong đó các nhân tố có thể giải thích được Cuối cùng, để đạt được mục tiêu của phép quay là đặt các trục càng gần nhiều điểm càng tốt Nếu điểm phân cụm (tương ứng với các nhóm của y), ta tìm cách di chuyển các trục để đi qua hoặc gần các cụm này Điều này sẽ liên kết mỗi nhóm của các biến với một nhân tố (trục) và tạo ra các giải thích mang tính khách quan hơn Các trục kết quả thì đại diện cho các nhân tố tự nhiên.

Nếu ta có thể xác định được một phép quay trong đó mỗi điểm nằm gần một trục, thì mỗi biến mang thông tin của nhân tố tương ứng với một trục và có hệ số chuyển nhỏ với các nhân tố còn lại Trong trường hợp này, không có sự mơ hồ Một trường hợp như trên sẽ được gọi là cấu trúc đơn giản và giải thích rất đơn giản Rõ ràng, ta chỉ cần quan sát những biến nào liên kết với mỗi nhân tố và nhân tố này được xác định chính xác. Để xác định các nhóm tự nhiên của các biến, ta tìm một phép quay đối với một mô hình giải thích cho hệ số chuyển, trong đó các biến có cùng một nhân tố Số lượng nhân tố mà một biến có hệ số chuyển cao được gọi là sự phức tạp của biến Quay lại tình huống lý tưởng được đề cập như cấu trúc đơn giản, tất cả các biến đều có một sự phức tạp là 1 Trong trường hợp này, các biến đã được phân nhóm rõ ràng thành các nhóm tương ứng với các nhân tố.

Ta xem xét hai loại phép quay cơ bản: trực giao và xiên Phép quay trong (3.44) bao gồm một ma trận trực giao là một phép quay trực giao; các trục vuông góc ban đầu được quay cố định và tính chất vuông góc vẫn được đảm bảo Trong một phép quay trực giao, các góc và khoảng cách được giữ nguyên, các phương sai tương đối không thay đổi và việc xác định các điểm được giữ lại như cũ Điểm khác biệt duy

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng nhất là các trục tham chiếu khác nhau Trong một “phép quay” xiên (phép biến đổi), các trục không nhất thiết phải vuông góc và tự do đi qua các cụm.

Trong mục 3.4.2 và 3.4.3, ta trình bày chi tiết phép quay trực giao và phép quay xiên.

Phép quay trực giao

Như đã trình bày trong mục 3.4.1, các phép quay trực giao bảo toàn các phương sai tương đối Điều này là do các hàng của Λ ˆ được quay, và khoảng cách đến gốc tọa độ là không thay đổi Khoảng cách này chính là phương sai tương đối Tuy nhiên, phương sai được giải thích bởi mỗi nhân tố được cho trong (3.29) sẽ thay đổi, tương tự như tỷ lệ trong (3.30) hoặc (3.31) Tỷ lệ đối với các hệ số chuyển sau khi quay sẽ không nhất thiết là theo thứ tự giảm dần Tiếp theo, ta xem xét hai phương pháp để quay trực giao trong mục 3.4.2a và 3.4.2b.

Nếu chỉ có hai nhân tố(m = 2), ta có thể sử dụng một phép quay đồ thị dựa vào việc quan sát đồ thị của các nhân tố chuyển Trong trường hợp này, các hàng củaΛ ˆ là các cặp hệ số chuyển(ˆ λ i1 , ˆ λ i2 ), i = 1, 2, , p, tương ứng với y 1 , y 2 , , y p. Ta chọn một góc quay φ sao cho các trục có thể được di chuyển gần các nhóm điểm hơn Các hệ số chuyển được quay mới (ˆ λ ∗ i1 , ˆ λ ∗ i2 ) có thể được đo trực tiếp trên đồ thị như là tọa độ của các trục hoặc được tính từ Λ ˆ ∗ = ˆ ΛT bằng cách sử dụng

Cách tiếp cận trực quan đối với phép quay chỉ giới hạn vớim = 2 Đối với m > 2, ta sẽ áp dụng các phương pháp giải tích khác Phổ biến nhất trong các phương pháp này là kỹ thuật varimax, trong đó việc tìm hệ số chuyển sau khi quay làm cho phương sai bình phương hệ số chuyển cực đại hóa trong mỗi cột của Λ ∗

Phương pháp varimax cố gắng làm cho hệ số chuyển lớn hoặc nhỏ để tạo thuận lợi cho việc giải thích Nếu hệ số chuyển trong một cột gần như bằng nhau, thì sai số sẽ gần bằng 0 Khi hệ số chuyển bình phương tiến tới 0 và 1 (đối với phân tích R), phương sai sẽ đạt cực đại.

Phương pháp varimax không bảo đảm rằng tất cả các biến sẽ được đại diện bởi duy nhất một nhân tố Trên thực tế, không có phương pháp nào có thể làm được điều này cho tất cả các bộ dữ liệu bất kì Việc điều chỉnh các điểm trong không gian chuyển vẫn cố định; ta chỉ xoay quanh các trục để gần càng nhiều điểm càng tốt Trong nhiều trường hợp, các điểm không cùng một cụm, và các trục đơn giản không thể được xoay để gần tất cả chúng Vấn đề này phức tạp hơn khi ta phải chọn m Nếu thay đổim, tọa độ (ˆ λ i1 , λ ˆ i2 , , λ ˆ im ) thay đổi và vị trí tương đối của các điểm cũng bị thay đổi.

Phép quay xiên

Phép quay xiên nhấn mạnh đến phép biến đổi, trong đó các trục không còn vuông góc và khoảng cách không chắc chắn được bảo toàn.

Thay vì ma trận biến đổi trực giaoT được sử dụng trong (3.15), (3.16) và (3.17), một phép quay xiên sử dụng một ma trận chuyển đổi không chính tắc tổng quát Q để xác định f ∗ = Q 0 f cov(f ∗ ) = Q 0 IQ = Q 0 Q 6= I (3.48)

Do đó, các nhân tố mới là tương quan Vì khoảng cách và góc không bảo toàn, các phương sai tương đối cho f ∗ khác so vớif.

Khi các trục không bắt buộc phải vuông góc, thì chúng có thể dễ dàng đi qua các cụm các điểm chính trong không gian chuyển (giả sử các cụm tồn tại) Nhiều phương pháp giải tích được sử dụng để xác định phép quay xiên Thông thường, kết quả của một trong những phương pháp bao gồm ma trận mẫu, ma trận cấu trúc và một ma trận tương quan giữa các nhân tố xiên Ta thường sử dụng ma trận mẫu chứ không phải là ma trận cấu trúc Hệ số chuyển trong một hàng của ma trận mẫu là tọa độ tự nhiên của điểm (biến) trên các trục xiên và được xem như là các hệ số chính trong mô hình liên quan đến biến đối với các nhân tố.

Ta sử dụng phép quay xiên là để kiểm tra tính trực giao của các nhân tố Tính trực giao trong các nhân tố ban đầu được áp đặt bởi mô hình và được đảm bảo bởi phép quay trực giao Nếu một phép quay xiên tạo ra một ma trận tương quan gần đường chéo, ta có thể chắc chắn rằng các nhân tố thực sự là trực giao.

Điểm nhân tố

Định nghĩa 3.5.1 ([9], Definition 13.5) Điểm nhân tố là các giá trị được ước lượng của các nhân tố cho mỗi quan sát trong phân tích nhân tố.

Trong nhiều ứng dụng, nhà nghiên cứu chỉ cần xác định liệu rằng mô hình phân tích nhân tố có phù hợp với dữ liệu và xác định các nhân tố này Trong các ứng dụng khác, người thử nghiệm mong muốn thu được điểm nhân tố, ˆ f i = ( ˆ f i1 , f ˆ i2 , , f ˆ im ) 0 , i = 1, 2, , n Hai xu hướng sử dụng cho điểm nhân tố: (1) dáng điệu của các quan trắc của các nhân tố được xem xét và (2) ta có thể sử dụng điểm nhân tố như thông tin ban đầu cho một phân tích khác, chẳng hạn như MANOVA hay hồi quy tuyến tính Cách tiếp cận này giống như một ứng dụng của các thành phần chính.

Bởi vì f không được quan trắc, ta buộc phải ước lượng chúng như các hàm trong quan trắc các y Cách tiếp cận phổ biến nhất để ước lượng các nhân tố dựa trên hồi quy Thomson (1951) Ta sẽ trình bày chi tiết phương pháp này và cũng mô tả ngắn gọn một kỹ thuật không truyền thống có thể được sử dụng khi R (hoặc S) là chính tắc.

Bởi vì E(f i ) = 0, nên f được liên hệ với y bởi mô hình hồi quy trung tâm f 1 = β 11 (y 1 − y ¯ 1 ) + β 12 (y 2 − y ¯ 2 ) + + β 1p (y p − y ¯ p ) + 1 f 2 = β 21 (y 1 − y ¯ 1 ) + β 22 (y 2 − y ¯ 2 ) + + β 2p (y p − y ¯ p ) + 2

Ta có thể biểu diễn ngắn gọn (3.49) dưới dạng ma trận như sau f = B 0 1 (y − y) + ¯ (3.50)

Ta đã sử dụng ký hiệu để phân biệt sai số này với ε trong mô hình nhân tố ban đầu y − à = Λf + ε được cho trong (3.3) Ta cần phải ước lượng B 1 và sử dụng giỏ trị dự đoán ˆ f = ˆ B 0 1 (y − ¯ y) để ước lượng f.

Mô hình (3.50) thỏa cho mỗi quan trắc f i = B 0 1 (y i − ¯ y) + i , i = 1, 2, , n.

Bằng phép biến đổi tuyến tính, mô hình trở thành f i 0 = (y i − ¯ y) 0 B 1 + 0 i , i = 1, 2, , n,Nguyễn Thị Cẩm Vân -K2015 72 và n phương trình có thể được kết hợp thành một mô hình duy nhất

Mô hình (3.51) có sự hiện diện của mô hình hồi quy bội đa biến trung tâm Do (2.49), ước lượng cho B 1 sẽ là

Mặc dù Fkhông quan trắc được, ta vẫn có thể xác định được B ˆ 1 Trước tiên, ta viết lại (3.52) về ma trận hiệp phương sai

Trong mục này, S yy được đại diện bởi S; đối với S yf , ta sử dụng kí hiệu Λ ˆ , vì Λ ˆ ước lượng cho cov(y, f) = Λ trong (3.12) Do đó, dựa trên các giả thiết trong mục 3.1.1, ta có thể viết (3.53) như sau

Tiếp theo, từ mô hình (3.51), các giá trị ước lượng (dự đoán) f i được cho bởi

Thay S bởi R trong (3.54) và (3.55), ta được

Luận Văn Thạc Sĩ Chuyên ngành: Toán Ứng Dụng trong đó Y s là ma trận quan trắc của các biến chuẩn hóa (y ij − y ¯ j )/s j. Thông thường, ta xác định các điểm nhân tố của các nhân tố được quay thay vì các nhân tố ban đầu Do vậy, Λ ˆ trong (3.55) hoặc (3.57) sẽ được thay thế bằng Λ ˆ ∗ Để thu được các điểm nhân tố bởi (3.55) hoặc (3.57), S hay R phải là không chính tắc Khi R (hoặc S) là chính tắc, ta có thể thu được các điểm nhân tố theo một phương pháp đơn giản dựa trực tiếp vào hệ số chuyển trong phép quay Ta phân nhóm các biến thành các nhóm (các nhân tố) theo hệ số chuyển và tìm một “điểm” cho mỗi nhân tố bằng cách tính trung bình các biến liên kết với nhân tố Nếu các biến không đối xứng, các biến phải được chuẩn hóa trước khi tính trung bình Một cách tiếp cận khác là cân bằng các biến bằng hệ số chuyển của chúng khi tính trung bình.

Chương 4 ỨNG DỤNG CỦA PHÂN TÍCH HỒIQUY

Đề xuất mô hình dự báo

Phân tích điều kiện làm việc của ống nước

Hệ thống cấp nước của Việt Nam bắt đầu số hóa khoảng từ năm 2013 và vẫn đang trong giai đoạn hoàn chỉnh, đồng bộ hóa thông tin, luận văn sử dụng những số liệu thu thập từ hệ thống thông tin GIS của hệ thống cấp nước thành phố Đà Nẵng Do những điều kiện khách quan, bộ dữ liệu quan trắc này khuyết ở một số vị trí và thời điểm nên kết quả của luận văn có thể không đánh giá chi tiết được các điều kiện liên quan như chỉ số dẫn điện, độ ẩm của môi trường đất bên ngoài hay chỉ số oxy hòa tan của nước trong đường ống, giá trị lực tác dụng từ nền đường cho từng đoạn ống.

Tuy nhiên mô hình đề xuất trong nghiên cứu lại có tính áp dụng thực tế tốt hơn, từ những dữ liệu GIS của công ty cấp nước hoàn toàn có thể ước lượng khả năng ống bể mà không phải thu thập hay khảo sát cụ thể từng vị trí đặt ống trên mạng lưới.

Dữ liệu bao gồm 15 cột như Mainpipecode, Mainpipetype, Fail, Material, Diam- eter, Length, Brand, Installationdate, District, Shapelength, Lifetime, Cause, Date,Limit, Numyears được quan trắc từ 1980 đến 2015 Như vậy kích thước của dữ liệu là một ma trận 13168 × 15 Các yếu tố ảnh hưởng tới ống hỏng được xem xét trong luận văn bao gồm các đặc trưng vật lí của hệ thống (Diameter, Length, Material),chỉ số tuổi thọ (Lifetime) đại diện cho tỉ lệ ăn mòn, Numyears đại diện cho hiệu số giữa thời gian khảo sát và thời gian lắp đặt Tùy từng mô hình mà ta sử dụng biến nào làm biến ứng và biến dự báo Ta sẽ bàn kĩ hơn các yếu tố được xem xét trong các mô hình của phân tích hồi quy của luận văn.

Tuổi thọ ống dẫn (Lifetime) Tuổi thọ ống dẫn không phải là yếu tố ảnh hưởng trực tiếp tới nguy cơ ống bể nhưng là giá trị hiển thị dễ nhất để nhận biết khả năng làm việc của ống Với cùng một tuổi thọ nhưng điều kiện vật lí khác nhau và môi trường làm việc khác nhau thì xác suất xảy ra ống hỏng cũng không giống nhau Nhưng nếu dùng tuổi thọ để xem xét thời điểm xảy ra bể vỡ nhiều đột ngột trong một giai đoạn nhất định thì cũng có thể phát hiện ra những yếu tố ảnh hưởng đặc biệt hoặc dự báo một sự kiện bất thường trong tương lai Vậy ta cần thiết phải đưa biến tuổi thọ vào trong dữ liệu khảo sát.

Vật liệu ống dẫn (Material) Tính chất cơ học của vật liệu là khác nhau, vật liệu kim loại được cho là dễ ăn mòn hơn trong môi trường ẩm ướt trong khi vật liệu nhựa lại dễ bị lão hóa và khả năng chịu tải được cho là kém hơn Trong mạng lưới phân phối nước đô thị, những ống truyền tải thường sử dụng vật liệu kim loại như SS, ST Đặc biệt, là vật liệu gang xám (CI) trong thời gian trước đây được sử dụng phổ biến Do đó, đa số các nghiên cứu bể ống hiện nay cũng tập trung xem xét vật liệu này Tuy nhiên, nghiên cứu ống hỏng cần có dự báo rộng hơn trong tương lai nên hướng tiếp cận cần đa dạng hơn cho tất cả các loại vật liệu Trong dữ liệu này, các vật liệu trong số liệu thống kê đều được xem xét, bao gồm SS, ST, DI, CI, INOX, uPVC, HDPE và cả những ống AC (xi măng amiăng). Đường kính ống dẫn Diameter(mm) Là đại lượng đặc trưng cho cho khả năng vận chuyển nước của đường ống, với nhận định ban đầu cho thấy xác suất ống hỏng sẽ giảm khi đường kính ống tăng.

Theo yêu cầu sản xuất, chiều dày thành ống cũng tăng theo độ lớn của đường kính.

Chiều dài ống dẫn Length(km) Có nhiều quan điểm khác nhau khi dự báo xác suất hỏng theo chiều dài ống, nghiên cứu gần đây nhất cho rằng ống hỏng tăng khi chiều dài giảm nhưng có nghiên cứu lại cho rằng ống hỏng không tăng theo chiều dài mà tăng theo chiều dài bình phương Trên phương diện thủy lực cho thấy, dọc theo chiều dài đường ống áp lực dòng chảy trong ống giảm dần như vậy nguy cơ hỏng ống do tải trọng nước bên trong ống cũng giảm Tuy nhiên nếu xét tới các tác động từ bên ngoài thì đoạn ống càng ngắn, ngoại lực tác dụng lên thành ống càng nhỏ khi đó nguy cơ ống hỏng lại tỉ lệ thuận với chiều dài.

Numyears(năm)Numyears cũng không phải là yếu tố ảnh hưởng trực tiếp tới nguy cơ ống bể nhưng là giá trị hiển thị dễ nhất để nhận biết khả năng làm việc của ống Với cùng một thời điểm lắp đặt nhưng điều kiện vật lí khác nhau và môi trường làm việc khác nhau thì xác suất xảy ra ống hỏng cũng không giống nhau Vậy biến Numyears cần được xét đến trong dữ liệu khảo sát.

Giới thiệu phần mềm R

Được phát triển từ năm 1996 bởi Ross Ihaka và Robert Gentleman phần mềm R là một ngôn ngữ phân tích thống kê mới thay thế cho các phần mềm thống kê thương mại như SPSS, SAS, Stata và Stastistica Ngôn ngữ R nhanh chóng được các nhà thống kê học hưởng ứng và tham gia xây dựng các công cụ hỗ trợ cho phần mềm.

Hơn 10 năm sau R đã trở thành ngôn ngữ thống kê phổ biến cho các nhà nghiên cứu.

R là phần mềm có mã nguồn mở sử dụng cho thống kê và biểu diễn biểu đồ, có thể chạy trên môi trường Window, MacOS và UNIX Các dữ liệu dạng mảng, ma trận đều có thể phân tích trong R, với hơn 6000 gói công cụ tích hợp R có thể được sử dụng như một hệ thống phân loại và thống kê Môi trường trong R sử dụng các câu lệnh có cú pháp đơn giản theo ngôn ngữ viết thông thường nên cho phép người dùng có thể tự thiết lập các hàm mới.

Phần mềm có thể đọc dữ liệu trực tiếp hoặc đọc file từ Excel (.csv); SAS; SPSS;

Stata; text; Môi trường R có thể làm việc với các biến số cũng như biến ký tự chữ cái, mỗi đối tượng được tạo ra sẽ lưu trong bộ nhớ cho đến khi thoát khỏi môi trường R Phần mềm linh hoạt trong quá trình xử lý số liệu thống kê bằng cách phân loại thành các nhóm, thay thế biến từ kí tự sang số và ngược lại, nhập tách dữ liệu hoặc loại bỏ các số liệu trống Ngôn ngữ R cũng cho phép lập trình bậc cao bằng cấu trúc rẽ nhánh (if/else) hoặc cấu trúc lặp (for).

Với các ưu điểm trên, luận văn lựa chọn ngôn ngữ R để xây dựng hai mô hình hồi quy đa biến, hồi quy logistic và phân tích nhân tố, từ đó dự báo xác suất ống hỏng.

Phân tích hồi quy đa biến

Từ dữ liệu thực tế, ta sẽ xây dựng mô hình hồi quy đa biến cho tuổi thọ (Lifetime) của hệ thống ống nước đóng vai trò là biến ứng trong khi đó dữ liệu về chiều dài

(Length), đường kính (Diameter), Numyears và hình dạng ống (Shapelength) sẽ đóng vai trò là các biến dự báo Như vậy việc ước lượng mô hình sẽ cung cấp cho ta các giỏ trị của hệ số chặn β 0 cũng như là cỏc hệ số gúc của cỏc biến dự bỏo β 1 , ã ã ã , β 4

Hình 4.1: Ma trận phân tán của các biến

Rõ ràng, hệ số chặn cung cấp cho ta kỳ vọng về tuổi thọ của hệ thống ống dựa trên trung bình của tất cả các biến dự báo Mỗi giá trị ước lượng của hệ số góc sẽ cho ta biết tuổi thọ trung bình tăng đối với một đơn vị tăng của mỗi giá trị dự báo.

Ta mong muốn mô hình được ước lượng là “thích hợp” với dữ liệu theo nghĩa đường hồi quy này đi xuyên qua hoặc đi gần nhất có thể đối với các dữ liệu được quan sát. Đầu tiên, ta minh họa một ma trận phân tán chứa các biến Lifetime, Length,Diameter, Numyears và Shapelength (xem hình 4.1) Các biến này được thể hiện trên đường chéo từ trên trái sang phải của ma trận phân tán Sau đó, mỗi biến được biểu diễn trong liên hệ với các biến khác Ví dụ, ô tạo bởi cột đầu tiên và hàng thứ 2 chính là một đồ thị phân tán của Lifetime và Length Đồ thị phân tán này cũng được thể hiện ở cột 2, dòng 1 Về bản chất, các ô ở phía trên đường chéo của ma trận là hình ảnh tương phản của của các ô ở bên dưới đường chéo đồ thị Hơn nữa, ta còn có thể nói rằng biến Lifetime và Numyears hay Lifetime và Length có mối tương quan vìNguyễn Thị Cẩm Vân -K2015 78

Hình 4.2: Ma trận tương quan của các biến hình ảnh của đồ thị phân tán có dạng tựa đường thẳng Trong khi đó, giữa 2 biến Lifetime và Shapelength dường như có rất ít mối tương quan Do đó, ta cần áp dụng các phương pháp thống kê cụ thể để giúp ta chấp nhận hay bác bỏ các nhận xét trên.

Ta bắt đầu điều chỉnh mô hình hồi quy trên dữ liệu và đánh giá sự thích hợp của mô hình trên dữ liệu được quan sát Ta sẽ thêm vào mô hình các biến dự báo và xác định các hệ số góc của chúng Ta cần ước lượng mô hình với biến ứng là Lifetime trong khi đó các biến dự báo là Diameter, Length, Numyears và Shapelength Ta ước lượng các hệ số bằng phương pháp bình phương cực tiểu Từ đó, ta sẽ ước lượng mối quan hệ giữa các biến và giải thích mối liên hệ này Trong R, ta có thể thực hiện hồi quy đa biến bằng hàm lm Cụ thể, trong luận văn này hàm lm được biểu diễn như sau lm(Lifetime∼ β 0 + β 1 ∗ Diameter+ β 2 ∗ Length+ β 3 ∗ Numyears+ β 4 ∗Shapelength).

Kết quả ước lượng của phương trình (DLNS) được thể hiện trong hình 4.3 và 4.4.

Từ kết quả (xem hình 4.3), ta có một số nhận xét như sau Mô hình (DLNS) sẽ ước lượng giá trị của hệ số chặn β 0 và các hệ số góc β 1 , β 2 , β 3 , β 4 của các biến dự báoDiameter, Length, Numyears và Shapelength Cụ thể, hệ số chặn β 0 = 8.387 chính là trung bình kỳ vọng của Lifetime đối với trung bình của tất cả các biến dự báo Giá

Hình 4.3: Kết quả mô hình (DLNS)

Hình 4.4: Kiểm định χ 2 cho mô hình (DLNS) trị ước lượng của mỗi hệ số góc chính là mức tăng trung bình Lifetime gắn liền với một đơn vị tăng trong mỗi giá trị dự báo khi mà các biến khác là hằng số cố định.

Kiểm định Wald cho ý nghĩa của hệ số cho biến Length p-value = 0.849 > 0.05 và biến Shapelength p-value = 0.844 > 0.05 nói lên rằng hai biến Length, Shapelength không có ý nghĩa trong kiểm định hồi quy này Giá trị F của mô hình này là 22.73. Để minh họa làm thế nào để kiểm định ý nghĩa của một biến dự báo và mong muốn có giá trị F cao hơn, ta có thể kiểm định mô hình hồi quy rút gọn mà không có biến dự báo đó Cụ thể là mô hình rút gọn không bao gồm biến Length và Shapelength tức là β 2 = β 4 = 0. lm(Lifetime ∼ β 0 + β 1 ∗ Diameter+ β 3 ∗ Numyears) (DN)

Từ kết quả (xem hình 4.5), ta nhận được giá trị F = 44.87 cao hơn tức là môNguyễn Thị Cẩm Vân -K2015 80

Hình 4.5: Kết quả hồi quy mô hình rút gọn

Hình 4.6: Phân tích ANOVA cho các mô hình đầy đủ và rút gọn hình tốt hơn Ngoài ra, ta có thể so sánh hai mô hình bằng cách sử dụng kiểm định ANOVA Giả thuyết của ta là mô hình thứ hai tốt hơn so với mô hình đầu tiên. p < 0.05 sẽ bác bỏ giả thuyết và trong trường hợp p > 0.05, ta sẽ không bác bỏ giả thuyết Trong kết quả (xem hình 4.2), ta thấy p = 0.517 > 0.05 Kết quả này chứng thực rằng mô hình thứ hai tốt hơn so với mô hình thứ nhất.

Tuy nhiên, ma trận biểu diễn sự tương quan giữa các biến Lifetime, Length, Diam- eter, Numyears và Shapelength (xem hình 4.7) cho hệ số giữa Lifetime và Shapelength là lớn nhất 0.19 Như vậy ta không thể kết luận biến Shapelength không có ý nghĩa đối với mô hình hồi quy này.

Tiếp theo, ta sẽ trình bày mô hình hồi quy mà trong đó dữ liệu được trung tâm hóa đã được nhắc đến trong chương 2 Cụ thể, ta sẽ trung tâm hóa tất cả các biến dự báo bằng thuật toán đã trình bày trong chương 2 Khi đó, các biến mới được tạo ra là được tập trung hóa Sau đó, ta ước lượng hệ số chặn và các hệ số góc Kết quả được thể hiện trong hình 4.8.

Từ kết quả của mô hình mà các biến dự báo đã được trung tâm hóa bởi kỳ vọng của chúng (xem hình 4.8), một lần nữa ta thấy rằng các biến Diameter.c và Numyears.c

Hình 4.7: Ma trận hệ số tương quan giữa các biến. có ý nghĩa đối với mô hình hồi quy này.

Tương tự mô hình chưa trung tâm hóa, ta sẽ xét mô hình hồi quy trung tâm hóa rút gọn; nghĩa là ta chỉ sử dụng các biến dự báo Diameter.c và Numyears.c trong mô hình hồi quy Cụ thể, ta có mô hình lm(Lifetime ∼ β 0 + β 1 ∗ Diameter.c+ β 3 ∗ Numyears.c) (DN)

Kết quả của mô hình (DN) được minh họa trong hình 4.10 Như vậy, bằng thuật toán trung tâm hóa, giá trị ước lượng của Lifetime là 8.397 trong mối tương quan với trung bình của Diameter và Numyears từ dữ liệu đang được xem xét.

Từ kết quả xuất của mô hình (DN), ta có một số nhận xét quan trọng sau.

• Với độ lớn Diameter cố định, mỗi đơi vị tăng của Numyears sẽ làm cho Lifetime bị suy giảm 0.112 năm.

• Giá trị Adjusted R-squared là 0.1524 trong mô hình (DN) và 0.1512 trong mô hình (DLNS) Giá trị này chính là biến thiên của sự thích hợp của mô hình.

Hình 4.8: Kết quả mô hình trung tâm hóa

Hình 4.9: Kiểm định Chi-bình phương cho mô hình trung tâm hóa đầy đủ

Qua đó, ta thấy rằng việc loại bỏ biến dự báo Shapelength.c và Length.c không ảnh hưởng nhiều đến sự phù hợp của mô hình.

Phân tích hồi quy logistic

Trong các nghiên cứu về dự báo ống hỏng chủ yếu là phân tích tương quan giữa nguy cơ ống hỏng và các yếu tố ảnh hưởng tới nguy cơ hỏng Đối tượng phân tích

Hình 4.10: Mô hình trung tâm hóa rút gọn

Hình 4.11: Kiểm định ANOVA so sánh hai mô hình thường được thể hiện qua biến nhị phân như hỏng/không hỏng, xảy ra/không xảy ra Yếu tố ảnh hưởng là biến liên tục (tuổi ống, đường kính, chiều dài, ) Trong các nghiên cứu trước đây thường áp dụng mô hình tuyến tính bằng cách quy đổi biến ống hỏng về thành biến liên tục là số lần hỏng trên 1km ống trong 1 năm xem [8].

Tuy nhiên cách quy đổi này chưa xác định được xác suất hỏng cho từng đường ống mà chỉ dừng lại ở việc ước tính độ tương quan giữa yếu tố ảnh hưởng và tỉ lệ ống hỏng trên mạng lưới.

Hồi quy logistic là một thuật toán phân lớp được sử dụng để dự báo biến nhị phân, có thể coi đây là một trường hợp đặc biệt của hồi quy tuyến tính Trong hồi quy logistic, biến Y chỉ có hai trạng thái 0 (ống không hỏng) và 1 (ống hỏng) D.R.

Cox là người đầu tiên đưa ra mô hình hồi quy logistic vào năm 1969, mô hình được sử dụng phổ biến trong các nghiên cứu tự nhiên cũng như xã hội.

Trong R, ta có thể thực hiện hồi quy Logistic bằng hàm glm Cụ thể trong luận văn hàm GLM được biểu diễn như sau g(E(Fail)) = β 0 + β 1 ∗Material+ β 2 ∗District+ β 3 ∗Length+ β 4 ∗Diameter

Nguyễn Thị Cẩm Vân -K2015 84 trong đó g() là một hàm liên kết, E(Fail) là kỳ vọng của biến kết quả và các hệ số β 0 , β 1 , β 2 , β 3 , β 4 , β 5 là của các biến dự đoán tuyến tính (các hệ số này phải đi tìm) Bây giờ, ta sẽ giải thích các đặc điểm quan trọng của kết quả.

• Ước lượng đại diện cho các giá trị hệ số hồi quy Ở đây, các hệ số hồi quy giải thích sự thay đổi trong “log (odds)” của biến ứng cho một sự thay đổi đơn vị trong biến dự đoán.

• Std Sai số đại diện cho sai số chuẩn được kết hợp với các hệ số hồi quy.

• z là tương tự như t-thống kê trong đầu ra hồi quy đa biến.

• Giá trị p xác định xác suất ý nghĩa của các biến dự đoán Với mức tin cậy 95%, một biến có p < 0.05 được coi là một yếu tố tiên đoán quan trọng.

Ngoài ra, ta cũng có thể thực hiện kiểm định ANOVA Chi-bình phương (χ 2 ) để kiểm tra hiệu quả tổng thể của các biến dựa vào biến phụ thuộc.

Một số tiêu chuẩn đánh giá cho hồi quy logistic.

• AIC (Akaike Information Criteria) AIC chính là thước đo cho sự thích hợp của mô hình với một số lượng nhất định các hệ số Do đó, ta luôn luôn quan tâm đến mô hình với chỉ số AIC nhỏ nhất.

• Null Deviance và Residual Deviance Null Deviance nhấn mạnh đến biến ứng được dự báo bởi mô hình chỉ với hệ số chặn Residual deviance nói lên biến ứng được dự báo bởi mô hình bằng cách thêm vào các biến độc lập Cả 2 thông số này đều tuân theo nguyên tắc: Giá trị nhỏ hơn sẽ mang lại mô hình tốt hơn.

• Đường cong ROC ROC xác định độ chính xác của một mô hình phân loại tại một ngưỡng giá trị do ta xác định trước Chỉ số này xác định tính chính xác của mô hình bằng cách sử dụng diện tích (AUC) bên dưới đường cong Khu vực dưới đường cong (AUC), còn được gọi là chỉ số độ chính xác (A) hoặc chỉ số phù hợp, thể hiện hiệu suất của đường cong ROC Đường cong càng cong thì mô hình tốt hơn ROC được vẽ giữa tỷ lệ (True Positive Rate) (trục Y) và tỷ lệ Fail Positive Rate (X Axis).

Ta đi đến các kết quả cụ thể của dữ liệu trong luận văn này Từ bảng kết quả hồi quy logistic (xem hình 4.12) và bảng kiểm định ANOVA χ 2 (xem hình 4.13).

Hình 4.12: Kết quả hồi quy logistic

Ta nhận được -2LogL hay được gọi là độ lệch phần nhiễu (Residual deviance) cho mô hình đầy đủ từ kết quả xuất summary() là 1416.1 Kiểm định Wald cho ý nghĩa của hệ số cho biến Diameter p-value = 0.8027 nói lên rằng biến Diameter không có ý nghĩa trong kiểm định hồi quy này Giá trị AIC của mô hình này là 1444.1 Để minh họa làm thế nào để kiểm định ý nghĩa của một biến dự báo và mong muốn có giá trị AIC thấp hơn, ta có thể kiểm định mô hình hồi quy rút gọn mà không có biến dự báo đó Cụ thể là mô hình rút gọn không bao gồm biến Diameter tức là H 0 : β 4 = 0. g(E(Fail)) = β 0 + β 1 ∗Material+ β 2 ∗District+ β 3 ∗Length

Từ kết quả bảng (xem hình 4.14), ta nhận được giá trị AIC = 1442.2 thấp hơn tức là mô hình tốt hơn Ngoài ra, ta có thể so sánh cả hai mô hình sử dụng kiểm địnhANOVA Giả sử giả thuyết của ta là mô hình thứ hai là tốt hơn so với mô hình đầu tiên p < 0.05 sẽ bác bỏ giả thuyết của ta và trong trường hợp p > 0.05, ta sẽ khôngNguyễn Thị Cẩm Vân -K2015 86

Hình 4.13: Kiểm định χ 2 bác bỏ giả thuyết.

Kết quả từ bảng (xem hình 4.15) vớip > 0.05, kiểm định ANOVA này cũng chứng thực rằng mô hình thứ hai tốt hơn so với mô hình đầu tiên.

Giá trị -2logL cho mô hình hồi quy rút gọn là 1416.1 và giá trị của thống kê tỷ lệ LogL là X 2 = 0.0629 Bởi vì mô hình đầy đủ và mô hình rút gọn khác nhau 1 tham số là Diameter nên kiểm định thống kê đối với phân phối Chi-bình phương (χ 2 với bậc tự do bằng 1 Giá trị p-value cho kiểm định này là p = 0.8019 Do đó, ta có thể kết luận rằng có đủ bằng chứng cho rằng hệ sốβ 4 = 0 Điều này cho phép ta xây dựng mô hình hồi quy logistic chỉ dựa trên các biến Material, District, Length và Numyears.

Trong số ống hỏng dự báo bằng mô hình hồi quy logistic thì bao nhiêu ống hỏng thật ở ngoài thực tế và bao nhiêu ống không hỏng lại được mô hình dự báo là hỏng, vấn đề này cần phải được kiểm tra để đánh giá hiệu suất của mô hình dự báo Giới hạn được cho là mô hình dự báo chính xác là p = 50% Các số liệu mô hình dự báo sai có được chấp nhận hay không sẽ được xác định theo hai tiêu chí là đường cong ROC (Receiver Operating Characteristic Curve) và chỉ số AUC. Đường cong ROC là đường cong thể hiện độ nhạy (sensitivity) và độ đặc hiệu (specificity) của kết quả dự báo, một dự báo tốt khi diện tích dưới đường cong là lớn nhất (xem hình 4.17).

Phân tích nhân tố

Ta sử dụng hàmfactual để phân tích nhân tố cho dữ liệu bằng phương pháp hợp lí cực đại Mục đích của việc áp dụng hàm này là để chỉ ra các biến “phụ thuộc” vào mô hình Phép quay Varimax sẽ quay các trục nhân tố với mục đích cực đại hóa phương

Hình 4.15: Kiểm định ANOVA so sánh hai mô hình

Hình 4.16: Kết quả kiểm định LRT

Hình 4.17: Đường cong ROC sai của bình phương hệ số chuyển của 1 nhân tố trên tất cả các biến trong ma trận nhân tố.

Cụ thể, ta sử dụng các biến Length, Diameter, Numyears, Shapelength và Brand trong mô hình phân tích nhân tố.

Bước 1 Ta áp dụng mô hình phân tích 1 nhân tố Kết quả cụ thể được thể hiện trong hình 4.19.

Rõ ràng, ta thấy rằng mức ý nghĩa của thống kê χ 2 là quá nhỏ Điều này nhấn mạnh rằng giả thiết về sự phù hợp của mô hình bị bác bỏ Chúng ta tiếp tục thăm dò để tìm kiếm một mô hình phù hợp hơn Ta xét mô hình gồm 2 nhân tố.

Kết quả của mô hình phân tích 2 nhân tố như sau (xem hình 4.20).

Dựa vào kết quả hình 4.20, ta thấy rằng tổng bình phương hệ số chuyển (Sum of squared loadings) là 1.035 hay ta còn gọi là giá trị riêng hay phương sai của tất cả các biến, chúng được dùng để giải thích cho các nhân tố Đây là giá trị thật sự có ý

Hình 4.19: Mô hình phân tích 1 nhân tố nghĩa vì nó lớn hơn 1.

Kết quả này thật sự tốt hơn so với mô hình phân tích 1 nhân tố Mặc dù kích thươc mẫu rất lớn N = 13168, mức ý nghĩa 0.0665 nhấn mạnh rằng giả thiết về sự phù hợp của mô hình không thể bị bác bỏ Do đó, việc chuyển mô hình từ 1 nhân tố thành 2 nhân tố đã giúp ta cải thiện rất nhiều. Để biết ý nghĩa đối với các nhân tố khác nhau, ta biểu diễn các biến theo 2 nhân tố Hơn nữa, ta cần xác định các biến nào trong nhân tố 1 có ích trong việc giải thích cho các phương sai của các biến (xem hình 4.21) Từ hình 4.21, ta thấy rằng các biến Numyears và Shapelength có tác động rất lớn lên nhân tố 1.

Từ đó, ta tiếp tục thực hiện việc tính giá trị riêng cho nhân tố 1, kết quả ta nhận được là 0.207 Đây chính là tỉ lệ phương sai được giải thích bởi nhân tố thứ nhất này.

Hình 4.20: Mô hình phân tích 2 nhân tố

Hình 4.21: Đồ thị nhân tố 1 đối với nhân tố 2

Trong luận văn này tôi đã nghiên cứu và tìm hiểu được các vấn đề sau Ở chương I, tôi nhắc lại các kiến thức đã biết về hồi quy đơn biến và hồi quy logistic đơn biến Trong chương II, tôi đã trình bày phần mở rộng của chương I là mô hình bội đa biến và hồi quy logistic đa biến, phân tích nhân tố Trong hồi quy bội đa biến, luận văn đã trình bày định nghĩa mô hình hồi quy bội, mô hình hồi quy bội đa biến và các phương pháp ước lượng, kiểm định giả thuyết cụ thể cho từng mô hình Trong mô hình xuất hiện các biến định tính thì tôi sử dụng hồi quy logistic để giải quyết vấn đề đó Tuy nhiên, dữ liệu trong thực tế gồm nhiều biến giải thích phụ thuộc lẫn nhau Do đó, một trong những phương pháp để rút gọn dữ liệu thực tế trên thành một tập biến (gọi là các nhân tố) ít hơn để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban đầu được gọi là phương pháp phân tích nhân tố Các lý thuyết được trích từ tài liệu tham khảo [7], [5], [9].

Luận văn đã áp dụng lần lượt từng mô hình cho dữ liệu quan trắc ống nước của các quận thuộc thành phố Đà Nẵng Dữ liệu bao gồm 15 cột như Mainpipecode, Mainpipetype, Fail, Material, Diameter, Length, Brand, Installationdate, District, Shapelength, Lifetime, Cause, Date, Limit, Numyears được quan trắc từ 1980 đến 2015 Như vậy kích thước của dữ liệu là một ma trận 13168 × 15 Các yếu tố ảnh hưởng tới ống hỏng được xem xét trong luận văn bao gồm các đặc trưng vật lí của hệ thống (Diameter, Length, Material), chỉ số tuổi thọ (Lifetime) đại diện cho tỉ lệ ăn mòn, Numyears đại diện cho hiệu số giữa thời gian khảo sát và thời gian lắp đặt. Ở mô hình bội đa biến chỉ xuất hiện các biến định lượng như Length, Diameter, Lifetime, Numyears Trong khi đó, mô hình logistic đa biến đã xuất hiện thêm các biến định tính như là Material, District Trong phân tích nhân tố, tôi sử dụng phép quay varimax các trục nhân tố để cực đại hóa phương sai Như kết quả được trình

92 bày trong chương 4, nguyên nhân ống vỡ có tác động rất lớn từ biến Diameter và Numyears.

Trong suốt quá trình thực hiện luận văn do thời gian cũng như kiến thức của bản thân còn hạn chế nên tôi chưa xét tất cả các mô hình hồi quy cho dữ liệu quan trắc trên Do đó, hướng mở rộng của luận văn là sử dụng thống kê Bayes để đánh giá và kiểm định dữ liệu Ngoài ra, tôi xét thêm tính đa cộng tính và đưa thêm các yếu tố như thời tiết, độ ẩm vào luận văn.

Trong quá trình thực hiện luận văn này, tôi đã nỗ lực và cố gắng nhưng không thể tránh khỏi những hạn chế cũng như thiếu sót Tôi mong nhận được sự thông cảm và ý kiến đóng góp của quý Thầy Cô và bạn đọc.

Tôi xin chân thành cảm ơn.

Tiêu đề	Hồi quy và Ứng dụng
Tác giả	Nguyễn Thị Cẩm Vân
Người hướng dẫn	TS. Nguyễn Tiến Dũng
Trường học	Trường Đại học Bách Khoa - ĐHQG - HCM
Chuyên ngành	Toán ứng dụng
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	110
Dung lượng	750,76 KB