Khái niệm: Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác.. Tuổi và chiều
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC GIÁO DỤC
-
NHẬP MÔN THỐNG KÊ ỨNG DỤNG TRONG
GIÁO DỤC
NỘI DUNG: THỐNG KÊ HỒI QUY
Giảng viên : TS Phạm Văn Hoằng
Mã lớp : EAM 3002 2
Nhóm thực hiện : B
Hà Nội, 2022
Trang 27 Kim Anh Thư
8 Cao Phạm Thùy Linh
9 Ngô Diệu Linh
10 Trương Ngọc Anh
11 Vũ Thị Xuân Quỳnh
12 Đỗ Thu Hương
13 Ngô Thị Hồng Ngát
14 Lê Thị Tâm Như
15 Lê Thị Thanh Thảo
16 Lê Minh Anh
Trang 3I.Các khái niệm:
1 Khái niệm hồi quy:
- Hồi quy là phương pháp được sử dụng để nghiên cứu mối quan hệ giữa biến phụ thuộc (biến kết quả, biến respones) Y với một hoặc nhiều biến độc lập(dự báo, giải thích, nguyên nhân, covariates) X
+Dự đoán kết quả học tập dựa trên việc kiểm tra IQ hoặc hồ sơ cá nhân;
+ Quyết định cho vay/hay không cho vay dựa trên dự đoán khả năng trả nợ, ;
+Quyết định đầu tư hay không đầu tư dựa trên dự đoán khả năng thu hồi vốn,
3, Một số dạng hồi quy :
- Hồi quy tuyến tính, Hồi quy logit, Hồi quy phi tuyến tính, Hồi quy động,
II Các dạng hồi quy
1 Hồi quy tuyến tính
1.1 Khái niệm:
Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác Nó mô hình toán học biến không xác định hoặc phụ thuộc và biến đã biết hoặc độc lập như một phương trình tuyến tính
Ví dụ: giả sử rằng bạn có dữ liệu về chi phí và thu nhập của bạn trong năm ngoái
Kỹ thuật hồi quy tuyến tính phân tích dữ liệu này và xác định rằng chi phí của bạn là
Trang 4một nửa thu nhập của bạn Sau đó, họ tính toán một chi phí trong tương lai không rõ bằng cách giảm một nửa thu nhập được biết đến trong tương lai
1.2 Các bước trong hồi quy tuyến tính:
- Để có cái nhìn tổng quan, hãy xem xét dạng đơn giản nhất của phương trình đồ thị đường giữa y và x; y=cx+m, trong đó c và m là hằng số cho tất cả các giá trị có thể
có của x và y
- Giả sử rằng tập dữ liệu đầu vào cho (x,y) là (1,5), (2,8), và (3,11) Để xác định phương pháp hồi quy tuyến tính,ta sẽ thực hiện các bước sau:
- Vẽ một đường thẳng và đo lường mối tương quan giữa 1 và 5
- Tiếp tục thay đổi hướng của đường thẳng cho các giá trị mới (2,8) và (3,11) cho đến khi tất cả các giá trị đều phù hợp
- Xác định phương trình hồi quy tuyến tính là y=3x+2
- Ngoại suy hoặc dự đoán y là 14 khi x là 4
Trang 5Tuổi và chiều cao ở trẻ em
Nhiệt độ và sự giãn nở của thủy ngân kim loại trong nhiệt kế
* Hồi quy tuyến tính bội
- Trong phân tích hồi quy tuyến tính bội, tập dữ liệu chứa một biến phụ thuộc và nhiều biến độc lập Hàm đường hồi quy tuyến tính thay đổi để bao gồm nhiều yếu tố như sau: Y = β0 + β1X1 + β2X2 + … + βnXn + e
Khi số lượng biến dự báo tăng lên, các hằng số β cũng tăng lên tương ứng
- Ví dụ: Hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả:
Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng
Chế độ ăn uống và tập thể dục đối với bệnh tim
Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình
* Hồi quy logistic
- Các nhà khoa học dữ liệu sử dụng hồi quy logistic để đo lường xác suất xảy ra một sự kiện Dự đoán là một giá trị giữa 0 và 1, trong đó 0 thể hiện một sự kiện khó xảy
ra, và 1 thể hiện khả năng tối đa rằng sự việc đó sẽ xảy ra Các phương trình logistic sử dụng các hàm logarit để tính toán đường hồi quy
Trang 6- Ví dụ:
Xác suất thắng hoặc thua trong một trận đấu thể thao
Xác suất đỗ hoặc trượt một bài kiểm tra
Xác suất một hình ảnh là trái cây hoặc con vật
1.4 Bản chất, ý nghĩa của mô hình hồi quy tuyến tính
1.4.1 Bản chất của biến phụ thuộc
Biến phụ thuộc được xem như 1 biến ngẫu nhiên có giá trị liên tục và được đo lường bằng một trong 4 thang đo thông dụng thường được nhắc đến trong phần mềm SPSS sau đây:
- Thang đo khoảng: ví dụ về thang đo khoảng cách giữa thu nhập người nghèo với người giàu, năm này với năm kia,…
- Thang đo định danh: thường đo các biến giả có giá trị được lượng hoá thành 0
và 1 tuỳ theo sở thích người đặt Ví dụ như giới tính, tôn giáo, hôn nhân…
- Thang đo thứ bậc : khá tương tự với thang đo định danh chỉ thêm vào vài biến giả và xếp hạng thứ bậc cho biến Ví dụ như: Phân chia 4 mức thu nhập từ thấp → cao; xếp hạng từ A→D…
- Thang đo tỷ lệ: là tỷ lệ, khoảng cách giữa hai biến số Ví dụ nếu như biến phụ thuộc là tỷ số từ hai biến khác, thứ tự là các đại lượng có ý nghĩa có thể so sánh được như đo lường so sánh GDP năm nay và năm ngoài hay Lạm phát
* Trong kinh tế lượng căn bản, mô hình hồi quy tuyến tính ước lượng theo phương pháp OLS thì biến Y chỉ ở dạng thang đo tỷ lệ hoặc thang đo khoảng (gọi chung
là biến ngẫu nhiên liên tục) Lý do đơn giản là sự thay đổi thang đo và phân phối xác xuất của Y sẽ thay đổi luôn thang đo của sai số hay hạng nhiễu u, mà sai số u thì không thể là thang đo thứ bậc và định danh được
Trang 71.4.3 Bản chất của hạng nhiễu hay sai số ngẫu nhiên
- Hạng nhiễu hay sai số ngẫu nhiên sẽ đại diện cho tất cả các biến mà bạn bỏ sót hay không được đưa vào mô hình vì những lý do khác nhau gồm:
- Không có sẵn dữ liệu: ví dụ bạn đang điều tra các nhân tố ảnh hưởng đến thu nhập của gia đình như công việc, tuổi thì có thể thu thập được nhưng tinh thần của thành viên tạo ra thu nhập trong gia đình có tác động đến thu nhập thì rất khó để thu thập khi tiến hành điều tra hộ gia đình
- Lỗi đo lường trong dữ liệu: ví dụ bạn đã đo lường sai về thu nhập trung bình người dân TPHCM khi chỉ xét từ mức 100tr/ tháng trở xuống chẳng hạn… hoặc đánh giá về thời gian làm việc trong tuần của người dân TPHCM nhưng chưa xét đến việc có những công dân họ làm việc là giờ bạn đi ngủ,…
* Cho dù bạn có nguồn tạo ra hạng nhiễu u là gì thì vẫn có giả định cho rằng ảnh hưởng trung bình của hạng nhiễu ngẫu nhiên lên biến phụ thuộc là không đáng kể
Trang 8
1.4.4 Bản chất của các hệ số hồi quy
Các hệ số hồi quy là những con số cố định và không ngẫu nhiên, mặc dù ta không thể biết giá trị thực của các hệ số này là bao nhiêu vì hệ số này tuỳ thuộc vào hoàn cảnh,
đề tài và dữ liệu bạn thu thập
Mục đích của phân tích hồi quy là ước lượng các giá trị hệ số hồi quy dựa trên
dữ liệu mẫu và các ước lượng của hệ số hồi quy là các biến ngẫu nhiên vì giá trị của từng hệ số sẽ thay đổi khi mẫu thay đổi
* Chú ý: Các hệ số hồi quy có phân phối chuẩn nên khi kiểm định từng hệ số hồi quy ta thường sử dụng thống kê t thay vì thống kê z Một nhánh của thống kê được biết
là thống kê Bayes xử lý các hệ số hồi quy (tổng thể) là ngẫu nhiên
1.4.5 Ý nghĩa mô hình hồi quy tuyến tính
Khi dịch từ tên hồi quy tuyến tính ta có thể thấy thuật ngữ tuyến tính trong mô hình hồi quy tuyến tính ở đây chính là tổ hợp tuyến tính ở các số hồi quy mà không phải
là tuyến tính ở biến phụ thuộc và độc lập
1.4.6 Các loại dữ liệu thường được áp dụng trong mô hình hồi quy tuyến tính
- Dữ liệu chuỗi thời gian: là loại dữ liệu tập hợp qua các thời gian khác nhau có thể được phân loại theo ngày, quý, tháng, năm và các biến thể trong thời gian khác Ví
dụ như chỉ số giá tiêu dùng; giá chứng khoán theo ngày; GDP theo năm hoặc quý, tỷ giá hồi đoái,…
Chú ý: Trong dữ liệu thời gian thường có 2 đặc trưng vì các quan sát liên tục theo thời gian nên tương quan với nhau từ đó dẫn đến hiện tượng tự tương quan xảy ra trong mô hình và các chuỗi thời gian thường là chuỗi không dừng vì đa phần liên quan đến thời gian trong tài chính, mô hình kinh tế nên có thể làm xuất hiện hiện tượng hồi quy giả mạo
Trang 9- Dữ liệu chéo: là loại dữ liệu được thu thập tại cùng một thời điểm nào đó Tương tự như dữ liệu chuỗi thời gian thì dữ liệu chéo có đặc trưng là phương sai thay đổi vì ảnh hưởng bởi quy mô
- Dữ liệu bảng (một loại đặc biệt của dữ liệu gộp): Là kết hợp từ dữ liệu thời gian
và dữ liệu chéo vì vậy nó là sẽ kết hợp giữa các đặc trưng trong cả hai dữ liệu Ví dụ như nghiên cứu ảnh hưởng của COVID lên các ngân hàng trên sàn HOSE trong giai đoạn 5 năm
2 Hồi quy phi tuyến tính
2.1 Định nghĩa
Hồi quy phi tuyến tính là một dạng phân tích hồi quy trong đó dữ liệu quan sát được mô hình hóa bằng một hàm là một sự kết hợp phi tuyến tính của các tham số mô hình và phụ thuộc vào một hay nhiều biến độc lập
Các hàm hồi quy phi tuyến tính gồm: hàm mũ, hàm logarit, hàm lượng giác, hàm lũy thừa, hàm Gauss và đường cong Lorent
Một số dạng hàm hồi quy phi tuyến có thể đưa về dạng hàm hồi quy tuyến tính : hồi quy lũy thừa, hồi quy mũ, hồi quy parabol, hồi quy hyperbol bội, hồi quy logarit Phương trình
y~ 𝑓( 𝑥, 𝛽)
liên quan đến một véctơ các biến độc lập, x, và các biến phụ thuộc liên quan được quan sát của nó, y Hàm f là phi tuyến tính ở các thành phần của các tham số của véctơ β, nhưng không phải là hàm tùy ý
Hàm này là phi tuyến tính vì nó không thể thể hiện một tổ hợp tuyến tính của hai giá trị 𝛽{\displaystyle \beta }
Trang 10Mô hình
Ví dụ
Trang 112.2 Hồi quy tuyến tính đơn (hàm hồi quy lý thuyết)
2.2.1 Định nghĩa hàm hồi quy tuyến tính đơn
- Hàm hồi quy (hay hàm hồi quy kỳ vọng của 𝑌 đối với một vectơ 𝑋 = (𝑋2, 𝑋3 , , 𝑋𝑝)) là kỳ vọng có điều kiện của Y đối với X
𝑏 = 𝐸(𝑌) − 𝑎𝐸(𝑋)
2.2.2 Phương trình hồi quy tuyến tính đơn biến
a) Phương trính hồi quy tổng thể của 𝒀 theo 𝑿
- Hai b.n.n t 𝑋 và 𝑌 có hệ số tương quan Pearson 𝑟 ≠ 0, khi đó:
Trang 12𝜖: Phần tử nhiễu
b) Phương trình hồi quy mẫu
- Hai b.n.n t 𝑋 và 𝑌 có hệ số tương quan Pearson 𝑟 ≠ 0, khi đó:
𝑌̂𝑖 = 𝛽̂ + 𝛽𝑜 ̂𝑋 1
là phương trình hồi quy mẫu của 𝑌 theo 𝑋
- Trong đó:
𝛽̂ , 𝛽𝑜 ̂ tương ứng là các ước lượng của 𝛽1 𝑜, 𝛽1
𝑌̂𝑖 là giá trị tiên đoán của Y tại quan sát thứ i của X
𝜖̂𝑖 = 𝑌𝑖 – 𝑌̂𝑖 = 𝑌𝑖 – (𝛽̂ + 𝛽𝑜 ̂𝑋) là sai số ngẫu nhiên giữa 𝑌1 𝑖 với 𝑌̂𝑖 tại 𝑋𝑖
2.2.3 Mô hình hồi quy tuyến tính đơn
- Giả sử ta có một mẫu ngẫu nhiên kích thước n thu được khi quan sát (Y, X) là:
{(𝑌𝑖, 𝑋𝑖)} = {(𝑌₁, 𝑋1), (𝑌2, 𝑋2), … , (𝑌𝑛, 𝑋𝑛)}
- Khi đó chúng ta có thể viết: 𝑓𝑦𝑖( 𝑋𝑖) = 𝐸(𝑌𝑖/ 𝑋𝑖) = 𝑎 𝑋𝑖+ 𝑏
Hay:
𝑌𝑖 = 𝑎 𝑋𝑖+ 𝑏 + 𝑈𝑖; 𝑖 = 1, 𝑛̅̅̅̅̅ (*)
(*) được gọi là mô hình hồi quy tuyến tính đơn
- Trong đó 𝑈𝑖 là các sai số ngẫu nhiên và giả thiết rằng chúng độc lập với nhau, cùng tuân theo quy luật phân phối chuẩn 𝑁(0, 𝜎2)
a) Mô hình hồi quy tổng thể
𝑌𝑖 = 𝛽1 𝑋𝑖 + 𝛽𝑜 + 𝑈𝑖Trong đó:
Trang 13𝛽𝑜 là hệ số tự do (hệ số cắt, hệ số chặn), đo lường giá trị trung bình của Y khi X bằng
0
𝛽1 là hệ số đo độ dốc, đo lường lượng thay đổi trung bình của Y đối với mỗi đơn vị thay đổi của X
𝑈𝑖 là các sai số ngẫu nhiên
b) Mô hình hồi quy hồi quy mẫu
𝑌̂𝑖 = 𝛽̂ + 𝛽𝑜 ̂𝑋 + 𝜖̂1 𝑖
- Trong đó:
𝛽̂ , 𝛽𝑜 ̂ tương ứng là các ước lượng của 𝛽1 𝑜, 𝛽1
𝑌̂𝑖 là giá trị tiên đoán của Y tại quan sát thứ i của X
𝜖̂𝑖 = 𝑌𝑖 – 𝑌̂𝑖 = 𝑌𝑖 – (𝛽̂ + 𝛽𝑜 ̂𝑋) là điểm ước lượng của 𝑈1 𝑖 và được gọi là phần dư
Bài tập ví dụ
Ta chọn ra 1 mẫu thu nhập và tiêu dùng như sau:
Lập hàm quy hồi từ mẫu
Trang 14đoán giá trị của biến phản hồi được gọi là các biến giải thích (hoặc đôi khi là biển dự báo, biến phụ thuộc)
4.2 Giả thuyết vô hiệu và suy luận thống kê
- Khi có nhiều hơn một biến độc lập, mô hình phù hợp tổng thể được đánh giá bằng thống kê F (F statistic) Giả thuyết vô hiệu được thử nghiệm liên quan đến tất cả các tham số hồi quy ngoại trừ điểm chặn Ví dụ, nếu có ba biến giải thích trong mô hình thì giả thuyết vô hiệu sẽ là: Ho : β1 = β2 = β3 = 0 Thống kê F được đánh giá là tỷ lệ giữa bình phương trung bình của mô hình so với bình phương trung bình của sai số
4.3 Mô hình hồi quy bội
Giả sử Y phụ thuộc vào k biến độc lập 𝑋1… 𝑋𝑘 Nếu giá trị của k biến độc lập X1…Xk mô hình hồi quy bội dưới dạng tuyến tính sau:
Y = α + 𝛽1𝑋1 + 𝛽2𝑋2+… + 𝛽𝑘𝑋𝑘 + U
𝛽𝑗: được gọi là hệ số hồi quy riêng, thể hiện mức độ biến thiên Y khi biến Xj thay đổi
1 đơn vị các biến còn lại không đổi
U là sai số Tương tự như đối với hồi quy đơn giản
Phương trình hồi quy bội của mẫu
Gọi các hệ số a, 𝑏1….𝑏𝑘 ước lượng cho α, 𝑏1….𝑏𝑘 được xác định bởi phương pháp bình phương bé nhất
Trang 15𝜕𝑓 / 𝜕𝑏𝑘 = 0
Giải hệ phương trình ta sẽ tìm được nghiệm ( a, 𝑏1… 𝑏𝑘 )
Ví dụ
Ví dụ, chúng ta có thể sử dụng hồi quy bội số để hiểu liệu có thể dự đoán kết quả
kỳ thi Toán giải thích dựa trên thời gian ôn tập, và giới tính của sinh viên hay không Hồi quy bội cũng cho phép chúng ta xác định sự phù hợp tổng thể của mô hình và đóng góp tương đối của từng yếu tố dự báo vào tổng phương sai được giải thích Ví dụ, chúng
ta có thể muốn biết mức độ thay đổi trong kết quả kỳ thi cuối kì Toán giải thích có thể được giải thích bằng thời gian ôn tập và giới tính “nói chung”, nhưng cũng là “đóng góp tương đối” của mỗi biến độc lập trong việc giải phương sai
5 Hồi quy logit
Ông “tổ” của mô hình hồi quy Logistic
Professor David R.Cox Imperial College, London
Trang 16VD: Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,
mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,
- Đặc trưng: biến phụ thuộc chỉ có 2 giá trị là 0 và 1
5.2 Phương trình hồi quy nhị phân
Phương trình hồi quy nhị phân Binary Logistic có dạng:
Trang 17Mở rộng mô hình hồi quy logistic
Hồi quy Logistic thứ bậc
(Ordinal logistic regression)
Hồi quy Logistic đa thức (Multinomial logistic regression)
Chức
năng
Phân tích Logarit tích lũy odds của
điểm số ở thứ hạng cao nhất tiếp
theo của 1 biến thứ tự được nhóm
gộp
Phân tích đa lựa chọn của các kết quả
Ví dụ Thang đo khảo sát mức độ hiểu bài
của học sinh để chọn giữa “rất đồng
Một số ứng dụng trong giáo dục:
- Áp dụng hồi quy logit trong việc phân tích thống kê số lượng tuyển sinh Đại học/ Cao đẳng để xác định các nhân tố ảnh hưởng đến khả năng trúng tuyển đại học, chọn ngành của học sinh đó, từ đó đưa ra được khuyến nghị đối với công tác tuyển sinh đại học
- Áp dụng hồi quy logit dự đoán khả năng học sinh/ sinh viên đứng một lớp, một khóa có thể hoàn thành bài tập được giao, từ đó đưa ra định hướng giáo dục phù hợp với khả năng học sinh, sinh viên
6 Hệ số xác định 𝑹𝟐 và hệ số xác định hiệu chỉnh 𝑹 ̂𝟐
Trang 186.1 Hệ số xác định:
-Tổng biến thiên của biến phụ thuộc (Total sum of squares, TSS): Là tổng bình
phương chênh lệch giữa các giá trị thực tế của Yi so với giá trị trung bình của nó 𝑌̅ :
TSS = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌)̅̅̅2
-Tổng biến thiên hồi quy (Equal Sum of Squares, ESS): Là tổng bình phương
chênh lệch giữa các giá trị hồi quy 𝑌̂i so với giá trị trung bình của nó 𝑌̅ :
ESS = ∑𝑛 (𝑌̂𝑖 − 𝑌)̅̅̅2
𝑖=1 = 𝛽̂12∑𝑛𝑖=1𝑋𝑖2
-Tổng phương sai phần dư (Residual Sum of Squares, RSS) là tổng bình phương
chênh lệch giữa các giá trị thực tế Yi với các giá trị hồi quy 𝑌̂i :
RSS = ∑𝑛𝑖=1𝜖̂𝑖2 = ∑𝑛 (𝑌𝑖 − 𝑌̂𝑖)2
𝑖=1
6.2 Hệ số xác định 𝑅2 và hệ số xác định hiệu chỉnh 𝑅̂2 :
TSS = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌)̅̅̅2ESS = ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌)̅̅̅2RSS = ∑𝑛𝑖=1𝜖̂𝑖2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̂𝑖)2TSS = ESS + RSS
𝑛−𝑘
Trang 197 Ý nghĩa của 𝑹𝟐 và 𝑹̂𝟐 :
0 ≤ 𝑅2 ≤ 1
𝑅2 và 𝑅̂2 cùng đo lường tỷ lệ biến thiên của Y được giải thích bởi biến X, phản ánh
độ mạnh của mô hình,nhưng 𝑅̂2 phản ánh chính xác hơn 𝑅2 , theo nghĩa: X giải thích được 𝑅̂2.100% sự biến thiên của Y
𝑅2 càng gần 1 thì mô hình càng có ý nghĩa và ngược lại
8 Ước lượng và kiểm định hệ số hồi quy
- 𝑠̂𝑒(𝛽0), 𝑠̂𝑒(𝛽1) tương ứng là U.L cho 𝜎𝛽0 và 𝜎𝛽1 cho bởi: