Phân tích hồi quy là mô tả mối quan hệ phụ thuộc của một biến thường được gọi là biến phụ thuộc hay biến được giải thích vào một hay nhiều biến khác thường được gọi là biến độc lập hay b
Trang 1BÀI 2 PHÂN TÍCH HỒI QUY VÀ MỘT SỐ Ý TƯỞNG CƠ BẢN
Mục tiêu
Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:
• Khái niệm phân tích hồi quy
• Số liệu trong phân tích hồi quy
• Mô hình hồi quy tổng thể (PRF)
• Mô hình hồi quy mẫu (SRF)
• Quan niệm tuyến tính trong phân tích hồi quy
• Ý nghĩa của nhiễu ngẫu nhiên trong
mô hình
• Khái niệm phân tích hồi quy
• Số liệu trong phân tích hồi quy
• Mô hình hồi quy tổng thể (PRF)
• Mô hình hồi quy mẫu (SRF)
• Quan niệm tuyến tính trong phân tích hồi quy
• Ý nghĩa của nhiễu ngẫu nhiên trong mô hình
Thời lựợng
• 5 tiết
• Đọc tài liệu để có được những ý tưởng chính
• Lấy các ví dụ để minh họa cho khái niệm phân tích hồi quy
• Tập trung để hiểu rõ và phân biệt 2 khái niệm hàm hồi quy tổng thể và hàm hồi quy mẫu
• Hiểu rõ vai trò của nhiễu ngẫu nhiên (sai số ngẫu nhiên) trong mô hình
Trang 2TÌNH HUỐNG DẪN NHẬP
Tình huống
Ban giám hiệu Viện Đại học Mở quan tâm tới kết quả học tập năm
đầu tiên của sinh viên có bị ảnh hưởng bởi điểm thi đầu vào của
sinh viên hay không Để tiến hành nghiên cứu, họ sẽ chọn ra ngẫu
nhiên 100 sinh viên đã học hết năm đầu tiên trong trường rồi lấy
thông tin về điểm thi đầu vào (X) và điểm trung bình chung năm
thứ nhất (Y) Nhà nghiên cứu sau khi thực hiên các mô tả thống kê để
xem xét mối quan hệ giữa X và Y đã quyết định sử dụng mô hình hồi quy tuyến tính dạng E Y / X( i)= β + β1 2Xi Với mẫu ở trên, người ta đã ước lượng được mô hình hồi quy mẫu
có dạng:
ˆYi = −3.25 0.75X+ i
Câu hỏi Với kết quả này, các nhà nghiên cứu sẽ kết luận gì về sự ảnh hưởng của điểm
thi đầu vào tới điểm trung bình học tập năm thứ nhất của sinh viên Viện đại học Mở?
Với kết quả này, ta có thể suy ra rằng điểm thi đầu vào là có ảnh hưởng đến điểm trung bình năm thứ nhất Cụ thể, khi điểm thi đầu vào tăng lên 1 điểm thì điểm trung bình chung năm thứ
nhất của sinh viên sẽ tăng trung bình là 0,75 điểm
Trang 32.1 Khái niệm phân tích hồi quy
Trong cuộc sống hàng ngày, chúng ta thường gặp tình huống khi phải thành lập mối quan hệ giữa hai đại lượng Đôi khi mối quan hệ đó là hoàn hảo Ví dụ, quan hệ chuyển đổi giữa một loại tiền tệ và loại tiền tệ khác được chi phối bởi tỷ suất chuyển đổi giữa chúng Tại một thời điểm xác định, một đô la Mỹ được đổi thành 18000 đồng Việt Nam Vào cùng ngày, không quan trọng ai là người đang giao dịch, tỷ suất chuyển đổi vẫn như vậy Quan hệ hoàn hảo này được mô tả bởi một công thức toán học:
D =18000E (2.1) Trong công thức (2.1) D là giá trị Đồng Việt Nam (VND), E là giá trị của đô la Mỹ (USD), chỉ số dưới i là giao dịch thứ i Trong thực tế, người ta cần trả phí cho quá trình trao đổi, chẳng hạn 2000 VND cho mỗi giao dịch và như vậy công thức có thể cần
có phí trao đổi trong đó, như công thức (2.2) Tuy vậy mối quan hệ vẫn là hoàn hảo
Ví dụ về giao dịch tiền tệ mô tả một quan hệ hoàn hảo, bởi vì với mỗi đô la Mỹ được đưa cho quầy giao dịch tiền tệ, chúng ta biết một cách chính xác là bao nhiêu đồng Việt Nam chúng ta sẽ nhận lại Quan hệ tuyến tính hoàn hảo thường được mô tả bằng
đồ thị là một đường thẳng ở đó tất cả các điểm dữ liệu rơi vào đường thẳng này Mô hình toán học của quan hệ tuyến tính hoàn hảo được cho bởi công thức:
Y = +b b X (2.3) trong đó, chỉ số dưới i được dùng để chỉ trường hợp thứ i Như vậy, khi có một quan
hệ tuyến tính hoàn hảo giữa hai đại lượng X và Y, ta hoàn toàn có thể dự đoán được giá trị của Y khi biết trước giá trị cụ thể của X
Tuy nhiên không phải mọi mối quan hệ đều là hoàn hảo Đôi khi xảy ra trường hợp
mà đại lượng Y không thể dự báo hoặc không thể giải thích được một cách hoàn toàn
qua giá trị của đại lượng X Phần dư (hoặc nhiễu) là một thuật ngữ dùng để mô tả bất
cứ đại lượng nào còn lại của Y mà không giải thích được bởi X Về mặt toán học, với
mỗi điểm dữ liệu, phần dư là sự sai khác giữa giá trị quan sát được và giá trị được dự
báo qua X của Y Quan hệ không hoàn hảo giữa Y và X được biểu thị qua công thức
(2.4) Công thức này gần như đồng nhất với công thức (2.3), chỉ khác ở phần dư u được cộng thêm vào
Tổng của tất cả các phần dư đưa ra một dấu hiệu của việc giải thích hiệu lực tác động của X đối với Y Khi phần dư nhỏ, thì X là một dự báo mạnh của Y (hay giữa X và Y
có quan hệ tuyến tính mạnh) Còn khi phần dư lớn, X là một dự báo yếu của Y (hay giữa X và T có quan hệ tuyến tính yếu) Theo biểu đồ, những dấu chấm của điểm dữ liệu gần với đường dự báo khi X là một dự báo mạnh của Y, còn những dấu chấm phân tán xa đường dự báo khi X là dự báo yếu của Y Điều này được mô tả dưới dạng biểu đồ trên Hình 2.1
Phương trình (2.4) biểu diễn mô hình hồi quy tuyến tính đơn, nội dung xuất phát và đơn giản nhất trong các nghiên cứu về phân tích hồi quy Từ đó, ta có thể từng bước xây dựng các mô hình phức tạp hơn, thiết kế các công cụ đa dạng hơn để giải quyết các vấn đề trong kinh tế lượng
Trang 4
Quan hệ tuyến tính mạnh Quan hệ tuyến tính yếu
Hình 2.1 Mức độ quan hệ tuyến tính giữa hai biến
Phân tích hồi quy là một trong những công cụ cơ bản
của kinh tế lượng Phân tích hồi quy là mô tả mối quan
hệ phụ thuộc của một biến (thường được gọi là biến
phụ thuộc hay biến được giải thích) vào một hay
nhiều biến khác (thường được gọi là biến độc lập hay
biến giải thích)
Ta ký hiệu biến được giải thích (biến phụ thuộc) là Y
và các biến giải thích (biến độc lập) là X , X , , X 1 2 k
Thuật ngữ hồi quy được Francis Galton sử dụng khi
ông nghiên cứu các mối quan hệ giữa chiều cao của
những đứa trẻ và chiều cao của bố mẹ chúng Ông thấy
rằng mặc dù bố mẹ cao hoặc thấp thì cũng có những đứa
trẻ thấp hoặc cao nhưng có một xu thế là chiều cao của những đứa trẻ sẽ hội tụ về một chiều cao trung bình nào đó phụ thuộc một phần vào chiều cao của bố mẹ
Trường hợp số biến giải thích k = 1 thì ta gọi là hồi quy đơn, nếu số biến giải thích k >1 thì ta gọi là hồi quy bội
Ví dụ 1: Mô hình hồi quy đơn với một biến phụ thuộc Y và một biến độc lập X, trong đó
Ví dụ 2: Mô hình hồi quy bội với biến phụ thuộc Y và
hai biến độc lập X và 1 X , trong đó 2
Y = doanh thu của công ty
X = chi phí cho quảng cáo 1
X = lương trả cho nhân viên tiếp thị 2
Trong ví dụ 1 ta xác định mối quan hệ của mức chi
tiêu Y và mức thu nhập X Trong ví dụ 2 ta xác định
mối quan hệ giữa doanh thu Y và chi phí cho quảng cáo X và tiền lương trả cho nhân 1 viên tiếp thị X 2
Phân tích hồi quy giải quyết những vấn đề sau:
Francis Galton
(1822-1911)
Trang 5• Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập Trong ví dụ 1, ta cần ước lượng mức chi tiêu trung bình khi biết mức thu nhập X
• Dự báo giá trị của Y khi biết được giá trị của biến giải thích X
• Kiểm định giả thuyết và bản chất của sự phụ thuộc và xác định hiệu quả tác động của biến độc lập lên biến phụ thuộc
Khi mô tả mối quan hệ giữa biến phụ thuộc và các biến độc lập cũng cần phân biệt
rõ các kiểu quan hệ sau:
o Quan hệ tất định hay còn gọi là quan hệ toán học giữa X và Y, quan hệ này được cho dưới dạng một hàm số Y f (X)= , cứ cho một giá trị của X ta sẽ xác định được một giá trị của Y Biểu thức (2.3) mô tả một mối quan hệ tất định giữa X và Y
o Quan hệ thống kê là quan hệ mà không xác định được giá trị duy nhất của Y khi cho biết giá trị của X mà ta chỉ biết được giá trị của Y theo một xác suất nào đó, hay nói cách khác ta chỉ xác định được phân bố xác suất của Y khi biết giá trị của X Biểu thức (2.4) tương ứng với một mối quan hệ như vậy giữa X
và Y
Trong phân tích hồi quy ta đề cập tới kiểu quan hệ loại 2 trên đây, chứ không chọn kiểu quan hệ loại 1 làm đối tượng nghiên cứu
Ví dụ 3: Xét ví dụ 1 về mối quan hệ giữa chi tiêu Y và
thu nhập X Giả sử mối quan hệ đó được biểu diễn qua
phương trình
Y b= +1 b X u2 +
trong đó b1=1,5,b2 =0,9, còn u là yếu tố ngẫu nhiên
và u = 0,2 với xác suất ½ , u = –0,2 với xác suất ½
Khi đó nếu biết giá trị của X là bằng 1 thì giá trị của Y là
Y = 2,6 với xác suất ½ ,
Y = 2,2 với xác suất ½ Nếu u có phân bố chuẩn N(1;σ , khi đó với mỗi giá trị của X thì Y sẽ có phân bố 2) chuẩn Ta có đồ thị trong trường hợp này cho trong Hình 2.2
Hình 2.2 Quan hệ ngẫu nhiên giữa X và Y với sai số ngẫu nhiên u có phân bố chuẩn
X
E(Y|x i )
Phân phối của Y
Kỳ vọng có điều kiện
Y
Trang 6Trong hình 2.2, đại lượng Y không nhận giá trị tất định, các giá trị của Y được xác
định một cách ngẫu nhiên, phụ thuộc vào giá trị của đại lượng ngẫu nhiên u
Đường thẳng tất định Y biểu diễn giá trị trung bình của Y ứng với từng giá trị cho
trước của X Đối với mỗi giá trị cố định của X thì Y có thể nhận những giá trị khác
nhau tập trung xung quanh giá trung bình của Y trên đường thẳng đó Với mỗi giá trị
0
X của X, giá trị của Y có phân bố chuẩn trên đường thẳng X X= 0 (song song với
trục tung) Mối quan hệ giữa X và Y như vậy được gọi là mối quan hệ ngẫu nhiên và u
được gọi là sai số hoặc nhiễu ngẫu nhiên
Tổng quát hơn, quan hệ giữa X và Y có thể có dạng
Y= α + β + X u với u là nhiễu ngẫu nhiên có một phân phối xác suất xác định nào đó Trong phương
trình trên thành phần Xα + β là thành phần tất định của Y còn u là thành phần ngẫu
nhiên của Y, các tham số ,α β được gọi là các hệ số hồi quy, những hệ số này sẽ được
ước lượng từ dữ liệu quan sát của X và Y
2.2 Hàm hồi quy tổng thể
Cho hai biến X và Y, ta đã biết kỳ vọng có điều kiện của Y với điều kiện X, ký hiệu là
E(Y | X) , là một hàm của biến X, ta có
trong đó f (X) là hàm của biến giải thích X, còn được gọi là hàm hồi quy tổng thể,
viết tắt là (PRF) (population regression function)
Trong phương trình (2.5) nếu hàm f có dạng tuyến tính thì ta có mô hình hồi quy
tuyến tính đơn của Y theo X Khi đó ta có hàm hồi quy tổng thể (2.5) có dạng
trong đó β và 1 β là các tham số chưa biết và gọi là các hệ số hồi quy, 2
1
β : được gọi là hệ số chặn,
2
β : được gọi là hệ số dốc (hoặc hệ số góc)
Phương trình (2.6) gọi là phương trình hồi quy tuyến tính đơn Trong các phương trình
hồi quy, thuật ngữ “tuyến tính” có hai nghĩa như sau:
• Tuyến tính đối với biến:
Ví dụ: Phương trình E(Y | X)= β + β1 2X là tuyến tính đối với biến, phương trình
2
E(Y | X)= β + β X không tuyến tính với biến
• Tuyến tính đối với tham số: hàm E(Y | X) chỉ tuyến tính theo tham sốβ
Ví dụ: Phương trìnhE(Y | X)= β + β1 2X là phương trình tuyến tính đối với các tham số và biến, còn phương trình 2
E(Y | X)= β + β X là phương trình tuyến tính đối với tham số nhưng không tuyến tính đối với biến
Thông thường trong các mô hình hồi quy, ta xét tính tuyến tính theo biến
Trang 72.3 Hàm hồi quy mẫu
Trong thực tế không thể nghiên cứu được toàn bộ tổng thể, do đó chỉ có thể đưa
ra dạng của hàm hồi quy tổng thể chứ không thể xác định được hàm này một
cách hoàn toàn chính xác Để ước lượng được hàm hồi quy tổng thể phải dựa vào một
mẫu được rút ra ngẫu nhiên từ tổng thể Giả sử đã có mẫu ngẫu nhiên
(X , Y ),(X , Y ), ,(X , Y ) , hàm hồi quy được xây dựng dựa trên mẫu đó được gọi
là hàm hồi quy mẫu, viết tắt là SRF (Sample Regression Function)
Ví dụ: Để nghiên cứu sự phụ thuộc giữa năng suất lúa (Y) với lượng phân bón (X) ta
lấy một mẫu ngẫu nhiên và thu được giá trị mẫu như sau:
X 30 33 37 41 44 46 49 52 57 60
Y 50 55 57 63 64 67 71 75 78 92 Khi X nhận giá trị X thì giá trị của E(Y | X) bằng i E(Y | X ) , nhưng do Y chưa xác i
định được nên E(Y | X ) cũng chưa biết Vậy ta ký hiệu i ˆY là một ước lượng của i
i
E(Y | X ) dựa trên số liệu mẫu (Y , Y , , Y ) Ta thay 1 2 n E(Y | X ) bằng ước lượng i
tương ứng ˆY vào phương trình hồi quy tổng thể (PRF) ta thu được phương trình: i
i ˆ1 ˆ2 i
ˆY = β + β X , (2.7) trong đó ˆβ1 là ước lượng của β , 1 ˆβ2là ước lượng của β , phương trình (2.7) được gọi 2
là phương trình hồi quy mẫu trong hàm hồi quy mẫu (SRF)
2.4 Sai số ngẫu nhiên trong mô hình hồi quy
Giả sử ta có hàm hồi quy tổng thể:
E(Y | X) f (X).= Với mỗi giá trị của X thì E(Y | X) là kỳ vọng của Y khi
X nhận một giá trị cụ thể, khi đó giá trị của biến ngẫu
nhiên Y sẽ dao động quanh giá trị kỳ vọng E(Y | X)
Ký hiệu u là độ sai lệch giữa Y và E(Y | X)
u Y E(Y | X)= −
Từ đó ta có
Khi X nhận giá trị X thì Y nhận giá trị i Y , vì vậy ta có i
i
u là độ sai lệch giữa quan sát thứ i và giá trị E(Y | X ) , được gọi là sai số ngẫu nhiên i
(hay nhiễu ngẫu nhiên), bao gồm những giá trị mà ta không thể quan sát được Nếu
i
E(Y | X ) có dạng tuyến tính tức là E(Y | X )i = β + β1 2Xi, thì phương trình (2.9) có dạng:
Từ phương trình (2.9) ta lấy kỳ vọng có điều kiện theo 2 về ta thu được
E(Y | X ) E E(Y | X ) u | X= + =E(Y | X ) E(u | X )i + i i
Trang 8Từ đó ta có: E(u | X ) 0i i =
Phương trình (2.9) cho ta thấy rằng ngoài các biến giải
thích trong mô hình vẫn còn những yếu tố khác ảnh
hưởng đến biến phụ thuộc mà những biến này ta không
thể quan sát được Vì vậy ta gộp chúng lại và gọi đó là
các sai số ngẫu nhiên khi biểu diễn Y qua các biến giải
thích X Nhưng về mặt trung bình thì sự ảnh hưởng của
các nhiễu ngẫu nhiên này đến biến phụ thuộc là bằng 0
Như vậy, các yếu tố ảnh hưởng đến biến phụ thuộc mà không có thông tin cụ thể đều được đưa vào phần sai số ngẫu nhiên Vậy liệu có thể đưa ra được hết các yếu tố ảnh hưởng đến biến phụ thuộc hay không và khi ấy có thể loại bỏ được sự có mặt của nhiễu ngẫu nhiên u hay không Câu trả lời là sai số ngẫu nhiên vẫn luôn tồn tại vì một i
số lý do như sau:
• Việc xác định được hết các yếu tố có ảnh hưởng đến biến phụ thuộc Y là rất khó,
nó giống như chúng ta cần nghiên cứu toàn bộ tổng thể;
• Do điều kiện kỹ thuật và kinh tế nên ta muốn có một số mô hình đơn giản nhất, tức
là một mô hình mà với một lượng vừa đủ biến giải thích ta cũng có thể giải thích được cho hành vi của biến phụ thuộc Vì thế cần gộp vào u thay thế cho các biến i giải thích khác mà có ảnh hưởng nhỏ đến hành vi của biến phụ thuộc
Với những lý do như trên thì sự tồn tại của yếu tố ngẫu nhiên u như là một sự tất yếu i Giả sử ta có phương trình hồi quy tuyến tính tổng thể có dạng (2.10) Dựa vào thông tin của mẫu ta có phương trình ước lượng cho phương trình đó là
i ˆ1 ˆ2 i ˆi
trong đó ˆu là ước lượng của i u Từ phương trình (2.7) và (2.11) ta có i
i ˆi ˆi
Trên đồ thị ta có thể biểu diễn phương trình hồi quy mẫu (SRF) và hồi quy tổng thể (PRF) như hình 2.3:
Hình 2.3 Đường hồi quy tổng thể và đường hồi quy mẫu
= β + β
1 ˆ 0 ˆ 1 1
Đường hồi quy tổng thể Đýờng hồi quy mẫu
= β + β
Trang 9Bài toán đặt ra là cần tìm một phương pháp và đưa ra các điều kiện để dựa vào thông tin mẫu ta thu được (SRF) là một ước lượng tốt nhất cho phương trình hồi qui tổng thể (PRF) Hay nói cách khác, ta cần xác định hệ số ước lượng β βˆ ˆ1, 2 có độ sai lệch đối với β β là nhỏ nhất 1, 2
Trong chương sau sẽ giải thích bài toán trên, tìm được các hệ số β βˆ ˆ1, 2 sao cho tổng bình phương các sai số là nhỏ nhất, đồng thời cũng tìm ra các hệ số β βˆ ˆ1, 2 là các ước lượng không chệch cho β β (ước lượng không chệch của một tham số sẽ đảm bảo 1, 2 xấp xỉ tốt giá trị thực của tham số đó khi cỡ mẫu đủ lớn)
Trang 10TÓM LƯỢC CUỐI BÀI
• Phân tích hồi quy (Regression Analysis): Phân tích hồi quy là nghiên cứu sự phụ thuộc của
một biến (thường được gọi là biến phụ thuộc hay biến được giải thích) vào một hay nhiều
biến khác (thường được gọi là biến độc lập hay biến giải thích)
• Hàm hồi quy tổng thể: Giả sử ta cần xem xét sự phụ thuộc của Y vào X Nếu như ta biết
được toàn bộ tổng thể, trung bình có điều kiện của Y sẽ là 1 hàm số của X:
β1: hệ số chặn, β2: hệ số góc
Mô hình (1) gọi là mô hình hồi qui tổng thể PRF
• Hàm hồi qui mẫu: Có một mẫu ngẫu nhiên từ tổng thể (X , Y1 1), ,(X , Y n n) Ta ước lượng
được các tham số trong mô hình (1), mô hình ước lượng có dạng:
i ˆ1 ˆ2 i
trong đó ˆYi là ước lượng của E(Y/Xi ); ˆβ1 và ˆβ2 là ước lượng của β1 và β2
Mô hình (2) gọi là mô hình hồi quy mẫu (SRF)
• Bản chất của nhiễu ngẫu nhiên(u i ): Là phần chênh lệch giữa giá trị quan sát và trung bình
có điều kiện của Y:
Yi – E(Y/Xi) = ui hay Yi = β1 + β2 Xi + ui (3)
Mô hình (3) được gọi là dạng ngẫu nhiên của PRF
ui có thể dùng để đại diện cho ảnh hưởng của các biến ngoài mô hình lên biến Y Ta giả thiết
là tổng hợp các ảnh hưởng này bằng 0, hay E(ui /Xi) = 0