Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản BÀI 2. PHÂN TÍCH HỒI QUY pps

Phân tích hồi quy là mô tả mối quan hệ phụ thuộc của một biến thường được gọi là biến phụ thuộc hay biến được giải thích vào một hay nhiều biến khác thường được gọi là biến độc lập hay b

Trang 1

BÀI 2 PHÂN TÍCH HỒI QUY VÀ MỘT SỐ Ý TƯỞNG CƠ BẢN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:

• Khái niệm phân tích hồi quy

• Số liệu trong phân tích hồi quy

• Mô hình hồi quy tổng thể (PRF)

• Mô hình hồi quy mẫu (SRF)

• Quan niệm tuyến tính trong phân tích hồi quy

• Ý nghĩa của nhiễu ngẫu nhiên trong

mô hình

• Khái niệm phân tích hồi quy

• Số liệu trong phân tích hồi quy

• Mô hình hồi quy tổng thể (PRF)

• Mô hình hồi quy mẫu (SRF)

• Quan niệm tuyến tính trong phân tích hồi quy

• Ý nghĩa của nhiễu ngẫu nhiên trong mô hình

Thời lựợng

• 5 tiết

• Đọc tài liệu để có được những ý tưởng chính

• Lấy các ví dụ để minh họa cho khái niệm phân tích hồi quy

• Tập trung để hiểu rõ và phân biệt 2 khái niệm hàm hồi quy tổng thể và hàm hồi quy mẫu

• Hiểu rõ vai trò của nhiễu ngẫu nhiên (sai số ngẫu nhiên) trong mô hình

Trang 2

TÌNH HUỐNG DẪN NHẬP

Tình huống

Ban giám hiệu Viện Đại học Mở quan tâm tới kết quả học tập năm

đầu tiên của sinh viên có bị ảnh hưởng bởi điểm thi đầu vào của

sinh viên hay không Để tiến hành nghiên cứu, họ sẽ chọn ra ngẫu

nhiên 100 sinh viên đã học hết năm đầu tiên trong trường rồi lấy

thông tin về điểm thi đầu vào (X) và điểm trung bình chung năm

thứ nhất (Y) Nhà nghiên cứu sau khi thực hiên các mô tả thống kê để

xem xét mối quan hệ giữa X và Y đã quyết định sử dụng mô hình hồi quy tuyến tính dạng E Y / X( i)= β + β1 2Xi Với mẫu ở trên, người ta đã ước lượng được mô hình hồi quy mẫu

có dạng:

ˆYi = −3.25 0.75X+ i

Câu hỏi Với kết quả này, các nhà nghiên cứu sẽ kết luận gì về sự ảnh hưởng của điểm

thi đầu vào tới điểm trung bình học tập năm thứ nhất của sinh viên Viện đại học Mở?

Với kết quả này, ta có thể suy ra rằng điểm thi đầu vào là có ảnh hưởng đến điểm trung bình năm thứ nhất Cụ thể, khi điểm thi đầu vào tăng lên 1 điểm thì điểm trung bình chung năm thứ

nhất của sinh viên sẽ tăng trung bình là 0,75 điểm

Trang 3

2.1 Khái niệm phân tích hồi quy

Trong cuộc sống hàng ngày, chúng ta thường gặp tình huống khi phải thành lập mối quan hệ giữa hai đại lượng Đôi khi mối quan hệ đó là hoàn hảo Ví dụ, quan hệ chuyển đổi giữa một loại tiền tệ và loại tiền tệ khác được chi phối bởi tỷ suất chuyển đổi giữa chúng Tại một thời điểm xác định, một đô la Mỹ được đổi thành 18000 đồng Việt Nam Vào cùng ngày, không quan trọng ai là người đang giao dịch, tỷ suất chuyển đổi vẫn như vậy Quan hệ hoàn hảo này được mô tả bởi một công thức toán học:

D =18000E (2.1) Trong công thức (2.1) D là giá trị Đồng Việt Nam (VND), E là giá trị của đô la Mỹ (USD), chỉ số dưới i là giao dịch thứ i Trong thực tế, người ta cần trả phí cho quá trình trao đổi, chẳng hạn 2000 VND cho mỗi giao dịch và như vậy công thức có thể cần

có phí trao đổi trong đó, như công thức (2.2) Tuy vậy mối quan hệ vẫn là hoàn hảo

Ví dụ về giao dịch tiền tệ mô tả một quan hệ hoàn hảo, bởi vì với mỗi đô la Mỹ được đưa cho quầy giao dịch tiền tệ, chúng ta biết một cách chính xác là bao nhiêu đồng Việt Nam chúng ta sẽ nhận lại Quan hệ tuyến tính hoàn hảo thường được mô tả bằng

đồ thị là một đường thẳng ở đó tất cả các điểm dữ liệu rơi vào đường thẳng này Mô hình toán học của quan hệ tuyến tính hoàn hảo được cho bởi công thức:

Y = +b b X (2.3) trong đó, chỉ số dưới i được dùng để chỉ trường hợp thứ i Như vậy, khi có một quan

hệ tuyến tính hoàn hảo giữa hai đại lượng X và Y, ta hoàn toàn có thể dự đoán được giá trị của Y khi biết trước giá trị cụ thể của X

Tuy nhiên không phải mọi mối quan hệ đều là hoàn hảo Đôi khi xảy ra trường hợp

mà đại lượng Y không thể dự báo hoặc không thể giải thích được một cách hoàn toàn

qua giá trị của đại lượng X Phần dư (hoặc nhiễu) là một thuật ngữ dùng để mô tả bất

cứ đại lượng nào còn lại của Y mà không giải thích được bởi X Về mặt toán học, với

mỗi điểm dữ liệu, phần dư là sự sai khác giữa giá trị quan sát được và giá trị được dự

báo qua X của Y Quan hệ không hoàn hảo giữa Y và X được biểu thị qua công thức

(2.4) Công thức này gần như đồng nhất với công thức (2.3), chỉ khác ở phần dư u được cộng thêm vào

Tổng của tất cả các phần dư đưa ra một dấu hiệu của việc giải thích hiệu lực tác động của X đối với Y Khi phần dư nhỏ, thì X là một dự báo mạnh của Y (hay giữa X và Y

có quan hệ tuyến tính mạnh) Còn khi phần dư lớn, X là một dự báo yếu của Y (hay giữa X và T có quan hệ tuyến tính yếu) Theo biểu đồ, những dấu chấm của điểm dữ liệu gần với đường dự báo khi X là một dự báo mạnh của Y, còn những dấu chấm phân tán xa đường dự báo khi X là dự báo yếu của Y Điều này được mô tả dưới dạng biểu đồ trên Hình 2.1

Phương trình (2.4) biểu diễn mô hình hồi quy tuyến tính đơn, nội dung xuất phát và đơn giản nhất trong các nghiên cứu về phân tích hồi quy Từ đó, ta có thể từng bước xây dựng các mô hình phức tạp hơn, thiết kế các công cụ đa dạng hơn để giải quyết các vấn đề trong kinh tế lượng

Trang 4

Quan hệ tuyến tính mạnh Quan hệ tuyến tính yếu

Hình 2.1 Mức độ quan hệ tuyến tính giữa hai biến

Phân tích hồi quy là một trong những công cụ cơ bản

của kinh tế lượng Phân tích hồi quy là mô tả mối quan

hệ phụ thuộc của một biến (thường được gọi là biến

phụ thuộc hay biến được giải thích) vào một hay

nhiều biến khác (thường được gọi là biến độc lập hay

biến giải thích)

Ta ký hiệu biến được giải thích (biến phụ thuộc) là Y

và các biến giải thích (biến độc lập) là X , X , , X 1 2 k

Thuật ngữ hồi quy được Francis Galton sử dụng khi

ông nghiên cứu các mối quan hệ giữa chiều cao của

những đứa trẻ và chiều cao của bố mẹ chúng Ông thấy

rằng mặc dù bố mẹ cao hoặc thấp thì cũng có những đứa

trẻ thấp hoặc cao nhưng có một xu thế là chiều cao của những đứa trẻ sẽ hội tụ về một chiều cao trung bình nào đó phụ thuộc một phần vào chiều cao của bố mẹ

Trường hợp số biến giải thích k = 1 thì ta gọi là hồi quy đơn, nếu số biến giải thích k >1 thì ta gọi là hồi quy bội

Ví dụ 1: Mô hình hồi quy đơn với một biến phụ thuộc Y và một biến độc lập X, trong đó

Ví dụ 2: Mô hình hồi quy bội với biến phụ thuộc Y và

hai biến độc lập X và 1 X , trong đó 2

Y = doanh thu của công ty

X = chi phí cho quảng cáo 1

X = lương trả cho nhân viên tiếp thị 2

Trong ví dụ 1 ta xác định mối quan hệ của mức chi

tiêu Y và mức thu nhập X Trong ví dụ 2 ta xác định

mối quan hệ giữa doanh thu Y và chi phí cho quảng cáo X và tiền lương trả cho nhân 1 viên tiếp thị X 2

Phân tích hồi quy giải quyết những vấn đề sau:

Francis Galton

(1822-1911)

Trang 5

• Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập Trong ví dụ 1, ta cần ước lượng mức chi tiêu trung bình khi biết mức thu nhập X

• Dự báo giá trị của Y khi biết được giá trị của biến giải thích X

• Kiểm định giả thuyết và bản chất của sự phụ thuộc và xác định hiệu quả tác động của biến độc lập lên biến phụ thuộc

Khi mô tả mối quan hệ giữa biến phụ thuộc và các biến độc lập cũng cần phân biệt

rõ các kiểu quan hệ sau:

o Quan hệ tất định hay còn gọi là quan hệ toán học giữa X và Y, quan hệ này được cho dưới dạng một hàm số Y f (X)= , cứ cho một giá trị của X ta sẽ xác định được một giá trị của Y Biểu thức (2.3) mô tả một mối quan hệ tất định giữa X và Y

o Quan hệ thống kê là quan hệ mà không xác định được giá trị duy nhất của Y khi cho biết giá trị của X mà ta chỉ biết được giá trị của Y theo một xác suất nào đó, hay nói cách khác ta chỉ xác định được phân bố xác suất của Y khi biết giá trị của X Biểu thức (2.4) tương ứng với một mối quan hệ như vậy giữa X

và Y

Trong phân tích hồi quy ta đề cập tới kiểu quan hệ loại 2 trên đây, chứ không chọn kiểu quan hệ loại 1 làm đối tượng nghiên cứu

Ví dụ 3: Xét ví dụ 1 về mối quan hệ giữa chi tiêu Y và

thu nhập X Giả sử mối quan hệ đó được biểu diễn qua

phương trình

Y b= +1 b X u2 +

trong đó b1=1,5,b2 =0,9, còn u là yếu tố ngẫu nhiên

và u = 0,2 với xác suất ½ , u = –0,2 với xác suất ½

Khi đó nếu biết giá trị của X là bằng 1 thì giá trị của Y là

Y = 2,6 với xác suất ½ ,

Y = 2,2 với xác suất ½ Nếu u có phân bố chuẩn N(1;σ , khi đó với mỗi giá trị của X thì Y sẽ có phân bố 2) chuẩn Ta có đồ thị trong trường hợp này cho trong Hình 2.2

Hình 2.2 Quan hệ ngẫu nhiên giữa X và Y với sai số ngẫu nhiên u có phân bố chuẩn

X

E(Y|x i )

Phân phối của Y

Kỳ vọng có điều kiện

Y

Trang 6

Trong hình 2.2, đại lượng Y không nhận giá trị tất định, các giá trị của Y được xác

định một cách ngẫu nhiên, phụ thuộc vào giá trị của đại lượng ngẫu nhiên u

Đường thẳng tất định Y biểu diễn giá trị trung bình của Y ứng với từng giá trị cho

trước của X Đối với mỗi giá trị cố định của X thì Y có thể nhận những giá trị khác

nhau tập trung xung quanh giá trung bình của Y trên đường thẳng đó Với mỗi giá trị

0

X của X, giá trị của Y có phân bố chuẩn trên đường thẳng X X= 0 (song song với

trục tung) Mối quan hệ giữa X và Y như vậy được gọi là mối quan hệ ngẫu nhiên và u

được gọi là sai số hoặc nhiễu ngẫu nhiên

Tổng quát hơn, quan hệ giữa X và Y có thể có dạng

Y= α + β + X u với u là nhiễu ngẫu nhiên có một phân phối xác suất xác định nào đó Trong phương

trình trên thành phần Xα + β là thành phần tất định của Y còn u là thành phần ngẫu

nhiên của Y, các tham số ,α β được gọi là các hệ số hồi quy, những hệ số này sẽ được

ước lượng từ dữ liệu quan sát của X và Y

2.2 Hàm hồi quy tổng thể

Cho hai biến X và Y, ta đã biết kỳ vọng có điều kiện của Y với điều kiện X, ký hiệu là

E(Y | X) , là một hàm của biến X, ta có

trong đó f (X) là hàm của biến giải thích X, còn được gọi là hàm hồi quy tổng thể,

viết tắt là (PRF) (population regression function)

Trong phương trình (2.5) nếu hàm f có dạng tuyến tính thì ta có mô hình hồi quy

tuyến tính đơn của Y theo X Khi đó ta có hàm hồi quy tổng thể (2.5) có dạng

trong đó β và 1 β là các tham số chưa biết và gọi là các hệ số hồi quy, 2

1

β : được gọi là hệ số chặn,

2

β : được gọi là hệ số dốc (hoặc hệ số góc)

Phương trình (2.6) gọi là phương trình hồi quy tuyến tính đơn Trong các phương trình

hồi quy, thuật ngữ “tuyến tính” có hai nghĩa như sau:

• Tuyến tính đối với biến:

Ví dụ: Phương trình E(Y | X)= β + β1 2X là tuyến tính đối với biến, phương trình

2

E(Y | X)= β + β X không tuyến tính với biến

• Tuyến tính đối với tham số: hàm E(Y | X) chỉ tuyến tính theo tham sốβ

Ví dụ: Phương trìnhE(Y | X)= β + β1 2X là phương trình tuyến tính đối với các tham số và biến, còn phương trình 2

E(Y | X)= β + β X là phương trình tuyến tính đối với tham số nhưng không tuyến tính đối với biến

Thông thường trong các mô hình hồi quy, ta xét tính tuyến tính theo biến

Trang 7

2.3 Hàm hồi quy mẫu

Trong thực tế không thể nghiên cứu được toàn bộ tổng thể, do đó chỉ có thể đưa

ra dạng của hàm hồi quy tổng thể chứ không thể xác định được hàm này một

cách hoàn toàn chính xác Để ước lượng được hàm hồi quy tổng thể phải dựa vào một

mẫu được rút ra ngẫu nhiên từ tổng thể Giả sử đã có mẫu ngẫu nhiên

(X , Y ),(X , Y ), ,(X , Y ) , hàm hồi quy được xây dựng dựa trên mẫu đó được gọi

là hàm hồi quy mẫu, viết tắt là SRF (Sample Regression Function)

Ví dụ: Để nghiên cứu sự phụ thuộc giữa năng suất lúa (Y) với lượng phân bón (X) ta

lấy một mẫu ngẫu nhiên và thu được giá trị mẫu như sau:

X 30 33 37 41 44 46 49 52 57 60

Y 50 55 57 63 64 67 71 75 78 92 Khi X nhận giá trị X thì giá trị của E(Y | X) bằng i E(Y | X ) , nhưng do Y chưa xác i

định được nên E(Y | X ) cũng chưa biết Vậy ta ký hiệu i ˆY là một ước lượng của i

i

E(Y | X ) dựa trên số liệu mẫu (Y , Y , , Y ) Ta thay 1 2 n E(Y | X ) bằng ước lượng i

tương ứng ˆY vào phương trình hồi quy tổng thể (PRF) ta thu được phương trình: i

i ˆ1 ˆ2 i

ˆY = β + β X , (2.7) trong đó ˆβ1 là ước lượng của β , 1 ˆβ2là ước lượng của β , phương trình (2.7) được gọi 2

là phương trình hồi quy mẫu trong hàm hồi quy mẫu (SRF)

2.4 Sai số ngẫu nhiên trong mô hình hồi quy

Giả sử ta có hàm hồi quy tổng thể:

E(Y | X) f (X).= Với mỗi giá trị của X thì E(Y | X) là kỳ vọng của Y khi

X nhận một giá trị cụ thể, khi đó giá trị của biến ngẫu

nhiên Y sẽ dao động quanh giá trị kỳ vọng E(Y | X)

Ký hiệu u là độ sai lệch giữa Y và E(Y | X)

u Y E(Y | X)= −

Từ đó ta có

Khi X nhận giá trị X thì Y nhận giá trị i Y , vì vậy ta có i

i

u là độ sai lệch giữa quan sát thứ i và giá trị E(Y | X ) , được gọi là sai số ngẫu nhiên i

(hay nhiễu ngẫu nhiên), bao gồm những giá trị mà ta không thể quan sát được Nếu

i

E(Y | X ) có dạng tuyến tính tức là E(Y | X )i = β + β1 2Xi, thì phương trình (2.9) có dạng:

Từ phương trình (2.9) ta lấy kỳ vọng có điều kiện theo 2 về ta thu được

E(Y | X ) E E(Y | X ) u | X= + =E(Y | X ) E(u | X )i + i i

Trang 8

Từ đó ta có: E(u | X ) 0i i =

Phương trình (2.9) cho ta thấy rằng ngoài các biến giải

thích trong mô hình vẫn còn những yếu tố khác ảnh

hưởng đến biến phụ thuộc mà những biến này ta không

thể quan sát được Vì vậy ta gộp chúng lại và gọi đó là

các sai số ngẫu nhiên khi biểu diễn Y qua các biến giải

thích X Nhưng về mặt trung bình thì sự ảnh hưởng của

các nhiễu ngẫu nhiên này đến biến phụ thuộc là bằng 0

Như vậy, các yếu tố ảnh hưởng đến biến phụ thuộc mà không có thông tin cụ thể đều được đưa vào phần sai số ngẫu nhiên Vậy liệu có thể đưa ra được hết các yếu tố ảnh hưởng đến biến phụ thuộc hay không và khi ấy có thể loại bỏ được sự có mặt của nhiễu ngẫu nhiên u hay không Câu trả lời là sai số ngẫu nhiên vẫn luôn tồn tại vì một i

số lý do như sau:

• Việc xác định được hết các yếu tố có ảnh hưởng đến biến phụ thuộc Y là rất khó,

nó giống như chúng ta cần nghiên cứu toàn bộ tổng thể;

• Do điều kiện kỹ thuật và kinh tế nên ta muốn có một số mô hình đơn giản nhất, tức

là một mô hình mà với một lượng vừa đủ biến giải thích ta cũng có thể giải thích được cho hành vi của biến phụ thuộc Vì thế cần gộp vào u thay thế cho các biến i giải thích khác mà có ảnh hưởng nhỏ đến hành vi của biến phụ thuộc

Với những lý do như trên thì sự tồn tại của yếu tố ngẫu nhiên u như là một sự tất yếu i Giả sử ta có phương trình hồi quy tuyến tính tổng thể có dạng (2.10) Dựa vào thông tin của mẫu ta có phương trình ước lượng cho phương trình đó là

i ˆ1 ˆ2 i ˆi

trong đó ˆu là ước lượng của i u Từ phương trình (2.7) và (2.11) ta có i

i ˆi ˆi

Trên đồ thị ta có thể biểu diễn phương trình hồi quy mẫu (SRF) và hồi quy tổng thể (PRF) như hình 2.3:

Hình 2.3 Đường hồi quy tổng thể và đường hồi quy mẫu

= β + β

1 ˆ 0 ˆ 1 1

Đường hồi quy tổng thể Đýờng hồi quy mẫu

= β + β

Trang 9

Bài toán đặt ra là cần tìm một phương pháp và đưa ra các điều kiện để dựa vào thông tin mẫu ta thu được (SRF) là một ước lượng tốt nhất cho phương trình hồi qui tổng thể (PRF) Hay nói cách khác, ta cần xác định hệ số ước lượng β βˆ ˆ1, 2 có độ sai lệch đối với β β là nhỏ nhất 1, 2

Trong chương sau sẽ giải thích bài toán trên, tìm được các hệ số β βˆ ˆ1, 2 sao cho tổng bình phương các sai số là nhỏ nhất, đồng thời cũng tìm ra các hệ số β βˆ ˆ1, 2 là các ước lượng không chệch cho β β (ước lượng không chệch của một tham số sẽ đảm bảo 1, 2 xấp xỉ tốt giá trị thực của tham số đó khi cỡ mẫu đủ lớn)

Trang 10

TÓM LƯỢC CUỐI BÀI

• Phân tích hồi quy (Regression Analysis): Phân tích hồi quy là nghiên cứu sự phụ thuộc của

một biến (thường được gọi là biến phụ thuộc hay biến được giải thích) vào một hay nhiều

biến khác (thường được gọi là biến độc lập hay biến giải thích)

• Hàm hồi quy tổng thể: Giả sử ta cần xem xét sự phụ thuộc của Y vào X Nếu như ta biết

được toàn bộ tổng thể, trung bình có điều kiện của Y sẽ là 1 hàm số của X:

β1: hệ số chặn, β2: hệ số góc

Mô hình (1) gọi là mô hình hồi qui tổng thể PRF

• Hàm hồi qui mẫu: Có một mẫu ngẫu nhiên từ tổng thể (X , Y1 1), ,(X , Y n n) Ta ước lượng

được các tham số trong mô hình (1), mô hình ước lượng có dạng:

i ˆ1 ˆ2 i

trong đó ˆYi là ước lượng của E(Y/Xi ); ˆβ1 và ˆβ2 là ước lượng của β1 và β2

Mô hình (2) gọi là mô hình hồi quy mẫu (SRF)

• Bản chất của nhiễu ngẫu nhiên(u i ): Là phần chênh lệch giữa giá trị quan sát và trung bình

có điều kiện của Y:

Yi – E(Y/Xi) = ui hay Yi = β1 + β2 Xi + ui (3)

Mô hình (3) được gọi là dạng ngẫu nhiên của PRF

ui có thể dùng để đại diện cho ảnh hưởng của các biến ngoài mô hình lên biến Y Ta giả thiết

là tổng hợp các ảnh hưởng này bằng 0, hay E(ui /Xi) = 0

Định dạng
Số trang	12
Dung lượng	336,08 KB