MÔ HÌNH HỒI QUY

Như phần tương quan tuyến tính dùng để đo lường mức độ liên hệ tuyến tính giữa hai biến ngẫu nhiên X và Y nhưng trong đó X và Y có tính đối xứng (tức là X phụ thuộc vào Y thì Y cũng phụ thuộc vào X).

Trong phần này ta cũng nghiên cứu mối liên hệ tuyến tính giữaX vàY, trong đóX ảnh hưởng đến Y và Y được xem là phụ thuộc vào X. Mối liên hệ giữa X và Y đã được xác định bằng một qui luật khách quan đã có.

Mục tiêu của phân tích hồi qui là mô hình hoá mối liên hệ bằng một mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa X và Y.

Để bắt đầu, chúng ta hãy tìm hiểu các khái niệm cơ bản. 4.2.1. Mô hình hồi quy tuyến tính đơn giản

Giả sử ta có các bộ số liệu (Xi;Yi,j) cho tổng thể, với i = 1, n, j = 1, m(i) , . Ứng với mỗi giá trị của X, X =Xi , vớii = 1, n , ta có thể có nhiều giá trị của Y tương ứng nên quan hệ của Y theo X không là quan hệ “hàm số”. Tuy nhiên, ứng với mỗi giá trị của X,X =Xi , ta có duy nhất giá trị trung bìnhE(Y|X =Xi) =f(Xi)nên quan hệ này trở thành quan hệ hàm số

E(Y|X =Xi) =f(Xi) (4.2)

và hàm số này được gọi là hàm hồi quy tổng thể, PRF (Population Regression Functions) mà trong trường hợp này, ta còn gọi làhàm hồi quy đơn (hồi quy hai biến), do nó chỉ có một biến độc lập. Trường hợp có nhiều hơn một biến độc lập, ta gọi là hàm hồi quy bội.

Trước hết, giả sử PRF là hàm tuyến tính

E(Y|X =Xi) =β1+β2Xi mà ta còn viết là

E(Y|X) = β1+β2X,

trong đóβ1 và β2 là các tham số chưa biết nhưng cố định, được gọi là các hệ số hồi quy; β1 gọi là hệ số tự do hay hệ số chặn,β2 gọi là hệ số góc (nó cho biết tỷ lệ thay đổi của Y đối với X). Tính tuyến tính ở đây đúng đối với cả tham số cũng như đối với các biến. Điều này không đúng trong nhiều trường hợp khác, chẳng hạn hàmE(Y|X) = β1+β2X2 tuyến tính đối với tham số nhưng không tuyến tính (phi tuyến) đối với biến. Ngược lại, hàmE(Y|X) =β1+√

β2X tuyến tính đối với biến nhưng phi tuyến đối với tham số.

Chú ý 4.1. Trong phân tích hồi quy tuyến tính, hàm hồi quy tổng thể được hiểu là tuyến tính đối với tham số nhưng không nhất thiết tuyến tính theo các biến.

Ngoài ra, do Y là biến số ngẫu nhiên, nên ứng với quan sát thứ i trong tổng thểX =Xi , giá trị Y =Yi tương ứng sai khác với giá trị trung bình β1+β2Xi một đại lượng sai số ngẫu nhiên, ký hiệu εi . Do đó, ta còn viết

Y =β1+β2X+ε (4.3)

trong đó ε là một đại lượng ngẫu nhiên và (4.3) được gọi là hàm hồi quy tổng thể ngẫu nhiên. Thông thường, đại lượng ngẫu nhiên ε được ngầm hiểu và khi đó, hàm hồi quy tổng thể (ngẫu nhiên) được viết tắt là

Y =β1+β2X

4.2.2. Phương trình hồi qui tuyến tính mẫu

Cũng như vấn đề về mẫu và tổng thể trong lý thuyết thống kê, chúng ta hoặc không có tổng thể, hoặc có nhưng không thể nghiên cứu được toàn bộ tổng thể. Do đó, ta chỉ có thể ước lượng hàm hồi quy tổng thể với những thông tin từ các mẫu ngẫu nhiên lấy ra từ tổng thể. Hàm hồi quy xây dựng trên cơ sở của một mẫu ngẫu nhiên được gọi làhàm hồi quy mẫu, SRF (Sample Regression Function), hay hồi quy mẫu.

Rõ ràng là với nhiều mẫu khác nhau, ta có nhiều SRF khác nhau. Do đó, vấn đề đặt ra là cần ước lượng PRF bằng SRF tốt nhất theo nghĩa là SRF này có các tính chất : tuyến tính, không chệch, có độ lệch chuẩn nhỏ nhất.

Cụ thể, với hàm hồi quy tổng thể tuyến tính, hàm hồi quy mẫu có dạng

Y =β1b +β2X,b

trong đó Yb là ước lượng điểm của E(Y|X) , βb1 là ước lượng điểm của β1 và βb2 là ước lượng điểm của β2.

4.2.3. Phương pháp bình phương nhỏ nhất.

Phương pháp bình phương nhỏ nhất, OLS (Ordinary Least Square), do nhà toán học Đức Carl Fredrich Gauss đưa ra. Với phương pháp này, kèm theo một vài giả thiết, các ước lượng thu được có một số tính chất đặc biệt mà nhờ đó nó trở thành phương pháp hồi quy mạnh và phổ biến nhất.

Giả sử chúng ta có n cặp quan sát(Xi;Yi);i= 1;n. Tìm hàm hồi quy mẫu: Ybi =βb1+βb2Xi nghĩa là tìm các giá trị βb1;βb2 sao cho:

ε2i =X(Yi−Ybi)2 =X(Yi−βb1 +βb2Xi)−→min Các tham số hồi quy mẫu sẽ là nghiệm của hệ phương trình sau:

   ∂L ∂βb1 = 0 ∂L ∂βb2 = 0 ⇔    b β1n+βb2P Xi =P Yi b β1P Xi+βb2P X2 i =P XiYi

Khi hệ trên có nghiệm duy nhất, thì nghiệm của hệ là b β2 = P Xi.Yi−n.X.Y P X2 i −n.[X]2 = XY −X.Y X2−X2 (4.4) và b β1 =Y −βb2X (4.5)

Các giả thiết của phương pháp OLS:

Phương pháp OLS là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn các giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất. Kết quả này được gọi là Định lý Gauss-Markov. Các giả thiết sau:

1. E(εi) = 0.

2. V ar(εi) =σ2. 3. Cov(εi;εj) = 0.

4. Cov(εi;Xi) = 0.

5. εi có phân phối chuẩn.

6. Hàm hồi quy được chỉ định đúng.

Ví dụ 4.1. Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ lệ lạm phát (X) trong năm 1988 ở 9 nước

Y 11.9 9.4 7.5 4.0 11.3 66.3 2.2 10.3 7.6 X 7.2 4.0 3.1 1.6 4.8 51.0 2.0 6.6 4.4

Lập mô hình hồi quy của lãi suất ngân hàng phụ thuộc vào tỷ lệ lạm phát và nêu ý nghĩa kinh tế của các hệ số hồi quy tìm được;

Giải. Sử dụng máy tính cá nhân ta có các kết quả sau: X X2 = 2770.97;XX = 84.7;n = 9;XY2 = 4994.29;XY = 130.5 X XY = 3694.29;X = 9.4111;Y = 14.5;SX = 14.8093;SY = 18.5653 Do đó: βb2 = P XY−n.X.Y P X2−n.X2 = 3694.292770.97−9−×99.4111×9.4111×14.52 = 1.2494 Suy ra: β1b =Y −B2X = 14.5−1.2494×9.4111 = 2.74169 hay, ta giải hệ phương trình:

   9βb1+ 84.7βb2 = 130.5 84.7βb1+ 2770.97bβ2 = 3694.29 ⇒    b β1 = 2.74169 b β2 = 1.2494

Vậy mô hình hàm hồi quy:Yb = 2.74169 + 1.2494X

Ý nghĩa kinh tế : Nếu X thay đổi 1 đơn vị thì Y thay đổi 1.2494 đơn vị. Hay, nếu tỷ lệ lạm phát tăng hay giảm 1% thì lãi suất ngân hàng tăng hay giảm 1.2494%

4.2.4. Dự báo trong phương pháp hồi qui tuyến tính đơn giản

Trong các công thức σ2 chưa biết, σ2 được ước lượng bằng ước lượng không chệch của nó là bσ2 =

n−2 = RSSn−2. Nó chính là độ lệch chuẩn của các giá trịY quanh đường hồi quy mẫu. 1. T SS =P

(Yi−Y)2 =P Y2

i −n(Y)2;

TSS: Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sátYi và giá trị trung bình.

2. ESS =P

(Ybi −Y)2 = (βb2)2.[P

X2−n(X)2];

ESS: Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Ybi nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.

3. RSS =T SS−ESS =P ε2

RSS: Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và các giá trị nhận được từ hàm hồi quy.

Dự báo trung bình E(Y /X =X0) - Ta tínhYb0 =βb1+βb2X0 - Tínhvar(Yb0) =σ2×h1 n +(X0−X)2 nS2 X i ; suy ra se(Yb0) = q var(Yb0)

- Do đó, với độ tin cậy 1−α, khoảng tin cậy của E(Y /X0)là h

Y0 −ttb×se(Yb0);Yb0+ttb×se(Yb0)i Dự báo giá trị cụ thể Y =Y0 với X =X0

- Ước lượng không chệch củaY0 là Yb0 =βb1+βb2X0

- Tínhvar(Y0−Yb0) = σ2×h1 + n1 + (X0−X)2 nS2 X i ; suy ra se(Y0−Yb0) = q var(Y0−Yb0) - Do đó, với độ tin cậy 1−α, khoảng tin cậy của Y0 là

h b

Y0−ttb×se(Y0−Yb0);Yb0+ttb×se(Y0−Yb0)i

Bài tập 4.1. Ta có tài liệu thống kê về giá trị sản lượng của doanh nghiệp X cho bởi bảng sau:

Năm 2007 2008 2009 2010 2011 2012

Giá trị sản lượng (tỷ.đ) 15 14 28 25 32 30 1. Tìm hàm hồi quy tuyến tính của giá trị sản lượng theo thời gian.

Chương 5

DÃY SỐ THỜI GIAN

Trong chương này sẽ nói đến phương pháp phân tích biến động của hiện tượng qua thời gian. Như trong chương trước, chúng ta sử dụng mô hình hồi qui tuyến định để dự báo, phương pháp này còn được gọi là phương pháp dự báo dự vào nội suy, có nghĩa là ta dự báo dựa vào bản chất của hiện tượng. Tuy nhiên, đối với phương pháp này chúng ta không thể nào đưa tất cả các yếu tố ảnh hưởng đến hiện tượng vào mô hình được bởi nó quá nhiều và cũng không thể biết hết. Phương pháp dự báo dự vào dãy số thời gian là chúng ta quan sát hiện tượng biến đổi qua thời gian rồi tìm ra qui luật và dùng qui luật đó để suy luận, phương này gọi là phương pháp dự báo dựa vào ngoại suy. Trong thực tế có rất nhiều hiện tượng phụ thuộc vào thời gian như: Lượng tiêu thụ lương thực thực phẩm phụ thuộc vào độ tuổi, chu kỳ sống của sản phẩm,... với lý luận như vậy ta có thể xem thời gian như là một biến độc lập tác động đến hiện tượng nghiên cứu.

Như vậy, ta có thể xem nghiên cứu dãy số thời gian như là chúng ta có thêm một phương án lựa chọn để dự báo.

5.1. DÃY SỐ THỜI GIAN

5.1.1. Khái niệm

Dãy số thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắp. ti t1 t2 t3 . . . tn

yi y1 y2 y3 . . . yn

5.1.2. Phân loại

Căn cứ vào đặc điểm thời gian người ta thường chia dãy số thời gian thành hai loại: - Dãy số thời kỳ: là dãy số biểu hiện sự thay đổi của hiện tượng qua từng thời kỳ nhất

định.

Ví dụ 5.1. Giá trị hàng xuất khẩu của một quốc gia vào các năm từ 1990 đến 1995. - Dãy số thời điểm: là dãy số biểu hiện mặt lượng của hiện tượng vào một thời điểm nhất

định.

Ví dụ 5.2. Tổng giá trị tài sản của doanh nghiệp vào các thời điểm cuối năm 31/12/19xx

5.2. PHƯƠNG PHÁP LUẬN DỰ BÁO THỐNG KÊ

Để xây dựng một mô hình dự báo thì người nghiên cứu cần thu thập số liệu về vấn đề cần dự báo. Phương pháp thu thập dữ liệu và tiến hành dự báo phụ thuộc vào nhiều nhân tố được mô tả ở sơ đồ sau:

Dữ liệu kịch sử

Ys· · · Mẫu · · ·Yn Yn+1· · · ·YN

Dự báo lùi Dự báo trong mẫu Dự báo hậu nghiệm Dự báo tiên nghiệm b

Ys−m· · · ·Ybs−1 Ybs· · · ·Ybn Ybn+1· · · ·YbN YbN+1· · · ·YbN+k 1. Dự liệu lịch sử: là dữ liệu mới nhất của chuỗi thời gian thu thập được.

2. Mẫu: Dữ liệu dùng để xây dựng mô hình.

3. Giai đoạn dự báo được chia thành dự báo hậu nghiệm và dự báo tiền nghiệm:

- Dự báo hậu nghiệm, đặc trưng quan trọng của nó là đã có các giá trị quan sát thực tế của đối tượng dự báo, nó cho phép các nhà nghiên cứu đánh giá được độ chính xác của mô hình.

- Dự báo tiền nghiệm: các giá trị thực tế không có do đó không xác định được độ chính xác của những dự báo tiền nghiệm.

- Dự báo lùi: chúng ta cũng có thể dự báo lùi cho những thời kỳ trước. Dự báo lùi nhằm tạo ra các giá trị bổ sung cho dãy số lịch sử trong quá trình phân tích.

5.2.1. Đo lượng độ chính xác của dự báo

Sai số dự báo là thước đo phản ánh giá trị dự báo gần với giá trị thực tế bao nhiêu. Sai số dự báo là chênh lệch giữa giá trị dự báo và giá trị thực tế tương ứng:

ei =yi−byi - Sai số tuyệt đối trung bình:

M AE = Pn

t=1|et|

n (5.1)

- Phần trăm tuyệt đối:

M AP E = Pn t=1 |et| Yt n (5.2) - Phương sai: M SE = Pn t=1e2 t n (5.3) - Độ lệch chuẩn: RM SE =√ M SE (5.4)

5.2.2. Sự lựa chọn công thức tính sai số dự báo

1. Nếu dữ liệu có một vài sai số dự báo lớn thì không nên sử dụng MSE. 2. Các sai số xấp xỉ bằng nhau thì nên dùng MSE.

5.3. MỘT SỐ CHỈ TIÊU CƠ BẢN VỀ DÃY SỐ THỜI GIAN5.3.1. Mức độ trung bình theo thời gian 5.3.1. Mức độ trung bình theo thời gian

1. Mức độ trung bình của dãy số thời kỳ:

y = y1+y2+·+yn

n =

Pn i=1yi

n (5.5)

2. Mức độ trung bình của dãy số thời điểm:

- Nếu khoảng cách giữa các thời điểm bằng nhau:

y= 1

2y1+y2+·+12yn

n-1 (5.6)

- Nếu khoảng cách giữa các thời điểm không bằng nhau:

y= Pn

i=1yiti Pn

i=1ti (5.7)

trong đó: ti: độ dài thời gian có mức độ yi

5.3.2. Lượng tăng giảm tuyệt đối

Là chỉ tiêu biểu hiện sự thay đổi về giá trị tuyệt đối của hiện tượng giữa hai thời kỳ hoặc hai thời điểm nghiên cứu.

1. Số tuyệt đối từng kỳ (liên hoàn): Biểu hiện lượng tăng giảm tuyệt đối giữa hai thời kỳ kế tiếp nhau.

∆i =yi−yi−1 (5.8)

2. Số tuyệt đối định gốc: Biểu hiện lượng tăng giảm tuyệt đối giữa kỳ nghiên cứu và kỳ được chọn làm gốc.

∆0i =yi−y(1) (5.9)

y(1): Kỳ được chọn làm gốc.

Mối liên hệ giữa số tăng giảm tuyệt đối liên hoàn và định gốc: n

X i=2

∆i = ∆0i (5.10)

3. Số tuyệt đối trung bình:

∆ = Pn i=2∆i n−1 = ∆0i n−1 = yi−y(1) n−1 (5.11)

5.3.3. Tốc độ phát triển (lần, %)

Là chỉ tiêu biểu hiện sự biến động của hiện tượng xét về mặt tỷ lệ.

1. Tốc độ phát triển từng kỳ (liên hoàn): Biểu hiện sự biến động về mặt tỷ lệ của hiện tượng nghiên cứu qua hai thời kỳ liên tiếp nhau:

ti = yi yi−1

(5.12)

2. Tốc độ phát triển định gốc: Biểu hiện sự biến động về mặt tỷ lệ của hiện tượng giữa kỳ nghiên cứu với kỳ được chọn làm gốc:

t0i = yi

y(1) (5.13)

Mối liên hệ giữa tốc độ phát triển từng kỳ và định gốc: n Y i=2 ti =t0n 3. Tốc độ phát triển trung bình: t= n−1 v u u t n Y i=2 ti = (n−p1) t0n= (n−1) r yn y(1) (5.14) 5.3.4. Tốc dộ tăng giảm

Là chỉ tiêu biểu hiện số tăng lên hay giảm xuống về mặt tỷ lệ của hiện tượng nghiên cứu. 1. Tốc độ tăng giảm từng kỳ: ai = yi−yi−1 yi−1 =ti−1 (5.15) 2. Tốc độ tăng giảm định gốc: a0i = yi−y(1) y(1) =t 0 i−1 (5.16)

3. Tốc độ tăng giảm trung bình:

a=t−1 (5.17)

5.3.5. Giá trị tuyệt đối của 1% tăng giảm

Chỉ tiêu này biểu hiện mối quan hệ giữa chỉ tiêu lượng tăng giảm tuyệt đối và chỉ tiêu tiêu tốc độ tăng giảm. Nghĩa là xem xét 1% tăng giảm của hiện tượng sẽ tương ứng với một lượng giá trị tuyệt đối tăng giảm là bao nhiêu.

gi = ∆i ai = ∆i ∆i yi−1 ×100 = yi−1 100 (5.18)

5.4. MỘT SỐ MÔ HÌNH DỰ BÁO

5.4.1. Dự đoán dựa vào lượng tăng giảm tuyệt đối trung bình

Phương pháp này thường được sử dụng khi hiện tượng biến động với một lượng tuyệt đối

Số trung bình nhân (Geometric mean)