Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một biến hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)
Trang 1CHƯƠNG 1
CƠ SỞ LÝ LUẬN
1.1 Phương pháp hồi quy và tương quan
1.1.1 Hồi qui tuyến tính một chiều ( tuyến tính đơn)
Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi
là biến được giải thích) vào một biến hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập
1.1.1.1 Phương trình hồi qui tuyến tính một chiều
Đặt (x1, y1), (x2, y2),…, (xn, yn) là mẫu gồm n cặp quan sát trên đường hồi qui tổng thể:
y = + x1 + 1Theo phương pháp bình phương bé nhất thì ước lượng các hệ số và là các giá trị
a và b sao cho tổng bình phương sai số của phương trình sau đây là bé nhất:
SS = 2
1
n i i
2 1
n i i n i i
Và phương trình hồi qui tuyến tính mẫu của y trên x là: y = a + bx
1.1.1.2 Khoảng tin cậy và kiểm định giả thuyết trong hồi qui một chiều
Giả sử đường hồi qui tuyến tính có dạng: y i = + x1 + 1
Và đặt 2
là phương sai của sai số và được ước lượng từ công thức sau:
Trang 2e
2 1
2
n i i e n
e i
e i
e i
S
2 2 2
e i
Giả sử, sai số hồi qui (1) có phân phối chuẩn thì ngẫu nhiên (t) dùng để kiểm định giảthuyết về và ước lượng khoảng tin cậy của được tính như sau:
t =
b
b S
1.1.1.3 Kiểm định tham số hồi qui tổng thể ()
Ở mức ý nghĩa , giả thuyết H0 có thể được kiểm định dưới các trường hợp:
Đặt giả thuyết: 0 0
::
H H
H H
H H
Quyết định bác bỏ giả thuyết H0 khi: t < t n2,t < t n2, 2,2
2, 2
Trang 31.1.1.4 Phân tích phương sai hồi qui
* Hệ số xác định: R2 là hệ số nhằm xác định mức độ quan hệ giữa X và Y có quan hệ hay không hoặc bao nhiêu phần trăm sự biến thiên của Y có thể giải thích bởi sự phụ thuộc tuyến tính của Y vào X
* Phân tích phương sai
Trong ước lượng các tham số của mô hình hồi qui tuyến tính đơn theo phương phápbình quân nhỏ nhất, có thể chứng minh được rằng:
Trang 4∑ ( yi - i )2 = SSE là phần biến động còn lại hay còn gọi là dư số, là đạilượng biến động tổng gộp của nguồn biến động do các nhân tố khác gây ra mà khônghiện diện trong mô hình hồi qui và phần biến động ngẩu nhiên.
● SSR càng lón thì mô hình hồi qui càng có độ tin cậy cao trong việc giải thích biếnđộng của y
● Hệ số xác định: r2 = SSR/ SST = 1 – ( SSE/ SST) là phần trăm biến động của yđược giải thích bởi mối quan hệ tuyến tính của y đối với x
● Số thống kê F = SSR/ [ SSE/ ( n-2)] = MSR/MSE có phân phối F và thường đượcdùng để kiểm định mức ý nghĩa của mô hình hồi qui F càng lớn mô hình càng có ýnghĩa
Các nguồn biến động của hồi qui tuyến tính đơn được tóm tắt trong bảng phântích phương sai hồi qui như sau:
Nguồn biến
động
Độ tự do(d.f)
SSR=∑ ( i – ytb)2
SSE=∑ ( yi - i )2
SSE/(n-2)
Tổng cộng (n-1) SST= ∑ ( yi – ytb)2 SST/(n-1)
1.1.1.5 Dự báo trong phương pháp hồi qui tuyến tính đơn giản
Ước lượng khoảng giá trị thực của y n1 với độ tin cậy (1 - )
2, 2
1
n i i
2, 2
n i i
Trang 51.1.2.1 Mô hình hồi qui
Giả sử Y phụ thuộc vào k biến độc lập X1…Xk Nếu giá trị của k biến độc lập X1 Xk
mô hình hồi qui tuyến tính nhiều chiều có dạng :
Y = + 1X1 + 2X2 + … +kXk + U
Giải thích biến:
- Y (biến phụ thuộc): chỉ tiêu phân tích: Năng suất lúa dình quân cả năm
- ( biến độc lập): hệ số chặn phản ánh mức độ ảnh hưởng của các nhân tố khác đếnchỉ tiêu phân tích
- : hệ số ước lượng, các hệ số hồi quy này phản ánh mức độ ảnh hưởng của từngnhân tố đến biến giải thích
Nếu >0 thì ảnh hưởng thuận và ngược lại là ảnh hưởng nghịch càng lớn thì sự ảnh hưởng đến chỉ tiêu phân tích càng mạnh
- Xi các yếu tố ảnh hưỏng đến năng suất.Với i chạy từ 1 đến k
- U là sai số
1.1.2.2 Phương trình hồi qui
Gọi các hệ số a, b1…bk ước lượng cho ,1…k được xác định bởi phương pháp bìnhphương bé nhất Phương trình hồi qui có dạng:
Hệ số xác định R2 là nói lên tính chặt chẽ giữa biến phụ thuộc Y và các biến độc lập
Xi, tức là nó thể hiện phần trăm biến thiên của Y có thể được giải thích bởi sự biếnthiên của tất cả các biến Xi
R2 = SSR
SST = 1 - SSE
SST 0 R2 1
Trang 6 Hệ số tương quan bội R
R nối lên tính chặt chẽ của mối quan hệ giữa biến phụ thuộc (y) và các biến độc lập (xi)
R = R2 (-1 R 1)
Phân tích ANOVA hồi quy:
Kiểm định sự phù hợp của mô hình (ANOVA):
Giá trị được dùng để kiểm định là giá trị F Việc kiểm định này nhằm đảm bảocho việc phù hợp của mô hình hồi quy tuyến tính mẫu với các hệ số tìm được vẫn cógiá trị khi suy diễn ra mô hình thực cho tổng thể
Để kiểm định sự phù hợp của mô hình hồi quy tổng thể, ta sử dụng Sig.F để làmcăn cứ cho việc chấp nhận hay bác bỏ giả thiết
Sig.F < α : mô hình có ý nghĩa
Sig.F > α : mô hình không có ý nghĩa
1.1.2.4 Ước lượng khoảng tin cậy và kiểm định giả thuyết trong hồi quy nhiều chiều
Mô hình hồi qui nhiều chiều cho tổng thể có dạng:
y = + 1x1 + 2x2 +… + kxk + U
Trang 7Đặt a, b1, b2, … ,bk là những tham số được ước lượng cho tổng thể ; S a, S b1, S b2, …,
k
b
S là những độ lệch chuẩn đã ước lượng, và U coi phân phối chuẩn thì biến ngẫu nhiên
t được tính như sau:
t =
a
a S
1.2.3 Ý nghĩa của việc nghiên cứư dãy số thời gian
Trang 8Phương pháp phân tích một dãy số thời gian dựa trên một giả định căn bản là: sự biếnđộng trong tương lai của hiện tượng nói chung sẽ giống với sự biến động của hiệntượng trong quá khứ và hiện tại xét về mặt đặc điểm và cường độ biến động Nói mộtcách khác các yếu tố đã ảnh hưởng đến biến động của hiện tượng trong quá khứ vàhiện tại được giả định trong tương lai sẽ tiếp tục tác động đến hiện tượng theo xuhướng và cường độ giống hoặc gần giống như trước.
Do vậy, mục tiêu chính của phân tích dãy số thời gian là chỉ ra và tách biệt các yếu tố
đã ảnh hưởng đến dãy số thời gian Điều đó có ý nghĩa trong việc dự đoán cũng nhưnghiên cứu quy luật biến động của hiện tượng Tất nhiên, giả định nói trên có nhượcđiểm, nó thường bị phê bình là quá ngây thơ và máy móc vì đã không xem xét đến sựthay đổi về kỹ thuật, thói quen, nhu cầu hoặc sự tích lũy kinh nghiệm trong kinhdoanh Vì vậy phương pháp phân tích dãy số thời gian cung cấp những thông tin hữuích các nhà quản lý trong việc dự đoán và xem xét chu kỳ biến động của hiện tượng.Đây là công cụ đắc lực cho họ trong việc ra quyết định
1.2.4 Các yếu tố ảnh hưởng đến dãy số thời gian
Biến động của một dãy số thời gian: X1, X2,…, Xn thường được xem như là kết quảhợp thành của các yếu tố sau đây:
- Tính xu hướng: Quan sát số liệu thực tế của hiện tượng trong một thời giandài (thường là nhiều năm), ta thấy biến động của hiện tượng theo một chiều hướng( tăng hoặc ) giảm rõ rệt Nguyên nhân của 2 loại biến động này là sự thay đổi trongcông nghệ sản xuất, gia tăng dân số, biến động về tài sản…
- Tính chu kỳ: biến động của hiện tượng được lặp lại với một chu kỳ nhấtđịnh, thường kéo dài 2-10 năm, trải qua 4 giai đoạn: phục hồi, phát triển, thịnh vượng,suy thoái và đình trệ Biến động theo chu kỳ là do biến động tổng hợp của nhiều yếu tốkhác nhau Chẳng hạn như trong kỳ kinh doanh thì chu kỳ đời sống sản phẩm ảnhhưởng rất lớn đến doanh thu của công ty qua 4 giai đoạn của nó
- Tính thời vụ: biến động của một số hiện tượng kinh tế - xã hội mang tính thời
vụ nghĩa là hàng năm, vào thời điểm nhất định (tháng hoặc quý) biến động của hiệntượng được lặp đi lặp lại Nguyên nhân của biến động hiện tượng là do các điều kiệnthời tiết khí hậu tập quán xã hội, tín ngưỡng của dân cư…
Trang 9- Tính ngẫu nhiên hay bất thường: là những biến động không có quy luật vàhầu như không thể dự đoán được Loại biến động này thường xảy ra trong một thờigian ngắn và không lặp lại Nguyên nhân là do ảnh hưởng của các biến cố chính trị,thiên tai, chiến tranh…
Giá trị X trong dãy số thời gian X1, X2,…, Xn, có thể được diễn tả bằng công thứcsau:
Xi = Ti Ci Si Ii
Xi : Giá trị thứ i của dãy số thời gian
Ti : Giá trị của yếu tố xu hướng
Ci : Giá trị của yếu tố chu kỳ
Si : Giá trị của yếu tố thời vụ
Ii : Giá trị của yếu tố ngẫu nhiên (bất thường)
1.2.5 Các chỉ tiêu cơ bản dùng để phân tích biến động dãy số thời gian
1.2.5.1 Mức độ trung bình theo thời gian
Là số trung bình của các mức độ trong dãy số Chỉ tiêu này biểu hiện mức độchung nhất của hiện tượng trong thời kỳ nghiên cứu
Ký hiệu: x1, x2, …, xn: Dãy số thời gian
n i x n
Mức độ trung bình của dãy số thời điểm
Khoảng cách thời gian giữa các thời điểm bằng nhau
Trang 10x = i.
i
x t t
1.2.5.2.Lượng tăng (giảm) tuyệt đối
Là chỉ tiêu biểu hiện sự thay đổi về giá trị tuyệt đối của hiện tượng giữa hai thời kỳhoặc thời điểm nghiên cứu
Tuỳ theo mục đích nghiên cứu, ta có:
- Lượng tăng giảm tuyệt đối từng kỳ (liên hoàn): Biểu hiện lượng tăng giảmtuyệt đối giữa 2 thời kỳ kế tiếp nhau
1
n i i
Chỉ tiêu này có ý nghĩa khi các lượng tăng (giảm) tuyệt đối từng kỳ xấp xỉ nhau
Trang 11i x
1.2.5.4 Tốc độ tăng (giảm)
Thực chất tốc độ tăng (giảm) bằng tốc độ tăng trừ đi 1 ( hoặc trừ 100 nếu tính bằng
%) Nó phản ánh mức độ của hiện tượng nghiên cứu giữa hai thời kỳ tăng lên hay giảm đi bao nhiêu lần (hoặc %), nói lên nhịp điệu của sự tăng theo thời gian
- Tốc độ tăng (giảm) từng kỳ (hay liên hoàn)
1 1
x
x x
Vì: x i x i1 i
- Tốc độ tăng (giảm) định gốc
Trang 12a hay a i t i 1
1
1 '
x
x x
a i i
x a
' '
hay ' ' 1
i t a
- Tốc độ tăng (giảm) trunng bình
1
t
a
1.2.5.5 Giá trị tuyệt đối của 1% tăng (giảm)
Là chỉ tiêu này biểu hiện mối quan hệ giữa chỉ tiêu lượng tăng (giảm) tuyệt đốitrong công thức với chỉ tiêu tốc độ tăng (giảm), nghĩa là tính xem 1 % tăng (giảm) củachúng tương ứng với một lượng giá trị tuyệt đối tăng giảm là bao nhiêu
i
i i
a
i
i i
i i
x x
1.2.6 Dự đoán biến động của dãy số thời gian
Dự báo là xác định mức độ có thể xảy ra trong tương lai của hiện tượng Biết đượctương lai của hiện tượng sẽ giúp các nhà quản trị chủ động cũng như có những quyếtđịnh đúng trong kinh doanh
Trang 13Có nhiều phương thức dự đoán khác nhau Tuy vậy nội dung cơ bản của dự đoánthống kê là dựa trên các giá trị đã biết (x1, x2, …, xn) Dự đoán dựa vào dãy số thời gian
để phân tích các yếu tố ảnh hưởng đến sự biến động của hiện tượng
1.2.6.1 Dự đoán bằng hàm xu hướng
Tùy theo tính chất của hiện tượng nghiên cứu hoặc kết hợp với kinh nghiêm ta
có thể xây dựng hoặc chọn một hàm số phù hợp biểu hiện sự biến động của hiện tượng qua thời gian
Xác định các biến b k với (k = 0,1,2,3,4) sao cho hàm SS đạt cực tiểu:
Lấy đạo hàm của hàm SS theo các biến bk với (k = 0,1,2,3,4), ta được
Trang 14n k
i n k
a b c
y a
Trang 151 1 1
2 1
1
n
i i i n i i
y t a
Lấy log hai vế hàm mữ ta được: lnyt = lnb0 +b1t
Áp dụng hàm xu hướng dạng đường thẳng ta được: 1
0
b t t
Trong đó: lnb0 = 1
ln
n i i y n
ln 0
n i i
y n
1 1
2 1
ln
n
i n i i
Trang 16 Hàm xu hướng dạng hàm luỹ thừa
Giả xử đường dữ liệu được biểu diênc dưới dạng:
1.2.6.2 Mô hình dự đoán lượng tăng (giảm) tuyệt đối trung bình
Phương pháp này thường được sử dụng khi hiện tượng biến động với một lượng tuyệtđối hay tương đối đều nghĩa là các lượng tăng (giảm) tuyệt đối từng kì xấp xỉ nhau.Công thức dự đơán:
L n
y : Giá trị thực tế tại thời điểm n
: Lượng tăng (giảm) tuyệt đối trung bình; 2
1
n i i n
Trang 17L: Tầm xa dự đoán
1.2.6.3 Dự đoán dựa vào tốc độ phát triển trung bình.
Phương pháp này thường được sử dụng khi hiện tượng bất động với một nhịp độtương đối ổn định, nghĩa là tốc độ phát triển từng kỳ xấp xỉ nhau
Công thức dự đoán:
L n L
L: Tầm xa dự đoán
CHƯƠNG 2
Trang 18PHÂN TÍCH TÌNH HÌNH BIẾN ĐỘNG NĂNG SUẤT
LÚA VIỆT NAM GIAI ĐOẠN 1991 – 2005
2.1 Một số yếu tố ảnh hưởng đến sự biến động năng suất việt Nam giai đoạn
1991 – 2005.
Bảng 2.1 Sự biến động năng suất lúa bình quân cả năm giai đoạn 1991-2005
Bón (kg/ha)
Sản lượng lúa(nghìn tấn)
Năng suất lúa bìnhquân (tạ/ha)
Trang 19Variables Entered/Removed b
Sanluong, Luongpha
Trang 20a
Dependent Variable: Nangsuat
b
Ta thấy hệ số tương quan r = 0.989: tương quan giữa hai biến là trên mức trung bình (r
= 98.9%), nghĩa là năng suất lúa bình quân sẽ tăng khi tăng lượng phân bón và sảnlượng lúa thu hoạch được
Hệ số xác định R2: Chỉ riêng tăng lượng phân bón và sản lượng lúa thu hoạch sẽ làmthay đổi 97.9% năng suất lúa (R2 = 0.979)
Predictors: (Constant), Sanluong, Luongphanbon
Beta
Standardized Coefficients
Lower Bound
Upper Bound
95% Confidence Interval for B
Dependent Variable: Nangsuat
a
Phương trình hồi qui: y = 4.236X1 +0.1X2 +1.615
Trang 21Y: Năng suất lúa bình quân cả năm (tấn/ha)
X1: Sản lượng phân bón (kg/ha)
X2: Sản lượng lúa cả năm (nghìn tấn)
Ý nghĩa của phương trình:
- Khi cố định X1 ( sản lượng phân bón) sản lượng lúa thu hoạch tăng 0.1 nghìn tấn Tathấy sản lượng ảnh hưởng đến năng suất lúa bình quân cả năm
- Khi cố định X2 (sản lượng lúa) lượng phân bón tăng 4.236 kg/ha Ta thấy lượng phânbón ảnh hưởng tới năng suất lúa bình quân cả năm
- Ngoài 2 nhân tố trên các nhân tố khác làm tăng năng suất lúa bình quân cả năm là1.615 tấn/ha
- Sai số chuẩn của lượng phân bón là 0.005
- Sai số chuẩn của sản lượng lúa là 0.0001
2.2 Phân tích dãy số thời gian và dự báo
2.2.1 Phân tích dãy số thời gian và bự báo năng suất lúa bình quân cả năm
Để xác định hàm số mô tả một cách gần đúng nhất biến động của hiện tượng được thểhiện bằng đồ thị về hàm số xu hướng Quan sát đồ thị ở dưới đồ thị có dạng hàm xuhướng bậc 2, ta thấy năng suất lúa có hiện tượng tăng dần
Trang 22b b b
Trang 23NĂNG SUẤT LÚA
0 1 2 3 4 5 6
Năng suất lúa (tấn/ha)
Poly (Năng suất lúa (tấn/ha))
Hàm số này có thể dự đoán được năng suất của những năm sắp tới Ta có thể dự đoán được năng suất bình quân vào những năm 2011, 2012, 2013, 2014, 2015 như sau:
triểny= b0 + b1t + b2t2
Dựa vào tốc độ pháttriển trung bình
2.2.2 Phân tích dãy số thời gian và dự báo cho lượng phân bón
Để xác định hàm số mô tả một cách gần đúng nhất biến động của hiện tượng được thể hiệnbằng đồ thị về hàm số xu hướng Quan sát đồ thị ở dưới ta thấy đồ thị có dạng hàm xu hướngbậc 4
Hàm xu hướng bậc 3 có dạng:
yt = b3t3 + b2t2+ b1t + b0Với yt: giá trị dự đoán của lượng phân bón
b0, b1, b2, b3, b4: hàm số
Trang 26Từ số liệu trên ta có n = 15 và các tham số b0, b1, b2, b3, b4 được tính như sau:
0 1 2 3 4
118.116.34040.33740.01350.005
b b b b b
Lượng phân bón (kg/ha)
Poly (Lượng phân bón (kg/ha))
Hàm số trên ta có thể dự đoán được lượng phân bón sử dụng trong những năm sắp tới Ta
có thể dự đoán được năm 2011, 2012, 2013, 2014, 2015 như sau:
Năm Xu hướng phát triển
2
0 1 11
Dựa vào tốc độ pháttriển trung bình
Trang 272015 612.3187 314.1249 232.2714
2.2.3 Phân tích dãy số thời gian và dự báo cho sản lượng
Để xác định hàm số mô tả một cách gần đúng nhất biến động của hiện tượng được thể hiện bằng
đồ thị về hàm số xu hướng Quan sát đồ thị ở dưới ta thấy đồ thị có dạng đường thẳng và ta cũng
Trang 28340735.1
1216.9280
Trang 29Chart Title
y = 1216.9t + 28842
0 5000 10000 15000 20000 25000 30000 35000 40000
Series1 Linear (Series1)
Hàm số trên có thể dự đoán được sản lượng ở những năm sắp tới Ta có thể dự đoán được năm 2011, 2012, 2013, 2014, 2015 như sau:
Năm Xu hướng phát triển
yi=b0 +b1t
Dựa vào tốc độ pháttriển trung bình