Xây dưng phương trình của mô hình hồi đơn tuyến tính từ dữ liệu mẫu: Xét mối liên hệ tuyến tính giữa một biến phụ thuộc và một biến độc lập... Để biết mô hình hồi qui tuyến tính đã xây
Trang 1TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
2009
Trang 2DANH SÁCH CÁC THÀNH VIÊN NHÓM 7
1 MBA.0832 Phạm Anh Tuấn
2 MBA.0801 Nguyễn Trọng An
4 MBA.0805 Đoàn Ngọc Châu
5 MBA.0826 Nguyễn Thành Sơn
Trang 3Sử dụng dữ liệu trong file World 95 Tieng Viet.sav đính kèm, bạn hãy tự xây dựng cho mình một
mô hình hồi quy giải thích sự khác biệt về tuổi thọ phụ nữ giữa các quốc gia trên thế giới
Bạn được tự do lựa chọn các biến giải thích để đưa vào mô hình cũng như tự quyết định dạng thức của các liên hệ giữa biến giải thích và biến kết quả
Hãy mô tả chi tiết quá trình xây dựng mô hình của bạn và tăng tính thuyết phục của mô hình này bằng các công cụ chNn đoán và đánh giá mô hình Giải thích ý nghĩa các kết quả của mô hình rút ra
File Word định dạng khổ giấy A4 (canh lề 2cm mỗi phía),
font chữ Time N ew Roman, cỡ 12 points
Cách đoạn (Spacing before) 6 points, giãn dòng (line spacing) 1.2
Chúc thành công!
Trang 4Mục Lục
LỜI N ÓI ĐẦU
I MÔ HÌN H HỒI QUI ĐƠN TUYẾN TÍN H:
1 Xây dựng phương trình của mô hình hồi đơn tuyến tính từ dữ liệu mẫu
2 Đánh giá độ phù hợp của mô hình
3 Kiểm định các giả thiết
a Kiểm định giả thiết về độ phù hợp của mô hình (phân tích phương sai)
b Kiểm định giả thiết về ý nghĩa của hệ số hồi qui
4 Vận dụng để xây dựng một mô hình hồi quy giải thích sự khác biệt về tuổi thọ phụ nữ giữa các quốc gia trên thế giới
II MÔ HÌN H HỒI QUI TUYẾN TÍN H BỘI:
1 Xem xét ma trận hệ số tương quan
2 Xây dựng mô hình
3 Đánh giá độ phù hợp của mô hình hồi qui tuyến tính bội
4 Kiểm định độ phù hợp của mô hình
5 Ý nghĩa các hệ số hồi qui riêng phần trong mô hình
6 Lựa chọn biến cho mô hình
KẾT LUẬN
- -
Trang 5LỜI NÓI ĐẦU
Phân tích định lượng là một môn khoa học về đo lường các mối quan hệ kinh tế xã hội diễn ra trong thực tế N gày nay, nó là sự kết hợp giữa các lý thuyết kinh tế hiện đại, thống kê toán học và máy vi tính, nhằm định lượng các mối quan hệ kinh tế xã hội, dự báo khả năng phát triển hay diễn biến của các hiện tượng kinh tế xã hội và phân tích chính sách
Một khía cạnh quan trọng trong nghiên cứu kinh tế xã hội là nghiên cứu để tìm hiểu, đưa ra các quyết định thay đổi cho tương lai Phán đoán tốt, trực giác và quan tâm đến thực trạng của nền kinh
tế, môi trường kinh doanh và môi trường xã hội có thể cho người nghiên cứu một ý tưởng sơ bộ hay
“cảm giác” về những gì có thể xảy ra trong tương lai Tuy nhiên, chuyển từ cảm giác thành con số
để có thể sử dụng một cách hiệu quả thì khá khó khăn Phân tích dữ liệu thống kê giúp các nhà nghiên cứu và quản lý dự đoán thực tế phức tạp của kinh tế và xã hội trong tương lai ít rủi ro hơn
N hững người ra quyết định và người quản lý thành công nhất chính là những người có thể hiểu thông tin và sử dụng thông tin hiệu quả
Một trong những nội dung chính của môn phân tích định lượng là phân tích hồi qui – nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (các biến độc lập), với ý tưởng là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập Đây là nội dung chính của tiểu luận mà nhóm chúng em sẽ trình bày
N hân đây, chúng em muốn tỏ lòng biết ơn sâu sắc đến thầy Hoàng Trọng, người đã hết
lòng tận tụy truyền đạt những kiến thức quý báu và chia sẻ những kinh nghiệm thực tế của bản thân cho khóa học MBA8 và chúng em cũng xin kính chúc Thầy được dồi dào sức khỏe
Tp.HCM, ngày 20 tháng 02 năm 2009
Các thành viên nhóm 7
Trang 6I MÔ HÌNH HỒI QUI ĐƠN TUYẾN TÍNH:
Một đồ thị phân tán là công cụ hữu ích có thể cho chúng ta thấy nhiều loại liên hệ giữa hai biến ta đang khảo sát Một số dạng liên hệ thường gặp giữa hai biến định lượng:
Không có tương quan
Tương quan nghịch Tương quan thuận
N gười ta dùng một số thống kê có tên là hệ số tương quan Pearson (ký hiệu là r) để lượng hóa mức
độ chặt chẽ của mối liên hệ tuyến tính giữa hai biến định lượng Trong đó:
-1 ≤ r ≤ 1
9 r có thể âm hoặc dương, trị tuyệt đối của r tiến gần đến 1 khi hai biến có mối tương quan tuyến tính chặt chẽ
9 Trị tuyệt đối của r = 1 : Khi tất cả các điểm phân tán xếp thành một đường thẳng
9 Giá trị r = 0 : Khi hai biến không có mối liên hệ tuyến tính
Phân tích hồi qui trước hết là đo mức độ tuyến tính giữa hai biến, nhằm ước lượng hay dự báo một biến trên cơ sở giá trị đã cho của một biến khác Về mặt kỹ thuật, trong phân tích hồi qui, các biến không có tính chất đối xứng Biến phụ thuộc là đại lượng ngẫu nhiên, biến giải thích là phi ngẫu nhiên, giá trị của chúng đã được xác định
1 Xây dưng phương trình của mô hình hồi đơn tuyến tính từ dữ liệu mẫu:
Xét mối liên hệ tuyến tính giữa một biến phụ thuộc và một biến độc lập Mô hình được xây dựng từ
dữ liệu mẫu có dạng đường thẳng như sau:
Ŷi = B0 + B1*X
Trong đó:
9 Xi : là trị quan sát thứ i của biến độc lập
9 Ŷi : là giá trị dự đoán (hay giá trị lý thuyết) thứ i của biến phụ thuộc, dấu mũ đại diện cho giá trị dự đoán
Trang 79 B0 và B1 : là hệ số hồi qui Phương pháp dùng để xác định B0 (tung độ của vị trí tại đó đường thẳng cắt trục tung) và B1 (độ dốc) là phương pháp bình phương nhỏ nhất thông thường (OLS – Ordinary Least Square), nghĩa là ta phải tìm ra Ŷi sao cho nó càng gần với giá trị thực (Yi) càng tốt Đường thẳng được tìm ra dựa trên nguyên tắc nó cực tiểu hóa tổng các độ lệch bình phương giữa tung độ của các điểm dữ liệu quan sát và đường thẳng
Khi chỉ có một biến độc lập thì mô hình hồi qui tuyến tính tổng thể có thể được mô tả như sau:
2 Đánh giá độ phù hợp của mô hình:
Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu mẫu nào cũng đều là chứng minh sư phù hợp của mô hình Để biết mô hình hồi qui tuyến tính đã xây dựng phù
hợp đến mức độ nào, ta dùng một thước đo là hệ số xác định R 2 (Coefficient of Determination)
9 Mặt khác: SST = SSR + SSE
¾ N ếu R2 = 1 : thì đường hồi qui phù hợp “hoàn hảo”, tất cả sai lệch của Y (so với giá trị trung bình) đều giải thích được bởi mô hình hồi qui
¾ N ếu R2 = 0 : chứng tỏ các biến X và Y không có quan hệ
N ếu hàm hồi qui mẫu phù hợp tốt với các số liệu quan sát thì SSR sẽ càng lớn hơn SSE N ếu tất cả các giá trị quan sát của Yi đều nằm trên đường hồi qui (Ŷ) thì SSR sẽ bằng SST và do đó SSE=0
N gược lại, nếu hàm hồi qui mẫu kém phù hợp với các giá trị quan sát thì SSE sẽ càng lớn hơn SSR (xem hình)
Trang 83 Kiểm định các giả thiết:
Ta tiến hành qua hai bước sau:
a Kiểm định giả thiết về độ phù hợp của mô hình (phân tích phương sai):
Xây dựng xong mô hình hồi qui tuyến tính, ta phải xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị R2 Để kiểm định độ phù hợp của mô hình hồi qui tổng thể, ta đặt giả thiết R2=0
N ếu sau khi kiểm định ta có đủ bằng chứng bác bỏ giả thiết H0 : R2 pop=0 thì kết luận mô hình hồi qui tuyến tính xây dựng được phù hợp với tổng thể Đại lượng F được sử dụng cho kiểm định này
N ếu xác suất F nhỏ thì giả thiết R2pop=0 bị bác bỏ Tính F theo công thức sau:
Trong SPSS, số liệu tính F được lấy từ bảng phân tích phương sai ANOVA(b):
b Kiểm định giả thiết về ý nghĩa của hệ số hồi qui:
Mặc dù mô hình hồi qui tuyến tính mẫu ta xây dựng được có giá trị độ dốc B1 ≠ 0, nhưng ta chưa thể chắc chắn độ dốc của mô hình tổng thể khác 0 Vì vậy, ta phải làm kiểm định để có kết luân về
β1 Giả thiết dùng để kiểm định giả thiết này là H0: β1=0, ta kỳ vọng giả thiết này sẽ bị bác bỏ vì nếu
β1=0, nghĩa là Y độc lập với X Do đó, mối quan hệ tương quan tuyến tính ta nhận thấy ở mẫu xảy
ra là do ngẫu nhiên, mô hình hồi qui tuyến tính ta đã xây dựng được dựa trên một mối quan hệ “giả” giữa hai biến
Trị thống kê dùng để kiểm định giả thiết là:
Trong SPSS, ta xem số liệu ở hai cột cuối cùng (là t và Sig - hệ số độ dốc) trong bảng Coefficients(a):
1
)(
Y)-Y
^(
p
i i
N
i
Y^i
sidual Square
Mean
gression MeanSquare
t =
Trang 94 Vận dụng để xây dựng một mơ hình hồi quy giải thích sự khác biệt về tuổi thọ phụ nữ giữa các quốc gia trên thế giới:
Trong mơ hình này, với:
Tuổi thọ TB của phụ nữ là biến phụ thuộc
Lần lượt xét từng chỉ tiêu cịn lại với vai trị là biến độc lập
Trong SPSS, ta thực hiện các thao tác sau:
Graphs / Scatter … : để vẽ đồ thị phân tán cho từng cặp biến (giữa biến phụ thuộc với một
biến độc lập)
Analyze / Correlate / Bivariate … : để tính được r của mẫu và thực hiện kiểm định giả thiết
về hệ số tương quan tuyến tính của tổng thể
Analyze / Regression / Linear … : Xây dựng mơ hình hồi qui đơn tuyến tính
a Vẽ đồ thị phân tán cho từng cặp biến:
+ Tuổi thọ trung bình của phụ nữ theo Số lượng dân:
Sè l−ỵng d©n
1400000 1200000 1000000 800000 600000 400000 200000 0
Số lượng dân Pearson Correlation 1 -.071 Sig (2-tailed) .461 Tuổi thọ TB phụ nữ
N 109 109 Pearson Correlation -.071 1 Sig (2-tailed) .461 Số lượng dân
Trang 10+ Tuổi thọ trung bỡnh phụ nữ với Mật độ dõn số (người/Km2):
Mật độ dân số (người/Km2)
6000 5000 4000 3000 2000 1000 0
Maọt ủoọ daõn soỏ (ngửụứi/km2) Pearson Correlation 1 .128 Sig (2-tailed) .186 Tuoồi thoù TB phuù nửừ
N 109 109 Pearson Correlation .128 1 Sig (2-tailed) .186
Maọt ủoọ daõn soỏ (ngửụứi/km2)
80 60
40 20
Tổ leọ daõn soỏng ụỷ vuứng ủoõ thũ (%) Pearson Correlation 1 .743(**) Sig (2-tailed) .000 Tuoồi thoù TB phuù nửừ
N 109 108 Pearson Correlation .743(**) 1 Sig (2-tailed) .000
Tổ leọ daõn soỏng ụỷ vuứng ủoõ thũ (%)
N 108 108
** Correlation is significant at the 0.01 level (2-tailed)
+ Tuổi thọ trung bỡnh phụ nữ với Tỉ lệ dõn biết chữ (%):
Tỉ lệ dân biết chữ (%)
120 100
80 60
40 20
Tổ leọ daõn bieỏt chửừ (%) Pearson
Correlation 1 .865(**) Sig (2-tailed) .000 Tuoồi thoù TB phuù nửừ
N 109 107 Pearson
Correlation .865(**) 1 Sig (2-tailed) .000
Tổ leọ daõn bieỏt chửừ (%)
N 107 107
** Correlation is significant at the 0.01 level (2-tailed)
Trang 11+ Tuổi thọ trung bỡnh phụ nữ với Tốc độ tăng dõn số (%/năm):
Tốc độ tăng dân số (%/năm)
6 5 4 3 2 1 0 -1
N 109 109 Pearson Correlation -.579(**) 1 Sig (2-tailed) .000 Toỏc ủoọ taờng daõn soỏ
(%/naờm)
N 109 109
** Correlation is significant at the 0.01 level (2-tailed)
+ Tuổi thọ trung bỡnh phụ nữ với Tỉ suất tử trẻ sơ sinh o/oo:
Tỉ suất tử trẻ sơ sinh o/oo
200 100
0 -100
N 109 109 Pearson
Correlation -.962(**) 1 Sig (2-tailed) .000
Tổ suaỏt tửỷ treỷ sụ sinh o/oo
N 109 109
** Correlation is significant at the 0.01 level (2-tailed)
+ Tuổi thọ trung bỡnh phụ nữ với GDP tớnh trờn đầu người (USD):
Correlations
GDP tính trên đầu người (USD)
30000 20000
10000 0
TB phuù nửừ ngửụứi (USD)
Pearson 1 .642(**) Correlation
Sig (2-tailed) .000 Tuoồi thoù TB phuù nửừ
N 109 109 Pearson .642(**) 1 Correlation
Sig (2-tailed) .000
GDP tớnh treõn ủaàu ngửụứi (USD)
N 109 109
** Correlation is significant at the 0.01 level (2-tailed)
Trang 12+ Tuổi thọ trung bình phụ nữ với Calori nạp hàng ngày trung bình một người:
Calori n¹p hμng ngμy TB mét ng−êi
4000 3000
2000 1000
+ Tuổi thọ trung bình phụ nữ với Tỉ suất sinh o/oo:
TØ suÊt sinh o/oo
60 50
40 30
20 10
+ Tuổi thọ trung bình phụ nữ với Số con trung bình của một phụ nữ:
Sè con TB cđa mét phơ n÷
9 8 7 6 5 4 3 2 1
TB 1 người Pearson Correlation 1 .775(**) Sig (2-tailed) .000 Tuổi thọ TB phụ nữ
N 109 75 Pearson Correlation .775(**) 1 Sig (2-tailed) .000 Calori nạp hàng ngày TB
1 người
N 75 75 ** Correlation is significant at the 0.01 level (2-tailed)
Correlations
Tuổi thọ TB phụ nữ
Tỉ suất sinh o/oo Pearson
Correlation 1 -.862(**) Sig (2-
tailed) .000 Tuổi thọ TB phụ nữ
N 109 109 Pearson
Correlation -.862(**) 1 Sig (2-
Correlation 1 -.838(**) Sig (2-tailed) .000 Tuổi thọ TB phụ nữ
N 109 107 Pearson
Correlation -.838(**) 1 Sig (2-tailed) .000
Số con TB của 1 phụ nữ
N 107 107
** Correlation is significant at the 0.01 level (2-tailed)
Trang 13+ Tuổi thọ trung bình phụ nữ với Tỉ lệ nữ giới biết chữ (%):
TØ lƯ n÷ giíi biÕt ch÷ (%)
120 100
80 60
40 20
¾ Tương quan thuận:
Tỉ lệ dân sống ở vùng đơ thị, ứng với r = 0.743
Tỉ lệ dân biết chữ (%), ứng với r = 0.865
Calori nạp hàng ngày TB một người, ứng v i r = 0.775
Tỉ lệ nữ giới biết chữ (%), ứng với r = 0.819
¾ Tương quan nghịch:
Tỉ suất tử trẻ sơ sinh o/oo, ứng với r = -0.962
Tỉ suất sinh, ứng với r = -0.862
em xin chọn biến “Số con TB của một phụ nữ” làm biến giải thích
Correla
ị nào mà cĩ giá trị tuy củ
ớ
Số con TB của một phụ nữ, ứng với r = -0.838
Trong các trường hợp nêu trên,
Correlation 1 .819(**) Sig (2-tailed) .000 Tuổi thọ TB phụ nữ
N 109 85 Pearson
Correlation .819(**) 1 Sig (2-tailed) .000
Tỉ lệ nữ giới biết chữ (%)
N 85 85
** Correlation is significant at the 0.01 level (2-tailed)
Trang 14ồi đơn tuyến tính từ dữ liệu mẫu:
… Vớ
Phụ thuộc (Dependent) là “Tuổi thọ TB phụ nữ”
ết quả thu được như sau:
Regression
Variables Entered/Removed(b)
c Xây dưng phương trình của mơ hình h
để tính tốn ra đường thẳng này, bằng cách v
Số con TB của 1 phụ nữ(a) Enter
a All requested variables entered
b Dependent Variable: Tuổi thọ TB phụ nữ
Model Squares Sum of df Square Mean F Sig
1 Regression 8379.723 1 837 9.72 3 246.790 000(a)
a Predictors: (Constant), Số con TB của 1 phụ nữ
Dependent Variable: Tuổi thọ TB phụ nữ
a Dependent Variable: Tuổi thọ TB phụ nữ
Trang 15Từ bảng cients( cho t ược t g tin ố hồi qui mà ph pháp OLS ước
tính đơn biến cĩ d :
4.674*X
Ý nghĩ ủa hàm hồi qui này: Với B1= -4.674 < 0 cho biết: xét tuổi thọ trung bình phụ nữ giữa các
nữ giảm khoảng 4.674 tuổi
d Đánh giá độ phù
Ta đặt giả thiết R2=0 N ếu sau khi kiểm định ta cĩ đủ bằng chứng bác bỏ giả thiết H0 : R2pop=0 thì kết luận mơ hình hồi qui tuyến tính xây dựng được phù hợp với tổng thể
Từ bảng Model Summary, ta cĩ R Square = 0.702 (tiến gần đến 1) Vậy mơ hình này là phù hợp
e Kiểm định các giả thiết:
hợp của mơ hình (phân tí
a Predictors: (Constant), Số con TB của 1 phụ nữ
b Dependent Variable: Tuổi thọ TB phụ nữ
1 (cột Sig.) Ta an
Từ bảng AN OVA(b) tương ứng với mức ý nghĩa quan sát được là 0.000
tồn bác bỏ giả thiết H và kết luận mơ hình hồi qui tuyến tính xây dựng
tổng thể
Trang 16 K m định hiết về ý ng số hồi qui:
H0: β1=0, ta kỳ vọng giả thiết này sẽ bị bác bỏ
Giả thiết dùng để kiểm định giả thiết này là
vì nếu β =0, nghĩa là Y độc lập với X
a Dependent Variable: Tuổi thọ TB phụ nữ
Từ bảng Coefficients(a), ta thấy mức ý nghĩa quan sát được đối với hệ số độ dốc của Tuổi thọ trung
ị bác bỏ Vậy độ dốc của mơ hình tổng thể khác 0
II MƠ HÌNH HỒI QUI TUYẾN TÍNH BỘI:
đơn giản như vậy Do đĩ, ta phải xem xét mơ hình hồi qui cĩ n ai biến Đĩ là mơ hình hồi qui bội Các bước thực hiện cũng giống như mơ ui đơn
Mơ hình hồi quy ng mơ hình hồi qui hai biến bằng cách thêm vào một số biến độc lập để
n giá trị của biến độc lập thứ p tại quan sát thứ i
β k : Là hệ số hồi qui riêng phần (Partial RegressionCoefficients)
hân phối chuNn với trung bình là 0 và phương sai
e i : Là một biến độc lập ngẫu nhiên cĩ p
Một giả định quan trọng đối với mơ hình hồi qui tuyến tính là khơng cĩ biến giải thích nào cĩ thể được biểu thị dưới dạng tổ hợp tuyến tính với những biến giải thích cịn lại N
tu