—— —————
VIỆN KHOA HỌC THỐNG KÊ
BÁO CÁO TỔNG HỢP KẾT QUẢN NGHIÊN CỨU KHOA HỌC ĐỂ TÀI CẤP CƠ SỞ NĂM 2005
NGHIÊN CỨU XÂY DỰNG QUI TRÌNH VÀ PHUONG PHAP THUC HANH HOI QUI TUYEN
Trang 2Muc luc
Noi dung
DAT VAN DE
PHAN I ;
MOT SO VAN DE CO BAN VA QUI TRINH TRONG PHAN
T{CH HOI QUI TUYEN TÍNH
I MO HINH HOI QUI TUYEN TINH DON(HAI BIEN) II MO HINH HOI QUI TUYEN TINH BOI -
I KET QUẢ PHÂN TÍCH HOI QUI TREN PHAN MEM STATA IV NGUON SO LIEU DUNG TRONG PHAN TICH |
V QUI TRINH TRONG PHAN TICH HOI QUI TUYEN TINH PHAN II
PHUONG PHAP THUC HANH PHAN TICH HOI QUI TUYEN TINH TREN PHAN MEM STATA
I THUC HANH PHAN TICH HOI QUI DON
1 Kiểm tra sơ bộ và biến đổi số liệu
2 Phân tích mô hình -
II THUC HÀNH PHÂN TÍCH HỒI QUI BOI 1 Kiểm tra sơ bộ và biến đổi số liệu
2 Phân tích mô hình
II PHƯƠNG PHÁP SỬ DỤNG CÁC BIẾN PHẠM TRÙ TRONG PHÂN TÍCH HỒI QUI
1V PHƯƠNG PHÁP HỒI QUI TÙNG BƯỚC
PHAN III + + a + aA x
PHUONG PHAP KIEM TRA, CHAN DOAN MO HINH I NHAN DANG CAC QUAN SAT NGOAI BIEN
VÀ GAY ANH HUGNG |
Trang 3II KIEM TRA TINH THUAN NHAT CUA PHUONG SAI IV KIEM TRA TINH DA CONG TUYEN
V KIEM TRA TINH CHUAN
Trang 4Viện khoa học thống kê - Đề tài cấp co sé m@ s& 11-CS-2005
ĐẶT VẤN ĐỀ
Hiện nay ở nước ta nhiều viện nghiên cứu và các trường đại học cũng như
Bộ ngành đang sử dụng phương pháp hồi qui vào nghiên cứu và phân tích
các vấn đề chuyên môn thuộc lĩnh vực của mình Đối với Ngành thống kê, mặc dù có một nguồn số liệu rất phong phú bao gồm nhiều lĩnh vực, nhưng việc ứng dụng phương pháp kinh tế lượng để phân tích sâu hơn tình hình kinh tế và xã hội mới chỉ bước đầu, và còn rất hạn chế Có thể có rất nhiều nguyên nhân như nguồn số liệu chưa đáp ứng được yêu cầu phân tích, kỷ thuật phân tích còn hạn chế, chưa biết cách sử dụng các phần mềm máy
tính vào phân tích v v Vì vậy vấn đề đào tạo, phổ cập ký thuật phân tích
và phần mềm phân tích là rất cần thiết Đề tài cấp cơ sở này là một nổ lực
nhằm giúp các cán bộ nghiên cứu và nghiệp vụ có thể tự mình vận dụng
phương pháp hồi qui tuyến tính vào phân tích số liệu thống kê trên máy vi
tính với sự trợ giúp của phần mềm Stata Hồi qui tuyến tính là một kỷ thuật
kinh tế lượng rất phổ biến và phần mềm Stata cũng là một phần mềm hiện
đang được sử dụng nhiều ở Tổng cục thống kê, do vậy tin rằng đề tài có tính khả thí khi áp đụng vào thực tế Dé tài được chia thành bốn phần lớn Phần I: Một số vấn để cơ bản và qui trình trong phân tích hồi qui tuyến tính Phần II: Phương pháp thực hành phân tích hồi qui tuyến tính trên phần mễềm
Stata
Phần HI : Phương pháp kiểm tra, chẩn đốn mơ hình
Phần IV : Phân tích hồi qui theo quyên số mẫu
Phần I mô tả khái quát về hồi qui tuyến tính đơn và tuyến tính bội, các giả thiết về mô hình, kết quả phân tích được trình bày đựa trên đầu ra của thủ tục hồi qui trên phần mềm Stata bao gồm bảng phân tích phương sai và bảng ước lượng các hệ số Sau đó đề cập đến nguồn số liệu dùng trong phân tích và qui trình phân tích hồi qui tuyên tính
Phần H tập trung vào phương pháp thực hành phân tích hồi qui đơn và bội bằng các thí dụ phát triễn từng bước từ đơn giản đến phức tạp và hoàn chỉnh mô hình dưới sự trợ giúp của phân mềm Stata Cuối phần này là kỷ thuật phân tích với biến phạm trù và hồi qui từng bước
Phan Hl tap trung vào kiểm tra, chẩn đoán mô hình đã phát triễn để tiếp tục
hoàn thiện nó, dựa trên việc kiểm tra đánh giá các giả thiết về mô hình đã
nêu ở phần I như tính tuyến tính, tính thuần nhất phương sai, tính đa cộng tuyến, tính độc lập và nhận dạng mô hình
Trang 5Viện khoa học thống kê - Đề tài cấp cơ sở mã số ]1-CS-2005
PHANI
MOT SO VAN DE CO BAN VA QUI TRINH
TRONG PHAN TICH HOI QUI TUYEN TINH
Hồi qui tuyến tính là một kỷ thuật nghiên cứu trong kinh tế lượng Mục đích của hồi qui là tìm hiểu về mối quan hệ của một biến( gọi là biến phụ
thuộc) với một hoặc nhiều biến khác( gọi là các biến độc lập hay giải thích,
biến hồi qui, biến dự báo) Nếu mối quan hệ được thiết lập có ý nghĩa thì nó
sẽ được lượng hoá bằng một mô hình Dựa trên mô hình đó, chúng ta có thể
giải thích được sự biên thiên của biến phụ thuộc dưới sự tác động của các
biến giải thích như thế nào, hơn thế nữa có thể dự đoán được giá trị của biến phụ thuộc trên cơ sở giá trị của các biến giải thích
I.MƠ HÌNH HỔI QUI TUYẾN TÍNH ĐƠN(HAI BIẾN)
Mơ hình hồi qui tuyến tính đơn là một phương trình toán học mô tả mối quan hệ tuyến tính của hai biến (biến phụ thuộc và biến độc lập) trong tổng
thể nghiên cứu Mô hình có dạng: y=/Ø+ Øx+u
Trong đó:
y: được gọi là biến phụ thuộc, biến được giải thích
x: được gọi là biến độc lập, biến giải thích, biến dự báo, hoặc biến hồi qui
Ø,,u: là các tham số của tổng thể và được gọi là các hệ số của đường hồi qui
u: Sai số đại diện cho tất cả các yếu tố ảnh hưởng đến y mà ta không quan sát được, bao gồm:
-Các biến giải thích thích hợp chưa được đưa vào mô hình -Sai số đo lường biến phụ thuộc
-Tinh ngẫu nhiên của biến y Ø,: hệ số chặn
8,: độ dốc(hệ số góc) của mối quan hệ tuyến tính giữa y và x với điều kiện
các biến khác đại điện bởi u không thay đổi
Thí dụ: giữa lương và giáo dục có mối quan hệ tuyến tính vì một người có
số năm học nhiều hơn thường có mức thu nhập cao hơn Lý giải cho trường hợp này là do người có trình độ học vấn cao thì cơ hội kiếm việc làm dễ và việc làm cũng có thu nhập cao hơn Ta mô tả mối tả mối quan hệ giữa hai
yếu tố này bằng mô hình hồi qui đơn sau:
Trang 6Viện khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005
logđduong) = /, + / giaoduc + u
Với điều kiện trung bình sai số bằng 0, E[ul x] = 0, thì kỳ vọng toán hoc
của y đối với x được gọi là hàm hồi qui tổng thể:
Ely |x] = @ + 6x
Với một quan sát cụ thể kí hiệu bằng chữ i, có thể viết :
Ely, | x= & + BX;
Thông thường ta chỉ có thể thu thập được một mẫu số liệu từ tổng thể nghiên cứu Vì vậy, thay cho việc xây dựng hàm hồi qui trên tổng thể, ta chỉ có thể xây dựng trên một mẫu từ tổng thể và hàm hồi qui này được gọi là hàm hồi qui mẫu Hàm hồi qui mẫu có dạng:
= + ,x, ,i=l,2 ,N; N là kích thước mẫu
ÿ, : là ước lượng của E[y, I x;]
8, : 1à ước lượng của /, ñ : là ước lượng của B
Giữa giá trị ÿ, ước lượng và giá trị y; quan sát lệch nhau một phần dư 8, (8, được gọi là ước lượng của ù,)
=) i= yi Yi
Để ước lượng các tham số của hàm hồi qui mẫu, người ta dùng phương
pháp bình phương bé nhất, có nghĩa làm cho tổng bình phương các độ lệch
là bé nhất
N N ~ ¬ 2
>» 02=}, (y¡- 8, + ñ x,} đạt cực tiểu
i=l ial
Muốn cho tổng này dat cực tiểu thì các đạo hàm riêng đối với Ø, và Ø phải
bằng 0, giải hệ hai phương trình, tìm được ước lượng các hệ số Kết quả ước
lượng được trình bày trong bảng đầu ra của hồi qui Stata
Phân tích hồi qui là mô tả mối quan hệ giữa các yếu tố trên một mẫu, từ đó
tiến hành suy luận mối quan hệ này cho tổng thể Mối quan hệ trên một
mẫu sẽ trở thành mối quan hệ của tổng thể khi các ước lượng hệ số là không chệch E{ 8 ] =/,, và có phương sai bé nhất Để đảm bảo cho suy luận đúng
Trang 7Viên khoa học thống kệ - Đề tài cấp cơ sở mấ số 11-CS-2005
nghĩa là kiểm tra xem mô hình xây dựng trên mẫu có thoả mãn các giả thiết
về tổng thể hay không Nếu các giả thiết được thoả mãn, nó là mô hình của tổng thể và ta tiến hành phân tích kết quả và dự báo Sau đây là các giả thiết
đó
Các giả thiết về mô hình hồi qui đơn
GTI Các tham số là tuyến tính
Mô hình y = Ø, + /,x + u là tuyến tính với các tham số, vì vậy có thể tự đo dùng các hàm phi tuyến của x và y trong mô hình
GT2 Mẫu số liệu là ngẫu nhiên đồng nhất và độc lập
Mẫu số liệu được dùng để ước lượng các tham số (các hệ số) được lấy ngẫu
nhiên từ tổng thể Mẫu có phân phối đồng nhất và độc lập bao gồm các
quan sát :
(OGy i= +N}
GT3 Trung bình, có ó điêu kiện của sai số bằng 0 E(ulx)=0
Với mẫu ngẫu nhiên có thể viết E (u,lx¡)=0, ¡ = 1,2, ,N
Có thể suy ra biến giải thích và sai số là không tương quan với nhau cov(X,, uj)=0 GT4 Có sự biến thiên trong các giá trị của biến giải thích N S(x-x} >0 ish
Điều này để tránh mẫu số bằng O trong công thức ước lượng Ø, (xem công thức ước lượng các hệ số của hồi qui đơn ở dưới)
GT5 Phương sai có điều kiện của sai số là một hằng số Var (ul x)=? GT6 Sai số có phân phối chuẩn u|x ~ N(0,ơ2) Với các giả thiết 1-4, các ước lượng bình phương bé nhất là không chệch ELA]=A
Các giả thiết từ 1-5 được gọi là các giả thiết Gauss-Markov ( nó thoả mãn
định lý Gauss-Markov) cho số liệu chéo và mẫu ngẫu nhiên đồng nhất độc
lap Dinh lý có nội dung như sau: “Trong số các ước lượng không chệch tuyến tính, ước lượng bình phương bé nhất là tốt nhất( có phương sai nhỏ nhất)”
I MO HINH HOI QUI TUYẾN TÍNH BỘI
Mơ hình hồi qui tuyến tính bội là một phương trình toán học mô tả mối quan hệ tuyến tính giữa biến phụ thuộc và một số biến độc lập trong tổng thể nghiên cứu
Trang 8Viện khoa học thống kê - Đề tài cấp cơ sở mã số l1-CS-2005
Thí dụ: Lương không chỉ phụ thuộc vào giáo dục mà còn phụ thuộc vào khả năng, kinh nghiệm của mỗi người Để xét tác động riêng của từng yếu tố đến lương, ta cần phải đưa chúng vào mô hình hồi qui Mô hình hồi qui tuyến tính bội cho phép xét tác động riêng biệt của từng biến giải thích đến biến phụ thuộc, khi cố định các biến khác trong mô hình
Mô hình hồi qui tuyến tính bội tổng thể có dạng:
Y= 68+ 8Xị+ Ø;X; + t Ø„Xy +u Trong đó:
y: biến phụ thuộc, hoặc biến được giải thích
Xi , Xạ, , Xy : Là các biến độc lập(các biến giải thích, các biến dự báo,
hoặc các biến hồi qui), K là số biến
Ø;, 8,› 8, : là các tham số chưa biết cần phải ước lượng u: là sai số ngẫu nhiên như trong hồi qui đơn
Hàm hồi qui tổng thể chính là kỳ vọng có điều kiện của y đối với x:
Elylx] = 2) + BX, + Ø,X;+ + 6X
Hàm hồi qui mẫu có dạng:
¥, = By t+ Xụị + ,X¿ + + Ø, Xục , 1 là số hiệu quan sát, i=1, 2, N, N là
cỡ mẫu
Trong đó:
ÿ, : ước lượng của E[y;lx;]
By» Bys +s Be ước lưọng của /, /, , /3„ tương ứng
ñ, : ước lượng của u,: ø, = y, - ÿ,, được gọi là phần dư Vậy phần dư chính là ước lượng của sai sỐ
Phương pháp ước lượng bình phương bé nhất các tham số của mô hình được trình bày bằng đại số ma trận Kết quả ước lượng cũng được tóm tắt trong
bảng kết quả đầu ra của hồi qui Stata
Có thể giải thích các hệ số như là ước lượng ảnh hưởng riêng của từng biến
giải thích đối với biến phụ thuộc
3% -2
or, 8,
Trang 9Viện khoa học thống kê - Đề tài cdp co sé m@ s6 11-CS-2005
Các giả thiết về mô hình hồi qui tuyến tính bội
Các giả thiết về mô hình hồi qui bội tương tự như các giả thiết trong mô hình hồi qui đơn, chỉ có giả thiết thư 4 là khác
GT4 Đa cộng tuyến khơng hồn hảo
So với các giả thiết trong hồi qui đơn, chỉ có giả thiết 4 là thay đổi Giả thiết này cho biết không có mối quan hệ tuyến tính hoàn hảo nào giữa một
biến giải thích bất kỳ với các biến giải thích khác còn lại theo kiểu:
lxị + bXxạ+ +l„xy =0 lị, l;„ l„ : các hằng số
Qui định trong giả thiết 4 cũng có nghĩa là cho phép có sự tương quan khơng hồn hảo giữa các biến giải thích
Khi phân tích hồi qui, để giảm bớt tính đa cộng tuyến, người ta dùng
phương pháp thay thế: Có hai tập biến hồi qui, một tập dùng vào phân tích
và tập còn lại dùng để kiểm sốt mơ hình Mục đích đưa tập biến kiểm sốt
vào để ước lượng khơng bị chệch, nhưng khi phân tích ta không quá chú
trọng vào các biến này Thí dụ khi phân tích tác động của giáo dục đối với
lương, ngoài biến giáo dục ta còn đưa thêm vào các biến kiểm soát khác vào
mô hình như kinh nghiệm, giới tính, vùng miền, nông thôn thành thị Các
biến kiểm soát có thể tương quan với nhau, nhưng không tương quan với các biến đùng để phân tích
Trong trường hợp như vậy, ước tính tham số của các biến phân tích không bị chệch với độ chính xác cao Trong trường hợp biến kiểm soát tương quan
với các biến quan tâm, ta phải xem xét cẩn thần khi loại biến nào ra khỏi
mô hình
Giống như hồi qui đơn:
-Các giả thiết 1-4 đảm bảo cho các ước lượng bình phương bé nhất là không
chệch
E[Ø,]= ø, k=1,2, ,K
- Các giả thiết từ 1-5 được gọi là các giả thiết Gauss-Markov ( nó thoả mãn
định lý Gauss-Markov) giúp cho các ước tính bình phương bé nhất là tốt nhất( có phương sai bé nhất)
Il KET QUA PHAN TICH HOI QUI TREN PHAN MEM STATA
Dau ra cha tha tuc héi qui bang phan mém Stata( bao gém ca héi qui đơn và bội) cũng như một số phần mềm khác như Spss đều có cấu trúc giống nhau
như sau:
Trang 10Viên khoa học thống kê - Đề tài cấp cơ sở mã số l 1-CS-2005
- Bảng phân tích phương sai( Anova) của mô hình hồi qui
- Một số thống kê về mô hình: Số lượng quan sát đã phân tích, kiểm định F,
xác xuất p-value, hệ số xác định R, hệ số xác định R? điều chỉnh, và độ lệch chuẩn sai số của mô hình
-Bảng ước lượng các tham số của mô hình, sai số chuẩn, các kiểm định t
của hệ số được ước lượng và khoảng tin cậy của ước lượng Bảng phân tích phương sai có dạng : source | SS df MS Statistics
(Các bộ | Sum of Square degree of | Mean Squared
phan (Tổng độ lệch freedom (Độ lệch bình ¡ (Các thống kê) biến bình phương) (Bac tudo) |phương bình
thiên quân-Phương
của y) sai)
Model a2 | dfiy=K MSM=SSM/ F(K,N-K-1)=
(Mo | SM=LO.-») đấu MSM/MSR
hinh) (Kiém dinh F) Residual _ „+ |dfe=N-K-I | MSR=SSR/df, | R?= (Phân SSR=2 Ú, -Š: ) 1-(SSR/SST) dư) (hệ số xác định ) Total wo, cụ |df=N-I MST=SST/díy | R”-adj= (Toàn | 6ÿ) 1-(MSR/MST) bộ) (hệ số xác định điều chỉnh) Root MSE= Sqrt(MSR) (độ lệch chuẩn của sai số) Giải thích: -Cột Source: Các bộ phận mà từ đó tạo ra các biến thiên của biến phụ thuộc y Bao gồm 3 phần:
Model : phần biến thiên của biến phụ thuộc y được giải thích bởi mô hình Residual : Sai số ngẫu nhiên được đo bởi phần dư
Toral: tổng cộng của hai nguồn trên
Trang 11Vién khoa hoc théng ké - Dé tài cấp cơ sở mã số ] 1-CS-2005
SST : Tổng bình phương các biên thiên của biến phụ thuộc y cần được giải thích, gồm có làm hai phần: SST= SSM + SSR SSM : Phần tổng bình phương được giải thích bởi mô hình (các biến giải thích) SSR : Phần tổng bình phương không được giải thích(phần dư) y : biến phụ thuộc ÿ, : là ước lượng của Eịy, | x,], i=1,2 N N: Số quan sát y= Ely) x; : bién giai thich i, i=1,2, ., K K: số biến giải thích -Cột df: Bậc tự do của các bộ phận Source df, : bậc tự do của tổng bình phương cần được giải thích, gồm hai phần df; = dfy + df,
đa: bậc tự do của phần giải thích
df, : bậc tự do của phần không được giải thích K : số biến giải thích N : số quan sát -Cột Mean Squared : chứa độ lệch bình phương bình quân(phương sai) của các bộ phận Phan Statistics : Một số thống kê đánh giá chất lượng mô hình -Kiểm định F : Thống kê F(K,N-K-1) = MSM/MSR, có các bậc tự do là K
và N-K-1, kiểm định ý nghĩa tồn bộ mơ hình, với giả thiết:
Hạ : Tất cả các hệ số của mô hình đều bằng 0
H;: ít nhất có một hệ số khác 0
Để bác bỏ hay chấp nhận một giả thiết ta căn cứ vào xác xuất p-value do máy đưa ra dưới dạng (p >F: #).p>F nghĩa là “xác xuất của một F lớn
hon F tính trong mẫu” nếu chúng ta lấy các mẫu ngẫu nhiên từ tổng thể với
giả thiết Hạ là đúng Nếu chọn mức ý nghĩa z( z=0,05 (5%) là mức ngầm
định) để kiểm định mô hình thì khi p-value <øz, ta sẽ bác bỏ Hạ và chấp
nhận giả thiết H, Trong trường hợp này mô hình có ý nghĩa thống kê, các biến giải thích đã giải thích được R? phần trăm phương sai (sự biến thiên)
của biến phụ thuộc y (R7 là hệ số xác định được trình bày ở đưới) Còn khi '
p-value >z ta không thể bác bỏ được giả thiết Hạ , có nghĩa là với mức ý
nghĩa đã cho, mô hình không có ý nghĩa thống kê Trong trường hợp này mô hình hồn tồn khơng có sức mạnh giải thích, và R? =0
Trang 12Viên khoa học thống kệ - Đề tài cấp cơ sở mấ số 11-CS-2005
-Hệ số xác định R? : R?=1-(SSR/SST) -Hẹ số xác định đo lường độ phù hợp của mô hình hồi qui
Hệ số R? cho biết tỷ lệ phần trăm biến thiên(phương sai) của biến phụ thuộc y được giải thích bởi mô hình( các biến giải thích) Nói cách khác mô
hình đã giải thích được bao nhiêu phần trăm sự biến thiên của tổng thể R?
luôn luôn nằm giữa 0 vài:
0<R?<1
Nếu £°=0 , mơ hình hồn tồn không có khả năng giải thích
Nếu R?=1 , Mô hình giải thích 100% sự biến thiên của tổng thể
Nói chung hệ số &” càng cao tính giải thích của mô hình càng tốt
Với hồi qui bội, R? càng lớn thì số liệu quan sát càng nằm gần mặt phẳng
hồi qui mẫu &? sẽ không giảm khi một biến giải thích được bổ sung vào
mô hình Vì thế R? không phải là một chỉ tiêu tốt để bổ sung thêm biến hay
không Cách tốt nhất là dựa vào lý thuyết kinh tế và kiểm định mức ý nghĩa
của hệ số ước lượng đối với biến đó
Với hồi qui đơn, căn bậc hai của &? chính là hệ số tương quan R (- 1<=R<=l) giữa x và y: R âm ta có tương quan nghịch, R dương có tương quan cùng chiều, R có giá trị tuyệt đối càng lớn thì tương quan giữa hai biến càng chặt
-Hệ số xác định điều chỉnh R?-adj : R?-adj = 1-(MSR/MST) Vì # phụ
thuộc vào bậc tự đo của Д(y,~9,)? và Ð_(y,— ?)? là N-K-1 và N-1 Để khắc phục ta dùng hệ số xác định điều chỉnh : 3,0.~9)°/(WN-~K~D R? -adj =1- =) — _—_ DO - YP KN -1) i=l
R?-adj có tính chất sau: nếu K>1 thì R”-adj <=R?<=l, nghĩa là nếu số biến giải thích tăng lên thì hệ số xác định điều chỉnh tăng chậm hơn R?; R?-adj có thể là âm Vì vậy có thể đưa các biến mới vào mô hình khi R”-adj còn
tăng và hệ số của biến mới trong mô hình hồi qui khác 0
-Sai số chuẩn của ước lượng, Root MSE : Root MSE=Sart(MSR), đây là
căn bậc 2 của ước lượng phương sai của sai số (MSR) và được gọi là “sai số
chuẩn của mô hình” Nếu sai số chuẩn lớn hơn độ lệch chuẩn của biến phụ
Trang 13Viện khoa học thống kê - Dé tài cấp cơ sở mã số 11-CS-2005
Bảng ước lượng hệ số có dạng :
y Coef Std Err | t P>it! | [95% Conf Interval] (biến phu | (Hé s6) | (Sai s6| (Thong | (Xac (Khoảng tin cậy 95%)
thuộc) chuẩn) |kê kiểm | xuất P-
định t) value) |From(từ) to(đến)
(Các biến
giải thích)
Xị ô S(ô) |t for â |p-value |#.# #.# Xo B Se( B) t for ô, p-value | #.# t.#
Xx A Bx Se(#,) | t for 2 (Br) or Bx p-value | #.# ##
_cons By %(/Ø,) |tÍor /Ø | p-value | #.# #.#
-Cột đầu tiên: tiêu để là biến phụ thuộc y, phía dưới là các biến giải thích -Cột Coef (Hệ số) chứa các hệ số được ước lượng
Trang 14Viện khoa học thống kê - Để tài cdp co sé ma s6 11-CS-2005
-Cột Std Err (Sai số chuẩn): chứa các sai số chuẩn của các hệ số được ước lượng «Với hồi qui đơn, sai số chuẩn của các hệ số: —EL————RootMSE Se(B,) = NY, - x" 1 iG, - x) fl i=l *VGi héi qui béi, sai sé chudn của hệ số được ước lượng theo công thức: 2 RootMSE Se[8, | x] = N q- RE Oe 7 %,) i=l
x tượng trưng cho toàn bộ các x; , &¿ là hệ số xác định từ một hồi qui phụ của x, đối với các biến giải thích còn lại Thí dụ:
; k=l,2 K
Hồi qui này cho ta hệ số xác định R?
Nếu R? cang lớn thì tính đa cộng tuyến càng cao Sai số chuẩn của Ø, bị
ảnh hưởng bởi ba yếu tố:
*Độ lệch chuẩn của sai số RoorMSE sẽ giảm nếu loại đi các yếu tố
chứa trong u, dẫn đến sai số chuẩn của Ø, giảm
*(x, —¥,)° sẽ tang khi N tăng và sai số chuẩn của Ø, giảm
*Nếu R? giảm thì sai số chuẩn của 8, giảm
Ta cũng có thể lấy được sai số chuẩn của các hệ số dựa vào ma trận phương
sai và hiệp phương sai của các hệ số Cov( Ô)
Cov( #) = ¿?(Xx)', ¿? là ước lượng của phương sai sai số ø?của mô
hình (Chú ý ¿? = MSR) Phương sai của các hệ số ước lượng nằm trên
Trang 15Viện khoa học thống kê - Đề tài cdp co sé: md sé 11-CS-2005
var(f,) cov( By: Â yo COV( By › Bx )
cov(, 8 ) var(6,) xa cov(8, »Bx)
Cov(Ô) = ‘ ,
cov(B, By) cov(ô, Â,) Loe var(Ô„)
Từ đó suy ra:
Se(Ô,)= Jvar(B.) , k=0,1,2, K
Trong đó, var( Ô, ) là phương sai của các hệ số ước lượng
Phương sai Robust
Nếu phương sai sai số(ơ ?) thay đổi thì công thức ước lượng sai số chuẩn
của các hệ số ước lượng sẽ không đúng và các phép kiểm định dựa trên độ
lệch chuẩn cũng bị sai Vì vậy, trong trường hợp này, ta đùng ước lượng
mạnh phương sai Robust, và ước lượng này là nhất quán với phương sai
tổng thể Nếu các giả thiết từ 1-4 thoả mãn thì trong các mẫu lớn ước lượng bình phương bé nhất Ø, sẽ có phân phối chuẩn N(#,,ơ;, ), Chữ R trong
na, có nghĩa là ký hiệu phương sai Robust Phương sai Robust được dùng trong kiểm định giả thiết về các tham số đã ước lượng và ước lượng khoảng tin cậy của chúng Để có được phương sai Robust, trong lệnh hồi qui
Regress cia phan mém Stata, hãy viết từ khoá robust vào phần tuỳ chọn Ma trận phương sai và hiệp phương của các ước tính tham số được lưu dưới
tên V sau khi thực hiện câu lệnh hồi qui của Stata Có thể hiện ma trận này lên màn hình bằng lệnh: .Vce Nếu muốn xem ma trận các hệ số tương quan giữa các biến dùng lệnh: VC€, COFT Nếu muốn lưu ma trận dùng lệnh: mtrix V=e(V)
-Cột Thống kê kiểm định t: chứa giá trị của các thống kê kiểm định t đối
với các hệ số ước lượng
Kiểm định F là kiểm định cho tồn bộ mơ hình Cịn kiểm định t ở đây chỉ kiểm định cục bộ riêng cho từng biến giải thích để xem nó có ý nghĩa thống kê trong mô hình hay không Cặp giả thuyết phục vụ cho kiểm định là:
H,: B, =9 A,: B, #0
k=0,1,2, ,K
Trang 16Viên khoa hoc thống kê - Đề tài cấp cợ sở mã số | 1-CS-2005
Nếu giả thiết Hạ là đúng thì ta sẽ có thống kê t ratio = mã) có phân phối
k Student v6i bac tu do bang N-K-1
-Cột P>| t | (Xdc xuat P-value) : Chita cdc xdc xuat để bác bỏ giả thiết Hạ P>| t | nghĩa là “xác xuất của một t lớn hơn về giá trị tuyệt đối so với t tính trong mẫu” nếu chúng ta lấy các mẫu ngẫu nhiên từ tổng thể nghiên cứu với
giả thiết Hạ là đúng Ta thường gọi xác xuất này là giá trị p-value Ta có thể chọn trước một mức ý nghĩa chung œ để chấp nhận hay bác bỏ giả thiết Hạ đối với các hệ số ( ngầm định là 5%) hoặc có thể chọn ơ khác nhau với mỗi
hệ số
Nếu p-value < a thi bác bỏ giả thiết Hạ
Với mỗi biến nếu bác bỏ giả thiết Hạ nghĩa là thừa nhận giả thiết H, thì biến
đó là có ý nghĩa thống kê trong mô hình, nó tương quan với biến phụ thuộc
Còn ngược lại:
Nếu ơ< p-value thì thừa nhận Hy
Biến đó sẽ không có ý nghĩa thống kê và có thể loại nó ra khỏi mô hình
-Cột khoảng tin cậy : chứa khoảng tin cậy [from,to] của các hệ số ước
lượng
Khoảng tin cậy ước lượng ngầm định của Stata với mức 1- œ bằng 95% (œ = 5%):
ñ,=8 -
P (teas ny < sa) Sty of yxy) =(1-@)
Suy ra khoảng tin cậy ước lugng sé 1A, +, x.yS£(Ô,)-
IV NGUỒN SỐ LIỆU DÙNG TRONG PHÂN TÍCH
Nguồn số liệu là rất quan trọng trong phân tích hồi qui, nó quyết định sự thành công hay thất bại của phương pháp Có ba loại số liệu thường dùng trong phân tích hồi qui
1.Số liệu chéo
Nguồn số liệu này có nhiều và sẵn, thường được thu thập trong một thời gian nhất định trên nhiều địa phương, đơn vị khác nhau Thí dụ: số liệu các
cuộc điều tra mẫu hay điều tra toàn bộ như điều tra mức sống, điều tra thất
Trang 17Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005
định kỳ hoặc không định kỳ Đây quả là một nguồn số liệu rất lớn, rất
phong phú cho phân tích kinh tế, xã hội và chính sách
2 Số liệu thời gian:
Số liệu thu được trong một thời kỳ nhất định như GDP, lương bình quân đầu
người của của khu vực nhà nước qua các năm, các chỉ tiêu trong các báo cáo tháng, quí, năm của một thời kỳ Đây là các đấy số thời gian có rất nhiều trong các bộ ngành, cơ quan, xí nghiệp Tổng cục thống kê là nơi có rất nhiều số liệu chuỗi thời gian như số liệu về một chỉ tiêu nào đó trong
một thời kỳ nhất định có thể tìm thấy trong các niên giám thống kê, trong các bảng số liệu tổng hợp theo thời gian
3 Số liệu chéo-thời gian
Là hỗn hợp của hai loại số liệu trên như số liệu về tình hình thất nghiệp
hàng năm ở một số thành phố lớn của nước ta, số liệu về mức sống dân cư
của nước ta trên các vùng miền của cả nước một số năm gần đây
Số liệu thống kê có thể thu được bằng thực nghiệm trong nghiên cứu khoa
học, hoặc quan sát ngẫu nghiên như điều tra, hoặc lấy ra từ các số sách ghi
chép hành chính Thông thường các số liệu điều tra thống kê thường mắc một số lỗi: sai về quan sát như cân đong, đo đếm, sai về bỏ sót, sai về đơn vị tính, sai về mã hoá, sai về khuynh hướng quan sát .Vì thế việc kiểm tra nhận đạng số liệu trước và cả sau khi phân tích là rất cần thiết
V QUI TRINH TRONG PHAN TÍCH HỔI QUI TUYẾN TINH
Trong phân tích hồi qui thường trải qua một số bước tuần tự sau đây
1 Nêu Ta các giả thiết hoặc mối quan hệ giữa các yếu tố kinh tế Như giữa lãi suất ngân hàng và số người gửi, giữa thu nhập và chi tiêu, giữa doanh số
hàng hoá bán được và chí phí quãng cáo của một loại hàng hoá nào đó đều
có các mối quan hệ Thí dụ, giữa kết quả sản xuất và các yếu tố vốn và lao động có mối quan hệ hàm sản xuất:
Y=AK“Bể
Trong đó: Y là giá trị tăng thêm, K là vốn và L là lao động Còn A, ơ, B là các hệ số Trong nến kinh tế thị trường hoàn hảo, ta có : œ + B = 0
2 Thiết lập mô hình tốn( phương trình) mơ tả mối quan hệ tuyến tính đó Thí dụ giữa doanh số hàng hoá bán ra và chỉ phí quảng cáo của một loại
hàng nào đó có mối quan hệ tuyến tính sau:
Trang 18Viên khoa học thống kê - Dé tài cấp cơ sở má số 11-CS-2005
y= Bo + Bixtu
Trong đó: y là doanh số bán ra, x là chi phí quãng cáo, Bọ và Bị là các hệ số
chưa biết cần phải ước lượng, còn u chứa sai số và các biến khác chưa đưa
vào ước lượng như giá cả hàng hoá so với hàng cùng loại, thu nhập người đân trong vùng Vì vậy u phải tuân theo một số điều kiện nào đó để mô
hình ước lượng trở nên mô hình phản ánh đúng mối quan hệ giữa hai yếu tố quãng cáo và doanh số bán ra
Hàm sản xuất phản ánh mối quan hệ giữa kết quả sản xuất và các yếu tố
vốn và lao động được biến đổi thành hàm log để mối quan hệ này trở thành
tuyến tính như sau:
Log (y) = log(A) + a log(K) + B log(L)
3 Thu thập số liệu (hay dựa trên nguồn số liệu đã có như số liệu điều tra, số sách hành chính ) để ước lượng các hệ số của mô hình
4.Tiến hành ước lượng các các hệ số của mô hình dựa trên mẫu số liệu đã thu thập Kết quả ước lượng chính là đánh giá bằng thực nghiệm cho các giả thiết hoặc mối quan hệ giữa các yếu tố kinh tế trên mẫu,
5 Phân tích và đánh giá kết quả nhận được Xét xem kết quả ước lượng có
phù hợp với lý thuyết hoặc mối quan hệ đã nêu ra không Đồng thời kiểm
định các giả thiết thống kê về mô hình hồi qui tuyến tính để phương pháp
ước lượng bình phương bé nhất đạt hiệu quả nhất
6 Dự báo: Nếu như mô hình phù hợp với lý thuyết hoặc mối quan hệ đã mô
tả thì có thể sử dụng mô hình để dự báo
7 Dựa trên mô hình đã ước lượng đưa ra các kiến nghị về chính sách
Bảy bước trên đây là qui trình để chúng ta sử dụng mô hình hồi qui trong
phân tích kinh tế lượng Tuy nhiên trong quá trình phân tích, để xây dựng
được một mô hình đúng, chúng ta có thể phải lặp đi lặp lại một số bước kể
từ bước 1 cho đến bước 5 một số lần Thí dụ: nếu như sau khi ước lượng,
việc kiểm định các gỉa thiết của mô hình không đạt yêu cầu, ta lại phải quay
về các bước ở phía trước để hiệu chỉnh mô hình hoặc thu thập thêm số liệu
Trang 19Vién khoa hoc thong ké - Dé tai cdp co sé ma s6 11-CS-2005
PHAN It
PHƯƠNG PHÁP THỰC HÀNH PHÂN TÍCH HOI QUI TUYEN TINH TREN PHAN MEM
STATA
Trong phần này sẽ trình bày phương pháp thực hành phân tích hồi qui tuyến tinh dua trén phan mém Stata
Các kết quả của hồi qui có thể bị sai lệch đo số liệu có vấn đề: -mối quan hệ phi tuyến tính giữa biến phụ thuộc và biến giải thích
-ảnh hưởng của các giá trị ngoại biên của biến phụ thuộc và biến giải thích -mẫu không đồng nhất
Vì vậy trước khi tiến hành phân tích hồi qui, cần phải kiểm tra sơ bộ số liệu
tham gia vào ước lượng mô hình File số liệu được sử dụng trong các phân tích được lấy từ cuộc điều tra mức sống dân cư năm 1998 có tên là
Hhexp98p.dta
Bây giờ ta phân biệt một chút về khái niệm quan sát ngoại biên và quan sát đối trọng
-Một quan sát được gọi là ngoại biên(outlier), nếu giá trị của biến phụ thuộc
nằm cách xa giá trị dự đoán của nó(nằm cách xa đường hồi qui), tạo ra một phần dư lớn Những sai sót về số liệu đã gây ra giá trị ngoại biên
-Một quan sát được gọi là đối trọng(leverage), nếu thay đổi hoặc loại bổ nó
sẽ làm thay đổi đáng kể vị trí của đường hồi qui Điểm đối trọng còn được
gọi là điểm gây ảnh hưởng mạnh Một quan sát có điểm đối trọng, nếu giá trị của biến độc lập nằm cách xa điểm trung bình của biến theo trục x
Điểm đối trọng không gây ra phần dư lớn và nó cũng chính là diểm ngoại
biên của biến giải thích
-Một quan sát được coi là có ảnh hưởng, nếu loại nó thực chất sẽ làm thay đổi ước lượng của các hệ số Ảnh hưởng gây ra do chính các quan sát ngoại biên và đối trọng
Vì vậy trước khi tiến hành phân tích hồi qui, cần phải xem xét số liệu các biến tham gia vào mô hình trên các khía cạnh như phạm vi giá trị của biến,
các giá trị thiếu(missing), các giá trị ngoại biên, sự phân bố của số liệu, vấn đê phi tuyến tính giữa biến phụ thuộc và biến giải thích Trên cơ sở đó, có thể phát hiện ra những vấn đề về số liệu và tiến hành xử lý hoặc biến đổi số liệu để thu được một mô hình hồi qui phù hợp hơn với số liệu hiện có Việc
Trang 20Vién khoa hoc thong ké - Dé tai cấp cơ sở mã số 1 1-CS-2005
xem xét và kiểm tra số liệu có thể thực hiện bằng hai phương pháp: phương pháp đồ thị và phương pháp thống kê
Sau hồi qui còn phải tiếp tục chẩn đoán kết quả phân tích để xem nó có phù
hợp với các giả thiết hồi qui tổng thể hay không, trước khi công nhận kết
quả Công việc này lặp đi lặp lại cho đến khi đạt được một mô hình đúng
I THUC HANH PHAN TICH HOI QUI DON
Trong file số liêu Hhexp98p.dta, có hai biến mà ta quan tâm -rlpcex1: chỉ tiêu bình quân đầu người của hộ gia đình 12 tháng và -hhsize : qui mô hộ gia đình: số người trong hộ
Ta hy vọng rằng mức sống của hộ gia đình (chi tiêu bình quân) cao hơn có quan hệ với qui mô hộ thấp hơn, nghĩa là hộ có ít người hơn sẽ có mức
sống tốt hơn Để kiểm tra giả định này ta tiến hành phân tích mối quan hệ
hồi qui tuyến tính giỡa hai biến, biến phụ thuộc là rlpcex1 và biến giải thích 1a hhsize
Mô hình hồi qui cé dang: rlpcex1 = 8, + /* hhsize
1 Kiểm tra sơ bộ và biến đổi số liệu
Ta sử dụng cả hai phương pháp số và đồ thị để kiểm tra sơ bộ số liệu
Phương pháp thống kê
Để kiểm tra phát hiện các vấn đề về số liệu như các giá trị ngoại biên, sự phân bố giá trị biến bị lệch, mối quan hệ giữa biến phụ thuộc và biến giải thích không tuyến tính, có thể sử dụng một số thống kê: Khoảng biến thiên, các giá trị thiếu, các giá trị bé nhất và lớn nhất, các đặc trưng phân bố của biến, hệ số tương quan giữa hai biến Thường sử dụng một số thủ tục sau
use " Hhexp98p.dta", clear
des
codebook rlpcexl hhsize sum rlpcexl hhsize
Trang 21Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005
Giả sử chương trình Stata đã được khởi động, sử dụng lệnh use để mở file số liệu có tên là Hhexp98m.d(a đưa vào máy:
use "Hhexp98m.dta", clear
Sau đó dùng lệnh describe(viết tắt là des) để tìm hiểu thêm về file số liệu
này: nó có bao nhiêu quan sát và gồm những biến nào, nhãn của biến, kiểu biến và những chú thích về file số liệu
.des
Contains data from Hhexp98m.dta
obs: 5,999
vars: 22 28 Sep 2005 14:47
size: 425,929 (95.9% of memory free) Storage display value
variable name type format label variable label
househol long %12.0g household code
sex byte %8.0g Gender of HH.head (1:M;2:F)
age int $8.0g Age of household head
comped98 float %9.0g diploma completed diploma HH.head educyr98 float %9.0g schooling year of HH.head
farm float %9.0g loaiho Type of HH (1l:farm; O:nonfarm) urban98 byte %8.0g urban 1:urban 98; 0:rural 98
reg? int %8.0g Code by 7 regions reg8 int $8.0g Code by 8 regions reg10 int %8.0g Code by 10 regions
hhsize long $12.0g Household size
vill float %9.0g village code
commune float %9.0g commune code PSU-SVY commands ricexpd float %9.0g Value rice expenditures educnexp float %9.0g Education expenditures
rlpcex1l float %9.0g comp.M&Reg price adj.pc tot exp
cluster int %8.0g MA DIA BAN
tribe byte %8.0g DAN TOC CUA CHU HO :
s032q09 byte %8.0g Co nha may trong phamvi 10 km s061g1 byte %8.0g Co duong Oto den xa(1:co; 2:
khong) depend double %9.0g {sum) phuthuoc
province float %9.0g Province code
Sorted by:
Chúng ta không đi vào tất cả các chi tiết của đầu ra, chú ý là file có 5999 quan sát và 22 biến
Nếu muốn biết thêm thông tin chỉ tiết của các biến ta có thể dùng lệnh
codebook và lệnh summarize(viết tất là sum) Lệnh codebook cho biết
phạm vi giá trị của biến, số giá trị missing, các phân vị và giá trị trung bình đối với biến số, hoặc bảng phân tích tần số giá trị đối với biến phạm trù Biến rlpcexllà biến liên tục có giá trị nằm trong khoảng [357.3 , 45801.7], trung bình của chỉ tiêu bình quân đầu người của hộ là 3188.67( ngàn đồng/12 tháng) và không có giá trị mising nào Nếu một biến chứa giá
trị mising thì những quan sát chứa giá trị mising đó sẽ không được đưa vào
Trang 22Viện khoa học thống kê - Dé tai cấp co sé md s& 11-CS-2005
phân tích, vì vậy giá trị missing cũng có ảnh hưởng đến phân tích hồi qui vì nó làm cho số quan sát đưa vào phân tích bị giảm đi Biến hhsize là biến
nguyên có phạm vi giá trị [1,19] , cỡ hộ trung bình là 4 75 và cũng không có bất cứ giá trị missing nào
codebook rlpcexl hhsize
type: numeric (float) range: [357.31796,45801.711) units: 00001 unique values: 5998 missing : 0/5999 mean: 3188.67 std dev: 2692.57 percentiles: 10% 25% 50% 75% 90% 1238.09 1671.05 2397.04 3711.92 5940.8 type: numeric (long) range: [1,19] units: 1 unique values: 16 missing : 0/5999 mean: 4.75229 std dev: 1.95429 percentiles: 10% 25% 50% 75% 90% 2 4 5 6 7
Lệnh sum cho biết số lượng quan sát (Obs), giá trị trung bình(mean), độ
lệch chuẩn (Std Dev) cũng như giá trị lớn nhất và bé nhất( min max) của
các biến Nếu thêm tuỳ chọn detail vào lệnh, ta sẽ có thêm các thông tin
như các phân vị, 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của biến cũng như
độ lệch(skewness) và độ nhọn(Kurtosis) của phân bố giá trị biến Nhìn vào
kết quả lệnh ta thấy biến rzlpcex1 có phân phối tương đối lệch phải
sum rlpcexl hhsize, detail
Trang 23Viện khoa học thống kê - Đề tài cấp cợ sở mã số Ï 1-CS-2005 75% 3711.917 26944.64 90% 5940.803 30624.77 Variance 7249918 95% 8045.32 31066.5 Skewness 3.791027 99% 14163.04 45801.71 Kurtosis 29.21398 Household size Percentiles Smallest 1% + 1 5% 2 1 10% 2 1 obs 5999 25% 4 1 Sum of Wgt 5999 50% 5 Mean 4.752292 Largest Std Dev 1.954292 75% 6 14 90% 7 16 Variance 3.819257 95% 8 16 Skewness - 6561954 99% 10 19 Kurtosis 4.527119
Đối với biến rlpcex1, nhìn vào 5 giá trị nhỏ nhất ta thấy nó tương đối gần nhau, còn các giá trị cao nhất tương đối phân tán hơn, độ lệch chuẩn lớn, độ lệch và độ nhọn của phân bố cũng lớn Kết hợp các yếu tố trên ta thấy số liệu phân bố rất không đều và lệch mạnh về phía phải Còn với biến cỡ hộ hhsize, mọi yếu tố có vẻ bình thường hơn
Nếu muốn biết cụ thể giá trị của mỗi biến có thể dùng lệnh list Thí dụ
muốn biết cỡ hộ tương ứng với 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của
Trang 24Viện khoa học thống kê - Dé tai cép co sé m@ sé 11-CS-2005
Nói chung, các hộ có đông người thường có thu nhập thấp Ngược lại các hộ ít người có thu nhập cao
Bây giờ ta lập bảng tần số tất cả các giá trị của biến hhsize để xem phân bố
của biến có vấn đề gì không tabulate hhsize Household | size | Freq Percent cum ————~~>~—~—— "“— 0S 14 214 3.57 3.57 2 1 497 8.28 11.85 3 | 731 12.19 24.04 4 | 1,404 23.40 47.44 51 1,318 21.9? 69.41 6 | 867 14.45 83.86 7] 480 8.00 91.87 8 | 255 4.25 96.12 9 | 126 2.10 98.22 10 | 58 0.97 99.18 11 | 29 0.48 99.67 12 | 9 0.15 99.82 13 ] 4 0.07 99.88 14 | 4 0.07 99.95 16 | 2 0.03 99.98 19 | 1 0.02 100.00 wooo ane nee +>~——~~>—~—=~—~~—~>~—————~~~~—————~—=>~— Total | 5,999 100.00
Qui mô ho tap trung chi yéu tir 1 dén 11 ngudi, trong do tir 4-5 ngudi 1a
đông nhất chiếm gần 45,4% số hộ Chỉ có 20 gia đình trong tổng số 5999
gia đình có cỡ hộ từ 12-19 Từ kết quả của lệnh sum và tabulate, ta có thể kết luận phân bố giá trị của biến cỡ hộ hhsize là bình thường, và ít bị lệch Cuối cùng tính hệ số tương quan giữa hai biến chỉ tiêu và cỡ hộ, ta thấy hệ số có giá trị am chứng tỏ mối quan hệ này là ngược chiều nhau đúng như dự đoán và sự tương quan là không cao Những hộ có mức chỉ tiêu khá thường
có ít nhân khẩu hơn
correlate rlpcexl hhsize (obs=5999) | lripcexl hhsize => $ave ene lrlpcexl | 1.0000 hhsize | -0.2172 1.0000 Phương pháp đồ thi
Trên đây là một vài phương pháp số để quan sát số liệu và ta đã phát hiện ra
Trang 25Viện khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005
quan hệ giữa biến giải thích hhssize với biến phụ thuộc ripcexi và những giá trị ngoại biên của hai biến này Có thể sử dụng các đồ thị sau:
histogram rlpcexl, bin(50) normal
kdensity rlpcexl, normal graph box rlpcexl
scatter rlpcexl hhsize
twoway (scatter rilpcexl hhsize) (1fit rlpcexl hhsize) (lowess rlpcexl hhsize)
Đồ thị histogram ( hist) cho biết phân bố tân suất (mật độ tần số) của biến Ta thêm vào tuỳ chọn bin(50) để dùng 50 cột tần số trong đồ thị và tuỳ
chọn normal để vẽ một đường cong chuẩn
histogram rlpcexl, bin(50) normal (bin=50, start=357.31796, width=908.88786) Density 20e-04 300-04 400-04 1.0e-04 9 — T— T T T 10000 20000 30000 40000 50000
comp.M&Reg price adj.pc tot exp
Nhìn vào đồ thị ta thấy mật độ tập trung các giá trị thấp là rất lớn (rất nhiều
hộ gia đình có mức chi tiêu thấp) và một bộ phận có giá trị cao phân tán tạo
thành một cái đuôi dài về phía phải Một lần nữa khẳng định phân bố lệch nhiều về phía phải
Đồ thị histogram là nhạy cảm với số hộp sử dụng trong vẽ đồ thị Một sự
thay thế cho đồ thị này là đồ thị mật độ kernel, nó xấp xỉ mật độ xác xuất
của biến Đồ thị mật độ kernel có ưu điểm là nhắn và độc lập với việc chọn
gốc không giống đồ thị historgram Câu lệnh vẽ đồ thị là kdensity và sau đó
là tên biến, phần tuỳ chọn đứng sau dấu phẩy kdensity rlpcexl, normal
Trang 26Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005 0003 0004 Density 0002 0001 T — T—~ T—— T — 0 10000 20000 30000 40000 50000 comp M&Reg price adj.pc tot exp Kemel density estimat Normal density
Cả hai đồ thị chỉ ra rằng biến rlpcexI bị lệch phải, trông rất không chuẩn, có rất nhiều hộ có mức chi tiêu bình quân thấp và mộ số có có mức chi tiêu rất cao
Bây giờ ta vẽ đồ thị hộp bằng câu lệnh graph box và sau đó là biến cần vẽ
Đồ thị hộp cũng cho biết phân bố lệch phải, nhiều giá trị cao phía trên đỉnh hộp Đặc biệt có ba giá trị ngoại biên đáng quan tâm mà chúng ta đã chỉ ra ở trên 30624.77, 31066.5, 45801.71 graph box rlpcex1 40,000 50,000 - comp.M&Reg price adj.pctot exp “ 10,000 20000 30000 0
Sử dụng đồ thị phân tán scatter kèm theo tên các biến để mô tả mối quan hệ
của biến phụ thuộc và biến giải thích xem mối quan hệ này có tuyến tính không và đồng thời cũng chẩn đoán các quan sát ngoại biên của hai biến này Ta thấy 3 điểm ngoại biên của biến phụ thuộc cũng như trên và 3 quan
Trang 27Viên khoa học thống kê - Đề tài cấp cơ sở mấ số 1I-CS-2005
đó là 16,16, 19, Các điểm này ảnh hưởng rất mạnh đến vị trí của đường hồi qui Vì vậy, các quan sát chứa các điểm này gọi là quan sát đối trọng
scatter rlpcexl hhsize 40000 50000 comp M&Reg price adj.pctotexp 40000 20000 30000 ' ‘ |
Mối quan hệ của hai biến trên đồ thị vẫn chưa được rõ, ta dùng một loại đồ
thị hai chiêu khác twoway để thấy rõ hơn mối quan hệ này Ngoài phân bố các điểm, còn bổ sung thêm hai đường , một đường dự đoán có hình cong
diễn đạt mối quan hệ thực của hai biến và một đường thẳng hồi qui giữa hai biến Do có một số điểm đối trọng phía bên phải có xu hướng kéo đường hồi qui lên, vì vậy đường hồi qui cỏ vẻ ít bị dốc hơn Hai tuỳ chọn trong câu
lệnh là Lũt có nghĩa là vẽ một đường hồi qui và lowess là vẽ một đường dự
đoán nhấn Hai đường dự đoán này rất gần nhau ở phía trái nhưng lại tách xa nhau ở phía phải Vì thế mối quan hệ của hai biến có vẻ không được
tuyến tính lắm khi tiến về phía phải 5 9 Ọ ge |HHi;: : lỈ¡¿,: — r 10 18 20 T of Household size
twoway (scatter rlpcexl hhsize) (lfit rlpcexli
hhsize) (lowess rlpcexl hhsize)
Trang 28Viện khoa học thống kê - Đề tài cap co sé md sé 11-CS-2005 0 oom 8 oe =- + œ3 we — _— 6° 10000 20000 30000 40000 50000 - s1 1 Household size comp.M&Reg price adj.pc totexp/Fited valueslowess rlpcex1 hhsize
* comp.M&Reg price adj.pc tot exp
lowess ripcexi hhsize
Fitted values
Để khắc phục tình trạng số liệu đã phân tích ở trên, cần thực hiện biến đổi dữ liệu để biến phụ thuộc có phân bố ít bị lệch hơn và vì vậy mối quan hệ
của hai biến có thể tuyến tính hơn Trước hết, dùng cặp lệnh ladder và
gladder để xem trước một số biến đổi và sau đó chọn biến đổi nào có phân
bố tốt hơn Lệnh gladder báo cáo kết quả bằng số, còn lệnh gladder sản xuất ra một đồ thị ladder rlpcexl Transformation formula chi2(2) P(chi2) cubic r1pcex1^3 square rvlpcex1*2 raw ripcexl square-root sqrt (rlpcex1) `
log log (ripcex1) 0.000 reciprocal root 1/sqrt (rlpcex1) 0.000 reciprocal 1/rlpcex1
reciprocal square 1/(rlpcex1^2) reciprocal cubic 1/(r1pcex1^3)
Tiêu chuẩn để chọn biến đổi đối với lệnh ladder là chọn biến đổi nào có giá trị chỉ22) là nhỏ nhất Ta thấy có các biến đổi log(Œrlpcexl) va
1/sgrt(rlpcex1) thoả mãn tiêu chuẩn này
Bây giờ ta chuyển sang vẽ đồ thị giữa hai biến bằng lệnh gladder Nhìn vào đồ thị ta thấy đồ thị log có vẻ chuẩn hơn, vì vậy chọn biến đổi log cho biến
ripcex1
Trang 29Viện khoa học thống kê - Đề tài cấp cơ sở mã số Ï 1-CS-2005 0.000 -0-13 cubic | identity Density 0.0.0.0 .Ô 5.00x+0800u+ EG0e+0u+00 024.98 sqrt 040 0 10002008000400-0500, ® 7 8 8 1001 ị thun i 4 +05 -04 -3 -Ữ2 -09/04e-16 ị /cubic | seen 0 020-2 Nett
Ta đặt tên cho biến mới là :zipeex: và thực hiện lặp lại một số đồ thị trên và dễ dàng nhận thấy phân bố :zipeexi bây giờ được cải thiện hơn nhiều, đỡ
-3 076.00 0u 08.00u-00.00x-08.272.2 -2 00-080 0ROOe B205 0914-24
comp.M&Reg price adj.pc tot exp
Histograms by transformation
lệch hơn và gần chuẩn hơn
Trang 31Viên khoa học thống kệ - Dé tài cạp cơ sở mã số 11-CS-2005
Sau khi đã xem xét, kiểm tra và biến đổi số liệu, ta tiến hành hồi qui Câu lệnh hồi qui bắt đầu bằng từ khoá regress tiếp theo là khai báo các biến phụ
thuộc và giải thích Bây giờ mô hình của chúng ta là:
Iripcex1 = A + A* phsize va tién hành phân tích mô hình
2 Phân tích mô hình
regress lrlpcexl hhsize
Source | 55 df MS Number of obs = 5999
T=e-=~====~e †T~e~=~=~=z~rm=zễ~===r~=~~=~—=~ F( 1, 5997) = 493,32
Model {| 180.074125 1 180.074125 Prob > F = 0.0000 Residual | 2189.04283 5997 365022983 R-squared = 0.0760
———— fermen nnn nnn nn nn nnn Adj R-squared = 0.0759
Total | 2369.11695 5998 394984487 Root MSE = 60417
1rlpcexl | Coe£f Std Err t P>|t] [95% Conf Interval] “—.1 +2~—~<~<~~~~~~~~~—~—~~~<~~~~>~~———~~~>——~<~—~—~~~—~—~———~—~~—~—~—~~———~>~—~—~—~——— hhsize | -.0886611 -0039918 -22.21 0.000 -.0964864 -.0808357 _cons | 8.268166 -0205113 403.10 0.000 8.227957 8.308376 Trên đây là các bảng số liệu do câu lệnh hồi qui đưa ra Sau đây ta sẽ tiến hành phân tích kết quả: Phần tổng bình phương được giải thích bởi mô hình (biến giải thích) SSM=180.074125 Phần tổng bình phương không được giải thích(phần dư) SSR=2189.04283 Bậc tự do của phần giải thích Df,=1 Bậc tự do của phần không được giải thích Df=5997 Độ lệch bình phương bình qaân(phương sai) của các bộ phận trên MS,,=180.074125 MS,=.365022983
Số quan sát được dua vao phan tich obs=5999
Kiểm định F cho tồn bộ mơ hình (F(1,5999)=416.40, p-value=0.0000) cho
biết hệ số của mô hình không bằng 0, có nghĩa là mô hình có ý nghĩa thống
kê
Hệ số xác định(R-square=0.0760) khẳng định khoảng 7,6% phương sai của
Irplcex1 được giải thích bởi mô hình, ở đây được giải thích bởi biến độc lập hhs1ze
Sai số chuẩn của ước lượng Root MSE =.60417, nó nhỏ hơn độ lệch chuẩn
của biến phụ thuộc là 6284779 Vậy ước lượng hồi qui là chấp nhận được
Trang 32Viên khoa học thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005
Kiểm định cục bộ t đối với hệ số ước lượng của hhsize(_b=-0.0887, t=-
20.42, p-value=0.000) có ý nghĩa thống kê, ở mức ý nghĩa 5% ta bác bỏ giả
thiết cho rằng hệ số hồi qui bằng không, chú ý là (-20.42)^2=416.9 bằng
thống kê F) Hệ số âm chỉ ra rằng qui mô hộ có liên quan với mức chỉ tiêu bình quân đầu người thấp Hộ càng có đông người thì mức chỉ tiêu bình quân càng thấp, day là kỳ vọng của chúng ta lúc bắt đầu xây dựng mô hình
Hệ số _b[hhsize]=-0.0887, nghĩa là với một đơn vị tăng lên của hhsize(hộ
tăng thêm một người), chúng ta kỳ vọng -0.0887 đơn vị giảm xuống của Irlpcex1 Do biến phụ thuộc là log của chi tiêu bình quân đầu người, nên về giá trị thực té: e° = 0.915 = (1-0.085)
chính là tỉ số giữa chỉ tiêu bình quân của hộ trước và sau khi tăng lên một người, vì vậy có thể nói khi hhsize tăng lên 1 (hộ tăng lên một người ), chỉ tiêu bình quân giảm xuống còn 0.915 lần so với mức cũ, hay giảm đi 8,5% Nói cách khác nếu có hai hộ tương tự nhau về các mặt nhưng chỉ chênh lệch
nhau một khẩu thì mức chỉ tiêu bình quân của hai hộ sẽ chênh nhau 8,5%
nghiêng về hộ ít khẩu hơn Về mặt kinh tế, những gia đình có qui mô nhỏ
thường dễ quản lý và tỏ ra có hiệu quả hơn trong sản xuất kinh doanh Xu hướng các gia đình hạt nhân vừa phù hợp với đời sống đương đại mà còn chứng tỏ khả năng nâng cao được mức sống bình quân hộ Để mỗi cặp vợ chồng có từ 1 đến hai con, nghĩa là có một gia đình qui mô nhỏ, thì phải làm tốt việc kế hoạch hoá gia đình Kết hoạch hoá gia đình giúp nâng cao mức sống bình quân hộ
Hằng số (hệ số chặn) _cons=8.27 Trong nhiều trường hợp và ngay cả trường hợp này là khó cắt nghĩa Các sai số chuẩn của ước lượng là tương
đối bé, chứng tỏ ước lượng là khá tốt
Bây giờ, sử dụng mô hình hồi qui để dự báo mức chỉ tiêu của các hộ và chứa các giá trị dự báo vào biến yhatI đồng thời cũng ước lượng số dư(sai số dự báo) vào biến e1, câu lệnh phục vụ cho dự báo là predict Vì số dư là ước lượng của sai số trong hồi qui nên có thể quan sát phân bố của nó trên đồ thị phân tán giữa phần đư e1 và biến dự báo yhat1, kèm theo một đường trung bình có điều kiện bằng O của sai số Nhìn vào các dải phân bố theo chiều thẳng đứng của phần dư theo trục dự báo, ta thấy ngay là phân bố các đải là không đều và như vậy có thể kết luận phương sai sai số không phải là một hằng
predict yhatl
predict el, resid
Trang 33Viện khoa hoc thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005
Sau đó tiến hành vẽ đường thẳng hồi qui lên trên độ thị phân tán giữa biến
phụ thuộc và giải thích trên cùng một đồ thị hai chiều twoway Đường hồi
qui đi xuống vì hệ số góc của nó âm, đúng như dự đoán Ta có thể nhận biết các quan sát đối trọng với các giá trị 16,16,19 của biến giải thích hhsize
twoway (line yhatl hhsize, sort) (scatter lrlpcexl hhsize) 9 10 Fitted values/Inpcex1 8 7 © e T 10 15 20 Houshold sze Fitted values s lipcex1 Cuối cùng ta viết phương trình hồi qui dự đoán mức chi bình quân của hộ: Lrlpcex1= 8.2682 — 0.0887*hhsize
Nếu bỏ đi ba quan sát đối trọng (hhsize = 16,16,19 ) gây ảnh hưởng mạnh
đến đường hồi qui (trong file số liệu đánh dấu các quan sát này bằng số 1 trong biến logic) thì kết quả hồi qui sẽ tốt hơn Như ta thấy hệ số xác định
Trang 34Viện khoa học thống kê - Dé tài cấp cơ sở mã số Ì 1-CS-2005
cũng lớn hơn, hệ số của biến giải thích hhsize cũng lớn hơn (về giá trị tuyệt
đối)
regress lrlpcexl hhsize if logic!=1
Source | 5S dt MS Number of obs = 5996
“mm foci ance nino one enon nen ne F( 1, 5994) = 509.33
Model | 185.47081 1 185.47081 Prob > F = 0.0000 Residual | 2182.67399 5994 364143142 R-squared = 0.0783
“~ -~=== Porro rnc nme nnn coe Adj R-squared = 0.0782
Total | 2368.1448 5995 395019984 Root MSE = 60344
lrlpcexl † Pelt] (95% Conf Interval]
-——=—>~~~=>—~— mm 0
hhsize | -.0908895 -0040273 -22.57 0.000 —.0987844 -.0829945 _cons | 8.278086 „0206417 401.04 0.000 8.237621 8.318551
Il THUC HANH PHAN TICH HOI QUI BOI
Mô hình hồi qui bội gồm một biến phụ thuộc va một số biến giải thích Trong phân tích này, ta bổ sung vào phương trình hồi qui đơn ở trên một số biến giải thích nữa «aueyzss(SỐ năm giáo dục của chủ hộ, ageis(Kinh nghiệm của chủ hộ, tuổi của chủ hộ trừ đi 15), aepena:Số người sống phụ thuộc trong hộ) Chúng ta sử dụng các yếu tố này để đo lường mức sống bình quân của hộ Chúng ta hy vọng rằng mức sống của hộ sẽ tốt hơn có quan hệ với học vấn của chủ hộ (số năm học cao hơn), qui mô hộ gia đình nhỏ hơn, ít người sống phụ thuộc hơn, chủ hộ có nhiều kinh nghiệm hơn Mô hình hôi qui có dạng:
1zlpcex1= 6, : 6, :hhsize+ /,xeducy+z98+ /, :age15+ Ø6, xdepend
1 Kiểm tra sơ bộ và biến đổi số liệu
Trước hết cũng tiến hành kiểm tra sơ bộ số liệu và hoàn chỉnh xây dựng mô
hình như trong hồi qui đơn Lệnh codebook giúp ta quan sát phạm vi của số liệu và qua đó xem có sự bất thường nào về giá trị biến và sai dấu dữ liệu
như số đo tuổi tác không thể là âm được; các giá trị missing cũng rất quan
trọng vì nó ảnh hưởng đến số lượng quan sát được phân tích trong mô hình Ta thấy không có vấn đề gì từ kết quả lệnh codebook Cả ba biến sducyr98, age15,depend déu không có giá trị nao missing
Trang 35Viên khoa học thống kê - Dé tai cấp cơ sở mã số 11-CS-2005
type: numeric (float)
range: [0,22] units: 1.000e-06
unique values: 25 missing : 0/5999 mean: 7.09442 std dev: 4.41609 percentiles: 10% 25% 50% 75% 90% agel5 type: numeric (float) range: [1,80] units: 1 unique values: 76 missing : 0/5999 mean: 33.0128 std dev: 13.7702 percentiles: 10% 25% 50% 75% 90% 17 22 31 43 53 depend type: numeric (byte) range: [0,10] units: 1 unique values: 11 missing : 0/5999 mean: 2.36173 std dev: 1.36276 percentiles: 10% 25% 50% 75% 90% 1 1 2 3 4
Phân bố của biến phụ thuộc iripcex1 và biến giải thích hhsize đã được
nghiên cứu trong hồi qui đơn giản Phân bố của các biến giải thích còn lại được đánh giá qua các thống kê của lệnh sum Kết quả lệnh sum cho biết
phân bố của các biến có thể chấp nhận được , không lệch nhiều Ta không tiếp tục xem xét các phân bố bằng đồ thị
sum educyr98 age15 depend, detail
Trang 36Viên khoa học thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005 90% 95% 99% Variance Skewness Kurtosis 19.50187 +2357831 2.378823 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles 10 14 17 22 31 43 53 58 65 Smallest + 3 4 5 Largest 75 78 79 80 (sum) phuthuoc Obs Sum of Wgt Mean Std Dev Variance Skewness Kurtosis 5999 5999 33.01284 13.7702 189.6185 „4522803 2.393652 1% 5% 10% 25% 50% 75% 90% 95% 99%
Ngoài các đồ thị được giới thiệu ở phần hồi qui đơn, trong hồi qui bội người ta còn sử dụng một loại đồ thị nữa được gọi là ma trận đồ thị để nghiên cứu mối quan hệ giữa biến phụ thuộc với từng biến giải thích và phát hiện những giá trị ngoại biên của của chúng Nhìn lên đồ thị, ta thấy mối quan hệ của biến phụ thuộc lrlpcexI với các biến hhsize, educyr98, agel5 và Percentiles 0 0 1 1 ` Au ew Smallest 0 9 0 0 Largest 9 9 9 10
đepend đều có vẻ như tuyến tính
Trang 37Viên khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005 li: TL ti i ae llli: 8 a ® 9 0 ^ ° 5 0 Để đo lường hệ số tương quan giữa biến phụ thuộc với từng biến giải thích ding lénh correlate correlate lrlpcexl hhsize educyr98 age15 depend (obs=5999) irlpcexl hhsize educyr98 age15 depend | + 1ripcexl | 1.0000 | | i | hhsize ~0.2757 1.0000 educyr98 0.3228 -0.0176 1.0000 agel5 0.1229 -0.1342 -0.3521 1.0000 depend -0.2659 0.7322 -0.0128 -0.0950 1.0000
Nói chung các biến giải thích có tương quan không mạnh với biến phụ
thuộc Các hệ số tương quan của các biến nnsize, aepend là âm nghĩa là mối
quan hệ của biến phụ thuộc với các biến này là ngược chiều nhau Nói cách
khác số người trong hộ tăng lên hoặc số người sống phụ thuộc tăng lên thì
mức sống của hộ giảm xuống Hệ số tương quan của edueyrss là dương, nói
rằng học vấn của chủ hộ tăng lên thì mức sống cũng tăng lên Từ đó chúng ta dự kiến rằng các biến này là các biến dự báo có ý nghĩa thống kê trong mô hình hồi qui
Cũng có thể sử dụng lệnh pwcorr để tính tương quan cặp Sự khác nhau quan trọng giữa correlate và pwcorr là phương pháp xử lý các giá trị missing Với correlate một quan sát (một bản ghi) không được đưa vào tính giá trị tương quan nếu giá trị của một biến bất kỳ là missing Lệnh pwcorr chỉ loại quan sát ra khỏi tính tương quan khi có giá trị missing cho cặp biến đang được tính tương quan, các cặp khác trong lệnh không bị ảnh hưởng Kết quả của câu lệnh này cũng tương tự như trên
pwcorr lrlpcexl hhsize educyr98 agel5 đepend
Trang 38Viên khoa học thống kê - Dé tài cấp cơ sé ma sé 11-CS-2005
lripcexl hhsize educyr98 agel5 depend | + lrlpcexi | 1.0000 ! | | | hhsize -0.2757 1.0000 educyr98 0.3228 -0.0176 1.0000 age15 0.1229 -0.1342 -0.3521 1.0000 depend -0.2659 0.7322 -0.0128 ~0.0950 1.0000
Có hai tuỳ chọn có thể sử dụng với pwcorr, mà không phải với corrlate là sig cho mức ý nghĩa tương quan và obs cho số quan sát được sử dụng trong tính tương quan Mức ý nghĩa( giá trị p-value) giúp ta kiểm định xem hệ số tương quan có bằng không hay không Nếu giá trị p-value thấp (nhỏ hơn
5%) thì có thể bác bỏ giả định cho rằng hệ số tương quan băng 0, nghĩa là
giữa hai biến không có sự tương quan
pweorr lrlpcexl hhsize educyr98 agel5 đepend,sig obs lrlpcexl hhsize educyr98 agel5 depend 0.0000 0.0000 0.3234 0.0000 5999 5999 5999 5999 5999 | 2 -+- +~T~~~>~~—~—————~~~~>~>~~~~———~—~————~————~~~~~~~~~ irlipcex1l | 1.0000 | | 5999 | hhsize | -0.2757 1.0000 j 0.0000 | 5999 $999 | educyr98 | 0.3228 -0.0176 1.0000 | 0.0000 0.1723 | 5999 5999 5999 | agel5 | 0.1229 -0.1342 -0.3521 1.0000 l 0.0000 0.0000 0.0000 4 5999 5999 5999 5999 | depend | -0.2659 0.7322 -0.0128 -0.0950 1.0000 | |
Các giá trị p-value đều rất thấp chứng tỏ biến phụ thuộc đều có tương quan với từng biến giải thích Vì tất cả các biến đều không có giá trị missing nên tất cả các quan sát (5999 quan sát) đều được đưa vào tính toán hệ số tương quan
2 Phân tích mô hình
Bây giờ đến lúc tiến hành hồi qui và mô hình cho một kết quả tương đối
đẹp
regress lrlpcexl hhsize educyr98 agel5 depend
Source | ss df MS Number of obs
Trang 39Vién khoa hoc théng ké - Dé tai cdp co sé m@ sé 11-CS-2005
Model | 550.285425 4 137.571356 Prob > F = 0.0000 Residual | 1818.83153 5994 - 30344203 R-squared = 0.2323 ————_ #+TT— -~~==~-TT~T~T—~—~~=—~ —————= Adj R-squared = 0.2318 Total | 2369.11695 5998 ,394984487 Root MSE = 55086
lrlpcex1 | Coef Std Err t P>ltl [95% Conf Interval] -——————~~===~ +T—————~~~~~~~——~—~>~~~~—~~————~>~>~>~~~—~~——~—>~~~—~—~—~——~~——~~—~—~———~—~~———~ hhsize | -.0434447 „0053748 -8.08 0.000 -.0539813 -.0329081 educyr98 | 0569989 „0017251 33.04 0.000 -0536172 - 0603807 agelS | 0106127 -0005582 19.01 0.000 -0095184 -011707 depend | -.0644618 -0076635 -8.41 0.000 -.0794851 —.0494386 _cons | 7.291606 0403797 180.58 0.000 7.212448 7.370765
Kết quả hồi qui cho biết mô hình có ý nghĩa thống kê và tất cả các biến đưa vào mô hình đều có ý nghĩa thống kê Việc phân tích mô hình cũng tương tự như trong hồi qui đơn
Đầu ra của hồi qui bao giờ cũng cung cấp cho ta kết quả của hai kiểm định,
kiểm định F toàn bộ mô hình và kiểm định cục bộ t cho từng hệ số Còn
một loại kiểm định nữa thường được sử dụng trong hồi qui bội do người sử
dụng lựa chọn Kiểm định này cũng là kiểm định F, nhưng theo giả thiết
của người sử dụng Thí dụ trong mô hình hồi qui trên, ta thấy cả hai biến
hhsize(qui mô hộ) và depend (số người sống phụ thuộc trong hộ) đều có liên quan đến số nhân khẩu của hộ Và bây giờ ta muốn kiểm định xem hai biến này có ý nghĩa thống kê trong mô hình hay không, nghĩa là kiểm định
với giả thiết là hệ số của cả hai biến đều bằng 0 Ta có thể sử dụng lệnh test
Kiểm định test thực hiện trên một tập các hệ số khi các biến có các hệ số
này đều liên quan với một quan niệm nào đó(cùng mô tả một quan niệm nào đó) chẳng hạn số người, học vấn, kinh nghiệm; hoặc khi kiếm định cục
bộ f tỏ ra không tin cậy do có đa cộng tuyến giữa các biến giả thích
Nếu giả thiết 0 do người sử dụng đưa ra không bị bác bỏ, nghĩa là ta chấp nhận các giới hạn đó trong mô hình, trong trường hợp này, một số biến đã bị loại bỏ khỏi mô hình vì có hệ số bằng 0 Nếu giả thiết 0 bi bác bỏ, nghĩa
là không tồn tại các giới hạn đó trong mô hình và các biến trong giới hạn đó
thực sự là có ý nghĩa thống kê
Hậu quả của việc đưa các giới hạn vào:
Một trong các lí do để đưa các giới hạn vào mô hình là xét xem các giới hạn
Trang 40Viên khoa học thống kê - Đề tài cấp co sé ma sé 11~CS-2005
F( 2, 5994)
Prob > F kou 250.58 0.0000
Kiểm định F(F=250.58, p-value=0.0000) bác bỏ giả thiết 0 và chứng tỏ
đóng góp chung của hai biến hhsize và depend có liên quan với số người trong hộ là có ý nghĩa thống kê Có một cách giải thích khác là có một sự khác nhau có ý nghĩa giữa một mô hình có hai biến hhsize và depend với
một mô hình không có hai biến này, nghĩa là có một sự khác nhau giữa mô hình đây đủ và mô hình rút gọn Kiểm định học vấn của chủ hộ cũng có ý nghĩa thống kê test educyr98 (1) educyr98 = 0 F( 1, 5994) = 1091.74 Prob > F= 0.0000
Bây giờ ta tiến hành phân tích đánh giá chất lượng mô hình
Như trong hồi qui đơn, kiểm định FŒ( 5, 5993)= 453.37,Prob>F =
0.0000) cho tồn bộ mơ hình là có ý nghĩa thống kê, nó đánh giá rằng
không phải tất cả các hệ số trong mô hình đều bằng 0, do vậy mô hình là có
ý nghĩa thống kê Việc đưa thêm 3 biến giải thích nữa vào mô hình so với hồi qui đơn đã nâng hệ số xác định R từ 0.0760 lên 0.2323 làm cho mô
hình có kha năng giải thích mạnh hơn Hệ số xác định R(R-squared =
0.2323) cho biết xấp xỉ 23% phương sai của biến lrlpcexl được giải thích
bởi mô hình, nghĩa là được giải thích bởi các biến hhsize, educyr98, agelL5, depend Nói cách khác 23% sự thay đổi mức sống bình quân của hộ là do các yếu tố như qui mô hộ, số người sống phụ thuộc trong hộ, học vấn
của chủ hộ cũng như kinh nghiệm của chủ hộ quyết định
Nhìn vào phần hệ số, ta thấy giá trị p-value của các kiểm định cục bộ t đối
với ước lượng hệ số là rất nhỏ, đều ở mức phần vạn Với mức ý nghĩa 5%, ta hoàn toàn yên tâm rằng các biến trong mô hình đều có ý nghĩa thống kê Mỗi hệ số của biến giải thích trong mô hình cho biết số đơn vị kỳ vọng thay
đổi của biến phụ thuộc khi biến giải thích tăng lên một đơn vị, trong khi các
biến khác giữ nguyên không thay đổi Việc kiểm soát 3 biến khác trong mô
hình đã làm yếu hệ số của hhsize từ -.0886611 xuống còn -.0434447,
nhưng nó vẫn hoàn toàn có ý nghĩa thống kê Số người sống phụ thuộc cũng
có tác động mạnh đến giảm mức sống của hộ(depend, _b=-.0645 ), nếu hộ có thêm một người sống phụ thuộc thì chỉ tiêu bình quân hộ giảm 6,3% Học vấn của chủ hộ (educyr98, _b=.0570) có hệ số đương nói lên rằng số
năm học của chủ hộ càng nhiều thì mức sống bình quân của hộ càng cao
Nếu chủ hộ có thêm một năm học thì log chỉ tiêu bình quân tăng lên 0.0570
đơn vị, về thực tế chỉ tiêu BQ của hộ tăng thêm 5,9% Kinh nghiệm chủ hộ