1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng quy trình và phương pháp thực hành hồi quy tuyến tính dựa trên phần mềm STATA (2)

107 3 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 107
Dung lượng 3,16 MB

Nội dung

Trang 1

—— —————

VIỆN KHOA HỌC THỐNG KÊ

BÁO CÁO TỔNG HỢP KẾT QUẢN NGHIÊN CỨU KHOA HỌC ĐỂ TÀI CẤP CƠ SỞ NĂM 2005

NGHIÊN CỨU XÂY DỰNG QUI TRÌNH VÀ PHUONG PHAP THUC HANH HOI QUI TUYEN

Trang 2

Muc luc

Noi dung

DAT VAN DE

PHAN I ;

MOT SO VAN DE CO BAN VA QUI TRINH TRONG PHAN

T{CH HOI QUI TUYEN TÍNH

I MO HINH HOI QUI TUYEN TINH DON(HAI BIEN) II MO HINH HOI QUI TUYEN TINH BOI -

I KET QUẢ PHÂN TÍCH HOI QUI TREN PHAN MEM STATA IV NGUON SO LIEU DUNG TRONG PHAN TICH |

V QUI TRINH TRONG PHAN TICH HOI QUI TUYEN TINH PHAN II

PHUONG PHAP THUC HANH PHAN TICH HOI QUI TUYEN TINH TREN PHAN MEM STATA

I THUC HANH PHAN TICH HOI QUI DON

1 Kiểm tra sơ bộ và biến đổi số liệu

2 Phân tích mô hình -

II THUC HÀNH PHÂN TÍCH HỒI QUI BOI 1 Kiểm tra sơ bộ và biến đổi số liệu

2 Phân tích mô hình

II PHƯƠNG PHÁP SỬ DỤNG CÁC BIẾN PHẠM TRÙ TRONG PHÂN TÍCH HỒI QUI

1V PHƯƠNG PHÁP HỒI QUI TÙNG BƯỚC

PHAN III + + a + aA x

PHUONG PHAP KIEM TRA, CHAN DOAN MO HINH I NHAN DANG CAC QUAN SAT NGOAI BIEN

VÀ GAY ANH HUGNG |

Trang 3

II KIEM TRA TINH THUAN NHAT CUA PHUONG SAI IV KIEM TRA TINH DA CONG TUYEN

V KIEM TRA TINH CHUAN

Trang 4

Viện khoa học thống kê - Đề tài cấp co sé m@ s& 11-CS-2005

ĐẶT VẤN ĐỀ

Hiện nay ở nước ta nhiều viện nghiên cứu và các trường đại học cũng như

Bộ ngành đang sử dụng phương pháp hồi qui vào nghiên cứu và phân tích

các vấn đề chuyên môn thuộc lĩnh vực của mình Đối với Ngành thống kê, mặc dù có một nguồn số liệu rất phong phú bao gồm nhiều lĩnh vực, nhưng việc ứng dụng phương pháp kinh tế lượng để phân tích sâu hơn tình hình kinh tế và xã hội mới chỉ bước đầu, và còn rất hạn chế Có thể có rất nhiều nguyên nhân như nguồn số liệu chưa đáp ứng được yêu cầu phân tích, kỷ thuật phân tích còn hạn chế, chưa biết cách sử dụng các phần mềm máy

tính vào phân tích v v Vì vậy vấn đề đào tạo, phổ cập ký thuật phân tích

và phần mềm phân tích là rất cần thiết Đề tài cấp cơ sở này là một nổ lực

nhằm giúp các cán bộ nghiên cứu và nghiệp vụ có thể tự mình vận dụng

phương pháp hồi qui tuyến tính vào phân tích số liệu thống kê trên máy vi

tính với sự trợ giúp của phần mềm Stata Hồi qui tuyến tính là một kỷ thuật

kinh tế lượng rất phổ biến và phần mềm Stata cũng là một phần mềm hiện

đang được sử dụng nhiều ở Tổng cục thống kê, do vậy tin rằng đề tài có tính khả thí khi áp đụng vào thực tế Dé tài được chia thành bốn phần lớn Phần I: Một số vấn để cơ bản và qui trình trong phân tích hồi qui tuyến tính Phần II: Phương pháp thực hành phân tích hồi qui tuyến tính trên phần mễềm

Stata

Phần HI : Phương pháp kiểm tra, chẩn đốn mơ hình

Phần IV : Phân tích hồi qui theo quyên số mẫu

Phần I mô tả khái quát về hồi qui tuyến tính đơn và tuyến tính bội, các giả thiết về mô hình, kết quả phân tích được trình bày đựa trên đầu ra của thủ tục hồi qui trên phần mềm Stata bao gồm bảng phân tích phương sai và bảng ước lượng các hệ số Sau đó đề cập đến nguồn số liệu dùng trong phân tích và qui trình phân tích hồi qui tuyên tính

Phần H tập trung vào phương pháp thực hành phân tích hồi qui đơn và bội bằng các thí dụ phát triễn từng bước từ đơn giản đến phức tạp và hoàn chỉnh mô hình dưới sự trợ giúp của phân mềm Stata Cuối phần này là kỷ thuật phân tích với biến phạm trù và hồi qui từng bước

Phan Hl tap trung vào kiểm tra, chẩn đoán mô hình đã phát triễn để tiếp tục

hoàn thiện nó, dựa trên việc kiểm tra đánh giá các giả thiết về mô hình đã

nêu ở phần I như tính tuyến tính, tính thuần nhất phương sai, tính đa cộng tuyến, tính độc lập và nhận dạng mô hình

Trang 5

Viện khoa học thống kê - Đề tài cấp cơ sở mã số ]1-CS-2005

PHANI

MOT SO VAN DE CO BAN VA QUI TRINH

TRONG PHAN TICH HOI QUI TUYEN TINH

Hồi qui tuyến tính là một kỷ thuật nghiên cứu trong kinh tế lượng Mục đích của hồi qui là tìm hiểu về mối quan hệ của một biến( gọi là biến phụ

thuộc) với một hoặc nhiều biến khác( gọi là các biến độc lập hay giải thích,

biến hồi qui, biến dự báo) Nếu mối quan hệ được thiết lập có ý nghĩa thì nó

sẽ được lượng hoá bằng một mô hình Dựa trên mô hình đó, chúng ta có thể

giải thích được sự biên thiên của biến phụ thuộc dưới sự tác động của các

biến giải thích như thế nào, hơn thế nữa có thể dự đoán được giá trị của biến phụ thuộc trên cơ sở giá trị của các biến giải thích

I.MƠ HÌNH HỔI QUI TUYẾN TÍNH ĐƠN(HAI BIẾN)

Mơ hình hồi qui tuyến tính đơn là một phương trình toán học mô tả mối quan hệ tuyến tính của hai biến (biến phụ thuộc và biến độc lập) trong tổng

thể nghiên cứu Mô hình có dạng: y=/Ø+ Øx+u

Trong đó:

y: được gọi là biến phụ thuộc, biến được giải thích

x: được gọi là biến độc lập, biến giải thích, biến dự báo, hoặc biến hồi qui

Ø,,u: là các tham số của tổng thể và được gọi là các hệ số của đường hồi qui

u: Sai số đại diện cho tất cả các yếu tố ảnh hưởng đến y mà ta không quan sát được, bao gồm:

-Các biến giải thích thích hợp chưa được đưa vào mô hình -Sai số đo lường biến phụ thuộc

-Tinh ngẫu nhiên của biến y Ø,: hệ số chặn

8,: độ dốc(hệ số góc) của mối quan hệ tuyến tính giữa y và x với điều kiện

các biến khác đại điện bởi u không thay đổi

Thí dụ: giữa lương và giáo dục có mối quan hệ tuyến tính vì một người có

số năm học nhiều hơn thường có mức thu nhập cao hơn Lý giải cho trường hợp này là do người có trình độ học vấn cao thì cơ hội kiếm việc làm dễ và việc làm cũng có thu nhập cao hơn Ta mô tả mối tả mối quan hệ giữa hai

yếu tố này bằng mô hình hồi qui đơn sau:

Trang 6

Viện khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005

logđduong) = /, + / giaoduc + u

Với điều kiện trung bình sai số bằng 0, E[ul x] = 0, thì kỳ vọng toán hoc

của y đối với x được gọi là hàm hồi qui tổng thể:

Ely |x] = @ + 6x

Với một quan sát cụ thể kí hiệu bằng chữ i, có thể viết :

Ely, | x= & + BX;

Thông thường ta chỉ có thể thu thập được một mẫu số liệu từ tổng thể nghiên cứu Vì vậy, thay cho việc xây dựng hàm hồi qui trên tổng thể, ta chỉ có thể xây dựng trên một mẫu từ tổng thể và hàm hồi qui này được gọi là hàm hồi qui mẫu Hàm hồi qui mẫu có dạng:

= + ,x, ,i=l,2 ,N; N là kích thước mẫu

ÿ, : là ước lượng của E[y, I x;]

8, : 1à ước lượng của /, ñ : là ước lượng của B

Giữa giá trị ÿ, ước lượng và giá trị y; quan sát lệch nhau một phần dư 8, (8, được gọi là ước lượng của ù,)

=) i= yi Yi

Để ước lượng các tham số của hàm hồi qui mẫu, người ta dùng phương

pháp bình phương bé nhất, có nghĩa làm cho tổng bình phương các độ lệch

là bé nhất

N N ~ ¬ 2

>» 02=}, (y¡- 8, + ñ x,} đạt cực tiểu

i=l ial

Muốn cho tổng này dat cực tiểu thì các đạo hàm riêng đối với Ø, và Ø phải

bằng 0, giải hệ hai phương trình, tìm được ước lượng các hệ số Kết quả ước

lượng được trình bày trong bảng đầu ra của hồi qui Stata

Phân tích hồi qui là mô tả mối quan hệ giữa các yếu tố trên một mẫu, từ đó

tiến hành suy luận mối quan hệ này cho tổng thể Mối quan hệ trên một

mẫu sẽ trở thành mối quan hệ của tổng thể khi các ước lượng hệ số là không chệch E{ 8 ] =/,, và có phương sai bé nhất Để đảm bảo cho suy luận đúng

Trang 7

Viên khoa học thống kệ - Đề tài cấp cơ sở mấ số 11-CS-2005

nghĩa là kiểm tra xem mô hình xây dựng trên mẫu có thoả mãn các giả thiết

về tổng thể hay không Nếu các giả thiết được thoả mãn, nó là mô hình của tổng thể và ta tiến hành phân tích kết quả và dự báo Sau đây là các giả thiết

đó

Các giả thiết về mô hình hồi qui đơn

GTI Các tham số là tuyến tính

Mô hình y = Ø, + /,x + u là tuyến tính với các tham số, vì vậy có thể tự đo dùng các hàm phi tuyến của x và y trong mô hình

GT2 Mẫu số liệu là ngẫu nhiên đồng nhất và độc lập

Mẫu số liệu được dùng để ước lượng các tham số (các hệ số) được lấy ngẫu

nhiên từ tổng thể Mẫu có phân phối đồng nhất và độc lập bao gồm các

quan sát :

(OGy i= +N}

GT3 Trung bình, có ó điêu kiện của sai số bằng 0 E(ulx)=0

Với mẫu ngẫu nhiên có thể viết E (u,lx¡)=0, ¡ = 1,2, ,N

Có thể suy ra biến giải thích và sai số là không tương quan với nhau cov(X,, uj)=0 GT4 Có sự biến thiên trong các giá trị của biến giải thích N S(x-x} >0 ish

Điều này để tránh mẫu số bằng O trong công thức ước lượng Ø, (xem công thức ước lượng các hệ số của hồi qui đơn ở dưới)

GT5 Phương sai có điều kiện của sai số là một hằng số Var (ul x)=? GT6 Sai số có phân phối chuẩn u|x ~ N(0,ơ2) Với các giả thiết 1-4, các ước lượng bình phương bé nhất là không chệch ELA]=A

Các giả thiết từ 1-5 được gọi là các giả thiết Gauss-Markov ( nó thoả mãn

định lý Gauss-Markov) cho số liệu chéo và mẫu ngẫu nhiên đồng nhất độc

lap Dinh lý có nội dung như sau: “Trong số các ước lượng không chệch tuyến tính, ước lượng bình phương bé nhất là tốt nhất( có phương sai nhỏ nhất)”

I MO HINH HOI QUI TUYẾN TÍNH BỘI

Mơ hình hồi qui tuyến tính bội là một phương trình toán học mô tả mối quan hệ tuyến tính giữa biến phụ thuộc và một số biến độc lập trong tổng thể nghiên cứu

Trang 8

Viện khoa học thống kê - Đề tài cấp cơ sở mã số l1-CS-2005

Thí dụ: Lương không chỉ phụ thuộc vào giáo dục mà còn phụ thuộc vào khả năng, kinh nghiệm của mỗi người Để xét tác động riêng của từng yếu tố đến lương, ta cần phải đưa chúng vào mô hình hồi qui Mô hình hồi qui tuyến tính bội cho phép xét tác động riêng biệt của từng biến giải thích đến biến phụ thuộc, khi cố định các biến khác trong mô hình

Mô hình hồi qui tuyến tính bội tổng thể có dạng:

Y= 68+ 8Xị+ Ø;X; + t Ø„Xy +u Trong đó:

y: biến phụ thuộc, hoặc biến được giải thích

Xi , Xạ, , Xy : Là các biến độc lập(các biến giải thích, các biến dự báo,

hoặc các biến hồi qui), K là số biến

Ø;, 8,› 8, : là các tham số chưa biết cần phải ước lượng u: là sai số ngẫu nhiên như trong hồi qui đơn

Hàm hồi qui tổng thể chính là kỳ vọng có điều kiện của y đối với x:

Elylx] = 2) + BX, + Ø,X;+ + 6X

Hàm hồi qui mẫu có dạng:

¥, = By t+ Xụị + ,X¿ + + Ø, Xục , 1 là số hiệu quan sát, i=1, 2, N, N là

cỡ mẫu

Trong đó:

ÿ, : ước lượng của E[y;lx;]

By» Bys +s Be ước lưọng của /, /, , /3„ tương ứng

ñ, : ước lượng của u,: ø, = y, - ÿ,, được gọi là phần dư Vậy phần dư chính là ước lượng của sai sỐ

Phương pháp ước lượng bình phương bé nhất các tham số của mô hình được trình bày bằng đại số ma trận Kết quả ước lượng cũng được tóm tắt trong

bảng kết quả đầu ra của hồi qui Stata

Có thể giải thích các hệ số như là ước lượng ảnh hưởng riêng của từng biến

giải thích đối với biến phụ thuộc

3% -2

or, 8,

Trang 9

Viện khoa học thống kê - Đề tài cdp co sé m@ s6 11-CS-2005

Các giả thiết về mô hình hồi qui tuyến tính bội

Các giả thiết về mô hình hồi qui bội tương tự như các giả thiết trong mô hình hồi qui đơn, chỉ có giả thiết thư 4 là khác

GT4 Đa cộng tuyến khơng hồn hảo

So với các giả thiết trong hồi qui đơn, chỉ có giả thiết 4 là thay đổi Giả thiết này cho biết không có mối quan hệ tuyến tính hoàn hảo nào giữa một

biến giải thích bất kỳ với các biến giải thích khác còn lại theo kiểu:

lxị + bXxạ+ +l„xy =0 lị, l;„ l„ : các hằng số

Qui định trong giả thiết 4 cũng có nghĩa là cho phép có sự tương quan khơng hồn hảo giữa các biến giải thích

Khi phân tích hồi qui, để giảm bớt tính đa cộng tuyến, người ta dùng

phương pháp thay thế: Có hai tập biến hồi qui, một tập dùng vào phân tích

và tập còn lại dùng để kiểm sốt mơ hình Mục đích đưa tập biến kiểm sốt

vào để ước lượng khơng bị chệch, nhưng khi phân tích ta không quá chú

trọng vào các biến này Thí dụ khi phân tích tác động của giáo dục đối với

lương, ngoài biến giáo dục ta còn đưa thêm vào các biến kiểm soát khác vào

mô hình như kinh nghiệm, giới tính, vùng miền, nông thôn thành thị Các

biến kiểm soát có thể tương quan với nhau, nhưng không tương quan với các biến đùng để phân tích

Trong trường hợp như vậy, ước tính tham số của các biến phân tích không bị chệch với độ chính xác cao Trong trường hợp biến kiểm soát tương quan

với các biến quan tâm, ta phải xem xét cẩn thần khi loại biến nào ra khỏi

mô hình

Giống như hồi qui đơn:

-Các giả thiết 1-4 đảm bảo cho các ước lượng bình phương bé nhất là không

chệch

E[Ø,]= ø, k=1,2, ,K

- Các giả thiết từ 1-5 được gọi là các giả thiết Gauss-Markov ( nó thoả mãn

định lý Gauss-Markov) giúp cho các ước tính bình phương bé nhất là tốt nhất( có phương sai bé nhất)

Il KET QUA PHAN TICH HOI QUI TREN PHAN MEM STATA

Dau ra cha tha tuc héi qui bang phan mém Stata( bao gém ca héi qui đơn và bội) cũng như một số phần mềm khác như Spss đều có cấu trúc giống nhau

như sau:

Trang 10

Viên khoa học thống kê - Đề tài cấp cơ sở mã số l 1-CS-2005

- Bảng phân tích phương sai( Anova) của mô hình hồi qui

- Một số thống kê về mô hình: Số lượng quan sát đã phân tích, kiểm định F,

xác xuất p-value, hệ số xác định R, hệ số xác định R? điều chỉnh, và độ lệch chuẩn sai số của mô hình

-Bảng ước lượng các tham số của mô hình, sai số chuẩn, các kiểm định t

của hệ số được ước lượng và khoảng tin cậy của ước lượng Bảng phân tích phương sai có dạng : source | SS df MS Statistics

(Các bộ | Sum of Square degree of | Mean Squared

phan (Tổng độ lệch freedom (Độ lệch bình ¡ (Các thống kê) biến bình phương) (Bac tudo) |phương bình

thiên quân-Phương

của y) sai)

Model a2 | dfiy=K MSM=SSM/ F(K,N-K-1)=

(Mo | SM=LO.-») đấu MSM/MSR

hinh) (Kiém dinh F) Residual _ „+ |dfe=N-K-I | MSR=SSR/df, | R?= (Phân SSR=2 Ú, -Š: ) 1-(SSR/SST) dư) (hệ số xác định ) Total wo, cụ |df=N-I MST=SST/díy | R”-adj= (Toàn | 6ÿ) 1-(MSR/MST) bộ) (hệ số xác định điều chỉnh) Root MSE= Sqrt(MSR) (độ lệch chuẩn của sai số) Giải thích: -Cột Source: Các bộ phận mà từ đó tạo ra các biến thiên của biến phụ thuộc y Bao gồm 3 phần:

Model : phần biến thiên của biến phụ thuộc y được giải thích bởi mô hình Residual : Sai số ngẫu nhiên được đo bởi phần dư

Toral: tổng cộng của hai nguồn trên

Trang 11

Vién khoa hoc théng ké - Dé tài cấp cơ sở mã số ] 1-CS-2005

SST : Tổng bình phương các biên thiên của biến phụ thuộc y cần được giải thích, gồm có làm hai phần: SST= SSM + SSR SSM : Phần tổng bình phương được giải thích bởi mô hình (các biến giải thích) SSR : Phần tổng bình phương không được giải thích(phần dư) y : biến phụ thuộc ÿ, : là ước lượng của Eịy, | x,], i=1,2 N N: Số quan sát y= Ely) x; : bién giai thich i, i=1,2, ., K K: số biến giải thích -Cột df: Bậc tự do của các bộ phận Source df, : bậc tự do của tổng bình phương cần được giải thích, gồm hai phần df; = dfy + df,

đa: bậc tự do của phần giải thích

df, : bậc tự do của phần không được giải thích K : số biến giải thích N : số quan sát -Cột Mean Squared : chứa độ lệch bình phương bình quân(phương sai) của các bộ phận Phan Statistics : Một số thống kê đánh giá chất lượng mô hình -Kiểm định F : Thống kê F(K,N-K-1) = MSM/MSR, có các bậc tự do là K

và N-K-1, kiểm định ý nghĩa tồn bộ mơ hình, với giả thiết:

Hạ : Tất cả các hệ số của mô hình đều bằng 0

H;: ít nhất có một hệ số khác 0

Để bác bỏ hay chấp nhận một giả thiết ta căn cứ vào xác xuất p-value do máy đưa ra dưới dạng (p >F: #).p>F nghĩa là “xác xuất của một F lớn

hon F tính trong mẫu” nếu chúng ta lấy các mẫu ngẫu nhiên từ tổng thể với

giả thiết Hạ là đúng Nếu chọn mức ý nghĩa z( z=0,05 (5%) là mức ngầm

định) để kiểm định mô hình thì khi p-value <øz, ta sẽ bác bỏ Hạ và chấp

nhận giả thiết H, Trong trường hợp này mô hình có ý nghĩa thống kê, các biến giải thích đã giải thích được R? phần trăm phương sai (sự biến thiên)

của biến phụ thuộc y (R7 là hệ số xác định được trình bày ở đưới) Còn khi '

p-value >z ta không thể bác bỏ được giả thiết Hạ , có nghĩa là với mức ý

nghĩa đã cho, mô hình không có ý nghĩa thống kê Trong trường hợp này mô hình hồn tồn khơng có sức mạnh giải thích, và R? =0

Trang 12

Viên khoa học thống kệ - Đề tài cấp cơ sở mấ số 11-CS-2005

-Hệ số xác định R? : R?=1-(SSR/SST) -Hẹ số xác định đo lường độ phù hợp của mô hình hồi qui

Hệ số R? cho biết tỷ lệ phần trăm biến thiên(phương sai) của biến phụ thuộc y được giải thích bởi mô hình( các biến giải thích) Nói cách khác mô

hình đã giải thích được bao nhiêu phần trăm sự biến thiên của tổng thể R?

luôn luôn nằm giữa 0 vài:

0<R?<1

Nếu £°=0 , mơ hình hồn tồn không có khả năng giải thích

Nếu R?=1 , Mô hình giải thích 100% sự biến thiên của tổng thể

Nói chung hệ số &” càng cao tính giải thích của mô hình càng tốt

Với hồi qui bội, R? càng lớn thì số liệu quan sát càng nằm gần mặt phẳng

hồi qui mẫu &? sẽ không giảm khi một biến giải thích được bổ sung vào

mô hình Vì thế R? không phải là một chỉ tiêu tốt để bổ sung thêm biến hay

không Cách tốt nhất là dựa vào lý thuyết kinh tế và kiểm định mức ý nghĩa

của hệ số ước lượng đối với biến đó

Với hồi qui đơn, căn bậc hai của &? chính là hệ số tương quan R (- 1<=R<=l) giữa x và y: R âm ta có tương quan nghịch, R dương có tương quan cùng chiều, R có giá trị tuyệt đối càng lớn thì tương quan giữa hai biến càng chặt

-Hệ số xác định điều chỉnh R?-adj : R?-adj = 1-(MSR/MST) Vì # phụ

thuộc vào bậc tự đo của Д(y,~9,)? và Ð_(y,— ?)? là N-K-1 và N-1 Để khắc phục ta dùng hệ số xác định điều chỉnh : 3,0.~9)°/(WN-~K~D R? -adj =1- =) — _—_ DO - YP KN -1) i=l

R?-adj có tính chất sau: nếu K>1 thì R”-adj <=R?<=l, nghĩa là nếu số biến giải thích tăng lên thì hệ số xác định điều chỉnh tăng chậm hơn R?; R?-adj có thể là âm Vì vậy có thể đưa các biến mới vào mô hình khi R”-adj còn

tăng và hệ số của biến mới trong mô hình hồi qui khác 0

-Sai số chuẩn của ước lượng, Root MSE : Root MSE=Sart(MSR), đây là

căn bậc 2 của ước lượng phương sai của sai số (MSR) và được gọi là “sai số

chuẩn của mô hình” Nếu sai số chuẩn lớn hơn độ lệch chuẩn của biến phụ

Trang 13

Viện khoa học thống kê - Dé tài cấp cơ sở mã số 11-CS-2005

Bảng ước lượng hệ số có dạng :

y Coef Std Err | t P>it! | [95% Conf Interval] (biến phu | (Hé s6) | (Sai s6| (Thong | (Xac (Khoảng tin cậy 95%)

thuộc) chuẩn) |kê kiểm | xuất P-

định t) value) |From(từ) to(đến)

(Các biến

giải thích)

Xị ô S(ô) |t for â |p-value |#.# #.# Xo B Se( B) t for ô, p-value | #.# t.#

Xx A Bx Se(#,) | t for 2 (Br) or Bx p-value | #.# ##

_cons By %(/Ø,) |tÍor /Ø | p-value | #.# #.#

-Cột đầu tiên: tiêu để là biến phụ thuộc y, phía dưới là các biến giải thích -Cột Coef (Hệ số) chứa các hệ số được ước lượng

Trang 14

Viện khoa học thống kê - Để tài cdp co sé ma s6 11-CS-2005

-Cột Std Err (Sai số chuẩn): chứa các sai số chuẩn của các hệ số được ước lượng «Với hồi qui đơn, sai số chuẩn của các hệ số: —EL————RootMSE Se(B,) = NY, - x" 1 iG, - x) fl i=l *VGi héi qui béi, sai sé chudn của hệ số được ước lượng theo công thức: 2 RootMSE Se[8, | x] = N q- RE Oe 7 %,) i=l

x tượng trưng cho toàn bộ các x; , &¿ là hệ số xác định từ một hồi qui phụ của x, đối với các biến giải thích còn lại Thí dụ:

; k=l,2 K

Hồi qui này cho ta hệ số xác định R?

Nếu R? cang lớn thì tính đa cộng tuyến càng cao Sai số chuẩn của Ø, bị

ảnh hưởng bởi ba yếu tố:

*Độ lệch chuẩn của sai số RoorMSE sẽ giảm nếu loại đi các yếu tố

chứa trong u, dẫn đến sai số chuẩn của Ø, giảm

*(x, —¥,)° sẽ tang khi N tăng và sai số chuẩn của Ø, giảm

*Nếu R? giảm thì sai số chuẩn của 8, giảm

Ta cũng có thể lấy được sai số chuẩn của các hệ số dựa vào ma trận phương

sai và hiệp phương sai của các hệ số Cov( Ô)

Cov( #) = ¿?(Xx)', ¿? là ước lượng của phương sai sai số ø?của mô

hình (Chú ý ¿? = MSR) Phương sai của các hệ số ước lượng nằm trên

Trang 15

Viện khoa học thống kê - Đề tài cdp co sé: md sé 11-CS-2005

var(f,) cov( By: Â yo COV( By › Bx )

cov(, 8 ) var(6,) xa cov(8, »Bx)

Cov(Ô) = ‘ ,

cov(B, By) cov(ô, Â,) Loe var(Ô„)

Từ đó suy ra:

Se(Ô,)= Jvar(B.) , k=0,1,2, K

Trong đó, var( Ô, ) là phương sai của các hệ số ước lượng

Phương sai Robust

Nếu phương sai sai số(ơ ?) thay đổi thì công thức ước lượng sai số chuẩn

của các hệ số ước lượng sẽ không đúng và các phép kiểm định dựa trên độ

lệch chuẩn cũng bị sai Vì vậy, trong trường hợp này, ta đùng ước lượng

mạnh phương sai Robust, và ước lượng này là nhất quán với phương sai

tổng thể Nếu các giả thiết từ 1-4 thoả mãn thì trong các mẫu lớn ước lượng bình phương bé nhất Ø, sẽ có phân phối chuẩn N(#,,ơ;, ), Chữ R trong

na, có nghĩa là ký hiệu phương sai Robust Phương sai Robust được dùng trong kiểm định giả thiết về các tham số đã ước lượng và ước lượng khoảng tin cậy của chúng Để có được phương sai Robust, trong lệnh hồi qui

Regress cia phan mém Stata, hãy viết từ khoá robust vào phần tuỳ chọn Ma trận phương sai và hiệp phương của các ước tính tham số được lưu dưới

tên V sau khi thực hiện câu lệnh hồi qui của Stata Có thể hiện ma trận này lên màn hình bằng lệnh: .Vce Nếu muốn xem ma trận các hệ số tương quan giữa các biến dùng lệnh: VC€, COFT Nếu muốn lưu ma trận dùng lệnh: mtrix V=e(V)

-Cột Thống kê kiểm định t: chứa giá trị của các thống kê kiểm định t đối

với các hệ số ước lượng

Kiểm định F là kiểm định cho tồn bộ mơ hình Cịn kiểm định t ở đây chỉ kiểm định cục bộ riêng cho từng biến giải thích để xem nó có ý nghĩa thống kê trong mô hình hay không Cặp giả thuyết phục vụ cho kiểm định là:

H,: B, =9 A,: B, #0

k=0,1,2, ,K

Trang 16

Viên khoa hoc thống kê - Đề tài cấp cợ sở mã số | 1-CS-2005

Nếu giả thiết Hạ là đúng thì ta sẽ có thống kê t ratio = mã) có phân phối

k Student v6i bac tu do bang N-K-1

-Cột P>| t | (Xdc xuat P-value) : Chita cdc xdc xuat để bác bỏ giả thiết Hạ P>| t | nghĩa là “xác xuất của một t lớn hơn về giá trị tuyệt đối so với t tính trong mẫu” nếu chúng ta lấy các mẫu ngẫu nhiên từ tổng thể nghiên cứu với

giả thiết Hạ là đúng Ta thường gọi xác xuất này là giá trị p-value Ta có thể chọn trước một mức ý nghĩa chung œ để chấp nhận hay bác bỏ giả thiết Hạ đối với các hệ số ( ngầm định là 5%) hoặc có thể chọn ơ khác nhau với mỗi

hệ số

Nếu p-value < a thi bác bỏ giả thiết Hạ

Với mỗi biến nếu bác bỏ giả thiết Hạ nghĩa là thừa nhận giả thiết H, thì biến

đó là có ý nghĩa thống kê trong mô hình, nó tương quan với biến phụ thuộc

Còn ngược lại:

Nếu ơ< p-value thì thừa nhận Hy

Biến đó sẽ không có ý nghĩa thống kê và có thể loại nó ra khỏi mô hình

-Cột khoảng tin cậy : chứa khoảng tin cậy [from,to] của các hệ số ước

lượng

Khoảng tin cậy ước lượng ngầm định của Stata với mức 1- œ bằng 95% (œ = 5%):

ñ,=8 -

P (teas ny < sa) Sty of yxy) =(1-@)

Suy ra khoảng tin cậy ước lugng sé 1A, +, x.yS£(Ô,)-

IV NGUỒN SỐ LIỆU DÙNG TRONG PHÂN TÍCH

Nguồn số liệu là rất quan trọng trong phân tích hồi qui, nó quyết định sự thành công hay thất bại của phương pháp Có ba loại số liệu thường dùng trong phân tích hồi qui

1.Số liệu chéo

Nguồn số liệu này có nhiều và sẵn, thường được thu thập trong một thời gian nhất định trên nhiều địa phương, đơn vị khác nhau Thí dụ: số liệu các

cuộc điều tra mẫu hay điều tra toàn bộ như điều tra mức sống, điều tra thất

Trang 17

Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005

định kỳ hoặc không định kỳ Đây quả là một nguồn số liệu rất lớn, rất

phong phú cho phân tích kinh tế, xã hội và chính sách

2 Số liệu thời gian:

Số liệu thu được trong một thời kỳ nhất định như GDP, lương bình quân đầu

người của của khu vực nhà nước qua các năm, các chỉ tiêu trong các báo cáo tháng, quí, năm của một thời kỳ Đây là các đấy số thời gian có rất nhiều trong các bộ ngành, cơ quan, xí nghiệp Tổng cục thống kê là nơi có rất nhiều số liệu chuỗi thời gian như số liệu về một chỉ tiêu nào đó trong

một thời kỳ nhất định có thể tìm thấy trong các niên giám thống kê, trong các bảng số liệu tổng hợp theo thời gian

3 Số liệu chéo-thời gian

Là hỗn hợp của hai loại số liệu trên như số liệu về tình hình thất nghiệp

hàng năm ở một số thành phố lớn của nước ta, số liệu về mức sống dân cư

của nước ta trên các vùng miền của cả nước một số năm gần đây

Số liệu thống kê có thể thu được bằng thực nghiệm trong nghiên cứu khoa

học, hoặc quan sát ngẫu nghiên như điều tra, hoặc lấy ra từ các số sách ghi

chép hành chính Thông thường các số liệu điều tra thống kê thường mắc một số lỗi: sai về quan sát như cân đong, đo đếm, sai về bỏ sót, sai về đơn vị tính, sai về mã hoá, sai về khuynh hướng quan sát .Vì thế việc kiểm tra nhận đạng số liệu trước và cả sau khi phân tích là rất cần thiết

V QUI TRINH TRONG PHAN TÍCH HỔI QUI TUYẾN TINH

Trong phân tích hồi qui thường trải qua một số bước tuần tự sau đây

1 Nêu Ta các giả thiết hoặc mối quan hệ giữa các yếu tố kinh tế Như giữa lãi suất ngân hàng và số người gửi, giữa thu nhập và chi tiêu, giữa doanh số

hàng hoá bán được và chí phí quãng cáo của một loại hàng hoá nào đó đều

có các mối quan hệ Thí dụ, giữa kết quả sản xuất và các yếu tố vốn và lao động có mối quan hệ hàm sản xuất:

Y=AK“Bể

Trong đó: Y là giá trị tăng thêm, K là vốn và L là lao động Còn A, ơ, B là các hệ số Trong nến kinh tế thị trường hoàn hảo, ta có : œ + B = 0

2 Thiết lập mô hình tốn( phương trình) mơ tả mối quan hệ tuyến tính đó Thí dụ giữa doanh số hàng hoá bán ra và chỉ phí quảng cáo của một loại

hàng nào đó có mối quan hệ tuyến tính sau:

Trang 18

Viên khoa học thống kê - Dé tài cấp cơ sở má số 11-CS-2005

y= Bo + Bixtu

Trong đó: y là doanh số bán ra, x là chi phí quãng cáo, Bọ và Bị là các hệ số

chưa biết cần phải ước lượng, còn u chứa sai số và các biến khác chưa đưa

vào ước lượng như giá cả hàng hoá so với hàng cùng loại, thu nhập người đân trong vùng Vì vậy u phải tuân theo một số điều kiện nào đó để mô

hình ước lượng trở nên mô hình phản ánh đúng mối quan hệ giữa hai yếu tố quãng cáo và doanh số bán ra

Hàm sản xuất phản ánh mối quan hệ giữa kết quả sản xuất và các yếu tố

vốn và lao động được biến đổi thành hàm log để mối quan hệ này trở thành

tuyến tính như sau:

Log (y) = log(A) + a log(K) + B log(L)

3 Thu thập số liệu (hay dựa trên nguồn số liệu đã có như số liệu điều tra, số sách hành chính ) để ước lượng các hệ số của mô hình

4.Tiến hành ước lượng các các hệ số của mô hình dựa trên mẫu số liệu đã thu thập Kết quả ước lượng chính là đánh giá bằng thực nghiệm cho các giả thiết hoặc mối quan hệ giữa các yếu tố kinh tế trên mẫu,

5 Phân tích và đánh giá kết quả nhận được Xét xem kết quả ước lượng có

phù hợp với lý thuyết hoặc mối quan hệ đã nêu ra không Đồng thời kiểm

định các giả thiết thống kê về mô hình hồi qui tuyến tính để phương pháp

ước lượng bình phương bé nhất đạt hiệu quả nhất

6 Dự báo: Nếu như mô hình phù hợp với lý thuyết hoặc mối quan hệ đã mô

tả thì có thể sử dụng mô hình để dự báo

7 Dựa trên mô hình đã ước lượng đưa ra các kiến nghị về chính sách

Bảy bước trên đây là qui trình để chúng ta sử dụng mô hình hồi qui trong

phân tích kinh tế lượng Tuy nhiên trong quá trình phân tích, để xây dựng

được một mô hình đúng, chúng ta có thể phải lặp đi lặp lại một số bước kể

từ bước 1 cho đến bước 5 một số lần Thí dụ: nếu như sau khi ước lượng,

việc kiểm định các gỉa thiết của mô hình không đạt yêu cầu, ta lại phải quay

về các bước ở phía trước để hiệu chỉnh mô hình hoặc thu thập thêm số liệu

Trang 19

Vién khoa hoc thong ké - Dé tai cdp co sé ma s6 11-CS-2005

PHAN It

PHƯƠNG PHÁP THỰC HÀNH PHÂN TÍCH HOI QUI TUYEN TINH TREN PHAN MEM

STATA

Trong phần này sẽ trình bày phương pháp thực hành phân tích hồi qui tuyến tinh dua trén phan mém Stata

Các kết quả của hồi qui có thể bị sai lệch đo số liệu có vấn đề: -mối quan hệ phi tuyến tính giữa biến phụ thuộc và biến giải thích

-ảnh hưởng của các giá trị ngoại biên của biến phụ thuộc và biến giải thích -mẫu không đồng nhất

Vì vậy trước khi tiến hành phân tích hồi qui, cần phải kiểm tra sơ bộ số liệu

tham gia vào ước lượng mô hình File số liệu được sử dụng trong các phân tích được lấy từ cuộc điều tra mức sống dân cư năm 1998 có tên là

Hhexp98p.dta

Bây giờ ta phân biệt một chút về khái niệm quan sát ngoại biên và quan sát đối trọng

-Một quan sát được gọi là ngoại biên(outlier), nếu giá trị của biến phụ thuộc

nằm cách xa giá trị dự đoán của nó(nằm cách xa đường hồi qui), tạo ra một phần dư lớn Những sai sót về số liệu đã gây ra giá trị ngoại biên

-Một quan sát được gọi là đối trọng(leverage), nếu thay đổi hoặc loại bổ nó

sẽ làm thay đổi đáng kể vị trí của đường hồi qui Điểm đối trọng còn được

gọi là điểm gây ảnh hưởng mạnh Một quan sát có điểm đối trọng, nếu giá trị của biến độc lập nằm cách xa điểm trung bình của biến theo trục x

Điểm đối trọng không gây ra phần dư lớn và nó cũng chính là diểm ngoại

biên của biến giải thích

-Một quan sát được coi là có ảnh hưởng, nếu loại nó thực chất sẽ làm thay đổi ước lượng của các hệ số Ảnh hưởng gây ra do chính các quan sát ngoại biên và đối trọng

Vì vậy trước khi tiến hành phân tích hồi qui, cần phải xem xét số liệu các biến tham gia vào mô hình trên các khía cạnh như phạm vi giá trị của biến,

các giá trị thiếu(missing), các giá trị ngoại biên, sự phân bố của số liệu, vấn đê phi tuyến tính giữa biến phụ thuộc và biến giải thích Trên cơ sở đó, có thể phát hiện ra những vấn đề về số liệu và tiến hành xử lý hoặc biến đổi số liệu để thu được một mô hình hồi qui phù hợp hơn với số liệu hiện có Việc

Trang 20

Vién khoa hoc thong ké - Dé tai cấp cơ sở mã số 1 1-CS-2005

xem xét và kiểm tra số liệu có thể thực hiện bằng hai phương pháp: phương pháp đồ thị và phương pháp thống kê

Sau hồi qui còn phải tiếp tục chẩn đoán kết quả phân tích để xem nó có phù

hợp với các giả thiết hồi qui tổng thể hay không, trước khi công nhận kết

quả Công việc này lặp đi lặp lại cho đến khi đạt được một mô hình đúng

I THUC HANH PHAN TICH HOI QUI DON

Trong file số liêu Hhexp98p.dta, có hai biến mà ta quan tâm -rlpcex1: chỉ tiêu bình quân đầu người của hộ gia đình 12 tháng và -hhsize : qui mô hộ gia đình: số người trong hộ

Ta hy vọng rằng mức sống của hộ gia đình (chi tiêu bình quân) cao hơn có quan hệ với qui mô hộ thấp hơn, nghĩa là hộ có ít người hơn sẽ có mức

sống tốt hơn Để kiểm tra giả định này ta tiến hành phân tích mối quan hệ

hồi qui tuyến tính giỡa hai biến, biến phụ thuộc là rlpcex1 và biến giải thích 1a hhsize

Mô hình hồi qui cé dang: rlpcex1 = 8, + /* hhsize

1 Kiểm tra sơ bộ và biến đổi số liệu

Ta sử dụng cả hai phương pháp số và đồ thị để kiểm tra sơ bộ số liệu

Phương pháp thống kê

Để kiểm tra phát hiện các vấn đề về số liệu như các giá trị ngoại biên, sự phân bố giá trị biến bị lệch, mối quan hệ giữa biến phụ thuộc và biến giải thích không tuyến tính, có thể sử dụng một số thống kê: Khoảng biến thiên, các giá trị thiếu, các giá trị bé nhất và lớn nhất, các đặc trưng phân bố của biến, hệ số tương quan giữa hai biến Thường sử dụng một số thủ tục sau

use " Hhexp98p.dta", clear

des

codebook rlpcexl hhsize sum rlpcexl hhsize

Trang 21

Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005

Giả sử chương trình Stata đã được khởi động, sử dụng lệnh use để mở file số liệu có tên là Hhexp98m.d(a đưa vào máy:

use "Hhexp98m.dta", clear

Sau đó dùng lệnh describe(viết tắt là des) để tìm hiểu thêm về file số liệu

này: nó có bao nhiêu quan sát và gồm những biến nào, nhãn của biến, kiểu biến và những chú thích về file số liệu

.des

Contains data from Hhexp98m.dta

obs: 5,999

vars: 22 28 Sep 2005 14:47

size: 425,929 (95.9% of memory free) Storage display value

variable name type format label variable label

househol long %12.0g household code

sex byte %8.0g Gender of HH.head (1:M;2:F)

age int $8.0g Age of household head

comped98 float %9.0g diploma completed diploma HH.head educyr98 float %9.0g schooling year of HH.head

farm float %9.0g loaiho Type of HH (1l:farm; O:nonfarm) urban98 byte %8.0g urban 1:urban 98; 0:rural 98

reg? int %8.0g Code by 7 regions reg8 int $8.0g Code by 8 regions reg10 int %8.0g Code by 10 regions

hhsize long $12.0g Household size

vill float %9.0g village code

commune float %9.0g commune code PSU-SVY commands ricexpd float %9.0g Value rice expenditures educnexp float %9.0g Education expenditures

rlpcex1l float %9.0g comp.M&Reg price adj.pc tot exp

cluster int %8.0g MA DIA BAN

tribe byte %8.0g DAN TOC CUA CHU HO :

s032q09 byte %8.0g Co nha may trong phamvi 10 km s061g1 byte %8.0g Co duong Oto den xa(1:co; 2:

khong) depend double %9.0g {sum) phuthuoc

province float %9.0g Province code

Sorted by:

Chúng ta không đi vào tất cả các chi tiết của đầu ra, chú ý là file có 5999 quan sát và 22 biến

Nếu muốn biết thêm thông tin chỉ tiết của các biến ta có thể dùng lệnh

codebook và lệnh summarize(viết tất là sum) Lệnh codebook cho biết

phạm vi giá trị của biến, số giá trị missing, các phân vị và giá trị trung bình đối với biến số, hoặc bảng phân tích tần số giá trị đối với biến phạm trù Biến rlpcexllà biến liên tục có giá trị nằm trong khoảng [357.3 , 45801.7], trung bình của chỉ tiêu bình quân đầu người của hộ là 3188.67( ngàn đồng/12 tháng) và không có giá trị mising nào Nếu một biến chứa giá

trị mising thì những quan sát chứa giá trị mising đó sẽ không được đưa vào

Trang 22

Viện khoa học thống kê - Dé tai cấp co sé md s& 11-CS-2005

phân tích, vì vậy giá trị missing cũng có ảnh hưởng đến phân tích hồi qui vì nó làm cho số quan sát đưa vào phân tích bị giảm đi Biến hhsize là biến

nguyên có phạm vi giá trị [1,19] , cỡ hộ trung bình là 4 75 và cũng không có bất cứ giá trị missing nào

codebook rlpcexl hhsize

type: numeric (float) range: [357.31796,45801.711) units: 00001 unique values: 5998 missing : 0/5999 mean: 3188.67 std dev: 2692.57 percentiles: 10% 25% 50% 75% 90% 1238.09 1671.05 2397.04 3711.92 5940.8 type: numeric (long) range: [1,19] units: 1 unique values: 16 missing : 0/5999 mean: 4.75229 std dev: 1.95429 percentiles: 10% 25% 50% 75% 90% 2 4 5 6 7

Lệnh sum cho biết số lượng quan sát (Obs), giá trị trung bình(mean), độ

lệch chuẩn (Std Dev) cũng như giá trị lớn nhất và bé nhất( min max) của

các biến Nếu thêm tuỳ chọn detail vào lệnh, ta sẽ có thêm các thông tin

như các phân vị, 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của biến cũng như

độ lệch(skewness) và độ nhọn(Kurtosis) của phân bố giá trị biến Nhìn vào

kết quả lệnh ta thấy biến rzlpcex1 có phân phối tương đối lệch phải

sum rlpcexl hhsize, detail

Trang 23

Viện khoa học thống kê - Đề tài cấp cợ sở mã số Ï 1-CS-2005 75% 3711.917 26944.64 90% 5940.803 30624.77 Variance 7249918 95% 8045.32 31066.5 Skewness 3.791027 99% 14163.04 45801.71 Kurtosis 29.21398 Household size Percentiles Smallest 1% + 1 5% 2 1 10% 2 1 obs 5999 25% 4 1 Sum of Wgt 5999 50% 5 Mean 4.752292 Largest Std Dev 1.954292 75% 6 14 90% 7 16 Variance 3.819257 95% 8 16 Skewness - 6561954 99% 10 19 Kurtosis 4.527119

Đối với biến rlpcex1, nhìn vào 5 giá trị nhỏ nhất ta thấy nó tương đối gần nhau, còn các giá trị cao nhất tương đối phân tán hơn, độ lệch chuẩn lớn, độ lệch và độ nhọn của phân bố cũng lớn Kết hợp các yếu tố trên ta thấy số liệu phân bố rất không đều và lệch mạnh về phía phải Còn với biến cỡ hộ hhsize, mọi yếu tố có vẻ bình thường hơn

Nếu muốn biết cụ thể giá trị của mỗi biến có thể dùng lệnh list Thí dụ

muốn biết cỡ hộ tương ứng với 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của

Trang 24

Viện khoa học thống kê - Dé tai cép co sé m@ sé 11-CS-2005

Nói chung, các hộ có đông người thường có thu nhập thấp Ngược lại các hộ ít người có thu nhập cao

Bây giờ ta lập bảng tần số tất cả các giá trị của biến hhsize để xem phân bố

của biến có vấn đề gì không tabulate hhsize Household | size | Freq Percent cum ————~~>~—~—— "“— 0S 14 214 3.57 3.57 2 1 497 8.28 11.85 3 | 731 12.19 24.04 4 | 1,404 23.40 47.44 51 1,318 21.9? 69.41 6 | 867 14.45 83.86 7] 480 8.00 91.87 8 | 255 4.25 96.12 9 | 126 2.10 98.22 10 | 58 0.97 99.18 11 | 29 0.48 99.67 12 | 9 0.15 99.82 13 ] 4 0.07 99.88 14 | 4 0.07 99.95 16 | 2 0.03 99.98 19 | 1 0.02 100.00 wooo ane nee +>~——~~>—~—=~—~~—~>~—————~~~~—————~—=>~— Total | 5,999 100.00

Qui mô ho tap trung chi yéu tir 1 dén 11 ngudi, trong do tir 4-5 ngudi 1a

đông nhất chiếm gần 45,4% số hộ Chỉ có 20 gia đình trong tổng số 5999

gia đình có cỡ hộ từ 12-19 Từ kết quả của lệnh sum và tabulate, ta có thể kết luận phân bố giá trị của biến cỡ hộ hhsize là bình thường, và ít bị lệch Cuối cùng tính hệ số tương quan giữa hai biến chỉ tiêu và cỡ hộ, ta thấy hệ số có giá trị am chứng tỏ mối quan hệ này là ngược chiều nhau đúng như dự đoán và sự tương quan là không cao Những hộ có mức chỉ tiêu khá thường

có ít nhân khẩu hơn

correlate rlpcexl hhsize (obs=5999) | lripcexl hhsize => $ave ene lrlpcexl | 1.0000 hhsize | -0.2172 1.0000 Phương pháp đồ thi

Trên đây là một vài phương pháp số để quan sát số liệu và ta đã phát hiện ra

Trang 25

Viện khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005

quan hệ giữa biến giải thích hhssize với biến phụ thuộc ripcexi và những giá trị ngoại biên của hai biến này Có thể sử dụng các đồ thị sau:

histogram rlpcexl, bin(50) normal

kdensity rlpcexl, normal graph box rlpcexl

scatter rlpcexl hhsize

twoway (scatter rilpcexl hhsize) (1fit rlpcexl hhsize) (lowess rlpcexl hhsize)

Đồ thị histogram ( hist) cho biết phân bố tân suất (mật độ tần số) của biến Ta thêm vào tuỳ chọn bin(50) để dùng 50 cột tần số trong đồ thị và tuỳ

chọn normal để vẽ một đường cong chuẩn

histogram rlpcexl, bin(50) normal (bin=50, start=357.31796, width=908.88786) Density 20e-04 300-04 400-04 1.0e-04 9 — T— T T T 10000 20000 30000 40000 50000

comp.M&Reg price adj.pc tot exp

Nhìn vào đồ thị ta thấy mật độ tập trung các giá trị thấp là rất lớn (rất nhiều

hộ gia đình có mức chi tiêu thấp) và một bộ phận có giá trị cao phân tán tạo

thành một cái đuôi dài về phía phải Một lần nữa khẳng định phân bố lệch nhiều về phía phải

Đồ thị histogram là nhạy cảm với số hộp sử dụng trong vẽ đồ thị Một sự

thay thế cho đồ thị này là đồ thị mật độ kernel, nó xấp xỉ mật độ xác xuất

của biến Đồ thị mật độ kernel có ưu điểm là nhắn và độc lập với việc chọn

gốc không giống đồ thị historgram Câu lệnh vẽ đồ thị là kdensity và sau đó

là tên biến, phần tuỳ chọn đứng sau dấu phẩy kdensity rlpcexl, normal

Trang 26

Viên khoa học thống kê - Đề tài cấp cơ sở mã số 11-CS-2005 0003 0004 Density 0002 0001 T — T—~ T—— T — 0 10000 20000 30000 40000 50000 comp M&Reg price adj.pc tot exp Kemel density estimat Normal density

Cả hai đồ thị chỉ ra rằng biến rlpcexI bị lệch phải, trông rất không chuẩn, có rất nhiều hộ có mức chi tiêu bình quân thấp và mộ số có có mức chi tiêu rất cao

Bây giờ ta vẽ đồ thị hộp bằng câu lệnh graph box và sau đó là biến cần vẽ

Đồ thị hộp cũng cho biết phân bố lệch phải, nhiều giá trị cao phía trên đỉnh hộp Đặc biệt có ba giá trị ngoại biên đáng quan tâm mà chúng ta đã chỉ ra ở trên 30624.77, 31066.5, 45801.71 graph box rlpcex1 40,000 50,000 - comp.M&Reg price adj.pctot exp “ 10,000 20000 30000 0

Sử dụng đồ thị phân tán scatter kèm theo tên các biến để mô tả mối quan hệ

của biến phụ thuộc và biến giải thích xem mối quan hệ này có tuyến tính không và đồng thời cũng chẩn đoán các quan sát ngoại biên của hai biến này Ta thấy 3 điểm ngoại biên của biến phụ thuộc cũng như trên và 3 quan

Trang 27

Viên khoa học thống kê - Đề tài cấp cơ sở mấ số 1I-CS-2005

đó là 16,16, 19, Các điểm này ảnh hưởng rất mạnh đến vị trí của đường hồi qui Vì vậy, các quan sát chứa các điểm này gọi là quan sát đối trọng

scatter rlpcexl hhsize 40000 50000 comp M&Reg price adj.pctotexp 40000 20000 30000 ' ‘ |

Mối quan hệ của hai biến trên đồ thị vẫn chưa được rõ, ta dùng một loại đồ

thị hai chiêu khác twoway để thấy rõ hơn mối quan hệ này Ngoài phân bố các điểm, còn bổ sung thêm hai đường , một đường dự đoán có hình cong

diễn đạt mối quan hệ thực của hai biến và một đường thẳng hồi qui giữa hai biến Do có một số điểm đối trọng phía bên phải có xu hướng kéo đường hồi qui lên, vì vậy đường hồi qui cỏ vẻ ít bị dốc hơn Hai tuỳ chọn trong câu

lệnh là Lũt có nghĩa là vẽ một đường hồi qui và lowess là vẽ một đường dự

đoán nhấn Hai đường dự đoán này rất gần nhau ở phía trái nhưng lại tách xa nhau ở phía phải Vì thế mối quan hệ của hai biến có vẻ không được

tuyến tính lắm khi tiến về phía phải 5 9 Ọ ge |HHi;: : lỈ¡¿,: — r 10 18 20 T of Household size

twoway (scatter rlpcexl hhsize) (lfit rlpcexli

hhsize) (lowess rlpcexl hhsize)

Trang 28

Viện khoa học thống kê - Đề tài cap co sé md sé 11-CS-2005 0 oom 8 oe =- + œ3 we — _— 6° 10000 20000 30000 40000 50000 - s1 1 Household size comp.M&Reg price adj.pc totexp/Fited valueslowess rlpcex1 hhsize

* comp.M&Reg price adj.pc tot exp

lowess ripcexi hhsize

Fitted values

Để khắc phục tình trạng số liệu đã phân tích ở trên, cần thực hiện biến đổi dữ liệu để biến phụ thuộc có phân bố ít bị lệch hơn và vì vậy mối quan hệ

của hai biến có thể tuyến tính hơn Trước hết, dùng cặp lệnh ladder và

gladder để xem trước một số biến đổi và sau đó chọn biến đổi nào có phân

bố tốt hơn Lệnh gladder báo cáo kết quả bằng số, còn lệnh gladder sản xuất ra một đồ thị ladder rlpcexl Transformation formula chi2(2) P(chi2) cubic r1pcex1^3 square rvlpcex1*2 raw ripcexl square-root sqrt (rlpcex1) `

log log (ripcex1) 0.000 reciprocal root 1/sqrt (rlpcex1) 0.000 reciprocal 1/rlpcex1

reciprocal square 1/(rlpcex1^2) reciprocal cubic 1/(r1pcex1^3)

Tiêu chuẩn để chọn biến đổi đối với lệnh ladder là chọn biến đổi nào có giá trị chỉ22) là nhỏ nhất Ta thấy có các biến đổi log(Œrlpcexl) va

1/sgrt(rlpcex1) thoả mãn tiêu chuẩn này

Bây giờ ta chuyển sang vẽ đồ thị giữa hai biến bằng lệnh gladder Nhìn vào đồ thị ta thấy đồ thị log có vẻ chuẩn hơn, vì vậy chọn biến đổi log cho biến

ripcex1

Trang 29

Viện khoa học thống kê - Đề tài cấp cơ sở mã số Ï 1-CS-2005 0.000 -0-13 cubic | identity Density 0.0.0.0 .Ô 5.00x+0800u+ EG0e+0u+00 024.98 sqrt 040 0 10002008000400-0500, ® 7 8 8 1001 ị thun i 4 +05 -04 -3 -Ữ2 -09/04e-16 ị /cubic | seen 0 020-2 Nett

Ta đặt tên cho biến mới là :zipeex: và thực hiện lặp lại một số đồ thị trên và dễ dàng nhận thấy phân bố :zipeexi bây giờ được cải thiện hơn nhiều, đỡ

-3 076.00 0u 08.00u-00.00x-08.272.2 -2 00-080 0ROOe B205 0914-24

comp.M&Reg price adj.pc tot exp

Histograms by transformation

lệch hơn và gần chuẩn hơn

Trang 31

Viên khoa học thống kệ - Dé tài cạp cơ sở mã số 11-CS-2005

Sau khi đã xem xét, kiểm tra và biến đổi số liệu, ta tiến hành hồi qui Câu lệnh hồi qui bắt đầu bằng từ khoá regress tiếp theo là khai báo các biến phụ

thuộc và giải thích Bây giờ mô hình của chúng ta là:

Iripcex1 = A + A* phsize va tién hành phân tích mô hình

2 Phân tích mô hình

regress lrlpcexl hhsize

Source | 55 df MS Number of obs = 5999

T=e-=~====~e †T~e~=~=~=z~rm=zễ~===r~=~~=~—=~ F( 1, 5997) = 493,32

Model {| 180.074125 1 180.074125 Prob > F = 0.0000 Residual | 2189.04283 5997 365022983 R-squared = 0.0760

———— fermen nnn nnn nn nn nnn Adj R-squared = 0.0759

Total | 2369.11695 5998 394984487 Root MSE = 60417

1rlpcexl | Coe£f Std Err t P>|t] [95% Conf Interval] “—.1 +2~—~<~<~~~~~~~~~—~—~~~<~~~~>~~———~~~>——~<~—~—~~~—~—~———~—~~—~—~—~~———~>~—~—~—~——— hhsize | -.0886611 -0039918 -22.21 0.000 -.0964864 -.0808357 _cons | 8.268166 -0205113 403.10 0.000 8.227957 8.308376 Trên đây là các bảng số liệu do câu lệnh hồi qui đưa ra Sau đây ta sẽ tiến hành phân tích kết quả: Phần tổng bình phương được giải thích bởi mô hình (biến giải thích) SSM=180.074125 Phần tổng bình phương không được giải thích(phần dư) SSR=2189.04283 Bậc tự do của phần giải thích Df,=1 Bậc tự do của phần không được giải thích Df=5997 Độ lệch bình phương bình qaân(phương sai) của các bộ phận trên MS,,=180.074125 MS,=.365022983

Số quan sát được dua vao phan tich obs=5999

Kiểm định F cho tồn bộ mơ hình (F(1,5999)=416.40, p-value=0.0000) cho

biết hệ số của mô hình không bằng 0, có nghĩa là mô hình có ý nghĩa thống

Hệ số xác định(R-square=0.0760) khẳng định khoảng 7,6% phương sai của

Irplcex1 được giải thích bởi mô hình, ở đây được giải thích bởi biến độc lập hhs1ze

Sai số chuẩn của ước lượng Root MSE =.60417, nó nhỏ hơn độ lệch chuẩn

của biến phụ thuộc là 6284779 Vậy ước lượng hồi qui là chấp nhận được

Trang 32

Viên khoa học thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005

Kiểm định cục bộ t đối với hệ số ước lượng của hhsize(_b=-0.0887, t=-

20.42, p-value=0.000) có ý nghĩa thống kê, ở mức ý nghĩa 5% ta bác bỏ giả

thiết cho rằng hệ số hồi qui bằng không, chú ý là (-20.42)^2=416.9 bằng

thống kê F) Hệ số âm chỉ ra rằng qui mô hộ có liên quan với mức chỉ tiêu bình quân đầu người thấp Hộ càng có đông người thì mức chỉ tiêu bình quân càng thấp, day là kỳ vọng của chúng ta lúc bắt đầu xây dựng mô hình

Hệ số _b[hhsize]=-0.0887, nghĩa là với một đơn vị tăng lên của hhsize(hộ

tăng thêm một người), chúng ta kỳ vọng -0.0887 đơn vị giảm xuống của Irlpcex1 Do biến phụ thuộc là log của chi tiêu bình quân đầu người, nên về giá trị thực té: e° = 0.915 = (1-0.085)

chính là tỉ số giữa chỉ tiêu bình quân của hộ trước và sau khi tăng lên một người, vì vậy có thể nói khi hhsize tăng lên 1 (hộ tăng lên một người ), chỉ tiêu bình quân giảm xuống còn 0.915 lần so với mức cũ, hay giảm đi 8,5% Nói cách khác nếu có hai hộ tương tự nhau về các mặt nhưng chỉ chênh lệch

nhau một khẩu thì mức chỉ tiêu bình quân của hai hộ sẽ chênh nhau 8,5%

nghiêng về hộ ít khẩu hơn Về mặt kinh tế, những gia đình có qui mô nhỏ

thường dễ quản lý và tỏ ra có hiệu quả hơn trong sản xuất kinh doanh Xu hướng các gia đình hạt nhân vừa phù hợp với đời sống đương đại mà còn chứng tỏ khả năng nâng cao được mức sống bình quân hộ Để mỗi cặp vợ chồng có từ 1 đến hai con, nghĩa là có một gia đình qui mô nhỏ, thì phải làm tốt việc kế hoạch hoá gia đình Kết hoạch hoá gia đình giúp nâng cao mức sống bình quân hộ

Hằng số (hệ số chặn) _cons=8.27 Trong nhiều trường hợp và ngay cả trường hợp này là khó cắt nghĩa Các sai số chuẩn của ước lượng là tương

đối bé, chứng tỏ ước lượng là khá tốt

Bây giờ, sử dụng mô hình hồi qui để dự báo mức chỉ tiêu của các hộ và chứa các giá trị dự báo vào biến yhatI đồng thời cũng ước lượng số dư(sai số dự báo) vào biến e1, câu lệnh phục vụ cho dự báo là predict Vì số dư là ước lượng của sai số trong hồi qui nên có thể quan sát phân bố của nó trên đồ thị phân tán giữa phần đư e1 và biến dự báo yhat1, kèm theo một đường trung bình có điều kiện bằng O của sai số Nhìn vào các dải phân bố theo chiều thẳng đứng của phần dư theo trục dự báo, ta thấy ngay là phân bố các đải là không đều và như vậy có thể kết luận phương sai sai số không phải là một hằng

predict yhatl

predict el, resid

Trang 33

Viện khoa hoc thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005

Sau đó tiến hành vẽ đường thẳng hồi qui lên trên độ thị phân tán giữa biến

phụ thuộc và giải thích trên cùng một đồ thị hai chiều twoway Đường hồi

qui đi xuống vì hệ số góc của nó âm, đúng như dự đoán Ta có thể nhận biết các quan sát đối trọng với các giá trị 16,16,19 của biến giải thích hhsize

twoway (line yhatl hhsize, sort) (scatter lrlpcexl hhsize) 9 10 Fitted values/Inpcex1 8 7 © e T 10 15 20 Houshold sze Fitted values s lipcex1 Cuối cùng ta viết phương trình hồi qui dự đoán mức chi bình quân của hộ: Lrlpcex1= 8.2682 — 0.0887*hhsize

Nếu bỏ đi ba quan sát đối trọng (hhsize = 16,16,19 ) gây ảnh hưởng mạnh

đến đường hồi qui (trong file số liệu đánh dấu các quan sát này bằng số 1 trong biến logic) thì kết quả hồi qui sẽ tốt hơn Như ta thấy hệ số xác định

Trang 34

Viện khoa học thống kê - Dé tài cấp cơ sở mã số Ì 1-CS-2005

cũng lớn hơn, hệ số của biến giải thích hhsize cũng lớn hơn (về giá trị tuyệt

đối)

regress lrlpcexl hhsize if logic!=1

Source | 5S dt MS Number of obs = 5996

“mm foci ance nino one enon nen ne F( 1, 5994) = 509.33

Model | 185.47081 1 185.47081 Prob > F = 0.0000 Residual | 2182.67399 5994 364143142 R-squared = 0.0783

“~ -~=== Porro rnc nme nnn coe Adj R-squared = 0.0782

Total | 2368.1448 5995 395019984 Root MSE = 60344

lrlpcexl † Pelt] (95% Conf Interval]

-——=—>~~~=>—~— mm 0

hhsize | -.0908895 -0040273 -22.57 0.000 —.0987844 -.0829945 _cons | 8.278086 „0206417 401.04 0.000 8.237621 8.318551

Il THUC HANH PHAN TICH HOI QUI BOI

Mô hình hồi qui bội gồm một biến phụ thuộc va một số biến giải thích Trong phân tích này, ta bổ sung vào phương trình hồi qui đơn ở trên một số biến giải thích nữa «aueyzss(SỐ năm giáo dục của chủ hộ, ageis(Kinh nghiệm của chủ hộ, tuổi của chủ hộ trừ đi 15), aepena:Số người sống phụ thuộc trong hộ) Chúng ta sử dụng các yếu tố này để đo lường mức sống bình quân của hộ Chúng ta hy vọng rằng mức sống của hộ sẽ tốt hơn có quan hệ với học vấn của chủ hộ (số năm học cao hơn), qui mô hộ gia đình nhỏ hơn, ít người sống phụ thuộc hơn, chủ hộ có nhiều kinh nghiệm hơn Mô hình hôi qui có dạng:

1zlpcex1= 6, : 6, :hhsize+ /,xeducy+z98+ /, :age15+ Ø6, xdepend

1 Kiểm tra sơ bộ và biến đổi số liệu

Trước hết cũng tiến hành kiểm tra sơ bộ số liệu và hoàn chỉnh xây dựng mô

hình như trong hồi qui đơn Lệnh codebook giúp ta quan sát phạm vi của số liệu và qua đó xem có sự bất thường nào về giá trị biến và sai dấu dữ liệu

như số đo tuổi tác không thể là âm được; các giá trị missing cũng rất quan

trọng vì nó ảnh hưởng đến số lượng quan sát được phân tích trong mô hình Ta thấy không có vấn đề gì từ kết quả lệnh codebook Cả ba biến sducyr98, age15,depend déu không có giá trị nao missing

Trang 35

Viên khoa học thống kê - Dé tai cấp cơ sở mã số 11-CS-2005

type: numeric (float)

range: [0,22] units: 1.000e-06

unique values: 25 missing : 0/5999 mean: 7.09442 std dev: 4.41609 percentiles: 10% 25% 50% 75% 90% agel5 type: numeric (float) range: [1,80] units: 1 unique values: 76 missing : 0/5999 mean: 33.0128 std dev: 13.7702 percentiles: 10% 25% 50% 75% 90% 17 22 31 43 53 depend type: numeric (byte) range: [0,10] units: 1 unique values: 11 missing : 0/5999 mean: 2.36173 std dev: 1.36276 percentiles: 10% 25% 50% 75% 90% 1 1 2 3 4

Phân bố của biến phụ thuộc iripcex1 và biến giải thích hhsize đã được

nghiên cứu trong hồi qui đơn giản Phân bố của các biến giải thích còn lại được đánh giá qua các thống kê của lệnh sum Kết quả lệnh sum cho biết

phân bố của các biến có thể chấp nhận được , không lệch nhiều Ta không tiếp tục xem xét các phân bố bằng đồ thị

sum educyr98 age15 depend, detail

Trang 36

Viên khoa học thống kê - Đề tài cấp cơ sở mã số | 1-CS-2005 90% 95% 99% Variance Skewness Kurtosis 19.50187 +2357831 2.378823 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles 10 14 17 22 31 43 53 58 65 Smallest + 3 4 5 Largest 75 78 79 80 (sum) phuthuoc Obs Sum of Wgt Mean Std Dev Variance Skewness Kurtosis 5999 5999 33.01284 13.7702 189.6185 „4522803 2.393652 1% 5% 10% 25% 50% 75% 90% 95% 99%

Ngoài các đồ thị được giới thiệu ở phần hồi qui đơn, trong hồi qui bội người ta còn sử dụng một loại đồ thị nữa được gọi là ma trận đồ thị để nghiên cứu mối quan hệ giữa biến phụ thuộc với từng biến giải thích và phát hiện những giá trị ngoại biên của của chúng Nhìn lên đồ thị, ta thấy mối quan hệ của biến phụ thuộc lrlpcexI với các biến hhsize, educyr98, agel5 và Percentiles 0 0 1 1 ` Au ew Smallest 0 9 0 0 Largest 9 9 9 10

đepend đều có vẻ như tuyến tính

Trang 37

Viên khoa học thống kê - Đề tài cấp cơ sở mã số 1 1-CS-2005 li: TL ti i ae llli: 8 a ® 9 0 ^ ° 5 0 Để đo lường hệ số tương quan giữa biến phụ thuộc với từng biến giải thích ding lénh correlate correlate lrlpcexl hhsize educyr98 age15 depend (obs=5999) irlpcexl hhsize educyr98 age15 depend | + 1ripcexl | 1.0000 | | i | hhsize ~0.2757 1.0000 educyr98 0.3228 -0.0176 1.0000 agel5 0.1229 -0.1342 -0.3521 1.0000 depend -0.2659 0.7322 -0.0128 -0.0950 1.0000

Nói chung các biến giải thích có tương quan không mạnh với biến phụ

thuộc Các hệ số tương quan của các biến nnsize, aepend là âm nghĩa là mối

quan hệ của biến phụ thuộc với các biến này là ngược chiều nhau Nói cách

khác số người trong hộ tăng lên hoặc số người sống phụ thuộc tăng lên thì

mức sống của hộ giảm xuống Hệ số tương quan của edueyrss là dương, nói

rằng học vấn của chủ hộ tăng lên thì mức sống cũng tăng lên Từ đó chúng ta dự kiến rằng các biến này là các biến dự báo có ý nghĩa thống kê trong mô hình hồi qui

Cũng có thể sử dụng lệnh pwcorr để tính tương quan cặp Sự khác nhau quan trọng giữa correlate và pwcorr là phương pháp xử lý các giá trị missing Với correlate một quan sát (một bản ghi) không được đưa vào tính giá trị tương quan nếu giá trị của một biến bất kỳ là missing Lệnh pwcorr chỉ loại quan sát ra khỏi tính tương quan khi có giá trị missing cho cặp biến đang được tính tương quan, các cặp khác trong lệnh không bị ảnh hưởng Kết quả của câu lệnh này cũng tương tự như trên

pwcorr lrlpcexl hhsize educyr98 agel5 đepend

Trang 38

Viên khoa học thống kê - Dé tài cấp cơ sé ma sé 11-CS-2005

lripcexl hhsize educyr98 agel5 depend | + lrlpcexi | 1.0000 ! | | | hhsize -0.2757 1.0000 educyr98 0.3228 -0.0176 1.0000 age15 0.1229 -0.1342 -0.3521 1.0000 depend -0.2659 0.7322 -0.0128 ~0.0950 1.0000

Có hai tuỳ chọn có thể sử dụng với pwcorr, mà không phải với corrlate là sig cho mức ý nghĩa tương quan và obs cho số quan sát được sử dụng trong tính tương quan Mức ý nghĩa( giá trị p-value) giúp ta kiểm định xem hệ số tương quan có bằng không hay không Nếu giá trị p-value thấp (nhỏ hơn

5%) thì có thể bác bỏ giả định cho rằng hệ số tương quan băng 0, nghĩa là

giữa hai biến không có sự tương quan

pweorr lrlpcexl hhsize educyr98 agel5 đepend,sig obs lrlpcexl hhsize educyr98 agel5 depend 0.0000 0.0000 0.3234 0.0000 5999 5999 5999 5999 5999 | 2 -+- +~T~~~>~~—~—————~~~~>~>~~~~———~—~————~————~~~~~~~~~ irlipcex1l | 1.0000 | | 5999 | hhsize | -0.2757 1.0000 j 0.0000 | 5999 $999 | educyr98 | 0.3228 -0.0176 1.0000 | 0.0000 0.1723 | 5999 5999 5999 | agel5 | 0.1229 -0.1342 -0.3521 1.0000 l 0.0000 0.0000 0.0000 4 5999 5999 5999 5999 | depend | -0.2659 0.7322 -0.0128 -0.0950 1.0000 | |

Các giá trị p-value đều rất thấp chứng tỏ biến phụ thuộc đều có tương quan với từng biến giải thích Vì tất cả các biến đều không có giá trị missing nên tất cả các quan sát (5999 quan sát) đều được đưa vào tính toán hệ số tương quan

2 Phân tích mô hình

Bây giờ đến lúc tiến hành hồi qui và mô hình cho một kết quả tương đối

đẹp

regress lrlpcexl hhsize educyr98 agel5 depend

Source | ss df MS Number of obs

Trang 39

Vién khoa hoc théng ké - Dé tai cdp co sé m@ sé 11-CS-2005

Model | 550.285425 4 137.571356 Prob > F = 0.0000 Residual | 1818.83153 5994 - 30344203 R-squared = 0.2323 ————_ #+TT— -~~==~-TT~T~T—~—~~=—~ —————= Adj R-squared = 0.2318 Total | 2369.11695 5998 ,394984487 Root MSE = 55086

lrlpcex1 | Coef Std Err t P>ltl [95% Conf Interval] -——————~~===~ +T—————~~~~~~~——~—~>~~~~—~~————~>~>~>~~~—~~——~—>~~~—~—~—~——~~——~~—~—~———~—~~———~ hhsize | -.0434447 „0053748 -8.08 0.000 -.0539813 -.0329081 educyr98 | 0569989 „0017251 33.04 0.000 -0536172 - 0603807 agelS | 0106127 -0005582 19.01 0.000 -0095184 -011707 depend | -.0644618 -0076635 -8.41 0.000 -.0794851 —.0494386 _cons | 7.291606 0403797 180.58 0.000 7.212448 7.370765

Kết quả hồi qui cho biết mô hình có ý nghĩa thống kê và tất cả các biến đưa vào mô hình đều có ý nghĩa thống kê Việc phân tích mô hình cũng tương tự như trong hồi qui đơn

Đầu ra của hồi qui bao giờ cũng cung cấp cho ta kết quả của hai kiểm định,

kiểm định F toàn bộ mô hình và kiểm định cục bộ t cho từng hệ số Còn

một loại kiểm định nữa thường được sử dụng trong hồi qui bội do người sử

dụng lựa chọn Kiểm định này cũng là kiểm định F, nhưng theo giả thiết

của người sử dụng Thí dụ trong mô hình hồi qui trên, ta thấy cả hai biến

hhsize(qui mô hộ) và depend (số người sống phụ thuộc trong hộ) đều có liên quan đến số nhân khẩu của hộ Và bây giờ ta muốn kiểm định xem hai biến này có ý nghĩa thống kê trong mô hình hay không, nghĩa là kiểm định

với giả thiết là hệ số của cả hai biến đều bằng 0 Ta có thể sử dụng lệnh test

Kiểm định test thực hiện trên một tập các hệ số khi các biến có các hệ số

này đều liên quan với một quan niệm nào đó(cùng mô tả một quan niệm nào đó) chẳng hạn số người, học vấn, kinh nghiệm; hoặc khi kiếm định cục

bộ f tỏ ra không tin cậy do có đa cộng tuyến giữa các biến giả thích

Nếu giả thiết 0 do người sử dụng đưa ra không bị bác bỏ, nghĩa là ta chấp nhận các giới hạn đó trong mô hình, trong trường hợp này, một số biến đã bị loại bỏ khỏi mô hình vì có hệ số bằng 0 Nếu giả thiết 0 bi bác bỏ, nghĩa

là không tồn tại các giới hạn đó trong mô hình và các biến trong giới hạn đó

thực sự là có ý nghĩa thống kê

Hậu quả của việc đưa các giới hạn vào:

Một trong các lí do để đưa các giới hạn vào mô hình là xét xem các giới hạn

Trang 40

Viên khoa học thống kê - Đề tài cấp co sé ma sé 11~CS-2005

F( 2, 5994)

Prob > F kou 250.58 0.0000

Kiểm định F(F=250.58, p-value=0.0000) bác bỏ giả thiết 0 và chứng tỏ

đóng góp chung của hai biến hhsize và depend có liên quan với số người trong hộ là có ý nghĩa thống kê Có một cách giải thích khác là có một sự khác nhau có ý nghĩa giữa một mô hình có hai biến hhsize và depend với

một mô hình không có hai biến này, nghĩa là có một sự khác nhau giữa mô hình đây đủ và mô hình rút gọn Kiểm định học vấn của chủ hộ cũng có ý nghĩa thống kê test educyr98 (1) educyr98 = 0 F( 1, 5994) = 1091.74 Prob > F= 0.0000

Bây giờ ta tiến hành phân tích đánh giá chất lượng mô hình

Như trong hồi qui đơn, kiểm định FŒ( 5, 5993)= 453.37,Prob>F =

0.0000) cho tồn bộ mơ hình là có ý nghĩa thống kê, nó đánh giá rằng

không phải tất cả các hệ số trong mô hình đều bằng 0, do vậy mô hình là có

ý nghĩa thống kê Việc đưa thêm 3 biến giải thích nữa vào mô hình so với hồi qui đơn đã nâng hệ số xác định R từ 0.0760 lên 0.2323 làm cho mô

hình có kha năng giải thích mạnh hơn Hệ số xác định R(R-squared =

0.2323) cho biết xấp xỉ 23% phương sai của biến lrlpcexl được giải thích

bởi mô hình, nghĩa là được giải thích bởi các biến hhsize, educyr98, agelL5, depend Nói cách khác 23% sự thay đổi mức sống bình quân của hộ là do các yếu tố như qui mô hộ, số người sống phụ thuộc trong hộ, học vấn

của chủ hộ cũng như kinh nghiệm của chủ hộ quyết định

Nhìn vào phần hệ số, ta thấy giá trị p-value của các kiểm định cục bộ t đối

với ước lượng hệ số là rất nhỏ, đều ở mức phần vạn Với mức ý nghĩa 5%, ta hoàn toàn yên tâm rằng các biến trong mô hình đều có ý nghĩa thống kê Mỗi hệ số của biến giải thích trong mô hình cho biết số đơn vị kỳ vọng thay

đổi của biến phụ thuộc khi biến giải thích tăng lên một đơn vị, trong khi các

biến khác giữ nguyên không thay đổi Việc kiểm soát 3 biến khác trong mô

hình đã làm yếu hệ số của hhsize từ -.0886611 xuống còn -.0434447,

nhưng nó vẫn hoàn toàn có ý nghĩa thống kê Số người sống phụ thuộc cũng

có tác động mạnh đến giảm mức sống của hộ(depend, _b=-.0645 ), nếu hộ có thêm một người sống phụ thuộc thì chỉ tiêu bình quân hộ giảm 6,3% Học vấn của chủ hộ (educyr98, _b=.0570) có hệ số đương nói lên rằng số

năm học của chủ hộ càng nhiều thì mức sống bình quân của hộ càng cao

Nếu chủ hộ có thêm một năm học thì log chỉ tiêu bình quân tăng lên 0.0570

đơn vị, về thực tế chỉ tiêu BQ của hộ tăng thêm 5,9% Kinh nghiệm chủ hộ

Ngày đăng: 22/07/2022, 15:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w