Báo cáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 26 và bộ số liệu số 81 về tỉ lệ phạm tội cũng như tỉ lệ hút thuốc lá trung bình của con người

Để hiểu rõ hơn, nhóm chúng em xin được xây dựng bài Báocáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 26 và bộ số liệu số 81 về tỉ lệ phạm tội cũng như tỉ lệ

Trang 1

TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG

KHOA KINH TẾ VÀ KINH DOANH QUỐC TẾ

-*** -BÁO CÁO KINH TẾ LƯỢNG

NHÓM 2- THỰC HIỆN NGHIÊN CỨU BỘ DỮ LIỆU SỐ

26– 81

GIÁO VIÊN HƯỚNG DẪN: TS ĐINH THỊ THANH BÌNH

DANH SÁCH THÀNH VIÊN:

Hà Nội, tháng 04 năm 2014

Trang 2

Mục lục

Lời mở đầu 3

A Bộ số liệu số 26 5

I Mô hình lý thuyết 5

1 Vấn đề nghiên cứu và mô hình lý thuyết: 5

2 Mục đích và lý do lựa chọn các biến: 6

3 Mối quan hệ từng biến độc lập với biến phụ thuộc: 6

II Phân tích hồi quy 9

1 Thiết lập mô hình tổng quát 9

2 Lập bảng tương quan 11

3 Chạy mô hình hồi quy 12

4 Phương trình hồi quy 13

5 Phân tích kết quả hồi quy 13

III Kiểm định mô hình 15

1 Ý nghĩa của hệ số hồi quy: 15

2 Kiểm định sự phù hợp của mô hình: 15

3 Kiểm định khuyết tật của mô hình: 16

IV Sửa lỗi mô hình 21

KẾT LUẬN 22

Bộ số liệu số 81 23

I Mô hình lý thuyết 23

1 Vấn đề nghiên cứu và mô hình lý thuyết: 23

2 Mục đích và lý do lựa chọn các biến: 25

3 Mối quan hệ từng biến độc lập với biến phụ thuộc: 25

II Phân tích hồi quy 28

1 Thiết lập mô hình tổng quát 28

2 Lập bảng tương quan 29

3 Chạy mô hình hồi quy 30

4 Phương trình hồi quy 31

Trang 3

5 phân tích kết quả hồi quy 31

III Kiểm định mô hình 33

1 Ý nghĩa của hệ số hồi quy: 33

2 Kiểm định sự phù hợp của mô hình: 34

3 Kiểm định và cách khắc phục khuyết tật của mô hình: 35

IV Sửa lỗi mô hình 40

KẾT LUẬN 42

Trang 4

Lời mở đầu

Trong bối cảnh xã hội đang ngày càng phát triển, kinh tế lượng đã và đang là một mônkhoa học có nhiều ứng dụng trong thực tế, đặc biệt là các vấn đề liên quan đến kinh tế Kinh tếlượng cung cấp những công cụ đắc lực giúp các nhà kinh tế học có thể phân tích các số liệuthống kê được thu thập từ đó đưa ra các dự báo về các hiện tượng kinh tế

Xét trên phạm vi các trường đại học thuộc khối ngành kinh tế, bộ môn kinh tế lượngđang trở thành một trong số những bộ môn quan trọng cung cấp những kiến thức về lý thuyết

và thực hành giúp cho sinh viên có thể học tập và nghiên cứu những chuyên ngành của mình

Là những sinh viên khối ngành kinh tế, chúng em ý thức rõ được sự cần thiết trong việc học tập

và nghiên cứu môn kinh tế lượng Để hiểu rõ hơn, nhóm chúng em xin được xây dựng bài Báocáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 26 và bộ số liệu số

81 về tỉ lệ phạm tội cũng như tỉ lệ hút thuốc lá trung bình của con người nhằm đưa ra nhữngphân tích và những dự báo của các yếu tố ảnh hưởng đến hai vấn đề kinh tế này

Nhóm chúng em gồm 5 thành viên:

STT Họ và tên Mã số sinh viên Đóng góp (%)

1 Trần Nguyễn Tuấn Anh (nhóm trưởng) 1212210017 20

Chúng em xin chân thành cảm ơn giảng viên hướng dẫn - tiến sĩ Đinh Thị Thanh Bình

đã giúp đỡ chúng em thực hiện bài báo cáo này Trong quá trình làm bài tiểu luận, dù đã rất cốgắng nhưng chắc chắn không tránh khỏi những sai sót, kính mong được cô góp ý để nhómchúng em có thể hoàn thiện hơn bản báo cáo này

Trang 5

A Bộ số liệu số 26

I Mô hình lý thuyết

1 Vấn đề nghiên cứu và mô hình lý thuyết:

Trong bối cảnh xã hội ngày càng phát triển với tốc độ đô thị hóa cao cũng như việc đất

nước mạnh dạn mở cửa để tiếp thu với các nền văn hóa khác nhau thì tình trạng vi phạm pháp

luật ngày càng trở thành một vấn đề đáng lo ngại Có rất nhiều yếu tố tác động đến tỉ lệ phạm

tội của mỗi khu vực Trong bộ số liệu số 26, nhóm đã chọn ra những biến để nghiên cứu dưới đây

Mô tả dữ liệu trong file CRIME3.DTA từ phần mềm Stata, ta thu được kết quả như sau:

cavgclr float %9.0g change in avgclr

clcrime float %9.0g change in lcrime

clrprc2 byte %9.0g clear-up perc, two-years prior

clrprc1 byte %9.0g clear-up perc, prior year

district byte %9.0g district number

crime float %9.0g crimes per 1000 people

variable name type format label variable label

storage display value

des crime district clrprc1 clrprc2 clcrime cavgclr

Các biến sẽ được mô tả chi tiết trong bảng sau:

Tên

biến Dạng dữ liệu Đơn vị Ý nghĩa biến

District Byte đơn vị Số quận khảo sát

clrprc1 Byte đơn vị Tỉ lệ phá án thành công một năm trước

clrprc2 Byte đơn vị Tỉ lệ phá án thành công hai năm trước

clcrime Float % Sự thay đổi tỉ lệ phạm tội

Trang 6

cavgclr Float % Sự thay đổi trong trung bình tỉ lệ phá án

Bảng 1: Định dạng và ý nghĩa của các biến

Tiếp tục sử dụng lệnh sum để miêu tả dữ liệu Lệnh sum cho biết số lượng quan sát

(Obs), giá trị trung bình (mean), độ lệch chuẩn (std dev.) cũng như giá trị lớn nhất (max) vànhỏ nhất (min) của các biến

Variable Obs Mean Std Dev Min Max

sum crime district clrprc1 clrprc2 clcrime cavgclr

Có thể nhận thấy tỉ lệ phạm tội có sự chênh lệch khá lớn giữa mức cao nhất và mức thấpnhất, lên tới xấp xỉ 70 lần, cao hơn hẳn so với các biến còn lại

2 Mục đích và lý do lựa chọn các biến:

Mục đích của việc lựa chọn mô hình này nhằm tìm hiểu sự tác động của khả năng giảiquyết vụ án trong các năm trước, thời gian, khu vực địa lýđối với tỉ lệ phạm tội

Trang 7

3 Mối quan hệ từng biến độc lập với biến phụ thuộc:

Mối quan hệ giữa crime và district

Mối quan hệ giữa crime và clrprc1

Trang 8

Mối quan hệ giữa crime và clrprc2

Mối quan hệ giữa crime và clcrime

Trang 9

Mối quan hệ giữa crime và avgclr

II Phân tích hồi quy

1 Thiết lập mô hình tổng quát

Trang 10

clrprc1

Tỉ lệ phá án thành côngtrong một năm trước, sovới thời điểm khảo sát

-Tỉ lệ phá án thành công một nămtrước càng thấp thì tỉ lệ phạm tộinăm hiện tại càng cao

clrprc2

Tỉ lệ phá án thành côngtrong hai năm trước, sovới thời điểm khảo sát

-Tỉ lệ phá án thành công hai nămtrước càng thấp thì tỉ lệ phạm tộinăm hiện tại càng cao

clcrime Sự thay đổi của tỉ lệ

và 2 năm truóc

-Sự thay đổi trong trung bình cộngphần trăm của các vụ án được giảiquyết trong 1 năm trước và 2 nămtrước càng thấp thì tỉ lệ phạm tộinăm hiện tại càng cao

Trang 11

Nhìn chung các biến độc lập có tương quan với biến phụ thuộc không cao, đặc biệt hai

biến clrprc1và clrprc2 có hệ số tương quan khá thấp (-0.6020 và -0.5968).

2 biến clcrime và cavgclr có hệ số tương quan dương, cho thấy tác động cùng chiều lên

biến phụ thuộc

3 biến district, clrprc1 và clrprc2 có hệ số tương quan âm, cho thấy tác động ngược

chiều đối với biến phụ thuộc

Mối quan hệ tương quan giữa các biến độc lập với nhau cũng không cao, hệ số tương

quan cao nhất cũng chỉ là 0.4422, giữa biến district và clrprc2

Do không có hệ số tương quan nào có độ lớn vượt quá 0.8 nên có thể dự đoán mô hìnhkhông xảy ra hiện tượng đa cộng tuyến khi hồi quy

3 Chạy mô hình hồi quy

Chạy mô hình hồi quy giữa biến phụ thuộc và các biến độc lập, ta thu được kết quả nhưsau:

Source SS df MS Number of obs = 53

reg crime district clrprc1 clrprc2 clcrime cavgclr

Trang 12

4 Phương trình hồi quy

Từ kết quả chạy hồi quy, nhóm tóm tắt các giá trị thu được ở bảng 3:

Biến Hệ số β Giá trị Thống kê t P – value

Bảng 3: Kết quả hồi quy

Từ bảng trên ta có phương trình hồi quy sau:

^

3.73996*Clcrime + 0.3878464*Cavgclr

5 Phân tích kết quả hồi quy

- Số quan sát đưa vào phân tích obs = 53

- Phần tổng bình phương các độ lệch giữa giá trị quan sát Yi với giá trị trung bình của nóTSS=7945.29101

- Phần tổng bình phương được giải thích bởi mô hình (biến giải thích) ESS=4125.50252

- Phần tổng bình phương không giải thích được (phần dư) RSS=3819.7885

- Độ lệch bình phương bình quân (phương sai) của các bộ phận trên làMSm=825.100503và MSr=81.2720957

- Sai số chuẩn của ước lượng RMSE=9.0151, nhỏ hơn độ lệch chuẩn của biến phụ thuộc

là SD = √n−1 TSS=√7945.2910153−1 = 12.360989 Vậy ước lượng của hồi quy là chấp nhận được

- Mức độ phù hợp của mô hình so với thực tế là R2 = 51.92% cho thấy các biến độc lập

đã giải thích được 51.92% sự thay đổi của biến phụ thuộc

Trang 13

- Ý nghĩa các tham số trong mô hình:

* 𝛽0= 52.60476 có nghĩa là trong điều kiện các yếu tố khác không đổi và giá trị các biếnđộc lập bằng 0 thì tỉ lệ phạm tội sẽ là 52.60476 USD

* 𝛽1 có p-value = 0.588> 0.05 nên không có ý nghĩa thống kê Do đó, số quận khảo sátkhông có tác động lên tỉ lệ phạm tội

* 𝛽2= -0.4141517 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố kháckhông đổi, nếu tỷ lệ phá án thành công trong một năm trước tăng thêm 1 đơn vị thì tỉ lệ phạmtội giảm đi 0.4141%

* 𝛽3= -0.3824153 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố kháckhông đổi, nếu tỷ lệ phá án thành công trong hai năm trước tăng lên 1 đơn vị thì tỉ lệ phạm tộigiảm 0.3824%

* 𝛽4 có p-value = 0.333 nên không có ý nghĩa thống kê, do đó sự thay đổi trong logarit

cơ số e của tỷ lệ phạm tội

* 𝛽5= 0.3878464 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố khác khôngđổi, nếu tỷ lệ trung bình phá án tăng thêm 1 đơn vị thì tỷ lệ phạm tội tăng 0.3878%

III Kiểm định mô hình

1 Ý nghĩa của hệ số hồi quy:

Trang 14

2 Kiểm định sự phù hợp của mô hình:

Kiểm định này nhằm xem xét trường hợp các tham số của biến độc lập β i đồng thời bằng

0 có thể xảy ra hay không

Cặp giả thuyết thống kê như sau:

Trang 15

3 Kiểm định khuyết tật của mô hình:

a Bệnh đa cộng tuyến:

Mô hình tốt là mô hình phải đạt được các tính chất BLUE (tuyến tính, không chệch,

hiệu quả nhất) Tuy nhiên trên thực tế do xây dựng sai mô hình hoặc do bản chất của dữ liệu,

dẫn tới mô hình không đạt được đầy đủ các tính chất trên Một trong những vấn đề ảnh hưởng

đến mô hình mà ta gọi là vi phạm các giả định, đó là đa cộng tuyến

Do vậy, chúng ta sẽ khảo sát mô hình có bị đa cộng tuyến hay không

Cách 1: Tính hệ số tương quan r giữa các biến giải thích

Nếu các biến giải thích có tương quan cao với nhau (r > 0.8) thì có thể xảy ra đa cộngtuyến

Sử dụng lệnh Corr trong stata cho kết quả sau:

Từ kết quả trên, ta thấy hệ số tương quan giữa các biến giải thích tương đối thấp và nhỏ hơn 0.8 Do vậy có thể kết luận mô hình không mắc bệnh đa cộng tuyến.

Cách 2: Sử dụng thừa số tăng phương sai VIF

Nếu VIF >10 thì có thể xảy ra hiện tượng đa cộng tuyến

Sử dụng lệnh vif trong phần mềm stata, ta có kết quả sau:

Trang 16

Các giá trị VIF đều nhỏ hơn 10, do đó có thể đi đến kết luận mô hình không có hiện tượng đa cộng tuyến.

Như vậy hai kiểm định đều cho cùng một kết luận: Mô hình không mắc bệnh đa cộng tuyến.

b Phương sai sai số thay đổi:

Phương sai của mỗi một ngẫu nhiên Ui trong điều kiện giá trị đã cho của biến giải thích

Xi là không đổi, nghĩa là:

Var (Ui / Xi)=E [Ui – E (Ui )]2 = E(Ui)2 = σ2; i = 1,2,3…nTuy nhiên, trong thực tế, do bản chất kinh tế xã hội, quá trình thu thập, xử lí số liệu hay

do mô hình định dạng sai mà giả thiết này bị vi phạm dẫn đến hiện tượng phương sai sai sốthay đổi

Cách 1: Phương pháp định tính:

Xem xét đồ thị ei theo Y^i:

Trang 17

Cách 2: Phương pháp định lượng:

Để kiểm định phương sai sai số thay đổi ta có cặp giả thuyết sau:

{ H0: Môhìnhcó phương sai thuầnnhất

H1: Mô hìnhcó phương sai sai số thay đổi

Nếu giá trị [Prob>chi2] ¿0.05, chúng ta bác bỏ giả thiết H0 và chấp nhận giả thiết H1.

Ta thực hiện kiểm định White:

Trang 18

Kết quả kiểm định bằng lệnh imtest, white cho thấy Prob>chi2 = 0.1327> 0.05

Do đó từ 2 kiểm định trên có cơ sở kết luận rằng mô hình không mắc lỗi phương sai

sai số thay đổi.

c Kiểm định phân phối chuẩn của sai số:

Trong các giả định của mô hình hồi quy tuyến tính, có một giả định quan trọng đó làui~U(0;σ2) Tuy nhiên trên thực tế có nhiều nhân tố ảnh hưởng tới phân phối của ui, làm cho nókhông còn phân phối chuẩn nữa Phân phối không chuẩn khiến cho các kiểm định và suy diễnthống kê không còn đáng tin cậy nữa

Bây giờ ta cùng kiểm định xem mô hình có gặp phải vấn đề phân phối không chuẩn (đốivới u và cả biến phụ thuộc) hay không

Cách 1:Sử dụng đồ thị:

Sử dụng Stata và vẽ đồ thị phân phối của phần dư trong mô hình:

Trang 19

Nhìn trên đồ thị có thể thấy phân phối của phần dư bị chệch so với phân phối chuẩn Như vậy có cơ sở để kết luận mô hình đang mắc phải vấn đề phân phối không chuẩn.

Cách 2:Kiểm định Skewness-Kurtosis:

Cặp giả thiết:

{ H0: Phần dư có phân phối chuẩn

H1: Phần dư không phân phối chuẩn

Sử dụng lệnh sktest trong Stata để kiểm định:

Ta thấy p-value = 0.0014 < 0,05

 bác bỏ H0

 suy ra có cơ sở để cho rằng phần dư phân phối không chuẩn

Như vậy 2 kiểm định đều cho thấy có dấu hiệu phần dư phân phối không chuẩn trong mô hình

Trang 20

IV Sửa lỗi mô hình

Từ việc kiểm định trên, ta thấy có biến district , clcrime không có ý nghĩa thống kê trong mô

hình Ta có thể bỏ khỏi mô hình và tiến hành chạy lại mô hình mới như sau:

Source SS df MS Number of obs = 53

reg crime clrprc1 clrprc2 cavgclr

Trang 21

Bộ số liệu số 81

I Mô hình lý thuyết

1 Vấn đề nghiên cứu và mô hình lý thuyết:

Ngày nay, thuốc lá đang ngày càng trở thành một mối nguy hại lớn đối với sức khỏe của

con người Mặc dù xã hội đã đưa ra nhiều biện pháp nhằm giảm thiểu tỉ lệ hút thuốc của người

dân nhưng vẫn chưa thực sự hiệu quả Có rất nhiều yếu tố ảnh hưởng đến việc hút thuốc của

mỗi người Trước hết, chúng ta phải tìm hiểu xem những yếu tố nào thực sự tác động đến tỉ lệ

hút thuốc của chúng ta Trong bộ số liệu số 81, nhóm đã chọn ra những biến để nghiên cứu

dưới đây

Mô tả dữ liệu trong fileSMOKE.DTA từ phần mềm Stata, ta thu được kết quả như sau:

restaurn byte %8.0g =1 if rest smk restrictions

educ float %9.0g years of schooling

cigpric float %9.0g state cig price, cents/pack

age byte %8.0g in years

income int %8.0g annual income, $

cigs byte %8.0g cigs smoked per day

variable name type format label variable label

storage display value

des cigs income age cigpric educ restaurn

Các biến sẽ được mô tả chi tiết trong bảng sau:

Tên

biến Dạng dữ liệu Đơn vị Ý nghĩa biến

cigs byte điếu/ngày Số điếu thuốc được hút trung bình một ngày

income int $ Thu nhập hàng năm của người hút

age byte tuổi Tuổi tác của người hút

cigpric float cents/hộp Giá thuốc tại nơi người hút sinh sống

educ float năm Số năm học của người hút thuốc

Trang 22

restaurn byte Nơi nghỉ ngơi của người hút có cấm thuốc không

Bảng 1: Định dạng và ý nghĩa của các biến

Tiếp tục sử dụng lệnh sum để miêu tả dữ liệu Lệnh sum cho biết số lượng quan sát

(Obs), giá trị trung bình (mean), độ lệch chuẩn (std dev.) cũng như giá trị lớn nhất (max) vànhỏ nhất (min) của các biến

restaurn 807 .2465923 .4312946 0 1 educ 807 12.47088 3.057161 6 18 cigpric 807 60.30041 4.738469 44.004 70.129 age 807 41.23792 17.02729 17 88 income 807 19304.83 9142.958 500 30000 cigs 807 8.686493 13.72152 0 80 Variable Obs Mean Std Dev Min Max sum cigs income age cigpric educ restaurn

Có thể nhận thấy số điều thuốc hút mỗi ngàycó sự chênh lệch khá lớn giữa mức cao nhất

và mức thấp nhất, lên tới 80 điếu/ngày,những người được khảo sát thuộc nhóm tuổi khá trẻ, cóảnh hưởng lớn đế sự phát triển của xã hội Có sự chênh lệch rất lớn giữa mức thu nhập cao nhất

và thập nhất, cho ta thấy số liệu khảo sát bao quát được hầu hết các đối tượng, từ đối tượng cóthu nhập cao đến đối tượng có thu nhập thấp

2 Mục đích và lý do lựa chọn các biến:

Mục đích của việc lựa chọn mô hình này nhằm tìm hiểu sự tác động của thu nhập, tuổitác, giá thuốc cũng như trình độ học vấn của con người đối với số điếu thuốc hút trong ngày

Định dạng
Số trang	38
Dung lượng	622,56 KB