1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập nhóm 3 bài tập nhóm phân tích dữ liệu với stata bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập từ nghiên cứu của mullahy

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu với stata bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập từ nghiên cứu của Mullahy
Tác giả Thông Thị Quế Trân, Nguyễn Duy Ngọc, Lê Thị Mỹ Duyên
Trường học University of Economics Ho Chi Minh City
Chuyên ngành Data Analysis
Thể loại Bài tập nhóm
Thành phố Ho Chi Minh City
Định dạng
Số trang 73
Dung lượng 8,63 MB

Nội dung

Mô tả chi tiết -Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông tin tần suất Freq., phần trăm Percent, phần trăm tích lũycộng phần trăm từ trên xuống Cum.. Đồ thị biến thu n

Trang 1

-Bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập

từ nghiên cứu của Mullahy với nguồn dữ liệu gốc từ Cuộcphỏng vấn Y tế Quốc gia năm 1988

Bộ dữ liệu gồm 14 biến quan tâm là:

2 Phân loại biến

 faminc: Thu nhập gia đình, tính theo đơn vị 1000 đô la

 cigtax: Thuế thuốc lá tại tiểu bang (state) nơi ở, năm 1988

 cigprice: Giá thuốc lá tại tiểu bang nơi ở, năm 1988

Trang 2

 bwght: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị ounces (ounce).

 fatheduc: Số năm học của cha

 motheduc: Số năm học của mẹ

 parity: Thứ tự con sinh (birth order) của đứa trẻ

 male: Biến nhị phân (0 hoặc 1) cho biết giới tính của đứa trẻ (1 nếu là nam)

 white: Biến nhị phân (0 hoặc 1) cho biết người mẹ là người

da trắng (1 nếu đúng)

 cigs: Số điếu thuốc lá mà người mẹ hút mỗi ngày trong thời

kỳ mang thai

 lbwght: Giá trị logarithm của trọng lượng sinh sản

 bwghtlbs: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn

Trang 3

Tên biến Loại dữ

liệu

Chi tiết Thang đo Đơn vị

faminc Định lượng Liên tục Tỉ lệ Đơn vị đo

tiền tệ

cigtax Định lượng Liên tục Khoảng

cách

Đơn vị đotiền tệ

cigprice Định lượng Liên tục Khoảng

cách

Đơn vị đotiền tệ

bwght Định lượng Rời rạc Tỉ lệ Đơn vị đo

Trang 4

rời rạc nghĩa

white Định tính Không liên

tục, khôngrời rạc

Danhnghĩa

cách

lbwght Định lượng Liên tục Tỉ lệ

bwghtlbs Định lượng Liên tục Tỉ lệ Đơn vị đo

khối lượng

packs Định lượng Rời rạc Tỉ lệ

lfaminc Định lượng Rời rạc Tỉ lệ

2 Xử lý một vài biến trong bộ dữ liệu

-Chuyển biến kí tự thành biến số cho 2 biến fatheduc, motheduc

 Chọn data -> Create or change data ->Other transformation commands -> Convert variables from string

variable-to numeric

Trang 5

3 Thống kê mô tả

+Trong phần này nhóm sẽ lập bảng tần số và đồ thị cũng nhưđưa ra những nhận xét trên số liệu của bộ dữ liệu được đưa

3.1 Mô tả chi tiết

-Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông

tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

3.1.1 Thu nhập của hộ gia đình (faminc)

Bảng 1: Thống kê dữ liệu biến faminc

Trang 6

* Nhận xét :

+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ

có 27 giá trị khác nhau

+Nguồn thu hập chủ yếu của gia đình rơi vào khoảng 65.000 đô

1 năm với tần số cao nhất là 192, chiếm phần trăm cao nhất là13.83% ->Đây là một điểm rất đáng chú ý

Trang 7

+Nguồn thu nhập của gia đình rơi vào khoảng 1,500 đô 1 năm

có tần số thấp nhất là 13, có lượng phần trăm thấp nhất là0.94%

Sự chênh lệch giàu nghèo giữa 2 bên lên tới hơn 43 lần

+Chúng ta có thể dễ dàng nhận thấy thu nhập của gia đình hầuhết nằm trong khoảng từ 20 - 35 ngàn đô la

-Dùng lệnh sum faminc, detail và sum faminc để hiện các thông

số của biến dữ liệu faminc

Trang 8

Variable Obs Mean Std dev Mi

n Max

Trang 9

*Nhận xét : Histogrm của faminc phân bố giá trị lớn nhất nằm

trong cột giá trị 20 và 60 trở lên Giá trị cột nhỏ nhất nằm tại 53.Cột dữ liệu không được phân phối(bị trống) tại khoảng giá trị từ

53 đến gần 60 Các cột dữ liệu còn lại có phân phối khá xấp xỉđồng đều nhau

Đồ thị biến thu nhập gia đình đạt mode tại mức 20 với tần sốgần 250

Histogram lệch phải nhẹ với giá trị mean>median

3.1.2 Cigtax

Dùng lệnh “tab cigtax” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 2: Thống kê dữ liệu biến cigtax

Trang 10

* Nhận xét :

+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ

có 28 giá trị khác nhau

+Số liệu thuế thuốc lá phân bố không đồng đều , giá trị cao nhất

là 26 với tần suất 190 lần chiếm 13.69% , giá trị thấp nhất là 33với 2 lần xuất hiện chiếm tỉ lệ 0.14%

Trang 11

+Chúng ta có thể thấy trên biểu đồ rằng thuế thuốc lá bằng 20 chiếm đa số Tần suất thuế từ 30 đến 35 là phần nhỏ nhất trong tổng số

-Dùng lệnh sum cigtax, detail và sum cigtax để hiện các thông

Trang 12

*Histogram của cigtax

*Nhận xét đồ thị histogram của cigtax:

- Histogram của cigtax có giá trị tập trung ở các cột giá trị ở

phần chính giữa của biểu đồ , tập trung cao ở miền giá trị từ

10-30

Trang 13

-Cột giá trị đạt mode nằm trong khoảng cột giá trị từ 25-30 Cộtgiá trị thấp nhất trong khoảng từ 5-10 Sự chênh lệch lên đếngần 35 lần

Histogram lệch trái nhẹ với gái trị mean<median

3.1.3 Cigprice-Giá thuốc lá

Dùng lệnh tab cigprice để để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 3: Thống kê dữ liệu biến cigprice

Trang 16

Histogram khá đối xứng với giá trị mean xấp xỉ median

3.1.4 Bwght-Cân nặng khi sinh

-Dùng lệnh “tab bwght” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 4: Thống kê dữ liệu biến bwght

Trang 17

+Cân nặng khi sinh thấp có thể khiến trẻ sơ sinh

Trang 18

có nguy cơ mắc nhiều loại bệnh May mắn thay, trong bộ dữ liệunày, cân nặng khi sinh tập trung trong khoảng từ khoảng 80 đến

Trang 19

Histogram thuộc dạng cách xa 2 giới hạn.

3.1.5 Fatheduc-Số năm giáo dục của cha

Trang 20

-Dùng lệnh tab fatheduc để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 5: Thống kê dữ liệu biến fatheduc

fatheduc1 Freq Percent Cum

Trang 21

Vẫn tồn tại số năm học vấn của bố chỉ từ 1-7 năm , thể hiện thời gian học tập ngắn ,nhưng chỉ chiếm tỷ lệ là dưới 1%

Qua đây, ta thấy trình độ học vấn của bố theo số liệu nghiên cứu nằm ở mức trung bình, chủ yếu mang tính phổ thông

*Qua dùng lênh “sum fatheduc” và “sum fatheduc, detail” ta có các biểu đồ và giá tị sau :

Variable Obs Mean Std dev Mi

n Ma x

fatheduc

1

1,192

13.18624

2.745985

Trang 23

*Nhận xét :Biểu đồ Histogram của biến fatheduc1 có xu hướng

lệch phải với mean > median , 1st < 3rd,

Biểu đồ này cho thấy phần lớn mọi người trong dự án có mức độhọc vấn 12, trong khi số lượng những người có mức độ học vấn thấp hơn (1-8) thấp hơn đáng kể Số lượng người có mức độ họcvấn cao hơn (từ 9 trở lên) tăng đáng kể

Cột giá trị cao nhất là 12 và thấp nhất là các cột trong khoảng 6

1-Điều này có thể gợi ý rằng trong dự án hoặc mẫu dữ liệu này, hầu hết mọi người có cha có mức độ học vấn trung bình (12) và

có sự biến đổi lớn về học vấn ở phần còn lại

3.1.6 Motheduc1

-Dùng lệnh tab motheduc1 để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

Trang 24

(Percent), phần trăm tích lũy cộng phần trăm từ trên xuống

(Cum.)

Bảng 6 : Thống kê dữ liệu biến motheduc1

motheduc1 Freq Percent Cum.

Trang 25

 Số năm học vấn của mẹ được nghiên cứu từ 2 đến 18 năm , khác với số học vấn của bố , trình độ học vấn của mẹ không bao gồm số năm là 1

 Giống với số năm học vấn của bố , số năm học vấn của mẹ chủ yếu là

Trang 26

cách xa giới hạn về phía bên trái

Trang 27

3.1 6 Male

-Dùng lệnh “tab male” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.) Bảng 6: Thống kê dữ liệu biến male

Trang 29

*Nhận xét : Biểu đồ tròn của biến male có 2 giá trị 1 đại diện

cho nam và số 0 đại diện cho nữ Hai giá trị được phân chia khá đồng đều với tỉ lệ phần trăm không chênh lệch quá lớn rơi vào khoảng 4%

3.1 7 White

Dùng câu lệnh “tab white” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

(Cum.)

Bảng 7: Thống kê dữ liệu biến white

Trang 30

*Nhận xét:

 Biến white nhận giá trị là 1 khi đứa bé được nghiên cứu cómàu da trắng chiếm 78.46 % trong tất cả đứa bé được nghiên cứu

 Biến white nhận giá trị là 0 khi đứa bé mang màu da đen

và tỷ lệ màu da này được nghiên cứu chưa được một phần

Trang 32

*Nhận xét : Ta có thể dễ dàng nhận ra sự chênh lệch lớn về số

lượng người da trắng và da màu khi nhìn vào biểu đồ

Người da trắng chiếm tỷ lệ khá cao trong tổng số người da trắng

và da màu, trong đó gần 80% thuộc về người da trắng Sự chênhlệch lên tới gần 40%

3.1.8 Parity_Thứ tự đứa bé được sinh ra

-Dùng câu lệnh “tab parity” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

(Cum.)

Bảng 8: Thống kê dữ liệu biến parity

Trang 33

Dùng câu lệnh “sum parity” và “sum parity, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable Obs Mean Std dev Min Max

Trang 35

Nhận xét : Histogram của parity phân bố không đều và theo

dạng bậc thang từ trên xuống dưới

-Histogram lêch phải với mean>median

- Cột giá trị cao nhất(cột giá trị số 1) gấp gần 40 lần cột giá trị thấp nhất(cột thứ 6)

3.1.9 Cigs

-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao

gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 9: Thống kê dữ liệu biến cigs

cigs Freq Percent Cum.

0 1,176 84.73 84.73

Trang 36

Tuy nhiên , số điếu thuốc vẫn được hút mỗi ngày bởi các bà

mẹ khác , đặc biệt 20 điếu thuốc mỗi chiếm đến 4.4%

Dùng câu lệnh “sum cigs” và “sum cigs, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Trang 37

Variable Obs Mean Std dev Mi

n Max

Trang 38

*Nhận xét : Histogram của cigs phân bố rất không đồng đều , không có giá trị phía rìa phải Cột giá trị cao nhất là 0 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trong thai kì Cột giá trị cao nhất gấp rất nhiều lần so với các cột giá trị thấp nhất

3.1.10 lbwght

-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao

gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 10: Thống kê dữ liệu biến lbwght

Lbwght Freq Percent Cum3.135494 1 0.07 0.07 3.401197 1 0.07 0.14 3.555348 1 0.07 0.22

Trang 39

3.637586 1 0.07 0.29

3.912023 1 0.07 0.43 3.951244 1 0.07 0.50 3.988984 1 0.07 0.58 4.025352 1 0.07 0.65 4.060443 2 0.14 0.79 4.094345 2 0.14 0.94

Total 1,388 100.00

*Nhận xét: Khoảng số liệu của lbwght chủ yếu có tần suất 1 , giá trị tần suất lớn nhất là 41 đạt 2.59%, khoảng giá trị nhỏ nhất nằm ở nhiều giá trị rải rác trong bảng số liệu với tần suất là 1 và đạt 0.07%

-Dùng câu lệnh “sum lbwght” và “sum lbwght, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable Obs Mean Std dev Min Max

Trang 40

Largest Std dev .1906622

75% 4.882802 5.147494

90% 4.962845 5.170484 Variance 0363521 95% 5.003946 5.257495 Skewness -1.730125 99% 5.081404 5.602119 Kurtosis 11.82866

-Dùng lệnh “tab bwghtlbs” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

Trang 41

Total 1,38

8 100.00

*Nhận xét: Khoảng giá trị tần số của bwghtlbs chủ yếu là 1 , tần số lớn nhất là 4 nằm ở gía trị 7.5 đạt 2.95%, tần số nhỏ nhất là 1 chiếp 1 khoảng rất nhỏ 0,07%

Dùng câu lệnh “sum bwghtlbs” và “sum bwghtlbs, detail” để liệt

kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable Obs Mean Std dev Min Max

Trang 42

-Dùng lệnh “tab lfaminc” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Trang 43

*Nhận xét: +Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trịnhưng chỉ có 27 giá trị khác nhau.

-Đây là biến thu nhập của gia đình theo hàm logarit nên cáccách phân bổ tần số và phần trăm đều giống như biến faminc-Dùng câu lệnh “sum lfaminc” và “sum lfaminc, detail” để liệt

kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Trang 44

-Dùng lệnh “tab packs” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

-Nhìn chung ở các giá trị khác , số lượng bà mẹ hút thuốc và hút thuốc nhiều thuốc chiếm tỉ lệ rất nhỏ

-Dùng câu lệnh “sum packs” và “sum packs, detail” để liệt kêcác thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

*Nhận xét

Min : 0

Mean : 0.104

Max : 2.5

Trang 45

Variable Obs Mean Std dev Min Max

*Histogram của packs

Trang 46

Sử dụng lệnh Corr trong Stata để tìm ra ma trận tương quan giữacác biến độc lập và biến phụ thuộc của mô hình

Sự tương quan giữa biến phụ thuộc là biến cân nặng của trẻ sơ sinh “bwght” và các biến độc lập có ảnh hưởng liên quan Câu lệnh: corr bwght faminc fatheduc motheduc parity cigs packs lbwght bwghtlbs lfaminc cigtax cigprice white male (obs=1191)

Bảng: Kết quả xây dựng ma trận tương quan giữa các biến

Dựa vào ma trận hệ số tương quan giữa các biến ta thấy:

- r(bwght, faminc)= 0.0799

Sự tương quan tương đối thấp

Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và thu nhập của hộ gia đình

- r(bwght, fatheduc)= 0.083

Trang 47

Sự tương quan tương đối thấp

Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và trình độ học vấn của bố

- r(bwght, motheduc)= 0.0451

Sự tương quan tương đối thấp

Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và trình độ học vấn của mẹ

- r(bwght, parity)= 0.0695

Sự tương quan tương đối thấp

Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và thứ tự sinh của trẻ

-r(bwght, cigtax)= 0.0464

Sự tương quan tương đối thấp

Hệ số này dương, điều này thể hiện mối quan hệ tỉ lệ thuận giữa cân nặng và thuế thuốc lá

-r(bwght, cigprice) = 0.0411

Sự tương quan tương đối thấp

Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng

và giá thuốc lá

-r(bwght, white) = 0.0877

Sự tương quan tương đối thấp

Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng

và màu da

Trang 48

-r(bwght, male) = 0.0933

Sự tương quan tương đối

Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giũa cân nặng

và giới tính

-r(bwght, lfaminc) = 0.0810

Sự tương quan tương đối thấp

Hệ số này dương , điều này cho thấy mối quan hệ này tỉ lệ thuận

- R(bwght, cigs)= -0.1646

Sự tương quan tương đối cao

Hệ số này âm, điều này cho thấy mối quan hệ tỉ lệ nghịch giữa cân nặng khi sinh và số điếu thuốc người mẹ hút khi mang thai

Ta thấy biến cigs (-16,46 %) có tác động mạnh nhất tới biến phụthuộc hay số điếu thuốc được hút mỗi ngày lúc mang thai tác động mạnh nhất đến cân nặng của bé khi sinh (chất lượng sinh sản) Dấu âm thể hiện mối quan hệ ngược chiều hay nói cách khác nếu số điếu thuốc hút mỗi ngày tăng lên thì cân nặng đứa

bé khi sinh cũng giảm xuống (đứa bé sinh ra yếu hơn) Hệ số tương quan với các biến con lại đều mang dấu dương tức là các biến có mối quan hệ cùng chiều với nhau

-r(bwght,packs) = -0.1646 ->Giống với các phân tích sự tương quan của bwght và cigs

Mối quan hệ tương quan giữa các biến độc lập nhìn chung không cao Hơn nữa không có hệ số tương quan nào > 0,8 nên

sẽ không xảy ra hiện tượng đa cộng tuyến

Trang 49

R(bwght, lbwght) = 0.9727

Sự tương quan tương đối cao

Hệ số này dương và >0.8, xảy ra hiện tượng đa cộng tuyến R(bwght, bwghtlbs) = 1 điều này có nghĩa là có một mối quan

hệ hoàn toàn tuyến tính giữa 2 biến dữ liệu Tức là nếu một biến tăng lên thì biến còn lại cũng tăng lên với một lượng tương tự Hai biến này thể hiện cho cùng một loại số liệu

3.3 Mối tương quan của các biến dữ liệu

3.3.1 Mối tương quan giữa 2 biến cigs và bwght

*Biểu đồ phân tán của cig và bwght

*Nhận xét : Hai biến có mối tương quan nghịch , có nghĩa làngười mẹ càng hút ít hoặc không hút thuốc thì cân nặng của đứatrẻ sinh ra càng cao và đứa trẻ sẽ có tình trạng sức khỏe tốt hơn.Nhưng điều này cũng không thể hiện hết được rằng cân nặng

Ngày đăng: 28/08/2024, 11:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w