1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập nhóm 3 bài tập nhóm phân tích dữ liệu với stata bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập từ nghiên cứu của mullahy

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Mô tả chi tiết -Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông tin tần suất Freq., phần trăm Percent, phần trăm tích lũycộng phần trăm từ trên xuống Cum.. Đồ thị biến thu n

Trang 1

Danh sách nhóm

Thị QuếTrân

K224141703 tranttq22414@st.uel.edu.vn

DuyNgọc

K224142348 ngocnd22414@st.uel.edu.vn

MỹDuyên

Bộ dữ liệu gồm 14 biến quan tâm là:

2 Phân loại biến

 faminc: Thu nhập gia đình, tính theo đơn vị 1000 đô la. cigtax: Thuế thuốc lá tại tiểu bang (state) nơi ở, năm 1988. cigprice: Giá thuốc lá tại tiểu bang nơi ở, năm 1988

Trang 2

 bwght: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị ounces (ounce).

 fatheduc: Số năm học của cha. motheduc: Số năm học của mẹ. parity: Thứ tự con sinh (birth order) của đứa trẻ. male: Biến nhị phân (0 hoặc 1) cho biết giới tính của đứa trẻ

(1 nếu là nam). white: Biến nhị phân (0 hoặc 1) cho biết người mẹ là người

da trắng (1 nếu đúng). cigs: Số điếu thuốc lá mà người mẹ hút mỗi ngày trong thời

kỳ mang thai. lbwght: Giá trị logarithm của trọng lượng sinh sản. bwghtlbs: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn

vị pounds (pound). packs: Số gói thuốc lá mà người mẹ hút mỗi ngày trong thời

kỳ mang thai. lfaminc: Giá trị logarithm của thu nhập gia đình (faminc)

Trang 3

Tên biếnLoại dữ

liệu

Chi tiếtThang đoĐơn vị

faminc Định lượng Liên tục Tỉ lệ Đơn vị đo

tiền tệ

cigtax Định lượng Liên tục Khoảng

cách

Đơn vị đotiền tệ

cigprice Định lượng Liên tục Khoảng

cách

Đơn vị đotiền tệ

bwght Định lượng Rời rạc Tỉ lệ Đơn vị đo

Trang 4

rời rạc nghĩa

white Định tính Không liên

tục, khôngrời rạc

Danhnghĩa

cách

lbwght Định lượng Liên tục Tỉ lệ

bwghtlbs Định lượng Liên tục Tỉ lệ Đơn vị đo

khối lượng

packs Định lượng Rời rạc Tỉ lệ

lfaminc Định lượng Rời rạc Tỉ lệ

2 Xử lý một vài biến trong bộ dữ liệu

-Chuyển biến kí tự thành biến số cho 2 biến fatheduc, motheduc Chọn data -> Create or change data ->Other variable-

transformation commands -> Convert variables from string to numeric

Trang 5

3 Thống kê mô tả

+Trong phần này nhóm sẽ lập bảng tần số và đồ thị cũng nhưđưa ra những nhận xét trên số liệu của bộ dữ liệu được đưa

3.1 Mô tả chi tiết

-Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông

tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũycộng phần trăm từ trên xuống (Cum.)

3.1.1 Thu nhập của hộ gia đình (faminc)

Bảng 1: Thống kê dữ liệu biến faminc

Trang 7

+Nguồn thu nhập của gia đình rơi vào khoảng 1,500 đô 1 nămcó tần số thấp nhất là 13, có lượng phần trăm thấp nhất là0.94%.

Sự chênh lệch giàu nghèo giữa 2 bên lên tới hơn 43 lần +Chúng ta có thể dễ dàng nhận thấy thu nhập của gia đình hầuhết nằm trong khoảng từ 20 - 35 ngàn đô la

-Dùng lệnh sum faminc, detail và sum faminc để hiện các thôngsố của biến dữ liệu faminc

Trang 8

Variable ObsMeanStd dev Mi

nMax

Trang 9

*Nhận xét : Histogrm của faminc phân bố giá trị lớn nhất nằm

trong cột giá trị 20 và 60 trở lên Giá trị cột nhỏ nhất nằm tại 53.Cột dữ liệu không được phân phối(bị trống) tại khoảng giá trị từ53 đến gần 60 Các cột dữ liệu còn lại có phân phối khá xấp xỉđồng đều nhau

Đồ thị biến thu nhập gia đình đạt mode tại mức 20 với tần sốgần 250

Histogram lệch phải nhẹ với giá trị mean>median

3.1.2 Cigtax

Dùng lệnh “tab cigtax” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 2: Thống kê dữ liệu biến cigtax

Trang 11

+Chúng ta có thể thấy trên biểu đồ rằng thuế thuốc lá bằng 20 chiếm đa số Tần suất thuế từ 30 đến 35 là phần nhỏ nhất trong tổng số

-Dùng lệnh sum cigtax, detail và sum cigtax để hiện các thôngsố của dữ liệu:

Variable ObsMeanStd devMinMax

Trang 12

 Min : 2.00 1st Qu : 15.00 Median : 20.00 Mean : 19.55 3rd Qu : 26.00 Max : 38.00

*Histogram của cigtax

*Nhận xét đồ thị histogram của cigtax:- Histogram của cigtax có giá trị tập trung ở các cột giá trị ở

phần chính giữa của biểu đồ , tập trung cao ở miền giá trị từ 30

Trang 13

10 Cột giá trị đạt mode nằm trong khoảng cột giá trị từ 25-30 Cộtgiá trị thấp nhất trong khoảng từ 5-10 Sự chênh lệch lên đếngần 35 lần

Histogram lệch trái nhẹ với gái trị mean<median

3.1.3 Cigprice-Giá thuốc lá

Dùng lệnh tab cigprice để để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 3: Thống kê dữ liệu biến cigprice

Trang 15

*Histogram của cigprice

Trang 16

*Nhận xét -Histogram của cigprice có các cột chủ yếu phân bố tập trung vào các giá trị ở chính giữa từ 120-140

Cột giá trị 135 xấp xỉ cột giá trị 120 Histogram đạt mode tại mức giá gần 135 Cột giá trị mang mức giá thấp nhất là 110 Sự chênh lệch giữa 2 bên xấp xỉ 9 lần

Histogram khá đối xứng với giá trị mean xấp xỉ median

3.1.4 Bwght-Cân nặng khi sinh

-Dùng lệnh “tab bwght” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 4: Thống kê dữ liệu biến bwght

Trang 17

+Cân nặng khi sinh thấp có thể khiến trẻ sơ sinh

Trang 18

có nguy cơ mắc nhiều loại bệnh May mắn thay, trong bộ dữ liệunày, cân nặng khi sinh tập trung trong khoảng từ khoảng 80 đến 150 ounce

-Dùng lệnh “sum bwght” và “sum bwght, detail” để suất ra bẳnggiá trị chứa các thông số

Variable ObsMeanStd devMinMax

Trang 19

 Median: 120.0 Mean: 118.7 3rd Qu: 132.0 Max: 271.0

Histogram thuộc dạng cách xa 2 giới hạn

3.1.5 Fatheduc-Số năm giáo dục của cha

Trang 20

-Dùng lệnh tab fatheduc để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 5: Thống kê dữ liệu biến fatheduc

fatheduc1 Freq Percent Cum

Trang 21

Total 1,192 100.00

*Nhận xét::+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉcó 19 giá trị khác nhau

Số năm học vấn của bố trải dài từ 1-18 năm , trình độ học vấn chủ yếu của bố chủ yếu là 12 năm với tỷ lệ khá cao

Vẫn tồn tại số năm học vấn của bố chỉ từ 1-7 năm , thể hiện thời gian học tập ngắn ,nhưng chỉ chiếm tỷ lệ là dưới 1%

Qua đây, ta thấy trình độ học vấn của bố theo số liệu nghiên cứu nằm ở mức trung bình, chủ yếu mang tính phổ thông

*Qua dùng lênh “sum fatheduc” và “sum fatheduc, detail” ta có các biểu đồ và giá tị sau :

Variable Obs MeanStd dev Mi

nMax

fatheduc1

1,192

13.18624

2.745985

Percentiles

Smallest

Trang 22

 1st Qu:12 Median:12 Mean:13.18624 3rd Qu:16 Max : 18

*Histogram của fatheduc1

Trang 23

*Nhận xét :Biểu đồ Histogram của biến fatheduc1 có xu hướng

lệch phải với mean > median , 1st < 3rd, Biểu đồ này cho thấy phần lớn mọi người trong dự án có mức độhọc vấn 12, trong khi số lượng những người có mức độ học vấn thấp hơn (1-8) thấp hơn đáng kể Số lượng người có mức độ họcvấn cao hơn (từ 9 trở lên) tăng đáng kể

Cột giá trị cao nhất là 12 và thấp nhất là các cột trong khoảng 6

1-Điều này có thể gợi ý rằng trong dự án hoặc mẫu dữ liệu này, hầu hết mọi người có cha có mức độ học vấn trung bình (12) và có sự biến đổi lớn về học vấn ở phần còn lại

3.1.6 Motheduc1

-Dùng lệnh tab motheduc1 để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

Trang 24

(Percent), phần trăm tích lũy cộng phần trăm từ trên xuống

(Cum.)Bảng 6 : Thống kê dữ liệu biến motheduc1

motheduc1 Freq Percent Cum.

Trang 25

 Số năm học vấn của mẹ được nghiên cứu từ 2 đến 18 năm , khác với sốhọc vấn của bố , trình độ học vấn của mẹ không bao gồm số năm là 1 Giống với số năm học vấn của bố , số năm học vấn của mẹ chủ yếu là 12 năm chiếm đến ( 40.52%)

Người mẹ có trình độ học vấn khá cao cũng chiếm 14.28% trong dữ liệu nghiên cứu với 16 năm học vấn

*Dùng lệnh sum và sum detail ta có các bảng với các gía trịsau :

VariableObsMeanStd dev Min Max

motheduc1

1,387 12.93583

Trang 26

 Min : 2 1st Qu : 12 Median : 12 Mean : 12.93585 3 rd Qu : 14 Max : 18*Biểu đồ Histogram của motheduc1

*Nhận xét

Histogram của biến motheduc1 lệch phải(mean>median) với cáckhoảng giá trị phân bố chủ yếu từ 6-18 Cột giá trị cao nhất là 12->Điều này thể hiện số năm giáo dục chủ yếu là 12 Các khoảng giá trị từ 1-6 hầu như không có và histogram của motheduc1

cách xa giới hạn về phía bên trái

Trang 27

3.1 6 Male

-Dùng lệnh “tab male” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)Bảng 6: Thống kê dữ liệu biến male

Trang 29

*Nhận xét : Biểu đồ tròn của biến male có 2 giá trị 1 đại diện

cho nam và số 0 đại diện cho nữ Hai giá trị được phân chia khá đồng đều với tỉ lệ phần trăm không chênh lệch quá lớn rơi vào khoảng 4%

3.1 7 White

Dùng câu lệnh “tab white” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

(Cum.)Bảng 7: Thống kê dữ liệu biến white

Trang 30

*Nhận xét:

 Biến white nhận giá trị là 1 khi đứa bé được nghiên cứu cómàu da trắng chiếm 78.46 % trong tất cả đứa bé được nghiên cứu

 Biến white nhận giá trị là 0 khi đứa bé mang màu da đen và tỷ lệ màu da này được nghiên cứu chưa được một phần ba màu da trắng, chỉ với 21.54%

-Dùng câu lệnh “sum white” và “sum white, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable ObsMeanStd devMinMax

Trang 31

 Max : 1

*Biểu đồ tròn của White

Trang 32

*Nhận xét : Ta có thể dễ dàng nhận ra sự chênh lệch lớn về số

lượng người da trắng và da màu khi nhìn vào biểu đồ Người da trắng chiếm tỷ lệ khá cao trong tổng số người da trắngvà da màu, trong đó gần 80% thuộc về người da trắng Sự chênhlệch lên tới gần 40%

3.1.8 Parity_Thứ tự đứa bé được sinh ra

-Dùng câu lệnh “tab parity” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

(Cum.)Bảng 8: Thống kê dữ liệu biến parity

Trang 33

đứa bé đầu lòng với 57.28%

Con đầu lòng thường có xu hướng nhỏ hơn so với các bé sinh sau này Tuy nhiên, nếu khoảng cách giữa hai lần sinhquá ngắn, cơ thể người mẹ chưa kịp hồi phục, thai nhi ở lần sinh sau có thể bị nhẹ cân

Dùng câu lệnh “sum parity” và “sum parity, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable ObsMeanStd devMinMax

Trang 34

*Histogram của parity

Trang 35

Nhận xét : Histogram của parity phân bố không đều và theo

dạng bậc thang từ trên xuống dưới.-Histogram lêch phải với mean>median.- Cột giá trị cao nhất(cột giá trị số 1) gấp gần 40 lần cột giá trị thấp nhất(cột thứ 6)

3.1.9 Cigs

-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao

gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 9: Thống kê dữ liệu biến cigs

cigsFreq Percent Cum.

01,176 84.7384.73

Trang 36

Tuy nhiên , số điếu thuốc vẫn được hút mỗi ngày bởi các bà mẹ khác , đặc biệt 20 điếu thuốc mỗi chiếm đến 4.4%

Dùng câu lệnh “sum cigs” và “sum cigs, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Trang 37

Variable ObsMeanStd dev Mi

nMax

Trang 38

*Nhận xét : Histogram của cigs phân bố rất không đồng đều , không có giá trị phía rìa phải Cột giá trị cao nhất là 0 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trong thai kì Cột giá trị cao nhất gấp rất nhiều lần so với các cột giá trị thấp nhất

3.1.10 lbwght -Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao

gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Bảng 10: Thống kê dữ liệu biến lbwght

Lbwght Freq Percent Cum3.135494 10.070.073.401197 10.070.143.555348 10.070.22

Trang 39

3.637586 10.070.29

3.912023 10.070.433.951244 10.070.503.988984 10.070.584.025352 10.070.654.060443 20.140.794.094345 20.140.94

Total1,388 100.00*Nhận xét: Khoảng số liệu của lbwght chủ yếu có tần suất 1 , giá trị tần suất lớn nhất là 41 đạt 2.59%, khoảng giá trị nhỏ nhất nằm ở nhiều giá trị rải rác trong bảng số liệu với tần suất là 1 và đạt 0.07%

-Dùng câu lệnh “sum lbwght” và “sum lbwght, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable ObsMeanStd dev MinMax

lbwght1,388 4.760031 1906622 3.135494 5.602119

Percentiles Smallest1%4.1108743.1354945%4.4543473.40119710% 4.5325993.555348 Obs1,38825% 4.6728293.637586 Sum of wgt 1,38850% 4.787492Mean4.760031

Trang 40

LargestStd dev .190662275% 4.8828025.147494

90% 4.9628455.170484 Variance.036352195% 5.0039465.257495 Skewness-1.73012599% 5.0814045.602119 Kurtosis11.82866*Nhận xét:

Min : 3.1354941st Qu: 4.672829Mean : 4.760031Median : 4.7874923rd Qu: 4.882802Max : 5.602119*Histogram của lbwght3.1.11 bwghtlbs

-Dùng lệnh “tab bwghtlbs” để liệt kê các giá trị chi tiết của

cigtax bao gồm các thông tin tần suất (Freq.), phần trăm

Trang 41

8100.00*Nhận xét: Khoảng giá trị tần số của bwghtlbs chủ yếu là 1 , tần số lớnnhất là 4 nằm ở gía trị 7.5 đạt 2.95%, tần số nhỏ nhất là 1 chiếp 1 khoảngrất nhỏ 0,07%

Dùng câu lệnh “sum bwghtlbs” và “sum bwghtlbs, detail” để liệtkê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

Variable ObsMeanStd dev MinMax

bwghtlbs 1,388 7.418723 1.272123 1.4375 16.9375

Percentiles Smallest1%3.81251.4375

Trang 42

*Nhận xét: Min : 1.43751st Qu : 6.6875Mean : 7.418Median : 7.53rd Qu : 8.25Max : 16.933.1.12 Lfaminc

-Dùng lệnh “tab lfaminc” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Total 1,388 100.00 3.86073 68 4.90 86.17 3.624341 94 6.77 75.22 3.314186 137 9.87 58.65 2.970414 47 3.39 37.90 2.862201 30 2.16 30.98 2.74084 31 2.23 27.31 2.60269 27 1.95 23.49 2.442347 18 1.30 19.60 2.251292 28 2.02 16.57 2.014903 22 1.59 12.90 1.704748 22 1.59 8.86 1.252763 20 1.44 5.33 .4054651 13 0.94 2.31

Trang 43

*Nhận xét: +Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trịnhưng chỉ có 27 giá trị khác nhau.

-Đây là biến thu nhập của gia đình theo hàm logarit nên cáccách phân bổ tần số và phần trăm đều giống như biến faminc-Dùng câu lệnh “sum lfaminc” và “sum lfaminc, detail” để liệtkê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau

lfaminc 1,388 3.071271 .9180645 -.6931472 4.174387 Variable Obs Mean Std dev Min Max sum lfaminc

99% 4.174387 4.174387 Kurtosis 5.98029790% 4.174387 4.174387 Variance .842842575% 3.624341 4.174387

Largest Std dev .918064525% 2.674149 -.6931472 Sum of wgt 1,388 5% 1.252763 -.6931472

Percentiles Smallest lfaminc

sum lfaminc, detail

*Nhận xét:Min : -0.6931st Qu : 2.674Mean : 3.07Median : 3.3143rd Qu : 3.624Max : 4.173.1.13 Packs -Số gói thuốc lá

Trang 44

-Dùng lệnh “tab packs” để liệt kê các giá trị chi tiết của cigtax

bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)

Total 1,388 100.00 2.3 1 0.07 99.93 1.5 5 0.36 99.42 .75 19 1.37 94.60 5 55 3.96 92.87 4 5 0.36 88.83 3 6 0.43 88.18 2 9 0.65 86.38 1 4 0.29 85.23 0 1,176 84.73 84.73 packs Freq Percent Cum tab packs

*Nhận xét: Có tất cả 1388 giá trị nhưng chỉ có 18 giá trị được hiển thị lặpđi lặp lại

- Nhìn vào bảng số liệu ta có thể thấy ở giá trị 0 gói thuốc có tần số lêntới 1.176 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trongthai kì

-Nhìn chung ở các giá trị khác , số lượng bà mẹ hút thuốc và hút thuốcnhiều thuốc chiếm tỉ lệ rất nhỏ

-Dùng câu lệnh “sum packs” và “sum packs, detail” để liệt kêcác thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau*Nhận xét

Min : 0Mean : 0.104Max : 2.5

Ngày đăng: 28/08/2024, 11:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w