Mô tả chi tiết -Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông tin tần suất Freq., phần trăm Percent, phần trăm tích lũycộng phần trăm từ trên xuống Cum.. Đồ thị biến thu n
Trang 1Danh sách nhóm
Thị QuếTrân
K224141703 tranttq22414@st.uel.edu.vn
DuyNgọc
K224142348 ngocnd22414@st.uel.edu.vn
MỹDuyên
Bộ dữ liệu gồm 14 biến quan tâm là:
2 Phân loại biến
faminc: Thu nhập gia đình, tính theo đơn vị 1000 đô la. cigtax: Thuế thuốc lá tại tiểu bang (state) nơi ở, năm 1988. cigprice: Giá thuốc lá tại tiểu bang nơi ở, năm 1988
Trang 2 bwght: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị ounces (ounce).
fatheduc: Số năm học của cha. motheduc: Số năm học của mẹ. parity: Thứ tự con sinh (birth order) của đứa trẻ. male: Biến nhị phân (0 hoặc 1) cho biết giới tính của đứa trẻ
(1 nếu là nam). white: Biến nhị phân (0 hoặc 1) cho biết người mẹ là người
da trắng (1 nếu đúng). cigs: Số điếu thuốc lá mà người mẹ hút mỗi ngày trong thời
kỳ mang thai. lbwght: Giá trị logarithm của trọng lượng sinh sản. bwghtlbs: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn
vị pounds (pound). packs: Số gói thuốc lá mà người mẹ hút mỗi ngày trong thời
kỳ mang thai. lfaminc: Giá trị logarithm của thu nhập gia đình (faminc)
Trang 3Tên biếnLoại dữ
liệu
Chi tiếtThang đoĐơn vị
faminc Định lượng Liên tục Tỉ lệ Đơn vị đo
tiền tệ
cigtax Định lượng Liên tục Khoảng
cách
Đơn vị đotiền tệ
cigprice Định lượng Liên tục Khoảng
cách
Đơn vị đotiền tệ
bwght Định lượng Rời rạc Tỉ lệ Đơn vị đo
Trang 4rời rạc nghĩa
white Định tính Không liên
tục, khôngrời rạc
Danhnghĩa
cách
lbwght Định lượng Liên tục Tỉ lệ
bwghtlbs Định lượng Liên tục Tỉ lệ Đơn vị đo
khối lượng
packs Định lượng Rời rạc Tỉ lệ
lfaminc Định lượng Rời rạc Tỉ lệ
2 Xử lý một vài biến trong bộ dữ liệu
-Chuyển biến kí tự thành biến số cho 2 biến fatheduc, motheduc Chọn data -> Create or change data ->Other variable-
transformation commands -> Convert variables from string to numeric
Trang 53 Thống kê mô tả
+Trong phần này nhóm sẽ lập bảng tần số và đồ thị cũng nhưđưa ra những nhận xét trên số liệu của bộ dữ liệu được đưa
3.1 Mô tả chi tiết
-Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông
tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũycộng phần trăm từ trên xuống (Cum.)
3.1.1 Thu nhập của hộ gia đình (faminc)
Bảng 1: Thống kê dữ liệu biến faminc
Trang 7+Nguồn thu nhập của gia đình rơi vào khoảng 1,500 đô 1 nămcó tần số thấp nhất là 13, có lượng phần trăm thấp nhất là0.94%.
Sự chênh lệch giàu nghèo giữa 2 bên lên tới hơn 43 lần +Chúng ta có thể dễ dàng nhận thấy thu nhập của gia đình hầuhết nằm trong khoảng từ 20 - 35 ngàn đô la
-Dùng lệnh sum faminc, detail và sum faminc để hiện các thôngsố của biến dữ liệu faminc
Trang 8Variable ObsMeanStd dev Mi
nMax
Trang 9*Nhận xét : Histogrm của faminc phân bố giá trị lớn nhất nằm
trong cột giá trị 20 và 60 trở lên Giá trị cột nhỏ nhất nằm tại 53.Cột dữ liệu không được phân phối(bị trống) tại khoảng giá trị từ53 đến gần 60 Các cột dữ liệu còn lại có phân phối khá xấp xỉđồng đều nhau
Đồ thị biến thu nhập gia đình đạt mode tại mức 20 với tần sốgần 250
Histogram lệch phải nhẹ với giá trị mean>median
3.1.2 Cigtax
Dùng lệnh “tab cigtax” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 2: Thống kê dữ liệu biến cigtax
Trang 11+Chúng ta có thể thấy trên biểu đồ rằng thuế thuốc lá bằng 20 chiếm đa số Tần suất thuế từ 30 đến 35 là phần nhỏ nhất trong tổng số
-Dùng lệnh sum cigtax, detail và sum cigtax để hiện các thôngsố của dữ liệu:
Variable ObsMeanStd devMinMax
Trang 12 Min : 2.00 1st Qu : 15.00 Median : 20.00 Mean : 19.55 3rd Qu : 26.00 Max : 38.00
*Histogram của cigtax
*Nhận xét đồ thị histogram của cigtax:- Histogram của cigtax có giá trị tập trung ở các cột giá trị ở
phần chính giữa của biểu đồ , tập trung cao ở miền giá trị từ 30
Trang 1310 Cột giá trị đạt mode nằm trong khoảng cột giá trị từ 25-30 Cộtgiá trị thấp nhất trong khoảng từ 5-10 Sự chênh lệch lên đếngần 35 lần
Histogram lệch trái nhẹ với gái trị mean<median
3.1.3 Cigprice-Giá thuốc lá
Dùng lệnh tab cigprice để để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 3: Thống kê dữ liệu biến cigprice
Trang 15
*Histogram của cigprice
Trang 16*Nhận xét -Histogram của cigprice có các cột chủ yếu phân bố tập trung vào các giá trị ở chính giữa từ 120-140
Cột giá trị 135 xấp xỉ cột giá trị 120 Histogram đạt mode tại mức giá gần 135 Cột giá trị mang mức giá thấp nhất là 110 Sự chênh lệch giữa 2 bên xấp xỉ 9 lần
Histogram khá đối xứng với giá trị mean xấp xỉ median
3.1.4 Bwght-Cân nặng khi sinh
-Dùng lệnh “tab bwght” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 4: Thống kê dữ liệu biến bwght
Trang 17
+Cân nặng khi sinh thấp có thể khiến trẻ sơ sinh
Trang 18có nguy cơ mắc nhiều loại bệnh May mắn thay, trong bộ dữ liệunày, cân nặng khi sinh tập trung trong khoảng từ khoảng 80 đến 150 ounce
-Dùng lệnh “sum bwght” và “sum bwght, detail” để suất ra bẳnggiá trị chứa các thông số
Variable ObsMeanStd devMinMax
Trang 19 Median: 120.0 Mean: 118.7 3rd Qu: 132.0 Max: 271.0
Histogram thuộc dạng cách xa 2 giới hạn
3.1.5 Fatheduc-Số năm giáo dục của cha
Trang 20-Dùng lệnh tab fatheduc để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 5: Thống kê dữ liệu biến fatheduc
fatheduc1 Freq Percent Cum
Trang 21Total 1,192 100.00
*Nhận xét::+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉcó 19 giá trị khác nhau
Số năm học vấn của bố trải dài từ 1-18 năm , trình độ học vấn chủ yếu của bố chủ yếu là 12 năm với tỷ lệ khá cao
Vẫn tồn tại số năm học vấn của bố chỉ từ 1-7 năm , thể hiện thời gian học tập ngắn ,nhưng chỉ chiếm tỷ lệ là dưới 1%
Qua đây, ta thấy trình độ học vấn của bố theo số liệu nghiên cứu nằm ở mức trung bình, chủ yếu mang tính phổ thông
*Qua dùng lênh “sum fatheduc” và “sum fatheduc, detail” ta có các biểu đồ và giá tị sau :
Variable Obs MeanStd dev Mi
nMax
fatheduc1
1,192
13.18624
2.745985
Percentiles
Smallest
Trang 22 1st Qu:12 Median:12 Mean:13.18624 3rd Qu:16 Max : 18
*Histogram của fatheduc1
Trang 23*Nhận xét :Biểu đồ Histogram của biến fatheduc1 có xu hướng
lệch phải với mean > median , 1st < 3rd, Biểu đồ này cho thấy phần lớn mọi người trong dự án có mức độhọc vấn 12, trong khi số lượng những người có mức độ học vấn thấp hơn (1-8) thấp hơn đáng kể Số lượng người có mức độ họcvấn cao hơn (từ 9 trở lên) tăng đáng kể
Cột giá trị cao nhất là 12 và thấp nhất là các cột trong khoảng 6
1-Điều này có thể gợi ý rằng trong dự án hoặc mẫu dữ liệu này, hầu hết mọi người có cha có mức độ học vấn trung bình (12) và có sự biến đổi lớn về học vấn ở phần còn lại
3.1.6 Motheduc1
-Dùng lệnh tab motheduc1 để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
Trang 24(Percent), phần trăm tích lũy cộng phần trăm từ trên xuống
(Cum.)Bảng 6 : Thống kê dữ liệu biến motheduc1
motheduc1 Freq Percent Cum.
Trang 25 Số năm học vấn của mẹ được nghiên cứu từ 2 đến 18 năm , khác với sốhọc vấn của bố , trình độ học vấn của mẹ không bao gồm số năm là 1 Giống với số năm học vấn của bố , số năm học vấn của mẹ chủ yếu là 12 năm chiếm đến ( 40.52%)
Người mẹ có trình độ học vấn khá cao cũng chiếm 14.28% trong dữ liệu nghiên cứu với 16 năm học vấn
*Dùng lệnh sum và sum detail ta có các bảng với các gía trịsau :
VariableObsMeanStd dev Min Max
motheduc1
1,387 12.93583
Trang 26 Min : 2 1st Qu : 12 Median : 12 Mean : 12.93585 3 rd Qu : 14 Max : 18*Biểu đồ Histogram của motheduc1
*Nhận xét
Histogram của biến motheduc1 lệch phải(mean>median) với cáckhoảng giá trị phân bố chủ yếu từ 6-18 Cột giá trị cao nhất là 12->Điều này thể hiện số năm giáo dục chủ yếu là 12 Các khoảng giá trị từ 1-6 hầu như không có và histogram của motheduc1
cách xa giới hạn về phía bên trái
Trang 273.1 6 Male
-Dùng lệnh “tab male” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)Bảng 6: Thống kê dữ liệu biến male
Trang 29*Nhận xét : Biểu đồ tròn của biến male có 2 giá trị 1 đại diện
cho nam và số 0 đại diện cho nữ Hai giá trị được phân chia khá đồng đều với tỉ lệ phần trăm không chênh lệch quá lớn rơi vào khoảng 4%
3.1 7 White
Dùng câu lệnh “tab white” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
(Cum.)Bảng 7: Thống kê dữ liệu biến white
Trang 30*Nhận xét:
Biến white nhận giá trị là 1 khi đứa bé được nghiên cứu cómàu da trắng chiếm 78.46 % trong tất cả đứa bé được nghiên cứu
Biến white nhận giá trị là 0 khi đứa bé mang màu da đen và tỷ lệ màu da này được nghiên cứu chưa được một phần ba màu da trắng, chỉ với 21.54%
-Dùng câu lệnh “sum white” và “sum white, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable ObsMeanStd devMinMax
Trang 31 Max : 1
*Biểu đồ tròn của White
Trang 32*Nhận xét : Ta có thể dễ dàng nhận ra sự chênh lệch lớn về số
lượng người da trắng và da màu khi nhìn vào biểu đồ Người da trắng chiếm tỷ lệ khá cao trong tổng số người da trắngvà da màu, trong đó gần 80% thuộc về người da trắng Sự chênhlệch lên tới gần 40%
3.1.8 Parity_Thứ tự đứa bé được sinh ra
-Dùng câu lệnh “tab parity” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
(Cum.)Bảng 8: Thống kê dữ liệu biến parity
Trang 33đứa bé đầu lòng với 57.28%
Con đầu lòng thường có xu hướng nhỏ hơn so với các bé sinh sau này Tuy nhiên, nếu khoảng cách giữa hai lần sinhquá ngắn, cơ thể người mẹ chưa kịp hồi phục, thai nhi ở lần sinh sau có thể bị nhẹ cân
Dùng câu lệnh “sum parity” và “sum parity, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable ObsMeanStd devMinMax
Trang 34*Histogram của parity
Trang 35Nhận xét : Histogram của parity phân bố không đều và theo
dạng bậc thang từ trên xuống dưới.-Histogram lêch phải với mean>median.- Cột giá trị cao nhất(cột giá trị số 1) gấp gần 40 lần cột giá trị thấp nhất(cột thứ 6)
3.1.9 Cigs
-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao
gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 9: Thống kê dữ liệu biến cigs
cigsFreq Percent Cum.
01,176 84.7384.73
Trang 36Tuy nhiên , số điếu thuốc vẫn được hút mỗi ngày bởi các bà mẹ khác , đặc biệt 20 điếu thuốc mỗi chiếm đến 4.4%
Dùng câu lệnh “sum cigs” và “sum cigs, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Trang 37Variable ObsMeanStd dev Mi
nMax
Trang 38*Nhận xét : Histogram của cigs phân bố rất không đồng đều , không có giá trị phía rìa phải Cột giá trị cao nhất là 0 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trong thai kì Cột giá trị cao nhất gấp rất nhiều lần so với các cột giá trị thấp nhất
3.1.10 lbwght -Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao
gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 10: Thống kê dữ liệu biến lbwght
Lbwght Freq Percent Cum3.135494 10.070.073.401197 10.070.143.555348 10.070.22
Trang 393.637586 10.070.29
3.912023 10.070.433.951244 10.070.503.988984 10.070.584.025352 10.070.654.060443 20.140.794.094345 20.140.94
Total1,388 100.00*Nhận xét: Khoảng số liệu của lbwght chủ yếu có tần suất 1 , giá trị tần suất lớn nhất là 41 đạt 2.59%, khoảng giá trị nhỏ nhất nằm ở nhiều giá trị rải rác trong bảng số liệu với tần suất là 1 và đạt 0.07%
-Dùng câu lệnh “sum lbwght” và “sum lbwght, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable ObsMeanStd dev MinMax
lbwght1,388 4.760031 1906622 3.135494 5.602119
Percentiles Smallest1%4.1108743.1354945%4.4543473.40119710% 4.5325993.555348 Obs1,38825% 4.6728293.637586 Sum of wgt 1,38850% 4.787492Mean4.760031
Trang 40LargestStd dev .190662275% 4.8828025.147494
90% 4.9628455.170484 Variance.036352195% 5.0039465.257495 Skewness-1.73012599% 5.0814045.602119 Kurtosis11.82866*Nhận xét:
Min : 3.1354941st Qu: 4.672829Mean : 4.760031Median : 4.7874923rd Qu: 4.882802Max : 5.602119*Histogram của lbwght3.1.11 bwghtlbs
-Dùng lệnh “tab bwghtlbs” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
Trang 418100.00*Nhận xét: Khoảng giá trị tần số của bwghtlbs chủ yếu là 1 , tần số lớnnhất là 4 nằm ở gía trị 7.5 đạt 2.95%, tần số nhỏ nhất là 1 chiếp 1 khoảngrất nhỏ 0,07%
Dùng câu lệnh “sum bwghtlbs” và “sum bwghtlbs, detail” để liệtkê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable ObsMeanStd dev MinMax
bwghtlbs 1,388 7.418723 1.272123 1.4375 16.9375
Percentiles Smallest1%3.81251.4375
Trang 42*Nhận xét: Min : 1.43751st Qu : 6.6875Mean : 7.418Median : 7.53rd Qu : 8.25Max : 16.933.1.12 Lfaminc
-Dùng lệnh “tab lfaminc” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Total 1,388 100.00 3.86073 68 4.90 86.17 3.624341 94 6.77 75.22 3.314186 137 9.87 58.65 2.970414 47 3.39 37.90 2.862201 30 2.16 30.98 2.74084 31 2.23 27.31 2.60269 27 1.95 23.49 2.442347 18 1.30 19.60 2.251292 28 2.02 16.57 2.014903 22 1.59 12.90 1.704748 22 1.59 8.86 1.252763 20 1.44 5.33 .4054651 13 0.94 2.31
Trang 43*Nhận xét: +Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trịnhưng chỉ có 27 giá trị khác nhau.
-Đây là biến thu nhập của gia đình theo hàm logarit nên cáccách phân bổ tần số và phần trăm đều giống như biến faminc-Dùng câu lệnh “sum lfaminc” và “sum lfaminc, detail” để liệtkê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
lfaminc 1,388 3.071271 .9180645 -.6931472 4.174387 Variable Obs Mean Std dev Min Max sum lfaminc
99% 4.174387 4.174387 Kurtosis 5.98029790% 4.174387 4.174387 Variance .842842575% 3.624341 4.174387
Largest Std dev .918064525% 2.674149 -.6931472 Sum of wgt 1,388 5% 1.252763 -.6931472
Percentiles Smallest lfaminc
sum lfaminc, detail
*Nhận xét:Min : -0.6931st Qu : 2.674Mean : 3.07Median : 3.3143rd Qu : 3.624Max : 4.173.1.13 Packs -Số gói thuốc lá
Trang 44-Dùng lệnh “tab packs” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Total 1,388 100.00 2.3 1 0.07 99.93 1.5 5 0.36 99.42 .75 19 1.37 94.60 5 55 3.96 92.87 4 5 0.36 88.83 3 6 0.43 88.18 2 9 0.65 86.38 1 4 0.29 85.23 0 1,176 84.73 84.73 packs Freq Percent Cum tab packs
*Nhận xét: Có tất cả 1388 giá trị nhưng chỉ có 18 giá trị được hiển thị lặpđi lặp lại
- Nhìn vào bảng số liệu ta có thể thấy ở giá trị 0 gói thuốc có tần số lêntới 1.176 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trongthai kì
-Nhìn chung ở các giá trị khác , số lượng bà mẹ hút thuốc và hút thuốcnhiều thuốc chiếm tỉ lệ rất nhỏ
-Dùng câu lệnh “sum packs” và “sum packs, detail” để liệt kêcác thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau*Nhận xét
Min : 0Mean : 0.104Max : 2.5