Mô tả chi tiết -Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông tin tần suất Freq., phần trăm Percent, phần trăm tích lũycộng phần trăm từ trên xuống Cum.. Đồ thị biến thu n
Trang 1-Bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập
từ nghiên cứu của Mullahy với nguồn dữ liệu gốc từ Cuộcphỏng vấn Y tế Quốc gia năm 1988
Bộ dữ liệu gồm 14 biến quan tâm là:
2 Phân loại biến
faminc: Thu nhập gia đình, tính theo đơn vị 1000 đô la
cigtax: Thuế thuốc lá tại tiểu bang (state) nơi ở, năm 1988
cigprice: Giá thuốc lá tại tiểu bang nơi ở, năm 1988
Trang 2 bwght: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị ounces (ounce).
fatheduc: Số năm học của cha
motheduc: Số năm học của mẹ
parity: Thứ tự con sinh (birth order) của đứa trẻ
male: Biến nhị phân (0 hoặc 1) cho biết giới tính của đứa trẻ (1 nếu là nam)
white: Biến nhị phân (0 hoặc 1) cho biết người mẹ là người
da trắng (1 nếu đúng)
cigs: Số điếu thuốc lá mà người mẹ hút mỗi ngày trong thời
kỳ mang thai
lbwght: Giá trị logarithm của trọng lượng sinh sản
bwghtlbs: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn
Trang 3Tên biến Loại dữ
liệu
Chi tiết Thang đo Đơn vị
faminc Định lượng Liên tục Tỉ lệ Đơn vị đo
tiền tệ
cigtax Định lượng Liên tục Khoảng
cách
Đơn vị đotiền tệ
cigprice Định lượng Liên tục Khoảng
cách
Đơn vị đotiền tệ
bwght Định lượng Rời rạc Tỉ lệ Đơn vị đo
Trang 4rời rạc nghĩa
white Định tính Không liên
tục, khôngrời rạc
Danhnghĩa
cách
lbwght Định lượng Liên tục Tỉ lệ
bwghtlbs Định lượng Liên tục Tỉ lệ Đơn vị đo
khối lượng
packs Định lượng Rời rạc Tỉ lệ
lfaminc Định lượng Rời rạc Tỉ lệ
2 Xử lý một vài biến trong bộ dữ liệu
-Chuyển biến kí tự thành biến số cho 2 biến fatheduc, motheduc
Chọn data -> Create or change data ->Other transformation commands -> Convert variables from string
variable-to numeric
Trang 53 Thống kê mô tả
+Trong phần này nhóm sẽ lập bảng tần số và đồ thị cũng nhưđưa ra những nhận xét trên số liệu của bộ dữ liệu được đưa
3.1 Mô tả chi tiết
-Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông
tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
3.1.1 Thu nhập của hộ gia đình (faminc)
Bảng 1: Thống kê dữ liệu biến faminc
Trang 6* Nhận xét :
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ
có 27 giá trị khác nhau
+Nguồn thu hập chủ yếu của gia đình rơi vào khoảng 65.000 đô
1 năm với tần số cao nhất là 192, chiếm phần trăm cao nhất là13.83% ->Đây là một điểm rất đáng chú ý
Trang 7+Nguồn thu nhập của gia đình rơi vào khoảng 1,500 đô 1 năm
có tần số thấp nhất là 13, có lượng phần trăm thấp nhất là0.94%
Sự chênh lệch giàu nghèo giữa 2 bên lên tới hơn 43 lần
+Chúng ta có thể dễ dàng nhận thấy thu nhập của gia đình hầuhết nằm trong khoảng từ 20 - 35 ngàn đô la
-Dùng lệnh sum faminc, detail và sum faminc để hiện các thông
số của biến dữ liệu faminc
Trang 8Variable Obs Mean Std dev Mi
n Max
Trang 9*Nhận xét : Histogrm của faminc phân bố giá trị lớn nhất nằm
trong cột giá trị 20 và 60 trở lên Giá trị cột nhỏ nhất nằm tại 53.Cột dữ liệu không được phân phối(bị trống) tại khoảng giá trị từ
53 đến gần 60 Các cột dữ liệu còn lại có phân phối khá xấp xỉđồng đều nhau
Đồ thị biến thu nhập gia đình đạt mode tại mức 20 với tần sốgần 250
Histogram lệch phải nhẹ với giá trị mean>median
3.1.2 Cigtax
Dùng lệnh “tab cigtax” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 2: Thống kê dữ liệu biến cigtax
Trang 10* Nhận xét :
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ
có 28 giá trị khác nhau
+Số liệu thuế thuốc lá phân bố không đồng đều , giá trị cao nhất
là 26 với tần suất 190 lần chiếm 13.69% , giá trị thấp nhất là 33với 2 lần xuất hiện chiếm tỉ lệ 0.14%
Trang 11+Chúng ta có thể thấy trên biểu đồ rằng thuế thuốc lá bằng 20 chiếm đa số Tần suất thuế từ 30 đến 35 là phần nhỏ nhất trong tổng số
-Dùng lệnh sum cigtax, detail và sum cigtax để hiện các thông
Trang 12*Histogram của cigtax
*Nhận xét đồ thị histogram của cigtax:
- Histogram của cigtax có giá trị tập trung ở các cột giá trị ở
phần chính giữa của biểu đồ , tập trung cao ở miền giá trị từ
10-30
Trang 13-Cột giá trị đạt mode nằm trong khoảng cột giá trị từ 25-30 Cộtgiá trị thấp nhất trong khoảng từ 5-10 Sự chênh lệch lên đếngần 35 lần
Histogram lệch trái nhẹ với gái trị mean<median
3.1.3 Cigprice-Giá thuốc lá
Dùng lệnh tab cigprice để để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 3: Thống kê dữ liệu biến cigprice
Trang 16
Histogram khá đối xứng với giá trị mean xấp xỉ median
3.1.4 Bwght-Cân nặng khi sinh
-Dùng lệnh “tab bwght” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 4: Thống kê dữ liệu biến bwght
Trang 17
+Cân nặng khi sinh thấp có thể khiến trẻ sơ sinh
Trang 18có nguy cơ mắc nhiều loại bệnh May mắn thay, trong bộ dữ liệunày, cân nặng khi sinh tập trung trong khoảng từ khoảng 80 đến
Trang 19Histogram thuộc dạng cách xa 2 giới hạn.
3.1.5 Fatheduc-Số năm giáo dục của cha
Trang 20-Dùng lệnh tab fatheduc để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 5: Thống kê dữ liệu biến fatheduc
fatheduc1 Freq Percent Cum
Trang 21Vẫn tồn tại số năm học vấn của bố chỉ từ 1-7 năm , thể hiện thời gian học tập ngắn ,nhưng chỉ chiếm tỷ lệ là dưới 1%
Qua đây, ta thấy trình độ học vấn của bố theo số liệu nghiên cứu nằm ở mức trung bình, chủ yếu mang tính phổ thông
*Qua dùng lênh “sum fatheduc” và “sum fatheduc, detail” ta có các biểu đồ và giá tị sau :
Variable Obs Mean Std dev Mi
n Ma x
fatheduc
1
1,192
13.18624
2.745985
Trang 23*Nhận xét :Biểu đồ Histogram của biến fatheduc1 có xu hướng
lệch phải với mean > median , 1st < 3rd,
Biểu đồ này cho thấy phần lớn mọi người trong dự án có mức độhọc vấn 12, trong khi số lượng những người có mức độ học vấn thấp hơn (1-8) thấp hơn đáng kể Số lượng người có mức độ họcvấn cao hơn (từ 9 trở lên) tăng đáng kể
Cột giá trị cao nhất là 12 và thấp nhất là các cột trong khoảng 6
1-Điều này có thể gợi ý rằng trong dự án hoặc mẫu dữ liệu này, hầu hết mọi người có cha có mức độ học vấn trung bình (12) và
có sự biến đổi lớn về học vấn ở phần còn lại
3.1.6 Motheduc1
-Dùng lệnh tab motheduc1 để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
Trang 24(Percent), phần trăm tích lũy cộng phần trăm từ trên xuống
(Cum.)
Bảng 6 : Thống kê dữ liệu biến motheduc1
motheduc1 Freq Percent Cum.
Trang 25 Số năm học vấn của mẹ được nghiên cứu từ 2 đến 18 năm , khác với số học vấn của bố , trình độ học vấn của mẹ không bao gồm số năm là 1
Giống với số năm học vấn của bố , số năm học vấn của mẹ chủ yếu là
Trang 26cách xa giới hạn về phía bên trái
Trang 273.1 6 Male
-Dùng lệnh “tab male” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.) Bảng 6: Thống kê dữ liệu biến male
Trang 29*Nhận xét : Biểu đồ tròn của biến male có 2 giá trị 1 đại diện
cho nam và số 0 đại diện cho nữ Hai giá trị được phân chia khá đồng đều với tỉ lệ phần trăm không chênh lệch quá lớn rơi vào khoảng 4%
3.1 7 White
Dùng câu lệnh “tab white” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
(Cum.)
Bảng 7: Thống kê dữ liệu biến white
Trang 30*Nhận xét:
Biến white nhận giá trị là 1 khi đứa bé được nghiên cứu cómàu da trắng chiếm 78.46 % trong tất cả đứa bé được nghiên cứu
Biến white nhận giá trị là 0 khi đứa bé mang màu da đen
và tỷ lệ màu da này được nghiên cứu chưa được một phần
Trang 32*Nhận xét : Ta có thể dễ dàng nhận ra sự chênh lệch lớn về số
lượng người da trắng và da màu khi nhìn vào biểu đồ
Người da trắng chiếm tỷ lệ khá cao trong tổng số người da trắng
và da màu, trong đó gần 80% thuộc về người da trắng Sự chênhlệch lên tới gần 40%
3.1.8 Parity_Thứ tự đứa bé được sinh ra
-Dùng câu lệnh “tab parity” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
(Cum.)
Bảng 8: Thống kê dữ liệu biến parity
Trang 33Dùng câu lệnh “sum parity” và “sum parity, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable Obs Mean Std dev Min Max
Trang 35Nhận xét : Histogram của parity phân bố không đều và theo
dạng bậc thang từ trên xuống dưới
-Histogram lêch phải với mean>median
- Cột giá trị cao nhất(cột giá trị số 1) gấp gần 40 lần cột giá trị thấp nhất(cột thứ 6)
3.1.9 Cigs
-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao
gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 9: Thống kê dữ liệu biến cigs
cigs Freq Percent Cum.
0 1,176 84.73 84.73
Trang 36Tuy nhiên , số điếu thuốc vẫn được hút mỗi ngày bởi các bà
mẹ khác , đặc biệt 20 điếu thuốc mỗi chiếm đến 4.4%
Dùng câu lệnh “sum cigs” và “sum cigs, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Trang 37Variable Obs Mean Std dev Mi
n Max
Trang 38*Nhận xét : Histogram của cigs phân bố rất không đồng đều , không có giá trị phía rìa phải Cột giá trị cao nhất là 0 , điều này cho thấy có rất nhiều bà mẹ không hút thuốc trong thai kì Cột giá trị cao nhất gấp rất nhiều lần so với các cột giá trị thấp nhất
3.1.10 lbwght
-Dùng lệnh “tab cigs” để liệt kê các giá trị chi tiết của cigtax bao
gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 10: Thống kê dữ liệu biến lbwght
Lbwght Freq Percent Cum3.135494 1 0.07 0.07 3.401197 1 0.07 0.14 3.555348 1 0.07 0.22
Trang 393.637586 1 0.07 0.29
3.912023 1 0.07 0.43 3.951244 1 0.07 0.50 3.988984 1 0.07 0.58 4.025352 1 0.07 0.65 4.060443 2 0.14 0.79 4.094345 2 0.14 0.94
Total 1,388 100.00
*Nhận xét: Khoảng số liệu của lbwght chủ yếu có tần suất 1 , giá trị tần suất lớn nhất là 41 đạt 2.59%, khoảng giá trị nhỏ nhất nằm ở nhiều giá trị rải rác trong bảng số liệu với tần suất là 1 và đạt 0.07%
-Dùng câu lệnh “sum lbwght” và “sum lbwght, detail” để liệt kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable Obs Mean Std dev Min Max
Trang 40Largest Std dev .1906622
75% 4.882802 5.147494
90% 4.962845 5.170484 Variance 0363521 95% 5.003946 5.257495 Skewness -1.730125 99% 5.081404 5.602119 Kurtosis 11.82866
-Dùng lệnh “tab bwghtlbs” để liệt kê các giá trị chi tiết của
cigtax bao gồm các thông tin tần suất (Freq.), phần trăm
Trang 41Total 1,38
8 100.00
*Nhận xét: Khoảng giá trị tần số của bwghtlbs chủ yếu là 1 , tần số lớn nhất là 4 nằm ở gía trị 7.5 đạt 2.95%, tần số nhỏ nhất là 1 chiếp 1 khoảng rất nhỏ 0,07%
Dùng câu lệnh “sum bwghtlbs” và “sum bwghtlbs, detail” để liệt
kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Variable Obs Mean Std dev Min Max
Trang 42-Dùng lệnh “tab lfaminc” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Trang 43*Nhận xét: +Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trịnhưng chỉ có 27 giá trị khác nhau.
-Đây là biến thu nhập của gia đình theo hàm logarit nên cáccách phân bổ tần số và phần trăm đều giống như biến faminc-Dùng câu lệnh “sum lfaminc” và “sum lfaminc, detail” để liệt
kê các thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
Trang 44-Dùng lệnh “tab packs” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
-Nhìn chung ở các giá trị khác , số lượng bà mẹ hút thuốc và hút thuốc nhiều thuốc chiếm tỉ lệ rất nhỏ
-Dùng câu lệnh “sum packs” và “sum packs, detail” để liệt kêcác thông số quan tâm của biến thể hiện ở 2 bảng dữ liệu sau
*Nhận xét
Min : 0
Mean : 0.104
Max : 2.5
Trang 45Variable Obs Mean Std dev Min Max
*Histogram của packs
Trang 46Sử dụng lệnh Corr trong Stata để tìm ra ma trận tương quan giữacác biến độc lập và biến phụ thuộc của mô hình
Sự tương quan giữa biến phụ thuộc là biến cân nặng của trẻ sơ sinh “bwght” và các biến độc lập có ảnh hưởng liên quan Câu lệnh: corr bwght faminc fatheduc motheduc parity cigs packs lbwght bwghtlbs lfaminc cigtax cigprice white male (obs=1191)
Bảng: Kết quả xây dựng ma trận tương quan giữa các biến
Dựa vào ma trận hệ số tương quan giữa các biến ta thấy:
- r(bwght, faminc)= 0.0799
Sự tương quan tương đối thấp
Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và thu nhập của hộ gia đình
- r(bwght, fatheduc)= 0.083
Trang 47Sự tương quan tương đối thấp
Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và trình độ học vấn của bố
- r(bwght, motheduc)= 0.0451
Sự tương quan tương đối thấp
Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và trình độ học vấn của mẹ
- r(bwght, parity)= 0.0695
Sự tương quan tương đối thấp
Hệ số này dương, điều này cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng khi sinh và thứ tự sinh của trẻ
-r(bwght, cigtax)= 0.0464
Sự tương quan tương đối thấp
Hệ số này dương, điều này thể hiện mối quan hệ tỉ lệ thuận giữa cân nặng và thuế thuốc lá
-r(bwght, cigprice) = 0.0411
Sự tương quan tương đối thấp
Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng
và giá thuốc lá
-r(bwght, white) = 0.0877
Sự tương quan tương đối thấp
Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giữa cân nặng
và màu da
Trang 48-r(bwght, male) = 0.0933
Sự tương quan tương đối
Hệ số này dương cho thấy mối quan hệ tỉ lệ thuận giũa cân nặng
và giới tính
-r(bwght, lfaminc) = 0.0810
Sự tương quan tương đối thấp
Hệ số này dương , điều này cho thấy mối quan hệ này tỉ lệ thuận
- R(bwght, cigs)= -0.1646
Sự tương quan tương đối cao
Hệ số này âm, điều này cho thấy mối quan hệ tỉ lệ nghịch giữa cân nặng khi sinh và số điếu thuốc người mẹ hút khi mang thai
Ta thấy biến cigs (-16,46 %) có tác động mạnh nhất tới biến phụthuộc hay số điếu thuốc được hút mỗi ngày lúc mang thai tác động mạnh nhất đến cân nặng của bé khi sinh (chất lượng sinh sản) Dấu âm thể hiện mối quan hệ ngược chiều hay nói cách khác nếu số điếu thuốc hút mỗi ngày tăng lên thì cân nặng đứa
bé khi sinh cũng giảm xuống (đứa bé sinh ra yếu hơn) Hệ số tương quan với các biến con lại đều mang dấu dương tức là các biến có mối quan hệ cùng chiều với nhau
-r(bwght,packs) = -0.1646 ->Giống với các phân tích sự tương quan của bwght và cigs
Mối quan hệ tương quan giữa các biến độc lập nhìn chung không cao Hơn nữa không có hệ số tương quan nào > 0,8 nên
sẽ không xảy ra hiện tượng đa cộng tuyến
Trang 49R(bwght, lbwght) = 0.9727
Sự tương quan tương đối cao
Hệ số này dương và >0.8, xảy ra hiện tượng đa cộng tuyến R(bwght, bwghtlbs) = 1 điều này có nghĩa là có một mối quan
hệ hoàn toàn tuyến tính giữa 2 biến dữ liệu Tức là nếu một biến tăng lên thì biến còn lại cũng tăng lên với một lượng tương tự Hai biến này thể hiện cho cùng một loại số liệu
3.3 Mối tương quan của các biến dữ liệu
3.3.1 Mối tương quan giữa 2 biến cigs và bwght
*Biểu đồ phân tán của cig và bwght
*Nhận xét : Hai biến có mối tương quan nghịch , có nghĩa làngười mẹ càng hút ít hoặc không hút thuốc thì cân nặng của đứatrẻ sinh ra càng cao và đứa trẻ sẽ có tình trạng sức khỏe tốt hơn.Nhưng điều này cũng không thể hiện hết được rằng cân nặng