Sau khi laøm saïch boä soá lieäu, chuùng ta ñaõ coù theå thöïc hieän coâng vieäc thoáng keâ moâ taû boä soá lieäu. Thoáng keâ moâ taû laø moät nhaùnh cuûa thoáng keâ trong ñoù söû duïng caùc coâng cuï laø baûng phaân phoái taàn suaát, ñoà thòbieåu ñoà vaø caùc con soá ño löôøng möùc ñoä taäp turng (trung bình, trung vò…) cuõng nhö phaân taùn (ñoä leäch chuaån, phöông sai) ñeå moâ taû soá lieäu.
Trang 1Sau khi làm sạch bộ số liệu, chúng ta đã có thể thực hiện công việc thống kê mô tả bộ số liệu Thống kê mô tả là một nhánh của thống kê trong đó sử dụng các công cụ là bảng phân phối tần suất, đồ thị/biểu đồ và các con số đo lường mức độ tập turng (trung bình, trung vị…) cũng như phân tán (độ lệch chuẩn, phương sai) để mô tả số liệu
1 THỐNG KÊ MÔ TẢ MỘT BIẾN ĐỊNH LƯỢNG
1.1 Mô tả bằng bảng phân phối tần suất
Quy trình
Cú pháp
tab varname Lập bảng phân phối tần suất cho một biến định lượng
Ví dụ:
gen csiq = iq
recode csiq (80/84=1) (85/89=2) (90/94=3) (95/99=4) (100/max=5)
(csiq: 110 changes made)
label define csiq 1 " 80-84" 2 "85-89" 3 "90-94" 4 "95-99" 5 "100-106"
label value csiq csiq
Xác định các nhóm
Tạo biến mới
Nhóm các giá trị của biến mới
Dán nhãn giá trị
Lập bảng phân phối tần suất
Trang 2tab csiq
csiq | Freq Percent Cum.
80-84 | 5 4.55 4.55
85-89 | 27 24.55 29.09
90-94 | 50 45.45 74.55
95-99 | 23 20.91 95.45
100-106 | 5 4.55 100.00
Total | 110 100.00
Diễn giải kết quả:
Tạo biến csiq bằng biến iq
Nhóm các giá trị của biến csiq thành 4 giá trị 1, 2, 3, 4
Dán nhãn giá trị cho biến csiq
Nhìn vào bảng phân phối tần suất, chúng ta nhận thấy chỉ số iq của nhóm phụ nữ tham gia nghiên cứu chủ yếu tập trung trong nhóm 90-94 (45.45%)
1.2 Mô tả số tập trung/ phân tán
Cú pháp
summarize varlist Tóm tắt số tập trung và phân tán cho một biến
định lượng
summarize varname, detail Tóam tắt chi tiết số tập trung và phân tán cho một
biến định lượng
Ví dụ 1:
sum iq
Variable | Obs Mean Std Dev Min Max
iq | 110 91.79091 4.527379 82 106
Diễn giải kết quả
Chỉ số iq trung bình của 110 phụ nữ là 91,79 (tương ứng với nhóm 90-94 trong bảng phân phối tần suất), độ lệch chuẩn là 4.53, và chỉ số iq thấp nhất là 82, cao nhất là 106
Ví dụ 2:
Trang 3sum iq, detail
chisoIQ
Percentiles Smallest
1% 82 82
5% 85 82
10% 86 83 Obs 110
25% 89 84 Sum of Wgt 110
50% 92 Mean 91.79091
Largest Std Dev 4.527379
75% 95 102
90% 98 103 Variance 20.49716
95% 99 103 Skewness .3682066
99% 103 106 Kurtosis 3.394434
Diễn giải kết quả
Biến iq có trung vị là 92 (50%)
Phương sai (variance) là 20.50
Hơi lệch dương (skewness = 0.368)
Có độ cong cao (kurtosis= 3.39)
1.3 Mô tả bằng đồ thị/biểu đồ
Cú pháp
histogram varnam, options Vẽ tổ chức đồ cho biến định lượng
graph box varname, options Vẽ biểu đồ hộp cho biến định lượng
Ví dụ 1:
histogram iq, frequency normal ytitle(Tan suat) xtitle(chi so IQ) title(bieu do c
> ot cho bien iq)
(bin=10, start=82, width=2.4)
Trang 4Diễn giải kết quả
frequency: vẽ đồ thị tần suất cho biến iq
normal: vẽ đường phân phối bình thường trong đồ thị
y(title): tên cho trục tung
x(title): tên cho trục hoành
title( ): tên cho đồ thị
bin: số cột được chia trong đồ thị là 10
start: đồ thị được bắt đầu bằng giá trị 82
độ rộng cột là 2.4
(các giá trị bin, start và width có thể thay đổi được)
dựa trên đường phân phối bình thường, chúng ta nhận thấy biến iq có phân phối bình thường
Ví dụ 2:
graph box iq, medtype(line)
Trang 5Diễn giải kết quả
medtype (): quy định loại đường trung vị (thẳng, chấm, gạch )
biến iq có một giá trị ngoại lai là giá trị là giá trị 106
2 THỐNG KÊ MÔ TẢ MỘT BIẾN ĐỊNH TÍNH
2.1 Mô tả bằng bảng phân phối tần suất
Cú pháp
tab varname mô tả bảng phân phối tần suất cho một biến
tab1 varlist mô tả bảng phân phối tần suất cho nhiều biến
Ví dụ 1:
tab depress
suynhuoc | Freq Percent Cum.
khong | 26 23.64 23.64
nhe | 67 60.91 84.55
trungbinh | 17 15.45 100.00
Total | 110 100.00
Diễn giải kết quả:
Số phụ nữ bị trầm cảm nhẹ chiếm đa số trong dân số nghiên cứu (67-60.91%)
Ví dụ 2:
Trang 6tab1 sleep anxiety
-> tabulation of sleep
SLEEP | Freq Percent Cum.
khong | 98 87.50 87.50
co | 14 12.50 100.00
Total | 112 100.00
-> tabulation of anxiety
ANXIETY | Freq Percent Cum.
khong | 9 7.96 7.96
nhe | 62 54.87 62.83
vua | 38 33.63 96.46
nang | 4 3.54 100.00
Total | 113 100.00
Diễn giải kết quả:
Số phụ nữ không ngủ được bình thường chiếm đa số (98-87.50%)
Số phụ nữ mắc phải lo âu nhẹ chiếm đa số (62-54.87%) trong khi số phụ nữ mắc
lo âu nặng chiếm thấp nhất (4-3.54%)
2.2 Mô tả bằng đồ thị/biểu đồ
Menu lệnh
Chọn Menu graphics chọn Easy Graphs Bar Chart, màn hình xuất hiện cửa sổ
Thẻ Main: thực hiện các bước sau
Chọn mục count nonmissing trong hộp combo stattistic
Trang 7 Chọn tên biến đếm (là biến dùng để đếm tần số) trong ô Variables Thẻ Over: chọn tên biến muốn vẽ trong ô Variable
Nhấn OK để thi hành lệnh
Ví dụ:
gen count =1
graph bar (count) count, over(depress)
Diễn giải kết quả
Tạo biến count =1 trong trường hợp bộ số liệu không có biến id
Đồ thị cho thấy phụ nữ mắc trầm cảm nhẹ có tần suất nhiều nhất
2.2.2.Biểu đồ bánh
Menu lệnh
Trang 8Chọn Menu graphics chọn pie chart, màn hình xuất hiện cửa sổ
Thẻ Main: chọn “slices are distinct values of variable” trong ô over option
Chọn OK để thi hành lệnh
Ví dụ:
graph pie, over (depress)
3 THỐNG KÊ MÔ TẢ GIỮA 1 BIẾN ĐỊNH LƯỢNG VÀ 1 BIẾN ĐỊNH TÍNH
Cú pháp
Trang 9table bđt, content(mean bđl sd bđl)
Ví dụ:
table depress, content(mean weight sd weight)
suynhuoc | mean(weight) sd(weight)
khong | 1.75 2.814867
nhe | 1.168852 2.752305
trungbinh | 2.13125 2.562478
-Diễn giải kết quả:
Trọng lượng trung bình ở những người phụ nữ có tình trạng suy nhược khác nhau đều khác nhau
4 THỐNG KÊ MÔ TẢ GIỮA 1 BIẾN ĐỊNH LƯỢNG VÀ 3 BIẾN ĐỊNH TÍNH
5 THỐNG KÊ MÔ TẢ GIỮA 2 BIẾN ĐỊNH TÍNH
Cú pháp
tab2 bpl1 bpl2
Ví dụ:
tab2 life depress
-> tabulation of life by depress
| suynhuoc
tutu | khong nhe trungbinh | Total
khong | 26 24 1 | 51
co | 0 41 16 | 57
Total | 26 65 17 | 108
Diễn giải kết quả
Tình trạng tự tử ở các nhóm phụ nữ với tình trạng suy nhược khác nhau đều khác nhau
Trang 106 THỐNG KÊ MÔ TẢ GIỮA BIẾN ĐỊNH TÍNH