egen • Lệnh mở rộng của generate cho phép tạo ra biến mới có giá trị được tính toán từ 1 hay nhiều biến khác egen meanage = meanage... tabulate tab, tab1, tab2 • Cho phép tạo ra bảng một
Trang 1Giới thiệu phần mềm Stata
Trang 2Giới thiệu Stata
• Phần mềm có bản quyền của Statacorp
• Phần mềm thống kê mạnh
• Có thể gõ lệnh trực tiếp hoặc sử dụng menu điều khiển
• Các câu lệnh đơn giản và dễ hiểu
• Thích hợp với các nghiên cứu lớn
Trang 3Phần mềm trả tiền
Trang 4So sánh stata với một số phần mềm thống kê
Trang 5Cài đặt stata
Trang 6Giao diện stata 10
Hiện thị kết quả
Gõ lệnh
Các lệnh đã
thực hiện
Các biến số
Trang 7Giao diện menu
• File: Mở, đóng, lưu dữ liệu, in, thoát …
• Edit: Các thao tác copy, paste …
• Data: Làm việc với biến (mô tả, tạo…), liên kết dữ liệu
• Graphics: Làm việc với đồ thị
• Statistics: Làm việc với thống kê
• Window: Dùng để hiển thị các cửa sổ như comand, Review… và do file
Trang 8Câu lệnh trong stata
• Phân biệt chữ hoa chữ thường Chỉ dùng chữ
thường khi gõ lệnh
• Lệnh có thể viết tắt, không cần viết đầy đủ
• Cấu trúc lệnh trong stata:
[by danh sách biến] lệnh [Biến 1] [Biến 2] [điều kiện] [phạm vi] [quyền số] [, lựa chọn]
• Sử dụng hỗ trợ: help cau_lenh; findit cau_lenh
Trang 10Các phép toán trong stata
Trang 11Mở, đóng số liệu trong stata
• File Open: chọn file *.dta
Đóng stata: exit
Trang 12Biên bản làm việc stata (log file, do
file)
• Tạo file log trước khi làm việc
File/ log/ begin
• Kết thúc log file khi kết thúc phân tích số liệu
File/ log/ close
• Do file editor: cửa sổ viết chương trình
Trang 13Quản lý số liệu trong stata
set mem rename
describe (d) generate (gen) / egen list replace
Trang 16count
• Đếm bản ghi, số quan sát
• Lệnh này thường kết hợp với điều kiện (if)
count if tuoi < 50
Trang 18browse
• Xem lướt số liệu
browse
Trang 19
edit
• Sửa đổi số liệu
edit
Trang 20codebook
• Xem chi tiết biến số
codebook caoha
Trang 21sort
• Sắp xếp bộ số liệu từ thấp tới cao
• Sort là lệnh bắt buộc sử dụng với lựa chọn
“by”
sort age
Trang 23drop
• Xoá các biến số hoặc bản ghi
drop age drop if age==40
Trang 24keep
• Giữ lại các biến số hoặc xoá các bản ghi
keep id chl keep if age != 50
Trang 25= #
miss = 9 = 9
Chuyển giá trị missing thành 9
Trang 26rename
• rename: Đổi tên biến
rename smk htl
Trang 27generate
• Tạo ra biến số mới từ 1 hay nhiều biến số cũ
• Lệnh này cho phép tạo ra biến mới kèm theo điều kiện
• Có thể viết tắt là “gen”
gen age1 = age
Trang 28egen
• Lệnh mở rộng của generate cho phép tạo ra biến mới có giá trị được tính toán từ 1 hay nhiều biến khác
egen meanage = mean(age)
Trang 29replace
• Thay đổi giá trị của biến
• Cho phép thay đổi giá trị biến dựa trên một điều kiện nào đó
gen age2=1 if age<50 replace age2=2 if age>=50&age<70
replace age2=3 if age>=70
Trang 30label
• Tạo nhãn biến và giá trị
label variable smk1 “co hut thuoc la ko" label define htl1 0 "never smoked" 1 "ever
smoked"
label value smk1 htl1
Trang 31di
• Máy tính cá nhân
di 2*3
di 100+200
Trang 32Thống kê mô tả
Trang 34tabulate (tab, tab1, tab2)
• Cho phép tạo ra bảng một chiều (tab1) hoặc bảng nhiều chiều (tab2) để tính tần số và phần trăm các biến định tính
• Các lựa chọn sau tab (đặt sau dấu phẩy) là m, row, col, cell
Trang 35tab / tab1/ tab2
Trang 36Kết hợp tab và sum
tab smk hpt, sum(age)
Trang 37
table
• Kết hợp giữa tab và sum để tạo ra bảng 1 hay 2 chiều với
bộ khung hàng cột là các biến định tính và các ô chứa tham số thống kê của các biến định lượng
Trang 39THỰC HÀNH VẼ BIỂU ĐỒ CƠ BẢN TRONG STATA
Trang 40Trình bày số liệu bằng biểu đồ
Biểu đồ cột rời So sánh các tần số, tỷ lệ Có thể kết hợp hai, ba biến số trên
một biểu đồ Biểu đồ tròn So sánh các tỷ lệ khác nhau trong cùng một nhóm Tổng các tỷ
lệ phải bằng 100%
Biểu đồ cột chồng
nhau
So sánh biến số giữa hai, ba quần thể
Biểu đồ cột liên tục Khi một biến định lượng được phân ra các nhóm khác nhau Biểu đồ đa giác Một dạng đặc biệt của biểu đồ cột liên tục
Biểu đồ gấp khúc Biến thiên của số liệu theo thời gian Có thể ghép nhiều biểu đồ
trên một trục Biểu đồ chấm Tương quan của hai biến định lượng
Bản đồ Phân bố bệnh hay môt hiện tượng sức khỏe theo địa dư
Trang 41histogram / biểu đồ cột liên tục
Dùng để mô tả phân bố biến
định lượng
histogram tuoi, normal
histogram tuoi, bin(40)
frequency title ("Bieu do 1")
normal addlabel
12 15
30
22
30
25 35
2424 30
22 25
7 10 7
17 22
12 1010 9 5
9106 8
Trang 43Biểu đồ chấm
twoway (scatter cannang caotb)
• Vẽ thêm đường tuyến tính
twoway (scatter cannang caotb) (lfit
cannang caotb)
• Nếu muốn thể hiện các con số (ví
dụ giá trị cân nặng) thay vì thể
Dùng ñể mô tả tương quan 2 biến định lượng
Trang 44Biểu đồ ma trận
Dùng để mô tả một lúc tương quan từng
cặp của nhiều biến định lượng
graph matrix cannang caotb tuoi hatdtb hatttb
Trang 45biểu đồ tròn
Dùng để mô tả phân bố biến định tính
graph pie, over(caoha)
graph pie, over(caoha) by(gioitinh)
Trang 46Biểu đồ cột
Dùng để mô tả tỷ lệ nào đó theo các phân nhóm
graph bar (mean) caoha, over(gioitinh) blabel(bar)
• Cột ngang
graph hbar (mean) caoha, over(gioitinh) blabel(bar)
Trang 47Biểu đồ hộp
graph box tuoi, box(1, fcolor(red)
lcolor(black)) graph hbox hatoida1 , box(1, fcolor(green) lcolor(black))
Trang 49Biểu đồ đường gấp khúc
graph twoway connected
benh1 benh2 year
Trang 50THỐNG KÊ SUY LUẬN VỚI STATA
Trang 51Ước lượng khoảng tin cậy
Trang 52Kiểm định giả thuyết
So sánh khác biệt biến định lượng
Test tham số Test phi tham số
1 nhóm 2 nhóm > 2
nhóm
1 nhóm
- Mann Whitney
- Signtest/
Wilcoxon ghép cặp
Kruskal Wallist
Xác định mối tương quan
Mc Nemar (2x2) Bowker’s test (kxk)
So sánh khác biệt biến định tính
Biến định lượng
Phân bố chuẩn Phân bố không chuẩn
Hệ số tương quan pearson
Hệ số tương quan Spearman
Trang 53Kiểm định phân bố chuẩn
• Nhận định hình dạng phân bố số liệu sử dụng biểu đồ cột liên tục (histogram):
histogram hatdtb, bin (40) normal
• So sánh trung bình và trung vị của số liệu:
tabstat hatdtb, stat (mean median)
• Tính toán độ lệch (Skewness) và độ gù (Kurtosis): độ lệch càng gần
0 và độ gù càng gần 3 thì phân bố càng chuẩn
tabstat hatdtb, stat (sk kur)
• Kiểm định Skewness-Kurtosis test: p<0.05 không phân bố chuẩn
sktest hatdtb
Trang 54So sánh trung bình huyết áp đối đa lần 1 với 120
Trang 55So sánh trung bình huyết áp tối đa lần 1 ở nam và nữ
by gioitinh, sort: sum (hatdtb)
• Mann-Whitney test
ranksum hatdtb, by(gioitinh)
• Phân bố chuẩn, ttest
ttest hatoida1, by(gioitinh)
Trang 56VD: So sánh trung bình huyết áp tối đa lần 1 và lần 2
• sign test ghép cặp
signtest hatoida1 = hatoida2
• wilcoxon signed-rank test ghép cặp
signrank hatoida1 = hatoida2
• Ttest ghép cặp
ttest hatoida1 = hatoida2
So sánh khác biệt 2 nhóm ghép cặp (trước và sau
điều trị)
Trang 57So sánh trung bình huyết áp tối đa lần 1 ở các nhóm tuổi (>2
nhóm)
tabstat hatdtb, s(mean sd) by (nhomtuoi)
• Kruskal Wallis test
kwallis hatdtb, by(nhomtuoi)
• Anova
oneway hatdtb nhomtuoi, tab
test ANOVA đòi hỏi thêm 1 điều kiện nữa là phương sai phải đồng nhất (equal variances) Bartlett's test được thực hiện tự động
Trang 58So sánh tỷ lệ cao huyết áp với nghiên
Trang 59So sánh tỷ lệ cao huyết áp ở nhóm
nam và nữ
tab caoha gioitinh, expect tab caoha gioitinh, col chi2 tab caoha gioitinh, col exact
Trang 60So sánh tương quan giữa tuổi và huyết áp tối đa lần 1
Phân bố chuẩn: pearson Phân bố không chuẩn: spearman
(r<0.3: yếu; r=0,3-0,5: trung bình; r=0,5-0,7: chặt chẽ; >0,7: rất chặt chẽ)
spearman tuoi hatoida1
corr tuoi hatoithieu1 , star(.05)
Hệ số tương quan được đánh dấu * tức là hệ số này khác 0 có ý nghĩa
thống kê
corr tuoi cannang caotb hatdtb hatttb
Trang 61Mối liên quan giữa hút thuốc và bệnh
cơ tim
• Nghiên cứu ngang
tabodds caoha gioitinh, or
• Nghiên cứu bệnh chứng
cc caoha gioitinh
• Nghiên cứu thuần tập
cs benhcotim hutthuoc
Trang 62Hồi quy
• Hồi qui là mô hình toán học thể hiện sự biến đổi của một biến số (biến phụ thuộc) theo một hay nhiều biến khác (biến độc lập)
• Hồi quy tuyến tính: Y= a +bx1+cx2 +dx3…
regress cannang caotb
Cân nặng = -49,1 +0,63 * (chiều cao)
Trang 63Hồi quy logistic
Mô hình hồi quy logistic có các đặc điểm sau:
• Biến phụ thuộc là biến nhị phân (1, 0)
Trang 64TRÂN TRỌNG CẢM ƠN!