NỘI DUNG 14052019 2 1 • Biến số 2 • Tạo nhãn biến số 3 • Giá trị khuyết (Missing) 3 • Biến đổi biến số 4 • Biến đổi cấu trúc dữ liệu 5 • Nguyên tắc quản lý dữ liệu 1. BIẾN SỐ 1. Các loại biến số 2. Format của biến số 14052019 3CÁC LOẠI BIẾN SỐ (TYPES) Có 2 loại biến số trong Stata: • Numeric: biến số dạng số • String: biến dạng kí tự Biến số Datetime là dạng đặc biệt của biến numeric. Lưu ý: • Một số phân tích thống kê không sử dụng biến string. • Nên lưu trữ dữ liệu (data) bằng biến numeric
QUẢN LÝ DỮ LIỆU VỚI STATA TS Nguyễn Thị Minh Trang Bộ môn Thống kê – Khoa Y tế Công cộng Đại học Y Dược TPHCM Email: drminhtrang@gmail.com 14/05/2019 NỘI DUNG • Biến số • Tạo nhãn biến số • Giá trị khuyết (Missing) • Biến đổi biến số • Biến đổi cấu trúc liệu • Nguyên tắc quản lý liệu 14/05/2019 BIẾN SỐ Các loại biến số Format biến số 14/05/2019 CÁC LOẠI BIẾN SỐ (TYPES) Có loại biến số Stata: • Numeric: biến số dạng số • String: biến dạng kí tự Biến số Date-time dạng đặc biệt biến numeric Lưu ý: • Một số phân tích thống kê khơng sử dụng biến string • Nên lưu trữ liệu (data) biến numeric 14/05/2019 CÁC LOẠI BIẾN SỐ (TYPES) Numeric, Labelled Numeric String Lưu ý: màu sắc thể loại biến số 14/05/2019 BIẾN SỐ VÀ GIÁ TRỊ CỦA BIẾN SỐ Biến số Các giá trị biến số Biến số (Variable): smoke Giá trị biến số: nonsmoker, smoker 14/05/2019 ĐỊNH DẠNG (FORMATS) BIẾN SỐ NUMERIC Cơng thức Ví dụ √𝟐 1,000 10,000,000 General (g) %w.dg %9.0g 1.414214 1000 1.00e+07 Fixed (f) %w.df %9.0f 1000 10000000 %9.2f 1.41 1000.00 1.00e+07 %09.2f 000001.41 001000.00 1.00e+07 %10.3e 1.414e+00 1.000e+03 1.000e+07 Format Exponential %w.de (e) Format mặc định Stata General (g) 14/05/2019 ĐỊNH DẠNG (FORMATS) BIẾN SỐ STRING Format biến số String (s): %ws Ví dụ: %10s hiển thị chuỗi 10 kí tự đếm từ bên phải sang Giá trị (Value) biến số String: • Để ngoặc kép “” Ví dụ: generate nation=“Danish” if ph==45 • Phân biệt chữ hoa chữ thường Ví dụ: “Danish”, “danish”, “DANISH” • Lưu ý: Không nhầm lẫn biến String biến Numeric dán nhãn 14/05/2019 ĐỊNH DẠNG (FORMATS): THỰC HÀNH Trong Stata, mở dataset lbw1.dta Mở Data editor (browse) Data Editor (Browse) Tại cửa sổ Command, gõ lệnh describe 14/05/2019 ĐỊNH DẠNG (FORMATS): THỰC HÀNH describe 14/05/2019 10 KIỂM TRA TÍNH TỐN Kiểm tra biến sex, gender: tab2 sex gender Kiểm tra biến age, agegrp: tabstat age, by(agegr) stat(min max) 14/05/2019 31 32 BIẾN ĐỔI CẤU TRÚC DATA Lựa chọn quan sát Lựa chọn biến số Xếp thứ tự biến số Xếp thứ tự quan sát 14/05/2019 LỰA CHỌN QUAN SÁT Chọn 100 quan sát đầu: keep in 1/100 Chọn nhóm nam nữ: keep if sex==1 drop if sex!=1 14/05/2019 33 LỰA CHỌN BIẾN SỐ Giữ lại biến số mong muốn: sex, biến số từ age đến height theo thứ tự keep sex age-height Xóa biến số bmi: drop bmi 14/05/2019 34 XẾP THỨ TỰ BIẾN SỐ Xếp theo thứ tự bảng chữ cái: order _all, alphabetic Xếp theo ý muốn: order id sex age height weight 14/05/2019 35 XẾP THỨ TỰ GIÁ TRỊ BIẾN SỐ Xếp thứ tự tăng dần (ascending): sort age Xếp theo gsort: weight tăng dần, height giảm dần gsort +weight -height 14/05/2019 36 37 QUẢN LÝ DATA Tạo nhật ký phân tích Tạo do-file 14/05/2019 TẠO NHẬT KÝ Nhật ký phân tích gồm có thành phần: Ngày/ tháng/ năm: Date Tên Do-file Input data: Data sử dụng ban đầu Output data: Data thay đổi cấu trúc Comments: Ghi lại công việc phiên làm việc (bao gồm lưu ý đặc biệt!!!) 14/05/2019 38 TẠO NHẬT KÝ Project: Smoking Working folder C:\Smoking Project Date 9/5/2019 14/5/2019 20/5/2019 Do-file Lbw1.do Input data Lbw.dta Lbw2.do Lbw.dta Lbw3.do Lbw1.dta+lbw 2.dta Output data Lbw1.dta Comments Bỏ biến: Tạo biến mới: Tạo nhãn biến: Lbw2.dta Bỏ biến: Tạo biến mới: Tạo nhãn biến: Lbw3.dta Merge data lbw1.dta lbw2.dta 14/05/2019 39 TẠO DO-FILE CÁC BƯỚC TẠO VÀ LÀM VIỆC VỚI DO-FILE Tạo do-file bắt đầu phiên làm việc với STATA Lưu tên do-file theo ngày làm việc Ghi mục đích câu lệnh do-file, bắt đầu dấu * Gõ câu lệnh Chạy câu lệnh Ghi tên do-file vào nhật ký phiên làm việc 14/05/2019 40 TẠO DO-FILE: CÁC BƯỚC THỰC HIỆN Bước Chọn Icon New Do-file editor New Do-file editor 14/05/2019 41 TẠO DO-FILE: CÁC BƯỚC THỰC HIỆN Bước Lưu tên do-file theo ngày thực hành Bước Chạy lệnh (đánh dấu lệnh muốn chạy trước khơng chạy tồn bộ) Bước Mơ tả mục đích câu lệnh Dùng dấu * cho câu mơ tả Bước Gõ lệnh 14/05/2019 42 TÓM TẮT: CÁC LỆNH STATA Lệnh describe label variable, label define, label values tab1, tab2, tabstat list if Mô tả Mô tả ngắn data Tạo nhãn Tạo bảng thống kê chiều, chiều Liệt kê quan sát theo điều kiện generate, egen, replace recode keep, drop Tạo biến số Mã hóa biến số Giữ lại bỏ quan sát/ biến số sort, gsort Xếp thứ tự quan sát/ biến số 14/05/2019 43 TÀI LIỆU THAM KHẢO Sách: Introduction to Stata for Health Researchers, 4th edition Svend Juul and Morten Frydenberg Web: https://www.stata.com/links/resources-for-learning-stata/ 14/05/2019 44 NỘI DUNG • Biến số • Tạo nhãn biến số • Giá trị khuyết (Missing) • Biến đổi biến số • Biến đổi cấu trúc liệu • Nguyên tắc quản lý liệu 14/05/2019 45 ... 14/ 05/ 20 19 16 TẠO NHÃN (LABEL): THỰC HÀNH 14/ 05/ 20 19 17 TẠO NHÃN (LABEL): THỰC HÀNH 14/ 05/ 20 19 18 KIỂM TRA NHÃN Gõ lệnh: tab1 ht 14/ 05/ 20 19 19 20 GIÁ TRỊ KHUYẾT (MISSING VALUES) 14/ 05/ 20 19 CÁC... trúc Comments: Ghi lại công việc phiên làm việc (bao gồm lưu ý đặc biệt!!!) 14/ 05/ 20 19 38 TẠO NHẬT KÝ Project: Smoking Working folder C:Smoking Project Date 9/ 5/ 20 19 14 /5/ 20 19 20 /5/ 20 19 Do-file... gender “Recode of sex” 14/ 05/ 20 19 29 MÃ HÓA LẠI BIẾN SỐ: RECODING Tạo biến nhóm tuổi “agegrp2” gồm giá trị 60: recode age (min/ 39= 0 “< 39? ??) (40/ 59 = 1 “40- 59 ? ??) (60/max=2 “>60”), generate(agegrp2)