Sử dụng log file: Nếu bạn muốn ghi lại tất cả những gì bạn làm? Chúng ta sử dụng log file. Logfile chứa các câu lệnh và bảng kết quả, không chứa biểu đồ, đồ thị. Để mở một log file: Từ menu vào File – Log – Begin hoặc gõ trực tiếp log using ten_log tại dòng lệnh. log using filename , append replace text|smcl Đuôi mở rộng của log file: .log; .smcl; .doc Đóng logfile sử dụng câu lệnh log close
GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT TRIỂN Quản lý số liệu Stata Log file • Sử dụng log file: – Nếu bạn muốn ghi lại tất bạn làm? – Chúng ta sử dụng log file – Logfile chứa câu lệnh bảng kết quả, khơng chứa biểu đồ, đồ thị • Để mở log file: Từ menu vào File – Log – Begin gõ trực tiếp log using ten_log dòng lệnh log using filename [, append replace [text|smcl]] • Đi mở rộng log file: log; smcl; doc • Đóng logfile sử dụng câu lệnh log close Quản lý số liệu Stata Tạo dataset • Một vài câu lệnh phần này: use, browse, edit, format, generate, list, merge, append, replace, save, set, sort, tabulate, label, keep, drop • Tạo dataset: set obs #: tạo dataset với số # quan sát chưa có biến dùng lệnh tạo biến generate Tạo mới: gõ edit dòng lệnh (ctrl + 7) Window data editor Cú pháp: edit [varlist] [if] [in] [, nolabel] • Mở dataset: – Mở data hệ thống: sysuse Ten_data_hethong – File có sẵn (File Open) dùng lệnh (use, clear) – Sử dụng dataset mạng: webuse • Lưu dataset với save saveold (dùng cho version 8,9) save [filename] [, save_options] • Xem liệu (browser) browse [varlist] [if] [in] [, nolabel] Quản lý số liệu Stata Tạo dataset • sysuse auto (sử dụng số liệu sẵn có Stata) • Chúng ta xem số liệu: File Example datasets Quản lý số liệu Stata Tạo dataset Sử dụng dataset mạng webuse lifeexp : Sử dụng lifeexp lưu http://www.stata-press.com/data/r10 Quản lý số liệu Stata Import liệu Sử dụng StatTransfer Sử dụng câu lệnh insheet Sử dụng câu lênh odbc Quản lý số liệu Stata StatTransfer Quản lý số liệu Stata insheet • Đọc file liệu từ định dạng text insheet insheet [varlist] using filename [, options] Một số options: – – – – – – [no] double: xác định kiểu liệu double (mặc định), khơng có kiểu liệu float tab: Các giá trị số liệu cách tab comma: Các giá trị cách dấu phẩy delimiter( “char”): Chúng ta xác định kí tự số liệu clear: xóa số liệu nhớ [no] names: mặc định tên biến dịng Nếu bạn xác định no ngược lại Quản lý số liệu Stata insheet (tiếp) Để biết loại file liệu định dạng theo cách gõ type “tên_file” Ví dụ: type “đường_dẫn_fem.dat” Xem liệu theo định dạng loại insheet using "E:\ebook\stata\Lecture\Data example\Handbook of Stata\fem.dat“, tab Từ menu: File Import ASCII data created by a sheet Quản lý số liệu Stata odbc Các bạn sử dụng câu lệnh odbc cho excel odbc load, dsn("Excel Files;DBQ=d:\Book1.xls") table("Sheet1$") File Import ODBC data source chọn MS excel (chọn đường dẫn đến file excel) Quản lý số liệu Stata (tiếp) Sử dụng biến hệ thống Khi số liệu có nhớ _N đại diện cho tổng số quan sát _n đại diện cho quan sát số: _n=1 quan sát thứ nhất, _n=2 cho quan sát thứ hai, đến _n=_N cho quan sát cuối Chúng ta ứng dụng _n để tạo mục gen caseID = _n Quản lý số liệu Stata (tiếp) Sử dụng biến hệ thống Trong stata cho phép hiển thị liệu ô cụ thể liệu Biến hệ thống _n cịn có ứng dụng liệu dạng series Nếu có liệu hàng ngày giá cổ phiếu cụ thể thị trường chứng khoán với tên biến open Như vậy, muốn tính giao động giá ngày hôm sau so với hôm trước: sysuse sp500 gen difopen = open – open[_n-1] Bài tập Lưu lại nhật kí làm việc Thêm nhãn, nhãn giá trị bảng hỏi VHLSS2006 phần số liệu muc4a (thu nhập) cho câu m4ac1a, m4ac1b, m4ac1c, m4ac2, m4ac3, m4ac10b Từ tính tổng thu nhập (câu 11 + câu 12f + câu 21 + câu 22f + câu 25 bảng hỏi) Sử dụng số liệu muc1a, tạo biến reg8 (phân thành vùng) từ tỉnh; "Red River Delta" "North East" "North West" "North Central Coast“ "South Central Coast" "Central Highlands" "South East" "Mekong River Delta" Mô tả thống kê Các lệnh: summarize, tabulate, tabstat,tab1, tab2 Mô tả thống kê với biến liên tục Xử lý giá trị missing ví dụ Bảng tần suất bảng tương quan quan chiều(cross- tabulation) Export liệu Mô tả thống kê với biến liên tục Để mô tả thống kê với biến liên tục ta sử dụng lệnh Stata? summarize Trong lệnh summarize: tính bị observation khơng có missing Sẽ loại bỏ observation có giá trị missing bysort kết hợp với summarize Để tính summarize tách theo biến rời rạc summarize kết hợp với if Mô tả thống kê với biến liên tục (tiếp) Ví dụ: muc4a.dta, tính tổng thu nhập trung bình, theo ngành nghề làm việc (câu 10a) Kết hợp bysort với sum bysort m4ac10a: sum tongTN Chia theo ngành nghề Kết hợp if với sum sum tongTN if m4ac10a ==4 & m4ac10b==1 Mô tả tongTN theo kinh tế NN cán công chức sum tongTN if m4ac10a ==6 Mô tả tongTN theo kinh tế tư nhân Mô tả thống kê với biến liên tục (tiếp) tabstat: cung cấp cho bạn mô tả thống kê theo ý muốn bạn Từ ví dụ trước: ta muốn hiển thị mean, sd, median, variance, n tabstat m4ac11, sta(mean sd median variance n) Mô tả thống kê với biến liên tục (tiếp) tabstat kết hợp với by tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) m4ac10b mean sd p50 variance N có 16785.07 10389.17 15600 1.08e+08 716 không 11715.51 9470.253 9550 8.97e+07 384 Total 15015.33 10359.63 14000 1.07e+08 1100 Nếu bạn muốn tính thống kê với giá trị missing biến điều kiện (q34) ta cần gõ thêm lựa chọn missing sau tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) missing Chúng ta định dạng lại số liệu lựa chọn format tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) format(%9.1f) Xử lý giá trị missing ví dụ Có 27 giá trị missing có Stata, mặc định giá trị missing dấu chấm(.) Còn lại 26 giá trị missing trùng với 26 kí tự bảng chữ có dấu chấm đằng trước(.a, b, c,… ) Các giá trị missing Stata coi số vô lớn Xử lý giá trị missing ví dụ(tiếp) Ví dụ: muốn tính tính summarize (mơ tả thống kê) với liệu auto, ta tính mean biến price, theo rep78 sysuse auto summarize price if rep78>3 kết bảng 1.1 sum price if rep78>3 & rep78 < Kết bảng 1.2 Variable price Obs 34 Mean 6073 Std Dev 2315.435 Min 3748 Max 12990 Variable price Obs 29 Mean 6011.37 Std Dev 2055.312 Min 3748 Max 11995 Bảng 1.1 Bảng 1.2 Bảng tần suất chiều Để mô tả biến rời rạc Cú pháp: có câu lệnh cho lựa chọn tabulate varname [if] [in] [weight] [, tabulate1_options] tab1 varlist [if] [in] [weight] [, tab1_options] chạy lúc nhiều biến Ví dụ: tính frequencies giới tính chủ hộ tabulate m1ac2 if matv ==1 Chạy nhiều frequecies lúc tab1 m1ac2 m1ac3 m1ac6 Bảng tần suất bảng tương quan quan chiều(cross-tabulation) Sử dụng bảng tần suất bảng tương quan chiều với tabulate Cú pháp: có lựa chọn tabulate varname1 varname2 [if] [in] [weight] [, options] tab2 varlist [if] [in] [weight] [, options] tính tần suất chiều theo cách khác Mô tả thống kê theo bảng Mean, Median, đại lượng thống kê khác Ví dụ: tabulate var, sum(varlist) Tương tự tabstat kết hợp với by Với var biến rời rạc, varlist biến liên tục Mô tả thông kê (tiếp) Export liệu Dùng outsheet tabout để export liệu định dạng khác excel từ số liệu gốc outsheet [varlist] using filename [if] [in] [, options] Ví dụ keep make price mpg rep78 foreign keep 1/10 outsheet make price mpg re78 foreign using “D:\test.xls”, delimiter(“;") Mô tả thông kê (tiếp) Export liệu tabform export liệu cách tính mean, sd, ci tabform varlist using filename [if] [in] [aw fw], [ by(varname) sd se ci level (#) nototal bdec(#) sdbracket cibrace mte st mtprob mtse mtbdec vertical ] Ví dụ: tabform price mpg trunk weight using "D:\test.xls", by(foreign) sd ci level(90) bdec(2) sdbracket cibrace Mô tả thông kê (tiếp) Export liệu Dùng log file, với đuôi mở rộng file doc ... Chúng ta xem s? ?? liệu: File Example datasets Quản lý s? ?? liệu Stata Tạo dataset ? ?S? ?? dụng dataset mạng webuse lifeexp : S? ?? dụng lifeexp lưu http://www .stata- press.com/data/r10 Quản lý s? ?? liệu Stata. .. cho version 8,9) save [filename] [, save_options] • Xem liệu (browser) browse [varlist] [if] [in] [, nolabel] Quản lý s? ?? liệu Stata Tạo dataset • sysuse auto (s? ?? dụng s? ?? liệu s? ??n có Stata) ... liệu ? ?S? ?? dụng StatTransfer ? ?S? ?? dụng câu lệnh insheet ? ?S? ?? dụng câu lênh odbc Quản lý s? ?? liệu Stata StatTransfer Quản lý s? ?? liệu Stata insheet • Đọc file liệu từ định dạng text insheet insheet