Stata 8.0 laø moät chöông trình thống kê maïnh ñöôïc thieát keá ñeå quaûn lyù, phaân tích soá lieäu vaø veõ ñoà thò. Beân caïnh vieäc söû duïng caâu leänh nhö caùc phieân baûn tröôùc, Stata 8.0 coù theâm menu leänh (hay coøn goïi laø giao dieän ñoà hoïa ngöôøi duøngGUI ). Ñaây laø moät caûi tieán cuûa Stata nhaèm giuùp nhöõng ngöôøi môùi laøm quen vôùi Stata coù theå naém baét deã daøng. Hieän nay Stata coù moät soá phieân baûn nhö “Small Stata”, “Intercooled Stata”, vaø StataSE. Tất cả chỉ khaùc nhau ở dung lượng tối ña của tập tin số liệu vaø toác ñoä xöû lyù. Phieân baûn ñöôïc söû duïng trong taøi lieäu naøy laø StataSE, moät phieân baûn coù toác ñoä xöû lyù nhanh gaáp nhieàu laàn (töø 50600%) so vôùi Small Stata. Ñeå kieåm tra phieân baûn Stata ñang söû duïng, chuùng ta coù theå söû duïng leänh about.
Trang 1CHƯƠNG 1: TỔNG QUAN VỀ STAT 8.0
1 GIỚI THIỆU CHUNG
Stata 8.0 là một chương trình thống kê mạnh được thiết kế để quản lý, phântích số liệu và vẽ đồ thị Bên cạnh việc sử dụng câu lệnh như các phiên bảntrước, Stata 8.0 có thêm menu lệnh (hay còn gọi là giao diện đồ họa ngườidùng-GUI ) Đây là một cải tiến của Stata nhằm giúp những người mới làmquen với Stata có thể nắm bắt dễ dàng
Hiện nay Stata có một số phiên bản như “Small Stata”, “Intercooled Stata”,và Stata/SE Tất cả chỉ khác nhau ở dung lượng tối đa của tập tin số liệu vàtốc độ xử lý Phiên bản được sử dụng trong tài liệu này là Stata/SE, một phiênbản có tốc độ xử lý nhanh gấp nhiều lần (từ 50-600%) so với Small Stata Để
kiểm tra phiên bản Stata đang sử dụng, chúng ta có thể sử dụng lệnh about.
about
Stata/SE 8.0 for Windows
Born 30 Jan 2003
Copyright (C) 1985-2003
Total physical memory: 122352 KB
Available physical memory: 8100 KB
Single-user Stata for Windows perpetual license:
Serial number: 81980524154
Licensed to: IT Administration
Wellcome
2 CẤU TRÚC LỆNH TRONG STATA
Mặc dù Stata 8.0 có thêm menu lệnh, nhưng việc nắm vững cú pháp cáccâu lệnh là điều cần thiết bởi vì tài liệu này đa phần trình bày kiến thức dướidạng câu lệnh Sau đây là cú pháp lệnh chung trong Stata:
[by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename] [, option]
Trang 2 sort: nếu dữ liệu chưa được sắp xếp theo varlist, thì by sẽ sắp xếp dữ liệulại
rc0: nếu câu lệnh có lỗi ở một nhóm, by vẫn cho phép thực hiện câu lệnh
ở nhóm còn lại Sử dụng tốt nhất trong trường hợp câu lệnh dùng để ướclượng một hay một số nhóm không đủ số quan sát
Ví dụ: tóm tắt biến weight theo biến ht
Cách 1: sort ht
by ht: summarize weight
Cách 2: by ht, sort : summarize weight
Cách 3: bysort ht : summarize weight
2.2 [varlist]
Varlist là danh sách các tên biến có khoảng trắng ở giữa
Các cách để mô tả một varlist:
Dấu *: truy xuất những biến có một hoặc nhiều ký tự giống nhau
Dấu ~ : truy xuất chỉ một biến duy nhất có những ký tự mong muốn
Dấu ?: tương đương với một ký tự Tất cả các biến có kiểu tương tự đềuđược truy xuất
Dấu - : truy xuất tất cả các biến nằm trong khoảng từ biến bên trái sangbiến bên phải
_all : truy xuất tất cả các biến trong bộ số liệu
Ví dụ:
myvar* : truy xuất tất cả các biến bắt đầu bằng chuỗi ký tự myvar
my~var: truy xuất một biến duy nhất bắt đầu bằng my và kết thúc bằngvar
my?var : truy xuất các biến bắt đầu bằng my và kết thúc bằng var với bấtkỳ ký tự nào ở giữa
this-that: truy xuất các biến từ biến this đến biến that
2.3 [= exp)
Các mô tả có thể chứa một số toán tử Có 3 kiểu kiểu toán tử: toán tử số học,toán tử logic và hàm toán học Sau đây là quy ước của các toán tử này:
Toán tử logic
1 hoặc 0 : tương trưng cho mô tả logic là true hoặc false
< hay <= : tượng trưng cho “nhỏ hơn” hay “nhỏ hơn hoặc bằng”
> hay >= : tượng trưng cho “lớn hơn” hay “lớn hơn hoặc bằng”
giữa dấu gán “=” và dấu bằng “==” vì sẽ làm sai câu
Trang 3! & | : tượng trưng cho “không” ; “và” ; “hoặc”
Toán tử số học
+ - * / ^ : tượng trương cho cộng ; trừ; nhân; chia; và mũ
Hàm toán học
sqrt(); exp(); log() : tượng trưng cho các hàm toán học
substrr(str1, n1, n2) : tượng trưng cho các hàm chuỗi trong Stata
#/# : tượng trưng cho một phạm vi từ quan sát # đến quan sát #
Ví dụ: list x in 4/6 sẽ liệt kê tất cả các quan sát từ quan sát 4 đến quan sát 6 của biến x
f/# hay #/l : tượng trưng cho phạm vi từ quan sát đầu cho đến quan sát
# hay từ quan sát # đến quan sát cuối Ví dụ list x in f/79 sẽ liệt kê quan sát từ quan sát cuối cho đến quan sát 79
-#/# : tượng trưng cho phạm vi từ quan sát dưới trở lên trên Ví dụ: list -10/1 sẽ liệt kê 10 quan sát cuối cùng
2.6 [weight]
Có 4 dạng:
fweight, trọng số tần suất (frequency weight): là trọng số dùng để xác
định số quan sát trùng lắp
pweights, hay trong số lấy mẫu (sampling weights ) là những trọng số có
nghĩa là nghịch đảo xác suất mà quan sát đó được tính vào vì thiết kế lấy mẫu
aweights, hay trọng số phân tích, (analytic weights) , là những trọng số tỷ
lệ nghịch đảo của phương pháp của một quan sát; nghĩa là phương sai của quan sát thứ j được giả định bằng sigma bình phương/w_j, trong đó w_j là các trọng số Về cơ bản, các quan sát đại diện trung bình và trọng số là số
Trang 4của aweight là không thích hợp; stata tự động lập lại thang đo cho chúng từtổng đến N, số quan sát trong bộ số liệu khi stata sử dụng chúng.
iweights, hay trọng số tầm quan trọng ( importance weights), là các trọng
số có nghĩa là “tầm quan trọng” của các quan sát trong một số trường hợp nhạy cảm iweight không có một định nghĩa thống kê chính thức; bất cứ câu lệnh nào hỗ trợ iweight sẽ định nghĩa chính xác làm thế nào chúng được xử lý Trong hầu hết trường hợp, chúng được dự định để sử dụng bởi các nhà lập trình muốn sản xuất một công thức nào đó
Chúng ta sẽ có một số biến trong bộ dữ liệu chứa trọng số Cú pháp chung là
scatter y x [aweight=y2], mfcolor(none)
Lưu ý là phải gõ vào dấu ngoặc vuông
Stata cho phép các chữ viết tắt; fw cho fweight, aw cho aweight … Bạn có thể gõ
anova y x1 x2 x1*x2 [fw=pop]
regress avgy avgx1 avgx2 [aw=cellpop]
regress y x1 x2 x3 [pw=1/prob]
scatter y x [aw=y2], mfcolor(none)
Thêm vào đó, mỗi lệnh có ý kiến riêng của nó về lọai trọng số “tự nhiên” Nếu bạn gõ:
regress avgy avgx1 avgx2 [w=cellpop]
Câu lệnh sẽ nói với bạn rằng loại trọng số nào được giả định và biểu diễn yêu cầu như thể bạn địng rõ cho lọai trọng số đó
Trang 5Có một số dạng đồng nghĩa đối với một số lọai trọng số feight có thể được xem như là tần suất (chữ viết tắt của tần suất) aeight có thể được xem như cellsize (viết tắt của cell):
pweights
Trọng số lấy mẫu ám chỉ nghịch đảo của xác suất mà quan sát đó được lựa chọn Các câu lệnh cho phép pweigh về cơ bản cung cấp một option cụm () Những cái này có thể được kết hợp để sản sinh những ước đóan đối với dữ liệu lấy mẫu cụm
aweights
Trọng số aweights phân tích về cơ bản phù hợp khi bạn giải quyết với dữ liệu chứa số trung bình Ví dụ, bạn có trung bình thu nhập và trung bình đặc tính của một nhóm người Biến có trọng số chứa số người có trung bình được tính tóan (hay một số tỷ lệ với lượng đó)
iweights
Trọng số này không có định nghĩa chính thức và là một phân lọai tất cả Trọng số này đôi khi phản ánh tầm quan trọng của quan sát và bất cứ lệnh nào hỗ trợ những trọng số như vậy sẽ định nghĩa chính xác làm thế nào những trọngsố này được xử lý
2.7 [using filename]
Phần này chỉ được dùng trong một số lệnh, ví dụ như infile và outfile Sau khi sử dụng, bạn xác định một tên file Bạn xác định tên file trong ngoặc đơn nếu nó chứa khoảng trắng hay những ký tự đặc biệt
Ví dụ:
infile a b c using \mydata\myfile.raw
2.8 [option]
Trang 6Option được nhận diện nhờ một dấu phẩy tại cuối dấu phẩy và liệt kê các lựa chọn kết tiếp nhau với những khỏang cách:
tabulate r c, chi2 row col
Trong ví dụ này:
tabulate là lệnh
r and c là tên các biến
chi2, row, and col là các option
Không có dấu phẩy giữa các option .hầu hết các option là toggles – chúng ám chỉ rằng có thứ gì đó được hay không được thực hiện Cả ba lựa chọn trong ví dụ trên đều là toggle Một số option có đối số Phụ thuộc vào option nó có thể hỏi một số duy nhất, chuỗi hay biến hay vài biến (một varlist) hay một vài số
Trang 73 GIAO DIỆN CHƯƠNG TRÌNH
Sau khi khởi động Stata 8.0, màn hình sẽ xuất hiện các thành phần sau:
Menu Edit: bao gồm các lệnh liên quan đến sao chép dữ liệu
Menu Prefs: bao gồm các lệnh liên quan đến thiết lập giao diện cho Stata
Menu Data: bao gồm các lệnh liên quan đến việc quản lý số liệu trong Stata như dán nhãn, tạo biến, mô tả số liệu…
Menu Graphics: bao gồm các lệnh liên quan đến các loại đồ thị, biểu đồ trong thống kê như vẽ đa giác tần suất, tổ chức đồ, đồ thị
Trang 8Đây là thanh công cụ giúp thực hiện nhanh một số lệnh trong Stata Thanh này bao gồm:
: mở một tập tin số liệu Stata
: lưu tập tin với một tên khác Tập tin với tên cũ không bị thay đổi sau khi xử lý
: in kết quả hiện ra trên màn hình
: mở một file log nhằm lưu lại kết quả hiển thị trên cửa sổ Stata Command
:mở cửa sổ help thay vì sử dụng Menu Help
: đưa cửa sổ kết quả lên phía trước màn hình (trường hợp cửa sổ kết quả bị che khuất)
: đưa cửa sổ đồ thị lên phía trước màn hình (trường hợp cửa sổ đồ thị bị che khuất)
: tạo một do-file (tập tin chứa các câu lệnh)
: chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata
: xem nhưng không được chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata
: cho chạy tiếp kết quả khi màn hình xuất hiện chỉ báo
–-more :chấm dứt câu lệnh đang chạy (trong trường hợp câu lệnh xử lý lâu hay kết quả quá dài)
Trang 9Cửa sổ review sẽ hiển thị tất cả các câu lệnh đã được thực hiện trong quá trình xử lý tập tin số liệu
Cửa sổ Variables sẽ hiển thị tất cả các biến của tập tin số liệu đang được làm việc
Trang 104 MỞ-LƯU TRỮ-ĐÓNG TẬP TIN SỐ LIỆU
4.1 Mở tập tin số liệu
Sau khi màn hình Stata xuất hiện, việc tiếp theo là chúng ta phải mở tập tin sốliệu Stata để làm việc với tập tin này Tập tin số liệu Stata sẽ có phần mở rộnglà “.dta” quy trình mở tập tin số liệu như sau
B1: Click vào Menu File chọn Open; màn hình sẽ hiện ra cửa sổ Use New
Data
Cửa sổ Stata Command cho phép gõ các câu lệnh thay vì sử dụng các menu lệnh
Trang 11B2: chọn thư mục chứa tập tin số liệu trong ô Look in
B3: chọn tên tập tin số liệu
B4: click vào nút OK
Sau một thời gian thao tác với tập tin số liệu, chúng ta cần phải lưu lại nhữngkết quả của quá trình làm việc Quy trình lưu tập tin số liệu như sau:
B1: click vào Menu File chọn Save, màn hình xuất hiện thông báo
B2: chọn OK thì tập tin số liệu gốc sẽ bị ghi đè.
Chúng ta cũng có thể lưu tập tin sau khi làm việc thành tập tin mới mà không cần chép đè lên tập tin gốc bằng cách sau:
B1: chọn Menu File chọn Save As , màn hình hiển thị cửa sổ Save Stata Data
File
Trang 12B2: chọn thư mục muốn lưu tập tin trong ô Save In
B3: chọn tên mới cho tập tin gốc trong ô File Name
B4: click chọn OK
4.3 Đóng tập tin số liệu
Sau khi xử lý xong tập tin, muốn thoát khỏi chương trình chọn nút ở gócphải màn hình để thoát khỏi chương trình
Lưu ý là nếu chưa lưu tập tin thì chương trình sẽ không thoát mà sẽ hiển thị hộpthoại yêu cầu lưu dữ liệu
5 NHẬP-CHUYỂN ĐỔI- XUẤT TẬP TIN SỐ LIỆU
Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu trong Stata
Trang 13Đối với các tập tin số liệu thuộc các chương trình thống kê khác như Excel, SPSS,SAS… chúng ta cĩ thể chuyển đổi sang tập tin Stata bằng cách sử dụng phầnmềm chuyên dụng như DBMSCopy hay Stat Transfer
Đối với các tập tin số liệu được nhập dưới dạng số liệu thơ (hay cịn gọi là tập tin ASCII với đuơi là text, raw, cvs…), chúng ta sử dụng các lệnh insheet, infile và infix
Cú pháp
insheet using “đư ng d n\tên file.text ờng dẫn\tên file.text ẫn\tên file.text
hay
insheet using “đư ng d n\tên file.cvs” ờng dẫn\tên file.text ẫn\tên file.text
Cho phép Stata chuyển tập tin số liệu
ở dạng bảng tính mở rộng trong đĩcác
c t là các bi n và m i dịng tộ ế ỗi dịng t ượng trưng cho m t quan sát Các bi n này cách nhau ộ ế
b i d u tab hay d u ph y và dịng đ u ở ấ ấ ẩy và dịng đầu ầtiên cĩ th ch a tên c a bi nể ứa tên của biến ủ ế
infile var1 var2 var3 using mydata.txt Cho phép Stata nhập tập tin với số
liệu được định dạng bằng cách sử dụng các khoảng trắng
infix var1 1-3 var2 4 str name 10-20 using “tên t p ậ
tin”.raw Cho phép Stata chuy n t p tin s li u ể ậ ố ệ
chưa đ nh d ngịnh dạng ạ khơng s d ng t p tin ử ụ ậ
đ nh nghịnh dạng ĩa
infix dictionary using “tên t p tin”.raw { var1 1-3 var2 4 ậ
str name 10-20 } T o t p tin đ nh nghạ ậ ịnh dạng ĩa cho t p tin ậ
chuy n đ i trong Stataể ổ
infix using “tên t p tin”.dct ậ Chuy n đ i t p tin chể ổ ậ ưa đ nh d ng s ịnh dạng ạ ử
d ng t p tin đ nh nghụ ậ ịnh dạng ĩa
Ví d 1: ụ
Chúng ta cĩ t p tin Excel ậ
Trang 14Lưu t p tin Excel trên dậ ướ ại d ng cvs
insheet using “đư ng d n\tên file.cvs” ờng dẫn\tên file.text ẫn\tên file.text
infile str20 make mpg weight price using "D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto2.raw",clear
Cần lưu ý biến đầu tiên là biến kiểu chuỗi Tuy nhiên để Stata hiểu đó là biếnkiểu chuỗi chúng ta cần xác định rằng đó là biến chuỗi cũng như số ký tự củanó Vì v y c n s nh p ậ ầ ử ậ str20
Trang 15infix dictionary using "D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw",clear {
2 lines
1:
str make 1-20 2:
mpg 1-2 weight 3-6 price 7-10 }
infix using mydic.dct
5.3 Xuất tập tin số liệu
Sau khi xử lý xong tập tin ASCII, chúng ta có thể xuất tập tin này dưới dạngtập tin Stata hay dưới dạng tập tin ASCII trở lại
Cú pháp
save “đư ng d n\tên file.dta” ờng dẫn\tên file.text ẫn\tên file.text Lưu tập tin dưới dạng tập tin Stata
outsheet “đư ng d n \tên file raw”, replace ờng dẫn\tên file.text ẫn\tên file.text : lưu tập tin dưới dạng file ASCII
outfile “đư ng d n\tên file.raw”, replace ờng dẫn\tên file.text ẫn\tên file.text lưu tập tin dưới dạng file ASCII nhưng
Trang 16không có dòng đầu tiên
Ví d ụ
save D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.dta
outsheet D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace
outfile D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace
6.1 Do-File
Trong nhiều trường hợp, các tập tin số liệu khác nhau có thể cùng sử dụng nhiều lệnh giống nhau cho dù chúng có tập hợp biến số khác nhau Để tránh việc lập lại những câu lệnh này mỗi khi thao tác, Stata có chức năng tạo một tập lệnh chung cho tất cả các tập tin số liệu gọi là do-file
Quy trình t o do-file ạo do-file
Cú pháp
doedit T o m t t p tin do-fileạ ộ ậ
do “đư ng d n\tên do-file” ờng dẫn\tên file.text ẫn\tên file.text Ch y do-file trên t p tin hi n hành ạ ậ ệ
Lưu do-file
Trang 17Một chức năng khác ngoài chức năng tạo do-file của Stata là chức năng tạo log-file Log file được sử dụng để lưu lại kết quả của quá trình xử lý tập tin làmviệc dưới dạng văn bản để người xử lý có thể dễ dàng xem lại các kết quả
Quy trình t o log file ạo do-file
Cú pháp
log using “đư ng d n\tên log.smcl”, text ờng dẫn\tên file.text ẫn\tên file.text T o file log cĩ đuơi smcl d ng text ạ ạ
Mu n xem dố ướ ại d ng word, notepad
ph i chuy n đ iả ể ổ
log using “đư ng d n\tên log.log ờng dẫn\tên file.text ẫn\tên file.text T o file log đuơi log nghạ ĩa là file log s ẽ
đư c xem tr c ti p dợ ự ế ướ ại d ng notepad khơng c n chuy n đ iầ ể ổ
view “đư ng d n\tên log.smcl”, text ờng dẫn\tên file.text ẫn\tên file.text Xem l i file log đã t o trạ ạ ước đĩ
log using “đư ng d n\tên log”, append ờng dẫn\tên file.text ẫn\tên file.text S d ng file log trử ụ ước đĩ và ti p n i n iế ố ộ
dung file cũ
log using “đư ng d n\tên log”, replace ờng dẫn\tên file.text ẫn\tên file.text S d ng file log cử ụ ũ nhưng thay th tồnế
b n i dung cộ ộ ũ
log off T m d ng file logạ ừng file log
log on M l i file logở ạ
log close Đĩng file log
Ví d : ụ
log using "C:\Documents and Settings\Me\Desktop\h.smcl", text
log using "C:\Documents and Settings\Me\Desktop\h.log"
Trang 18log close
7 LƯU VÀ SAO CHÉP ĐỒ THỊ
Với chức năng log file như vừa nói ở trên chúng ta có thể lưu trữ cũng như saochép các kết quả của phiên xử lý dưới dạng file log hay file smcl Tuy nhiênnếu trong quá trình xử lý, chúng ta có vẽ biểu đồ hay đồ thị thì log file lạikhông thể lưu lại các đồ thị hay biểu đồ này Do đó để lưu đồ thị cũng như cắtdán đồ thị sang một tập tin khác chúng ta làm như sau:
7.1 Lưu đồ thị/biểu đồ
Sử dụng menu lệnh với các bước sau đây:
B1:chọn Menu File chọn Save Graph, màn hình hiển thị cửa sổ Save StataGraph File
B2: chọn thư mục lưu trong ô Save in
B3: chọn tên cho file graph
B4: click OK
7.2 Sao chép đồ thị/biểu đồ
Click chuột phải vào biểu đồ/đồ thị và chọn Copy Graph, chọn tập tin muốndán và chọn paste
8 HỆ THỐNG TRỢ GIÚP (HELP)
Stat có Menu Help dùng để trợ giúp người dùng trong việc sử dụng Stata Nếungười dùng muốn tìm từ khóa liên quan đến Stata, người dùng chỉ chọn MenuHelp Search, màn hình hiển thị cửa sổ Keyword Search
Trang 19Nếu bạn biết tên một lệnh nào đó nhưng lại không biết chức năng của lệnh,chúng ta có thể nhờ Stata trợ giúp bằng cách chọn Menu Help StataCommand, màn hình hiển thị cửa sổ Stata Command
Gõ tên lệnh rồi nhấn OK, Stata sẽ hiện thị tất cả các thông tin liên quan đếnlệnh đó như các mô tả, cách dùng các option…
9 CÁC CHỨC NĂNG KHÁC
9.1 Lệnh more
Trong quá trình Stata chạy một câu lệnh, nếu kết quả của lệnh đó quá dài,Stata chỉ hiện thị một phần kết quả trên màn hình Result Khi đó, cuối mànhình Result sẽ xuất hiện một dòng lệnh như sau
more—
Dòng lệnh này thông báo rằng kết quả chưa hiển thị ra hết Để hiện thị nộidung phần kết quả tiếp theo chúng ta thực hiện một trong ba cách sau:
Gõ phím trắng để xem câu trả lời ở màn hình kế tiếp
Gõ l hay enter để xem dòng tiếp
Gõ q để ngừng không hiện ra kết quả nữa để người sử dụng có thể thựchiện được câu lệnh mới Khi đó màn hình sẽ xuất hiện Break—- màu đỏđể thông báo điều này
9.2 Quản lý Bộ nhớ
Trong nhiều trường hợp, file số liệu mà bạn tải về để xử lý có dung lượng quálớn so với Bộ nhớ mà Stata dành để xử lý số liệu Trong trường hợp đó, Statasẽ xuất hiện thông báo trong cửa sổ Stata Results
No room to add more observations
R(901);
Khi đó chúng ta phải thay đổi số lượng bộ nhớ cấp cho khu vực dữ liệu; Stata đề nghị thiết lập bộ nhớ tối thiểu là gấp 1 lần hay ½ lần kích thước file bạn muốn tải vào bộ nhớ máy tính Chúng ta thực hiện điều này bằng câu lệnh :
Trang 20set memory #m, permanently
Ngoài ra khi muốn tìm hiểu việc sử dụng bộ nhớ của Stata, bạn có thể dùnglệnh memory hoặc query memory.
10 CÁC QUY ƯỚC TRONG TÀI LIỆU
Trong mỗi câu lệnh sẽ gồm ba phần
lấy từ một trong các tập tin sẽ được trình bày trong mục 11 dưới đây
Diễn giải kết quả : sẽ đưa ra những lý giả các con số giúp người đọc hiểu được các kết quả này
Trong phần cú pháp của các câu lệnh, sẽ có những chữ viết tắt với ý nghĩa như sau mà chúng ta cần nhớ:
Trong phần diễn giải kết quả, sẽ có những chỗ in đậm ví dụ như P < F_L + P > F_U =
0.0373 thì đó chính là phần quan trọng trong phần kết quả mà chúng ta cần phải đọc và hiểu được kết quả đó nói gì.
11 CÁC TẬP TIN SỐ LIỆU ĐƯỢC SỬ DỤNG
Để việc nắm bắt Stata được dễ dàng, chúng ta cần phải thực hành các câu lệnhtrên một tập tin số liệu nhất định Vì vậy, trong tài liệu này chúng ta sẽ sử dụngmột số tập tin số liệu mẫu được thiết kế để người sử dụng có thể thực hành cáclệnh trên đó Để giúp người đọc hiểu được nội dung của các tập tin số liệu này,chúng tôi xin trình bày danh sách các tập tin số liệu cũng như mục đích của cáctập tin này dưới đây:
Trang 21fem.dta:
Đây là một tập tin số liệu về một nghiên cứu cắt ngang ở 118 bệnh nhân nữmắc bệnh suy nhược Tập tin số liệu này có các biến như sau
age: tuổi tính theo năm
iq: chỉ số thông minh
anxiety: lo lắng (1=không, 2=nhẹ, 3=trung bình, 4= nặng)
depress: suy nhược (1=không, 2=nhẹ, 3=trung bình, 4= nặng)
sleep: bà/cô có thể ngủ bình thường hay không? (1=có, 2=không)
sex: bà/cô có mất hứng thú khi quan hệ tình dục? (1=không, 2=có)
life: gần đây bà/cô có cảm thấy muốn tự tự hay không? (1=không, 2=có)
weight: tăng trọng lượng trong vòng 6 tháng gần đây (theo lbs)
Trong các biến trên, biến age, iq, weight là những biến định lượng còn nhữngbiến anxiety, depress là những biến thứ tư ; biến sleep, sex, life là những biếnnhị giá Việc phân biệt các loại biến như trên là rất quan trọng vì nó giúp ngườiphân tích có thể áp dụng được những phương pháp phù hợp với loại biến đó.Nghiên cứu này được tiến hành nhằm trả lời một số câu hỏi như : “các biếnliên quan với nhau như thế nào?”, liệu những người phụ nữ có ý định tự tự vànhững người không có khác nhau ở khía cạnh nào hay không?” Nghiên cứucòn quan tâm đến mối tương quan giữa lo lắng và suy nhược cũng như mốitương quan giữa thay đổi trọng lượng, tuổi và chỉ số iq
usair.dta:
Đây là tập tin số liệu về ô nhiễm tại 41 thành phố của Mỹ được thu thập bởi Sokal và Rohlf (1981) từ một số tạp chí chính phủ Mỹ Trong tập tin này, chỉ cómột biến phụ thuộc duy nhất, so2 là trung bình mật độ SO2 hằng năm tính bằng mg/m3 những con số trung bình trong tập tin này là những con số trung bình của mức SO2 trong vòng 3 năm từ 1969 đến 1971 cho mỗi thành phố Các biến còn lại là những biến giải thích (hay là những biến độc lập) được liệt kê dưới đây:
temp:nhiệt độ trung bình theo f0
manuf: số công ty sản xuất có từ 20 công nhân trở lên
pop: kích thước dân số trên 1000
wind: tốc độ gió trung bình hằng năm tính bằng dặm/giờ
precip: lượng mưa trung bình hằng năm tính theo inches
days: số ngày trung bình có mưa trên một năm
Câu hỏi chính về những dữ liệu này là mức ô nhiễm được đo lường bằng mật độ tập trung của SO sẽ được xác định như thế nào bởi sáu biến độc lập còn lại
Trang 22Giống chuột đần độn có mắc nhiều sai lầm hơn giống chuột thông minh khihtực hiện các trắc nghiệm trong mê đạo hay không?
Môi trường nuôi dưỡng chuột có ảnh hưởng đến việc chuột mắc nhiều hay ítcác sai lầm hay không?
Môi trường nào là tối ưu cho loại chuột nào?
ivf.dta
Trang 23CHƯƠNG 2: QUẢN LÝ SỐ LIỆU
Khi có trong tay một tập tin số liệu (nhiều khi không do bản thân người sử dụngthu thập ), chúng ta có nhiều câu hỏi đặt ra liên quan đến tập tin số liệu đó.Chẳng hạn như tập tin này có bao nhiêu biến, các biến đó là biến gì, biến đó cóbao nhiêu giá trị, vvv Do đó trước khi thực hiện thống kê mô tả cũng nhưthống kê phân tích, chúng ta cần phải thực hiện một bước gọi là quản lý sốliệu Chương 2 này sẽ trình bày các câu lệnh liên quan đến quản lý tập tin vàquản lý các biến trong tập tin số liệu đó
Trong chương này cũng như những chương tiếp theo, có một số câu lệnh đơngiản chúng tôi không hướng dẫn sử dụng menu lệnh mà chỉ hướng dẫn gõ câulệnh trực tiếp vào cửa sổ Stata Command Như vậy, người sử dụng có thể nhớđược những lệnh căn bản mà không cần sử dụng menu lệnh
1 QUẢN LÝ TẬP TIN SỐ LIỆU
1.1 Mô tả tập tin số liệu
Stata có nhiều cách để tìm hiểu thông tin về tập tin số liệu được nhập vào Stata, mỗi cách sẽ cho những thông tin khác nhau về tập tin số liệu đó
inspect var1 var2 … Cung cấp đồ thị đơn giản và dấu của
các quan sát
Ví dụ 1:
Trang 24Contains data from C:\DOCUME~1\Me\Desktop\BOSOLI~2\COPYOF~1.DTA
obs: 118
vars: 9 28 Feb 2007 16:23
size: 2,124 (99.8% of memory free)
storage display value
variable name type format label variable label
-id int %8.0g ID
age byte %8.0g AGE
iq int %8.0g IQ
anxiety byte %8.0g ANXIETY
depress byte %8.0g DEPRESS
sleep byte %8.0g SLEEP
sex byte %8.0g SEX
life byte %8.0g LIFE
weight float %9.0g WEIGHT
-Sorted by:
Diễn giải kết quả:
Số quan sát (obs): 118
Số biến (vars) : 6
Kích thước tập tin (size): 2,124 (chiếm 0.2% bộ nhớ ảo trong stata)
Trang 25Diễn giải kết quả:
Loại số liệu (type): kiểu số (tính bằng byte)
Phạm vi giá trị (range): từ 29 đến 46 tức là tuổi của các đối tượng từ 29-46
Số giá trị (unique values): 18 bao gồm các giá trị 29,30,31… cho đến 46
Khoảng cách các giá trị (unit): 1 tức các đơn vị cách nhau 1 đơn vị
Số giá trị mất (missing): 0/118 tức không có giá trị mất trên tổng số 118quan sát
more Diễn giải kết quả
Các giá trị –99 trong một số quan sát biểu thị cho gái trị mất
Chữ more cuối màn hình cho biết kết quả còn tiếp tục Muốn xem tiếp ấnvào chữ more
Trang 26Diễn giải kết quả:
Biến age có 118 giá trị dương (positive)
Biến age có 118 giá trị nguyên (interger)
1.2 Chỉnh sửa tập tin số liệu
Sau khi mô tả số liệu, nếu nhận thấy tập tin số liệu cần sửa đổi hoặc thêm bớt biến, chúng ta có thể sửa đổi trực tiếp trên Stata
Cú pháp
edit Mở cửa sổ soạn thảo tập tin
Ví dụ:
edit
Trang 27Sau khi hoàn tất việc sửa đổi, nhấn nút ở góc phải màn hình Stata editor, một hộp thoại xuất hiện
Chọn OK, stata sẽ chấp nhận các thao tác sửa đổi trước đó
2 QUẢN LÝ BIẾN SỐ
Trong mục 2 này chúng ta sẽ được hướng dẫn các lệnh xử lý hay còn gọi là
“làm sạch” tập tin số liệu sao cho các biến cũng như các giá trị của nó phải thật dễ hiểu và gọn gàng nhằm chuẩn bị cho bước thống kê mô tả cũng như thống kê phân tích được thuận lợi Chúng ta tiếp tục thực hành với tập tin số
liệu fem.dta cho các câu lệnh trong phần này
2.1 Tạo biến mới
Cú pháp
generate newvar = exp
gen newvar=exp Tạo biến mới theo mô tả (exp) sau
dấu =
egen newvar= exp Tạo biến mới với phần mô tả phức tạp
hơn (tính trung bình, độ lệch chuẩn )
Trang 28Ví dụ 1:
gen cannang=weight
gen llsn = life==2 & depress==2
Diễn giải kết quả:
Tạo biến cannang bằng với biến weight
Tạo biến llsn bao gồm những đối tượng có giá trị biến life bằng 2 và giá trịbiến depress bằng 2
Ví dụ 2:
egen age_mean = mean(age)
Diễn giải kết quả:
Tạo biến age_mean bằng trung bình tuổi
2.2 Hủy bỏ biến
Cú pháp
drop varlist Xóa các biến trong varlist
keep varlist Xóa các biến còn lại trừ các biến trong varlist
Ví dụ:
keep age-llsn
drop llsn cannang
Diễn giải kết quả:
Giữ lại các biến từ biến age cho đến biến llsn, xóa các biến còn lại
Xóa các biến llsn và cannang
2.3 Chuyển đổi kiểu biến số
Trong Stata có 3 kiểu biến số sau đây: biến dạng số, biến chuỗi và biến ngàytháng
Trang 29Biến kiểu số có thể là số âm, số dương, số nguyên và số thập phân TrongStata ngoài ký hiệu str dùng để chỉ biến chuỗi, các ký hiệu còn lại (float, int )đều là biến số Nếu khi gõ câu lệnh mà màn hình result hiện thông báo “typemismatch” có nghĩa là bạn câu lệnh đó không dùng cho biến số quan tâm.
Biến kiểu chuỗi cũng thường được gọi là biến “ký tự” là những biến chứa cácký tự cũng như các ký tự đặc biệt khác (@, ‘’…)
Biến kiểu ngày tháng là một trường hợp đặc biệt của biến kiểu số Mặc dùchúng thường được gõ vào dưới dạng chuỗi (ví dụ: 01jan1992 hay 01/01/92),chúng phải được lưu lại trong Stata dưới dạng số Stata có một số câu lệnh liênquan đến việc với biến ngày tháng Khi đó, Stata sẽ lưu ngày tháng dưới dạngsố ngày (hay tháng hay quý ) tính từ ngày 1/1/1960 Nếu ngày nhập liệu trướcngày 1/1/1960 thì giá trị của ngày đó sẽ mang dấu âm, còn nếu sau ngày1/1/1960 sẽ mang dấu dương
2.3.1 Chuyển đổi giữa biến chuỗi và biến số
Nếu trong bộ số liệu chúng ta có những biến dưới dạng chuỗi chúng ta phảichuyển những biến này thành dạng số để có thể thực hiện các thống kê phântích trên biến đó Cũng có trường hợp ngược lại khi chúng ta muốn chuyểnnhững biến số thành biến chuỗi Khi đó, Stata có các lệnh “destring”,
“decode”, “encode”
Cú pháp
destring varname, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi
encode var, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi và gắn
những ký tự trong giá trị của biến chuỗi cho các giá trị số của biến số mới tạo
decode var, gen(newvar) Tạo biến chuỗi từ biến số Tuy nhiên muốn thực
hiện được lệnh decode, phải dán nhãn giá trị chobiến kiểu số
Ví dụ 1:
destring d_income, gen(inc_pct_num) ignore("$")
Diễn giải kết quả
Trang 30 Tạo biến inc_pct_num là biến số từ biến chuỗi d_income trong đó loại bỏ (ignore) các kí tự đặc biệt của biến d_income.
Ví dụ 2:
destring inc_pct, gen(inc_pct_num) percent force
Diễn giải kết quả
Tạo biến inc_pct_num là biến số từ biến inc_pct dạng chuỗi trong đó các giá trị của biến inc_pct_num sẽ ở dưới dạng phần trăm (percent)
Option force dùng trong trường hợp nếu không thể chuyển những giá trị của biến chuỗi thành dạng số thì Stata sẽ chuyển những giá trị này thành giá trị mất
Ví dụ 3:
encode city, gen(citynum)
Diễn giải kết quả:
Tạo biến kiểu số citynum từ biến kiểu chuỗi city trong đó các giá trị của biến citynum sẽ được gán nhãn gồm các ký tự đầu tiên trong các giá trị của biến city
Ví dụ 4:
decode citynum2, gen(cityname)
Diễn giải kết quả:
Tạo biến kiểu số cityname từ biến kiểu chuỗi citynum2
2.3.2 Chuyển đổi giữa biến ngày tháng và biến số
Thường thì khi nhập ngày tháng vào tập tin số liệu chúng ta thường nhập dưới dạng “01jan1958” hay “feb 25 1990” hay “19/5/93” Chúng ta cần phải
chuyển những dạng này sang dạng số Stata sẽ có các lệnh chuyển dạng ngày tháng sang dạng số và định dạng hiển thị cho các số liệu này
Cú pháp
Trang 31biến ngày là một biến chuỗi đơn Dạng chuỗi của biến ngày phải có khoảng ngăn cách
gen newvar=mdy(varmonth,varday,varyear) Hàm mdy dùng trong trường hợp
ngày nghiên cứu được tách ra thành
ba biến là biến ngày, biến tháng, biến năm Khi đó hàm mdy sẽ tạo nên biến số ngày là tổng hợp của ba biến trên
gen newvar=year(var) Hàm month, year, day cho phép bạn
rút trích tháng, năm, ngày của biến ngày tháng thành các biến tháng, năm, ngày dạng số
Diễn giải kết quả
Tạo biến số datevar từ biến ngày tháng str_date
Tạo biến kiểu số birthdate từ ba biến chuỗi b-month, b_day, b_year
Tạo biến kiểu số yearvar từ biến kiểu số birthdate trong đó chỉ lấy phần năm của biến birthdate
Tạo biến kiểu số monthvar từ biến kiểu số birthdate trong đó chỉ lấy phần tháng của biến birthdate
Tạo biến kiểu số dayvar từ biến kiểu số birthdate trong đó chỉ lấy phần ngày của biến birthdat
2.4 Thay đổi giá trị của biến
Trang 32mvdecode varlist, mv(-99) Chuyển các giá trị = -99 (theo quy ước
là các giá trị mất) thành dấu “.” (ký hiệu giá trị mất trong Stata
replace var = exp Chuyển một loại giá trị của một biến
thành một loại giá trị khác
recode varlist (rule) Chuyển toàn bộ các quan sát của một
loại giá trị thành một loại giá trị khác
Ví dụ 1:
mvdecode _all, mv(-99)
iq: 8 missing values generated
anxiety: 5 missing values generated
depress: 8 missing values generated
sleep: 5 missing values generated
sex: 4 missing values generated
life: 1 missing value generated
weight: 11 missing values generated
cannang: 11 missing values generated
csiq: 8 missing values generated
Diễn giải kết quả
Exp _all trong câu lệnh tượng trưng cho tất cả các giá trị của các biến có giátrị là -99 sẽ được chuyển thành dạng “.” trong tập tin này, biến iq có 8 giá trị mất (-99) chuyển tàhnh dấu “.”, biến anxiety có 8 giá trị…
Ví dụ 2:
replace sleep= if sleep==3
(1 real change made, 1 to missing)
Diễn giải kết quả
Thay thế giá trị 3 trong biến sleep bằng dấu “.”
Có một giá trị được thay đổi, một giá trị trở thành giá trị mất
Ví dụ 3:
recode sleep 1=2 2=1
Trang 33recode sleep 3/5 = 6
recode sleep nonmiss=8
recode sleep miss=3
recode sleep else=7
Diễn giải kết quả:
Chuyển giá trị 1 thành giá trị 2, giá trị 2 thành giá trị 1
Chuyển giá trị 1 và thành giá trị 2
Chuyển các giá trị 3, 4, 5 thành các giá trị 6
Chuyển các giá trị không mất thành giá trị 8
Chuyển các giá trị mất thành giá trị 3
Chuyển các giá trị còn lại thành giá trị 7
2.5 Tạo nhãn cho Bộ số liệu-biến-giá trị của biến 2.5.1 Tạo nhãn cho Bộ số liệu
Cú pháp
label data “tên t p tin” ậ
Ví dụ
label data "nghien cuu ve suy nhuoc o phu nu"
2.5.2 Tạo nhãn cho biến
Cú pháp
label variable labelname
Ví dụ:
Trang 34label variable iq chisoIQ
Diễn giải kết quả
Tạo nhãn chisoIQ cho biến iq
2.5.3 Tạo nhãn cho giá trị
Cú pháp
label define lbname # exp # exp Tạo nhãn cho các giá trị
label values varname lbname Gán nhãn giá trị cho biến
Ví dụ:
label define mucdo 1 khong 2 nhe 3 trungbinh 4 nang
label value anxiety mucdo
Diễn giải kết quả
Tạo nhãn giá trị có tên là mucdo với giá trị 1=không 2=nhẹ, 3=trung bình, 4= nặng
Gán nhãn mucdo cho biến anxiety
3 BÀI TẬP
Mở tập tin fem.dta và thực hiện các yêu cầu sau:
1 Mô tả toàn bộ tập tin số liệu Có nhận xét gì về các biến số?
2 Làm sạch tập tin số liệu, dán nhãn cho tập tin, các biến số và các giá trị củabiến số
Trang 35CHƯƠNG 3: THỐNG KÊ MÔ TẢ
Sau khi làm sạch bộ số liệu, chúng ta đã có thể thực hiện công việc thống kê mô tả bộ số liệu Thống kê mô tả là một nhánh của thống kê trong đó sử dụng các công cụ là bảng phân phối tần suất, đồ thị/biểu đồ và các con số đo lường mức độ tập turng (trung bình, trung vị…) cũng như phân tán (độ lệch chuẩn, phương sai) để mô tả số liệu
1 THỐNG KÊ MÔ TẢ ĐỐI VỚI BIẾN ĐỊNH LƯỢNG
1.1 Mô tả bằng bảng phân phối tần suất
Quy trình
Xác định cácnhómTạo biến mới
Trang 36Cú pháp
tab varname Lập bảng phân phối tần suất cho một biến định lượng
Ví dụ:
gen csiq = iq
recode csiq (80/84=1) (85/89=2) (90/94=3) (95/99=4) (100/max=5)
(csiq: 110 changes made)
label define csiq 1 " 80-84" 2 "85-89" 3 "90-94" 4 "95-99" 5 "100-106"
label value csiq csiq
Diễn giải kết quả:
Tạo biến csiq bằng biến iq
Nhóm các giá trị của biến csiq thành 4 giá trị 1, 2, 3, 4
Dán nhãn giá trị cho biến csiq
Nhìn vào bảng phân phối tần suất, chúng ta nhận thấy chỉ số iq của nhóm phụ nữ tham gia nghiên cứu chủ yếu tập trung trong nhóm 90-94 (45.45%)
Dán nhãn giá trị
Lập bảng phân phối tần suất
Trang 37Diễn giải kết quả
Chỉ số iq trung bình của 110 phụ nữ là 91,79 (tương ứng với nhóm 90-94 trong bảng phân phối tần suất), độ lệch chuẩn là 4.53, và chỉ số iq thấp nhấtlà 82, cao nhất là 106
Trang 38 Biến iq có trung vị là 92 (50%)
Phương sai (variance) là 20.50
Có độ cong cao (kurtosis= 3.39)
1.3 Mô tả bằng đồ thị/biểu đồ
Cú pháp
histogram varnam, options Vẽ tổ chức đồ cho biến định lượng
graph box varname, options Vẽ biểu đồ hộp cho biến định lượng
Ví dụ 1:
histogram iq, frequency normal ytitle(Tan suat) xtitle(chi so IQ) title(bieu do c
> ot cho bien iq)
(bin=10, start=82, width=2.4)
Diễn giải kết quả
frequency: vẽ đồ thị tần suất cho biến iq
normal: vẽ đường phân phối bình thường trong đồ thị
Trang 39 title( ): tên cho đồ thị
bin: số cột được chia trong đồ thị là 10
start: đồ thị được bắt đầu bằng giá trị 82
độ rộng cột là 2.4
(các giá trị bin, start và width có thể thay đổi được)
dựa trên đường phân phối bình thường, chúng ta nhận thấy biến iq có phân phối bình thường
Ví dụ 2:
graph box iq, medtype(line)
Diễn giải kết quả
medtype (): quy định loại đường trung vị (thẳng, chấm, gạch )
biến iq có một giá trị ngoại lai là giá trị là giá trị 106
2 THỐNG KÊ MÔ TẢ VỚI BIẾN ĐỊNH TÍNH
2.1 Mô tả bằng bảng phân phối tần suất
Cú pháp
tab varname mô tả bảng phân phối tần suất cho một biến
tab1 varlist mô tả bảng phân phối tần suất cho nhiều biến
Ví dụ 1:
Trang 40suynhuoc | Freq Percent Cum.
Diễn giải kết quả:
Số phụ nữ bị trầm cảm nhẹ chiếm đa số trong dân số nghiên cứu (67-60.91%)
Diễn giải kết quả:
Số phụ nữ không ngủ được bình thường chiếm đa số (98-87.50%)
Số phụ nữ mắc phải lo âu nhẹ chiếm đa số (62-54.87%) trong khi số phụ nữ mắc lo âu nặng chiếm thấp nhất (4-3.54%)
2.2 Mô tả bằng đồ thị/biểu đồ