Bí kíp phân tích dữ liệu với Stata

Stata 8.0 laø moät chöông trình thống kê maïnh ñöôïc thieát keá ñeå quaûn lyù, phaân tích soá lieäu vaø veõ ñoà thò. Beân caïnh vieäc söû duïng caâu leänh nhö caùc phieân baûn tröôùc, Stata 8.0 coù theâm menu leänh (hay coøn goïi laø giao dieän ñoà hoïa ngöôøi duøngGUI ). Ñaây laø moät caûi tieán cuûa Stata nhaèm giuùp nhöõng ngöôøi môùi laøm quen vôùi Stata coù theå naém baét deã daøng. Hieän nay Stata coù moät soá phieân baûn nhö “Small Stata”, “Intercooled Stata”, vaø StataSE. Tất cả chỉ khaùc nhau ở dung lượng tối ña của tập tin số liệu vaø toác ñoä xöû lyù. Phieân baûn ñöôïc söû duïng trong taøi lieäu naøy laø StataSE, moät phieân baûn coù toác ñoä xöû lyù nhanh gaáp nhieàu laàn (töø 50600%) so vôùi Small Stata. Ñeå kieåm tra phieân baûn Stata ñang söû duïng, chuùng ta coù theå söû duïng leänh about.

Trang 1

CHƯƠNG 1: TỔNG QUAN VỀ STAT 8.0

1 GIỚI THIỆU CHUNG

Stata 8.0 là một chương trình thống kê mạnh được thiết kế để quản lý, phântích số liệu và vẽ đồ thị Bên cạnh việc sử dụng câu lệnh như các phiên bảntrước, Stata 8.0 có thêm menu lệnh (hay còn gọi là giao diện đồ họa ngườidùng-GUI ) Đây là một cải tiến của Stata nhằm giúp những người mới làmquen với Stata có thể nắm bắt dễ dàng

Hiện nay Stata có một số phiên bản như “Small Stata”, “Intercooled Stata”,và Stata/SE Tất cả chỉ khác nhau ở dung lượng tối đa của tập tin số liệu vàtốc độ xử lý Phiên bản được sử dụng trong tài liệu này là Stata/SE, một phiênbản có tốc độ xử lý nhanh gấp nhiều lần (từ 50-600%) so với Small Stata Để

kiểm tra phiên bản Stata đang sử dụng, chúng ta có thể sử dụng lệnh about.

about

Stata/SE 8.0 for Windows

Born 30 Jan 2003

Total physical memory: 122352 KB

Available physical memory: 8100 KB

Single-user Stata for Windows perpetual license:

Serial number: 81980524154

Licensed to: IT Administration

Wellcome

2 CẤU TRÚC LỆNH TRONG STATA

Mặc dù Stata 8.0 có thêm menu lệnh, nhưng việc nắm vững cú pháp cáccâu lệnh là điều cần thiết bởi vì tài liệu này đa phần trình bày kiến thức dướidạng câu lệnh Sau đây là cú pháp lệnh chung trong Stata:

[by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename] [, option]

Trang 2

 sort: nếu dữ liệu chưa được sắp xếp theo varlist, thì by sẽ sắp xếp dữ liệulại

 rc0: nếu câu lệnh có lỗi ở một nhóm, by vẫn cho phép thực hiện câu lệnh

ở nhóm còn lại Sử dụng tốt nhất trong trường hợp câu lệnh dùng để ướclượng một hay một số nhóm không đủ số quan sát

Ví dụ: tóm tắt biến weight theo biến ht

 Cách 1: sort ht

by ht: summarize weight

 Cách 2: by ht, sort : summarize weight

 Cách 3: bysort ht : summarize weight

2.2 [varlist]

Varlist là danh sách các tên biến có khoảng trắng ở giữa

Các cách để mô tả một varlist:

 Dấu *: truy xuất những biến có một hoặc nhiều ký tự giống nhau

 Dấu ~ : truy xuất chỉ một biến duy nhất có những ký tự mong muốn

 Dấu ?: tương đương với một ký tự Tất cả các biến có kiểu tương tự đềuđược truy xuất

 Dấu - : truy xuất tất cả các biến nằm trong khoảng từ biến bên trái sangbiến bên phải

 _all : truy xuất tất cả các biến trong bộ số liệu

Ví dụ:

 myvar* : truy xuất tất cả các biến bắt đầu bằng chuỗi ký tự myvar

 my~var: truy xuất một biến duy nhất bắt đầu bằng my và kết thúc bằngvar

 my?var : truy xuất các biến bắt đầu bằng my và kết thúc bằng var với bấtkỳ ký tự nào ở giữa

 this-that: truy xuất các biến từ biến this đến biến that

2.3 [= exp)

Các mô tả có thể chứa một số toán tử Có 3 kiểu kiểu toán tử: toán tử số học,toán tử logic và hàm toán học Sau đây là quy ước của các toán tử này:

Toán tử logic

1 hoặc 0 : tương trưng cho mô tả logic là true hoặc false

< hay <= : tượng trưng cho “nhỏ hơn” hay “nhỏ hơn hoặc bằng”

> hay >= : tượng trưng cho “lớn hơn” hay “lớn hơn hoặc bằng”

giữa dấu gán “=” và dấu bằng “==” vì sẽ làm sai câu

Trang 3

! & | : tượng trưng cho “không” ; “và” ; “hoặc”

Toán tử số học

+ - * / ^ : tượng trương cho cộng ; trừ; nhân; chia; và mũ

Hàm toán học

sqrt(); exp(); log() : tượng trưng cho các hàm toán học

substrr(str1, n1, n2) : tượng trưng cho các hàm chuỗi trong Stata

 #/# : tượng trưng cho một phạm vi từ quan sát # đến quan sát #

Ví dụ: list x in 4/6 sẽ liệt kê tất cả các quan sát từ quan sát 4 đến quan sát 6 của biến x

 f/# hay #/l : tượng trưng cho phạm vi từ quan sát đầu cho đến quan sát

# hay từ quan sát # đến quan sát cuối Ví dụ list x in f/79 sẽ liệt kê quan sát từ quan sát cuối cho đến quan sát 79

 -#/# : tượng trưng cho phạm vi từ quan sát dưới trở lên trên Ví dụ: list -10/1 sẽ liệt kê 10 quan sát cuối cùng

2.6 [weight]

Có 4 dạng:

 fweight, trọng số tần suất (frequency weight): là trọng số dùng để xác

định số quan sát trùng lắp

 pweights, hay trong số lấy mẫu (sampling weights ) là những trọng số có

nghĩa là nghịch đảo xác suất mà quan sát đó được tính vào vì thiết kế lấy mẫu

 aweights, hay trọng số phân tích, (analytic weights) , là những trọng số tỷ

lệ nghịch đảo của phương pháp của một quan sát; nghĩa là phương sai của quan sát thứ j được giả định bằng sigma bình phương/w_j, trong đó w_j là các trọng số Về cơ bản, các quan sát đại diện trung bình và trọng số là số

Trang 4

của aweight là không thích hợp; stata tự động lập lại thang đo cho chúng từtổng đến N, số quan sát trong bộ số liệu khi stata sử dụng chúng.

 iweights, hay trọng số tầm quan trọng ( importance weights), là các trọng

số có nghĩa là “tầm quan trọng” của các quan sát trong một số trường hợp nhạy cảm iweight không có một định nghĩa thống kê chính thức; bất cứ câu lệnh nào hỗ trợ iweight sẽ định nghĩa chính xác làm thế nào chúng được xử lý Trong hầu hết trường hợp, chúng được dự định để sử dụng bởi các nhà lập trình muốn sản xuất một công thức nào đó

Chúng ta sẽ có một số biến trong bộ dữ liệu chứa trọng số Cú pháp chung là

scatter y x [aweight=y2], mfcolor(none)

Lưu ý là phải gõ vào dấu ngoặc vuông

Stata cho phép các chữ viết tắt; fw cho fweight, aw cho aweight … Bạn có thể gõ

anova y x1 x2 x1*x2 [fw=pop]

regress avgy avgx1 avgx2 [aw=cellpop]

regress y x1 x2 x3 [pw=1/prob]

scatter y x [aw=y2], mfcolor(none)

Thêm vào đó, mỗi lệnh có ý kiến riêng của nó về lọai trọng số “tự nhiên” Nếu bạn gõ:

regress avgy avgx1 avgx2 [w=cellpop]

Câu lệnh sẽ nói với bạn rằng loại trọng số nào được giả định và biểu diễn yêu cầu như thể bạn địng rõ cho lọai trọng số đó

Trang 5

Có một số dạng đồng nghĩa đối với một số lọai trọng số feight có thể được xem như là tần suất (chữ viết tắt của tần suất) aeight có thể được xem như cellsize (viết tắt của cell):

pweights

Trọng số lấy mẫu ám chỉ nghịch đảo của xác suất mà quan sát đó được lựa chọn Các câu lệnh cho phép pweigh về cơ bản cung cấp một option cụm () Những cái này có thể được kết hợp để sản sinh những ước đóan đối với dữ liệu lấy mẫu cụm

aweights

Trọng số aweights phân tích về cơ bản phù hợp khi bạn giải quyết với dữ liệu chứa số trung bình Ví dụ, bạn có trung bình thu nhập và trung bình đặc tính của một nhóm người Biến có trọng số chứa số người có trung bình được tính tóan (hay một số tỷ lệ với lượng đó)

iweights

Trọng số này không có định nghĩa chính thức và là một phân lọai tất cả Trọng số này đôi khi phản ánh tầm quan trọng của quan sát và bất cứ lệnh nào hỗ trợ những trọng số như vậy sẽ định nghĩa chính xác làm thế nào những trọngsố này được xử lý

2.7 [using filename]

Phần này chỉ được dùng trong một số lệnh, ví dụ như infile và outfile Sau khi sử dụng, bạn xác định một tên file Bạn xác định tên file trong ngoặc đơn nếu nó chứa khoảng trắng hay những ký tự đặc biệt

Ví dụ:

infile a b c using \mydata\myfile.raw

2.8 [option]

Trang 6

Option được nhận diện nhờ một dấu phẩy tại cuối dấu phẩy và liệt kê các lựa chọn kết tiếp nhau với những khỏang cách:

tabulate r c, chi2 row col

Trong ví dụ này:

tabulate là lệnh

r and c là tên các biến

chi2, row, and col là các option

Không có dấu phẩy giữa các option .hầu hết các option là toggles – chúng ám chỉ rằng có thứ gì đó được hay không được thực hiện Cả ba lựa chọn trong ví dụ trên đều là toggle Một số option có đối số Phụ thuộc vào option nó có thể hỏi một số duy nhất, chuỗi hay biến hay vài biến (một varlist) hay một vài số

Trang 7

3 GIAO DIỆN CHƯƠNG TRÌNH

Sau khi khởi động Stata 8.0, màn hình sẽ xuất hiện các thành phần sau:

Menu Edit: bao gồm các lệnh liên quan đến sao chép dữ liệu

Menu Prefs: bao gồm các lệnh liên quan đến thiết lập giao diện cho Stata

Menu Data: bao gồm các lệnh liên quan đến việc quản lý số liệu trong Stata như dán nhãn, tạo biến, mô tả số liệu…

Menu Graphics: bao gồm các lệnh liên quan đến các loại đồ thị, biểu đồ trong thống kê như vẽ đa giác tần suất, tổ chức đồ, đồ thị

Trang 8

Đây là thanh công cụ giúp thực hiện nhanh một số lệnh trong Stata Thanh này bao gồm:

: mở một tập tin số liệu Stata

: lưu tập tin với một tên khác Tập tin với tên cũ không bị thay đổi sau khi xử lý

: in kết quả hiện ra trên màn hình

: mở một file log nhằm lưu lại kết quả hiển thị trên cửa sổ Stata Command

:mở cửa sổ help thay vì sử dụng Menu Help

: đưa cửa sổ kết quả lên phía trước màn hình (trường hợp cửa sổ kết quả bị che khuất)

: đưa cửa sổ đồ thị lên phía trước màn hình (trường hợp cửa sổ đồ thị bị che khuất)

: tạo một do-file (tập tin chứa các câu lệnh)

: chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata

: xem nhưng không được chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata

: cho chạy tiếp kết quả khi màn hình xuất hiện chỉ báo

–-more :chấm dứt câu lệnh đang chạy (trong trường hợp câu lệnh xử lý lâu hay kết quả quá dài)

Trang 9

Cửa sổ review sẽ hiển thị tất cả các câu lệnh đã được thực hiện trong quá trình xử lý tập tin số liệu

Cửa sổ Variables sẽ hiển thị tất cả các biến của tập tin số liệu đang được làm việc

Trang 10

4 MỞ-LƯU TRỮ-ĐÓNG TẬP TIN SỐ LIỆU

4.1 Mở tập tin số liệu

Sau khi màn hình Stata xuất hiện, việc tiếp theo là chúng ta phải mở tập tin sốliệu Stata để làm việc với tập tin này Tập tin số liệu Stata sẽ có phần mở rộnglà “.dta” quy trình mở tập tin số liệu như sau

B1: Click vào Menu File  chọn Open; màn hình sẽ hiện ra cửa sổ Use New

Data

Cửa sổ Stata Command cho phép gõ các câu lệnh thay vì sử dụng các menu lệnh

Trang 11

B2: chọn thư mục chứa tập tin số liệu trong ô Look in

B3: chọn tên tập tin số liệu

B4: click vào nút OK

Sau một thời gian thao tác với tập tin số liệu, chúng ta cần phải lưu lại nhữngkết quả của quá trình làm việc Quy trình lưu tập tin số liệu như sau:

B1: click vào Menu File  chọn Save, màn hình xuất hiện thông báo

B2: chọn OK thì tập tin số liệu gốc sẽ bị ghi đè.

Chúng ta cũng có thể lưu tập tin sau khi làm việc thành tập tin mới mà không cần chép đè lên tập tin gốc bằng cách sau:

B1: chọn Menu File chọn Save As , màn hình hiển thị cửa sổ Save Stata Data

File

Trang 12

B2: chọn thư mục muốn lưu tập tin trong ô Save In

B3: chọn tên mới cho tập tin gốc trong ô File Name

B4: click chọn OK

4.3 Đóng tập tin số liệu

Sau khi xử lý xong tập tin, muốn thoát khỏi chương trình chọn nút ở gócphải màn hình để thoát khỏi chương trình

Lưu ý là nếu chưa lưu tập tin thì chương trình sẽ không thoát mà sẽ hiển thị hộpthoại yêu cầu lưu dữ liệu

5 NHẬP-CHUYỂN ĐỔI- XUẤT TẬP TIN SỐ LIỆU

Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu trong Stata

Trang 13

Đối với các tập tin số liệu thuộc các chương trình thống kê khác như Excel, SPSS,SAS… chúng ta cĩ thể chuyển đổi sang tập tin Stata bằng cách sử dụng phầnmềm chuyên dụng như DBMSCopy hay Stat Transfer

Đối với các tập tin số liệu được nhập dưới dạng số liệu thơ (hay cịn gọi là tập tin ASCII với đuơi là text, raw, cvs…), chúng ta sử dụng các lệnh insheet, infile và infix

Cú pháp

insheet using “đư ng d n\tên file.text ờng dẫn\tên file.text ẫn\tên file.text

hay

insheet using “đư ng d n\tên file.cvs” ờng dẫn\tên file.text ẫn\tên file.text

Cho phép Stata chuyển tập tin số liệu

ở dạng bảng tính mở rộng trong đĩcác

c t là các bi n và m i dịng tộ ế ỗi dịng t ượng trưng cho m t quan sát Các bi n này cách nhau ộ ế

b i d u tab hay d u ph y và dịng đ u ở ấ ấ ẩy và dịng đầu ầtiên cĩ th ch a tên c a bi nể ứa tên của biến ủ ế

infile var1 var2 var3 using mydata.txt Cho phép Stata nhập tập tin với số

liệu được định dạng bằng cách sử dụng các khoảng trắng

infix var1 1-3 var2 4 str name 10-20 using “tên t p ậ

tin”.raw Cho phép Stata chuy n t p tin s li u ể ậ ố ệ

chưa đ nh d ngịnh dạng ạ khơng s d ng t p tin ử ụ ậ

đ nh nghịnh dạng ĩa

infix dictionary using “tên t p tin”.raw { var1 1-3 var2 4 ậ

str name 10-20 } T o t p tin đ nh nghạ ậ ịnh dạng ĩa cho t p tin ậ

chuy n đ i trong Stataể ổ

infix using “tên t p tin”.dct ậ Chuy n đ i t p tin chể ổ ậ ưa đ nh d ng s ịnh dạng ạ ử

d ng t p tin đ nh nghụ ậ ịnh dạng ĩa

Ví d 1: ụ

Chúng ta cĩ t p tin Excel ậ

Trang 14

Lưu t p tin Excel trên dậ ướ ại d ng cvs

insheet using “đư ng d n\tên file.cvs” ờng dẫn\tên file.text ẫn\tên file.text

infile str20 make mpg weight price using "D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto2.raw",clear

Cần lưu ý biến đầu tiên là biến kiểu chuỗi Tuy nhiên để Stata hiểu đó là biếnkiểu chuỗi chúng ta cần xác định rằng đó là biến chuỗi cũng như số ký tự củanó Vì v y c n s nh p ậ ầ ử ậ str20

Trang 15

infix dictionary using "D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw",clear {

2 lines

1:

str make 1-20 2:

mpg 1-2 weight 3-6 price 7-10 }

infix using mydic.dct

5.3 Xuất tập tin số liệu

Sau khi xử lý xong tập tin ASCII, chúng ta có thể xuất tập tin này dưới dạngtập tin Stata hay dưới dạng tập tin ASCII trở lại

Cú pháp

save “đư ng d n\tên file.dta” ờng dẫn\tên file.text ẫn\tên file.text Lưu tập tin dưới dạng tập tin Stata

outsheet “đư ng d n \tên file raw”, replace ờng dẫn\tên file.text ẫn\tên file.text : lưu tập tin dưới dạng file ASCII

outfile “đư ng d n\tên file.raw”, replace ờng dẫn\tên file.text ẫn\tên file.text lưu tập tin dưới dạng file ASCII nhưng

Trang 16

không có dòng đầu tiên

Ví d ụ

save D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.dta

outsheet D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace

outfile D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace

6.1 Do-File

Trong nhiều trường hợp, các tập tin số liệu khác nhau có thể cùng sử dụng nhiều lệnh giống nhau cho dù chúng có tập hợp biến số khác nhau Để tránh việc lập lại những câu lệnh này mỗi khi thao tác, Stata có chức năng tạo một tập lệnh chung cho tất cả các tập tin số liệu gọi là do-file

Quy trình t o do-file ạo do-file

Cú pháp

doedit T o m t t p tin do-fileạ ộ ậ

do “đư ng d n\tên do-file” ờng dẫn\tên file.text ẫn\tên file.text Ch y do-file trên t p tin hi n hành ạ ậ ệ

Lưu do-file

Trang 17

Một chức năng khác ngoài chức năng tạo do-file của Stata là chức năng tạo log-file Log file được sử dụng để lưu lại kết quả của quá trình xử lý tập tin làmviệc dưới dạng văn bản để người xử lý có thể dễ dàng xem lại các kết quả

Quy trình t o log file ạo do-file

Cú pháp

log using “đư ng d n\tên log.smcl”, text ờng dẫn\tên file.text ẫn\tên file.text T o file log cĩ đuơi smcl d ng text ạ ạ

Mu n xem dố ướ ại d ng word, notepad

ph i chuy n đ iả ể ổ

log using “đư ng d n\tên log.log ờng dẫn\tên file.text ẫn\tên file.text T o file log đuơi log nghạ ĩa là file log s ẽ

đư c xem tr c ti p dợ ự ế ướ ại d ng notepad khơng c n chuy n đ iầ ể ổ

view “đư ng d n\tên log.smcl”, text ờng dẫn\tên file.text ẫn\tên file.text Xem l i file log đã t o trạ ạ ước đĩ

log using “đư ng d n\tên log”, append ờng dẫn\tên file.text ẫn\tên file.text S d ng file log trử ụ ước đĩ và ti p n i n iế ố ộ

dung file cũ

log using “đư ng d n\tên log”, replace ờng dẫn\tên file.text ẫn\tên file.text S d ng file log cử ụ ũ nhưng thay th tồnế

b n i dung cộ ộ ũ

log off T m d ng file logạ ừng file log

log on M l i file logở ạ

log close Đĩng file log

Ví d : ụ

log using "C:\Documents and Settings\Me\Desktop\h.smcl", text

log using "C:\Documents and Settings\Me\Desktop\h.log"

Trang 18

log close

7 LƯU VÀ SAO CHÉP ĐỒ THỊ

Với chức năng log file như vừa nói ở trên chúng ta có thể lưu trữ cũng như saochép các kết quả của phiên xử lý dưới dạng file log hay file smcl Tuy nhiênnếu trong quá trình xử lý, chúng ta có vẽ biểu đồ hay đồ thị thì log file lạikhông thể lưu lại các đồ thị hay biểu đồ này Do đó để lưu đồ thị cũng như cắtdán đồ thị sang một tập tin khác chúng ta làm như sau:

7.1 Lưu đồ thị/biểu đồ

Sử dụng menu lệnh với các bước sau đây:

B1:chọn Menu File  chọn Save Graph, màn hình hiển thị cửa sổ Save StataGraph File

B2: chọn thư mục lưu trong ô Save in

B3: chọn tên cho file graph

B4: click OK

7.2 Sao chép đồ thị/biểu đồ

Click chuột phải vào biểu đồ/đồ thị và chọn Copy Graph, chọn tập tin muốndán và chọn paste

8 HỆ THỐNG TRỢ GIÚP (HELP)

Stat có Menu Help dùng để trợ giúp người dùng trong việc sử dụng Stata Nếungười dùng muốn tìm từ khóa liên quan đến Stata, người dùng chỉ chọn MenuHelp  Search, màn hình hiển thị cửa sổ Keyword Search

Trang 19

Nếu bạn biết tên một lệnh nào đó nhưng lại không biết chức năng của lệnh,chúng ta có thể nhờ Stata trợ giúp bằng cách chọn Menu Help  StataCommand, màn hình hiển thị cửa sổ Stata Command

Gõ tên lệnh rồi nhấn OK, Stata sẽ hiện thị tất cả các thông tin liên quan đếnlệnh đó như các mô tả, cách dùng các option…

9 CÁC CHỨC NĂNG KHÁC

9.1 Lệnh more

Trong quá trình Stata chạy một câu lệnh, nếu kết quả của lệnh đó quá dài,Stata chỉ hiện thị một phần kết quả trên màn hình Result Khi đó, cuối mànhình Result sẽ xuất hiện một dòng lệnh như sau

more—

Dòng lệnh này thông báo rằng kết quả chưa hiển thị ra hết Để hiện thị nộidung phần kết quả tiếp theo chúng ta thực hiện một trong ba cách sau:

 Gõ phím trắng để xem câu trả lời ở màn hình kế tiếp

 Gõ l hay enter để xem dòng tiếp

 Gõ q để ngừng không hiện ra kết quả nữa để người sử dụng có thể thựchiện được câu lệnh mới Khi đó màn hình sẽ xuất hiện Break—- màu đỏđể thông báo điều này

9.2 Quản lý Bộ nhớ

Trong nhiều trường hợp, file số liệu mà bạn tải về để xử lý có dung lượng quálớn so với Bộ nhớ mà Stata dành để xử lý số liệu Trong trường hợp đó, Statasẽ xuất hiện thông báo trong cửa sổ Stata Results

No room to add more observations

R(901);

Khi đó chúng ta phải thay đổi số lượng bộ nhớ cấp cho khu vực dữ liệu; Stata đề nghị thiết lập bộ nhớ tối thiểu là gấp 1 lần hay ½ lần kích thước file bạn muốn tải vào bộ nhớ máy tính Chúng ta thực hiện điều này bằng câu lệnh :

Trang 20

set memory #m, permanently

Ngoài ra khi muốn tìm hiểu việc sử dụng bộ nhớ của Stata, bạn có thể dùnglệnh memory hoặc query memory.

10 CÁC QUY ƯỚC TRONG TÀI LIỆU

Trong mỗi câu lệnh sẽ gồm ba phần

lấy từ một trong các tập tin sẽ được trình bày trong mục 11 dưới đây

 Diễn giải kết quả : sẽ đưa ra những lý giả các con số giúp người đọc hiểu được các kết quả này

Trong phần cú pháp của các câu lệnh, sẽ có những chữ viết tắt với ý nghĩa như sau mà chúng ta cần nhớ:

Trong phần diễn giải kết quả, sẽ có những chỗ in đậm ví dụ như P < F_L + P > F_U =

0.0373 thì đó chính là phần quan trọng trong phần kết quả mà chúng ta cần phải đọc và hiểu được kết quả đó nói gì.

11 CÁC TẬP TIN SỐ LIỆU ĐƯỢC SỬ DỤNG

Để việc nắm bắt Stata được dễ dàng, chúng ta cần phải thực hành các câu lệnhtrên một tập tin số liệu nhất định Vì vậy, trong tài liệu này chúng ta sẽ sử dụngmột số tập tin số liệu mẫu được thiết kế để người sử dụng có thể thực hành cáclệnh trên đó Để giúp người đọc hiểu được nội dung của các tập tin số liệu này,chúng tôi xin trình bày danh sách các tập tin số liệu cũng như mục đích của cáctập tin này dưới đây:

Trang 21

fem.dta:

Đây là một tập tin số liệu về một nghiên cứu cắt ngang ở 118 bệnh nhân nữmắc bệnh suy nhược Tập tin số liệu này có các biến như sau

 age: tuổi tính theo năm

 iq: chỉ số thông minh

 anxiety: lo lắng (1=không, 2=nhẹ, 3=trung bình, 4= nặng)

 depress: suy nhược (1=không, 2=nhẹ, 3=trung bình, 4= nặng)

 sleep: bà/cô có thể ngủ bình thường hay không? (1=có, 2=không)

 sex: bà/cô có mất hứng thú khi quan hệ tình dục? (1=không, 2=có)

 life: gần đây bà/cô có cảm thấy muốn tự tự hay không? (1=không, 2=có)

 weight: tăng trọng lượng trong vòng 6 tháng gần đây (theo lbs)

Trong các biến trên, biến age, iq, weight là những biến định lượng còn nhữngbiến anxiety, depress là những biến thứ tư ; biến sleep, sex, life là những biếnnhị giá Việc phân biệt các loại biến như trên là rất quan trọng vì nó giúp ngườiphân tích có thể áp dụng được những phương pháp phù hợp với loại biến đó.Nghiên cứu này được tiến hành nhằm trả lời một số câu hỏi như : “các biếnliên quan với nhau như thế nào?”, liệu những người phụ nữ có ý định tự tự vànhững người không có khác nhau ở khía cạnh nào hay không?” Nghiên cứucòn quan tâm đến mối tương quan giữa lo lắng và suy nhược cũng như mốitương quan giữa thay đổi trọng lượng, tuổi và chỉ số iq

usair.dta:

Đây là tập tin số liệu về ô nhiễm tại 41 thành phố của Mỹ được thu thập bởi Sokal và Rohlf (1981) từ một số tạp chí chính phủ Mỹ Trong tập tin này, chỉ cómột biến phụ thuộc duy nhất, so2 là trung bình mật độ SO2 hằng năm tính bằng mg/m3 những con số trung bình trong tập tin này là những con số trung bình của mức SO2 trong vòng 3 năm từ 1969 đến 1971 cho mỗi thành phố Các biến còn lại là những biến giải thích (hay là những biến độc lập) được liệt kê dưới đây:

 temp:nhiệt độ trung bình theo f0

 manuf: số công ty sản xuất có từ 20 công nhân trở lên

 pop: kích thước dân số trên 1000

 wind: tốc độ gió trung bình hằng năm tính bằng dặm/giờ

 precip: lượng mưa trung bình hằng năm tính theo inches

 days: số ngày trung bình có mưa trên một năm

Câu hỏi chính về những dữ liệu này là mức ô nhiễm được đo lường bằng mật độ tập trung của SO sẽ được xác định như thế nào bởi sáu biến độc lập còn lại

Trang 22

Giống chuột đần độn có mắc nhiều sai lầm hơn giống chuột thông minh khihtực hiện các trắc nghiệm trong mê đạo hay không?

Môi trường nuôi dưỡng chuột có ảnh hưởng đến việc chuột mắc nhiều hay ítcác sai lầm hay không?

Môi trường nào là tối ưu cho loại chuột nào?

ivf.dta

Trang 23

CHƯƠNG 2: QUẢN LÝ SỐ LIỆU

Khi có trong tay một tập tin số liệu (nhiều khi không do bản thân người sử dụngthu thập ), chúng ta có nhiều câu hỏi đặt ra liên quan đến tập tin số liệu đó.Chẳng hạn như tập tin này có bao nhiêu biến, các biến đó là biến gì, biến đó cóbao nhiêu giá trị, vvv Do đó trước khi thực hiện thống kê mô tả cũng nhưthống kê phân tích, chúng ta cần phải thực hiện một bước gọi là quản lý sốliệu Chương 2 này sẽ trình bày các câu lệnh liên quan đến quản lý tập tin vàquản lý các biến trong tập tin số liệu đó

Trong chương này cũng như những chương tiếp theo, có một số câu lệnh đơngiản chúng tôi không hướng dẫn sử dụng menu lệnh mà chỉ hướng dẫn gõ câulệnh trực tiếp vào cửa sổ Stata Command Như vậy, người sử dụng có thể nhớđược những lệnh căn bản mà không cần sử dụng menu lệnh

1 QUẢN LÝ TẬP TIN SỐ LIỆU

1.1 Mô tả tập tin số liệu

Stata có nhiều cách để tìm hiểu thông tin về tập tin số liệu được nhập vào Stata, mỗi cách sẽ cho những thông tin khác nhau về tập tin số liệu đó

inspect var1 var2 … Cung cấp đồ thị đơn giản và dấu của

các quan sát

Ví dụ 1:

Trang 24

Contains data from C:\DOCUME~1\Me\Desktop\BOSOLI~2\COPYOF~1.DTA

obs: 118

vars: 9 28 Feb 2007 16:23

size: 2,124 (99.8% of memory free)

storage display value

variable name type format label variable label

-id int %8.0g ID

age byte %8.0g AGE

iq int %8.0g IQ

anxiety byte %8.0g ANXIETY

depress byte %8.0g DEPRESS

sleep byte %8.0g SLEEP

sex byte %8.0g SEX

life byte %8.0g LIFE

weight float %9.0g WEIGHT

-Sorted by:

Diễn giải kết quả:

 Số quan sát (obs): 118

 Số biến (vars) : 6

 Kích thước tập tin (size): 2,124 (chiếm 0.2% bộ nhớ ảo trong stata)

Trang 25

 Loại số liệu (type): kiểu số (tính bằng byte)

 Phạm vi giá trị (range): từ 29 đến 46 tức là tuổi của các đối tượng từ 29-46

 Số giá trị (unique values): 18 bao gồm các giá trị 29,30,31… cho đến 46

 Khoảng cách các giá trị (unit): 1 tức các đơn vị cách nhau 1 đơn vị

 Số giá trị mất (missing): 0/118 tức không có giá trị mất trên tổng số 118quan sát

more Diễn giải kết quả

 Các giá trị –99 trong một số quan sát biểu thị cho gái trị mất

 Chữ more cuối màn hình cho biết kết quả còn tiếp tục Muốn xem tiếp ấnvào chữ more

Trang 26

 Biến age có 118 giá trị dương (positive)

 Biến age có 118 giá trị nguyên (interger)

1.2 Chỉnh sửa tập tin số liệu

Sau khi mô tả số liệu, nếu nhận thấy tập tin số liệu cần sửa đổi hoặc thêm bớt biến, chúng ta có thể sửa đổi trực tiếp trên Stata

Cú pháp

edit Mở cửa sổ soạn thảo tập tin

Ví dụ:

edit

Trang 27

Sau khi hoàn tất việc sửa đổi, nhấn nút ở góc phải màn hình Stata editor, một hộp thoại xuất hiện

Chọn OK, stata sẽ chấp nhận các thao tác sửa đổi trước đó

2 QUẢN LÝ BIẾN SỐ

Trong mục 2 này chúng ta sẽ được hướng dẫn các lệnh xử lý hay còn gọi là

“làm sạch” tập tin số liệu sao cho các biến cũng như các giá trị của nó phải thật dễ hiểu và gọn gàng nhằm chuẩn bị cho bước thống kê mô tả cũng như thống kê phân tích được thuận lợi Chúng ta tiếp tục thực hành với tập tin số

liệu fem.dta cho các câu lệnh trong phần này

2.1 Tạo biến mới

Cú pháp

generate newvar = exp

gen newvar=exp Tạo biến mới theo mô tả (exp) sau

dấu =

egen newvar= exp Tạo biến mới với phần mô tả phức tạp

hơn (tính trung bình, độ lệch chuẩn )

Trang 28

Ví dụ 1:

gen cannang=weight

gen llsn = life==2 & depress==2

 Tạo biến cannang bằng với biến weight

 Tạo biến llsn bao gồm những đối tượng có giá trị biến life bằng 2 và giá trịbiến depress bằng 2

Ví dụ 2:

egen age_mean = mean(age)

 Tạo biến age_mean bằng trung bình tuổi

2.2 Hủy bỏ biến

Cú pháp

drop varlist Xóa các biến trong varlist

keep varlist Xóa các biến còn lại trừ các biến trong varlist

Ví dụ:

keep age-llsn

drop llsn cannang

 Giữ lại các biến từ biến age cho đến biến llsn, xóa các biến còn lại

 Xóa các biến llsn và cannang

2.3 Chuyển đổi kiểu biến số

Trong Stata có 3 kiểu biến số sau đây: biến dạng số, biến chuỗi và biến ngàytháng

Trang 29

Biến kiểu số có thể là số âm, số dương, số nguyên và số thập phân TrongStata ngoài ký hiệu str dùng để chỉ biến chuỗi, các ký hiệu còn lại (float, int )đều là biến số Nếu khi gõ câu lệnh mà màn hình result hiện thông báo “typemismatch” có nghĩa là bạn câu lệnh đó không dùng cho biến số quan tâm.

Biến kiểu chuỗi cũng thường được gọi là biến “ký tự” là những biến chứa cácký tự cũng như các ký tự đặc biệt khác (@, ‘’…)

Biến kiểu ngày tháng là một trường hợp đặc biệt của biến kiểu số Mặc dùchúng thường được gõ vào dưới dạng chuỗi (ví dụ: 01jan1992 hay 01/01/92),chúng phải được lưu lại trong Stata dưới dạng số Stata có một số câu lệnh liênquan đến việc với biến ngày tháng Khi đó, Stata sẽ lưu ngày tháng dưới dạngsố ngày (hay tháng hay quý ) tính từ ngày 1/1/1960 Nếu ngày nhập liệu trướcngày 1/1/1960 thì giá trị của ngày đó sẽ mang dấu âm, còn nếu sau ngày1/1/1960 sẽ mang dấu dương

2.3.1 Chuyển đổi giữa biến chuỗi và biến số

Nếu trong bộ số liệu chúng ta có những biến dưới dạng chuỗi chúng ta phảichuyển những biến này thành dạng số để có thể thực hiện các thống kê phântích trên biến đó Cũng có trường hợp ngược lại khi chúng ta muốn chuyểnnhững biến số thành biến chuỗi Khi đó, Stata có các lệnh “destring”,

“decode”, “encode”

Cú pháp

destring varname, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi

encode var, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi và gắn

những ký tự trong giá trị của biến chuỗi cho các giá trị số của biến số mới tạo

decode var, gen(newvar) Tạo biến chuỗi từ biến số Tuy nhiên muốn thực

hiện được lệnh decode, phải dán nhãn giá trị chobiến kiểu số

Ví dụ 1:

destring d_income, gen(inc_pct_num) ignore("$")

Diễn giải kết quả

Trang 30

 Tạo biến inc_pct_num là biến số từ biến chuỗi d_income trong đó loại bỏ (ignore) các kí tự đặc biệt của biến d_income.

Ví dụ 2:

destring inc_pct, gen(inc_pct_num) percent force

 Tạo biến inc_pct_num là biến số từ biến inc_pct dạng chuỗi trong đó các giá trị của biến inc_pct_num sẽ ở dưới dạng phần trăm (percent)

 Option force dùng trong trường hợp nếu không thể chuyển những giá trị của biến chuỗi thành dạng số thì Stata sẽ chuyển những giá trị này thành giá trị mất

Ví dụ 3:

encode city, gen(citynum)

 Tạo biến kiểu số citynum từ biến kiểu chuỗi city trong đó các giá trị của biến citynum sẽ được gán nhãn gồm các ký tự đầu tiên trong các giá trị của biến city

Ví dụ 4:

decode citynum2, gen(cityname)

 Tạo biến kiểu số cityname từ biến kiểu chuỗi citynum2

2.3.2 Chuyển đổi giữa biến ngày tháng và biến số

Thường thì khi nhập ngày tháng vào tập tin số liệu chúng ta thường nhập dưới dạng “01jan1958” hay “feb 25 1990” hay “19/5/93” Chúng ta cần phải

chuyển những dạng này sang dạng số Stata sẽ có các lệnh chuyển dạng ngày tháng sang dạng số và định dạng hiển thị cho các số liệu này

Cú pháp

Trang 31

biến ngày là một biến chuỗi đơn Dạng chuỗi của biến ngày phải có khoảng ngăn cách

gen newvar=mdy(varmonth,varday,varyear) Hàm mdy dùng trong trường hợp

ngày nghiên cứu được tách ra thành

ba biến là biến ngày, biến tháng, biến năm Khi đó hàm mdy sẽ tạo nên biến số ngày là tổng hợp của ba biến trên

gen newvar=year(var) Hàm month, year, day cho phép bạn

rút trích tháng, năm, ngày của biến ngày tháng thành các biến tháng, năm, ngày dạng số

 Tạo biến số datevar từ biến ngày tháng str_date

 Tạo biến kiểu số birthdate từ ba biến chuỗi b-month, b_day, b_year

 Tạo biến kiểu số yearvar từ biến kiểu số birthdate trong đó chỉ lấy phần năm của biến birthdate

 Tạo biến kiểu số monthvar từ biến kiểu số birthdate trong đó chỉ lấy phần tháng của biến birthdate

 Tạo biến kiểu số dayvar từ biến kiểu số birthdate trong đó chỉ lấy phần ngày của biến birthdat

2.4 Thay đổi giá trị của biến

Trang 32

mvdecode varlist, mv(-99) Chuyển các giá trị = -99 (theo quy ước

là các giá trị mất) thành dấu “.” (ký hiệu giá trị mất trong Stata

replace var = exp Chuyển một loại giá trị của một biến

thành một loại giá trị khác

recode varlist (rule) Chuyển toàn bộ các quan sát của một

loại giá trị thành một loại giá trị khác

Ví dụ 1:

mvdecode _all, mv(-99)

iq: 8 missing values generated

anxiety: 5 missing values generated

depress: 8 missing values generated

sleep: 5 missing values generated

sex: 4 missing values generated

life: 1 missing value generated

weight: 11 missing values generated

cannang: 11 missing values generated

csiq: 8 missing values generated

 Exp _all trong câu lệnh tượng trưng cho tất cả các giá trị của các biến có giátrị là -99 sẽ được chuyển thành dạng “.” trong tập tin này, biến iq có 8 giá trị mất (-99) chuyển tàhnh dấu “.”, biến anxiety có 8 giá trị…

Ví dụ 2:

replace sleep= if sleep==3

(1 real change made, 1 to missing)

 Thay thế giá trị 3 trong biến sleep bằng dấu “.”

 Có một giá trị được thay đổi, một giá trị trở thành giá trị mất

Ví dụ 3:

recode sleep 1=2 2=1

Trang 33

recode sleep 3/5 = 6

recode sleep nonmiss=8

recode sleep miss=3

recode sleep else=7

 Chuyển giá trị 1 thành giá trị 2, giá trị 2 thành giá trị 1

 Chuyển giá trị 1 và thành giá trị 2

 Chuyển các giá trị 3, 4, 5 thành các giá trị 6

 Chuyển các giá trị không mất thành giá trị 8

 Chuyển các giá trị mất thành giá trị 3

 Chuyển các giá trị còn lại thành giá trị 7

2.5 Tạo nhãn cho Bộ số liệu-biến-giá trị của biến 2.5.1 Tạo nhãn cho Bộ số liệu

Cú pháp

label data “tên t p tin” ậ

Ví dụ

label data "nghien cuu ve suy nhuoc o phu nu"

2.5.2 Tạo nhãn cho biến

Cú pháp

label variable labelname

Ví dụ:

Trang 34

label variable iq chisoIQ

 Tạo nhãn chisoIQ cho biến iq

2.5.3 Tạo nhãn cho giá trị

Cú pháp

label define lbname # exp # exp Tạo nhãn cho các giá trị

label values varname lbname Gán nhãn giá trị cho biến

Ví dụ:

label define mucdo 1 khong 2 nhe 3 trungbinh 4 nang

label value anxiety mucdo

 Tạo nhãn giá trị có tên là mucdo với giá trị 1=không 2=nhẹ, 3=trung bình, 4= nặng

 Gán nhãn mucdo cho biến anxiety

3 BÀI TẬP

Mở tập tin fem.dta và thực hiện các yêu cầu sau:

1 Mô tả toàn bộ tập tin số liệu Có nhận xét gì về các biến số?

2 Làm sạch tập tin số liệu, dán nhãn cho tập tin, các biến số và các giá trị củabiến số

Trang 35

CHƯƠNG 3: THỐNG KÊ MÔ TẢ

Sau khi làm sạch bộ số liệu, chúng ta đã có thể thực hiện công việc thống kê mô tả bộ số liệu Thống kê mô tả là một nhánh của thống kê trong đó sử dụng các công cụ là bảng phân phối tần suất, đồ thị/biểu đồ và các con số đo lường mức độ tập turng (trung bình, trung vị…) cũng như phân tán (độ lệch chuẩn, phương sai) để mô tả số liệu

1 THỐNG KÊ MÔ TẢ ĐỐI VỚI BIẾN ĐỊNH LƯỢNG

1.1 Mô tả bằng bảng phân phối tần suất

Quy trình

Xác định cácnhómTạo biến mới

Trang 36

Cú pháp

tab varname Lập bảng phân phối tần suất cho một biến định lượng

Ví dụ:

gen csiq = iq

recode csiq (80/84=1) (85/89=2) (90/94=3) (95/99=4) (100/max=5)

(csiq: 110 changes made)

label define csiq 1 " 80-84" 2 "85-89" 3 "90-94" 4 "95-99" 5 "100-106"

label value csiq csiq

 Tạo biến csiq bằng biến iq

 Nhóm các giá trị của biến csiq thành 4 giá trị 1, 2, 3, 4

 Dán nhãn giá trị cho biến csiq

 Nhìn vào bảng phân phối tần suất, chúng ta nhận thấy chỉ số iq của nhóm phụ nữ tham gia nghiên cứu chủ yếu tập trung trong nhóm 90-94 (45.45%)

Dán nhãn giá trị

Lập bảng phân phối tần suất

Trang 37

 Chỉ số iq trung bình của 110 phụ nữ là 91,79 (tương ứng với nhóm 90-94 trong bảng phân phối tần suất), độ lệch chuẩn là 4.53, và chỉ số iq thấp nhấtlà 82, cao nhất là 106

Trang 38

 Biến iq có trung vị là 92 (50%)

 Phương sai (variance) là 20.50

 Có độ cong cao (kurtosis= 3.39)

1.3 Mô tả bằng đồ thị/biểu đồ

Cú pháp

histogram varnam, options Vẽ tổ chức đồ cho biến định lượng

graph box varname, options Vẽ biểu đồ hộp cho biến định lượng

Ví dụ 1:

histogram iq, frequency normal ytitle(Tan suat) xtitle(chi so IQ) title(bieu do c

> ot cho bien iq)

(bin=10, start=82, width=2.4)

 frequency: vẽ đồ thị tần suất cho biến iq

 normal: vẽ đường phân phối bình thường trong đồ thị

Trang 39

 title( ): tên cho đồ thị

 bin: số cột được chia trong đồ thị là 10

 start: đồ thị được bắt đầu bằng giá trị 82

 độ rộng cột là 2.4

 (các giá trị bin, start và width có thể thay đổi được)

 dựa trên đường phân phối bình thường, chúng ta nhận thấy biến iq có phân phối bình thường

Ví dụ 2:

graph box iq, medtype(line)

 medtype (): quy định loại đường trung vị (thẳng, chấm, gạch )

 biến iq có một giá trị ngoại lai là giá trị là giá trị 106

2 THỐNG KÊ MÔ TẢ VỚI BIẾN ĐỊNH TÍNH

2.1 Mô tả bằng bảng phân phối tần suất

Cú pháp

tab varname mô tả bảng phân phối tần suất cho một biến

tab1 varlist mô tả bảng phân phối tần suất cho nhiều biến

Ví dụ 1:

Trang 40

suynhuoc | Freq Percent Cum.

Số phụ nữ bị trầm cảm nhẹ chiếm đa số trong dân số nghiên cứu (67-60.91%)

 Số phụ nữ không ngủ được bình thường chiếm đa số (98-87.50%)

 Số phụ nữ mắc phải lo âu nhẹ chiếm đa số (62-54.87%) trong khi số phụ nữ mắc lo âu nặng chiếm thấp nhất (4-3.54%)

2.2 Mô tả bằng đồ thị/biểu đồ

Tiêu đề	Bí Kíp Phân Tích Dữ Liệu Với Stata
Trường học	Trường Đại Học
Chuyên ngành	Phân Tích Dữ Liệu
Thể loại	Tài Liệu Hướng Dẫn

Định dạng
Số trang	99
Dung lượng	917,5 KB
File đính kèm	BI KIP STATA.zip (495 KB)