1. Trang chủ
  2. » Luận Văn - Báo Cáo

30 ngày học xong Stata

69 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề 30 ngày học xong Stata
Chuyên ngành Thống kê
Thể loại Hướng dẫn
Định dạng
Số trang 69
Dung lượng 627 KB
File đính kèm soanstata.zip (339 KB)

Nội dung

Stata 8.0 laø moät chöông trình thống kê maïnh ñöôïc thieát keá ñeå quaûn lyù, phaân tích soá lieäu vaø veõ ñoà thò. Beân caïnh vieäc söû duïng caâu leänh nhö caùc phieân baûn tröôùc, Stata 8.0 coù theâm menu leänh (hay coøn goïi laø giao dieän ñoà hoïa ngöôøi duøngGUI ). Ñaây laø moät caûi tieán cuûa Stata nhaèm giuùp nhöõng ngöôøi môùi laøm quen vôùi Stata coù theå naém baét deã daøng. Hieän nay Stata coù moät soá phieân baûn nhö “Small Stata”, “Intercooled Stata”, vaø StataSE. Tất cả chỉ khaùc nhau ở dung lượng tối ña của tập tin số liệu vaø toác ñoä xöû lyù. Phieân baûn ñöôïc söû duïng trong taøi lieäu naøy laø StataSE, moät phieân baûn coù toác ñoä xöû lyù nhanh gaáp nhieàu laàn (töø 50600%) so vôùi Small Stata. Ñeå kieåm tra phieân baûn Stata ñang söû duïng, chuùng ta coù theå söû duïng leänh about

Trang 1

CHƯƠNG 1: GIỚI THIỆU STATA 8.0

1 GIỚI THIỆU CHUNG

Stata 8.0 là một chương trình thống kê mạnh được thiết kế để quản lý, phântích số liệu và vẽ đồ thị Bên cạnh việc sử dụng câu lệnh như các phiên bảntrước, Stata 8.0 có thêm menu lệnh (hay còn gọi là giao diện đồ họa ngườidùng-GUI ) Đây là một cải tiến của Stata nhằm giúp những người mới làmquen với Stata có thể nắm bắt dễ dàng

Hiện nay Stata có một số phiên bản như “Small Stata”, “Intercooled Stata”,và Stata/SE Tất cả chỉ khác nhau ở dung lượng tối đa của tập tin số liệu vàtốc độ xử lý Phiên bản được sử dụng trong tài liệu này là Stata/SE, một phiênbản có tốc độ xử lý nhanh gấp nhiều lần (từ 50-600%) so với Small Stata Để

kiểm tra phiên bản Stata đang sử dụng, chúng ta có thể sử dụng lệnh about.

about

Stata/SE 8.0 for Windows

Born 30 Jan 2003

Copyright (C) 1985-2003

Total physical memory: 122352 KB

Available physical memory: 8100 KB

Single-user Stata for Windows perpetual license:

Serial number: 81980524154

Licensed to: IT Administration

Wellcome

2 CẤU TRÚC LỆNH TRONG STATA

Mặc dù Stata 8.0 có thêm menu lệnh, nhưng việc nắm vững cú pháp cáccâu lệnh là điều cần thiết bởi vì tài liệu này đa phần trình bày kiến thức dướidạng câu lệnh Sau đây là cú pháp lệnh chung trong Stata:

[by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename] [, option]

2.1 [by varlist]

Lập lại câu lệnh cho từng nhóm quan sát trong đó các giá trị của biến trongvarlist là như nhau

Có hai dạng: by và bysort

Các option là:

Trang 2

 sort: nếu dữ liệu chưa được sắp xếp theo varlist, thì by sẽ sắp xếp dữ liệulại

 rc0: nếu câu lệnh có lỗi ở một nhóm, by vẫn cho phép thực hiện câu lệnh

ở nhóm còn lại Sử dụng tốt nhất trong trường hợp câu lệnh dùng để ướclượng một hay một số nhóm không đủ số quan sát

Ví dụ: tóm tắt biến weight theo biến ht

 Cách 1: sort ht

by ht: summarize weight

 Cách 2: by ht, sort : summarize weight

 Cách 3: bysort ht : summarize weight

2.2 [varlist]

Varlist là danh sách các tên biến có khoảng trắng ở giữa

Các cách để mô tả một varlist:

 Dấu *: truy xuất những biến có một hoặc nhiều ký tự giống nhau

 Dấu ~ : truy xuất chỉ một biến duy nhất có những ký tự mong muốn

 Dấu ?: tương đương với một ký tự Tất cả các biến có kiểu tương tự đềuđược truy xuất

 Dấu - : truy xuất tất cả các biến nằm trong khoảng từ biến bên trái sangbiến bên phải

 _all : truy xuất tất cả các biến trong bộ số liệu

Ví dụ:

 myvar* : truy xuất tất cả các biến bắt đầu bằng chuỗi ký tự myvar

 my~var: truy xuất một biến duy nhất bắt đầu bằng my và kết thúc bằngvar

 my?var : truy xuất các biến bắt đầu bằng my và kết thúc bằng var với bấtkỳ ký tự nào ở giữa

 this-that: truy xuất các biến từ biến this đến biến that

2.3 [= exp)

Các mô tả có thể chứa một số toán tử Có 3 kiểu kiểu toán tử: toán tử số học,toán tử logic và hàm toán học Sau đây là quy ước của các toán tử này:

Toán tử logic

1 hoặc 0 : tương trưng cho mô tả logic là true hoặc false

< hay <= : tượng trưng cho “nhỏ hơn” hay “nhỏ hơn hoặc bằng”

> hay >= : tượng trưng cho “lớn hơn” hay “lớn hơn hoặc bằng”

== hay ~= : tượng trưng cho “bằng” hay “không bằng” (đừng lẫn lộn

giữa dấu gán “=” và dấu bằng “==” vì sẽ làm sai câu lệnh)

Trang 3

! & | : tượng trưng cho “không” ; “và” ; “hoặc”

Toán tử số học

+ - * / ^ : tượng trương cho cộng ; trừ; nhân; chia; và mũ

Hàm toán học

sqrt(); exp(); log() : tượng trưng cho các hàm toán học

substrr(str1, n1, n2) : tượng trưng cho các hàm chuỗi trong Stata

2.4 [ if exp ]

Được sử dụng sau câu lệnh có ý nghĩa là chỉ áp dụng câu lệnh trên một phần tập tin số liệu thỏa mô tả (exp) sau if

Ví dụ:

list make mpg if mpg>25: liệt kê biến make và biến mpg nhưng chỉ những

quan sát có giá trị > 25

2.5 [range]

Trong một số lệnh đặc biệt là lệnh list, người ta thường sử dụng các quy ước về phạm vi để liệt kê nhiều quan sát của một biến cùng một lúc và thường được sử dụng sau trong mệnh đề in Cụ thể như sau:

 #/# : tượng trưng cho một phạm vi từ quan sát # đến quan sát #

Ví dụ: list x in 4/6 sẽ liệt kê tất cả các quan sát từ quan sát 4 đến quan sát 6 của biến x

 f/# hay #/l : tượng trưng cho phạm vi từ quan sát đầu cho đến quan sát

# hay từ quan sát # đến quan sát cuối Ví dụ list x in f/79 sẽ liệt kê quan sát từ quan sát cuối cho đến quan sát 79

 -#/# : tượng trưng cho phạm vi từ quan sát dưới trở lên trên Ví dụ: list -10/1 sẽ liệt kê 10 quan sát cuối cùng

2.6 [weight]

Có 4 dạng:

fweight, trọng số tần suất (frequency weight): là trọng số dùng để xác

định số quan sát trùng lắp

pweights, hay trong số lấy mẫu (sampling weights ) là những trọng số có

nghĩa là nghịch đảo xác suất mà quan sát đó được tính vào vì thiết kế lấy mẫu

aweights, hay trọng số phân tích, (analytic weights) , là những trọng số tỷ

lệ nghịch đảo của phương pháp của một quan sát; nghĩa là phương sai của quan sát thứ j được giả định bằng sigma bình phương/w_j, trong đó w_j là các trọng số Về cơ bản, các quan sát đại diện trung bình và trọng số là số nhân tố làm tăng trung bình Đối với hầu hết các lệnh, thang đo ghi chép

Trang 4

của aweight là không thích hợp; stata tự động lập lại thang đo cho chúng từtổng đến N, số quan sát trong bộ số liệu khi stata sử dụng chúng.

iweights, hay trọng số tầm quan trọng ( importance weights), là các trọng

số có nghĩa là “tầm quan trọng” của các quan sát trong một số trường hợp nhạy cảm iweight không có một định nghĩa thống kê chính thức; bất cứ câu lệnh nào hỗ trợ iweight sẽ định nghĩa chính xác làm thế nào chúng được xử lý Trong hầu hết trường hợp, chúng được dự định để sử dụng bởi các nhà lập trình muốn sản xuất một công thức nào đó

Chúng ta sẽ có một số biến trong bộ dữ liệu chứa trọng số Cú pháp chung là

scatter y x [aweight=y2], mfcolor(none)

Lưu ý là phải gõ vào dấu ngoặc vuông

Stata cho phép các chữ viết tắt; fw cho fweight, aw cho aweight … Bạn có thể gõ

anova y x1 x2 x1*x2 [fw=pop]

regress avgy avgx1 avgx2 [aw=cellpop]

regress y x1 x2 x3 [pw=1/prob]

scatter y x [aw=y2], mfcolor(none)

Thêm vào đó, mỗi lệnh có ý kiến riêng của nó về lọai trọng số “tự nhiên” Nếu bạn gõ:

regress avgy avgx1 avgx2 [w=cellpop]

Câu lệnh sẽ nói với bạn rằng loại trọng số nào được giả định và biểu diễn yêu cầu như thể bạn địng rõ cho lọai trọng số đó

Có một số dạng đồng nghĩa đối với một số lọai trọng số feight có thể được xem như là tần suất (chữ viết tắt của tần suất) aeight có thể được xem như cellsize (viết tắt của cell):

Trang 5

Trọng số lấy mẫu ám chỉ nghịch đảo của xác suất mà quan sát đó được lựa chọn Các câu lệnh cho phép pweigh về cơ bản cung cấp một option cụm () Những cái này có thể được kết hợp để sản sinh những ước đóan đối với dữ liệu lấy mẫu cụm

aweights

Trọng số aweights phân tích về cơ bản phù hợp khi bạn giải quyết với dữ liệu chứa số trung bình Ví dụ, bạn có trung bình thu nhập và trung bình đặc tính của một nhóm người Biến có trọng số chứa số người có trung bình được tính tóan (hay một số tỷ lệ với lượng đó)

iweights

Trọng số này không có định nghĩa chính thức và là một phân lọai tất cả Trọng số này đôi khi phản ánh tầm quan trọng của quan sát và bất cứ lệnh nào hỗ trợ những trọng số như vậy sẽ định nghĩa chính xác làm thế nào những trọngsố này được xử lý

2.7 [using filename]

Phần này chỉ được dùng trong một số lệnh, ví dụ như infile và outfile Sau khi sử dụng, bạn xác định một tên file Bạn xác định tên file trong ngoặc đơn nếu nó chứa khoảng trắng hay những ký tự đặc biệt

Trang 6

Trong ví dụ này:

tabulate là lệnh

r and c là tên các biến

chi2, row, and col là các option

Không có dấu phẩy giữa các option .hầu hết các option là toggles – chúng ám chỉ rằng có thứ gì đó được hay không được thực hiện Cả ba lựa chọn trong ví dụ trên đều là toggle Một số option có đối số Phụ thuộc vào option nó có thể hỏi một số duy nhất, chuỗi hay biến hay vài biến (một varlist) hay một vài số

Trang 7

3 GIAO DIỆN CHƯƠNG TRÌNH

Sau khi khởi động Stata 8.0, màn hình sẽ xuất hiện các thành phần sau:

Menu Edit: bao gồm các lệnh liên quan đến sao chép dữ liệu

Menu Prefs: bao gồm các lệnh liên quan đến thiết lập giao diện cho Stata.Menu Data: bao gồm các lệnh liên quan đến việc quản lý số liệu trong Stata như dán nhãn, tạo biến, mô tả số liệu…

Menu Graphics: bao gồm các lệnh liên quan đến các loại đồ thị, biểu đồ trong thống kê như vẽ đa giác tần suất, tổ chức đồ, đồ thị chấm…

Menu Statistic: bao gồm các câu lệnh liên quan đến thống kê mô tả cũng như phân tích

Menu User: bao gồm các câu lệnh liên quan đến các số liệu, biểu đồ và các thống kê đã được thực hiện trong Stata

Menu Window: giúp chọn lựa nhanh chóng các cửa sổ trong chương trình Stata trong các trường hợp cửa sổ muốn chọn bị che khuất

Menu Help: giới thiệu các thông tin về câu lệnh cũng như những thông tin liên quan đến phần mềm Stata

Trang 8

Đây là thanh công cụ giúp thực hiện nhanh một số lệnh trong Stata Thanh này bao gồm:

: mở một tập tin số liệu Stata

: lưu tập tin với một tên khác Tập tin với tên cũ không bị thay đổi sau khi xử lý

: in kết quả hiện ra trên màn hình

: mở một file log nhằm lưu lại kết quả hiển thị trên cửa sổ Stata Command.:mở cửa sổ help thay vì sử dụng Menu Help

: đưa cửa sổ kết quả lên phía trước màn hình (trường hợp cửa sổ kết quả bị che khuất)

: đưa cửa sổ đồ thị lên phía trước màn hình (trường hợp cửa sổ đồ thị bị che khuất)

: tạo một do-file (tập tin chứa các câu lệnh)

: chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata

: xem nhưng không được chỉnh sửa cơ sở dữ liệu của tập tin số liệu Stata: cho chạy tiếp kết quả khi màn hình xuất hiện chỉ báo –-more

:chấm dứt câu lệnh đang chạy (trong trường hợp câu lệnh xử lý lâu hay kết quả quá dài)

Trang 9

Cửa sổ review sẽ hiển thị tất cả các câu lệnh đã được thực hiện trong quá trình xử lý tập tin số liệu

Cửa sổ Variables sẽ hiển thị tất cả các biến của tập tin số liệu đang được làm việc

Cửa sổ results hiển thị kết quả các câu

lệnh

Trang 10

4 MỞ-LƯU TRỮ-ĐÓNG TẬP TIN SỐ LIỆU

4.1 Mở tập tin số liệu

Sau khi màn hình Stata xuất hiện, việc tiếp theo là chúng ta phải mở tập tin sốliệu Stata để làm việc với tập tin này Tập tin số liệu Stata sẽ có phần mở rộnglà “.dta” quy trình mở tập tin số liệu như sau

B1: Click vào Menu File  chọn Open; màn hình sẽ hiện ra cửa sổ Use New

Data

B2: chọn thư mục chứa tập tin số liệu trong ô Look in

B3: chọn tên tập tin số liệu

B4: click vào nút OK

Cửa sổ Stata Command cho phép gõ các câu lệnh thay vì sử dụng các menu lệnh

Trang 11

4.2 Lưu tập tin số liệu

Sau một thời gian thao tác với tập tin số liệu, chúng ta cần phải lưu lại nhữngkết quả của quá trình làm việc Quy trình lưu tập tin số liệu như sau:

B1: click vào Menu File  chọn Save, màn hình xuất hiện thông báo

B2: chọn OK thì tập tin số liệu gốc sẽ bị ghi đè.

Chúng ta cũng có thể lưu tập tin sau khi làm việc thành tập tin mới mà không cần chép đè lên tập tin gốc bằng cách sau:

B1: chọn Menu File chọn Save As , màn hình hiển thị cửa sổ Save Stata Data

File

B2: chọn thư mục muốn lưu tập tin trong ô Save In

B3: chọn tên mới cho tập tin gốc trong ô File Name

B4: click chọn OK

4.3 Đóng tập tin số liệu

Sau khi xử lý xong tập tin, muốn thoát khỏi chương trình chọn nút ở gócphải màn hình để thoát khỏi chương trình

Lưu ý là nếu chưa lưu tập tin thì chương trình sẽ không thoát mà sẽ hiển thị hộpthoại yêu cầu lưu dữ liệu

Trang 12

5 NHẬP-CHUYỂN ĐỔI- XUẤT TẬP TIN SỐ LIỆU

5.1 Nhập tập tin số liệu

Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu trong Stata

5.2 Chuyển đổi tập tin số liệu

Đối với các tập tin số liệu thuộc các chương trình thống kê khác như Excel, SPSS,SAS… chúng ta cĩ thể chuyển đổi sang tập tin Stata bằng cách sử dụng phầnmềm chuyên dụng như DBMSCopy hay Stat Transfer

Đối với các tập tin số liệu được nhập dưới dạng số liệu thơ (hay cịn gọi là tập tin ASCII với đuơi là text, raw, cvs…), chúng ta sử dụng các lệnh insheet, infile và infix

Cú pháp

insheet using “đường dẫn\tên file.text

hay

insheet using “đường dẫn\tên file.cvs”

Cho phép Stata chuyển tập tin số liệu ở dạng bảng tính mở rộng trong đĩcác cột

là các biến và mỗi dịng tượng trưng chomột quan sát Các biến này cách nhau bởi dấu tab hay dấu phẩy và dịng đầu tiên cĩ thể chứa tên của biến

infile var1 var2 var3 using mydata.txt Cho phép Stata nhập tập tin với số

liệu được định dạng bằng cách sử dụng các khoảng trắng

infix var1 1-3 var2 4 str name 10-20

using “tên tập tin”.raw Cho phép Stata chuyển tập tin số liệu

chưa định dạng khơng sử dụng tập tin định nghĩa

infix dictionary using “tên tập

tin”.raw { var1 1-3 var2 4 str name

Trang 13

Ví dụ 1:

Chúng ta có tập tin Excel

Lưu tập tin Excel trên dưới dạng cvs

insheet using “đường dẫn\tên file.cvs”

Trang 14

Nếu các giá trị của một quan sát được trình bày trên hai hay nhiều dịng như tập tinauto4.raw dưới đây

infix 2 lines 1: str make 1-20 2: mpg 1-2 weight 3-6 price 7-10 using

"D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw",clear

Trong trường hợp tập tin có quá nhiều biến, chúng ta không thể làm trực tiếpnhư trên mà phải tạo một tập tin định nghĩa có đuôi là dct Khi đó, Stata mớicó thể hiểu tập tin số liệu chúng ta nhập vào

infix dictionary using "D:\Arnaud\teaching\year 2005_06\Stata\data\ Lecture 1\auto4.raw",clear {

2 lines

1:

str make 1-20 2:

mpg 1-2 weight 3-6 price 7-10 }

infix using mydic.dct

5.3 Xuất tập tin số liệu

Sau khi xử lý xong tập tin ASCII, chúng ta có thể xuất tập tin này dưới dạngtập tin Stata hay dưới dạng tập tin ASCII trở lại

Cú pháp

save “đường dẫn\tên file.dta” Lưu tập tin dưới dạng tập tin Stata

outsheet “đường dẫn \tên file raw”,

replace : lưu tập tin dưới dạng file ASCII

Trang 15

outfile “đường dẫn\tên file.raw”,

replace lưu tập tin dưới dạng file ASCII nhưng

không có dòng đầu tiên

Ví dụ

save D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.dta

outsheet D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace

outfile D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw , replace

6 CHỨC NĂNG DO-FILE VÀ LOG FILE

6.1 Do-File

Trong nhiều trường hợp, các tập tin số liệu khác nhau có thể cùng sử dụng nhiều lệnh giống nhau cho dù chúng có tập hợp biến số khác nhau Để tránh việc lập lại những câu lệnh này mỗi khi thao tác, Stata có chức năng tạo một tập lệnh chung cho tất cả các tập tin số liệu gọi là do-file

Quy trình tạo do-file

Cú pháp

doedit Tạo một tập tin do-file

do “đường dẫn\tên do-file” Chạy do-file trên tập tin hiện hành

Lưu do-file

Trang 16

Một chức năng khác ngoài chức năng tạo do-file của Stata là chức năng tạo log-file Log file được sử dụng để lưu lại kết quả của quá trình xử lý tập tin làmviệc dưới dạng văn bản để người xử lý có thể dễ dàng xem lại các kết quả

Quy trình tạo log file

Cú pháp

log using “đường dẫn\tên log.smcl”, text Tạo file log cĩ đuơi smcl dạng text

Muốn xem dưới dạng word, notepad phải chuyển đổi

log using “đường dẫn\tên log.log Tạo file log đuơi log nghĩa là file log sẽ

được xem trực tiếp dưới dạng notepad khơng cần chuyển đổi

view “đường dẫn\tên log.smcl”, text Xem lại file log đã tạo trước đĩ

log using “đường dẫn\tên log”, append Sử dụng file log trước đĩ và tiếp nối nội

dung file cũ

log using “đường dẫn\tên log”, replace Sử dụng file log cũ nhưng thay thế tồn

bộ nội dung cũ

log off Tạm dừng file log

log on Mở lại file log

log close Đĩng file log

Ví dụ:

log using "C:\Documents and Settings\Me\Desktop\h.smcl", text

log using "C:\Documents and Settings\Me\Desktop\h.log"

log off

log on

log close

7 LƯU VÀ SAO CHÉP ĐỒ THỊ

Tạo file log

Đĩng file log

Xử

Số liệu

Trang 17

Với chức năng log file như vừa nói ở trên chúng ta có thể lưu trữ cũng như saochép các kết quả của phiên xử lý dưới dạng file log hay file smcl Tuy nhiênnếu trong quá trình xử lý, chúng ta có vẽ biểu đồ hay đồ thị thì log file lạikhông thể lưu lại các đồ thị hay biểu đồ này Do đó để lưu đồ thị cũng như cắtdán đồ thị sang một tập tin khác chúng ta làm như sau:

7.1 Lưu đồ thị/biểu đồ

Sử dụng menu lệnh với các bước sau đây:

B1:chọn Menu File  chọn Save Graph, màn hình hiển thị cửa sổ Save StataGraph File

B2: chọn thư mục lưu trong ô Save in

B3: chọn tên cho file graph

B4: click OK

7.2 Sao chép đồ thị/biểu đồ

Click chuột phải vào biểu đồ/đồ thị và chọn Copy Graph, chọn tập tin muốndán và chọn paste

8 HỆ THỐNG TRỢ GIÚP (HELP)

Stat có Menu Help dùng để trợ giúp người dùng trong việc sử dụng Stata Nếungười dùng muốn tìm từ khóa liên quan đến Stata, người dùng chỉ chọn MenuHelp  Search, màn hình hiển thị cửa sổ Keyword Search

 Search all: tìm tất cả các thông tin liên quan đến từ khoá gõ vào

Nếu bạn biết tên một lệnh nào đó nhưng lại không biết chức năng của lệnh,chúng ta có thể nhờ Stata trợ giúp bằng cách chọn Menu Help  Stata

Trang 18

Command, màn hình hiển thị cửa sổ Stata Command

Gõ tên lệnh rồi nhấn OK, Stata sẽ hiện thị tất cả các thông tin liên quan đếnlệnh đó như các mô tả, cách dùng các option…

9 CÁC CHỨC NĂNG KHÁC

9.1 Lệnh more

Trong quá trình Stata chạy một câu lệnh, nếu kết quả của lệnh đó quá dài,Stata chỉ hiện thị một phần kết quả trên màn hình Result Khi đó, cuối mànhình Result sẽ xuất hiện một dòng lệnh như sau

more—

Dòng lệnh này thông báo rằng kết quả chưa hiển thị ra hết Để hiện thị nộidung phần kết quả tiếp theo chúng ta thực hiện một trong ba cách sau:

 Gõ phím trắng để xem câu trả lời ở màn hình kế tiếp

 Gõ l hay enter để xem dòng tiếp

 Gõ q để ngừng không hiện ra kết quả nữa để người sử dụng có thể thựchiện được câu lệnh mới Khi đó màn hình sẽ xuất hiện Break—- màuđỏ để thông báo điều này

9.2 Quản lý Bộ nhớ

Trong nhiều trường hợp, file số liệu mà bạn tải về để xử lý có dung lượng quálớn so với Bộ nhớ mà Stata dành để xử lý số liệu Trong trường hợp đó, Statasẽ xuất hiện thông báo trong cửa sổ Stata Results

No room to add more observations

R(901);

Khi đó chúng ta phải thay đổi số lượng bộ nhớ cấp cho khu vực dữ liệu; Stata đề nghị thiết lập bộ nhớ tối thiểu là gấp 1 lần hay ½ lần kích thước file bạn muốn tải vào bộ nhớ máy tính Chúng ta thực hiện điều này bằng câu lệnh :

set memory #m

Trang 19

Trong đó #m tượng trưng cho số megabyte bộ nhớ mà bạn muốn cài đặt choStata sao cho lớn hơn file số liệu mà bạn muốn xử lý

Nếu muốn Stata nhớ giới hạn bộ nhớ được thiết lập để sử dụng cho các filekhác chúng ta thực hiện câu lệnh:

set memory #m, permanently

Ngoài ra khi muốn tìm hiểu việc sử dụng bộ nhớ của Stata, bạn có thể dùnglệnh memory hoặc query memory.

10 CÁC QUY ƯỚC TRONG TÀI LIỆU

Trong mỗi câu lệnh sẽ gồm ba phần

 Cú pháp : trình bày cú pháp chung dành cho câu lệnh đó

 Ví dụ :ví dụ thực hành cho từng câu lệnh, các ví dụ này sẽ lấy từ một trong các tập tin sẽ được trình bày trong mục 11 dưới đây

 Diễn giải kết quả : sẽ đưa ra những lý giả các con số giúp người đọc hiểu được các kết quả này

Trong phần cú pháp của các câu lệnh, sẽ có những chữ viết tắt với ý nghĩa như sau mà chúng ta cần nhớ:

 bpt : biến phụ thuộc

 bđl : biến độc lập

Trong phần diễn giải kết quả, sẽ có những chỗ in đậm ví dụ như P < F_L + P >

F_U = 0.0373 thì đó chính là phần quan trọng trong phần kết quả mà chúng ta

cần phải đọc và hiểu được kết quả đó nói gì.

11 CÁC TẬP TIN SỐ LIỆU ĐƯỢC SỬ DỤNG

Để việc nắm bắt Stata được dễ dàng, chúng ta cần phải thực hành các câu lệnhtrên một tập tin số liệu nhất định Vì vậy, trong tài liệu này chúng ta sẽ sử dụngmột số tập tin số liệu mẫu được thiết kế để người sử dụng có thể thực hành cáclệnh trên đó Để giúp người đọc hiểu được nội dung của các tập tin số liệu này,chúng tôi xin trình bày danh sách các tập tin số liệu cũng như mục đích của cáctập tin này dưới đây:

Trang 20

 iq: chỉ số thông minh

 anxiety: lo lắng (1=không, 2=nhẹ, 3=trung bình, 4= nặng)

 depress: suy nhược (1=không, 2=nhẹ, 3=trung bình, 4= nặng)

 sleep: bà/cô có thể ngủ bình thường hay không? (1=có, 2=không)

 sex: bà/cô có mất hứng thú khi quan hệ tình dục? (1=không, 2=có)

 life: gần đây bà/cô có cảm thấy muốn tự tự hay không? (1=không, 2=có)

 weight: tăng trọng lượng trong vòng 6 tháng gần đây (theo lbs)

Trong các biến trên, biến age, iq, weight là những biến định lượng còn nhữngbiến anxiety, depress là những biến thứ tư ; biến sleep, sex, life là những biếnnhị giá Việc phân biệt các loại biến như trên là rất quan trọng vì nó giúp ngườiphân tích có thể áp dụng được những phương pháp phù hợp với loại biến đó.Nghiên cứu này được tiến hành nhằm trả lời một số câu hỏi như : “các biếnliên quan với nhau như thế nào?”, liệu những người phụ nữ có ý định tự tự vànhững người không có khác nhau ở khía cạnh nào hay không?” Nghiên cứucòn quan tâm đến mối tương quan giữa lo lắng và suy nhược cũng như mốitương quan giữa thay đổi trọng lượng, tuổi và chỉ số iq

usair.dta:

Đây là tập tin số liệu về ô nhiễm tại 41 thành phố của Mỹ được thu thập bởi Sokal và Rohlf (1981) từ một số tạp chí chính phủ Mỹ Trong tập tin này, chỉ cómột biến phụ thuộc duy nhất, so2 là trung bình mật độ SO2 hằng năm tính bằng mg/m3 những con số trung bình trong tập tin này là những con số trung bình của mức SO2 trong vòng 3 năm từ 1969 đến 1971 cho mỗi thành phố Các biến còn lại là những biến giải thích (hay là những biến độc lập) được liệt kê dưới đây:

 temp:nhiệt độ trung bình theo f0

 manuf: số công ty sản xuất có từ 20 công nhân trở lên

 pop: kích thước dân số trên 1000

 wind: tốc độ gió trung bình hằng năm tính bằng dặm/giờ

 precip: lượng mưa trung bình hằng năm tính theo inches

 days: số ngày trung bình có mưa trên một năm

Câu hỏi chính về những dữ liệu này là mức ô nhiễm được đo lường bằng mật độ tập trung của SO2 sẽ được xác định như thế nào bởi sáu biến độc lập còn lại

rat.dta

Đây là một tập tin số liệu về một nghiên cứu của Robert Rosenthal, một nhàtâm lý học nổi tiếng ông chọn ra ba giống chuột: “thông minh”, “trung bình”,

Trang 21

“đần độn” được giao cho các sinh viên Sau đó các sinh viên chia mỗi giốngchuột làm 2 nhóm và nuôi dưỡng trong môi trường “tự do” hay “tù túng Trongmỗi nhóm 8 con chuột được dạy để tìm đường đi trong mê cung và sinh viênghi nhận số lần mắc sai lầm của các con chuột Oâng thực hiện kết quả nàynhằm trả lời câu hỏi:

Giống chuột đần độn có mắc nhiều sai lầm hơn giống chuột thông minh khihtực hiện các trắc nghiệm trong mê đạo hay không?

Môi trường nuôi dưỡng chuột có ảnh hưởng đến việc chuột mắc nhiều hay ítcác sai lầm hay không?

Môi trường nào là tối ưu cho loại chuột nào?

ivf.dta

CHƯƠNG 2: QUẢN LÝ SỐ LIỆU

Khi có trong tay một tập tin số liệu (nhiều khi không do bản thân người sử dụngthu thập ), chúng ta có nhiều câu hỏi đặt ra liên quan đến tập tin số liệu đó.Chẳng hạn như tập tin này có bao nhiêu biến, các biến đó là biến gì, biến đó có

Trang 22

bao nhiêu giá trị, vvv Do đó trước khi thực hiện thống kê mô tả cũng nhưthống kê phân tích, chúng ta cần phải thực hiện một bước gọi là quản lý sốliệu Chương 2 này sẽ trình bày các câu lệnh liên quan đến quản lý tập tin vàquản lý các biến trong tập tin số liệu đó.

Trong chương này cũng như những chương tiếp theo, có một số câu lệnh đơngiản chúng tôi không hướng dẫn sử dụng menu lệnh mà chỉ hướng dẫn gõ câulệnh trực tiếp vào cửa sổ Stata Command Như vậy, người sử dụng có thể nhớđược những lệnh căn bản mà không cần sử dụng menu lệnh

1 QUẢN LÝ TẬP TIN SỐ LIỆU

1.1 Mô tả tập tin số liệu

Stata có nhiều cách để tìm hiểu thông tin về tập tin số liệu được nhập vào Stata, mỗi cách sẽ cho những thông tin khác nhau về tập tin số liệu đó

codebook Cung cấp thông tin từng biến Có thể giúp phát hiện

lỗi nhập liệu

-variable name type format label -variable label

-id int %8.0g ID

age byte %8.0g AGE

iq int %8.0g IQ

anxiety byte %8.0g ANXIETY

depress byte %8.0g DEPRESS

sleep byte %8.0g SLEEP

sex byte %8.0g SEX

life byte %8.0g LIFE

weight float %9.0g WEIGHT

Sorted by:

-Diễn giải kết quả:

 Số quan sát (obs): 118

Trang 23

 Số biến (vars) : 6

 Kích thước tập tin (size): 2,124 (chiếm 0.2% bộ nhớ ảo trong stata)

Ví dụ 2:

codebook age sleep

age AGE - type: numeric (byte)

Diễn giải kết quả:

 Loại số liệu (type): kiểu số (tính bằng byte)

 Phạm vi giá trị (range): từ 29 đến 46 tức là tuổi của các đối tượng từ 29-46

 Số giá trị (unique values): 18 bao gồm các giá trị 29,30,31… cho đến 46

 Khoảng cách các giá trị (unit): 1 tức là các đơn vị cách nhau 1 đơn vị

 Số giá trị mất (missing): 0/118 tức không có giá trị mất trên tổng số 118quan sát

Trang 24

18 | 43 82 |

19 | 46 86 |

20 | 30 88 |

more Diễn giải kết quả

 Các giá trị –99 trong một số quan sát biểu thị cho gái trị mất

 Chữ more cuối màn hình cho biết kết quả còn tiếp tục Muốn xem tiếp ấnvào chữ more

Diễn giải kết quả:

 Biến age có 118 giá trị dương (positive)

 Biến age có 118 giá trị nguyên (interger)

1.2 Chỉnh sửa tập tin số liệu

Sau khi mô tả số liệu, nếu nhận thấy tập tin số liệu cần sửa đổi hoặc thêm bớt biến, chúng ta có thể sửa đổi trực tiếp trên Stata

Cú pháp

edit Mở cửa sổ soạn thảo tập tin

Ví dụ:

edit

Trang 25

Sau khi hoàn tất việc sửa đổi, nhấn nút ở góc phải màn hình Stata editor, một hộp thoại xuất hiện

Chọn OK, stata sẽ chấp nhận các thao tác sửa đổi trước đó

2 QUẢN LÝ BIẾN SỐ

Trong mục 2 này chúng ta sẽ được hướng dẫn các lệnh xử lý hay còn gọi là

“làm sạch” tập tin số liệu sao cho các biến cũng như các giá trị của nó phải thật dễ hiểu và gọn gàng nhằm chuẩn bị cho bước thống kê mô tả cũng như thống kê phân tích được thuận lợi Chúng ta tiếp tục thực hành với tập tin số

liệu fem.dta cho các câu lệnh trong phần này

2.1 Tạo biến mới

Cú pháp

generate newvar = exp

gen newvar=exp Tạo biến mới theo mô tả (exp) sau

dấu =

egen newvar= exp Tạo biến mới với phần mô tả phức tạp

hơn (tính trung bình, độ lệch chuẩn )

Trang 26

Ví dụ 1:

gen cannang=weight

gen llsn = life==2 & depress==2

Diễn giải kết quả:

 Tạo biến cannang bằng với biến weight

 Tạo biến llsn bao gồm những đối tượng có giá trị biến life bằng 2 và giá trịbiến depress bằng 2

Ví dụ 2:

egen age_mean = mean(age)

Diễn giải kết quả:

 Tạo biến age_mean bằng trung bình tuổi

2.2 Hủy bỏ biến

Cú pháp

drop varlist Xóa các biến trong varlist

keep varlist Xóa các biến còn lại trừ các biến trong varlist

Ví dụ:

keep age-llsn

drop llsn cannang

Diễn giải kết quả:

 Giữ lại các biến từ biến age cho đến biến llsn, xóa các biến còn lại

 Xóa các biến llsn và cannang

2.3 Chuyển đổi kiểu biến số

Trong Stata có 3 kiểu biến số sau đây: biến dạng số, biến chuỗi và biến ngàytháng

Biến kiểu số có thể là số âm, số dương, số nguyên và số thập phân TrongStata ngoài ký hiệu str dùng để chỉ biến chuỗi, các ký hiệu còn lại (float, int )

Trang 27

đều là biến số Nếu khi gõ câu lệnh mà màn hình result hiện thông báo “typemismatch” có nghĩa là bạn câu lệnh đó không dùng cho biến số quan tâm.

Biến kiểu chuỗi cũng thường được gọi là biến “ký tự” là những biến chứa cácký tự cũng như các ký tự đặc biệt khác (@, ‘’…)

Biến kiểu ngày tháng là một trường hợp đặc biệt của biến kiểu số Mặc dùchúng thường được gõ vào dưới dạng chuỗi (ví dụ: 01jan1992 hay 01/01/92),chúng phải được lưu lại trong Stata dưới dạng số Stata có một số câu lệnh liênquan đến việc với biến ngày tháng Khi đó, Stata sẽ lưu ngày tháng dưới dạngsố ngày (hay tháng hay quý ) tính từ ngày 1/1/1960 Nếu ngày nhập liệu trướcngày 1/1/1960 thì giá trị của ngày đó sẽ mang dấu âm, còn nếu sau ngày1/1/1960 sẽ mang dấu dương

2.3.1 Chuyển đổi giữa biến chuỗi và biến số

Nếu trong bộ số liệu chúng ta có những biến dưới dạng chuỗi chúng ta phảichuyển những biến này thành dạng số để có thể thực hiện các thống kê phântích trên biến đó Cũng có trường hợp ngược lại khi chúng ta muốn chuyểnnhững biến số thành biến chuỗi Khi đó, Stata có các lệnh “destring”,

“decode”, “encode”

Cú pháp

destring varname, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi

encode var, gen(newvar) Tạo biến kiểu số từ biến kiểu chuỗi và gắn

những ký tự trong giá trị của biến chuỗi cho các giá trị số của biến số mới tạo

decode var, gen(newvar) Tạo biến chuỗi từ biến số Tuy nhiên muốn thực

hiện được lệnh decode, phải dán nhãn giá trị chobiến kiểu số

Ví dụ 1:

destring d_income, gen(inc_pct_num) ignore("$")

Diễn giải kết quả

 Tạo biến inc_pct_num là biến số từ biến chuỗi d_income trong đó loại bỏ (ignore) các kí tự đặc biệt của biến d_income

Trang 28

Ví dụ 2:

destring inc_pct, gen(inc_pct_num) percent force

Diễn giải kết quả

 Tạo biến inc_pct_num là biến số từ biến inc_pct dạng chuỗi trong đó các giá trị của biến inc_pct_num sẽ ở dưới dạng phần trăm (percent)

 Option force dùng trong trường hợp nếu không thể chuyển những giá trị của biến chuỗi thành dạng số thì Stata sẽ chuyển những giá trị này thành giá trị mất

Ví dụ 3:

encode city, gen(citynum)

Diễn giải kết quả:

 Tạo biến kiểu số citynum từ biến kiểu chuỗi city trong đó các giá trị của biến citynum sẽ được gán nhãn gồm các ký tự đầu tiên trong các giá trị của biến city

Ví dụ 4:

decode citynum2, gen(cityname)

Diễn giải kết quả:

 Tạo biến kiểu số cityname từ biến kiểu chuỗi citynum2

2.3.2 Chuyển đổi giữa biến ngày tháng và biến số

Thường thì khi nhập ngày tháng vào tập tin số liệu chúng ta thường nhập dưới dạng “01jan1958” hay “feb 25 1990” hay “19/5/93” Chúng ta cần phải

chuyển những dạng này sang dạng số Stata sẽ có các lệnh chuyển dạng ngày tháng sang dạng số và định dạng hiển thị cho các số liệu này

Cú pháp

gen newvar=date(var, “mdy”) Hàm date được sử dụng khi bạn có

biến ngày là một biến chuỗi đơn Dạng chuỗi của biến ngày phải có khoảng ngăn cách

gen newvar=mdy(varmonth,varday,varyear) Hàm mdy dùng trong trường hợp

Trang 29

ngày nghiên cứu được tách ra thành

ba biến là biến ngày, biến tháng, biến năm Khi đó hàm mdy sẽ tạo nên biến số ngày là tổng hợp của ba biến trên

gen newvar=year(var) Hàm month, year, day cho phép bạn

rút trích tháng, năm, ngày của biến ngày tháng thành các biến tháng, năm, ngày dạng số

Diễn giải kết quả

 Tạo biến số datevar từ biến ngày tháng str_date

 Tạo biến kiểu số birthdate từ ba biến chuỗi b-month, b_day, b_year

 Tạo biến kiểu số yearvar từ biến kiểu số birthdate trong đó chỉ lấy phần năm của biến birthdate

 Tạo biến kiểu số monthvar từ biến kiểu số birthdate trong đó chỉ lấy phần tháng của biến birthdate

 Tạo biến kiểu số dayvar từ biến kiểu số birthdate trong đó chỉ lấy phần ngày của biến birthdat

2.4 Thay đổi giá trị của biến

Cú pháp

mvdecode varlist, mv(-99) Chuyển các giá trị = -99 hay bất kì giá trị nào

được người nhập liệu quy định là giá trị mất thànhdấu “.” (ký hiệu giá trị mất trong Stata)

replace var = exp Chuyển một loại giá trị của một biến thành một

loại giá trị khác

recode varlist (rule) Chuyển toàn bộ các quan sát của một loại giá trị

thành một loại giá trị khác

Trang 30

Ví dụ 1:

mvdecode _all, mv(-99)

iq: 8 missing values generated

anxiety: 5 missing values generated

depress: 8 missing values generated

sleep: 5 missing values generated

sex: 4 missing values generated

life: 1 missing value generated

weight: 11 missing values generated

cannang: 11 missing values generated

csiq: 8 missing values generated

Diễn giải kết quả

 “_all” có nghĩa là lệnh mvdecode sẽ áp dụng trên tất cả các biến có chứa giá trị –99 Trong tập tin này, biến iq có 8 giá trị mất (-99) chuyển thành dấu “.”, biến anxiety có 8 giá trị vv…

Ví dụ 2:

replace sleep= if sleep==3

(1 real change made, 1 to missing)

Diễn giải kết quả

 Thay thế giá trị 3 trong biến sleep bằng dấu “.”

 Có một giá trị được thay đổi, một giá trị trở thành giá trị mất

Ví dụ 3:

recode sleep 1=2 2=1

recode sleep 1 =2

recode sleep 3/5 = 6

recode sleep nonmiss=8

recode sleep miss=3

recode sleep else=7

Diễn giải kết quả:

 Chuyển giá trị 1 thành giá trị 2, giá trị 2 thành giá trị 1

 Chuyển giá trị 1 và thành giá trị 2

 Chuyển các giá trị 3, 4, 5 thành các giá trị 6

 Chuyển các giá trị không mất thành giá trị 8

 Chuyển các giá trị mất thành giá trị 3

 Chuyển các giá trị còn lại thành giá trị 7

2.5 Tạo nhãn cho Bộ số liệu/biến/giá trị của biến

2.5.1 Tạo nhãn cho Bộ số liệu

Cú pháp

Trang 31

label data “tên tập tin”

Ví dụ

label data "nghien cuu ve suy nhuoc o phu nu"

2.5.2 Tạo nhãn cho biến

Cú pháp

label variable labelname

Ví dụ:

label variable iq chisoIQ

Diễn giải kết quả

 Tạo nhãn chisoIQ cho biến iq

2.5.3 Tạo nhãn cho giá trị

Cú pháp

label define lbname # exp # exp Tạo nhãn cho các giá trị

label values varname lbname Gán nhãn giá trị cho biến

label define mucdo 1 khong 2 nhe 3 trungbinh 4 nang

label value anxiety mucdo

Diễn giải kết quả

 Tạo nhãn giá trị có tên là mucdo với giá trị 1=không 2=nhẹ, 3=trung bình, 4= nặng

 Gán nhãn mucdo cho biến anxiety

Ví dụ 2:

foreach x in sex life sleep {

label define ‘x’ yn

}

Trang 32

Diễn giải kết quả

 Dán đồng loạt nhãn yn cho ba biến sex life và sleep

Trang 33

CHƯƠNG 4 THỐNG KÊ PHÂN TÍCH

Sau khi đã thực hiện các bước như làm sạch số liệu, thống kê mô tả, chúng ta có thể sử dụng những phương pháp thống kê phân tích để trả lời những câu hỏi đại loại như: các biến có quan hệ với nhau như thế nào? Các biến có tương tác với nhau hay không? vv…quan tâm Chương 4 giới thiệu các phương pháp thốngkê phân tích sử dụng cho biến định lượng cũng như định tính Vì vậy, chương này sẽ gồm 4 phần: 1) thống kê dành cho biến định lượng 2) thống kê dành chobiến định tính 3) thống kê phân tích trong nghiên cứu bệnh chứng 4) thống kê phân tích trong nghiên cứu đoàn hệ

1.1 Tương quan

Trang 34

Khi muốn tìm hiểu mối quan hệ giữa hai hay nhiều biến ngẫu nhiên liên tục, chúng ta cần xác định mối tương quan giữa chúng Tương quan ở đây có nghĩa là cả hai biến đều tác động qua lại lẫn nhau chứ không phải là một biến độc lập và một biến phụ thuộc.

1.1.1 Tương quan giữa hai hay nhiều biến định lượng

Muốn biết các biến có mối quan hệ với nhau như thế nào, chúng ta phải tính hệsố tương quan (ký hiệu là r)

Hệ số tương quan này có giá trị từ –1 đến 1 Kết quả hệ số tương quan sẽ có ý nghĩa khác nhau như sau

r=0 :không có mối tương quan giữa hai biến quan tâm

r<0 : có mối tương quan nghịch

r > 0 : có mối tương quan thuận

0 < |r| < 0.2 : có mối tương quan rất yếu

0.2< |r| < 0.5 : có mối tương quan yếu

0.5 < |r| < 0.7: có mối tương quan trung bình

0.7 < |r| < 0.9: có mối tương quan chặt chẽ

> 0.9 : có tương quan rất chặt chẽ

Nhưng trên thực tế 0.5 < |r| < 0.7 đã được gọi là tương quan khá chặt chẽ

Chúng ta có thể tính được hệ số tương quan bằng lệnh corr hay pwcorr và

chúng ta có thể xem được các mối tương quan này bằng đồthị khi gõ lệnh

graph matrix để vẽ ma trận đồ thị chấm.

corr : cho phép tính toán hệ số tương quan giữa hai biến hay hoặc ma

trận các hệ số tương quan của một nhóm các biến xác địnhpwcorr : hiển thị hệ số tương quan cho từng cặp

sig : thể hiện mức ý nghĩa thống kê của hệ số tương quan

star(5) : đánh dấu sao vào những hệ số có ý nghĩa thống kê

Ngày đăng: 20/03/2024, 08:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w