Bí kíp phân tích dữ liệu với Stata

99 2 0
Bí kíp phân tích dữ liệu với Stata

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Stata 8.0 laø moät chöông trình thống kê maïnh ñöôïc thieát keá ñeå quaûn lyù, phaân tích soá lieäu vaø veõ ñoà thò. Beân caïnh vieäc söû duïng caâu leänh nhö caùc phieân baûn tröôùc, Stata 8.0 coù theâm menu leänh (hay coøn goïi laø giao dieän ñoà hoïa ngöôøi duøngGUI ). Ñaây laø moät caûi tieán cuûa Stata nhaèm giuùp nhöõng ngöôøi môùi laøm quen vôùi Stata coù theå naém baét deã daøng. Hieän nay Stata coù moät soá phieân baûn nhö “Small Stata”, “Intercooled Stata”, vaø StataSE. Tất cả chỉ khaùc nhau ở dung lượng tối ña của tập tin số liệu vaø toác ñoä xöû lyù. Phieân baûn ñöôïc söû duïng trong taøi lieäu naøy laø StataSE, moät phieân baûn coù toác ñoä xöû lyù nhanh gaáp nhieàu laàn (töø 50600%) so vôùi Small Stata. Ñeå kieåm tra phieân baûn Stata ñang söû duïng, chuùng ta coù theå söû duïng leänh about.

CHÖÔNG 1: TỔNG QUAN VỀ STAT 8.0 1 GIÔÙI THIEÄU CHUNG Stata 8.0 laø moät chöông trình thống kê maïnh ñöôïc thieát keá ñeå quaûn lyù, phaân tích soá lieäu vaø veõ ñoà thò Beân caïnh vieäc söû duïng caâu leänh nhö caùc phieân baûn tröôùc, Stata 8.0 coù theâm menu leänh (hay coøn goïi laø giao dieän ñoà hoïa ngöôøi duøng-GUI ) Ñaây laø moät caûi tieán cuûa Stata nhaèm giuùp nhöõng ngöôøi môùi laøm quen vôùi Stata coù theå naém baét deã daøng Hieän nay Stata coù moät soá phieân baûn nhö “Small Stata”, “Intercooled Stata”, vaø Stata/SE Tất cả chỉ khaùc nhau ở dung lượng tối ña của tập tin số liệu vaø toác ñoä xöû lyù Phieân baûn ñöôïc söû duïng trong taøi lieäu naøy laø Stata/SE, moät phieân baûn coù toác ñoä xöû lyù nhanh gaáp nhieàu laàn (töø 50-600%) so vôùi Small Stata Ñeå kieåm tra phieân baûn Stata ñang söû duïng, chuùng ta coù theå söû duïng leänh about about Stata/SE 8.0 for Windows Born 30 Jan 2003 Copyright (C) 1985-2003 Total physical memory: 122352 KB Available physical memory: 8100 KB Single-user Stata for Windows perpetual license: Serial number: 81980524154 Licensed to: IT Administration Wellcome 2 CAÁU TRUÙC LEÄNH TRONG STATA Maëc duø Stata 8.0 coù theâm menu leänh, nhöng vieäc naém vöõng cuù phaùp caùc caâu leänh laø ñieàu caàn thieát bôûi vì taøi lieäu naøy ña phaàn trình baøy kieán thöùc döôùi daïng caâu leänh Sau ñaây laø cuù phaùp leänh chung trong Stata: [by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename] [, option] 2.1 [by varlist] Laäp laïi caâu leänh cho töøng nhoùm quan saùt trong ñoù caùc giaù trò cuûa bieán trong varlist laø nhö nhau Coù hai daïng: by vaø bysort Caùc option laø: 1  sort: neáu döõ lieäu chöa ñöôïc saép xeáp theo varlist, thì by seõ saép xeáp döõ lieäu laïi  rc0: neáu caâu leänh coù loãi ôû moät nhoùm, by vaãn cho pheùp thöïc hieän caâu leänh ôû nhoùm coøn laïi Söû duïng toát nhaát trong tröôøng hôïp caâu leänh duøng ñeå öôùc löôïng moät hay moät soá nhoùm khoâng ñuû soá quan saùt Ví duï: toùm taét bieán weight theo bieán ht  Caùch 1: sort ht by ht: summarize weight  Caùch 2: by ht, sort : summarize weight  Caùch 3: bysort ht : summarize weight 2.2 [varlist] Varlist laø danh saùch caùc teân bieán coù khoaûng traéng ôû giöõa Caùc caùch ñeå moâ taû moät varlist:  Daáu *: truy xuaát nhöõng bieán coù moät hoaëc nhieàu kyù töï gioáng nhau  Daáu ~ : truy xuaát chæ moät bieán duy nhaát coù nhöõng kyù töï mong muoán  Daáu ?: töông ñöông vôùi moät kyù töï Taát caû caùc bieán coù kieåu töông töï ñeàu ñöôïc truy xuaát  Daáu - : truy xuaát taát caû caùc bieán naèm trong khoaûng töø bieán beân traùi sang bieán beân phaûi  _all : truy xuaát taát caû caùc bieán trong boä soá lieäu Ví duï:  myvar* : truy xuaát taát caû caùc bieán baét ñaàu baèng chuoãi kyù töï myvar  my~var: truy xuaát moät bieán duy nhaát baét ñaàu baèng my vaø keát thuùc baèng var  my?var : truy xuaát caùc bieán baét ñaàu baèng my vaø keát thuùc baèng var vôùi baát kyø kyù töï naøo ôû giöõa  this-that: truy xuaát caùc bieán töø bieán this ñeán bieán that 2.3 [= exp) Caùc moâ taû coù theå chöùa moät soá toaùn töû Coù 3 kieåu kieåu toaùn töû: toaùn töû soá hoïc, toaùn töû logic vaø haøm toaùn hoïc Sau ñaây laø quy öôùc cuûa caùc toaùn töû naøy: Toaùn töû logic 1 hoaëc 0 : töông tröng cho moâ taû logic laø true hoaëc false < hay hay >= : töôïng tröng cho “lôùn hôn” hay “lôùn hôn hoaëc baèng” == hay ~= : töôïng tröng cho “baèng” hay “khoâng baèng” (ñöøng laãn loän giöõa daáu gaùn “=” vaø daáu baèng “==” vì seõ laøm sai caâu leänh) 2 ! & | : töôïng tröng cho “khoâng” ; “vaø” ; “hoaëc” Toaùn töû soá hoïc + - */ ^ : töôïng tröông cho coäng ; tröø; nhaân; chia; vaø muõ Haøm toaùn hoïc sqrt(); exp(); log() : töôïng tröng cho caùc haøm toaùn hoïc substrr(str1, n1, n2) : töôïng tröng cho caùc haøm chuoãi trong Stata 2.4 [ if exp ] Ñöôïc söû duïng sau caâu leänh coù yù nghóa laø chæ aùp duïng caâu leänh treân moät phaàn taäp tin soá lieäu thoûa moâ taû (exp) sau if Ví duï: list make mpg if mpg>25: lieät keâ bieán make vaø bieán mpg nhöng chæ nhöõng quan saùt coù giaù trò > 25 2.5 [range] Trong moät soá leänh ñaëc bieät laø leänh list, ngöôøi ta thöôøng söû duïng caùc quy öôùc veà phaïm vi ñeå lieät keâ nhieàu quan saùt cuûa moät bieán cuøng moät luùc vaø thöôøng ñöôïc söû duïng sau trong meänh ñeà in Cuï theå nhö sau:  #/# : töôïng tröng cho moät phaïm vi töø quan saùt # ñeán quan saùt # Ví duï: list x in 4/6 seõ lieät keâ taát caû caùc quan saùt töø quan saùt 4 ñeán quan saùt 6 cuûa bieán x  f/# hay #/l : töôïng tröng cho phaïm vi töø quan saùt ñaàu cho ñeán quan saùt # hay töø quan saùt # ñeán quan saùt cuoái Ví duï list x in f/79 seõ lieät keâ quan saùt töø quan saùt cuoái cho ñeán quan saùt 79  -#/# : töôïng tröng cho phaïm vi töø quan saùt döôùi trôû leân treân Ví duï: list -10/1 seõ lieät keâ 10 quan saùt cuoái cuøng 2.6 [weight] Coù 4 daïng:  fweight, troïng soá taàn suaát (frequency weight): laø troïng soá duøng ñeå xaùc ñònh soá quan saùt truøng laép  pweights, hay trong soá laáy maãu (sampling weights ) laø nhöõng troïng soá coù nghóa laø nghòch ñaûo xaùc suaát maø quan saùt ñoù ñöôïc tính vaøo vì thieát keá laáy maãu  aweights, hay troïng soá phaân tích, (analytic weights) , laø nhöõng troïng soá tyû leä nghòch ñaûo cuûa phöông phaùp cuûa moät quan saùt; nghóa laø phöông sai cuûa quan saùt thöù j ñöôïc giaû ñònh baèng sigma bình phöông/w_j, trong ñoù w_j laø caùc troïng soá Veà cô baûn, caùc quan saùt ñaïi dieän trung bình vaø troïng soá laø soá nhaân toá laøm taêng trung bình Ñoái vôùi haàu heát caùc leänh, thang ño ghi cheùp 3 cuûa aweight laø khoâng thích hôïp; stata töï ñoäng laäp laïi thang ño cho chuùng töø toång ñeán N, soá quan saùt trong boä soá lieäu khi stata söû duïng chuùng  iweights, hay troïng soá taàm quan troïng ( importance weights), laø caùc troïng soá coù nghóa laø “taàm quan troïng” cuûa caùc quan saùt trong moät soá tröôøng hôïp nhaïy caûm iweight khoâng coù moät ñònh nghóa thoáng keâ chính thöùc; baát cöù caâu leänh naøo hoã trôï iweight seõ ñònh nghóa chính xaùc laøm theá naøo chuùng ñöôïc xöû lyù Trong haàu heát tröôøng hôïp, chuùng ñöôïc döï ñònh ñeå söû duïng bôûi caùc nhaø laäp trình muoán saûn xuaát moät coâng thöùc naøo ñoù Chuùng ta seõ coù moät soá bieán trong boä döõ lieäu chöùa troïng soá Cuù phaùp chung laø command [weighttype=varname] Laáy ví duï: anova y x1 x2 x1*x2 [fweight=pop] regress avgy avgx1 avgx2 [aweight=cellpop] regress y x1 x2 x3 [pweight=1/prob] scatter y x [aweight=y2], mfcolor(none) Löu yù laø phaûi goõ vaøo daáu ngoaëc vuoâng Stata cho pheùp caùc chöõ vieát taét; fw cho fweight, aw cho aweight … Baïn coù theå goõ anova y x1 x2 x1*x2 [fw=pop] regress avgy avgx1 avgx2 [aw=cellpop] regress y x1 x2 x3 [pw=1/prob] scatter y x [aw=y2], mfcolor(none) Theâm vaøo ñoù, moãi leänh coù yù kieán rieâng cuûa noù veà loïai troïng soá “töï nhieân” Neáu baïn goõ: regress avgy avgx1 avgx2 [w=cellpop] Caâu leänh seõ noùi vôùi baïn raèng loaïi troïng soá naøo ñöôïc giaû ñònh vaø bieåu dieãn yeâu caàu nhö theå baïn ñòng roõ cho loïai troïng soá ñoù 4 Coù moät soá daïng ñoàng nghóa ñoái vôùi moät soá loïai troïng soá feight coù theå ñöôïc xem nhö laø taàn suaát (chöõ vieát taét cuûa taàn suaát) aeight coù theå ñöôïc xem nhö cellsize (vieát taét cuûa cell): anova y x1 x2 x1*x2 [freq=pop] regress avgy avgx1 avgx2 [cell=cellpop] fweights Troïng soá taàn suaát nhaèm aùm chæ ñeán döõ lieäu laäp laïi Troïng soá seõ noùi vôùi caâu leänh coù bao nhieâu quan saùt moãi quan saùt thaät söï ñaïi dieän fweights cho pheùp döõ lieäu ñöôïc löu tröõ more parsimoniously Bieán coù troïng soá chöùa phaàn nguyeân döông Keát quaû cuûa leänh töông töï nhö theå baïn nhaân ñoâi moãi quan saùt tuy nhieân bao nhieâu laàn vaø chaïy leänh khoâng coù troïng soá pweights Troïng soá laáy maãu aùm chæ nghòch ñaûo cuûa xaùc suaát maø quan saùt ñoù ñöôïc löïa choïn Caùc caâu leänh cho pheùp pweigh veà cô baûn cung caáp moät option cuïm () Nhöõng caùi naøy coù theå ñöôïc keát hôïp ñeå saûn sinh nhöõng öôùc ñoùan ñoái vôùi döõ lieäu laáy maãu cuïm aweights Troïng soá aweights phaân tích veà cô baûn phuø hôïp khi baïn giaûi quyeát vôùi döõ lieäu chöùa soá trung bình Ví duï, baïn coù trung bình thu nhaäp vaø trung bình ñaëc tính cuûa moät nhoùm ngöôøi Bieán coù troïng soá chöùa soá ngöôøi coù trung bình ñöôïc tính toùan (hay moät soá tyû leä vôùi löôïng ñoù) iweights Troïng soá naøy khoâng coù ñònh nghóa chính thöùc vaø laø moät phaân loïai taát caû Troïng soá naøy ñoâi khi phaûn aùnh taàm quan troïng cuûa quan saùt vaø baát cöù leänh naøo hoã trôï nhöõng troïng soá nhö vaäy seõ ñònh nghóa chính xaùc laøm theá naøo nhöõng troïng soá naøy ñöôïc xöû lyù 2.7 [using filename] Phaàn naøy chæ ñöôïc duøng trong moät soá leänh, ví duï nhö infile vaø outfile Sau khi söû duïng, baïn xaùc ñònh moät teân file Baïn xaùc ñònh teân file trong ngoaëc ñôn neáu noù chöùa khoaûng traéng hay nhöõng kyù töï ñaëc bieät Ví duï: infile a b c using \mydata\myfile.raw 2.8 [option] 5 Option ñöôïc nhaän dieän nhôø moät daáu phaåy taïi cuoái daáu phaåy vaø lieät keâ caùc löïa choïn keát tieáp nhau vôùi nhöõng khoûang caùch: tabulate r c, chi2 row col Trong ví duï naøy: tabulate laø leänh r and c laø teân caùc bieán chi2, row, and col laø caùc option Khoâng coù daáu phaåy giöõa caùc option .haàu heát caùc option laø toggles – chuùng aùm chæ raèng coù thöù gì ñoù ñöôïc hay khoâng ñöôïc thöïc hieän Caû ba löïa choïn trong ví duï treân ñeàu laø toggle Moät soá option coù ñoái soá Phuï thuoäc vaøo option noù coù theå hoûi moät soá duy nhaát, chuoãi hay bieán hay vaøi bieán (moät varlist) hay moät vaøi soá Ví duï: tabulate r c, chi2 row col sqreg y x1 x2, q(.25 5 75) reps(100) anova y x1 x2 c1 c2 c3, cont(x1 x2) scatter length weight, xlab(1750 2000 to 4750) title("My graph") 6 3 GIAO DIEÄN CHÖÔNG TRÌNH Sau khi khôûi ñoäng Stata 8.0, maøn hình seõ xuaát hieän caùc thaønh phaàn sau: Ñaây laø thanh menu leänh giuùp thöïc hieän caùc caâu leänh maø khoâng caàn goõ vaøo cöûa soå Command cuûa Stata Thanh naøy bao goàm: Menu File: bao goàm caùc leänh lieân quan ñeán taäp tin soá lieäu caàn xöû lyù nhö môû file, xem file hay môû file log… Menu Edit: bao goàm caùc leänh lieân quan ñeán sao cheùp döõ lieäu Menu Prefs: bao goàm caùc leänh lieân quan ñeán thieát laäp giao dieän cho Stata Menu Data: bao goàm caùc leänh lieân quan ñeán vieäc quaûn lyù soá lieäu trong Stata nhö daùn nhaõn, taïo bieán, moâ taû soá lieäu… Menu Graphics: bao goàm caùc leänh lieân quan ñeán caùc loaïi ñoà thò, bieåu ñoà trong thoáng keâ nhö veõ ña giaùc taàn suaát, toå chöùc ñoà, ñoà thò chaám… Menu Statistic: bao goàm caùc caâu leänh lieân quan ñeán thoáng keâ moâ taû cuõng nhö phaân tích Menu User: bao goàm caùc caâu leänh lieân quan ñeán caùc soá lieäu, bieåu ñoà vaø caùc thoáng keâ ñaõ ñöôïc thöïc hieän trong Stata Menu Window: giuùp choïn löïa nhanh choùng caùc cöûa soå trong chöông trình Stata trong caùc tröôøng hôïp cöûa soå muoán choïn bò che khuaát Menu Help: giôùi thieäu caùc thoâng tin veà caâu leänh cuõng nhö nhöõng thoâng tin lieân quan ñeán phaàn meàm Stata 7 Ñaây laø thanh coâng cuï giuùp thöïc hieän nhanh moät soá leänh trong Stata Thanh naøy bao goàm: : môû moät taäp tin soá lieäu Stata : löu taäp tin vôùi moät teân khaùc Taäp tin vôùi teân cuõ khoâng bò thay ñoåi sau khi xöû lyù : in keát quaû hieän ra treân maøn hình : môû moät file log nhaèm löu laïi keát quaû hieån thò treân cöûa soå Stata Command :môû cöûa soå help thay vì söû duïng Menu Help : ñöa cöûa soå keát quaû leân phía tröôùc maøn hình (tröôøng hôïp cöûa soå keát quaû bò che khuaát) : ñöa cöûa soå ñoà thò leân phía tröôùc maøn hình (tröôøng hôïp cöûa soå ñoà thò bò che khuaát) : taïo moät do-file (taäp tin chöùa caùc caâu leänh) : chænh söûa cô sôû döõ lieäu cuûa taäp tin soá lieäu Stata : xem nhöng khoâng ñöôïc chænh söûa cô sôû döõ lieäu cuûa taäp tin soá lieäu Stata : cho chaïy tieáp keát quaû khi maøn hình xuaát hieän chæ baùo –-more :chaám döùt caâu leänh ñang chaïy (trong tröôøng hôïp caâu leänh xöû lyù laâu hay keát quaû quaù daøi) 8 Cöûa soå review seõ hieån thò taát caû caùc caâu leänh ñaõ ñöôïc thöïc hieän trong quaù trình xöû lyù taäp tin soá lieäu Cöûa soå Variables seõ hieån thò taát caû caùc bieán cuûa taäp tin soá lieäu ñang ñöôïc laøm vieäc Cöûa soå results hieån thò keát quaû caùc caâu leänh 9 Cöûa soå Stata Command cho pheùp goõ caùc caâu leänh thay vì söû duïng caùc menu leänh 4 MÔÛ-LÖU TRÖÕ-ÑOÙNG TAÄP TIN SOÁ LIEÄU 4.1 Môû taäp tin soá lieäu Sau khi maøn hình Stata xuaát hieän, vieäc tieáp theo laø chuùng ta phaûi môû taäp tin soá lieäu Stata ñeå laøm vieäc vôùi taäp tin naøy Taäp tin soá lieäu Stata seõ coù phaàn môû roäng laø “.dta” quy trình môû taäp tin soá lieäu nhö sau B1: Click vaøo Menu File  choïn Open; maøn hình seõ hieän ra cöûa soå Use New Data 10

Ngày đăng: 19/03/2024, 16:55

Tài liệu cùng người dùng

Tài liệu liên quan