1. Trang chủ
  2. » Y Tế - Sức Khỏe

QUẢN LÝ SỐ LIỆU - BIẾN PHÂN LOẠI (BIẾN ĐỊNH TÍNH), ĐẠI HỌC Y TẾ CÔNG CỘNG

14 328 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging dy: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích  liu. Nhà xut bn Y hc xut bn nm 2005 vi b s liu biostats2. sav Tài liu này c vit da trên s dng b s liu Chilumba.sav.  hai b s liu này c ng ti trên website ca môn hc Qun lý s liu là các thao tác c tin hành trên s liu trc khi tin hành phân tích s liu và sau khi hoàn thành thu thp s liu ti cng ng. Quá trình qun lý s liu bao gm: 1. Mã hóa s liu 2. Nhp s liu 3. Kim tra và làm sch s liu. Qun lý s liu là mt bc quan trng trong quá trình phân tích s liu và nh ng n kt qu nghiên cu. Trc khi bc vào vic qun lý s liu bn nên kim tra li s liu thô (s liu trên phiu) trc khi nhp vào máy tính.Bn phi m bo rng nhng u tra viên ã n úng vào bng hi ca bn (h có thn hai hoc nhiu hn hai la chn cho mt ý câu hi n la chn). Sau khi ã hoàn thành công n làm sch thô trên phiu hi, bn bt u tin hành mã hóa s liu. I. Mã hóa s liu là quá trình s hóa các giá tr hoc mc ca bin. Sau ây là mt vài quy tc chúng ta nên tham kho và cân nhc khi tin hành mã hóa s liu: 1. t c s liu nên  dng s. Trên thc t chúng ta có th s dng ch hoc câu (bin dng ký t) nh là mt dng s liu ký t. Tuy nhiên trong SPSS chúng ta không nên lm dng cách dùng này.  tránh dùng các bin có dng ký t chúng ta nên mã hóa nó dng s. Ví d nh bin Gii tính (gender), mt quan sát có th là nam hoc n. Vy chúng ta có th mã hóa li nh sau: 1 : Nam Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 2: N. u ý rng bn phi nht quán trong nghiên cu cách mã hóa ging nhau và chn mt cách mã hóa cho tt c các i tng tham gia nghiên cu. Hn th a, s dng codebook ng la fmt cách giúp cho nhà phân tích và nhng ngi khác hiu c s liu ây c mã hóa nh th nào. 2. Các giá tr mã ca mt bin phi không trùng nhau: tc mt bin ca mi quan sát ch nhn mt giá tr hoc mt danh sách các giá tr. Trên thc t, trong  câu hi thng chia làm hai loi: câu hi mt la chn và câu hi nhiu la chn. i vi câu hi mt la chn thì câu hi ó c th hin là mt bin và có giá tr là mt trong nhng phng án tr li. Còn i vi câu hi nhiu la chn thì mi phng án tr li thành mt bin và mi bin nhn giá tr có (nu tr li phng án ó) và không (nu không tr li phng án ó). Ví d: - i vi câu hi gii tính: Gii tính ca ngi tham gia phng vn 1: nam 2: n thì chúng ta ch cn mt bin gender, bin này có hai giá tr 1 và 2. - i vi câu hi : anh/chã nghe thông tin v phòng chng HIV âu: 1.  phng tin thông tin i chúng (tivi, ài) 2.  sách báo tp chí 3.  h thng phát thanh ca phng 4.  cán b y t/ cán b ph n 5. n bè/ngi thân 6. Khác (… ) Trong trng hp này thì mt ngi có th nghe thông tin t nhiu ngun cho nên là câu hi nhiu la chn.  th hin c thông tin ca bin này thì khi mã hóa  nhp s liu chúng ta phi chia câu tr li này thành 6 bin (c41,c42,c43,c44,c45,c46) và mi bin tng ng vi mi ngun thông tin. u ngi nào tr li là t phng tin thông tin i chúng thì C41 có giá tr là Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1. Ngi nào va tr li là va t bn bè ngi thân va t tp chí sách báo thì C42 có giá tr là 1 và C45 cng có giá tr bng 1. i bin nên c mã hóa sao cho ti a hóa thông tin. Hãy c gng ng gp các mc phân loi và các giá tr ca các bin li vi nhau khi tin hành mã hóa  liu. Nu bn thy cn phi gp thì hãy tin hành gp khi phân tích s liu ng máy tính. Trong tng hp lý tng thì thông tin nhp vào máy tính càng chi tit càng tt. Các thông tin nh tính ch s BIM hay là nhóm tui nên thc hin sau này. Nu ngc li, bn nhóm các thông tin li vi nhau ri nhp s liu, nu khi bn phân tích bn thay i các nhóm hoc cách tính thì bn không có thông tin và phi nhp li toàn b s liu. 3. i mt bin ca mi trng hp/ quan sát phi nm trên cùng mt ct ca  liu SPSS. Trong SPSS các thông tin ca mi quan sát ch nm trên mt dòng và mi ct cha thông tin ca mt bin. Bn nên t tên bin ngn, d nh và theo mt quy tc nht nh. Không nên t tên bin bng ting Vit vì máy tính không nhn c. 4. i bin ca mi quan sát phi có mã hoc giá tr bin. Các mã này phi ng s ngoi tr nhng bin b thiu thông tin. Bn nên  trng cho nhng bin không có thông tin vì SPSS s tng nhn các giá tr trng là giá tr missing (ch ra bin b thiu thông tin). Tuy nhiên thì nhiu khi chúng ta  missing s làm cho vic phân tích s liu sau này khó hn, c bit là trong nhng trng hp missing là do không phù hp thì bn nên mã hóa 98 (không phù hp) hoc 99 (missing) cho các trng không phi là giá tr ca bin. 5. Áp dng các quy tc v thng nht s liu ca tt c các quan sát. u này có có ngha là bn thng nht mt mã cho tt c các quan sát cùng tr li mt câu hi, b thiu thông tin mt câu hi. Lu ý này rt quan trng cho nhng câu hi nhiu la chn nu bn 1 là có, 0 là không cho la chn ó thì phi thng nht trên toàn b s liu hoc trong câu hi ó. 6. Nên s dng các giá tr cao cho nhng câu tr li có th t. Bn nên code giá tr 1 cho không ng ý và 5 cho rt ng ý. Tuy nhiên bn không sai nu mã hóa ngc li nhng nó có th làm bn nhm ln khi c ý ngha. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1 Chi tit c th v phn mã hóa s liu, hãy c phn 2.2.1 X lý và nhp s liu trong Giáo trình Thng kê Y t Công cng phn 2 (trang 12 - 17). II. Nhp s liu Sau khi s liu c mã hóa, chúng c nhp vào máy tính  chun b cho quá trình phân tích s liu. Hin nay có nhiu phn mm có th h tr trong quá trình nhp s liu. Vi nhng s liu ln chúng ta có th s dng các phn m qun lý s liu chuyên nghip nh Microsoft Access, Oracle,… .Vi nhng phn mm nh chúng ta có th s dng Epidata, Epi Info là nhng phn m min phí  nhp liu. Cht lng ca mt b s liu c quyt nh bicông tác thu thp s liu và nhp liu. Các li có th mc trong quá trình nhp liu là nhp liu sai hoc c nhm.  gim các li này trong quá trình nhp liu thì chúng ta có th chn t trong nhng chin lc nhp s liu sau ây: - Hai ngi nhp s liu và tin hành so sánh. Nu lng thông tin sai khác ca hai ngi quá ln thì tin hành nhp li - t ngi nhp s liu ri ly ra ngu nhiên khong 20% phiu  kim tra. Nu thy sai khác quá nhiu cng phi nhp li - Dùng các thit b hin i: Máy quýet tng. 1 c thêm phn 2.2.2 Nhp s liu, Giáo trình Thng kê Y t Công ng, phn 2 nm 2005 (trang 17 và 18) III. Kim tra và làm sch s liu SPSS có hai ca s màn hình là Data view và Variable View bên cnh các ca  khác nh là Output, syntax. Ca s Data view hin th s liu trong b s liu mà bn ang m và Variable view hin th bin và nhng c tính ca các bin trong b s liu ang m.  s liu Chilumba gm các bin s có chi tit nh sau: Id (tên bin) Identity number Mã s Caco (bnh) 1=case, 0=control 1=bnh, 0=chng Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Agegrp (nhóm tui) Age group: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Nhóm tui: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Sex (gii thiu) 0=male, 1=female 0=nam, 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2=1-3 year 3=4-6 year 4=7+ year Hc vn : 1=không 2=1-3 nm 3=4-6 nm 4=7+ nm Mbcont (tip xúc phong u) Contact with MB case Tip xúc vi phong u (có nhiu vi khun) Pbcont (tip xúc phong c) Contact with PB case Tip xúc vi phong c (có ít vi khun) Sau khi s liu c nhp vào SPSS bn nên tin hành kim tra s bin, nhãn bin và loi bin. Khi bn nhp  mt phn mm khác ri sau ó chuyn sang SPSS thì tu vào phn mm mà loi bin nhãn bin có th b thay i. Bn nên thay i loi bin bng cách m ca s Variable view. Sau ó ca s màn hình sau s hin th ra. Bn kim tra dng bin  ct type (vòng tròn màu ). u bn mun chuyn kiu bin hãy kích chut vào du ba chm ti bin mà n mun chuyn. Khi ó ca s kiu bin s hin ra nh sau và bn chn loi bin tng ng. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m u bn mun chuyn kiu o lng ca bin nh lng (có ba loi o lng chính scale – t s; ordinal – th bc, norminal – nh danh) thì bn kích vào u “v” trong ct Measure a bin mà bn mun thay i (vòng tròn màu xanh). Khi ó ca s sau s hin ra và bn chn lai o lng phù hp vi bin ca n. 2 Da vào mã ca các giá tr bên ct mã bin: hãy chuyn kiu o lng cho tt c các bin trong b s liu Chilumba. Sav thành dng thích hp Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau khi hoàn thành phn kim tra loi bin và dng o lng ca bin, chúng ta chuyn sang phn dán nhãn cho bin. ây chúng ta có hai loi nhãn: Nhãn a bin và nhãn ca giá tr. Nhãn ca bin lc th hin  ct label ca bin ó còn nhãn ca giá th hin  ct values tng ng.  thay i nhãn ca bin, bn nháy úp chut vào ct label ca bin ó và gõ vào.  thay i/ thêm giá tr ca nhãn giá tr ca bin bn kích vào nút a bin ó và ca s sau s hin ra: n nhp giá tr ca bin vào ri kích add vào ca s. Bn thao tác cho khi hoàn thành ht các mã ca bin ó. 2 Da vào mã ca các giá tr bên ct mã bin: hãy dán nhãn cho tt c các bin trong b s liu Chilumba. Sav 1 Chi tit thông tin v phn này tham kho phn xem b s liu trong SPSS, Giáo trình Thng kê y t công cng phn 2 (trang 18-20) Sau ó bn tin hành các khai báo vi các giá tr missing. Nu trong s liu bn  dng các mã 98 hay 99  th hin quan sát b missing thì bn s khai báo cho SPSS có th hiu c. Ngc li, nu bn không khai báo mà ch None trong ct missing ca bin ó thì SPSS s hiu ó là giá tr ca quan sát ó.  khai báo missing bn kích vào ct missing ca ô ó: Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau ó có mt ca s nh Missing values hin ra, bn chn Dicrete missing value và nhp vào nhng giá tr mà bn ã mã hóa là missing. Ngòai ra, trong ca s Variable view còn cho phép bn thay i s ký t sau u phy ca bin có dng thp phân (decimal) và các tính cht khác ca bin. Chi tit phn này bn có th tham kho Menu Help ca SPSS. Bây gi bn ã nh ngha và dán nhãn cho bin xong, bn có th in ra mt codebook, ó nh là mt tn cho s liu ca bn. Vic này rt hu ích vì nó giúp bn lu li nhng gì bn ã thc hin  có codebook bn dùng File Display Data File Information Working File Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m  c bn nhng thông tin trong codebook ging nh là các thông tin c th hin trong màn hình Variable view. Và kt quc th hin nh sau: Variable Information Variable Position Label Measurement Level Column Width Alignment Print Format Write Format id 1 Identity number Scale 8 Right F9.2 F9.2 caco 2 1=case, 0=control Unknown 8 Right F8 F8 agegrp 3 Age group Unknown 8 Right F8 F8 sex 4 0=male, 1=female Unknown 8 Right F8 F8 bcgscar 5 0=no, 1=yes Unknown 8 Right F8 F8 school 6 Duration of schooling Unknown 8 Right F8 F8 mbcont 7 Contact with MB case Unknown 8 Right F8 F8 pbcont 8 Contact with PB case Unknown 8 Right F8 F8 Variables in the working file Variable Values Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Value Label 1 Case caco 2 Control 0 Male sex 1 Female 0 No bcgscar 1 Yes ' t qu này trích t SPSS 15.0. Nu bn dùng bn cao hoc thp hn thì t qu có thc trình bày hi khác mt chút nhng lng thông tin thì cng ng t. Làm sch s liu: c dù s liu c kim sóat t khi thu thp và nhp s liu, nhng s liu có th còn nhiu sai sót nên vc làm sch bao gi cng là mt khâu bt buc trc khi phân tích s liu. làm sch s liu gm thc hin các thao tác kim tra tính phù hp ca s liu, tính nht quán và các giá tr bt thng trong b s liu. i vi các bin nh tính,  kim tra và làm sch s liu, chúng ta s ng ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh này ch yu dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m [...]... (Ph n n y b n h y c k ph n Ki m tra tính nh t quán (trang 3 7- 40) Giáo trình th ng kê Y t Công c ng ph n 2); ki m tra s gi ng nhau c a các mã cá nhân (trang 25,26); Ki m tra ng y thông tin c a bi n ng y tháng (trang 3 5-3 7) trong giáo trình trên Tài li u tham kh o d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic...H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic Sau ó c a s màn hình sau y s hi n ra: n ch n bi n mà b n c n ph i ki m tra kích chuy n sang ô Variable và kích Ok t qu c a câu l nh n y là: Statistics N Valid Missing 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A... 59.0 100.0 y b n có th tìm ra nh ng giá tr không phù h p a b s li u Ví d nh bi n caco: bi n ghi là 0: control 1: case ( ã dán nhãn ph i nh th ) nh ng ã dán nhãn nh m là 1: case, 2 là control Chúng ta ph i quay l i c a s nhãn bi n lúc âu ch nh l i d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic n thay s 2 Value... frequency c ng cho các b n bi n thông tin v giá tr missing a các bi n Statistics N Valid Missing 1 Ph n n y b n 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 c chi ti t ph n Ki m tra nh ng mã không phù h p trong giáo trình Th ng kê Y t công c ng, ph n 2, Nhà xu t b n y h c n m 2005 (trang 2 7-3 0) Ngoài ra, c n c vào b câu h i mà b n ph i ki m tra tính nh t quán c a b s li u (Ph n n y. .. c u-tr a c k N y bu to k lic Frequency Table 1=case, 0=control Valid 0 case Total Frequency 1008 252 1260 Percent 80.0 20.0 100.0 Valid Percent 80.0 20.0 100.0 Cumulative Percent 80.0 100.0 0=male, 1=female Valid Male Female Total Frequency 571 689 1260 Percent 45.3 54.7 100.0 Valid Percent 45.3 54.7 100.0 Cumulative Percent 45.3 100.0 0=no, 1=yes Valid Nhìn vào k t qu no yes Total u ra Frequency 744... bu to k lic 1 George A Morgan và các ng nghi p, SPSS for Introductory statistics, Use and interpretation, xu t b n l n th 2, Nhà xu t b n Lawrence Erlbaum n m 2004 2 Website: http://www.ats.ucla.edu/stat/spss/topics/data_management.htm (truy c p ng y 23/01/08) .d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c . Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging d y: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích  liu. Nhà xut bn Y hc xut bn nm 2005 vi. 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2= 1-3 year 3= 4-6 year 4=7+ year Hc vn : 1=không 2= 1-3 nm 3= 4-6 nm 4=7+ nm Mbcont (tip xúc. ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh n y ch y u dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click

Ngày đăng: 02/08/2015, 08:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN