Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
501,07 KB
Nội dung
Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging dy: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích liu. Nhà xut bn Y hc xut bn nm 2005 vi b s liu biostats2. sav Tài liu này c vit da trên s dng b s liu Chilumba.sav. hai b s liu này c ng ti trên website ca môn hc Qun lý s liu là các thao tác c tin hành trên s liu trc khi tin hành phân tích s liu và sau khi hoàn thành thu thp s liu ti cng ng. Quá trình qun lý s liu bao gm: 1. Mã hóa s liu 2. Nhp s liu 3. Kim tra và làm sch s liu. Qun lý s liu là mt bc quan trng trong quá trình phân tích s liu và nh ng n kt qu nghiên cu. Trc khi bc vào vic qun lý s liu bn nên kim tra li s liu thô (s liu trên phiu) trc khi nhp vào máy tính.Bn phi m bo rng nhng u tra viên ã n úng vào bng hi ca bn (h có thn hai hoc nhiu hn hai la chn cho mt ý câu hi n la chn). Sau khi ã hoàn thành công n làm sch thô trên phiu hi, bn bt u tin hành mã hóa s liu. I. Mã hóa s liu là quá trình s hóa các giá tr hoc mc ca bin. Sau ây là mt vài quy tc chúng ta nên tham kho và cân nhc khi tin hành mã hóa s liu: 1. t c s liu nên dng s. Trên thc t chúng ta có th s dng ch hoc câu (bin dng ký t) nh là mt dng s liu ký t. Tuy nhiên trong SPSS chúng ta không nên lm dng cách dùng này. tránh dùng các bin có dng ký t chúng ta nên mã hóa nó dng s. Ví d nh bin Gii tính (gender), mt quan sát có th là nam hoc n. Vy chúng ta có th mã hóa li nh sau: 1 : Nam Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 2: N. u ý rng bn phi nht quán trong nghiên cu cách mã hóa ging nhau và chn mt cách mã hóa cho tt c các i tng tham gia nghiên cu. Hn th a, s dng codebook ng la fmt cách giúp cho nhà phân tích và nhng ngi khác hiu c s liu ây c mã hóa nh th nào. 2. Các giá tr mã ca mt bin phi không trùng nhau: tc mt bin ca mi quan sát ch nhn mt giá tr hoc mt danh sách các giá tr. Trên thc t, trong câu hi thng chia làm hai loi: câu hi mt la chn và câu hi nhiu la chn. i vi câu hi mt la chn thì câu hi ó c th hin là mt bin và có giá tr là mt trong nhng phng án tr li. Còn i vi câu hi nhiu la chn thì mi phng án tr li thành mt bin và mi bin nhn giá tr có (nu tr li phng án ó) và không (nu không tr li phng án ó). Ví d: - i vi câu hi gii tính: Gii tính ca ngi tham gia phng vn 1: nam 2: n thì chúng ta ch cn mt bin gender, bin này có hai giá tr 1 và 2. - i vi câu hi : anh/chã nghe thông tin v phòng chng HIV âu: 1. phng tin thông tin i chúng (tivi, ài) 2. sách báo tp chí 3. h thng phát thanh ca phng 4. cán b y t/ cán b ph n 5. n bè/ngi thân 6. Khác (… ) Trong trng hp này thì mt ngi có th nghe thông tin t nhiu ngun cho nên là câu hi nhiu la chn. th hin c thông tin ca bin này thì khi mã hóa nhp s liu chúng ta phi chia câu tr li này thành 6 bin (c41,c42,c43,c44,c45,c46) và mi bin tng ng vi mi ngun thông tin. u ngi nào tr li là t phng tin thông tin i chúng thì C41 có giá tr là Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1. Ngi nào va tr li là va t bn bè ngi thân va t tp chí sách báo thì C42 có giá tr là 1 và C45 cng có giá tr bng 1. i bin nên c mã hóa sao cho ti a hóa thông tin. Hãy c gng ng gp các mc phân loi và các giá tr ca các bin li vi nhau khi tin hành mã hóa liu. Nu bn thy cn phi gp thì hãy tin hành gp khi phân tích s liu ng máy tính. Trong tng hp lý tng thì thông tin nhp vào máy tính càng chi tit càng tt. Các thông tin nh tính ch s BIM hay là nhóm tui nên thc hin sau này. Nu ngc li, bn nhóm các thông tin li vi nhau ri nhp s liu, nu khi bn phân tích bn thay i các nhóm hoc cách tính thì bn không có thông tin và phi nhp li toàn b s liu. 3. i mt bin ca mi trng hp/ quan sát phi nm trên cùng mt ct ca liu SPSS. Trong SPSS các thông tin ca mi quan sát ch nm trên mt dòng và mi ct cha thông tin ca mt bin. Bn nên t tên bin ngn, d nh và theo mt quy tc nht nh. Không nên t tên bin bng ting Vit vì máy tính không nhn c. 4. i bin ca mi quan sát phi có mã hoc giá tr bin. Các mã này phi ng s ngoi tr nhng bin b thiu thông tin. Bn nên trng cho nhng bin không có thông tin vì SPSS s tng nhn các giá tr trng là giá tr missing (ch ra bin b thiu thông tin). Tuy nhiên thì nhiu khi chúng ta missing s làm cho vic phân tích s liu sau này khó hn, c bit là trong nhng trng hp missing là do không phù hp thì bn nên mã hóa 98 (không phù hp) hoc 99 (missing) cho các trng không phi là giá tr ca bin. 5. Áp dng các quy tc v thng nht s liu ca tt c các quan sát. u này có có ngha là bn thng nht mt mã cho tt c các quan sát cùng tr li mt câu hi, b thiu thông tin mt câu hi. Lu ý này rt quan trng cho nhng câu hi nhiu la chn nu bn 1 là có, 0 là không cho la chn ó thì phi thng nht trên toàn b s liu hoc trong câu hi ó. 6. Nên s dng các giá tr cao cho nhng câu tr li có th t. Bn nên code giá tr 1 cho không ng ý và 5 cho rt ng ý. Tuy nhiên bn không sai nu mã hóa ngc li nhng nó có th làm bn nhm ln khi c ý ngha. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1 Chi tit c th v phn mã hóa s liu, hãy c phn 2.2.1 X lý và nhp s liu trong Giáo trình Thng kê Y t Công cng phn 2 (trang 12 - 17). II. Nhp s liu Sau khi s liu c mã hóa, chúng c nhp vào máy tính chun b cho quá trình phân tích s liu. Hin nay có nhiu phn mm có th h tr trong quá trình nhp s liu. Vi nhng s liu ln chúng ta có th s dng các phn m qun lý s liu chuyên nghip nh Microsoft Access, Oracle,… .Vi nhng phn mm nh chúng ta có th s dng Epidata, Epi Info là nhng phn m min phí nhp liu. Cht lng ca mt b s liu c quyt nh bicông tác thu thp s liu và nhp liu. Các li có th mc trong quá trình nhp liu là nhp liu sai hoc c nhm. gim các li này trong quá trình nhp liu thì chúng ta có th chn t trong nhng chin lc nhp s liu sau ây: - Hai ngi nhp s liu và tin hành so sánh. Nu lng thông tin sai khác ca hai ngi quá ln thì tin hành nhp li - t ngi nhp s liu ri ly ra ngu nhiên khong 20% phiu kim tra. Nu thy sai khác quá nhiu cng phi nhp li - Dùng các thit b hin i: Máy quýet tng. 1 c thêm phn 2.2.2 Nhp s liu, Giáo trình Thng kê Y t Công ng, phn 2 nm 2005 (trang 17 và 18) III. Kim tra và làm sch s liu SPSS có hai ca s màn hình là Data view và Variable View bên cnh các ca khác nh là Output, syntax. Ca s Data view hin th s liu trong b s liu mà bn ang m và Variable view hin th bin và nhng c tính ca các bin trong b s liu ang m. s liu Chilumba gm các bin s có chi tit nh sau: Id (tên bin) Identity number Mã s Caco (bnh) 1=case, 0=control 1=bnh, 0=chng Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Agegrp (nhóm tui) Age group: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Nhóm tui: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Sex (gii thiu) 0=male, 1=female 0=nam, 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2=1-3 year 3=4-6 year 4=7+ year Hc vn : 1=không 2=1-3 nm 3=4-6 nm 4=7+ nm Mbcont (tip xúc phong u) Contact with MB case Tip xúc vi phong u (có nhiu vi khun) Pbcont (tip xúc phong c) Contact with PB case Tip xúc vi phong c (có ít vi khun) Sau khi s liu c nhp vào SPSS bn nên tin hành kim tra s bin, nhãn bin và loi bin. Khi bn nhp mt phn mm khác ri sau ó chuyn sang SPSS thì tu vào phn mm mà loi bin nhãn bin có th b thay i. Bn nên thay i loi bin bng cách m ca s Variable view. Sau ó ca s màn hình sau s hin th ra. Bn kim tra dng bin ct type (vòng tròn màu ). u bn mun chuyn kiu bin hãy kích chut vào du ba chm ti bin mà n mun chuyn. Khi ó ca s kiu bin s hin ra nh sau và bn chn loi bin tng ng. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m u bn mun chuyn kiu o lng ca bin nh lng (có ba loi o lng chính scale – t s; ordinal – th bc, norminal – nh danh) thì bn kích vào u “v” trong ct Measure a bin mà bn mun thay i (vòng tròn màu xanh). Khi ó ca s sau s hin ra và bn chn lai o lng phù hp vi bin ca n. 2 Da vào mã ca các giá tr bên ct mã bin: hãy chuyn kiu o lng cho tt c các bin trong b s liu Chilumba. Sav thành dng thích hp Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau khi hoàn thành phn kim tra loi bin và dng o lng ca bin, chúng ta chuyn sang phn dán nhãn cho bin. ây chúng ta có hai loi nhãn: Nhãn a bin và nhãn ca giá tr. Nhãn ca bin lc th hin ct label ca bin ó còn nhãn ca giá th hin ct values tng ng. thay i nhãn ca bin, bn nháy úp chut vào ct label ca bin ó và gõ vào. thay i/ thêm giá tr ca nhãn giá tr ca bin bn kích vào nút a bin ó và ca s sau s hin ra: n nhp giá tr ca bin vào ri kích add vào ca s. Bn thao tác cho khi hoàn thành ht các mã ca bin ó. 2 Da vào mã ca các giá tr bên ct mã bin: hãy dán nhãn cho tt c các bin trong b s liu Chilumba. Sav 1 Chi tit thông tin v phn này tham kho phn xem b s liu trong SPSS, Giáo trình Thng kê y t công cng phn 2 (trang 18-20) Sau ó bn tin hành các khai báo vi các giá tr missing. Nu trong s liu bn dng các mã 98 hay 99 th hin quan sát b missing thì bn s khai báo cho SPSS có th hiu c. Ngc li, nu bn không khai báo mà ch None trong ct missing ca bin ó thì SPSS s hiu ó là giá tr ca quan sát ó. khai báo missing bn kích vào ct missing ca ô ó: Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau ó có mt ca s nh Missing values hin ra, bn chn Dicrete missing value và nhp vào nhng giá tr mà bn ã mã hóa là missing. Ngòai ra, trong ca s Variable view còn cho phép bn thay i s ký t sau u phy ca bin có dng thp phân (decimal) và các tính cht khác ca bin. Chi tit phn này bn có th tham kho Menu Help ca SPSS. Bây gi bn ã nh ngha và dán nhãn cho bin xong, bn có th in ra mt codebook, ó nh là mt tn cho s liu ca bn. Vic này rt hu ích vì nó giúp bn lu li nhng gì bn ã thc hin có codebook bn dùng File Display Data File Information Working File Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m c bn nhng thông tin trong codebook ging nh là các thông tin c th hin trong màn hình Variable view. Và kt quc th hin nh sau: Variable Information Variable Position Label Measurement Level Column Width Alignment Print Format Write Format id 1 Identity number Scale 8 Right F9.2 F9.2 caco 2 1=case, 0=control Unknown 8 Right F8 F8 agegrp 3 Age group Unknown 8 Right F8 F8 sex 4 0=male, 1=female Unknown 8 Right F8 F8 bcgscar 5 0=no, 1=yes Unknown 8 Right F8 F8 school 6 Duration of schooling Unknown 8 Right F8 F8 mbcont 7 Contact with MB case Unknown 8 Right F8 F8 pbcont 8 Contact with PB case Unknown 8 Right F8 F8 Variables in the working file Variable Values Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Value Label 1 Case caco 2 Control 0 Male sex 1 Female 0 No bcgscar 1 Yes ' t qu này trích t SPSS 15.0. Nu bn dùng bn cao hoc thp hn thì t qu có thc trình bày hi khác mt chút nhng lng thông tin thì cng ng t. Làm sch s liu: c dù s liu c kim sóat t khi thu thp và nhp s liu, nhng s liu có th còn nhiu sai sót nên vc làm sch bao gi cng là mt khâu bt buc trc khi phân tích s liu. làm sch s liu gm thc hin các thao tác kim tra tính phù hp ca s liu, tính nht quán và các giá tr bt thng trong b s liu. i vi các bin nh tính, kim tra và làm sch s liu, chúng ta s ng ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh này ch yu dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m [...]... (Ph n n y b n h y c k ph n Ki m tra tính nh t quán (trang 3 7- 40) Giáo trình th ng kê Y t Công c ng ph n 2); ki m tra s gi ng nhau c a các mã cá nhân (trang 25,26); Ki m tra ng y thông tin c a bi n ng y tháng (trang 3 5-3 7) trong giáo trình trên Tài li u tham kh o d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic...H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic Sau ó c a s màn hình sau y s hi n ra: n ch n bi n mà b n c n ph i ki m tra kích chuy n sang ô Variable và kích Ok t qu c a câu l nh n y là: Statistics N Valid Missing 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A... 59.0 100.0 y b n có th tìm ra nh ng giá tr không phù h p a b s li u Ví d nh bi n caco: bi n ghi là 0: control 1: case ( ã dán nhãn ph i nh th ) nh ng ã dán nhãn nh m là 1: case, 2 là control Chúng ta ph i quay l i c a s nhãn bi n lúc âu ch nh l i d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic n thay s 2 Value... frequency c ng cho các b n bi n thông tin v giá tr missing a các bi n Statistics N Valid Missing 1 Ph n n y b n 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 c chi ti t ph n Ki m tra nh ng mã không phù h p trong giáo trình Th ng kê Y t công c ng, ph n 2, Nhà xu t b n y h c n m 2005 (trang 2 7-3 0) Ngoài ra, c n c vào b câu h i mà b n ph i ki m tra tính nh t quán c a b s li u (Ph n n y. .. c u-tr a c k N y bu to k lic Frequency Table 1=case, 0=control Valid 0 case Total Frequency 1008 252 1260 Percent 80.0 20.0 100.0 Valid Percent 80.0 20.0 100.0 Cumulative Percent 80.0 100.0 0=male, 1=female Valid Male Female Total Frequency 571 689 1260 Percent 45.3 54.7 100.0 Valid Percent 45.3 54.7 100.0 Cumulative Percent 45.3 100.0 0=no, 1=yes Valid Nhìn vào k t qu no yes Total u ra Frequency 744... bu to k lic 1 George A Morgan và các ng nghi p, SPSS for Introductory statistics, Use and interpretation, xu t b n l n th 2, Nhà xu t b n Lawrence Erlbaum n m 2004 2 Website: http://www.ats.ucla.edu/stat/spss/topics/data_management.htm (truy c p ng y 23/01/08) .d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c . Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging d y: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích liu. Nhà xut bn Y hc xut bn nm 2005 vi. 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2= 1-3 year 3= 4-6 year 4=7+ year Hc vn : 1=không 2= 1-3 nm 3= 4-6 nm 4=7+ nm Mbcont (tip xúc. ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh n y ch y u dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click