1. Trang chủ
  2. » Y Tế - Sức Khỏe

QUẢN LÝ SỐ LIỆU - BIẾN PHÂN LOẠI (BIẾN ĐỊNH TÍNH), ĐẠI HỌC Y TẾ CÔNG CỘNG

14 328 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 501,07 KB

Nội dung

Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging dy: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích  liu. Nhà xut bn Y hc xut bn nm 2005 vi b s liu biostats2. sav Tài liu này c vit da trên s dng b s liu Chilumba.sav.  hai b s liu này c ng ti trên website ca môn hc Qun lý s liu là các thao tác c tin hành trên s liu trc khi tin hành phân tích s liu và sau khi hoàn thành thu thp s liu ti cng ng. Quá trình qun lý s liu bao gm: 1. Mã hóa s liu 2. Nhp s liu 3. Kim tra và làm sch s liu. Qun lý s liu là mt bc quan trng trong quá trình phân tích s liu và nh ng n kt qu nghiên cu. Trc khi bc vào vic qun lý s liu bn nên kim tra li s liu thô (s liu trên phiu) trc khi nhp vào máy tính.Bn phi m bo rng nhng u tra viên ã n úng vào bng hi ca bn (h có thn hai hoc nhiu hn hai la chn cho mt ý câu hi n la chn). Sau khi ã hoàn thành công n làm sch thô trên phiu hi, bn bt u tin hành mã hóa s liu. I. Mã hóa s liu là quá trình s hóa các giá tr hoc mc ca bin. Sau ây là mt vài quy tc chúng ta nên tham kho và cân nhc khi tin hành mã hóa s liu: 1. t c s liu nên  dng s. Trên thc t chúng ta có th s dng ch hoc câu (bin dng ký t) nh là mt dng s liu ký t. Tuy nhiên trong SPSS chúng ta không nên lm dng cách dùng này.  tránh dùng các bin có dng ký t chúng ta nên mã hóa nó dng s. Ví d nh bin Gii tính (gender), mt quan sát có th là nam hoc n. Vy chúng ta có th mã hóa li nh sau: 1 : Nam Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 2: N. u ý rng bn phi nht quán trong nghiên cu cách mã hóa ging nhau và chn mt cách mã hóa cho tt c các i tng tham gia nghiên cu. Hn th a, s dng codebook ng la fmt cách giúp cho nhà phân tích và nhng ngi khác hiu c s liu ây c mã hóa nh th nào. 2. Các giá tr mã ca mt bin phi không trùng nhau: tc mt bin ca mi quan sát ch nhn mt giá tr hoc mt danh sách các giá tr. Trên thc t, trong  câu hi thng chia làm hai loi: câu hi mt la chn và câu hi nhiu la chn. i vi câu hi mt la chn thì câu hi ó c th hin là mt bin và có giá tr là mt trong nhng phng án tr li. Còn i vi câu hi nhiu la chn thì mi phng án tr li thành mt bin và mi bin nhn giá tr có (nu tr li phng án ó) và không (nu không tr li phng án ó). Ví d: - i vi câu hi gii tính: Gii tính ca ngi tham gia phng vn 1: nam 2: n thì chúng ta ch cn mt bin gender, bin này có hai giá tr 1 và 2. - i vi câu hi : anh/chã nghe thông tin v phòng chng HIV âu: 1.  phng tin thông tin i chúng (tivi, ài) 2.  sách báo tp chí 3.  h thng phát thanh ca phng 4.  cán b y t/ cán b ph n 5. n bè/ngi thân 6. Khác (… ) Trong trng hp này thì mt ngi có th nghe thông tin t nhiu ngun cho nên là câu hi nhiu la chn.  th hin c thông tin ca bin này thì khi mã hóa  nhp s liu chúng ta phi chia câu tr li này thành 6 bin (c41,c42,c43,c44,c45,c46) và mi bin tng ng vi mi ngun thông tin. u ngi nào tr li là t phng tin thông tin i chúng thì C41 có giá tr là Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1. Ngi nào va tr li là va t bn bè ngi thân va t tp chí sách báo thì C42 có giá tr là 1 và C45 cng có giá tr bng 1. i bin nên c mã hóa sao cho ti a hóa thông tin. Hãy c gng ng gp các mc phân loi và các giá tr ca các bin li vi nhau khi tin hành mã hóa  liu. Nu bn thy cn phi gp thì hãy tin hành gp khi phân tích s liu ng máy tính. Trong tng hp lý tng thì thông tin nhp vào máy tính càng chi tit càng tt. Các thông tin nh tính ch s BIM hay là nhóm tui nên thc hin sau này. Nu ngc li, bn nhóm các thông tin li vi nhau ri nhp s liu, nu khi bn phân tích bn thay i các nhóm hoc cách tính thì bn không có thông tin và phi nhp li toàn b s liu. 3. i mt bin ca mi trng hp/ quan sát phi nm trên cùng mt ct ca  liu SPSS. Trong SPSS các thông tin ca mi quan sát ch nm trên mt dòng và mi ct cha thông tin ca mt bin. Bn nên t tên bin ngn, d nh và theo mt quy tc nht nh. Không nên t tên bin bng ting Vit vì máy tính không nhn c. 4. i bin ca mi quan sát phi có mã hoc giá tr bin. Các mã này phi ng s ngoi tr nhng bin b thiu thông tin. Bn nên  trng cho nhng bin không có thông tin vì SPSS s tng nhn các giá tr trng là giá tr missing (ch ra bin b thiu thông tin). Tuy nhiên thì nhiu khi chúng ta  missing s làm cho vic phân tích s liu sau này khó hn, c bit là trong nhng trng hp missing là do không phù hp thì bn nên mã hóa 98 (không phù hp) hoc 99 (missing) cho các trng không phi là giá tr ca bin. 5. Áp dng các quy tc v thng nht s liu ca tt c các quan sát. u này có có ngha là bn thng nht mt mã cho tt c các quan sát cùng tr li mt câu hi, b thiu thông tin mt câu hi. Lu ý này rt quan trng cho nhng câu hi nhiu la chn nu bn 1 là có, 0 là không cho la chn ó thì phi thng nht trên toàn b s liu hoc trong câu hi ó. 6. Nên s dng các giá tr cao cho nhng câu tr li có th t. Bn nên code giá tr 1 cho không ng ý và 5 cho rt ng ý. Tuy nhiên bn không sai nu mã hóa ngc li nhng nó có th làm bn nhm ln khi c ý ngha. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m 1 Chi tit c th v phn mã hóa s liu, hãy c phn 2.2.1 X lý và nhp s liu trong Giáo trình Thng kê Y t Công cng phn 2 (trang 12 - 17). II. Nhp s liu Sau khi s liu c mã hóa, chúng c nhp vào máy tính  chun b cho quá trình phân tích s liu. Hin nay có nhiu phn mm có th h tr trong quá trình nhp s liu. Vi nhng s liu ln chúng ta có th s dng các phn m qun lý s liu chuyên nghip nh Microsoft Access, Oracle,… .Vi nhng phn mm nh chúng ta có th s dng Epidata, Epi Info là nhng phn m min phí  nhp liu. Cht lng ca mt b s liu c quyt nh bicông tác thu thp s liu và nhp liu. Các li có th mc trong quá trình nhp liu là nhp liu sai hoc c nhm.  gim các li này trong quá trình nhp liu thì chúng ta có th chn t trong nhng chin lc nhp s liu sau ây: - Hai ngi nhp s liu và tin hành so sánh. Nu lng thông tin sai khác ca hai ngi quá ln thì tin hành nhp li - t ngi nhp s liu ri ly ra ngu nhiên khong 20% phiu  kim tra. Nu thy sai khác quá nhiu cng phi nhp li - Dùng các thit b hin i: Máy quýet tng. 1 c thêm phn 2.2.2 Nhp s liu, Giáo trình Thng kê Y t Công ng, phn 2 nm 2005 (trang 17 và 18) III. Kim tra và làm sch s liu SPSS có hai ca s màn hình là Data view và Variable View bên cnh các ca  khác nh là Output, syntax. Ca s Data view hin th s liu trong b s liu mà bn ang m và Variable view hin th bin và nhng c tính ca các bin trong b s liu ang m.  s liu Chilumba gm các bin s có chi tit nh sau: Id (tên bin) Identity number Mã s Caco (bnh) 1=case, 0=control 1=bnh, 0=chng Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Agegrp (nhóm tui) Age group: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Nhóm tui: 1=1/14 2=15/24 3 = 25/34 4 = 35-44 5 = 45+ Sex (gii thiu) 0=male, 1=female 0=nam, 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2=1-3 year 3=4-6 year 4=7+ year Hc vn : 1=không 2=1-3 nm 3=4-6 nm 4=7+ nm Mbcont (tip xúc phong u) Contact with MB case Tip xúc vi phong u (có nhiu vi khun) Pbcont (tip xúc phong c) Contact with PB case Tip xúc vi phong c (có ít vi khun) Sau khi s liu c nhp vào SPSS bn nên tin hành kim tra s bin, nhãn bin và loi bin. Khi bn nhp  mt phn mm khác ri sau ó chuyn sang SPSS thì tu vào phn mm mà loi bin nhãn bin có th b thay i. Bn nên thay i loi bin bng cách m ca s Variable view. Sau ó ca s màn hình sau s hin th ra. Bn kim tra dng bin  ct type (vòng tròn màu ). u bn mun chuyn kiu bin hãy kích chut vào du ba chm ti bin mà n mun chuyn. Khi ó ca s kiu bin s hin ra nh sau và bn chn loi bin tng ng. Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m u bn mun chuyn kiu o lng ca bin nh lng (có ba loi o lng chính scale – t s; ordinal – th bc, norminal – nh danh) thì bn kích vào u “v” trong ct Measure a bin mà bn mun thay i (vòng tròn màu xanh). Khi ó ca s sau s hin ra và bn chn lai o lng phù hp vi bin ca n. 2 Da vào mã ca các giá tr bên ct mã bin: hãy chuyn kiu o lng cho tt c các bin trong b s liu Chilumba. Sav thành dng thích hp Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau khi hoàn thành phn kim tra loi bin và dng o lng ca bin, chúng ta chuyn sang phn dán nhãn cho bin. ây chúng ta có hai loi nhãn: Nhãn a bin và nhãn ca giá tr. Nhãn ca bin lc th hin  ct label ca bin ó còn nhãn ca giá th hin  ct values tng ng.  thay i nhãn ca bin, bn nháy úp chut vào ct label ca bin ó và gõ vào.  thay i/ thêm giá tr ca nhãn giá tr ca bin bn kích vào nút a bin ó và ca s sau s hin ra: n nhp giá tr ca bin vào ri kích add vào ca s. Bn thao tác cho khi hoàn thành ht các mã ca bin ó. 2 Da vào mã ca các giá tr bên ct mã bin: hãy dán nhãn cho tt c các bin trong b s liu Chilumba. Sav 1 Chi tit thông tin v phn này tham kho phn xem b s liu trong SPSS, Giáo trình Thng kê y t công cng phn 2 (trang 18-20) Sau ó bn tin hành các khai báo vi các giá tr missing. Nu trong s liu bn  dng các mã 98 hay 99  th hin quan sát b missing thì bn s khai báo cho SPSS có th hiu c. Ngc li, nu bn không khai báo mà ch None trong ct missing ca bin ó thì SPSS s hiu ó là giá tr ca quan sát ó.  khai báo missing bn kích vào ct missing ca ô ó: Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Sau ó có mt ca s nh Missing values hin ra, bn chn Dicrete missing value và nhp vào nhng giá tr mà bn ã mã hóa là missing. Ngòai ra, trong ca s Variable view còn cho phép bn thay i s ký t sau u phy ca bin có dng thp phân (decimal) và các tính cht khác ca bin. Chi tit phn này bn có th tham kho Menu Help ca SPSS. Bây gi bn ã nh ngha và dán nhãn cho bin xong, bn có th in ra mt codebook, ó nh là mt tn cho s liu ca bn. Vic này rt hu ích vì nó giúp bn lu li nhng gì bn ã thc hin  có codebook bn dùng File Display Data File Information Working File Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m  c bn nhng thông tin trong codebook ging nh là các thông tin c th hin trong màn hình Variable view. Và kt quc th hin nh sau: Variable Information Variable Position Label Measurement Level Column Width Alignment Print Format Write Format id 1 Identity number Scale 8 Right F9.2 F9.2 caco 2 1=case, 0=control Unknown 8 Right F8 F8 agegrp 3 Age group Unknown 8 Right F8 F8 sex 4 0=male, 1=female Unknown 8 Right F8 F8 bcgscar 5 0=no, 1=yes Unknown 8 Right F8 F8 school 6 Duration of schooling Unknown 8 Right F8 F8 mbcont 7 Contact with MB case Unknown 8 Right F8 F8 pbcont 8 Contact with PB case Unknown 8 Right F8 F8 Variables in the working file Variable Values Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Value Label 1 Case caco 2 Control 0 Male sex 1 Female 0 No bcgscar 1 Yes ' t qu này trích t SPSS 15.0. Nu bn dùng bn cao hoc thp hn thì t qu có thc trình bày hi khác mt chút nhng lng thông tin thì cng ng t. Làm sch s liu: c dù s liu c kim sóat t khi thu thp và nhp s liu, nhng s liu có th còn nhiu sai sót nên vc làm sch bao gi cng là mt khâu bt buc trc khi phân tích s liu. làm sch s liu gm thc hin các thao tác kim tra tính phù hp ca s liu, tính nht quán và các giá tr bt thng trong b s liu. i vi các bin nh tính,  kim tra và làm sch s liu, chúng ta s ng ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh này ch yu dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m [...]... (Ph n n y b n h y c k ph n Ki m tra tính nh t quán (trang 3 7- 40) Giáo trình th ng kê Y t Công c ng ph n 2); ki m tra s gi ng nhau c a các mã cá nhân (trang 25,26); Ki m tra ng y thông tin c a bi n ng y tháng (trang 3 5-3 7) trong giáo trình trên Tài li u tham kh o d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic...H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic Sau ó c a s màn hình sau y s hi n ra: n ch n bi n mà b n c n ph i ki m tra kích chuy n sang ô Variable và kích Ok t qu c a câu l nh n y là: Statistics N Valid Missing 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A... 59.0 100.0 y b n có th tìm ra nh ng giá tr không phù h p a b s li u Ví d nh bi n caco: bi n ghi là 0: control 1: case ( ã dán nhãn ph i nh th ) nh ng ã dán nhãn nh m là 1: case, 2 là control Chúng ta ph i quay l i c a s nhãn bi n lúc âu ch nh l i d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c H F-XC A N GE H F-XC A N GE c u-tr a c k N y bu to k lic n thay s 2 Value... frequency c ng cho các b n bi n thông tin v giá tr missing a các bi n Statistics N Valid Missing 1 Ph n n y b n 1=case, 0=control 1260 0 0=male, 1=female 1260 0 0=no, 1=yes 1260 0 c chi ti t ph n Ki m tra nh ng mã không phù h p trong giáo trình Th ng kê Y t công c ng, ph n 2, Nhà xu t b n y h c n m 2005 (trang 2 7-3 0) Ngoài ra, c n c vào b câu h i mà b n ph i ki m tra tính nh t quán c a b s li u (Ph n n y. .. c u-tr a c k N y bu to k lic Frequency Table 1=case, 0=control Valid 0 case Total Frequency 1008 252 1260 Percent 80.0 20.0 100.0 Valid Percent 80.0 20.0 100.0 Cumulative Percent 80.0 100.0 0=male, 1=female Valid Male Female Total Frequency 571 689 1260 Percent 45.3 54.7 100.0 Valid Percent 45.3 54.7 100.0 Cumulative Percent 45.3 100.0 0=no, 1=yes Valid Nhìn vào k t qu no yes Total u ra Frequency 744... bu to k lic 1 George A Morgan và các ng nghi p, SPSS for Introductory statistics, Use and interpretation, xu t b n l n th 2, Nhà xu t b n Lawrence Erlbaum n m 2004 2 Website: http://www.ats.ucla.edu/stat/spss/topics/data_management.htm (truy c p ng y 23/01/08) .d o o c m C m w o d o w w w w w C lic k to bu y N O W ! PD O W ! PD c u-tr a c k c . Qun lý s liu - bin phân loi (bin nh tính) Tài liu ging d y: Giáo trình thng kê Y t Công Cng- phn 2, Phân tích  liu. Nhà xut bn Y hc xut bn nm 2005 vi. 1=nu Bcgscar (chng nga BCG) 0=no, 1=yes 0=không, 1=có School (hc n) Duration of schooling: 1=none 2= 1-3 year 3= 4-6 year 4=7+ year Hc vn : 1=không 2= 1-3 nm 3= 4-6 nm 4=7+ nm Mbcont (tip xúc. ng phân phi tn s - nh Frequencies nh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies nh n y ch y u dùng cho các bin phân loi Click to buy NOW! P D F - X C H A N G E w w w . d o c u - t r a c k . c o m Click

Ngày đăng: 02/08/2015, 08:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN