Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
394,6 KB
Nội dung
Qun lý s liu c tiêu Sau khi kt thúc bài hc này, sinh viên có th: 1. dng Epi Info c các s liu t các chng trình khác 2. dng c các câu lnh trong Epi Info làm sch b s liu 3. Thao tác vi c s d liu trong Epi Info: mã hoá li, to thêm các bin Gii thiu Tuy ã có h thng mã kim tra u vào ca d liu nhng khi nhp s liu cng không th tránh khi hoàn toàn các li nh d liu không hp l, d liu không phù hp. Vì y trc khi chúng ta tin hành phân tích s liu thì công vic u tiên ca chúng ta phi làm sch li b s liu ca mình. Trong khoá hc này chúng tôi không k vng là có th gii thiu ht vi các bn v k nng làm sch s liu mà ch xin gii thiu mt vài k nng ch yu bn có th làm sch mt b s liu chun b phân tích. s liu mu Bài tp yêu cu bn phi thc hin làm sch b s liu ca mt trung tâm t vn và xét nghim HIV t nguyn. ây là b s liu VTC c trích ra t mt nghiên cu ca nghiên cu v HIV/AIDS do vn phòng CDC ti Vit nam tin hành. Mc tiêu ca nghiên cu này là theo dõi tình hình bnh nhân n t vn, nhng thay i hành vi ca nh nhân khi c t vn và các yu t liên quan khác (xem chi tit b câu hi và mã bin mc lc 1). s liu c xây dng phc v cho công tác hc tp không có tác dng nghiên cu hay xut bn. 1 c mt project trong Epi Info 1.1M mt project có kiu d liu là kiu d liu Epi Info 2002 1.Kích vào nút Analyze Data màn hình chính ca ca Epi Info vào chng trình phân tích s liu Thành phn ca màn hình Analysis: Command Generator – Danh sách lnh có sn trong Analysis cho ngi s dng có th tham kho t command tree (cây lnh). Program Editor – Phn hin nguyên vn các câu lnh ã thc hin HTML Browser – Phn thc hin lnh c ly t cây lnh 2. Kích vào Read(Import) t cây lnh. Mt hp thoi m ra. Phân tích s liu bng Epi Info 28 nh Read(Import) cho phép c mt file vi kiu file c th, chúng ta có th thao tác bng tay nh là lit kê, v th, tính tn s, bn và thc hin các cha ng khác vi b s liu ó. 3.Kích vào Change Project. Tìm và chn project vtc.mdb ca bn t folder c:\Epi_Info.Chn All hin th lên các bng s liu. Chn bng có tên là vtc. Kích Open. Change Project s cho phép bn thc hin chc nng là tìm mt project hoc file .mdb c th. Tt c công vic c thc hin trong Analysis s trong project VCT1.mdb. 1.2.M mt project có kiu d liu là kiu Excel (gi s file bn mun m có tên là STinfect.xls trong project STI.mdb) 1.Kích vào lnh Read (Import). Kim tra li có phi hin nay bn ang thao tác vi project mà bn mun trong trng hp này là STI, nu không phi, s dng nút lnh Change Project chn và m project ca bn 2.Kích vào hp chn Data Format và chn Excel 8.0. 3.Kích vào nút ba chm (…) bên phi hp Data Source. Mt ca s s xut hin n có th chn file Excel mà bn mun c. Chn STInfect.xls mà bn mun c sau ó kích Open. S có hai nút cho phép bn chn mt trong hai Worksheets hoc tên Ranges. Trong trng hp này là Worksheetsc hin th và kích OK. 4. hp thoi Filespec, hãy kim tra chc chn rng bn ã kích vào hp First Row contains field names và kích OK 1.3 c file .DBF Bây gic mt file d liu c mang tên STInfect.dbf. I.Ghi file .DBF vào trong bng . MDB hin thi 1.Kích vào Write (Export). nh Write(Export) s copy bng hin ti (bng mà bn c gn ây nht) và dán chúng hoc mt phn ca chúng vào file cn thit và/hoc vào file có dng c th c ch ra. Tu chn bin vi p chn lnh Write (Export) : p chn All – ghi tt c trng và d liu vào c s d liu p chn All (*) Except – vit tt c trng và d liu vào c s d liu ngoi tr nhng ch sáng nht. S la chn này ch tr nên có giá tr khi có ít nht t trng c la chn (ch sáng nht) và không có giá tr nu nh hp chn All oc chn. Phân tích s liu bng Epi Info 29 Chc nng Append - la chn mc nh cho u ra sc thêm vào d liu la chn bng d liu. Chc nng Replace - chc nng u ra s thay th nhng d liu ã tn ti trong bng d liu. 2.Chn STI.mdb t hp File Name, s dng nút ba chm ( ) và ánh “STInfect” vào p Tables. Kích vào Replace và kích OK. II. c project STI. 1. Kích vào la chn All hin lên bng danh sách STInfect. Chn bng STInfect và kích OK. 1.4c Reading (importing) mt bng mt trang HTML 1. Kích vào lnh Read(Import). Kim tra li rng project hin ti ca bn STI.mdb. u không, s dng nút lnh Change Project chn và m project ca bn. 2. Chn HTML nh là nh dng d liu. Tìm ngun d liu có tên ICD9 Cod.htm. Nó nm C:\Epi_Info\ Kích Open, hoc kích úp vào file. 3. Kích vào bng 7:1. Bng này cha mã ICD 9. Analysis hin th mt danh sách a ch có cha bng bn ang m. Nu bng không hin th, kích vào danh sách mi m thanh Start áy màn hình. Kim tra li rng bng cha mã ICD-9 và s miêu t ca chúng. óng ca s danh sách li. Trang HTML mi không phi là mt phn ca project hin ti. Mt hp thoi mi xut hin hi nu bn mun to mt liên kt ti mt trang hay là mt thm ving n thun. 4.Vi bng 7:1 phn c làm sáng. Mt hp thoi m ra và hi li to mt liên kt m thi hay mt liên kt vnh vin trong project ca chúng ta ti bng này. Chúng ta s o mt liên kt tm thi. i s mc nh, Anylasis st tên các liên kt là TMPLNK_x, vi x là nào ó. Nu bn t tên cho link (liên kt) nó sc ghi li. Nu bn không mun to s liên kt tm thi ti trang này, kích OK s xoá s liên kt khi project c thay i hay khi Analysis c óng li. Kích Cancel s xoá b vic c s hot ng. thay i tên ca s liên kt cho phép bn liên ti file và tip nhn mt s p nht làm mt file hay bng 5.Kích OK. Phân tích s liu bng Epi Info 30 1.5 c các nh dng khác trong Analysis Ghi (Writing (exporting)) mt liên kt tm thi ti mt bng HTML trong .MDB 1.Lp li các bc 1 – 4 trên c file HTML tng t. 2.ánh ICD9_LINK, tên khác vi tên mc nh TMPLINK_x. 3.Kích OK. S liên kt ICD9_LINK sc ghi li nh là s tham kho thông tin t file ICD9 Cod.htm . 4.Read (Import) c)project STI. Kích vào All nhìn bng danh sách ICD9_LINK. Chn bng ICD9_LINK và kích OK. Bng s có 677 bn ghi. 1.6 Trn d liu t nhiu ngun và t nhiu nh dng khác nhau 1.Kích Read(Import). Chn Epi6 Direct Read nh mt file nh dng t hp kéo chn Data Format . 2.Kích vào nút ba chm (…) bên phi ca hp chn Data Source. C:\Epi_Info, chn STInfect.rec, mt file .REC cu Epi 6.Kích Open 3.Kích OK ca s Read(Import) . 4.Kích Write(Export). Kim tra li rng nh dng u ra là Epi2000. Chn project STI.mdb nh là tên file và ánh “thông tin bnh nhân” nh là tên bng. 5.Kim tra li rng u ra là Append. Kích OK. Ghi mt file .REC vào mt bng mi s tng sinh ra mt view cho file d liu ó. 2.Làm sch s liu 2.1K hoch làm sch s liu Sau khi chúng ta nhp s liu, các s liu phi c làm sch trc khi a ra phân tích. c tiêu làm sch s liu ch yu tp trung vào: x lý các giá tr không hp l, kim tra các kiu d liu ngày tháng, kim tra li tính phù hp ca các bn ghi trong d liu Trong phn này chúng tôi s dng b s liu vtc.mdb hng dn cách làm sch s liu. Trong b s liu này chúng ta phi làm các công vic sau: Kim tra mã ca khách hàng Kim tra các mã tnh Kim tra các bin ngày Mã hoá li mt s các trng d liu Kim tra li tính phù hp ca d liu nh nu không tham gia xét nghim mà li có kt qu, ngày xét nghim …. Kim tra li các thông tin b thiu trong các bin Phân tích s liu bng Epi Info 31 u có th hãy i chiu tt c các li vi phiu gc, bn s xác nh c các li mã hoá hoc nhp s liu mà có th chnh sa c Tuy nhiên, có nhiu li do ngi tr li không nht quán thông tin nên nu có th bn hãy liên lc li vi h xác nh các thông tin nhng u này là không th thc hin c. Nên nhiu lúc bn phi t mình thay i hay sa li các thông tin cho phù hp 2.2Kim tra tính duy nht ca mã Trong nghiên cu này mi mt khách hàng n t vn thì có mt mã riêng bit nu khách hàng ó n mt ln khác thì phi có mã khác. Cho nên trng Mã khách hàng phi duy nht ( xác nh i tng) hay trong trng ó không có hai giá tr lp li. u có giá tr lp li thì bn phi kim tra xem có phi i tng ó ã b nhp liu hai hay nhiu ln (tu thuc vào s ln lp li) không? Nu có thì phi loi ht ch li t bn ghi. Nu không thì do h thng ánh s b sai và ó là bn ghi thông tin ca nhng ngi riêng bit. kim tra s ging nhau ca các mã khách hàng, cách n gin nht là tn s ca mã. t c các tn xut ca mã phi bng 1 nu có mt mã nào có tn s nhiu hn 1 thì tc là có bn ghi trùng nhau và bn phi kim tra li phiu chnh sa li mã. 1. Bn nháy kép vào lnh Frequency trên cây lnh. Chng trình s hin ra mt bng thoi ca lnh Freq nh sau Các thành phn trong hp thoi Freq: Thành phn Miêu t Weight Ch ra bin (bt k) nào là trng s ca phép phân tích s liu Output to Table Ch ra u ra ca câu lnh là mt bng (tu chn) Frequency of Xác nh nhng bin nào mun tính tn s Phân tích s liu bng Epi Info 32 All (*) Except Nu bn ánh du vào tu chn này thì ch ra tt c các bin loi tr nhng bin c chn c tính tn s Stratify by Ch ra bin nào c dùng phân tn d liu Settings u chn Settings thì chng trình s m mt ca s ca câu Clear Xoá form. Help là mt nút hp tu chn chun, nu bn chn nút này thì chng trình s chy file tr giúp tng ng trong Epi Info. Cancel óng ca s to câu lnh mà không ghi cng không thc hin câu lnh Save Only Ch cho phép ngi dùng ghi vào lnh vào file c th mà OK u bn kích OK thì câu lnh c thc hin và ghi vào son 2.Vào ô frequency of chn bin Clientcode và kích OK Kt qu ca bn nh sau: Mã khách hàng Frequency Percent Cum Percent 003178 1 0.40% 0.40% 003179 1 0.40% 0.70% 003180 1 0.40% 1.10% 003181 1 0.40% 1.40% 003182 1 0.40% 1.80% 003187 1 0.40% 2.20% 003463 2 0.70% 73.20% 003464 2 0.70% 73.90% 003465 2 0.70% 74.60% 003466 2 0.70% 75.40% 003467 2 0.70% 76.10% 003468 2 0.70% 76.80% Phân tích s liu bng Epi Info 33 003469 2 0.70% 77.50% 003470 2 0.70% 78.30% 003471 2 0.70% 79.00% 003472 2 0.70% 79.70% 003473 2 0.70% 80.40% 003474 1 0.40% 80.80% 003475 1 0.40% 81.20% 003476 1 0.40% 81.50% 003477 1 0.40% 81.90% 003478 1 0.40% 82.20% 003526 1 0.40% 99.60% 003459 1 0.40% 100.00% Total 276 100.00% 100.00% Nhìn vào bng kt qu thì có mt s mã có nhiu hn mt giá tr bn phi quay li phiu kim tra và chnh sa li. 2.3Hin th các giá tr trong mt bin ca b s liu 1.Bm vào lnh List xem mt bin. Có hai cách hin th mt bin trong Epi Info. Có th hin th di dng HTML (Web) nhã cài t trc, hoc có th hin th di dng mt bng ô (Grid Table). Khi bn hin th di dng bng ô (Grid table), bn có th hin th s liu di dng có th sa i thì cho phép bn thay i, chnh sa li d liu. Khi sa nhng giá tr trong bng, nhng mã kim tra liên kt vi trng này không hot ng. Th hin th mt bin bng nhiu cách: hin th di dng Web, dng bng grid (không chnh sa) hoc bng allow updates (có th chnh sa) u sao (*) thay mt cho tt c các bin trong b d liu. Nu bn ch mun hin th mt vài bin, thay vì chn du sao (*), chn các bin trong bng tên bin Phân tích s liu bng Epi Info 34 (nháy chut vào mi tên ch xung bên tay phi du sao). Chú ý rng cách này ng có th giúp bn lit kê ra tt c các bin (bng cách chn tt c các bin). 2.Nhp vào ô Variable (nhng) bin mà bn mun lit kê và kích OK 2.4 Mã hoá li b s liu 2.4.1 nh ngha ra mt bin mi Trong b s liu Vtc1, mt s câu hi ch có mt la chn nhng ngi qun tr d liu i mã hoá thành nhiu bin nh trong các câu hi nhiu l chn. u này gây ra mt khó khn cho chúng ta khi phân tích s liu nh s làm các phép tính toán dài hn. Ví d nh chúng ta có th tính toán trc tip l nam/n chim bao nhiêu phn trm trong lng khách hàng n t vn ti Trung tâm bng mt lnh thì chúng ta phi tính toán t hai câu lnh t hai bin s. 1.Chn lnh Define trong cây lnh Select. nh Define cho phép ngi dùng to ra mt bin/ trng mi cho c c d liu ang hin nay nh Define to ra các trng và các giá tr nht thi. Khi óng chng trình Analysis và c mt bng hoc mt c s d liu khác thì các lnh trên s b xoá 2.4.2.Gán giá tr cho các bin s dng câu u kin (IF) 1.To mt trng mi, tên là “Sex”, không thay i các nh dng có sn trong mc ó, m OK. Bc tip theo là mã li trng Sex theo các thông tin t trng n2c1 và n2c2 gán giá tr cho bin mi Sex, s dng lnh If. To câu lnh nh sau: IF n2c1 = (+) Then Sex = 1 ELSE Sex = 2 END 2.Dùng lnh List hin th các bin sau: Sex di dng bng ô (grid). Sau ó bm OK. n c tin hành tng t vi các bin v ni ca khách hàng, tình trng hôn nhân Phân tích s liu bng Epi Info 35 2.4.5Mã hoá li các trng dng s (numberic) Trong b s liu có trng tui ca các khách hàng n t vn. Bây gi chúng ta mun mã hoá bin tui này thành nhóm tui xem nhóm tui nào thng hay n Trung tâm vn 1.Dùng lnh Define to mt trng mi ly tên là Agegroup Dùng lnh Recode chuyn các giá tr t trng N3 sang trng AgeGroup, nh sau: 2. Chn lnh Recode cây lnh Analysis. mc From chn bin và mc To chn bin NewValue. t u tiên là giá tr ban u. Ct th ba s là ct cha giá tr mã li cho giá tr ban u Các kí t phi c ánh trong du ngoc kép (khi thao tác trong Program Editor). S dng ELSE ch ra tt c các giá tr còn li (không có trong ví d này). Lnh Recodes c tin hành theo trình t, trong trng hp 2 giá tr c Value trùng nhau, dòng u tiên sc thc hin. Các s mã li ánh cách nhau bi phím cách, du ngang (-) và phím cách, ví d: 1 – 5. Nhng giá tr âm cng c chp nhn, ví d -10, -9 và -8. From To AgeGroup LOVALUE 14 <14 15 19 15 – 19 20 24 20 – 24 25 29 25 – 29 30 34 30 – 34 35 39 35 – 39 40 44 40 – 44 45 49 45 – 49 50 HIVALUE 50 and over Các ch LOVALUE và HIVALUE c s dng i din cho nhng giá tr nh nht và ln nht trong b s liu. Các trng c to ra trong Analysis c s dng lu gi các kt qu tính toán hoc các u kin ginh. Các giá tr ca các bin này sc u chnh cho mi bn ghi theo nh nhng qui c trong bng. Bi vì ây là nhng bin tm thi nên các giá trc gán cho các bin này s mt ti ln m sau (khi bn dùng lnh Read ). Khi mã hoá li, cn phi a vào tt c các giá tr, k c nhng giá tr hp l nu không nhng giá tr không c a vào bng s b mã hoá li thành MISSING. Phân tích s liu bng Epi Info 36 n chú ý là Analysis không th mã hoá li hn 12 giá tr. làm c u này, tham kho ví d trong mc How To Chapter phn hng dn (Epi Info Help) v mã hoá theo mt cách khác. 3.Khi tt c các giá trã c nhp, bm OK ra khi hp thoi Recode. 2.5 Kim tra li nhng giá tr phù hp cho bin phân loi Khi chúng ta tin hành nhp s liu có th nhp các mã mà không tn ti. Ví d nh trng hc vn chng hn chúng ta ch có các mã sau 1- tiu hc 2- trung hc c s 3- Trung hc ph thông 4 - i hc và trên i hc. Chúng ta không th bit c nhp liu viên ca chúng ta nhp vào mt mã nào khác vi 4 mã chúng ta ã quy nh. kim tra các mã không phù hp này bn phi lit kê các giá tr ca bin ó (Dùng lnh Frequencies). Trong bng kt qu bn s kim tra xem có mã nào không hp l không. u có mã nào không hp l bn phi i chiu li phiu kim tra tin hành chnh a li Lnh Tables c dùng lp mt bng cho 2 bin. 2.6 Kim tra các giá tr bt thng (outliner) cho bin liên tc Kim tra các giá tr bt thng là mt trong các bc quan trng khi làm sch s liu. Các i lng thng kê mô tu bnh hng u bnh hng bi các giá tr tt cùng (bao gm c thp và cao) nht là giá tr trung bình. Giá tr bt thng này có th là i do nhp s liu nh thay vì nhp tui là 20 nhp liu viên li nhp giá tr là 200 hoc chúng có th là giá tr thc s. Kim tra các giá tr bt thng có th bng kim tra i các phiu u tra xem các giá tró có phi thc hay không? nu ó là giá tr thc thì bn phi a nó vào chng trình phân tích ca mình hoc gii thích cn k nguyên nhân ti sao bn li a vào hay không a vào phân tích giá tró. kim tra các giá tr bt thng ca các bin s ví d nh bin tui chúng ta dùng nh freq nhã trình bày trên. 1.Trên cây lnh chn lnh Frequencies 2.Kích vào hp thoi frequency of chn bin bn cn tính, trong trng hp ca chúng ta là bin tui 3.Sau ó kích OK thc hin t quu ra ca câu lnh s lit kê ht toàn b các giá tr mà b s liu có. Bn có th nhìn vào bng kt qu xem b s liu ca bn có gái tr bt thng hay không? Nu có và bn mun chnh sa thì bn phi lit kê giá tró ch cho phép update. 2.7Kim tra ngày tháng phát hin các sai sót khi nhp d liu ngày tháng n mun tìm các d liu ngày tháng mà không chính xác, ví d nh ngày phng vn m ngoài thi gian u tra hay ngày sinh ca các i tng phng vn nm ngoài tui [...]... n phân lo i, ví d nh ki m tra s phù h p c a nhóm tu i và bi n ngh nghi p) 2.9.1Ch n m t t p con c a b n ghi 1 Ch n l nh Select trong cây l nh b ng cách nháy kép, Ch ra h ptho i c a câu l nh select nh sau: 37 ng trình s hi n th Phân tích s li u b ng Epi Info 2.Dùng h p tho i Availabel variable tho mãn Kích vào ch n 3.Kích Ok ch n bi n t o u ki n và ch n u ki n u ki n là N3 . 1 0 .40 % 0 .40 % 003179 1 0 .40 % 0.70% 003180 1 0 .40 % 1.10% 003181 1 0 .40 % 1 .40 % 003182 1 0 .40 % 1.80% 003187 1 0 .40 % 2.20% 00 346 3 2 0.70% 73.20% 00 346 4 2 0.70% 73.90% 00 346 5 2 0.70% 74. 60% 00 346 6. 79.70% 00 347 3 2 0.70% 80 .40 % 00 347 4 1 0 .40 % 80.80% 00 347 5 1 0 .40 % 81.20% 00 347 6 1 0 .40 % 81.50% 00 347 7 1 0 .40 % 81.90% 00 347 8 1 0 .40 % 82.20% 003526 1 0 .40 % 99.60% 00 345 9 1 0 .40 % 100.00% Total 276 100.00%. 75 .40 % 00 346 7 2 0.70% 76.10% 00 346 8 2 0.70% 76.80% Phân tích s liu bng Epi Info 33 00 346 9 2 0.70% 77.50% 00 347 0 2 0.70% 78.30% 00 347 1 2 0.70% 79.00% 00 347 2 2 0.70% 79.70% 00 347 3 2 0.70% 80 .40 % 00 347 4