Dùng Frequencies: 1.Vào file dữ liệu trong Data Editor + Vào các folder: * Analysis/Discreptive Statistics/Frequencies Rà sóat giá trị của biến theo Frequencies hay Tables of Frequenc
Trang 10914 696 086
LỌC SỐ LIỆU TRONG SPSS
1.Số liệu đơn giản:
• Dùng Sort cases :
1.Vào file dữ liệu trong Data Editor
2.Vào các folder:
Data
Sort cases
Chọn tên biến cần kiểm tra
Chọn Ascending hay Descending
2.⇐ Dùng Find để tìm và sửa lỗi: Mở Data view, chọn biến cần sửa, trong Edit
chọn Find, nhập giá trị biến cần sửa để tìm số liệu đã nhập sai và sửa (nên tìm ID
để kiểm tra)
3 Dùng Frequencies:
1.Vào file dữ liệu trong Data Editor
+ Vào các folder:
* Analysis/Discreptive Statistics/Frequencies
Rà sóat giá trị của biến theo Frequencies hay Tables of Frequencies để tìm số liệu nhầm lẫn
Có thể dùng Find (Edit, Find, tên biến) để tìm và sửa lỗi
3.⇐ Rà sóat giá trị của biến theo Frequencies hay Tables of frequencies để tìm
số liệu nhầm lẫn
⇐ Dùng Find (Edit, Find, tên biến) để tìm và sửa lỗi
2.Số liệu phức tạp
• Dùng Select cases để tìm lỗi logic : vào Data Editor
Data, Select cases, Chọn biến
Chọn If condition is satisfied
Chọn If, chọn biến và điều kiện của biến vào cột phải
Continue, OK
Ở Data Editor, xem cột ngoài cùng bên trái: các phiếu có gạch chéo là không được xử lý
⇐ Muốn trở lại trạng thái ban đầu dùng All cases
• Dùng Select cases để tìm lỗi logic : vào Data Editor
1 Data, Select cases, Chọn biến
2 Chọn If condition is satisfied/
3 3 If….
Trang 2Ví dụ trong quá trình nhập gới: nam là 1; nữ là 2 Nhưng trong quá trình nhập có thể nhâp lộn số là 3,4,8… Để kiếm tra xem có nhập lộn số hay không ta đặt điều kiện cho biến số để phát hiện sai sót trong quá trình nhập: bằng cách ta nhập điều kiện của giới vào ô Chọn If, chọn điều kiện của biến vào cột phải
Lưu ý: đối với biến định tính phải để trong ngoặc kép.
Hoặc
Continue, OK
Ở Data Editor, xem cột ngoài cùng bên trái: các phiếu có gạch chéo là các phiếu không thỏa mãn điều kiện trên sẽ không được xử lý Thiếu dữ liệu (thiếu mẫu NC) Muốn trở lại trạng thái ban đầu : dùng All cases
3 Dùng Crostab để tìm lỗi:
• Vào Data Editor, chọn Crostab bằng:
⇐ Analyze, Discreptive Statistics, Crostab
⇐ Nhập biến vào Row và Column (nên nhập thêm ID)
⇐ Statistics, Continue, OK
⇐ Tìm theo ID để sửa lỗi
XÁC ĐỊNH SỐ LƯỢNG, TỶ LỆ BIẾN ĐỊNH TÍNH
1 Biến đơn: xác định số lượng, tỷ lệ:
Analyze- Discreptive Statistics- frequencies- chọn loại biến: (giới)- chọn Chart chọn –none- chọn Continue- OK
2. Biến kép : xác định số lượng, tỷ lệ một biến số theo tính chất: ví dụ: tính từng nhóm thể lực theo giới tính
Analyze- Discreptive Statistics-Crosstables- chọn biến xác định vào ROW, chọn biến tính chất vào Column – Vào CELL chọn các giá trị liên quan:
Obcerved, row, column, total…
-Continue- OK
gioi > “0” & gioi < “3”
tuoi > 14 and tuoi < 50
Trang 3XÁC ĐỊNH SỐ LƯỢNG, GIÁ TRỊ TRUNG BÌNH, ĐỘ LỆCH
CHUẨN BIẾN ĐỊNH LƯỢNG
1 Xác định giá trị trung bình và độ lệch chuẩn MỘT BIẾN ĐỊNH LƯỢNG LIÊN TỤC đơn giản:
1.Vào Data view
2.Analyse/ Descriptive Statistics/ Descriptive
3.Chọn biến cần xác định
4.Trong Option chọn giá trị cần tìm: mean, SD, SE,…
5 OK
2 BIẾN SỐ ĐỊNH LƯỢNG XĐ SỐ TRUNG BÌNH và ĐỘ LỆCH CHUẨN theo tính chất
1.Analyse/Compare Means/Means
2.Chọn biến cần xác định vào ô Dependent (phụ thuộc) tuổi
3.Chọn biến xác định tính chất vào ô Independent (độc lập) giới
4.Tùy chọn Option:
+ Chọn Means, SD, Qua ô Cell Statistics
+ Continue/OK
VẼ BIỂU ĐỒ CHIA THÀNH NHIỀU NHÓM TÍNH TỶ LỆ THEO NHÓM
TRANSFORM/Recode/Into defferent variables
Nhập biến cần chia nhóm vào ô: String variables/Output variables: ví
dụ:tuổi Nhómt3 (Label: nhóm tuổi) chọn change: tuổi Nhómt3
Chọn Old and new value
vào new value nhập giá trị nhóm mới: nhom1/ vao Range nhập gia trị
nhóm1: vd 1 thoguh 30 hoặc Range lowest trough 31
nhom2 31 thoguh 50/nhom3 Range highest trough 51
+ Continue/OK
Ví dụ: Nếu nhiều nhóm xếp vào một nhóm thì xếp như sau: vd muốn xếp:
Mù chữ, TH – Học vấn thấp
THCS, THPT -Học vấn thấp trung bình Cđẳng, ĐH – Học vấn cao ta làm như sau:
Trang 4Vào Old value chọn số 0 (mù chữ) vào New value chọn HV thap
1 (tiểu học) vào New value chọn HV thap Vào Old value chọn số 2 (mù chữ) vào New value chọn HVtb
3 (THCS) vào New value chọn HVtb Vào Old value chọn số 4 (THPT) vào New value chọn HVcao
Vào Old value chọn số 5 (CD,DH) vào New value chọn HVcao
+ Continue/OK
TÍNH TỶ LỆ THEO NHÓM
Vào file dữ liệu trong Data Editor Analysis/Discreptive Statistics/Frequencies
Chọn các giá trị trong bảng Frequencies:
2 BIẾN KÉP: xác định số lượng, tỷ lệ một biến số theo tính chất: ví dụ: tính từng nhóm thể lực theo giới tính
Analyze- Discreptive Statistics-Crosstables- chọn biến xác định vào ROW, chọn biến tính chất vào Column – Vào CELL chọn các giá trị liên quan: Obcerved, row, column, total…
-Continue- OK
LỆNH COMPUTE Xây dựng 1 biến mới trên cơ sở các biến đã có:
VD:
Transform/Compute/Target Variable: Đặt tên biến mới: BMI/ vào Type & Label dán nhãn cho biến mới/ dùng các phím chức năng (Function) để nhập công thức tính vào
ô Mumeric Expression/OK
LỆNH COUNT: để tính toán (đếm) các giá trị của biến số:
Tuổi điều tra = C.TIME DAY (Ngày tháng năm điều tra - Ngày
tháng năm sinh) X 365.25
Ngày điều trị = C.TIME DAY (Ngày ra viện – ngày vào viện)
BMI từ chiều cao, cân nặng :
BMI = cannang/(chieucao x chieu cao)
Trang 5Trước khi tính toán phải chuyển từ biến định tính sang biến định lượng
Transform/Counnt
Đặt tên biến cần tính giá trị vào ô Target Variable/ Đưa biến cần tổng hợp tính toán (đếm) vào ô
Numeric Variable/Chọn Define Value, đưa giá trị cần xác định (cần đếm) vào Value (Vd: Muốn đếm giá trị có nghe đài số1/(không nghe đài số 2) thì ta nhập vào ô Value số 1) để đếm tất cả số
1 trên các biến cần đếm)
/chọn Add/+ Continue/OK
(numeric) rồi mới ĐẾM được:
VD: nghe radio, đọc báo, biến trinhdo (String) trước muốn xếp nhóm phải đổi thành biến định lượng (numeric).
chia3nhomtuoi
Frequency
Số lượng
Percent
Tỷ lệ %
Valid Percent
Cumulative Percentf
Tỷ lệ cộng dôn
Nhóm tuổi theo giới nào có tỷ lệ Nam cao nhất? Vào anlyz-Descriptive- crosstable
chia3nhomtuoi
chia3nhomtuoi
nhom3 nhom2
nhom1
140
120
100
80
60
40
20
0
8nhomtuoi
Frequency Percent Valid Percent Cumulative Percent
Trang 6nhom3 39 18.6 18.6 29.0
8nhomtuoi
8nhomtuoi
nhom8 nhom7
nhom6 nhom5
nhom3 nhom2
nhom1
60
50
40
30
20
10
0
3 nhom trinh do hoc van
Frequency Percent Valid Percent Cumulative Percent
3 nhom trinh do hoc van
3 nhom trinh do hoc van
ocvancao hocvanth
hocvantb
200
100
0
Case Processing Summary
Cases
3 nhom trinh do
hoc van * GIOI 210 100.0% 0 .0% 210 100.0%
Trang 73 nhom trinh do hoc van * GIOI Crosstabulation
GIOI
3 nhom trinh
do hoc van
% within 3 nhom trinh do hoc van
57.5% 42.5% 100.0%
% within 3 nhom trinh do hoc van
47.4% 52.6% 100.0%
% within 3 nhom trinh do hoc van
42.1% 57.9% 100.0%
% within 3 nhom trinh do hoc van
54.3% 45.7% 100.0%
chia nhom3
Frequency Percent Valid Percent
Cumulative Percent
chia nhom3 * GIOI Crosstabulation
GIOI
Expected
% within chia nhom3 52.6% 47.4% 100.0%
% within
% of Total 33.3% 30.0% 63.3%
Expected
% within chia nhom3 55.6% 44.4% 100.0%
% within
% of Total 7.1% 5.7% 12.9%
Expected
% within chia nhom3 58.0% 42.0% 100.0%
Trang 8% within
% of Total 13.8% 10.0% 23.8%
Expected
% within chia nhom3 54.3% 45.7% 100.0%
% within GIOI 100.0% 100.0% 100.0%
% of Total 54.3% 45.7% 100.0%
bieu do BMI theo goi
chia nhom3
nhom3 nhom2
nhom1
80
70
60
50
40
30
20
10
0
GIOI
nam
nu
Uỏi
ứng dụng compute tinh tuổi
Snthongtin
Frequency Percent Valid Percent Cumulative Percent
Count
Trang 9NHOMTT
nhom3 nhom2
nhom1
140
120
100
80
60
40
20
0
KIỂM ĐỊNH CÁC TRUNG BÌNH
1.Kiểm định 1 trung bình lý thuyết với 1 trung bình nghiên cứu:
Mở file dữ liệu-Analyse/Compare Means/One-Samples T-test (1TB lý thuyết
và 1 TB NC)/Chọn biến cần kiểm định
/ Xác định giá trị cần kiểm định: Test value/xác định độ tin cậy bằng Option chọn Confidence Interval 95% (mặc định)/chọn Exact/Continue/OK
Kết luận:
Dựa vào Bảng Test Value/cột Sig.(2-tailed) giá trị P=…
Nếu (Vì) p=….>0,05 nên không có sự khác biệt giữa ….trung bình của nhóm N/cứu so với TB lý thuyết với độ tin cậy….(95%)
2.Kiểm định 2 trung bình
Mở file dữ liệu-Analyse/Compare Means/Independent Samples T-test /Chọn
biến cần kiểm định
/ Test variable: TUỔI (biến định lượng)/Grouping variable: GIỚI (biến định tính)/ Define group (1: nam; 2 nữ)/
/Continue/OK
Kết luận:
Dựa vào Bảng Independent Test /
Đọc dựa vào cột: Levene’s Test for Equality of Variances (dùng cho 2 test có 2 Phương sai tương đương):
* Nếu
1. Đọc Levene’s Test: vì Sig = 0,626>0,05 nên hai phương sai là tương đương-
Tiếp theo đọc kết quả ở cột t-test for Equality ở Dòng 1 Equal variances
assumed ( đọc cho trường hợp 2 giá trị trung bình có Phương sai/độ lệch chuẩn tương đương),
2 Dòng 1: (tại cột Sig.2-tailed) có Sig.2-tailed = 0,354>0,05 nên trung bình
tuổi của 2 nhóm nam và nữ là không khác biệt với độ tin cậy 95%
Trang 10* Nếu Đọc Levene’s Test: vì Sig = …<0,05 nên hai phương sai là không tương
đương- Tiếp theo đọc kết quả ở cột t-test for Equality ở Dòng 2 Equal
variances not assumed ( đọc cho trường hợp 2 giá trị trung bình có Phương sai/độ lệch chuẩn
không tương đương),
3.Kiểm định >2 trung bình: Oneway ANOVA
Mở file dữ liệu-Analyse/Compare Means/one-way ANOVA/Chọn biến định
lượng cần kiểm định để đưa vào ô Dependent list (cân nặng)/ Chọn biến phân
loại cần kiểm định để đưa vào ô Factor (nơi ở)/
- Chọn Option: để có giá trị trung bình các nhóm:
+ Chọn Descriptive;
+ Chọn Homogeneity of Variances/
2 sự lựa chọn này nhằm xác định loại thống kê mô tả và tính đồng nhất của phương sai giúp kiểm định sự ngang bằng về phương sai giữa các nhóm (test thống
kê Leven quyết định đến sự lựa chọn phương pháp kiểm định trong phần Post
Hoc); Công cụ: Means Plot dùng để hiển thị đồ thị về giá trị trung bình của các
nhóm; Công cụ:Missing Value dùng để kiểm soát giá trị khuyết: Exclude cases
analysis by analysis: những trường hợp có giá trị khuyết ở trong biến phụ thuộc và biến kiểm soát sẽ không được đưa vào trong kiểm định Ngoài ra những trường hợp có giá trị quan sát nằm bên ngoài chuỗi đã xác định cho biến kiểm soát cũng không được sử dụng. Exclude cases listwise: những trường hợp có giá trị khuyết cases trong biến điều khiển hoặc bất kỳ biến phụ thuộc nào được đưa ra hoặc không được đưa ra kiểm định đề
bị loại trừ ra khỏi quá trình phân tích
( Trong tổng thể các phương sai của các mẫu dữ liệu phải tương đương (sẽ được
kiểm định bằng test thống kê Levene’s Homogeneity of Variances)
- Chọn Post Hoc: để so sánh sự khác biệt từng cặp giữa các nhóm (nhóm
nào khác biệt với nhóm nào):
+ Chọn LSD nếu các phương sai bằng nhau;
+ Chọn Dunnett’ T3 nếu phương sai không bằng nhau /Continue/OK (không chọn Contracts)?
Đọc kết quả: Dựa vào 2 Test sau:
1 Test thống kê Levene’s Homogeneity of Variances):
Nếu: Sig = p= >0,05 các phương sai tương đương – đọc kết quả bằng Test LSD
;
Nếu: Sig = p= <0,05 các phương sai không tương đương – đọc kết quả bằng Test Dunnett’ T3;
2 Test ANOVA
Trang 11Kết luận dựa vào Sig = P=….>0,05 nên ta chấp nhận giả thuyết Ho nghĩa là
không có sự khác biệt (trung bình trọng lượng ở các vùng sinh sống) với độ tin cậy 95 %
Lưu ý:
+ Nếu: Sig = p= >0,05 các phương sai tương đương – đọc kết quả bằng Test LSD ;
+ Nếu: Sig = p= <0,05 các phương sai không tương đương – đọc kết quả
bằng Test Dunnett’ T3;
(Nếu nhầm phương sai: tương đương hoặc không tương đương thì thì kết luận
có thể bị khác biệt nhau)
KIỂM ĐỊNH CÁC TỶ LỆ TRONG SPSS
1 Kiểm định 1 tỷ lệ lý thuyết với 1 tỷ lệ nghiên cứu:
Mở file dữ liệu-Analyse/Nonparametric Test/Chi-Quare/
Chọn biến cần phân tích để đưa vào ô Test Variable list (nếu là biến
định tính phải chuyển thành biến định lượng mới đưa vào được) /Đưa
các giá trị lần lượt vào ô Expected value:Po, 1-Po/OK
Kết luận:
Khi Cells<0,25 thì kết luận như sau:
Nếu Asymp.Sig = P>0,05 (nên ta chấp nhận Ho) nghĩa là không có sự khác biệt (P<0,05 Có sự khác biệt) giữa tỷ lệ nghiên cứu (P1=…) và tỷ lệ lý thuyết
(P2=…) với độ tin cậy là 95% … 99%
(dựa vào cách chọn: Asymtotic only: có giá trị 95%
Monte Carlo (mặc định) 99% (và có thể điều chỉnh 96% 98%)
Lưu ý: Khi Cells>0,25 thì dù có Asymp.Sig = P>0,05 thì cũng không kết luận
được mà phải dùng test khác để kiểm định
2 Kiểm định 2 tỷ lệ
Mở file dữ liệu-Analyse/Descriptive Statistics/Crosstabs/
Chọn biến Phụ thuộc (hậu quả) (ví dụ xem tivi) cần Phân tích để đưa vào ô Row/
Chọn biến Độc lập (Nguyên nhân) (ví dụ: Giới: nam, nữ) cần Phân tích để đưa
vào ô Column/ Chọn Cells: chọn Observed, chọn Row/Column/Total/
Chọn Statistics: chọn Chi-Quare/Chọn Exact/OK (Asymtotic only: có giá trị
95%)
Kết luận:
Để kết luận mối liên hệ giữa 2 biến độc lập hay phụ thuộc vào nhau ta
dựa vào chỉ số Asymptotic Significance với số mẫu đủ lớn hoặc phân
phối là phân phối chuẩn Asym-Sig (p-value)= P=…> 0,05 (nên ta chấp
Trang 12nhận Ho) nghĩa là không có sự khác biệt (P<0,05 Có sự khác biệt) giữa 2 tỷ
lệ (nam) và tỷ lệ….(nữ) trong… (xem tivi) với độ tin cậy:… (95%)
* Để xác định mối quan hệ giữa 2 biến trong bảng chéo ta sử dụng các
chỉ số sau:
1 Pearson Chi-Quare và Likelihood Ratio ta có thể kiểm định liên hệ giữa 2 biến mà không cần quan tâm đến số lượng hàng và cột trong bảng.
2 Linear-by- linear association khi mà các biến trong bảng là biến định lượng.
3 Yate’s corrected hay còn gọi là Continuity Correction để đánh giá mối tương quan giữa hai biến trong bảng 2x2;
4 Fisher’s Exact Test: dùng cho mẫu nghiên cứu nhỏ (<20) và các giá trị mong đợi nhỏ
(tần suất xuất hiện mong muốn trong một phần giao nhau giữa 2 biến trong bảng
(cell)<5)
* Để đo lường cường độ của các mối quan hệ giữa các biến ta dùng công cụ thống kê Correlate
Mở file dữ liệu-Analyse/ Correlate/Bivariate/
Chọn 2 biến cần xét tương quan đưa vào ô Variable
Trong Option chọn Mean and Std deviation và Exclude cases pairwise/OK Đọc kết quả cường độ của các mối quan hệ (R=) là nơi giao nhau giữa 2 biến trong bảng
Chú thích: trong bảng Chi-Quare Tests:
128 (b): b: Cell= tổng hàng x tổng cột/giá trị Cells: <5 giá trị kỳ vọng (<5)
- Exact Sig (1-sided) chỉ có một chiều: không có sự khác biệt(không có so sánh khác nhau); Exact Sig (2-sided): có so sánh có sự khác biệt hay không
- Continuity Correction (a): test này chỉ dùng cho bảng 2x2
- Likelihood Ratio: test này dùng để kiểm định tỷ lệ có độ nhạy, độ đặc hiệu (XN)
- Fisher’s Exact Test: test này dùng cho mẫu nhỏ có kỳ vọng Cells >0,25
- Trong nghiên cứu không để missing
- Trình bày mối quan hệ phơi nhiễm-bệnh theo bảng 2 x n với qui ước yếu tố phơi
nhiễm trình bày theo hàng và yếu tố bệnh trình bày theo cột Để kết quả kiểm định đáng tin cậy thì các số liệu trong bảng chéo giữa 2 biến đang khảo sát phải thỏa mãn điều kiện sau:
+ Không tồn tại bất kỳ ô giao nhau giữa 2 biến có giá trị mong đợi <1
+ Không vượt quá 20% lượng ô giao nhau giữa 2 biến có giá trị<5
3. Kiểm định >2 tỷ lệ (các bước tiến hành giống như kiểm định 2 tỷ lệ)
Mở file dữ liệu-Analyse/Descriptive Statistics/Crosstabs/
Chọn biến Phụ thuộc (hậu quả) (ví dụ xem tivi) cần Phân tích để đưa vào ô Row/
Chọn biến Độc lập (Nguyên nhân) (ví dụ: Giới: nam, nữ) cần Phân tích để đưa
vào ô Column/
Chọn Cells: chọn Observed, chọn Row/Column/Total/
Chọn Statistics: chọn Chi-Quare/Chọn Exact/OK (Asymtotic only: có giá trị
95%)