Tất cả các giá trị có mã khai báo ở ô này sẽ không tham gia vào quá trình xử lý dữ liệu của máy.Nếu chọn mặc định None thì khi có giá trị bị khuyết nhập liệu cho biến khác ở đơn vị tổng
Trang 1
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
NGUYỄN VĂN CANG
THÁNG 8 /2019THÁNG 8 /2019
1
Trang 21 Nhập liệu dữ liệu chéo
1.1 Chuẩn bị dữ liệu chéo
Dữ liệu chéo là dữ liệu thu thập theo từng đơn vị tổng thể, tại một thời gian
nhất định Trên từng đơn vị tổng thể, dữ liệu được thu thập theo một số biến đượcchọn lựa phục vụ cho việc nghiên cứu hiện tượng Dạng tổng quát của dữ liệu chéonhư sau:
Ví dụ: Có dữ liệu mẫu về 18 đơn thư khiếu nại của khách hàng được chọn ngẫunhiên
Nơimua
Gía trịsảnphẩm(tr.đ)
Ngàymua
Số ngàybảohànhcòn lại
Loại
sự cố
Yêucầucủakháchhàng1
ABABBDFACCAACBABBC
2,51,812,54,52,86,410,23,56,85,54,78,29,17,45,84,49,72,6
20/10/0604/06/0510/02/0724/08/0512/04/0516/05/0722/08/0605/02/0518/06/0604/8/0602/04/0708/06/0715/03/0724/02/0727/05/0715/01/0722/04/0725/12/06
7224371358644581692112485792102346839
KêuBểRỉNứtCháyCháyKêuNứtNứtRỉBểKêuRỉBểCháyNứtBểKêu
B.TĐổiĐổiB.TB.TB.TSửaĐổiB.TĐổiSửaĐổiSửaB.TSửaB.TB.TSửa
Kí hiệu: B.T: Bồi thường
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS2
Trang 31.2 Khai báo nhập liệu
Kích hoạt biểu tượng SPSS trên Desktop hay Start Program SPSS Tađược màn hình gốc như sau:
- Nếu đã có sẵn tệp dữ liệu, vào File để mở tệp dữ liệu đang có nhu cầu
- Nếu chưa có sẵn tệp dữ liệu: Ta phải khai báo khuôn mẫu của dữ liệu trướckhi nhập
liệu như ở trang sau
+ Khai báo ần lượt từng biến, mỗi biến một dòng (trên máy gọi là một l
variable) Trong đó:
* Name: Đánh vào tên rút gọn của biến (tối đa 8 ký tự không có ký tự đặc biệt).Tên này sẽ được hiển thị ở đầu vào và sử dụng trong quá trình xử lý trên máy chotiện
* Type: Chọn kiểu dữ liệu cho biến như số, chuổi, ngày…
* Width: Xác định độ rộng (ký tự) cho dữ liệu
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Bấm chọn
Data View để
chuyển qua màn hình nhập
3
Trang 4Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Nhập giá trị
mã hóa
Missing
4
Trang 5* Decimals: Số chữ số thập phân của kiểu dữ liệu số.
* Label: Khai báo tên gốc của biến Tên này dài hơn Name ở trên cho dể nhậndiện ở dữ liệu đầu ra
* Values: Nếu nhập đầy đủ giá trị gốc thì chọn None Với các biến định tính(thuộc tính), để nhập liệu nhanh chóng, người ta thường mã hóa các giá trị của biếnbằng các số nguyên Ví dụ, biến ‘Yêu cầu của khách hàng’ được mã hóa như sau:
Giá trị gốc(Value Label)
Giá trị mã hóa(Value)
- Bồi thường
- Đổi
- Sửa
123
Ta khai báo từng Value và Value Label tương ứng rồi chọn add đưa vào ô
chứa Chọn OK để kết thúc khai báo
* Missing: Khai báo giá trị mã hóa đặc biệt cho những giá trị bị khuyết (không
có số liệu) nếu có của biến Nên chọn những giá trị không có thực nhưng đúng kiểu
dữ liệu đã khai báo cho biến đó Chẳng hạn, với biến ‘Tuổi’, -1 nghĩa là không thuthập được, -2 nghĩa là chờ bổ sung Tất cả các giá trị có mã khai báo ở ô này sẽ khôngtham gia vào quá trình xử lý dữ liệu của máy
Nếu chọn mặc định None thì khi có giá trị bị khuyết (nhập liệu cho biến khác ởđơn vị tổng thể nào đó mà không nhập cho biến có mặc định none) máy sẽ gán dấuphẩy hệ thống Đây là mã system missing và nó cũng không tham gia vào quá trình
xử lý dữ liệu của máy
* Column: Khai báo độ rộng cho cột nhập dữ liệu
* Align: Chọn định vị trái, giữa hay phải cho cột dữ liệu
* Measure: Chọn loại thang đo dữ liệu của biến: danh định (Nominal), thứ bậc(Ordinal) và khoảng cách hay tỉ lệ (Scale)
+ Sau khi khai báo xong tất cả các biến, nếu chưa muốn nhập liệu ngay, ta vàoFile Save as để lưu Nếu muốn nhập liệu ngay, bấm c ọn h Data View ở đáy màn
hình để chuyển qua màn hình nhập liệu:
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS5
Trang 6Trên màn hình này, ta nhập dữ liệu của một đơn vị tổng thể trên một dòng mànhình Nhập dần dần cho đến đơn vị tổng thể cuối cùng Vào File Save as để lưu dữliệu.
1.3 Nhập liệu và mã hóa dữ liệu cho các dạng câu hỏi trên bảng hỏi
1.3.1 Với câu hỏi mở, định lượng
Câu 1 Bạn cho biết thu nhập một tháng là bao nhiêu ?
Dữ liệu câu hỏi này được nhập theo một biến và không cần mã hóa.
1.3.2 Với câu hỏi đóng, danh định, được chọn một đáp án
Câu 2 Anh (chị) thuộc tôn giáo nào sau đây?
□ Công giáo
□ Phật giáo
□ Tôn giáo khác
□ Không tôn giáo
Tên biến Kiểu biến Nhãn biến Mã hóa dữ liệu
C2 String Tôn giáo
1 = Công giáo
2 = Phật giáo
3 = Tôn giáo khác
4 = Không tôn giáo
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
nút này để nhập các giá trị mã hóa
Bấm chọn ô này để chuyển qua màn hình
6
Trang 71.3.3 Với câu hỏi đóng, danh định, được chọn nhiều đáp án
Câu 3 Anh (chị) đã từng làm những công việc nào sau đây?
Tên biến Kiểu biến Nhãn biến Mã hóa dữ liệu
C3.1 Numeric Giáo viên 1 = Giáo viên0 = Chưa làm gv
C3.2 Numeric Công nhân 1 = Công nhân
0 = Chưa làm cnC3.3 Numeric Buôn bán 1 = Buôn bán0 = Chưa làm bb
Chú ý kiểu biến ở Câu 3 đúng ra là kiểu string Tuy nhiên ở đây chọn kiểunumeric với mục đích dễ tổng hợp ba biến C3.1, C3.2 và C3.3
1.3.4 Với câu hỏi đóng, định lượng, được chọn một đáp án
Câu 4 Bạn cho biết chi tiêu một tháng là bao nhiêu ?
1.3.5 Với câu hỏi mở, danh định
Câu 5 Anh (chị) cho biết nghề nghiệp hiện tại?
Dữ liệu câu hỏi này được nhập theo một biến và có thể được mã hóa nhưsau: Cần xem xét tất cả các biểu hiện trả lời trên khoảng 30% số phiếu để quyết địnhphân chia chúng vào bao nhiêu nhóm là thích hợp Trường hợp này cần ứng dụng lýthuyết phân tổ (xem chương 2, bài tập 1 và 2) để quyết định phân chia chúng làm baonhiêu tổ là vừa Sau đó, mã hóa theo từng tổ:
Tên biến Kiểu biến Nhãn biến Mã hóa dữ liệu
Trang 8Trong quá trình nhập liệu nếu xuất hiện thêm nhiều biểu hiện “Nghề khác”nữa, nếu cần, có thể tách tổ 5 thêm một số tổ mới và mã hóa thêm.
1.3.6 Với câu hỏi hỗn hợp
Ví dụ: Câu 6 Anh (chị) thuộc tôn giáo nào sau đây?
□ Không tôn giáo
□ Công giáo
□ Phật giáo
□ Tôn giáo khác (xin ghi rõ:……….)
Dữ liệu câu hỏi này được nhập theo một biến và được mã hóa tương tự nhưcâu 2 Riêng đáp án “Tôn giáo khác” được mã hóa như “Nghề khác” trong câu 5.1.3.7 Với câu hỏi đóng trên thang đo Likert
Dữ liệu câu hỏi này có thể được nhập theo một biến tương tự câu 1.
Bấm chọn: Analyze Tables Multiple Response Sets
Trong cửa sổ sau, kê khai như hình vẽ:
1.5 Các xử lý nhập liệu đặc biệt khác
a- Chèn một biến (variable) mới: bấm chọn Data Insert variable
b- Chèn một đơn vị tổng thể (case) mới: bấm chọn Data Insert case
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chuyển các biến cần gộp nhóm vào ô
Chọn kiểu biến 0 , 1 Chọn giá
trị đếm 1
Đặt tên biến nhóm Khai nhãn biến nhóm
Chọn Add
để kết thúc
kê khai một biến
Chọn OK
để kết thúc
kê khai các biến nhóm
8
Trang 9c- Tìm đến một đơn vị tổng thể trên tệp dữ liệu đang mở: bấm chọn Data go tocase.
d- Xem thông tin khai báo các biến: bấm chọn View Variables Nếu muốn quaylại xem dữ liệu: View Data
e- Xem chi tiết thông tin về các biến: bấm chọn Utilities Variables
2 Tạo biến mới từ các biến cũ đã có
2.1 Sử dụng Compute
Ví dụ, ta cần thiết lập thêm biến ‘lngtsp’ từ biến ‘gtsp’ đã có với lngtsp = ln(gtsp) Hoặc thiết lập biến mới ‘gantuoi’ từ biến đã có ‘tuoi’ với: gantuoi = 1 iftuoi > 35 và gantuoi = 0 if tuoi 35.≤
Bấm chọn Transform Compute
Ta có cửa sổ:
+ Trong ô Target variable: Khai báo tên rút gọn của biến mới (Name);
+ Trong ô Type&Lable: Khai báo kiểu dữ liệu (Type) và nhãn của biến (Lable) + Trong ô Numeric Expression: Khai báo biểu thức tính giá trị biến mới từ cácbiến cũ
+ Nếu cần lọc dữ liệu, chọn ô bên dưới để khai báo các điều kiện lọc IfChọn OK để có kết quả của biến mới
Chú ý: Các giá trị Missing của biến cũ sẽ được tự động gán giá trị khuyết hệ thống System Missing (dấu phẩy hệ thống) cho biến mới.
2.2 Sử dụng Recode
Bấm chọn Transform Recode Into different variables
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn tiêu thức cũ để
9
Trang 10Sau khi khai báo như hình trên, bấm chọn ô Old and New Values để khai báocác tổ.
Ví dụ, ta cần phân tổ biến ‘Loại sự cố’ thành 3 tổ: tổ 1 gồm Bể và Nứt, tổ 2gồm Cháy và Kêu, tổ 3 gồm Rỉ Ta khai báo như sau (tổ chỉ gồm một giá trị):
11223MissingHoặc, phân tổ biến ‘Tuổi’ thành 3 tổ: dưới 30, từ 30 đến 40, 40 trở lên Ta khaibáo như sau (tổ có một hoặc hai giới hạn):
Lowest through 30
30 through 40
40 through highest Missing
123Missing + Trong ô Old value, chọn lựa khai báo từng tổ theo biến cũ Trong ô New valuekhai báo ‘giá trị mã hóa của tổ’ tương ứng với tổ đã khai báo ở Old value, như hướngdẫn trong hình ở trang sau:
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Tên, nhãn
Chọn Change để khẳng định tên, nhãn Chọn tiêu
thức cần phân
ổ
1
Trang 11+ Chú ý:Việc khai báo phải được tiến hành dần từng tổ và phải được xác nhậnbằng nút Add, một lần cho một tổ;
+ Để sửa một khai báo trong ô Old New: Chọn dòng muốn sửa trong ô này rồichọn ô Change;
+ Để gở bỏ một khai báo trong ô Old New: Chọn dòng muốn gở bỏ trong ônày rồi chọn ô Remove;
+ Chọn ô để đặt biểu thức điều kiện lọc (nếu có);If
+ Chọn Continue để quay lại, chọn OK để kết thúc
Chú ý:
* Muốn hủy bỏ toàn bộ các khai báo để khai báo lại từ đầu thì bấm chọn ô Reset
* Các giá trị mã hóa của mỗi tổ là giá trị định danh nên không tính được các
số đo mô tả thống kê Do dó nên bấm chọn ô Output variables are strings để chuyển qua dữ liệu chuổi, tránh nhầm lẫn về sau.
* Các mã Missing trên biến cũ cũng được chuyển đổi từng giá trị một Nếu muốn chuyển tất cả một lần sang Missing hệ thống thì bấm chọn ô System-missing trong ô New Value
* Sau khi có được biến mới nên chọn Variable View ở đáy màn hình để khai báo Values Label cho các tổ của biến mới Ví dụ, với biến tuổi ở trên ta khai báo như trong hình sau:
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Tổ chỉ gồm
một giá trị
Mã của tổ tương ứ
Xác nhận
1
Trang 123 Thống kê mô tả
3.1 Sắp xếp các đơn vị tổng thể theo một biến nào đó
Bấm chọn Data Sort case
Chọn biến muốn sắp xếp đưa vào ô Sort by Chọn OK
3.2 Mô tả thống kê theo một biến định lượng
3.2.1 Mô tả một biến định lượng (chưa phân tổ) theo bảng tần số sắp xếp rút gọn, phân phối đồ (Histogram) và các số đo mô tả
Bấm chọn Analyze Descriptive Statistic Frequency
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn tiêu thức cần sắp
Bảng
phân phối
ầ ố
Chọn biểu đồ Histograms
Chọn tiêu thức cần mô
Các số
đo thống kê
1
Trang 13Khi bấm chọn ô Statistics ta có cửa sổ sau:
Khi bấm chọn ô Charts ta có cửa sổ sau:
Ta được bảng phân phối và đồ thị có dạng:
TUOI Frequency Percent ValidPercent CumulativePercent
Độ lệch chuẩn
đã hiệu chỉnh Phương sai đã hiệu chỉnh
1
Trang 183.6 Mô tả tương quan tuyến tính giữa hai biến số lượng
Dựa trên dữ liệu chéo, ta tiến hành hồi qui như sau:
Bấm chọn : Analyze Correlate Bivariate
Ta có kết quả dưới dạng
Correlations tuoi khach hang gia tri san pham tuoi cua khach hang Pearson Correlation 1 -.058
Hệ số tương quan Pearson giữa tuổi khách hàng và giá trị sản phẩm là -0,058
Hệ số tương quan Spearman giữa tuổi khách hàng và giá trị sản phẩm là -0,035.Tương quan tuyến tính nghịch nhưng không đáng kể
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Trang 194 Ước lượng Thống kê
4.1 Ước lượng Số trung bình của chọn ngẫu nhiên đơn thuần
Bấm chọn Analyze Descriptive Statistic Explore Ta được cửa sổ sau.Sau đó thực hiện các thao tác như trong hình sau
4.2 Ước lượng Tỉ lệ của chọn ngẫu nhiên đơn giản
.Analyze Descriptive Statistic Explore
Trước hết, ta tiến hành như mục 2 (hoặc mục 3 cũng rất thuận tiện) để thànhlập biến ‘GÁN’ từ biến đang nghiên cứu, với giá trị 1 cho các biểu hiện đang quantâm, giá trị 0 cho tất cả các giá trị còn lại Sau đó, tiến hành như mục 4.1, trên biến
‘GÁN’
5 Kiểm định giả thuyết
5.1 Kiểm định tham số
5.1.1 Kiểm định giả thuyết về số trung bình một tổng thể
- Với dữ liệu chéo đã có sẵn:
Analyze Compare Means One-Sample T-Test
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn tiêu thức cần ước lượng
1
Trang 20Sau đó, các thao tác kiểm định khác tiến hành bình thường như trên.
5.1.2 Kiểm định giả thuyết về sự bằng nhau giữa hai số trung bình của hai tổng thể, mẫu độc lập
- Trường hợp so sánh giữa hai nhóm của cùng một biến nào đó trên cùngmột dữ liệu chéo đã có Bấm chọn:
Analyze Compare Means Independent-Samples T-Test
Thao tác như trong hình trên Sau đó, bấm chọn OK
Chú ý: * Sig.(1-tailed) = Sig.(2-tailed) / 2
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn tiêu thức cần kiểm định Nhập µo
Trang 21- Trường hợp dữ liệu đã được sắp xếp rút gọn:
Mẫu của tổng thể thứ nhất Mẫu của tổng thể thứ hai
2325272831
5812104
2325272831
5812104
Ta nhập dữ liệu này theo ba biến Biến thứ nhất ‘Tuoi’ nhập các giá trị rút gọncủa Tuổi ở cả hai mẫu Biến thứ hai ‘ts’ nhập Tần số tương ứng ở cả hai mẫu Biếnthứ ba ‘Mau’ nhập giá trị 1 cho mẫu thứ nhất, giá trị 2 cho mẫu thứ hai Sau đó, chỉđịnh tần số cho dữ liệu này như ở mục 5.1.1
Các thao tác kiểm định khác tiến hành như trường hợp trên Chỉ lưu ý là biến
‘Mau’ được dùng để phân nhóm
5.1.3 Kiểm định giả thuyết về sự bằng nhau giữa hai số trung bình của hai tổng thể, mẫu cặp
Dữ liệu mẫu cặp có dạng:
12 n
2732 34
2234 28
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn tiêu thức cần kiểm định
Chọn tiêu thức làm căn
Trang 22Ta nhập hai biến ‘mau1’ và ‘mau2’ như dữ liệu chéo thông thường Tuy nhiêncần lưu ý hai biến này là cùng loại, trật tự dữ liệu phải được giữ nguyên Sau đó bấmchọn:
Analyze Compare Means Paired-Samples T-Test
Chọn cả hai biến cùng một lúc (bấm chọn biến thứ nhất, nhấn Shift rồi bấmchọn biến thứ hai) đưa vào ô Paired Variables Bấm chọn OK ta được kết quả
Chú ý: Sig.(1-tailed) = Sig.(2-tailed) / 2
5.1.4 Kiểm định giả thuyết về Tỉ lệ tổng thể
Bằng cách thiết lập biến ‘GAN’ với giá trị (1,0) như đã trình bày ở mục 2 (hoặcmục 3 cũng rất thuận tiện), ta tiến hành các thao tác kiểm định tương tự các kiểmđịnh Số trung bình Tuy nhiên cần lưu ý kích thước mẫu phải bằng hoặc lớn hơn 40
5.2 Kiểm định phi tham số
5.2.1 Kiểm định giả thuyết về sự giống nhau của hai tổng thể, mẫu cặp
Nhập liệu tương tự mục 5.1.3 Sau đó bấm chọn:
Analyze Nonparametric Tests 2 Ralated Samples
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn
cả hai biến
2
Trang 23Chọn cả hai biến cùng một lúc (bấm chọn biến thứ nhất, nhấn Shift rồi bấmchọn biến thứ hai) đưa vào ô Test Pair(s) List Bấm chọn loại phương pháp kiểmđịnh Cuối cùng bấm chọn OK ta được kết quả.
Analyze Nonparametric Tests 2 Independent Samples
Thao tác như trong hình trên Cuối cùng bấm chọn OK
Trường hợp dữ liệu đã được sắp xếp rút gọn Các thao tác nhập liệu tương tựmục 5.1.2 Tuy nhiên, cần lưu ý, biến dùng để phân nhóm phải có kiểu dữ liệuNumeric Các thao tác kiểm định khác tiến hành như trên
5.2.3 Kiểm định giả thuyết về sự giống nhau của nhiều tổng thể, mẫu độc lập Kiểm định hạng Kruskal-Wallis
Trường hợp so sánh giữa ba nhóm trở lên của cùng một biến nào đó trêncùng một dữ liệu chéo đã có Bấm chọn:
Analyze Nonparametric Tests K Independent Samples
Nguyễn Văn Cang Xử lý dữ liệu trên SPSS
Chọn biến cần kiểm định