nhập liệu dữ liệu chéo

Tất cả các giá trị có mã khai báo ở ô này sẽ không tham gia vào quá trình xử lý dữ liệu của máy.Nếu chọn mặc định None thì khi có giá trị bị khuyết nhập liệu cho biến khác ở đơn vị tổng

Trang 1

Nguyễn Văn Cang Xử lý dữ liệu trên SPSS

NGUYỄN VĂN CANG

THÁNG 8 /2019THÁNG 8 /2019

1

Trang 2

1 Nhập liệu dữ liệu chéo

1.1 Chuẩn bị dữ liệu chéo

Dữ liệu chéo là dữ liệu thu thập theo từng đơn vị tổng thể, tại một thời gian

nhất định Trên từng đơn vị tổng thể, dữ liệu được thu thập theo một số biến đượcchọn lựa phục vụ cho việc nghiên cứu hiện tượng Dạng tổng quát của dữ liệu chéonhư sau:

Ví dụ: Có dữ liệu mẫu về 18 đơn thư khiếu nại của khách hàng được chọn ngẫunhiên

Nơimua

Gía trịsảnphẩm(tr.đ)

Ngàymua

Số ngàybảohànhcòn lại

Loại

sự cố

Yêucầucủakháchhàng1

ABABBDFACCAACBABBC

2,51,812,54,52,86,410,23,56,85,54,78,29,17,45,84,49,72,6

20/10/0604/06/0510/02/0724/08/0512/04/0516/05/0722/08/0605/02/0518/06/0604/8/0602/04/0708/06/0715/03/0724/02/0727/05/0715/01/0722/04/0725/12/06

7224371358644581692112485792102346839

KêuBểRỉNứtCháyCháyKêuNứtNứtRỉBểKêuRỉBểCháyNứtBểKêu

B.TĐổiĐổiB.TB.TB.TSửaĐổiB.TĐổiSửaĐổiSửaB.TSửaB.TB.TSửa

Kí hiệu: B.T: Bồi thường

Nguyễn Văn Cang Xử lý dữ liệu trên SPSS2

Trang 3

1.2 Khai báo nhập liệu

Kích hoạt biểu tượng SPSS trên Desktop hay Start Program SPSS Tađược màn hình gốc như sau:

- Nếu đã có sẵn tệp dữ liệu, vào File để mở tệp dữ liệu đang có nhu cầu

- Nếu chưa có sẵn tệp dữ liệu: Ta phải khai báo khuôn mẫu của dữ liệu trướckhi nhập

liệu như ở trang sau

+ Khai báo ần lượt từng biến, mỗi biến một dòng (trên máy gọi là một l

variable) Trong đó:

* Name: Đánh vào tên rút gọn của biến (tối đa 8 ký tự không có ký tự đặc biệt).Tên này sẽ được hiển thị ở đầu vào và sử dụng trong quá trình xử lý trên máy chotiện

* Type: Chọn kiểu dữ liệu cho biến như số, chuổi, ngày…

* Width: Xác định độ rộng (ký tự) cho dữ liệu

Bấm chọn

Data View để

chuyển qua màn hình nhập

3

Trang 4

Nhập giá trị

mã hóa

Missing

4

Trang 5

* Decimals: Số chữ số thập phân của kiểu dữ liệu số.

* Label: Khai báo tên gốc của biến Tên này dài hơn Name ở trên cho dể nhậndiện ở dữ liệu đầu ra

* Values: Nếu nhập đầy đủ giá trị gốc thì chọn None Với các biến định tính(thuộc tính), để nhập liệu nhanh chóng, người ta thường mã hóa các giá trị của biếnbằng các số nguyên Ví dụ, biến ‘Yêu cầu của khách hàng’ được mã hóa như sau:

Giá trị gốc(Value Label)

Giá trị mã hóa(Value)

- Bồi thường

- Đổi

- Sửa

123

Ta khai báo từng Value và Value Label tương ứng rồi chọn add đưa vào ô

chứa Chọn OK để kết thúc khai báo

* Missing: Khai báo giá trị mã hóa đặc biệt cho những giá trị bị khuyết (không

có số liệu) nếu có của biến Nên chọn những giá trị không có thực nhưng đúng kiểu

dữ liệu đã khai báo cho biến đó Chẳng hạn, với biến ‘Tuổi’, -1 nghĩa là không thuthập được, -2 nghĩa là chờ bổ sung Tất cả các giá trị có mã khai báo ở ô này sẽ khôngtham gia vào quá trình xử lý dữ liệu của máy

Nếu chọn mặc định None thì khi có giá trị bị khuyết (nhập liệu cho biến khác ởđơn vị tổng thể nào đó mà không nhập cho biến có mặc định none) máy sẽ gán dấuphẩy hệ thống Đây là mã system missing và nó cũng không tham gia vào quá trình

xử lý dữ liệu của máy

* Column: Khai báo độ rộng cho cột nhập dữ liệu

* Align: Chọn định vị trái, giữa hay phải cho cột dữ liệu

* Measure: Chọn loại thang đo dữ liệu của biến: danh định (Nominal), thứ bậc(Ordinal) và khoảng cách hay tỉ lệ (Scale)

+ Sau khi khai báo xong tất cả các biến, nếu chưa muốn nhập liệu ngay, ta vàoFile Save as để lưu Nếu muốn nhập liệu ngay, bấm c ọn h Data View ở đáy màn

hình để chuyển qua màn hình nhập liệu:

Nguyễn Văn Cang Xử lý dữ liệu trên SPSS5

Trang 6

Trên màn hình này, ta nhập dữ liệu của một đơn vị tổng thể trên một dòng mànhình Nhập dần dần cho đến đơn vị tổng thể cuối cùng Vào File Save as để lưu dữliệu.

1.3 Nhập liệu và mã hóa dữ liệu cho các dạng câu hỏi trên bảng hỏi

1.3.1 Với câu hỏi mở, định lượng

Câu 1 Bạn cho biết thu nhập một tháng là bao nhiêu ?

Dữ liệu câu hỏi này được nhập theo một biến và không cần mã hóa.

1.3.2 Với câu hỏi đóng, danh định, được chọn một đáp án

Câu 2 Anh (chị) thuộc tôn giáo nào sau đây?

□ Công giáo

□ Phật giáo

□ Tôn giáo khác

□ Không tôn giáo

Tên biến Kiểu biến Nhãn biến Mã hóa dữ liệu

C2 String Tôn giáo

1 = Công giáo

2 = Phật giáo

3 = Tôn giáo khác

4 = Không tôn giáo

nút này để nhập các giá trị mã hóa

Bấm chọn ô này để chuyển qua màn hình

6

Trang 7

1.3.3 Với câu hỏi đóng, danh định, được chọn nhiều đáp án

Câu 3 Anh (chị) đã từng làm những công việc nào sau đây?

C3.1 Numeric Giáo viên 1 = Giáo viên0 = Chưa làm gv

C3.2 Numeric Công nhân 1 = Công nhân

0 = Chưa làm cnC3.3 Numeric Buôn bán 1 = Buôn bán0 = Chưa làm bb

Chú ý kiểu biến ở Câu 3 đúng ra là kiểu string Tuy nhiên ở đây chọn kiểunumeric với mục đích dễ tổng hợp ba biến C3.1, C3.2 và C3.3

1.3.4 Với câu hỏi đóng, định lượng, được chọn một đáp án

Câu 4 Bạn cho biết chi tiêu một tháng là bao nhiêu ?

1.3.5 Với câu hỏi mở, danh định

Câu 5 Anh (chị) cho biết nghề nghiệp hiện tại?

Dữ liệu câu hỏi này được nhập theo một biến và có thể được mã hóa nhưsau: Cần xem xét tất cả các biểu hiện trả lời trên khoảng 30% số phiếu để quyết địnhphân chia chúng vào bao nhiêu nhóm là thích hợp Trường hợp này cần ứng dụng lýthuyết phân tổ (xem chương 2, bài tập 1 và 2) để quyết định phân chia chúng làm baonhiêu tổ là vừa Sau đó, mã hóa theo từng tổ:

Trang 8

Trong quá trình nhập liệu nếu xuất hiện thêm nhiều biểu hiện “Nghề khác”nữa, nếu cần, có thể tách tổ 5 thêm một số tổ mới và mã hóa thêm.

1.3.6 Với câu hỏi hỗn hợp

Ví dụ: Câu 6 Anh (chị) thuộc tôn giáo nào sau đây?

□ Không tôn giáo

□ Công giáo

□ Phật giáo

□ Tôn giáo khác (xin ghi rõ:……….)

Dữ liệu câu hỏi này được nhập theo một biến và được mã hóa tương tự nhưcâu 2 Riêng đáp án “Tôn giáo khác” được mã hóa như “Nghề khác” trong câu 5.1.3.7 Với câu hỏi đóng trên thang đo Likert

Dữ liệu câu hỏi này có thể được nhập theo một biến tương tự câu 1.

Bấm chọn: Analyze Tables Multiple Response Sets

Trong cửa sổ sau, kê khai như hình vẽ:

1.5 Các xử lý nhập liệu đặc biệt khác

a- Chèn một biến (variable) mới: bấm chọn Data Insert variable

b- Chèn một đơn vị tổng thể (case) mới: bấm chọn Data Insert case

Chuyển các biến cần gộp nhóm vào ô

Chọn kiểu biến 0 , 1 Chọn giá

trị đếm 1

Đặt tên biến nhóm Khai nhãn biến nhóm

Chọn Add

để kết thúc

kê khai một biến

Chọn OK

để kết thúc

kê khai các biến nhóm

8

Trang 9

c- Tìm đến một đơn vị tổng thể trên tệp dữ liệu đang mở: bấm chọn Data go tocase.

d- Xem thông tin khai báo các biến: bấm chọn View Variables Nếu muốn quaylại xem dữ liệu: View Data

e- Xem chi tiết thông tin về các biến: bấm chọn Utilities Variables

2 Tạo biến mới từ các biến cũ đã có

2.1 Sử dụng Compute

Ví dụ, ta cần thiết lập thêm biến ‘lngtsp’ từ biến ‘gtsp’ đã có với lngtsp = ln(gtsp) Hoặc thiết lập biến mới ‘gantuoi’ từ biến đã có ‘tuoi’ với: gantuoi = 1 iftuoi > 35 và gantuoi = 0 if tuoi 35.≤

Bấm chọn Transform Compute

Ta có cửa sổ:

+ Trong ô Target variable: Khai báo tên rút gọn của biến mới (Name);

+ Trong ô Type&Lable: Khai báo kiểu dữ liệu (Type) và nhãn của biến (Lable) + Trong ô Numeric Expression: Khai báo biểu thức tính giá trị biến mới từ cácbiến cũ

+ Nếu cần lọc dữ liệu, chọn ô bên dưới để khai báo các điều kiện lọc IfChọn OK để có kết quả của biến mới

Chú ý: Các giá trị Missing của biến cũ sẽ được tự động gán giá trị khuyết hệ thống System Missing (dấu phẩy hệ thống) cho biến mới.

2.2 Sử dụng Recode

Bấm chọn Transform Recode Into different variables

Chọn tiêu thức cũ để

9

Trang 10

Sau khi khai báo như hình trên, bấm chọn ô Old and New Values để khai báocác tổ.

Ví dụ, ta cần phân tổ biến ‘Loại sự cố’ thành 3 tổ: tổ 1 gồm Bể và Nứt, tổ 2gồm Cháy và Kêu, tổ 3 gồm Rỉ Ta khai báo như sau (tổ chỉ gồm một giá trị):

11223MissingHoặc, phân tổ biến ‘Tuổi’ thành 3 tổ: dưới 30, từ 30 đến 40, 40 trở lên Ta khaibáo như sau (tổ có một hoặc hai giới hạn):

Lowest through 30

30 through 40

40 through highest Missing

123Missing + Trong ô Old value, chọn lựa khai báo từng tổ theo biến cũ Trong ô New valuekhai báo ‘giá trị mã hóa của tổ’ tương ứng với tổ đã khai báo ở Old value, như hướngdẫn trong hình ở trang sau:

Tên, nhãn

Chọn Change để khẳng định tên, nhãn Chọn tiêu

thức cần phân

ổ

1

Trang 11

+ Chú ý:Việc khai báo phải được tiến hành dần từng tổ và phải được xác nhậnbằng nút Add, một lần cho một tổ;

+ Để sửa một khai báo trong ô Old New: Chọn dòng muốn sửa trong ô này rồichọn ô Change;

+ Để gở bỏ một khai báo trong ô Old New: Chọn dòng muốn gở bỏ trong ônày rồi chọn ô Remove;

+ Chọn ô để đặt biểu thức điều kiện lọc (nếu có);If

+ Chọn Continue để quay lại, chọn OK để kết thúc

Chú ý:

* Muốn hủy bỏ toàn bộ các khai báo để khai báo lại từ đầu thì bấm chọn ô Reset

* Các giá trị mã hóa của mỗi tổ là giá trị định danh nên không tính được các

số đo mô tả thống kê Do dó nên bấm chọn ô Output variables are strings để chuyển qua dữ liệu chuổi, tránh nhầm lẫn về sau.

* Các mã Missing trên biến cũ cũng được chuyển đổi từng giá trị một Nếu muốn chuyển tất cả một lần sang Missing hệ thống thì bấm chọn ô System-missing trong ô New Value

* Sau khi có được biến mới nên chọn Variable View ở đáy màn hình để khai báo Values Label cho các tổ của biến mới Ví dụ, với biến tuổi ở trên ta khai báo như trong hình sau:

Tổ chỉ gồm

một giá trị

Mã của tổ tương ứ

Xác nhận

1

Trang 12

3 Thống kê mô tả

3.1 Sắp xếp các đơn vị tổng thể theo một biến nào đó

Bấm chọn Data Sort case

Chọn biến muốn sắp xếp đưa vào ô Sort by Chọn OK

3.2 Mô tả thống kê theo một biến định lượng

3.2.1 Mô tả một biến định lượng (chưa phân tổ) theo bảng tần số sắp xếp rút gọn, phân phối đồ (Histogram) và các số đo mô tả

Bấm chọn Analyze Descriptive Statistic Frequency

Chọn tiêu thức cần sắp

Bảng

phân phối

ầ ố

Chọn biểu đồ Histograms

Chọn tiêu thức cần mô

Các số

đo thống kê

1

Trang 13

Khi bấm chọn ô Statistics ta có cửa sổ sau:

Khi bấm chọn ô Charts ta có cửa sổ sau:

Ta được bảng phân phối và đồ thị có dạng:

TUOI Frequency Percent ValidPercent CumulativePercent

Độ lệch chuẩn

đã hiệu chỉnh Phương sai đã hiệu chỉnh

1

Trang 18

3.6 Mô tả tương quan tuyến tính giữa hai biến số lượng

Dựa trên dữ liệu chéo, ta tiến hành hồi qui như sau:

Bấm chọn : Analyze Correlate Bivariate

Ta có kết quả dưới dạng

Correlations tuoi khach hang gia tri san pham tuoi cua khach hang Pearson Correlation 1 -.058

Hệ số tương quan Pearson giữa tuổi khách hàng và giá trị sản phẩm là -0,058

Hệ số tương quan Spearman giữa tuổi khách hàng và giá trị sản phẩm là -0,035.Tương quan tuyến tính nghịch nhưng không đáng kể

Trang 19

4 Ước lượng Thống kê

4.1 Ước lượng Số trung bình của chọn ngẫu nhiên đơn thuần

Bấm chọn Analyze Descriptive Statistic Explore Ta được cửa sổ sau.Sau đó thực hiện các thao tác như trong hình sau

4.2 Ước lượng Tỉ lệ của chọn ngẫu nhiên đơn giản

.Analyze Descriptive Statistic Explore

Trước hết, ta tiến hành như mục 2 (hoặc mục 3 cũng rất thuận tiện) để thànhlập biến ‘GÁN’ từ biến đang nghiên cứu, với giá trị 1 cho các biểu hiện đang quantâm, giá trị 0 cho tất cả các giá trị còn lại Sau đó, tiến hành như mục 4.1, trên biến

‘GÁN’

5 Kiểm định giả thuyết

5.1 Kiểm định tham số

5.1.1 Kiểm định giả thuyết về số trung bình một tổng thể

- Với dữ liệu chéo đã có sẵn:

Analyze Compare Means One-Sample T-Test

Chọn tiêu thức cần ước lượng

1

Trang 20

Sau đó, các thao tác kiểm định khác tiến hành bình thường như trên.

5.1.2 Kiểm định giả thuyết về sự bằng nhau giữa hai số trung bình của hai tổng thể, mẫu độc lập

- Trường hợp so sánh giữa hai nhóm của cùng một biến nào đó trên cùngmột dữ liệu chéo đã có Bấm chọn:

Analyze Compare Means Independent-Samples T-Test

Thao tác như trong hình trên Sau đó, bấm chọn OK

Chú ý: * Sig.(1-tailed) = Sig.(2-tailed) / 2

Chọn tiêu thức cần kiểm định Nhập µo

Trang 21

- Trường hợp dữ liệu đã được sắp xếp rút gọn:

Mẫu của tổng thể thứ nhất Mẫu của tổng thể thứ hai

2325272831

5812104

2325272831

5812104

Ta nhập dữ liệu này theo ba biến Biến thứ nhất ‘Tuoi’ nhập các giá trị rút gọncủa Tuổi ở cả hai mẫu Biến thứ hai ‘ts’ nhập Tần số tương ứng ở cả hai mẫu Biếnthứ ba ‘Mau’ nhập giá trị 1 cho mẫu thứ nhất, giá trị 2 cho mẫu thứ hai Sau đó, chỉđịnh tần số cho dữ liệu này như ở mục 5.1.1

Các thao tác kiểm định khác tiến hành như trường hợp trên Chỉ lưu ý là biến

‘Mau’ được dùng để phân nhóm

5.1.3 Kiểm định giả thuyết về sự bằng nhau giữa hai số trung bình của hai tổng thể, mẫu cặp

Dữ liệu mẫu cặp có dạng:

12 n

2732 34

2234 28

Chọn tiêu thức cần kiểm định

Chọn tiêu thức làm căn

Trang 22

Ta nhập hai biến ‘mau1’ và ‘mau2’ như dữ liệu chéo thông thường Tuy nhiêncần lưu ý hai biến này là cùng loại, trật tự dữ liệu phải được giữ nguyên Sau đó bấmchọn:

Analyze Compare Means Paired-Samples T-Test

Chọn cả hai biến cùng một lúc (bấm chọn biến thứ nhất, nhấn Shift rồi bấmchọn biến thứ hai) đưa vào ô Paired Variables Bấm chọn OK ta được kết quả

Chú ý: Sig.(1-tailed) = Sig.(2-tailed) / 2

5.1.4 Kiểm định giả thuyết về Tỉ lệ tổng thể

Bằng cách thiết lập biến ‘GAN’ với giá trị (1,0) như đã trình bày ở mục 2 (hoặcmục 3 cũng rất thuận tiện), ta tiến hành các thao tác kiểm định tương tự các kiểmđịnh Số trung bình Tuy nhiên cần lưu ý kích thước mẫu phải bằng hoặc lớn hơn 40

5.2 Kiểm định phi tham số

5.2.1 Kiểm định giả thuyết về sự giống nhau của hai tổng thể, mẫu cặp

Nhập liệu tương tự mục 5.1.3 Sau đó bấm chọn:

Analyze Nonparametric Tests 2 Ralated Samples

Chọn

cả hai biến

2

Trang 23

Chọn cả hai biến cùng một lúc (bấm chọn biến thứ nhất, nhấn Shift rồi bấmchọn biến thứ hai) đưa vào ô Test Pair(s) List Bấm chọn loại phương pháp kiểmđịnh Cuối cùng bấm chọn OK ta được kết quả.

Analyze Nonparametric Tests 2 Independent Samples

Thao tác như trong hình trên Cuối cùng bấm chọn OK

Trường hợp dữ liệu đã được sắp xếp rút gọn Các thao tác nhập liệu tương tựmục 5.1.2 Tuy nhiên, cần lưu ý, biến dùng để phân nhóm phải có kiểu dữ liệuNumeric Các thao tác kiểm định khác tiến hành như trên

5.2.3 Kiểm định giả thuyết về sự giống nhau của nhiều tổng thể, mẫu độc lập Kiểm định hạng Kruskal-Wallis

Trường hợp so sánh giữa ba nhóm trở lên của cùng một biến nào đó trêncùng một dữ liệu chéo đã có Bấm chọn:

Analyze Nonparametric Tests K Independent Samples

Chọn biến cần kiểm định

Tiêu đề	Nhập Liệu Dữ Liệu Chéo
Tác giả	Nguyễn Văn Cang
Trường học	Trường Đại Học
Chuyên ngành	Xử Lý Dữ Liệu
Thể loại	bài viết
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	43
Dung lượng	5,02 MB