1. Trang chủ
  2. » Công Nghệ Thông Tin

Thống kê SPSS trong xử lý dự liệu

117 217 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 117
Dung lượng 4,92 MB

Nội dung

File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,… View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,… Data:

Trang 1

PHÂN TÍCH DỮ LIỆU

THỐNG KÊ ỨNG DỤNG SPSS

Trang 2

BÀI 1

GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ

IIIQUẢN LÝ DỮ LIỆU TRONG SPSS

1 Thống kê học:

Thống kê học là khoa học nghiên cứu hệ thống

phương pháp (thu thập, xử lý, phân tích) con số (mặt

lượng) của các hiện tượng số lớn tìm bản chất và tính

quy luật (mặt chất) trong những điều kiện nhất định.

Trang 3

1 Thống kê học:

Thống kê là việc thu thập, trình bày, phân tích và

diễn giải các dữ liệu dưới dạng số (Croxton và ctg)

Thống kê Thống

Phương pháp thống kê

Trang 4

1 Tổng thể thống kê và đơn vị tổng thể

Tổng thể thống kê là hiện tượng số lớn gồm các đơn

vị (phần tử) cần quan sát và phân tích mặt lượng.

Các đơn vị (phần tử) - đơn vị tổng thể.

2 Tiêu thức thống kê

Tiêu thức thống kê - đặc điểm của đơn vị tổng thể

được chọn để nghiên cứu

Trang 5

3 Chỉ tiêu thống kê

Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất

của các hiện tượng trong điều kiện thời gian và địa

điểm cụ thể

THANG ĐO THỨ BẬC(Ordinal Scale)

THANG ĐO ĐỊNH DANH

(Nominal Scale)

Có khoảng cáchbằng nhau

Biểu hiệu có thứ tự hơn kém

CÁC THANG ĐO TRONG THỐNG KÊ

Đánh số các biểu hiện

cùng loại của tiêu thức

Tiêu thức

thuộc tính

Trang 6

II Giới thiệu chung về SPSS

SPSS ( S tatistical P ackage for S ocial S ciences)

Là phần mềm chuyên dụng xử lý thông tin sơ

cấp (thông tin được thu thập trực tiếp từ đối

tượng nghiên cứu thông qua bảng hỏi được

Trang 7

(data view)

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao

Màn hình quản lý biến (variables view)

Trang 8

Màn hình hiện thị kết quả

(output)

Các kết quả có thể copy hoặc copy object hoặc export sang các

phần mềm khác như word hay Excel, Màn hình này cho phép ta

xem và lưu giữ các kết quả phân tích (*.SPO)

15

Màn hình cú pháp (syntax)

Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh

phân tích (các câu lệnh) Các cú pháp được lưu trữ với phần

Trang 9

File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…

Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…

View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…

Data: các vấn đề liên quan đến dữ liệu,…

Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…

Analyze: các phân tích thống kê,…

Graphs: biểu đồ và đồ thị,…

Utilities: thông tin về các biến và file,…

Window: sắp xếp và di chuyển các cửa sổ làm việc

Help: trợ giúp

Các menu chính

17

III Quản lý dữ liệu trong SPSS

1 Tạo lập Cơ sở dữ liệu

2 Tạo biến trong cơ sở dữ liệu

3 Mã hóa lại dữ liệu

4 Lựa chọn các quan sát

5 Tách dữ liệu

Trang 10

1 Tạo lập cơ sở dữ liệu trong SPSS

Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là

một tập hợp thông tin có cấu trúc

Thành phần của CSDL

• Quan sát (Observation): chứa thông tin về 1

đối tượng điều tra/thời gian nghiên cứu

• Biến (variable): thể hiện các thuộc tính của

quan sát

19

Phân loại biến theo số lượng câu trả lời

Biến một trả lời (câu hỏi lựa chọn)

Biến nhiều trả lời (câu hỏi tuỳ chọn)

20

Trang 11

Biến nhiều trả lời

Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu

nào trong danh sách liệt kê dưới đây:

Nhãn hiệu code

Vinataba 1

Marlboro 2

Trang 12

Phân loại biến theo kiểu dữ liệu

Biến định tính

• Thang đo định danh (nominal scale)

• Thanh đo thứ bậc (ordinal scale)

Biến định lượng

• Thang đo khoảng (interval scale)

• Thang đo tỷ lệ (ratio scale)

23

Các loại/dạng dữ liệu trong SPSS

Dữ liệu chéo – cross data: Mỗi quan sát là một

đơn vị theo “không gian”

Dữ liệu chuỗi/thời gian – time serial data: Mỗi

quan sát là một đơn vị theo “thời gian”

24

Trang 13

Variable Name (tên biến)

Các qui tắc dưới đây được áp dụng cho tên biến:

• Tên phải bắt đầu bằng một chữ.

• Độ dài của tên biến không vượt quá 8 ký tự.

• Tên biến không được kết thúc bằng một dấu chấm.

• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không

được sử dụng

• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt

chữ trong tên biến Các tên NEWVAR, NewVar, và newvar được xem

là giống nhau.

• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để

tránh xung đột với các biến được tự động lập bởi một số thủ tục)

Khai báo biến trong SPSS

25

Variable Type (kiểu biến)

Khai báo biến trong SPSS

Trang 14

Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng

biến và hiện thị kết quả khi chạy dữ liệu

Ví dụ: biến “q1” là biến “giới tính”

Khai báo biến trong SPSS

27

Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý

nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu

Ví dụ: 1 là nam

2 là nữ

Khai báo biến trong SPSS

28

Trang 15

Missing (giá trị khuyết) – dùng để loại những giá trị không

có ý nghĩa

Khai báo biến trong SPSS

Các giá trị khuyết sẽ không tham gia vào quá trình phân tích29

Measure (thang đo)

SPSS phân ra 3 loại thang đo

- Nominal (thang đo định danh)

- Ordinal (thang đo thứ bậc)

- Scale (thang đo khoảng và thang đo tỷ lệ)

Khai báo biến trong SPSS

Trang 16

Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có

giá trị với biến String)

Decimals (số lượng số hiện thị sau dấu phẩy)

Column format (Định kích cỡ cho cột- độ rộng của cột)

Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)

Khai báo biến trong SPSS

Trang 17

Nhập dữ liệu

Trang 18

TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC

• File > Open > Data…

• Trong mục File of type chọn định dạng file phù hợp hoặc

chọn All Files (*.*)

35

Mở một tệp tin {file} Excel

-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data

- Trong hộp thoại Open File, chọn file mà bạn muốn mở

- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại

file (Files of type) và sau đó chọn tên file (File name)

- Nhắp Open

Trang 19

2 Tạo biến trong cơ sở dữ liệu

Transform > Compute Variable…

Tạo ra một biến mới theo biểuthức mô tả (Numeric expression)Biểu thức có thể là một phép tính, một hàm,…

Nếu tính theo một điều kiện nào

đó thì nhấn vào if (đặt điều kiện

vào tính toán cho biểu thức)

Trang 20

2 Tạo biến trong cơ sở dữ liệu

ABS(numexpr) – Trả về giá trị tuyệt đối

EXP(numexpr) – Trả về luỹ thừa của cơ số e

SQRT(numexpr) – Lấy căn bậc 2 của biểu thức

MIN(value,value[, ]) – Lấy giá trị nhỏ nhất

MAX(value,value[, ]) – Lấy giá trị lớn nhất

SUM(numexpr, numexpr[, ]) – Tính tổng của các số

MEAN(numexpr, numexpr[, ]) – Tính trung bình cộng

MEDIAN(numexpr, numexpr[, ]) – Tính trung vị

VARIAN(numexpr, numexpr[, ]) – Tính phương sai

SD(numexpr, numexpr[, ]) – Tính độ lệch chuẩn

40

Trang 21

2 Tạo biến trong cơ sở dữ liệu

LOWER(strexpr) – Viết thường các ký tự

UPCASE(strexpr) – Viết hoa các ký tự

LTRIM(strexpr) – Cắt khoảng trắng phía trái

RTRIM(strexpr) – Cắt khoảng trắng phía phải

STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định

dạng [F##.##]

CONCAT(strexpr, strexpr[, ]) – Nối các chuỗi ký tự

CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào

bên phải strexpr1 với độ ký tự xác định

CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào

bên trái strexpr1 với độ ký tự xác định

CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định

theo độ dài xác định [hoặc đến hết]

41

3 Mã hoá lại dữ liệu

- Mã hoá lại dữ liệu thành một biến khác

• Chọn các biến muốn mã hoá, Nếuchọn nhiều biến, chúng phải có cùngdạng (chuỗi hoặc số)

• Click vào Old and New Values và

định rõ cách mã hoá lại trị số

• Sau đó nhấn Change

Transform > Recode into Different Variables…

Trang 22

3 Mã hoá lại dữ liệu

- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)

Transform > Recode into Same Variables…

(không khuyến nghị thực hiện theo cách này!)

Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo

ra thay cho biến cũ

43

3 Mã hoá dữ liệu tự động

• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang

dạng số vào trong một biến mới Biến mới này sẽ chứa các

con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ

đại diện cho các giá trị dạng chuổi giống nhau

• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.

Transform > Automatic Recode

44

Trang 23

4 Lựa chọn các quan sát

Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn

thực hiện trên một số quan sát sẽ tiến hành như sau:

Data > Select cases

- Các quan sát không lựa chọnđược giữ và có dấu gạch chéo

chọn Filtered -> máy sẽ tạo ra

một biến Filter_$ (lần sau nếuchọn tương tự thì sử dụng biến

này để đưa vào ô Use filter

variable)

- Các quan sát được chọn sẽđược lưu sang cơ sở dữ liệu mới

chọn Copy selected cases to a

new dataset và đặt tên trong ô Dataset name

- Các quan sát không lựa chọn

bị xoá, chọnDeleted unselected cases

45

5 Tách dữ liệu

Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo

từng nhóm nào đó sử dụng công cụ tách dữ liệu

Data > Split File

Đưa biến phân loại đưa sang ô

Groups Based on:

Chọn Compare groups nếu muốn

so sánh giữa các nhóm

Chọn Organize output by groups

nếu muốn tách theo từng nhómriêng biệt

Trang 24

Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:

Data/ Aggregate Data

- Chuyển biến được chọn làm cơ sở để tập hợp

dữ liệu sang cửa sổ Break Variable(s)

- Chuyển biến muốn tập hợp sang cửa sổ

Để biến mới tập hợptrong file dữ liệu hiện tại

7 Lựa chọn quyền số cho các quan sát

Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện

cho một số lượng các quan sát, sử dụng quyền số.

Data > Weight cases

Chọn Weight case by và đưa

biến làm quyền số vào ô

Frequency variable

48

Trang 25

MÔ TẢ DỮ LIỆU QUA ĐỒ THỊ THỐNG KÊ

Trang 26

2 Các phân vị

- Phân vị thứ p là giá trị mà có p% số quan sát có giá trị

nhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có

(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giá

trị phân vị mức p.

- Tứ phân vị

- Thập phân vị

51

3 Các tham số đo độ phân tán

- Khoảng biến thiên: R = Xmax - Xmin

- Phương sai:

- Độ lệch tiêu chuẩn:

- Sai số chuẩn trung bình:

1 1

2 1

2 1

2 2

) x x ( S

n i i n

i i

Trang 27

4 Các tham số phản ánh phân phối

- Hệ số bất đối xứng:

) 2 )(

1 (

x x n Skewness

n

i i

Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại

càng đối xứng qua giá trị μ Khi hệ số này nhỏ hơn 0, dãy số

phân phối chuẩn lệch trái Khi hệ số này lớn hơn 0, dãy số

phân phối chuẩn lệch phải.

n )(

n (

S

x x ) n ( n Kurtosis

n

i i

3 2

1

11

n i

Trang 28

Sơ đồ hộp (box plot)

3

X min

• Là sơ đồ biểu diễn cùng lúc các đặc trưng trung

tâm và độ biến thiên (phân tán)

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài

của hộp (khoảng tứ phân vị IQR).

Trang 29

Hình dáng của phân phối

và box plot

57

Lệch phải Lệch trái Đối xứng

1 Me Q3

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài

của hộp (khoảng tứ phân vị IQR).

• Nhận biết độ lệch phân phối của dữ liệu

• Nhận biết lượng biến đột xuất và nghi ngờ là đột

xuất

Trang 30

Nhận biết lượng biến đột xuất

IQR

1.5 IQR 1.5 IQR

Giới hạn trong

Giới hạn ngoài

Q1Me Q3

Nghi ngờ là lượng biến đột xuất

Nghi ngờ là

lượng biến

đột xuất

Lượng biến đột xuất Lượng biến

đột xuất

Outer

fence

Inner fence

hinger

1.5 IQR 1.5 IQR

Nhận biết lượng biến đột xuất

Trang 31

Nhận biết lượng biến đột xuất

Thực hiện bằng SPSS

Trường hợp 1:

Chọn Analyze > Descriptive Statistics > Frequencies…

Đưa các biến cần tính toán các

tham số sang Variable(s) Nhấn Statistic…

Trang 32

Chọn Analyze > Descriptive Statistics > Explore …

Đưa các biến cần tính toán các

tham số sang Dependent List

Muốn phân tích theo biến nào

đó thì đưa sang biến sang

Factor List

Statistics hoặc Both

64

Trang 33

Thực hiện bằng SPSS

Trường hợp 3:

Chọn Analyze > Descriptive Statistics > Descriptives…

Đưa các biến sang Variable(s) và nhấn Options… 65

Thực hiện bằng SPSS

Chọn Analyze > Descriptive Statistics > Descriptives…

Trang 34

II Mô tả dữ liệu qua bảng thống kê

Bảng thống kê là một hình thức trình bày các tài liệu thống

kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các

đặc trưng về mặt lượng của hiện tượng nghiên cứu

Trang 35

Nguyên tắc khi trình bày bảng thống kê

- Quy mô bảng vừa phải

- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn

- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc

phải phía trên bảng

- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý

- Không được để trống ô nào trong bảng, nếu không có

dữ liệu thì ghi bằng các ký hiệu

Nguyên tắc ghi ký hiệu

- Nếu hiện tượng không có số liệu, ghi ( - )

- Nếu số liệu còn thiếu, có thể bổ sung ( … )

- Nếu hiện tượng không liên quan ( x )

Trang 36

Lập bảng thống kê

Lập bảng tần số cho 1 biến thuộc tính

Analyze  Descriptive Statistics  Frequencies…

Đưa các biến cần lập bảng sang ô

Variable(s)

Hiện thị bảng tần số

Lập bảng thống kê

Lập bảng tần số cho 1 biến thuộc tính

Analyze > Tables > Custom Tables

Đưa 1 biến chủ đề vào

Rows hoặc Columns

Chọn các thống kê theo Cột (Columns) hoặc dòng (Rows), Ẩn nhãn (tên) các thống kê (Hide),

Trang 37

Chọn N Summary Statistic…

Chọn các thống kê cần hiện thị chuyển sang mục Display

Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)

Nhấn Apply to Selection

Chọn Catagories and Total…

Không muốn hiện thị biểu hiện nào đó ->

chuyển biểu hiện đó sang Exclude Chọn Total và đặt lại nhãn (Label) nếu

muốn hiện thị dòng tổng sốHiện thị giá trị khuyết thiếu tích vào

Missing Value

Hiện thị biểu hiện không có quan sát tích

Empty categories

Trang 38

Đặt tiêu đề bảng,… (Titles)

Ghi tên bảng vào ô Titles:

Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption

Điền tiêu đề (giữa cột và dòng) vào ô Corner

Lập bảng thống kê

Bảng kết hợp nhiều biến (định tính –

định tính; định tính – định lượng)

Analyze > Tables > Custom Tables

Đưa các biến (định tính hoặc định lượng)

vào Rows và Columns

Trang 39

nhiều biểu hiện

Nhập giá trị cần đếm vào Counted

Value

Đặt tên biến Name và nhãn biến

Label

Nhấn Add -> OK

Lập bảng cho biến tuỳ chọn (Multiple Answer)

Analyze > Tables > Multiple Response Sets

III Mô tả dữ liệu qua đồ thị thống kê

Là các hình vẽ hoặc đường nét hình học dùng để

miêu tả có tính chất quy ước các tài liệu thống kê

Trang 40

nhóm với nhiều cột cạnh nhau)

Stacked Đồ thị thanh kết hợp 2 biến (biến

được biệu hiện trên 1 cột)

Summaries for groups cases Mỗi thanh

của đồ thị thể hiện số lượng các quan sát cócùng 1 giá trị của biến

Summaries for separate variables Mỗi

thanh của đồ thị thể hiện giá trị thống kêcủa biến

Value of individual cases Mỗi thanh của

đồ thị thể hiện giá trị 1 quan sát của biến

Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar

Trang 41

Có thể vẽ theo dòng hay cột (theo biến

phân loại thứ 2)  đưa biến vào Panel

II

ƯỚC LƯỢNG ĐIỀU TRA

III

KIỂM ĐỊNH GIẢ THUYẾT THỐNG

BÀI 3

ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

Trang 42

I NHỮNG VẤN ĐỀ CƠ BẢN VỀ

PHÂN PHỐI

Biến ngẫu nhiên

• Biến ngẫu nhiên là biến nhận một trong các giá trị có

thể có của nó tuỳ thuộc vào sự tác động của các nhân

tố ngẫu nhiên trong một phép thử.

• Biến ngẫu nhiên là biến mà các giá trị không được xác

định trước qua mỗi lần thực nghiệm (phép thử).

Trang 43

Quy luật phân phối xác suất

• Quy luật phân phối xác suất của biến ngẫu nhiên là sự

tương ứng giữa giá trị có thể có của nó và xác suất

tương ứng với giá trị đó.

n

t x t

Trang 44

III Kiểm định giả thuyết thống kê

Những vấn đề chung về kiểm định giả thuyết thống kê

Là giả thuyết về một vấn đề nào đó của tổng

thể chung (về các tham số như trung bình, tỷ

lệ, phương sai, dạng phân phối,…)

Trang 45

Giả thuyết thống kê

Giả thuyết mà ta muốn kiểm định (H 0 )

Giả thuyết đối lập (H a , H 1 , H)

Giả thuyết thống kê

Ví dụ

H 0 :  =  0

H 1 :    0

Trang 46

Sai lầm và mức ý nghĩa trong kiểm định

- Sai lầm loại I là bác bỏ H 0 khi H 0 đúng

- Sai lầm loại II là chấp nhận H 0 khi H 0 sai

Sai lầm và mức ý nghĩa trong kiểm định

Kết luận Thực tế Chấp nhận H 0 Bác bỏ H 0

H 0 đúng Kết luận đúng Sai lầm loại I

H 0 sai Sai lầm loại II Kết luận đúng

Ngày đăng: 11/12/2019, 16:10

TỪ KHÓA LIÊN QUAN

w