File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,… View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,… Data:
Trang 1PHÂN TÍCH DỮ LIỆU
THỐNG KÊ ỨNG DỤNG SPSS
Trang 2BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ
IIIQUẢN LÝ DỮ LIỆU TRONG SPSS
1 Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thống
phương pháp (thu thập, xử lý, phân tích) con số (mặt
lượng) của các hiện tượng số lớn tìm bản chất và tính
quy luật (mặt chất) trong những điều kiện nhất định.
Trang 31 Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích và
diễn giải các dữ liệu dưới dạng số (Croxton và ctg)
Thống kê Thống
Phương pháp thống kê
Trang 41 Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn
vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.
2 Tiêu thức thống kê
Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu
Trang 53 Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất
của các hiện tượng trong điều kiện thời gian và địa
điểm cụ thể
THANG ĐO THỨ BẬC(Ordinal Scale)
THANG ĐO ĐỊNH DANH
(Nominal Scale)
Có khoảng cáchbằng nhau
Biểu hiệu có thứ tự hơn kém
CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện
cùng loại của tiêu thức
Tiêu thức
thuộc tính
Trang 6II Giới thiệu chung về SPSS
SPSS ( S tatistical P ackage for S ocial S ciences)
Là phần mềm chuyên dụng xử lý thông tin sơ
cấp (thông tin được thu thập trực tiếp từ đối
tượng nghiên cứu thông qua bảng hỏi được
Trang 7(data view)
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao
Màn hình quản lý biến (variables view)
Trang 8Màn hình hiện thị kết quả
(output)
Các kết quả có thể copy hoặc copy object hoặc export sang các
phần mềm khác như word hay Excel, Màn hình này cho phép ta
xem và lưu giữ các kết quả phân tích (*.SPO)
15
Màn hình cú pháp (syntax)
Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh
phân tích (các câu lệnh) Các cú pháp được lưu trữ với phần
Trang 9File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
Các menu chính
17
III Quản lý dữ liệu trong SPSS
1 Tạo lập Cơ sở dữ liệu
2 Tạo biến trong cơ sở dữ liệu
3 Mã hóa lại dữ liệu
4 Lựa chọn các quan sát
5 Tách dữ liệu
Trang 101 Tạo lập cơ sở dữ liệu trong SPSS
Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là
một tập hợp thông tin có cấu trúc
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1
đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính của
quan sát
19
Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)
Biến nhiều trả lời (câu hỏi tuỳ chọn)
20
Trang 11Biến nhiều trả lời
Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu
nào trong danh sách liệt kê dưới đây:
Nhãn hiệu code
Vinataba 1
Marlboro 2
Trang 12Phân loại biến theo kiểu dữ liệu
Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)
23
Các loại/dạng dữ liệu trong SPSS
Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”
24
Trang 13Variable Name (tên biến)
Các qui tắc dưới đây được áp dụng cho tên biến:
• Tên phải bắt đầu bằng một chữ.
• Độ dài của tên biến không vượt quá 8 ký tự.
• Tên biến không được kết thúc bằng một dấu chấm.
• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không
được sử dụng
• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt
chữ trong tên biến Các tên NEWVAR, NewVar, và newvar được xem
là giống nhau.
• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để
tránh xung đột với các biến được tự động lập bởi một số thủ tục)
Khai báo biến trong SPSS
25
Variable Type (kiểu biến)
Khai báo biến trong SPSS
Trang 14Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng
biến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”
Khai báo biến trong SPSS
27
Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý
nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu
Ví dụ: 1 là nam
2 là nữ
Khai báo biến trong SPSS
28
Trang 15Missing (giá trị khuyết) – dùng để loại những giá trị không
có ý nghĩa
Khai báo biến trong SPSS
Các giá trị khuyết sẽ không tham gia vào quá trình phân tích29
Measure (thang đo)
SPSS phân ra 3 loại thang đo
- Nominal (thang đo định danh)
- Ordinal (thang đo thứ bậc)
- Scale (thang đo khoảng và thang đo tỷ lệ)
Khai báo biến trong SPSS
Trang 16Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)
Khai báo biến trong SPSS
Trang 17Nhập dữ liệu
Trang 18TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…
• Trong mục File of type chọn định dạng file phù hợp hoặc
chọn All Files (*.*)
35
Mở một tệp tin {file} Excel
-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data
- Trong hộp thoại Open File, chọn file mà bạn muốn mở
- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại
file (Files of type) và sau đó chọn tên file (File name)
- Nhắp Open
Trang 192 Tạo biến trong cơ sở dữ liệu
Transform > Compute Variable…
Tạo ra một biến mới theo biểuthức mô tả (Numeric expression)Biểu thức có thể là một phép tính, một hàm,…
Nếu tính theo một điều kiện nào
đó thì nhấn vào if (đặt điều kiện
vào tính toán cho biểu thức)
Trang 202 Tạo biến trong cơ sở dữ liệu
ABS(numexpr) – Trả về giá trị tuyệt đối
EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[, ]) – Lấy giá trị nhỏ nhất
MAX(value,value[, ]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[, ]) – Tính tổng của các số
MEAN(numexpr, numexpr[, ]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[, ]) – Tính trung vị
VARIAN(numexpr, numexpr[, ]) – Tính phương sai
SD(numexpr, numexpr[, ]) – Tính độ lệch chuẩn
40
Trang 212 Tạo biến trong cơ sở dữ liệu
LOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[, ]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41
3 Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu thành một biến khác
• Chọn các biến muốn mã hoá, Nếuchọn nhiều biến, chúng phải có cùngdạng (chuỗi hoặc số)
• Click vào Old and New Values và
định rõ cách mã hoá lại trị số
• Sau đó nhấn Change
Transform > Recode into Different Variables…
Trang 223 Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)
Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo
ra thay cho biến cũ
43
3 Mã hoá dữ liệu tự động
• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang
dạng số vào trong một biến mới Biến mới này sẽ chứa các
con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ
đại diện cho các giá trị dạng chuổi giống nhau
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.
Transform > Automatic Recode
44
Trang 234 Lựa chọn các quan sát
Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn
thực hiện trên một số quan sát sẽ tiến hành như sau:
Data > Select cases
- Các quan sát không lựa chọnđược giữ và có dấu gạch chéo
chọn Filtered -> máy sẽ tạo ra
một biến Filter_$ (lần sau nếuchọn tương tự thì sử dụng biến
này để đưa vào ô Use filter
variable)
- Các quan sát được chọn sẽđược lưu sang cơ sở dữ liệu mới
chọn Copy selected cases to a
new dataset và đặt tên trong ô Dataset name
- Các quan sát không lựa chọn
bị xoá, chọnDeleted unselected cases
45
5 Tách dữ liệu
Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo
từng nhóm nào đó sử dụng công cụ tách dữ liệu
Data > Split File
Đưa biến phân loại đưa sang ô
Groups Based on:
Chọn Compare groups nếu muốn
so sánh giữa các nhóm
Chọn Organize output by groups
nếu muốn tách theo từng nhómriêng biệt
Trang 24Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:
Data/ Aggregate Data
- Chuyển biến được chọn làm cơ sở để tập hợp
dữ liệu sang cửa sổ Break Variable(s)
- Chuyển biến muốn tập hợp sang cửa sổ
Để biến mới tập hợptrong file dữ liệu hiện tại
7 Lựa chọn quyền số cho các quan sát
Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện
cho một số lượng các quan sát, sử dụng quyền số.
Data > Weight cases
Chọn Weight case by và đưa
biến làm quyền số vào ô
Frequency variable
48
Trang 25MÔ TẢ DỮ LIỆU QUA ĐỒ THỊ THỐNG KÊ
Trang 262 Các phân vị
- Phân vị thứ p là giá trị mà có p% số quan sát có giá trị
nhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có
(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giá
trị phân vị mức p.
- Tứ phân vị
- Thập phân vị
51
3 Các tham số đo độ phân tán
- Khoảng biến thiên: R = Xmax - Xmin
- Phương sai:
- Độ lệch tiêu chuẩn:
- Sai số chuẩn trung bình:
1 1
2 1
2 1
2 2
) x x ( S
n i i n
i i
Trang 274 Các tham số phản ánh phân phối
- Hệ số bất đối xứng:
) 2 )(
1 (
x x n Skewness
n
i i
Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại
càng đối xứng qua giá trị μ Khi hệ số này nhỏ hơn 0, dãy số
phân phối chuẩn lệch trái Khi hệ số này lớn hơn 0, dãy số
phân phối chuẩn lệch phải.
n )(
n (
S
x x ) n ( n Kurtosis
n
i i
3 2
1
11
n i
Trang 28Sơ đồ hộp (box plot)
3
X min
• Là sơ đồ biểu diễn cùng lúc các đặc trưng trung
tâm và độ biến thiên (phân tán)
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài
của hộp (khoảng tứ phân vị IQR).
Trang 29Hình dáng của phân phối
và box plot
57
Lệch phải Lệch trái Đối xứng
1 Me Q3
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài
của hộp (khoảng tứ phân vị IQR).
• Nhận biết độ lệch phân phối của dữ liệu
• Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất
Trang 30Nhận biết lượng biến đột xuất
IQR
1.5 IQR 1.5 IQR
Giới hạn trong
Giới hạn ngoài
Q1Me Q3
Nghi ngờ là lượng biến đột xuất
Nghi ngờ là
lượng biến
đột xuất
Lượng biến đột xuất Lượng biến
đột xuất
Outer
fence
Inner fence
hinger
1.5 IQR 1.5 IQR
Nhận biết lượng biến đột xuất
Trang 31Nhận biết lượng biến đột xuất
Thực hiện bằng SPSS
Trường hợp 1:
Chọn Analyze > Descriptive Statistics > Frequencies…
Đưa các biến cần tính toán các
tham số sang Variable(s) Nhấn Statistic…
Trang 32Chọn Analyze > Descriptive Statistics > Explore …
Đưa các biến cần tính toán các
tham số sang Dependent List
Muốn phân tích theo biến nào
đó thì đưa sang biến sang
Factor List
Statistics hoặc Both
64
Trang 33Thực hiện bằng SPSS
Trường hợp 3:
Chọn Analyze > Descriptive Statistics > Descriptives…
Đưa các biến sang Variable(s) và nhấn Options… 65
Thực hiện bằng SPSS
Chọn Analyze > Descriptive Statistics > Descriptives…
Trang 34II Mô tả dữ liệu qua bảng thống kê
Bảng thống kê là một hình thức trình bày các tài liệu thống
kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các
đặc trưng về mặt lượng của hiện tượng nghiên cứu
Trang 35Nguyên tắc khi trình bày bảng thống kê
- Quy mô bảng vừa phải
- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn
- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc
phải phía trên bảng
- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý
- Không được để trống ô nào trong bảng, nếu không có
dữ liệu thì ghi bằng các ký hiệu
Nguyên tắc ghi ký hiệu
- Nếu hiện tượng không có số liệu, ghi ( - )
- Nếu số liệu còn thiếu, có thể bổ sung ( … )
- Nếu hiện tượng không liên quan ( x )
Trang 36Lập bảng thống kê
Lập bảng tần số cho 1 biến thuộc tính
Analyze Descriptive Statistics Frequencies…
Đưa các biến cần lập bảng sang ô
Variable(s)
Hiện thị bảng tần số
Lập bảng thống kê
Lập bảng tần số cho 1 biến thuộc tính
Analyze > Tables > Custom Tables
Đưa 1 biến chủ đề vào
Rows hoặc Columns
Chọn các thống kê theo Cột (Columns) hoặc dòng (Rows), Ẩn nhãn (tên) các thống kê (Hide),
Trang 37Chọn N Summary Statistic…
Chọn các thống kê cần hiện thị chuyển sang mục Display
Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)
Nhấn Apply to Selection
Chọn Catagories and Total…
Không muốn hiện thị biểu hiện nào đó ->
chuyển biểu hiện đó sang Exclude Chọn Total và đặt lại nhãn (Label) nếu
muốn hiện thị dòng tổng sốHiện thị giá trị khuyết thiếu tích vào
Missing Value
Hiện thị biểu hiện không có quan sát tích
Empty categories
Trang 38Đặt tiêu đề bảng,… (Titles)
Ghi tên bảng vào ô Titles:
Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption
Điền tiêu đề (giữa cột và dòng) vào ô Corner
Lập bảng thống kê
Bảng kết hợp nhiều biến (định tính –
định tính; định tính – định lượng)
Analyze > Tables > Custom Tables
Đưa các biến (định tính hoặc định lượng)
vào Rows và Columns
Trang 39nhiều biểu hiện
Nhập giá trị cần đếm vào Counted
Value
Đặt tên biến Name và nhãn biến
Label
Nhấn Add -> OK
Lập bảng cho biến tuỳ chọn (Multiple Answer)
Analyze > Tables > Multiple Response Sets
III Mô tả dữ liệu qua đồ thị thống kê
Là các hình vẽ hoặc đường nét hình học dùng để
miêu tả có tính chất quy ước các tài liệu thống kê
Trang 40nhóm với nhiều cột cạnh nhau)
Stacked Đồ thị thanh kết hợp 2 biến (biến
được biệu hiện trên 1 cột)
Summaries for groups cases Mỗi thanh
của đồ thị thể hiện số lượng các quan sát cócùng 1 giá trị của biến
Summaries for separate variables Mỗi
thanh của đồ thị thể hiện giá trị thống kêcủa biến
Value of individual cases Mỗi thanh của
đồ thị thể hiện giá trị 1 quan sát của biến
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar
Trang 41Có thể vẽ theo dòng hay cột (theo biến
phân loại thứ 2) đưa biến vào Panel
II
ƯỚC LƯỢNG ĐIỀU TRA
III
KIỂM ĐỊNH GIẢ THUYẾT THỐNG
KÊ
BÀI 3
ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Trang 42I NHỮNG VẤN ĐỀ CƠ BẢN VỀ
PHÂN PHỐI
Biến ngẫu nhiên
• Biến ngẫu nhiên là biến nhận một trong các giá trị có
thể có của nó tuỳ thuộc vào sự tác động của các nhân
tố ngẫu nhiên trong một phép thử.
• Biến ngẫu nhiên là biến mà các giá trị không được xác
định trước qua mỗi lần thực nghiệm (phép thử).
Trang 43Quy luật phân phối xác suất
• Quy luật phân phối xác suất của biến ngẫu nhiên là sự
tương ứng giữa giá trị có thể có của nó và xác suất
tương ứng với giá trị đó.
n
t x t
Trang 44III Kiểm định giả thuyết thống kê
Những vấn đề chung về kiểm định giả thuyết thống kê
Là giả thuyết về một vấn đề nào đó của tổng
thể chung (về các tham số như trung bình, tỷ
lệ, phương sai, dạng phân phối,…)
Trang 45Giả thuyết thống kê
Giả thuyết mà ta muốn kiểm định (H 0 )
Giả thuyết đối lập (H a , H 1 , H)
Giả thuyết thống kê
Ví dụ
H 0 : = 0
H 1 : 0
Trang 46Sai lầm và mức ý nghĩa trong kiểm định
- Sai lầm loại I là bác bỏ H 0 khi H 0 đúng
- Sai lầm loại II là chấp nhận H 0 khi H 0 sai
Sai lầm và mức ý nghĩa trong kiểm định
Kết luận Thực tế Chấp nhận H 0 Bác bỏ H 0
H 0 đúng Kết luận đúng Sai lầm loại I
H 0 sai Sai lầm loại II Kết luận đúng