CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu CHƯƠNG 6 phân tích dữ liệu
Trang 1CHƯƠNG 6
PHÂN TÍCH DỮ LIỆU
Trang 2PHÂN TÍCH DỮ LIỆU
4 kỹ thuật phân tích dữ liệu:
- Phân tích thống kê mô tả
- Kiểm định giả thuyết thống kê
- Phân tích tương quan và hồi quy
- Phân tích nhân tố
Trang 36.1 Phân tích thống kê mô tả
6.1.1 Phân tích thống kê mô tả cho 1 biến
Biến định tính (định danh và thứ bậc)
- Bảng tần số
- Biểu đồ (dạng cột/thanh, biểu đồ hình tròn)
Trang 5Bảng tần số
Trang 7Biểu đồ dạng thanh
Trang 8Biểu đồ hình tròn thường được dùng để biểu hiện kết cấu và biến động cơ cấu của hiện tượng
Biểu đồ
Trang 9- Tổng số các số liệu có giá trị tổng không đổi
Trang 106.1.1 Phân tích thống kê mô tả cho 1 biến
Biến định lượng
- Bảng tần số
- Các đại lượng thống kê mô tả
- Biểu đồ (dạng cột liền – Histogram, đường gấp khúc – line, biểu đồ Hộp và Râu – Box and Whisker)
6.1 Phân tích thống kê mô tả
Trang 11Các đại lượng thống kê mô tả
- Các đại lượng đo lường mức độ tập trung: trung bình (mean), trung vị (median), số mode, tứ phân
vị (quartiles)…
- Các đại lượng đo lường mức độ phân tán: khoảng biến thiên (range), phương sai (variance), độ lệch chuẩn (standard deviation)
- Các đại lượng mô tả phân phối: hệ số Skewness
và hệ số Kurtosis
Trang 12Có 3 loại biểu đồ được sử dụng đối với biến định lượng:
- Biểu đồ dạng phân phối tần số (Histogram)
- Biểu đồ đường gấp khúc (line)
- Biểu đồ Hộp và Râu (Box and Whisker)
Biểu đồ
Trang 13Biểu đồ Histogram
Trang 14- Đây là loại đồ thị thống kê biểu hiện bằng một
đường gấp khúc nối liền các điểm trên một hệ
trục tọa độ, thường là hệ tọa độ vuông góc
- Ứng dụng: dùng để phân tích quá trình phát triển (tăng, giảm)
Biểu đồ đường gấp khúc
Trang 16- Biểu đồ Box – and – Whisker, hay còn gọi là biểu
đồ Hộp và Râu cho ta một hình ảnh trực quan về
vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối
- Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê
của một phân phối, đó là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower
quartiles) và các giá trị quan sát lớn nhất và nhỏ nhất
Biểu đồ Box – and - Whisker
Trang 18Các thành phần chủ yếu:
- Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu
- Đường thẳng ở giữa hộp là giá trị trung vị
- Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1
và thứ 3 (tương ứng với giá trị thứ 25% và giá trị thứ 75% của dãy số liệu
- Các râu kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và giá trị nhỏ nhất
Biểu đồ Box – and - Whisker
Trang 19- Biểu đồ hộp phù hợp để biểu diễn cho cả biến có phấn phối chuẩn và biến không phải phân phối chuẩn
- Cách thực hiện: từ thanh Menu, chọn
Graphs/Boxplot
Biểu đồ Box – and - Whisker
Trang 206.1.2 Phân tích thống kê mô tả cho mối quan hệ giữa hai biến trở lên
Bảng kết hợp các biến định tính
+ Bảng kết hợp 2 biến định tính
+ Bảng kết hợp 3 biến định tính
Bảng kết hợp biến định tính và biến định lượng
+ 1 biến định tính và 1 biến định lượng
+ 2 biến định tính và 1 biến định lượng
6.1 Phân tích thống kê mô tả
Trang 21Bảng kết hợp hai biến định tính
- Dùng bảng Crosstabs
+ Từ thanh Menu, chọn Analyze/Descriptive
Statistics/Crosstabs
+ Row(s): ô chứa biến dòng khi truy xuất bảng dữ liệu
+ Column(s): ô chứa biến cột khi truy xuất bảng dữ liệu
+ Nhấp chọn Cells… để tính toán các giá trị % theo cột và
% theo dòng
Trang 22- Dùng bảng Basic Tables
+ Từ thanh Menu, chọn Analyze/Tables/Basic Tables
+ Down: ô chứa biến nằm trên dòng khi truy xuất bảng
dữ liệu
+ Across: ô chứa biến sẽ phân tách thành các cột
+ Nhấp chọn hộp thoại Statistics để tính toán các giá trị Row% (% theo dòng), Col% (% theo cột)
Bảng kết hợp hai biến định tính
Trang 23- Dùng bảng General Tables
+ Từ thanh Menu, chọn Analyze/Tables/General Tables
+ Rows: ô chứa biến dòng
+ Columns: ô chứa biến cột
+ Edit Statistics: chọn các hàm thống kê Row%, Col%
Bảng kết hợp hai biến định tính
Trang 24- Dùng bảng Custom Tables
+ Trên thanh Menu, chọn Analyze/Tables/Custom Tables
+ Rows: ô chứa biến dòng (lựa chọn biến bằng cách kéo thả)
+ Columns: ô chứa biến cột (lựa chọn biến bằng cách kéo thả)
+ Chọn hộp thoại Summary Statistics để tính toán các giá trị thống kê Row%, Col%
+ Chọn hộp thoại Catagories and Total để thể hiện giá trị Tổng
Bảng kết hợp hai biến định tính
Trang 25- Dùng bảng Custom Tables
+ Trên thanh Menu, chọn Analyze/Tables/Custom Tables
+ Rows: ô chứa biến dòng (lựa chọn biến bằng cách kéo thả)
+ Columns: ô chứa biến cột (lựa chọn biến bằng cách kéo thả)
+ Tùy thuộc vào cách thức thể hiện bảng mà ta chọn 2 biến ở Rows hoặc 2 biến ở Columns
+ Chọn hộp thoại Summary Statistics để tính toán các giá trị thống kê Row%, Col%
+ Chọn hộp thoại Catagories and Total để thể hiện giá trị Tổng
Bảng kết hợp ba biến định tính
Trang 26Bảng kết hợp một biến định tính và một biến định lượng
- Dùng bảng Custom Tables
+ Trên thanh Menu, chọn Analyze/Tables/Custom Tables
+ Chọn biến định lượng vào ô Rows
+ Chọn biến định tính vào ô Columns
+ Chọn hộp thoại Summary Statistics để tính toán các giá trị thống kê Row%, Col%
+ Chọn hộp thoại Catagories and Total để thể hiện giá trị Tổng
- Lưu ý: khi sử dụng các bảng này để phân tích mối quan hệ giữa 1 biến định tính và 1 biến định lượng, không tính tần
số mà còn tính toán các giá trị trung bình và độ lệch chuẩn (phân phối chuẩn), giá trị trung vị, giá trị cực đại, giá trị
cực tiểu và khoảng biến thiên (phân phối không chuẩn)
Trang 27- Dùng bảng Custom Tables
+ Trên thanh Menu, chọn Analyze/Tables/Custom Tables
+ Chọn biến định lượng vào ô Rows
+ Chọn các biến định tính vào ô Columns hoặc 1 biến vào
ô Columns và 1 biến vào ô Rows tùy theo cách thức thể hiện bảng
+ Chọn hộp thoại Summary Statistics để tính toán các giá trị thống kê tần số (count) và trung bình (mean)
Bảng kết hợp hai biến định tính và một biến định lượng
Trang 28Các khái niệm cơ bản dùng trong kiểm định
- Giả thuyết trơ: thường được kí hiệu là H0
- Giả thuyết nghiên cứu: Là câu trả lời giả định cho câu hỏi nghiên cứu (dựa trên những gì đã biết) Việc bác bỏ giả thuyết không sẽ dẫn đến việc
chấp nhận giả thuyết nghiên cứu, thường được kí hiệu là H1
6.2 Kiểm định giả thuyết
Trang 29Các loại sai lầm trong kiểm định giả thuyết thống kê
- Sai lầm loại I (type I error)
+ Là loại sai lầm mà chúng ta phạm phải trong việc bác
bỏ giả thuyết H 0 khi H 0 đúng
+ Xác suất của việc bác bỏ H 0 khi H 0 đúng là xác suất của sai lầm loại I và được ký hiệu là α
- Sai lầm loại II (type II error)
+ Là loại sai lầm mà chúng ta phạm phải khi không bác
bỏ giả thuyết H 0 khi H 0 sai
+ Xác suất của việc không bác bỏ H 0 khi H 0 sai là xác suất sai lầm loại II và được ký hiệu là β
Trang 30Không bác bỏ
(chấp nhận)
Prob = α P(bác bỏ H 0 /H 0 đúng) = α
Quyết định đúng
Prob = 1 – β P(bác bỏ H 0 /H 0 sai) = 1 - β
Quyết định đúng
Prob = 1 – α P(không bác bỏ H0/H0 đúng) = 1 - α
Sai lầm loại II
Prob = β P(không bác bỏ H 0 /H 0 sai) = β
Trang 31Kiểm định một bên
- Kiểm định 1 bên: Khi giả thuyết nghiên cứu H1 có tính chất 1 phía (one – sided) thì việc kiểm định được gọi là kiểm định 1 bên
- Kiểm định 1 bên có 2 loại:
+ Kiểm định bên trái
+ Kiểm đinh bên phải
Trang 34- Kiểm định 2 bên: Khi giả thuyết nghiên cứu H1 có tính chất 2 phía (two – sided) thì việc kiểm định được gọi là kiểm định 2 bên
Trang 35- Là giá trị xác suất sai lầm loại I (α) tối đa cho
phép khi tiến hành kiểm định
- Việc lựa chọn giá trị của α lớn hay bé là tùy thuộc vào mức độ tổn thất mà nhà nghiên cứu có thể
“chịu đựng” nếu sai lầm loại I xảy ra
- Đại lượng α được gọi là mức ý nghĩa kiểm định và
1 – α là độ tin cậy của kiểm định
Mức ý nghĩa kiểm định
Trang 36Quy trình kiểm định giả thuyết thống kê
- Bước 1: Thành lập giả thuyết không H0
Trang 37- Bước 5: Tính toán các giá trị của các tham số
thống kê trong việc kiểm định dựa trên số liệu của mẫu ngẫu nhiên
- Bước 6: Ra quyết định: Nếu các giá trị tính toán
rơi vào miền bác bỏ giả thuyết H0 thì ra quyết định bác bỏ, ngược lại sẽ chấp nhận giả thuyết H0
Quy trình kiểm định giả thuyết thống kê
Trang 38- Giá trị Sig là xác suất phạm sai lầm loại I, như vậy
nó có cùng ý nghĩa với mức ý nghĩa α
- Nếu giá trị Sig nhỏ hơn mức ý nghĩa α, giả thuyết
Trang 39Kiểm định mối liên hệ giữa hai biến
- Kiểm định Chi bình phương
Dùng để kiểm định mối liên hệ giữa hai biến định tính (2 biến định danh hoặc giữa biến định danh – biến thứ bậc) trong tổng thể
+ Cho biết có tồn tại mối liên hệ giữa hai biến hay không + Giả thuyết H 0 : hai biến độc lập với nhau
Giả thuyết H 1 : hai biến có liên hệ với nhau + Đọc kết quả:
- Sig ≤ α: bác bỏ giả thuyết H 0
- Sig > α: không bác bỏ giả thuyết H 0
Trang 40- Kiểm định Chi bình phương chỉ có ý nghĩa khi số quan sát
đủ lớn (tỷ lệ các ô chéo trong bảng có tần số <5 phải nhỏ hơn 20%)
- Kiểm định này không cho biết độ mạnh của mối liên hệ
giữa hai biến mà phải sử dụng các đại lượng Cramer V, hệ
số liên hợp (Coefficient of contigency)…
Kiểm định mối liên hệ giữa hai biến
Trang 41- Sử dụng các đại lượng Gamma, tau – b của
Kendall, d của Somer …
Dùng để kiểm định mối liên hệ giữa hai biến thứ bậc trong tổng thể
Giả thuyết H0: hai biến không có mối liên hệ (các giá trị này đều bằng 0)
Giả thuyết H1: hai biến có mối liên hệ (các giá trị này khác 0)
Đọc kết quả:
- Sig ≤ α: bác bỏ giả thuyết H 0
- Sig > α: không bác bỏ giả thuyết H 0
Kiểm định mối liên hệ giữa hai biến
Trang 42Cách thực hiện kiểm định mối liên hệ giữa 2 biến
thứ bậc:
- Lập bảng chéo (Crosstabs) để tìm hiểu mối quan
hệ giữa hai biến
- Chọn Statistics
+ Đánh dấu chọn Gamma, Somers’ d, Kendall’s tau – b (nếu bảng cân đối, số hàng bằng số cột); Kendall’s tau – c (nếu bảng không cân đối)
+ Chọn continue
Kiểm định mối liên hệ giữa hai biến
Trang 43- Nếu muốn so sánh giá trị trung bình tổng thể với một giá trị cụ thể nào đó => Kiểm định giả thuyết về trung bình
riêng biệt => Kiểm định giả thuyết về sự bằng nhau giữa
SAMPLES T – TEST
phụ thuộc lẫn nhau => Kiểm định giả thuyết về sự bằng
– SAMPLES T – TEST
thể riêng biệt trở lên => Kiểm định giả thuyết về sự bằng
Kiểm định giá trị trung bình tổng thể
Trang 44So sánh giá trị trung bình của một tổng thể với một giá trị cụ thể nào đó, sử dụng kiểm định One – sample t – test
Điều kiện áp dụng:
- Mẫu được chọn phải ngẫu nhiên
- Mẫu phải có phân phối chuẩn hoặc xấp xỉ chuẩn
One – sample t - test
Trang 45- Chọn biến đưa vào khung Test variable
- Khai báo giá trị Test Value
Đọc kết quả:
- Sig ≤ α: bác bỏ giả thuyết H 0
- Sig > α: không bác bỏ giả thuyết H 0
One – sample t - test
Trang 46So sánh hai trung bình của hai tổng thể dựa trên hai mẫu độc lập, sử dụng kiểm định Independent –
samples t – test
Điều kiện áp dụng:
- Kích thước 2 mẫu so sánh phải bằng hoặc tương đương nhau
- 2 mẫu so sánh phải được chọn ngẫu nhiên, có
phân phối chuẩn hoặc xấp xỉ phân phối chuẩn và
có phương sai như nhau
Independent samples t - test
Trang 47Giả thuyết
H0: μ1 = μ2
H1: μ1 ≠ μ2
Đọc kết quả:
- Sig ≤ α: bác bỏ giả thuyết H0
- Sig > α: không bác bỏ giả thuyết H0
Independent samples t - test
Trang 48Cách thực hiện:
- Trên thanh Menu, chọn Analyze/Compare
Means/Independent – samples t – test
- Chọn biến định lượng đưa vào khung Test Variable
- Chọn biến định tính (chia số quan sát thành 2 nhóm mẫu độc lập) đưa vào khung Grouping Variable
- Chọn Define Groups để khai báo hai nhóm cần so sánh với nhau
- Chọn continue
Independent samples t - test
Trang 49Dựa vào kết quả kiểm định sự bằng nhau của hai
phương sai (Levene’s test) với giả thuyết
H0: Phương sai của hai tổng thể là như nhau
H1: Phương sai của hai tổng thể là khác nhau
- Nếu giá trị sig ≤ α => bác bỏ giả thuyết H0, do
đó sử dụng kết quả kiểm định t ở cột Equal
variances not assumed
- Nếu giá trị sig > α => không bác bỏ giả thuyết
H0, do đó sử dụng kết quả kiểm định t ở cột Equal variances assumed
Independent samples t - test
Trang 50So sánh hai giá trị trung bình của hai tổng thể dựa trên hai mẫu phụ thuộc hay mẫu phối hợp từng cặp, sử dụng Paired – samples t – test
Điều kiện áp dụng:
- Kích thước 2 mẫu bằng nhau
- Chênh lệch giữa các giá trị của 2 mẫu phải có
phân phối chuẩn hoặc kích thước mẫu đủ lớn để xem như có phân phối chuẩn
Paired samples t - test
Trang 51Giả thuyết
H0: μ1 = μ2
H1: μ1 ≠ μ2
Đọc kết quả:
- Sig ≤ α: bác bỏ giả thuyết H0
- Sig > α: không bác bỏ giả thuyết H0
Paired samples t - test
Trang 52Cách thực hiện:
- Trên thanh Menu, chọn Analyze/Compare
Means/Paired – samples t – test
- Chọn 2 biến chứa các giá trị của 2 mẫu quan sát đưa vào khung Paired Variables để so sánh
- Nhấp continue
Paired samples t - test
Trang 53Ví dụ: Một công ty chế biến thực phẩm cần khảo sát
sự đánh giá, cảm nhận của người tiêu dùng về
loại đậu phộng chế biến sẵn vừa được cải tiến so với loại đậu phộng đang phân phối trên thị
trường Cuộc thử nghiệm được tiến hành trên
cùng một nhóm đối tượng khách hàng với các tiêu chí đánh giá như mùi vị, độ ngọt, độ béo của sản phẩm Tiến hành kiểm định ta có kết quả như sau
Paired samples t - test
Trang 54Nếu muốn so sánh giá trị trung bình của nhiều nhóm tổng thể độc lập, sử dụng phân tích phương sai
ANOVA (ANalyse Of VAriancies)
Phân tích phương sai một yếu tố One – way ANOVA trong trường hợp sử dụng 1 biến yếu tố để phân loại các quan sát thành các nhóm khác nhau
One way ANOVA
Trang 55Điều kiện áp dụng:
- Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
- Các nhóm so sánh phải có phân phối chuẩn hoặc
cỡ mẫu đủ lớn để được xem như là phân phối
Trang 56- Sig ≤ α: bác bỏ giả thuyết H0 => tồn tại ít nhất
một giá trị trung bình tổng thể khác với các trung bình còn lại
- Sig > α: không bác bỏ giả thuyết H0 => không có
sự khác biệt giữa các trung bình của các tổng thể
One way ANOVA
Trang 57Cách thực hiện:
- Trên thanh Menu, chọn Analyze/Compare
Means/One – way ANOVA
- Chọn biến định lượng đưa vào khung Dependent List
- Chọn biến phân loại xác định các nhóm cần so sánh đưa vào khung Factor
- Chọn Options: đánh dấu vào Descriptive và
Homogeneity – of – variance
One way ANOVA
Trang 58Trong trường hợp bác bỏ giả thuyết H0, có nghĩa
rằng tồn tại ít nhất một nhóm có giá trị trung bình khác với các nhóm còn lại, cần tiến hành phân tích sâu bằng thủ tục Post Hoc
- Nhấp chọn nút Post Hoc để mở hộp thoại này
- Trong hộp thoại này, có rất nhiều phương pháp
kiểm định thống kê để so sánh các giá trị trung
bình giữa các nhóm
One way ANOVA
Trang 59Các trường hợp áp dụng:
- Mẫu nhỏ, không đạt phân phối chuẩn
- Có một vài giá trị bất thường trong tập dữ liệu
- Dữ liệu định tính (dữ liệu định danh hay dữ liệu thứ bậc)
- Dữ liệu khoảng cách không đạt phân phối chuẩn
Kiểm định phi tham số
Trang 60Kiểm định dấu (Sign test)
Kiểm định dấu và hạng
(Wilcoxon test)
Kiểm định McNemar
Kiểm định Mann - Whitney
Kiểm định Kruskal - Wallis
Kiểm định sự bằng nhau của 2 trị trung bình trong trường hợp mẫu phối hợp từng cặp (Paired – Samples T – Test)
Independent – Samples T - Test
One – way ANOVA
Kiểm định phi tham số
Trang 61- Kiểm định dấu (sign test), kiểm định dấu và hạng Wilcoxon và kiểm định McNemar
+ Trên thanh Menu, chọn Analyze/Nonparametric tests/2 related samples
+ Chọn các biến đưa vào khung Test Pair list
+ Chọn 1 trong 3 loại kiểm định trong Test Type
+ Nhấp nút OK
+ Sử dụng giá trị Sig để đưa ra quyết định
Cách thực hiện trên SPSS
Trang 62- Kiểm định Mann – Whitney
+ Trên thanh Menu/ chọn Analyze/Nonparametric tests/2 Independent samples
+ Chọn biến đưa vào khung Test Variables list
+ Chọn 1 biến phân nhóm đưa vào ô Grouping Variables, sau đó chọn Define Group để khai báo các nhóm cần so sánh
+ Đánh dấu chọn kiểm định Mann – Whitney
+ Nhấp nút OK
+ Sử dụng giá trị Sig để đưa ra quyết định
Cách thực hiện trên SPSS