Bài giảng chương 7 - Phân tích dữ liệu( DATA ANALYSIS) - Phương pháp nghiên cứu khoa học
Trang 1PHÂN TÍCH DỮ LIỆU
Trang 5 Mục đích
Đúng thủ tục/đối tượng phỏng vấn (legibility)
Xử lý các phỏng vấn/trả lời không hoàn chỉnh (completeness)
Tính nhất quán của các trả lời (consistency)
Sự chính xác của các trả lời (accuracy)
Sự rõ ràng của các trả lời (clarification)
Trang 6 Quá trình
Trang 7 Xử lý khi phát hiện lỗi
Liên lạc trở lại để bổ sung hoặc làm rõ
Hiệu chỉnh, làm rõ hoặc bổ sung theo trí nhớ hoặc các cứ liệu/suy luận khác
Hủy bỏ một số câu trả lời (missing value)
Hủy hoàn toàn cuộc phỏng vấn/questionnaire
Trang 9 Các bước mã hoá
◦ Đặt tên biến cho các câu hỏi
Câu hỏi 1 chọn lựa
Câu hỏi nhiều chọn lựa
◦ Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số/nhãn phù hợp, có ý nghĩa.
Câu hỏi đóng
Câu hỏi mở
Câu hỏi có chọn lựa: “Khác”
Hai trường hợp “Không biết”
Trang 11Thí dụ: Thông tin cá nhân
hoặc doanh nghiệp.
Tuổi <18 18-30 … ?
<16 16-25 … ?
Tính phù hợp
(appropriateness)
Trang 13Tính loại trừ nhau
(mutual exclusivity)
Thí dụ: quốc doanh, tư
nhân, TNHH, cổ phần ??
Trang 14Tính đơn nguyên
(unidimensionality)
Trang 15 Nhập dữ liệu vào file (SPSS)
Cải biến tập dữ liệu
Tạo biến mới, biến trung gian, v.v.
Xử lý missing value
Thí dụ về data file
Trang 18 Chọn phương pháp phân tích đơn biến nào?
Tùy vào:
Có bao nhiêu biến được phân tích đồng thời?
Mục tiêu phân tích chỉ là mô tả mẫu hay suy
đoán cho tổng thể
Các biến được đo bởi thang đo gì? Chỉ danh,
thứ tự, khoảng, tỉ lệ.
Trang 19Bao nhiêu biến được phân tích đồng thời
2 biến
Trang 20Phân tích đơn biến
Chi – square
test
Kolmogorov – Smirnov
test
Yếu vịTần suất
Trung vịKhoảng/
phần trăm
Z test/ t test
Trung bìnhPhương sai
Thang đo của biến
Thứ tự
Chỉ danhKhoảng
MÔ TẢ
SUY
ĐOÁN
Trang 22 Lợi ích của biến chỉ danh, thứ tự:
Trình bày phân phối dữ liệu của một biến có
thang đo nominal hoặc ordinal
Phát hiện một số dạng sai sót khi mã hoá.
So sánh với các phân phối/ dữ liệu có liên quan.
Đề nghị những phương pháp biến đổi các biến
Kiểm tra sampling.
Trang 26 Biến đo bằng thang khoảng (interval)
◦ Có thể dùng t Test hoặc Z Test để test giá trị trung bình của tổng thể khi biết giá trị trung bình của mẫu
t
Trang 27Thí dụ (tiếp theo thí dụ trên)
Bình quân tuổi của 100 SV trong mẫu là Ā = 24 (s=5) Nhà NC muốn kiểm chứng cho tổng thể:
Null hypothesis Ho: µ = 23
Alternative hypothesis H1: µ ≠ 23
Do n = 100 > 30 nên dùng Z test
Chọn mức ý nghĩa α = 0.05 (two tailed) Z c = 1.96
Tính Z khi chưa biết σ : Z = (Ā - µ) n 1/2 /s
= (24 - 23) x 100 1/2 /5 = 2
Z = 2 > Zc = 1.96 loại Ho
Không thể kết luận (với significant 5%) là µ = 23
Lưu ý: Nếu biến tỉ lệ thì Z = (p - π)/)/ (pq/ n) 1/2
Trang 28 Biến đo bằng thang thứ tự (ordinal)
◦ Dùng chi-square test để so sánh phân phối các loại
(categories) của mẫu và kỳ vọng của tổng thể
Các bước tiến hành
Trang 29“Bác bỏ H0 nếu (tính được) > (tới hạn)”
B3. Tra bảng Square chuẩn
E
E O
1
2
χ O i: Số lần xuất hiện loại i trong mẫu
E i: Giá trị kỳ vọng của số lần xuất hiện
Trang 30 Biến đo bằng thang thứ tự (ordinal)
◦ Dùng chi-square test để so sánh phân phối các loại
(categories) của mẫu và kỳ vọng của tổng thể
Các bước tiến hành
◦ Nghĩa là có sự khác biệt giữa phân phối của mẫu và
phân phối của tổng thể
◦ Kiểm định Chi-Square không có ý nghĩa khi số lần
xuất hiện kỳ vọng cho mỗi lựa chọn < 5
Trang 31 Thí dụ: Khảo sát 100 người đang sử dụng
25252525
-10-5510
1002525100
4114
Trang 32Thí dụ: Khảo sát 100 người đang sử dụng internet ở HCMC (n = 100)
Cột 1: Phân bố nghề nghiệp của những người sử
dụng internet.
Cột 2: Phân bố kỳ vọng (bằng nhau cho các nhóm)
Ho: Không có sự khác nhau về nghề nghiệp của
Trang 34Bảng 2 chiều (Two – way Tabulation)
Khảo sát mức độ và các mối liên hệ (có thể có) giữa các cặp biến.
Thích hợp cho các trường hợp số loại trong mỗi biến không lớn, thang đo nominal hoặc ordinal.
Chỉ định hướng, không kết luận về mối quan hệ nhân quả giữa các biến.
Kết quả có thể bị lệch nếu các ô có giá trị nhỏ.
Trang 36Phương pháp Áp dụng Minh họa
Hồi quy
đơn giản
Xây dựng một hàm tuyến tính giữa
2 biến metric
(phụ thuộc nhau)
Doanh thu (đồng) theo chi phí khuyến mãi
Trang 37Chi – Square contingency test
Mục đích:
Xác định sự tồn tại mối quan hệ giữa 2 biến danh
định.
Yêu cầu:
Không có ô nào có số lần xuất hiện kỳ vọng < 1
Không quá 1/5 tổng số ô có số lần xuất hiện < 5
Hạn chế:
Chỉ xác định có quan hệ hay không, không cho
biết mức độ quan hệ
Trang 38Hệ số Contingency thường được bổ sung vào kiểm nghiệm Chi-Square để biết mức độ quan hệ giữa 2 biến.
) 1 (
2
f n
C = 0: không có quan hệ
C không có chặn trên khó diễn dịch
V = 0: không có quan hệ
V = 1: có quan hệ hoàn hảo
Nên trong thực tế hay dùng hệ số thống kê Cramer
Trang 39Thí dụ: Kết quả khảo sát nhãn hiệu Bia ưa thích
nhất phân theo mức thu nhập.
Thu nhập Nhãn hiệu bia ưa thích nhất Tổng
Thấp (109.38)50 (101.56)200 (164.06)125 375
Trung bình (189.58)200 (176.04)100 (284.38)350 650
Cao (51.04)100 (47.40)25 (76.56)50 175
Trang 40 Ghi chú: Con số trong ngoặc chỉ giá trị kỳ vọng của mỗi ô
trong bảng Chúng được xác định theo tỉ lệ với tổng về thu nhập và loại bia ưa thích
l
E O
1
2 1
Trang 41Hệ số tương quan Spearman và Pearson
Spearman: tương quan giữa 2 biến thứ tự (ordinal)
Pearson: tương quan giữa các biến khoảng/ tỉ lệ.
Hệ số tương quan r = 0 1 (không kể dấu +/-)
r > 0.8 rất mạnh
r = 0.6 – 0.8 mạnh
r = 0.4 – 0.6 có tương quan
r = 0.2 – 0.4 tương quan yếu
r < 0.2 không tương quan
Trang 42Lưu ý:
Hai biến phải có phân phối chuẩn nhị biến
Phương sai của 1 biến tại bất kỳ giá trị nào của biến kia cũng phải bằng nhau.
Khi r nhỏ không có nghĩa là không tương quan, mà chỉ không tương quan tuyến tính.
Khi r lớn chỉ cho thấy mối tương quan, nhưng không xác định quan hệ nhân quả.
Trang 43 Phân tích hồi quy tuyến tính đơn
◦ Phân tích 2 biến khoảng/ tỉ lệ: Hồi quy tuyến tính đơn
Y = aX + b
◦ Sự khác biệt giữa hồi quy và tương quan
Trang 45Phân tích đa biến giúp giải quyết nhiều bài toán phức tạp Tuy nhiên, mỗi phương pháp phân tích đa biến đều dựa trên một số giả thiết (ngầm) cần thận trọng.
Trang 46Phương pháp Thang đo của biến
Phụ thuộc Độc lập
Một biến phụ thuộc
Hồi quy bội Interval Interval
Hồi quy bội - biến dummy Interval Nominal
Discriminant analysis Nominal Interval
Conjoint analysis Ordinal Nominal
Các phương pháp phân tích phụ thuộc – Yêu cầu về thang đo
Trang 47Phương pháp Thang đo của biến
Phụ thuộc Độc lập
Hai biến phụ thuộc trở lên
Canonical analysis Interval Interval
Mạng lưới của nhiều biến phụ thuộc và độc lập
Structural Equation Modeling
Các phương pháp phân tích phụ thuộc – Yêu cầu về thang đo
Trang 48 HỒI QUY TUYẾN TÍNH BỘI
y = a1X1 + a2X2 + a3X3 + anXn + b
Dạng mở rộng của hồi quy đơn
Một biến phụ thuộc, nhiều biến độc lập.
Tất cả được đo bằng thang interval (ngoại lệ:
dummy-variable multiple regression)
Trang 49Đánh giá mô hình và kết quả hồi quy theo 3 phần:
Mức độ phù hợp của phương trình hồi quy:
Dùng hệ số r 2 (coefficient of determination)
r 2 = 0 1 đặc trưng cho % của biến thiên trong biến phụ thuộc được giải thích do sự biến thiên của biến độc lập.
Kiểm nghiệm mức ý nghĩa của r2:
Dùng F – test , với độ tự do: df = n – k – 1 cho mẫu số và df
= k cho tử số (n: cỡ mẫu, k: số biến độc lập)
Kiểm nghiệm mức ý nghĩa của các độ dốc ai:
Dùng t – test với độ tự do df = n – k – 1
◦
Trang 50Kiểm nghiệm các giả thuyết của phương pháp hồi quy
Trang 52Đa cộng tuyến (Multicolinearity)
Giả thuyết: các biến độc lập không có tương quan
tuyến tính với nhau
Khi bị vi phạm Có hiện tượng đa cộng tuyến, nghĩa
là hiện hữu mối tương quan tuyến tính giữa 2 biến độc lập
Đa cộng tuyến gây ra:
Hạn chế giá trị r2
Sai lệch/ đổi dấu các hệ số hồi quy
Test đa cộng tuyến: hệ số Tolerance hoặc VIF
Trang 53Một số lưu ý khi sử dụng multiple regression:
Phân tích hồi quy tuyến tính chỉ có nghĩa khi có tương quan TUYẾN TÍNH giữa các biến
r2 không nói lên được quan hệ nhân quả giữa các biến
Có thể dự đoán sai nếu nằm ngoài khoản tính toán
Để đảm bảo độ tin cậy phải có nhiều hơn 10 điểm cho mỗi biến độc lập đưa vào phương trình ( yêu cầu cỡ mẫu)
Khoảng dao động (range) các biến có thể ảnh hưởng đến ý nghĩa phương trình hồi quy
Trường hợp biến độc lập là nominal thì có thể sử dụng dummy-variable Khi đó:
Số biến dummy = k-1; với k = số loại của biến nominal
Mỗi biến dummy chỉ nhận giá trị 0 hoặc 1
Trang 54Thí dụ:
Bài toán tìm các yếu tố quyết định sự thỏa mãn của nhân viên trong Cty XYZ.
Biến phụ thuộc: sự thỏa mãn của nhân viên Cty
Biến độc lập: thu nhập, điều kiện làm việc, sự quan tâm của cấp trên, quan hệ với đồng nghiệp, cơ hội thăng tiến, cơ hội học tập, v.v
Trang 55r = 0.787 r2 = 0.619 F sig = 0.000
Trang 56 ANOVA – ANALYSIS OF VARIANCE
Mục đích Đặc điểm Áp dụng
Trang 57 ANOVA – ANALYSIS OF VARIANCE
Mục đích Đặc điểm Áp dụng
Trang 58 ANOVA – ANALYSIS OF VARIANCE
Mục đích Đặc điểm Áp dụng
Trang 59 ANOVA – ANALYSIS OF VARIANCE
Trang 60 ANOVA – ANALYSIS OF VARIANCE
Trang 61 ANOVA – ANALYSIS OF VARIANCE
Nếu có nhiều biến độc lập với thang chỉ danh gọi là
Factorial ANOVA
Nguyên tắc: Nếu có sự khác biệt đáng kể giữa các
nhóm thì “between-group variance > within-group variance”
ANCOVA: có xét đến các ảnh hưởng của một hay
nhiều biến ngoại lai (gọi là control variable hoặc covariates - thang đo metric) và sẽ loại ra khỏi tập biến phụ thuộc trước khi phân tích ANOVA
MANOVA nếu có nhiều biến phụ thuộc
MANCOVA có nhiều biến phụ thuộc và biến kiểm soát
Trang 62Thí dụ:
Khảo sát 200 doanh nghiệp thuộc 3 ngành May mặc, Mỹ phẩm và Nhựa gia dụng về chi phí dành cho khuyến mãi hằng năm.
Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩa thống kê giữa 3 ngành này về chi phí khuyến mãi không?
Trang 63Cty Ngành Chi phí KM
(1000 USD)
1234 199200
MayMay
Mỹ phẩmNhựa NhựaMay
1232351346876 6812
Trang 64 Bài toán này có thể so sánh giá trị trung bình của
chi phí khuyến mãi theo từng cặp ngành (dùng t – test) Tuy nhiên, khi số treatment lớn số lượng
so sánh sẽ rất lớn.
Khi đó nên dùng ANOVA:
◦ H0 : 1 = 2 = = k =
◦ Ha : có ít nhất 1 giá trị i khác những giá trị kia
Với là trung bình của tổng thể
Trang 65có thang nonmetric.
Hàm phân biệt có dạng:
Y = v1.X1 + v2.X2 + v3.X3 + …
Sau khi tính được Y, so sánh với giá trị chuẩn Yc
để biết đối tượng thuộc nhóm nào.
Trang 66Thí dụ:
Công ty máy tính muốn biết xem thu nhập gia đình (X1) và
số năm học ở trường của chủ hộ (X2) có phải là hữu ích trong việc phân biệt hộ có mua máy tính PC hay không Khảo sát X1 và X2 của 2 nhóm mẫu ngẫu nhiên (có và không có PC)
Biến độc lập: X1 – thu nhập,
X2 – số năm học : metric
Biến phụ thuộc: Có PC, Không có PC: category.
Kết quả sẽ là hàm phân biệt: Y= v 1 X 1 + v 2 X 2
v 1 , v 2 : trọng số phân biệt (hằng số) Y: điểm phân biệt
So sánh Yi và Yc
Phần tử i sẽ thuộc nhóm nào trong 2 nhóm mẫu trên
Trang 67 CONJOINT ANALYSIS
Trang 68 CONJOINT ANALYSIS
Phân tích ảnh hưởng tổng hợp (joint effects) của 2 hay nhiều biến độc lập (thang nominal) lên một biến phụ thuộc (utility score - thang đo ordinal)
Mục đích
Trang 69 CONJOINT ANALYSIS
Áp dụng
Thường dùng trong test sản phẩm với nhiều yếu tố khác nhau (chất lượng, kiểu dáng, giá bán, nhãn hiệu, v.v.) Mỗi yếu tố có vài phương án khác nhau Tìm xem tổ hợp nào được ưa thích nhất
Trang 70 CONJOINT ANALYSIS – ÁP DỤNG
Nhà NC tạo ra một tập các phương án sản phẩm Mỗi
phương án là 1 tổ hợp của các yếu tố
Tập các phương án này được đưa cho đối tượng chọn/
xếp hạng (hoặc cho điểm thể hiện mức ưa thích)
Conjoint analysis sẽ đánh giá ảnh hưởng của các utility
score thành phần (hay part-worths, tượng trưng cho
mức độ quan trọng của mỗi yếu tố) lên sự ưa thích tổng hợp (utility) đối với một sản phẩm
Trang 71 CONJOINT ANALYSIS – ÁP DỤNG
Có thể dùng kết quả để
Trang 72Thí dụ:
Thiết kế sản phẩm mới có 3 thuộc tính:
Giá : (cao, trung bình, thấp)
Kiểu dáng : (cao, trung bình, thấp)
Chức năng : (đơn giản, phức tạp)
Chỉ cần đánh giá 1 nhóm khoảng 8 tổ hợp (thay vì
18 tổ hợp) về tính hấp dẫn của sản phẩm đối với khách hàng.
Trang 73Thí dụ:
Nhà nghiên cứu
Tầm quan trọng của mỗi thuộc tính
Tầm quan trọng của mỗi mức độ trong các thuộc tính
Tạo ra sản phẩm có độ
vị lợi cao nhất đối với người mua.
Trang 74Phân tích phụ thuộc
Phân tích tương tác
Trang 75 FACTOR ANALYSIS (PHÂN TÍCH NHÂN TỐ)
Trang 76Thí dụ:
Cas
123
…n
Trang 77 CLUSTER ANALYSIS (PHÂN TÍCH NHÓM)
Mục tiêu
Phân chia các đối tượng/ người thành các nhóm với các thành viên trong nhóm có các đặc trưng tương tự
Thí dụ : Bài toán phân khúc thị trường (Segmentation)
Phân loại hành vi mua (Typology)
Trang 78 CLUSTER ANALYSIS (PHÂN TÍCH NHÓM)
Quá trình thực hiện
Trang 79Thí dụ: Cluster analysis để phân khúc thị trường
Yêu cầu thang đo: metric
Công ty TICO: Xác định các Nhóm Khách Hàng khác
nhau căn cứ trên hành vi mua.
“Hãy đánh giá mức độ quan trọng của các yếu tố sau đây trong quyết định mua hàng của Ông/ Bà”
1 2 3 4 5 6 7 Không qtrọng Rất qtrọng
X1 – Chất lượng sản phẩm
X2 – Giá bánX3 – Thời gian giao hàng
X4 – Uy tín nhà sản xuất
X5 – Các dịch vụ đi kèm
Trang 80Thí dụ: Cluster analysis để phân khúc thị trường
Hơn 300 khách hàng được khảo sát
Nhóm 2
Khách hàng công nghiệp – sản xuất
Trang 81MULTIDIMENTIONAL SCALING (perceptual mapping)
Mục đích: Xác định số lượng và bản chất của các thứ
nguyên (dimensions) đặc trưng cho nhận thức/ đánh giá của khách hàng về các đối tượng
Thang đo: Cả hai loại thang metric/nonmetric
Trong MR: Thường được sử dụng trong bài toán xác định
vị trí tương đối (relative position) của các nhãn hiệu cạnh tranh nhau do phản hồi từ phía khách hàng
Xác định những yếu tố đặc trưng cho việc đánh giá của
khách hàng
Là phương pháp ngược với Cluster
Trang 83BẢN ĐỒ NHẠN THỨC VỀ CÁC THƯƠNG HIỆU TV MÀU
Độ bền
K iể u d á n g
nhãn hiệu TV ở HCMC