(i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu & Thống kê dữ liệu (ii) Đánh giá độ tin cậy Cronbach’s alpha (iii) Phân tích nhân tố khám phá EFA (iv) Phân tích tương quan Pearson (v) Mô hình hồi quy tuyến tính (vi) Kiểm định sau mô hình hồi quy tuyến tính (i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu & Thống kê dữ liệu (ii) Đánh giá độ tin cậy Cronbach’s alpha (iii) Phân tích nhân tố khám phá EFA (iv) Phân tích tương quan Pearson (v) Mô hình hồi quy tuyến tính (vi) Kiểm định sau mô hình hồi quy tuyến tính (i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu & Thống kê dữ liệu (ii) Đánh giá độ tin cậy Cronbach’s alpha (iii) Phân tích nhân tố khám phá EFA (iv) Phân tích tương quan Pearson (v) Mô hình hồi quy tuyến tính (vi) Kiểm định sau mô hình hồi quy tuyến tính (i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu & Thống kê dữ liệu (ii) Đánh giá độ tin cậy Cronbach’s alpha (iii) Phân tích nhân tố khám phá EFA (iv) Phân tích tương quan Pearson (v) Mô hình hồi quy tuyến tính (vi) Kiểm định sau mô hình hồi quy tuyến tính
Trang 1(i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu & Thống kê dữ liệu (ii) Đánh giá độ tin cậy Cronbach’s alpha
(iii) Phân tích nhân tố khám phá EFA (iv) Phân tích tương quan Pearson (v) Mô hình hồi quy tuyến tính (vi) Kiểm định sau mô hình hồi quy tuyến tính
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 2Trình bày: NKH NGÔ ĐỨC CHIẾN Lưu ý các bước thực hiện Mô hình
Nội dung (Thứ tự các bước thực hiện Mô hình)
Biến dạng thang đo Likert (Interval Scale)
Biến dạng thang đo
Ratio Scale
(i) Nhập liệu, Tạo biến mới, Mã hóa dữ liệu
& Thống kê dữ liệu
(ii) Đánh giá độ tin cậy Cronbach’s alpha ✓
(iii) Phân tích nhân tố khám phá EFA ✓
(iv) Phân tích tương quan Pearson ✓ ✓
Trang 3Trình bày: NKH NGÔ ĐỨC CHIẾN Biến dạng thang đo Likert
Trang 4Trình bày: NKH NGÔ ĐỨC CHIẾN Biến dạng thang đo Ratio Scale
Hoặc các chỉ tiêu Lãi suất, Lạm phát, GDP, Chỉ
Trang 5Hướng dẫn chạy mô hình hồi quy tuyến tính trên R
(Thống kê, Cronbach’s Alpha, EFA, Tương quan, Mô hình & Kiểm định sau mô hình)
Trang 6Nhập liệu, Tạo biến mới,
Mã hóa dữ liệu & Thống kê dữ liệu trên R
(Đọc & Giải thích kết quả sau khi thực hiện)
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 7Thống kê mô tả là một phân nhánh của thống kê, dùng để mô tả, tóm tắt và trình bày dữ liệu theo cách dễ hiểu và có
ý nghĩa Thống kê mô tả không cố gắng đưa ra suy luận hay kết luận mà chỉ tập trung vào việc trình bày và tóm tắt
dữ liệu đã thu thập được
A Các chỉ tiêu trung tâm (Measures of Central Tendency):
- Trung bình (Mean): Là giá trị trung bình của tập dữ liệu, được tính bằng tổng của tất cả các giá trị chia cho sốlượng các giá trị
- Trung vị (Median): Là giá trị giữa của tập dữ liệu khi các giá trị được sắp xếp theo thứ tự tăng dần hoặc giảm dần.Nếu số lượng giá trị là lẻ, trung vị là giá trị ở vị trí giữa Nếu số lượng giá trị là chẵn, trung vị là trung bình của haigiá trị ở giữa
- Mode (Giá trị phổ biến nhất): Là giá trị xuất hiện nhiều nhất trong tập dữ liệu Một tập dữ liệu có thể có một mode,nhiều mode hoặc không có mode nào nếu không có giá trị nào lặp lại
Lý thuyết Thống kê dữ liệu cần biết
Trang 8B Các chỉ tiêu phân tán (Measures of Dispersion):
- Phạm vi (Range): Là khoảng cách giữa giá trị lớn nhất và nhỏ nhất trong tập dữ liệu
- Độ lệch chuẩn (Standard Deviation): Là một chỉ số đo lường độ phân tán của các giá trị dữ liệu so với trungbình Độ lệch chuẩn càng lớn, dữ liệu càng phân tán
- Phương sai (Variance): Là bình phương của độ lệch chuẩn, biểu thị mức độ phân tán của các giá trị dữ liệu
- Interquartile Range (IQR - Khoảng giữa các phần tư): Là khoảng cách giữa phần tư thứ nhất (Q1) và phần tưthứ ba (Q3) của dữ liệu IQR loại bỏ ảnh hưởng của các giá trị ngoại lệ và thể hiện phân tán trung bình của dữliệu
IQR = Q3 - Q1
Trang 9C Các chỉ tiêu hình dạng phân phối (Measures of Distribution Shape):
- Skewness (Độ lệch): Đo lường mức độ bất đối xứng của phân phối dữ liệu Nếu độ lệch dương, phân phối lệchphải (có đuôi dài bên phải) Nếu độ lệch âm, phân phối lệch trái (có đuôi dài bên trái)
- Kurtosis (Độ nhọn): Đo lường mức độ nhọn hoặc phẳng của phân phối so với phân phối chuẩn Kurtosis dươngcho biết phân phối có đỉnh cao và đuôi dài Kurtosis âm cho biết phân phối phẳng và đuôi ngắn hơn
Trang 10D Các biểu đồ thống kê mô tả:
- Biểu đồ tần suất (Frequency Distribution): Hiển thị tần suất xuất hiện của các giá trị trong dữ liệu
- Histogram (Biểu đồ cột): Dùng để mô tả phân phối của dữ liệu liên tục, bằng cách chia dữ liệu thành cáckhoảng và đếm số lượng giá trị trong mỗi khoảng
- Boxplot (Biểu đồ hộp): Hiển thị thông tin về trung vị, khoảng giữa các phần tư (IQR), và các giá trị ngoại lệ của
dữ liệu
- Biểu đồ hình tròn (Pie Chart): Thể hiện tỷ lệ phần trăm của các phần tử trong tập dữ liệu danh mục
- Biểu đồ đường (Line Chart): Thể hiện sự thay đổi của dữ liệu theo thời gian hoặc thứ tự
Trang 11Các câu lệnh về Nhập liệu & Tổng quan về dữ liệu
Trang 12Các câu lệnh về Nhập liệu & Tổng quan về dữ liệu
Trang 13Các câu lệnh về Tạo biến mới
Trang 14Các câu lệnh về Mã hóa dữ liệu
12 > MHAtrungbinh=Atrungbinh Cho biến mới MHAtrungbinh bằng biến cần mã hóa Atrungbinh
13 > MHAtrungbinh[Atrungbinh<=2]<-1 Các giá trị Atrungbinh <= 2 gán giá trị 1
14 > MHAtrungbinh[Atrungbinh>2&Atrungbinh<=4]<-2
Các giá trị Atrungbinh lớn hơn 2 và nhỏ hơn hoặc bằng 4 gán giá trị 2
15 > MHAtrungbinh[Atrungbinh>4.1]<-3 Các giá trị Atrungbinh lớn hơn 4 gán giá trị 3
16 > ATB=data.frame(Atrungbinh,MHAtrungbinh) Tạo thành 1 data.frame với tên gọi là ATB
17
> ATB
Có thể không thực hiện câu lệnh này Liệt kê kết quả ATB xem có đúng như ý muốn không
Trang 15Các câu lệnh về Mã hóa dữ liệu
18 > MHFtrungbinh=Ftb Cho biến mới MHFtrungbinh bằng biến cần mã hóa Ftb
19 > MHFtrungbinh=replace(MHFtrungbinh,Ftb<=2,1) Các giá trị Ftb <= 2 gán giá trị 1
20 > MHFtrungbinh=replace(MHFtrungbinh,Ftb>2&Ftb<=4,2)
Các giá trị Ftb lớn hơn 2 và nhỏ hơn hoặc bằng 4 gán giá trị 2
21 > MHFtrungbinh=replace(MHFtrungbinh,Ftb>4,3) Các giá trị Ftb lớn hơn 4 gán giá trị 3
22 > FTB=data.frame(Ftb,MHFtrungbinh) Tạo thành 1 data.frame với tên gọi là FTB
23
> FTB
Có thể không thực hiện câu lệnh này Liệt kê kết quả FTB xem có đúng như ý muốn không
Trang 16Các câu lệnh về Mã hóa dữ liệu
26 > GTINHMH=replace(GTINHMH,GTINH==2,"Nu")
Các giá trị 2 của biến GTINH mã hóa là Nu Lưu ý: GTINH==2 là có 2 dấu = liên tục và chữ Nu trong 2 dấu ngoặc kép
27 > GTMH=data.frame(GTINH,GTINHMH) Tạo thành 1 data.frame với tên gọi là GTMH
28 > GTMH
Có thể không thực hiện câu lệnh này Liệt kê kết quả GTMH xem có đúng như ý muốn không
Trang 17Các câu lệnh về Thống kê dữ liệu
29 > summary(A1) Thống kê các giá trị cơ bản: Mean, Median, Min, Max
Trang 18Độ tin cậy Cronbach’s Alpha trên R
(Đọc & Giải thích kết quả sau khi thực hiện)
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 19Cronbach's alpha là một chỉ số thống kê được sử dụng để đánh giá độ tin cậy, hay mức độ nhất quán nội tại, của
một thang đo hoặc bộ câu hỏi Độ tin cậy này biểu thị mức độ mà các mục trong thang đo có liên quan chặt chẽ
với nhau và đo lường cùng một khái niệm cơ bản
** Ý nghĩa của Cronbach's Alpha:
- Giá trị của Cronbach's alpha từ 0.6 trở lên có thể chấp nhận được đối với các nghiên cứu mới
- Giá trị của Cronbach's alpha từ 0.7 trở lên thường được coi là chấp nhận được trong các nghiên cứu khoa học xãhội, cho thấy thang đo có độ tin cậy tốt
- Giá trị từ 0.8 trở lên cho thấy thang đo có độ tin cậy cao
- Giá trị từ 0.9 trở lên được coi là rất tốt, tuy nhiên, nếu quá cao (gần 1) có thể cho thấy các mục trong thang đo
quá giống nhau và không cần thiết phải có nhiều mục như vậy
Lý thuyết Cronbach’s Alpha cần biết
Trang 20** Hệ số tương quan biến tổng của từng biến/thang đo phải từ 0.3 trở lên
** Các yếu tố ảnh hưởng đến Cronbach's Alpha:
- Số lượng các mục (items): Số lượng mục càng nhiều, giá trị Cronbach's alpha thường sẽ cao hơn
- Mối tương quan giữa các mục: Mức độ tương quan giữa các mục càng cao thì giá trị alpha càng cao
- Độ phân biệt của các mục: Các mục cần có sự đa dạng để tránh tình trạng các mục quá giống nhau, dẫn đếnalpha quá cao và không cần thiết
Lý thuyết Cronbach’s Alpha cần biết
Trang 21Các câu lệnh về Đánh giá độ tin cậy Cronbach’s Alpha
34 > library(psych) Gói câu lệnh psych hỗ trợ cho các biến đưa vào phân tích độ tin cậy
Cronbach's alpha
35 > fa=data.frame(A1,A2,A3,A4,A5)
Tạo biến fa dưới dạng dữ liệu data.frame để phần mềm R xử lý, biến này
là tập hợp các biến thành phần/thang đo A1, A2, A3, A4, A5 Lưu ý: fa là do nhà phân tích tự đặt, fa là viết tắt của Factor A = nhân tố
A, các bạn có thể đặt theo tên mình thích
36 > alpha(fa) Tính toán Cronbach's Alpha cho nhân tố A, kết quả sẽ hiển thị giá trị hệ
số Cronbach's alpha, hệ số tương quan biến tổng của từng biến/thang đo
Tương tự cho các nhân tố khác
Trang 22Phân tích nhân tố khám phá EFA trên R
(Đọc & Giải thích kết quả sau khi thực hiện)
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 23** Phân tích EFA (Exploratory Factor Analysis) sử dụng trong các trường hợp sau:
- Nhận diện các khía cạnh hay nhân tố giải thích được các liên hệ tương quan trong một tập hợp biến
- Nhận diện một tập hợp gồm một số lượng biến mới tương đối ít không có tương quan với nhau để thay thế tậphợp biến gốc có tương quan với nhau để thực hiện một phân tích đa biến tiếp theo
-Để nhận ra một tập hợp gồm một số ít các biến nổi trội từ một tập hợp nhiều biến để sử dụng trong các phân tích
đa biến kế tiếp
Lý thuyết phân tích nhân tố EFA cần biết
Trang 24** Các chỉ số cần lưu ý khi phân tích EFA:
- Trị số của KMO lớn (từ 0,5 đến 1) là điều kiện đủ để phân tích nhân tố thích hợp Kiểm định Barlett có ý nghĩa(Sig < 0,05)
- Điểm dừng khi trích các yếu tố Eigenvalue > 1 và tổng phương sai trích > 50%
- Các biến có hệ số tải nhân tố (factor loading) < 0,5 sẽ tiếp tục bị loại
Phân tích nhân tố khám phá (Exploratory Factor Analysis - EFA) là một kỹ thuật thống kê được sử dụng để xácđịnh cấu trúc cơ bản của một tập hợp các biến quan sát Mục đích chính của EFA là khám phá các mô hình ẩn (ẩnsố) trong dữ liệu và giảm bớt số lượng biến quan sát thành một tập hợp nhỏ hơn các nhân tố (factor) có ý nghĩa
Lý thuyết phân tích nhân tố EFA cần biết
Trang 25Các câu lệnh về Phân tích EFA nhóm nhân tố độc lập
39 > cortest.bartlett(abcde) Tính toán hệ số kiểm định Bartlett's test với hệ số Sig của nó
40 > KMO(abcde) Tính toán chỉ số KMO
Trang 26Các câu lệnh về Phân tích EFA nhóm nhân tố độc lập
43 > fitabcde3<-principal(abcde,nfactors=5,rotate="varimax")
> fitabcde3
Kế thừa từ fitabcde2, ta sử dụng phương pháp xoay Varimax
để tìm được hệ số tải nhân tố của các biến/thang đo thuộc 5 nhóm nhân tố đã phát hiện được
44
> fa.plot(fitabcde3) "Có thể không thực hiện câu lệnh này"
> biplot(fitabcde3) "Có thể không thực hiện câu lệnh này"
> fa.diagram(fitabcde3) "Có thể không thực hiện câu lệnh này"
Đồ thị theo kết quả phân tích EFA
Trang 27Các câu lệnh về Phân tích EFA nhân tố phụ thuộc
47 > cortest.bartlett(ff) Tính toán hệ số kiểm định Bartlett's test với hệ số Sig của nó
Trang 28Các câu lệnh về Phân tích EFA nhân tố phụ thuộc
51 > fitff3<-principal(ff,nfactors=1,rotate="varimax")
> fitff3
Kế thừa từ fitff2, ta sử dụng phương pháp xoay Varimax để tìm được hệ số tải nhân tố của các biến/thang đo thuộc 1 nhóm nhân tố đã phát hiện được
44
> fa.plot(fitff3) "Có thể không thực hiện câu lệnh này"
> biplot(fitff3) "Có thể không thực hiện câu lệnh này"
> fa.diagram(fitff3) "Có thể không thực hiện câu lệnh này"
Đồ thị theo kết quả phân tích EFA
Trang 29Phân tích tương quan Pearson trên R
(Đọc & Giải thích kết quả sau khi thực hiện)
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 30Lý thuyết phân tích tương quan Pearson, hay còn gọi là hệ số tương quan Pearson, là một phương pháp thống kê dùng để đo lường mức độ quan hệ tuyến tính giữa hai biến số định lượng Hệ số tương quan Pearson được ký hiệu bằng r và có giá trị nằm trong khoảng từ -1 đến 1.
** Mức ý nghĩa Sig.:
- Sig < 1%: Có ý nghĩa thống kê rất chặt chẽ.
- Sig < 5%: Có ý nghĩa thống kê.
- Sig > 5%: Không có ý nghĩa thống kê.
Thường các nhà nghiên cứu chọn mức ý nghĩa 5%
** Điều kiện áp dụng:
- Hai biến số phải là biến số định lượng.
- Quan hệ giữa hai biến số phải là quan hệ tuyến tính.
- Phân phối của hai biến số nên là phân phối chuẩn (hoặc ít nhất là không quá lệch).
Lý thuyết phân tích tương quan cần biết
Trang 31** Giá trị của r:
- r = 1: Hai biến số có mối quan hệ tuyến tính dương hoàn hảo.
- r = -1: Hai biến số có mối quan hệ tuyến tính âm hoàn hảo.
-r = 0: Không có mối quan hệ tuyến tính giữa hai biến số.
** Ý nghĩa của hệ số tương quan Pearson r:
- Từ +/- 0,01 đến +/-0,1: Mối tương quan quá thấp, không đáng kể
- Từ +/- 0,2 đến +/-0,3: Mối tương quan thấp
- Từ +/- 0,4 đến +/-0,5: Mối tương quan trung bình
- Từ +/- 0,6 đến +/-0,7: Mối tương quan cao
- Từ +/- 0,8 trở lên: Mối tương quan rất cao
Ví dụ: r = 0,525 thể hiện mối tương quan dương/tích cực ở mức độ trung bình
Lý thuyết phân tích tương quan cần biết
Trang 32Các câu lệnh về Phân tích tương quan Pearson
53 > cor(Atb,Ftb) Tính toán hệ số tương quan Pearson giữa 2 biến Atb và Ftb
54 > cor.test(Atb,Ftb) Tính toán hệ số tương quan Pearson và hệ số Sig giữa 2 biến Atb và Ftb
55 > plot(Atb~Ftb,xlab="Atb",ylab="Ftb")
Có thể không thực hiện câu lệnh này Đồ thị tương quan giữa 2 biến Atb và Ftb
56 > abline(lm(Atb~Ftb))
Có thể không thực hiện câu lệnh này
Đồ thị tương quan giữa 2 biến Atb và Ftb có đường thẳng thể hiện chiều hướng tương quan
Trang 33Các câu lệnh về Phân tích tương quan Pearson
53 > cor(Atb,Ftb) Tính toán hệ số tương quan Pearson giữa 2 biến Atb và Ftb
54 > cor.test(Atb,Ftb) Tính toán hệ số tương quan Pearson và hệ số Sig giữa 2 biến Atb và Ftb
55 > plot(Atb~Ftb,xlab="Atb",ylab="Ftb")
Có thể không thực hiện câu lệnh này Đồ thị tương quan giữa 2 biến Atb và Ftb
56 > abline(lm(Atb~Ftb))
Có thể không thực hiện câu lệnh này
Đồ thị tương quan giữa 2 biến Atb và Ftb có đường thẳng thể hiện chiều hướng tương quan
Trang 34Các câu lệnh về Phân tích tương quan Pearson
53 > cor(Atb,Ftb) Tính toán hệ số tương quan Pearson giữa 2 biến Atb và Ftb
54 > cor.test(Atb,Ftb) Tính toán hệ số tương quan Pearson và hệ số Sig giữa 2 biến Atb và Ftb
55 > plot(Atb~Ftb,xlab="Atb",ylab="Ftb")
Có thể không thực hiện câu lệnh này Đồ thị tương quan giữa 2 biến Atb và Ftb
56 > abline(lm(Atb~Ftb))
Có thể không thực hiện câu lệnh này
Đồ thị tương quan giữa 2 biến Atb và Ftb có đường thẳng thể hiện chiều hướng tương quan
Trang 35Mô hình hồi quy tuyến tính trên R
(Đọc & Giải thích kết quả sau khi chạy mô hình)
PHÂN TÍCH DỮ LIỆU KHOA HỌC
Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 36✓ Sig của kiểm định t: Xem xét ý nghĩa thống kê các biến/nhân tố trong mô hình
✓ R bình phương, R bình phương hiệu chỉnh: Độ tin cậy của mô hình
✓ Giá trị Sig trong kiểm định F: Kiểm định sự phù hợp của mô hình
✓ Durbin – Watson: Kiểm định sự tự tương quan
✓ Hệ số phóng đại phương sai VIF: Kiểm định hiện tượng đa cộng tuyến
Lý thuyết mô hình cần biết
Trang 37Giá trị Sig của kiểm định t trong bảng Coefficients được sử dụng để kiểm định ý nghĩa của hệ số hồi quy.Nếu Sig kiểm định t của hệ số hồi quy của một biến/nhân tố độc lập nhỏ hơn 0,05; ta kết luận biến/nhân tố độclập đó có tác động đến biến/nhân tố phụ thuộc.
Nếu Sig kiểm định t của biến/nhân tố độc lập lớn hơn 0,05; chúng ta kết luận biến/nhân tố độc lập đó không có
sự tác động lên biến/nhân tố phụ thuộc, và không cần loại bỏ biến đó để chạy lại hồi quy lần tiếp theo, nhưng nếumuốn, bạn có thể loại biến/nhân tố có Sig > 0,05 để chạy lại mô hình hồi quy mới Mỗi biến/nhân tố độc lậptương ứng với một hệ số hồi quy riêng, do vậy mà ta cũng có từng kiểm định t riêng (Hair & cộng sự, 2014)
Lý thuyết mô hình cần biết
Trang 38Giá trị R 2 (R Square), R 2 hiệu chỉnh (Adjusted R Square)
Giá trị R2và R2 hiệu chỉnh phản ánh mức độ giải thích biến phụ thuộc của các biến độc lập trong mô hình hồiquy R2 hiệu chỉnh phản ánh sát hơn so với R2 Mức dao động của 2 giá trị này là từ 0 đến 1, tuy nhiên việc đạtđược mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào
Cần chú ý, không có tiêu chuẩn chính xác R2 hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ sốnày nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu Thường chúng
ta chọn mức trung gian là 0,5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0,5 đến 1 thì mô hình là tốt, béhơn 0,5 là mô hình chưa tốt
Tuy nhiên, tùy vào dạng nghiên cứu và dạng dữ liệu, không phải lúc nào cũng bắt buộc rằng mô hình hồi quyphải đạt giá trị R2 hiệu chỉnh lớn hơn 0.5 mới có ý nghĩa
Lý thuyết mô hình cần biết