Thông kê tần số Cũng giống như thống kê tần suất, phương pháp này tính toán số lần xuất hiện của từng giá trị trong tập dữ liệu, nhưng biểu đỗ tần số cung cấp một cái nhìn trực quan hơn
Trang 1
TRUONG DAI HOC DONG THAP KHOA KINH TE
Đồng Tháp, tháng 01/2024
1
Trang 2
DANH SÁCH THÀNH VIÊN NHÓM
Trang 3MỤC LỤC
1 Định nghĩa và mục tiêu của thống k6 M6 ta eile eecceeceeeceeesesececeeeeesesecescevausnees 4
2 Các đại lượng giới thiệu trong phương pháp thống kê mô tả 2 s2 4
2.1 Mô tả lẬP TƯHHE nh nh HH Hà KH KHE hấu 4
2.2 M6 tt PAGAN cocci ccc ố x4d 4
23 MO te WINN MGI an nốt 3
3 Một số phương pháp thống kê mô tả 52-5 S2 SE SE 5E5112121121112112111 2111 te 5
3.1 Thống kê tẪN SuẤT Ă SE EEE11E112 21 1222112 a 5
3.2 Thống kê tẪN SỐ S1 SE 221211111211 1212 a 8
3.3 So sánh thông kê tân suất và thông kê tấn số cscs ests tees cseee eevee 9
3.4 Thông kê trị trung ĐÌHÌ, ch E2 HH rung 9
3.5 Phân tích bảng CHÉO c chàng HH HH HH HH HH 10
3.6 So sánh thống kê trị trung bình và phân tích bảng chéo 5: 10
IL Phương pháp phân tích dữ liệu dịnh lượng 11
1 Kiểm định độ tin cậy Cronbachˆs Alpha - 1 2222211112211 1 1251112111222 11
2 Phan tich nhan t6 kham pha cccccccccccccccccecesssesessesecssesesssscssesseseesevstesseseseesees 16
2.1 Phép trich Principal Components Analysis (PCA) 0ccccccccccetettttten 16
2.2 Phép trich Principal Axis PFactoring (PA) con He 1ó
2.2.1 Tổng phương sai trÍCẲ - ch Ea 17 2.2.2 Hệ số KMO (Kaiser-Meyer-Ollki) che IS 2.2.3 So sánh tổng phương sai trích và hệ số KMO c5: I8 2.2.4 Kiém dinh Bartlett (Bartlett's test of Sphevicity) ccccccccccccccccevesve 19 2.2.5 Hệ số tai nhdin t6 (Factor LOAdING) cccccccccccccsccsvesvsscss its vsesteeeseeeees 19 2.2.6 So sanh kiém dinh Bartlett vat hé 86 tai NAGN t6 ccccccccccccecscsccevesees 21
3 Phân tích tương quan -. 1c 2212211 1211121 1111111122112 111812111111 1 2011118111 21
4 Phân tích hồi quy bội 2-5 S1 1E 11E2111211211111111211121 11211111 rre 24
4.1 Uóc lượng hồi quy tuyến tính bằng QLẲ à cà ác Site rye 25
4.2 Độ phù hợp của mô hình và phẩN dhựư 5S Et tntHr ng rgu 26
4.3 Ý nghĩa của hệ số hồi qHỤ n2 HH2 re 27
Trang 4CHUONG 7 PHUONG PHAP THONG KE MO TA
VA PHAN TICH DU LIEU DINH LUONG
I Phuong pháp thống kê mô tả:
1 Định nghĩa và mục tiêu của thống kê mô tả:
- Định nghĩa: thống kê mô tả là các là các hệ số mô tả ngắn gọn hay tóm tắt một
dữ liệu nhất định, có thể là đại điện cho toàn bộ hoặc một mẫu của một tong thé
- Thống kê mô tả được chia thành đo lường xu hướng tập trung và đo lường biến động
- Đo lường xu hướng tập trung có giá trị trung bình, trung vị, và yếu vi, trong khi các đo lường biến động gồm độ lệch chuẩn, phương sai, độ nhọn và độ xiên
- Mục tiêu: của thông kê mô tả được sử dụng để cung cấp những thông tin định lượng phức tạp của một bộ dữ liệu lớn thành các mô tả đơn giản
2 Các đại lượng giới thiệu trong phương pháp thống kê mô tả:
- Mode: mode là giá trị có tầng số xuất hiện lớn nhất của một tập hợp các số đo 2.2, M6 ta phan tan
- Khoảng: khoảng là khoảng cách giữa giá trị lớn nhất va giá trị nhỏ nhất của một
tầng số đo
- Khoảng tứ phân vị: thường được xác định bằng cách chia đữ liệu thành 4 phần bằng nhau, va sau do tim gia tri tại các vị trí tương ứng Có 2 cách chính để tính tứ phân vị: cách truyền thông và cách sử dụng phần trăm
Cách 1: Tỉnh theo cách truyền thống, đề tỉnh tứ phân vị bằng cách truyền thống
ta cẩn:
Sắp xếp dữ liệu theo thứ tự tăng dân:
> Tìm vị trí tứ phân vị thứ nhất (Q1), nằm ở (n+1)⁄4 vị trí trong day đữ liệu
> Tìm vị trí tứ phân vị thứ hai (Q2), nằm ở (2n+1)⁄4 vị trí trong day đữ liệu
4
Trang 5> Tim vị trí tứ phân vị thứ ba (Q3), nằm ở (3n+1)⁄4 vị trí trong dãy dữ liệu
> Tinh gia trị tại các vị trí Q1, Q2, Q3
3 Một số phương pháp thống kê mô tả:
3.1 Thông kê tần suất
Phương pháp nảy đo lường sự phân bố của một biến mục tiêu tron tập dữ liệu
Nó tính toán số lần xuất hiện của từng giá trị và hiến thị chúng trong bảng tần suất Điều này giúp chúng ta hiểu rõ hơn về sự phân phối của dữ liệu
Đề lập bảng tần suất ta xác định như sau:
- Tần số: Tần số của một giá trị x là số lần xuất hiện của giá trị x trong bảng số
liệu thông kê
- Tần suất: Tần suất được định nghĩa chính là tỉ số f gitra tần số và kích thước của tập hợp các đơn vị điều tra
- Giả sử đấy n số liệu thống kê đã cho có k giá trị khác nhau là xi,X¿, ,X⁄ VỚI k<n Khi đó ta gọi số lần xuất hiện gia tri x, trong day số n số liệu thong kê đã cho là tân sô của ø1á trị đó, kí hiệu nạ, từ đó ta có: nị†nạ+ + =n Tỉ số f = nựn được gọi là
Trang 6tần suất của giá trị xi với (1<i<k), người ta thường viết tần suất dưới dạng tỉ số phần trăm, từ đó ta có: fi +h + +f = 100%
- Tan số, tần suất của lớp:
Giả sử n số liệu thống kê đã cho được phân vào k lớp không giao nhau (k<n)
> Bước 2: Tính tần suat fi = n/nx 100% cua gia tri xi voi (1<i<k)
> Bước 3: Tập hợp các kết quả tìm được ở bước trên (các giá trị x;, tan số
nj, tần suất f,) thành một bảng Trong bảng, các giá trị x¡ thường được xếp theo thứ tự tăng dần hoặc giảm dan
- Ví dụ minh họa: Cho các số liệu thông kê ghi trong bảng sau là tuổi thọ của 30 bóng đèn điện được thắp thử (đơn vị: giờ) Hãy lập bảng tần số và bảng tần suất
Trong n = 30 số liệu đã cho có 5 giá trị khác nhau: xị = 115, x; = 116, x3 = 117, x; =118, x;= 119
Tần số của các gia tri nay 1an lvot 1a: mn, = 3, mo = 6, ns = 12, ny = 6, ns =3
Từ đó, ta có bảng tân sô như sau:
Trang 7- Ý nghĩa: Các bảng tần số, tần suất ghép lớp phản ánh tình hình phân bố của các
số liệu thống kê Dữ liệu được hiển thị sẽ được sắp xếp theo dang 214 tri (hay biến của tập dữ liệu), tần số (số lần xuất hiện của tập dữ liệu) và tần suất (phần trăm số lần xuất hiện của tập dữ liệu)
3.2 Thông kê tần số
Cũng giống như thống kê tần suất, phương pháp này tính toán số lần xuất hiện của từng giá trị trong tập dữ liệu, nhưng biểu đỗ tần số cung cấp một cái nhìn trực quan hơn về sự phân bô của dữ liệu
Trang 8- Ví dụ minh hoa: Dựa theo ví dụ minh họa Ì ta có được bảng tần số như sau:
Từ bảng trên, ta có thê xác định rằng có 12 bóng đèn điện có tuôi thọ 117 giờ, lần
lượt 6 bóng đèn điện có tuôi thọ 116 và 118 giờ, lần lượt 3 bóng đèn điện có tuổi thọ
115 và 119 giờ Hơn thế, ta có thể biểu diễn nó dưới dạng biêu đồ đề được cái nhìn tổng quan về sự phân bố của biến định lượng trong tập dữ liệu, từ đó có thể rút ra những kết luận hoặc thực hiện các phân tích thống kê khác
Trang 93.3 So sánh thông kê tần số và thông kê tần suất
3.4 Thông kê trị trung bình
Phương pháp nảy tính toán giá trị trung bình của một biến Trị trung bình được tính bằng cách cộng tông các giá trị của biến rồi chia cho tổng số quan sát Điều này cho phép chúng ta có một số liệu thống kê đại diện cho biến
- Ví dụ minh họa; Giả sử có một nhóm học sinh gồm 5 NĐƯỜI, VỚI số điểm môn Toán của mỗi người như sau: 7, 8, 9, 6, và 8 Để tính trị trung bình của điểm số nảy, ta thực hiện các bước sau:
- Cộng tổng các ø1á trị điểm số lại: 7+8 +9+6+8=38
- Chia tong vừa tính được cho số lượng học sinh: 38 / 5 = 7.6
Vậy trung binh cộng của nhóm học sinh này là 7.6 điểm Trung bình cộng thé hiện giá trị trung bình của số liệu, là kết quả mà chúng ta nhận được sau khi lay tong của các giá trị và chia cho số lượng
Trị trung bình có thé str dung để đại điện cho nhóm dữ liệu, øIúp ta có cái nhìn tong quan về trung bình của sự phân phối các dữ liệu đó
3.5 Phân tích bảng chéo
Trang 10- Phương pháp này sử dụng các bảng chéo để xem xét mối quan hệ giữa hai biến
Nó giúp chúng ta tìm thấy mẫu và sự tương quan giữa các biến và thậm chí phát hiện được mối quan hệ gây ảnh hưởng đến kết quả của chúng ta
- Bằng việc sử dụng bảng chéo ta có thể phân tích được các cột và dòng của nó thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa
- Ví dụ minh họa: Hãy xem xét một nghiên cứu về tần suất mắc bệnh (bệnh nhóm
A và bệnh nhóm B) dựa trên hai nhóm tuôi (nhóm trẻ em và nhóm người lớn) Bảng chéo có thể được sử dụng đề phân tích mối liên hệ giữa nhóm tuôi và ty lệ mắc bệnh Dựa trên dữ liệu thu thập, chúng ta có thể tạo ra một bảng chéo như sau:
B trong nhóm người lớn cao hơn so với tỷ lệ mắc bệnh nhóm A trong nhóm trẻ em Phân tích bảng chéo giúp chúng ta hiểu rõ hơn về mối liên hệ giữa các biến định tính và có thể đưa ra những phân tích thống kê định lượng để kiểm định tính liên quan 3.6 So sánh thông kê trị trung bình và phân tích bảng chéo
- Giống nhau: cả hai đều liên quan đến tính toán giá trị trung bình của biến
xét mối liên hệ giữa chúng Phân tích bảng chéo thường được sử dụng trong các bảng
đữ liệu phân loại để xác định mối quan hệ p1ữa các biến độc lập và phụ thuộc
- Ví dụ; Giả sử chúng ta có một bảng dữ liệu về việc mua hàng trực tuyến của nam và nữ Bảng chéo có thể giúp chúng ta xem xét tý lệ nam và nữ mua hang online, đồng thời xác định mức độ ảnh hướng của giới tính đến hành vi mua hàng của họ
10
Trang 11
> Tom lai, tri trung bình và phan tich bang chéo là hai phương pháp thống kê khác nhau, mỗi phương pháp đều có ứng dụng và lợi ích riêng trong việc phân tích đữ liệu
H Phương pháp phân tích dữ liệu định lượng
1 Kiểm định độ tin cdy Cronbach’s Alpha
- _ Khái niệm tính nhất quán nội bộ của một yếu tố:
Tính nhất quán nội bộ nghĩa là các biến quan sát trong một thang đo phải có sự tương quan chặt chẽ nhau, cùng giải thích cho một khái nệm Cronbach's Alpha là một chỉ số đo lường tính nhất quán nội bộ này Nếu một thang đo mà các biến quan sát có
sự tương quan càng chặt chẽ, thang đo đó càng có tính nhất quán cao, hệ số Cronbach’s Alpha sé cang cao
Hệ số Cronbach’s Alpha co giá trị biến thiên trong đoạn [0,1] Mức 0 nghĩa là các biến quan sát trong nhóm gần như không có một sự tương quan nào, mức 1 nghĩa
là các biến quan sát tương quan hoàn hảo với nhau, hai mức 0 và 1 hiếm khi xảy ra trong phân tích dữ liệu Một số trường hợp xuất hiện hệ số Cronbach's Alpha âm vượt ngoài đoạn giới hạn [0,1], luc này thang đo hoàn toàn không có độ tin cậy, không có tính đơn hướng, các biến quan sát trong thang đo đối lập, ngược chiều nhau
Theo Nunnally (1978), một thang đo tốt nên có độ tin cậy Cronbach's Alpha từ 0.7 trở lên Hair và cộng sự (2009)2 cũng cho rằng như thế
Có 2 tiêu chuẩn cần xem xét khi kiểm định Cronbach's Alpha trên SPSS:
- Tiêu chuẩn 1: Hệ số Cronbachˆs Alpha của thang đo từ 0.7 trở lên, riêng với các nghiên cứu khám phá sơ bộ hệ số này từ 0.6 trở lên
- Tiêu chuẩn 2: Giá trị Corrected Item — Total Correlation của các biến quan sát
từ 0.3 trở lên
- Khi loại biến quan sát cần lưu ý loại lần lượt từng biến, bắt đầu từ biến quan sát
có Corrected Item — Total Correlation thấp nhất Sau khi loại một biến quan sát, thực
hiện kiểm định lại Cronbachˆs Alpha để đánh giá độ tin cậy thang đo mới, nếu thang
đo đã tốt rồi thì dừng việc loại biến
Ví du minh hoa: Dé thực hiện kiểm định độ tin cay thang do Cronbach’s Alpha trong SPSS 20, chung ta vao Analyze > Scale > Reliability Analysis
11
Trang 12jocVan | Gi Compare Means ' hạp TN1| TN2| TN3 | TN4 UNS | oT) DT2 Í DT3 | D
3 General Linear Model mp2) 4 3 § 3 5 44 2
3 GeneralizedLinear Models+' | 1 § 5 4 4 §& 4 4
2 Nonparametric Tests b Multidimensional Unfolding (PREFSCAL)
2 Forecasting * | muttidimensional Scaling @ROXSCAL)
1 sản ; Multidimensional Scaling (AL SCAL)
Dưới đây mình sẽ phân tích mẫu cho 4 thang đo đại diện cho 4 trường hợp phổ
biến hay gặp khi thực hiện kiểm định Cronbach Alpha trên SPSS:
- THI: Thang do dat dé tin cậy, biến quan sát có ý nghĩa:
Thyc hién phan tich Cronbach's Alpha cho thang do TN, dua 5 bién quan sat TNI-TN5 vào mục Items bên phải Tiếp theo chọn vào Statistics
‹- DT1
# DT2
‹ 013 4ˆ DT4
Trang 13SummatfieS———————————————————I_ [ANOVA Table ("| Means © None [—] Variances O€Ftest [—Ì Covariances © Friedman chi-square [—] Correlations © Cochran chi-square Í—1 Hotelling's T-square [—1 Tukeys test of additivity
-_¡ Intraclass correlation coefficient
4 LD2 + LD4 Model: mm
Scale label: | |
© (OK) Baste | Reset (Cancel) | Help |
Kết quả kiếm định độ tin cậy thang đo Cronbachˆs Alpha của thang đo TN như
Trang 14
(Corrected Item — Total Correlation) lớn hơn 0.3 Như vậy thang đo đạt độ tin cậy, các biến quan sát đều có ý nghĩa giải thích tốt cho nhân tô TN
- _ TH2: Thang đo đạt độ tin cậy, có biển quan sát không có ý nghĩa:
Thực hiện phân tich Cronbach's Alpha cho thang do DT tuong ty nhu thang do
TN, kết quả có được như sau:
Reliability Statistics
Cronbach's
684 4 Item-T otal Statistics
DT1 11.16 6.137 283 763 DT2 10.38 6.109 538 581 DT3 10.46 5.866 520 585 DT4 10.32 5.770 596 542
> Kết quả kiêm định cho thay: (1) hé so d6 tin cay thang do Cronbach's Alpha cua DT bằng 0.684 > 0.6 và (2) biến quan sát DT1 có tương quan biến - tông
(Corrected Item — Total Correlation) bang 0.283 < 0.3 Bién quan sat DT1 giải thích ý
nghia rat yếu cho nhân tổ DT nên sẽ được loại bỏ khỏi thang đo Phân tích Cronbach's
- TH3: Thang do dat độ tin cậy, bién quan sát có ÿ nghĩa, có hệ số Cronbach's Alpha if Item Deleted lén hon Cronbach's Alpha của thang đo:
14
Trang 15
Cronbach's Alpha N ofltems
749 5 Item-Total Statistics
Scale Mean if Variance if Item-Total Alpha if item Item Deleted Item Deleted Correlation Deleted LD1 15.07 7.361 590 675 LD2 15.05 7.860 558 888
LD4 14.97 7.835 561 687 LD5 14.88 9.031 572 698
=> Biến quan sát LD3 có hệ số Cronbach's Alpha if Item Deleted bang 0.768 lon hơn hệ số Cronbach's Alpha của thang đo LD là 0.749 Tuy nhiên, hệ số tương quan biến tổng của biến là 0.342 > 0.3 và Cronbach's Alpha của thang đo đã trên 0.6, thậm chí còn trên cả 0.7 rồi Do vậy chúng ta không cần loại biến LD3 trong trường hợp này
- TH: Thang do đạt độ tin cậy, biến quan sát có ÿ nghĩa, có hệ số Cronbach's Alpha if Item Deleted lén hon Cronbach's Alpha cua thang đo
Reliability Statistics
Cronbach's
Item-T otal Statistics
DK2 10.33 6.083 218 390 DK3 9.89 5.138 304 299
» Cronbach's Alpha: Hé s6 Cronbach's Alpha
> Nof Items: S6 lugng bién quan sat
15
Trang 16> Scale Mean if Item Deleted: Trung bình thang đo nếu loại biến
> Scale Variance if Item Deleted: Phuong sai thang đo nêu loại biến
> Corrected Item-Total Correlation: Tuong quan bién tong
> Cronbach's Alpha if Item Deleted: Hé s6 Cronbach's Alpha néu loai bién
2 Phân tích nhân tố khám phá
Phân tich nhan t6 (Factor Analysis) hay phan tích nhân tố khám phá (Exploratory Factor Analysis) la mot kỹ thuật xử lý định lượng với mục đích rút gon mot tập hợp k biến quan sát thành một tập F (với F < k) các nhân tố có ý nghĩa hơn
2.1 Phép trich Principal Components Analysis (PCA)
- Khai niém: Principal Components Analysis (Phân tích thành phần chính) là phép trích mặc định được gán trong nhiều phần mềm phân tích dữ liệu thống kê, trong
đó có cả SPSS PCA giả định rằng các biến quan sát không có phương sai riêng
(unique variance), nghĩa là 100% sự biến đôi của biến quan sát đều được giải thích bởi các nhân tố được trích
- Đặc điểm:
+ PCA tìm các thành phần chính (principal components) là các tô hợp tuyến tính của các biến quan sát ban đầu
+ Các thành phần chính được sắp xếp theo độ giảm dần của phương sai trích
+ PCA giúp xác định các biến quan sát quan trọng nhất trong dữ liệu
- Ví dụ minh họa: Giả sử chúng ta có một tập dữ liệu về chỉ số kinh tế của các quốc gia, bao gồm các biến như GDP, tỷ lệ thất nghiệp, tỷ lệ nợ công, và ty lệ tăng trưởng Chúng ta áp dụng PCA để tìm ra các thành phần chính của đữ liệu Các thành phần chính này có thê biểu thị các khía cạnh quan trọng của kinh tế như tăng trưởng,
én định, và phát triển
2.2, Phép trich Principal Axis Factoring (PAF)
- Khai niém: Principal AxIs Factorine là một phép trích đữ liệu thống kê được sử dụng để xác định mối quan hệ tiềm ân giữa các biến quan sát - giả định rằng các biến quan sat ton tại phần phương sai riêng (unique variance), nghĩa là sự biến đổi của biến quan sát ngoài việc được giải thích bởi các nhân tố được trích thì còn được giải thích bởi phương sai riêng (bao gồm cả sai số phương sai) Do vậy, với PAF, các nhân tố được trích sẽ thường sẽ có tổng phương sai trích thấp hơn so với PCA PAF thường
16
Trang 17được sử dụng để tìm ra mối quan hệ tiềm ân của các biến quan sát và xác định các nhân tô (factor) và các biến quan sát thuộc từng nhân tố
- Đặc điểm:
+ PAF tìm các nhân té (factor) la các tô hợp tuyến tính của các biến quan sát ban đầu
+ Các nhân tô được sắp xếp theo độ giảm dần của phương sai trích
+ PAF giúp xác định biến quan sát thuộc từng nhân tố và tìm ra cầu trúc tiềm ân
trong đữ liệu
- Ví dụ minh họa: bạn có một tập dữ liệu về các biến kinh tế như GDP, lợi nhuận, tý lệ thất nghiệp, và bạn muốn xem xét mối quan hệ giữa chúng Bằng cách sử dụng PAF, bạn có thê xác định được các hệ số chính của các biến này, giup ban danh giá mức độ tương quan giữa chúng và tìm ra những yếu tố quan trọng ảnh hưởng đến kinh tế.Sau khi áp dụng phép trích PAF cho tập đữ liệu kinh tế của bạn, bạn có thể thấy rằng GDP và lợi nhuận có mối tương quan cao và ảnh hưởng lớn đến kinh tế,
trong khi tỷ lệ thất nghiệp có mối quan hệ yếu hơn và không ảnh hướng nhiều đến mức
độ phát triển kinh tế Thông qua việc sử dụng phép trích PAF, bạn có thể hiểu rõ hơn
về các yếu tố quan trọng trong mô hình kinh tế của mình và đưa ra những quyết định kinh doanh hiệu quả dựa trên việc phân tích đữ liệu khoa học
2.2.1 Tổng phương sai trích
- Khái niệm:
+ Tong phương sai trích là tông phần trăm phương sai của đữ liệu ban đầu
được giải thích bởi các nhân tố (factors) trong phân tích nhân tó
+ Nó cho biết tỷ lệ biến động của dữ liệu gốc mà các nhân tố đã giải thích
- Đặc điểm;
+ Tổng phương sai trích thường được tính dựa trên tổng phần trăm phương sai của các thành phần chính (principal components) hoặc các nhân tố (factors) trong phân
tích nhân tố
+ Giá trị tổng phương sai trích cần đạt một ngưỡng nhất định (thường là 50%
trở lên) đê cho thấy mô hình phân tích nhân tố là phù hợp
- Ví dụ: trong một nghiên cứu về tác động của thu nhập và giáo dục đối với thu
nhập cá nhân, tông phương sai trích sẽ cho biết tỷ lệ phần trăm biến thiên của thu nhập
cá nhân có thể được giải thích bởi thu nhập và trình độ giáo dục Nếu tong phuong sai
17