MỘT SỐ KHÁI NIỆM TRONG THỐNG KÊ Tổng thể thống kê là tập hợp các đơn vị thuộc hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích mặt lượng của chúng theo một hoặc một số tiêu th
Trang 1Nguyễn Văn Vũ An
Bộ môn Tài chính – Ngân hàng (TVU)
THỐNG KÊ KINH TẾ
Trang 2TÀI LIỆU THAM KHẢO
Trang 3TÀI LIỆU THAM KHẢO
Trang 4CHƯƠNG 1 GIỚI THIỆU MÔN HỌC
1 KHÁI NIỆM
Thống kê là một nhánh của toán học liên quan đến
việc thu thập, phân tích, diễn giải hay giải thích và trình bày các dữ liệu
Thống kê mô tả và thống kê suy diễn tạo thành
thống kê trong ứng dụng
Trang 52 TỔNG QUAN VỀ THỐNG KÊ
Thống kê mô tả: Là pháp sử dụng để tóm tắt hoặc
mô tả một tập hợp dữ liệu
Thống kê suy diễn: Là phương pháp mô hình hóa
trên các dữ liệu quan sát để giải thích được những biến thiên “dường như” có tính ngẫu nhiên và tính không chắc chắn của các quan sát
Trang 63 MỘT SỐ KHÁI NIỆM TRONG THỐNG KÊ
Tổng thể thống kê là tập hợp các đơn vị thuộc hiện
tượng nghiên cứu, cần quan sát, thu thập và phân tích mặt lượng của chúng theo một hoặc một số tiêu thức nào đó
Mẫu là tổng thể bao gồm một số đơn vị được chọn
ra từ tổng thể chung theo một phương pháp lấy mẫu nào đó
Trang 73 MỘT SỐ KHÁI NIỆM TRONG THỐNG KÊ
Quan sát là cơ sở thu thập số liệu và thông tin cần
nghiên cứu
Dữ liệu định tính phản ánh tính chất, sự hơn kém
của đối tượng của các đối tượng nghiên cứu, là các
dữ liệu ban đầu không được thể hiện dưới dạng số
Dữ liệu định lượng phản ánh mức độ hay mức độ
hơn kém, là các dữ liệu có thể cân, đong, đo, đếm được
Trang 84 QUÁ TRÌNH NGHIÊN CỨU THỐNG KÊ
Xác định vấn đề nghiên cứu, mục tiêu, nội dung, đối tượng nghiên cứu
Xây dựng hệ thống các khái niệm,
Các chỉ tiêu thống kê
Thu thập dữ liệu thống kê
Xử lý số liệu:
• Kiểm tra, chỉnh lý, sắp xếp số liệu
• Phân tích thống kê sơ bộ
• Phân tích thống kê thích hợp
Phân tích và giải thích kết quả
Trang 95 CÁC LOẠI THANG ĐO
Thang đo định danh
Thang đo thứ bậc
Thang đo khoảng
Thang đo tỷ lệ
Trang 10CHƯƠNG 2 THU THẬP DỮ LIỆU
Vấn đề đầu tiên của công việc thu thập dữ liệu là
xác định rõ những dữ liệu nào cần thu thập, thứ tự
ưu tiên của các dữ liệu này
Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban
đầu từ đối tượng nghiên cứu
Dữ liệu thứ cấp là dữ liệu thu thập từ những nguồn
có sẵn, đó chính là những dữ liệu đã qua tổng hợp,
xử lý
Trang 11CHƯƠNG 2 THU THẬP DỮ LIỆU
Các phương pháp thu thập dữ liệu sơ cấp
Trang 12CHƯƠNG 2 THU THẬP DỮ LIỆU
Các kỹ thuật chọn mẫu
o Kỹ thuật lấy mẫu xác suất
• Lấy mẫu ngẫu nhiên đơn giản
• Lấy mẫu hệ thống
• Lấy mẫu cả khối/ cụm và lấy mẫu nhiều giai đoạn
• Lấy mẫu phân tầng
o Kỹ thuật lấy mẫu phi xác suất
• Lấy mẫu thuận tiện
• Lấy mẫu định mức
• Lấy mẫu phán đoán
Trang 16CHƯƠNG 3 TÓM TẮT VÀ TRÌNH BÀY DỮ
LIỆU BẰNG BẢNG VÀ ĐỒ THỊ
1 BẢNG TẦN SỐ
Trang 172 TÓM LƯỢC VÀ TRÌNH BÀY DỮ LIỆU
BẰNG ĐỒ THỊ
Trang 182 TÓM LƯỢC VÀ TRÌNH BÀY DỮ LIỆU
BẰNG ĐỒ THỊ
Trang 19CHƯƠNG 4 TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG SỐ
Trung bình mẫu (Mean):
Trung bình có trọng số:
Trung vị - Me (Median): Là giá trị đứng giữa của
tập dữ liệu đã được sắp xếp theo thứ tự tăng dần
Mode (Mo): Giá trị gặp nhiều nhất trong tập dữ
x = ∑ i
Trang 20CHƯƠNG 4 TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG SỐ
Trung bình nhân (Geometric mean):
Khảo sát hình dạng của các đa giác tần số tương
ứng với các kiểu phân phối
n
n
x x
x
x = 1 2
Mean < Me < Mo Mean = Me = Mo Mo < Me < Mean
Trang 21CHƯƠNG 4 TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG SỐ
Phương sai: Trung bình của các biến thiên bình
phương giữa từng quan sát trong tập dữ liệu so với trung bình của nó
f
f x
x s
1
2 2
Trang 22CHƯƠNG 4 TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG SỐ
Tuổi
Trang 23CHƯƠNG 4 TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG SỐ
Trung bình tổng thể:
Phương sai tổng thể:
Chuẩn hóa dữ liệu: Biến đổi chúng thành dữ liệu ở
1 thang đo chuẩn
o Chuẩn hóa z cho dữ liệu tổng thể:
o Chuẩn hóa z cho dữ liệu mẫu:
x x
z = −
Trang 24CHƯƠNG 5 XÁC SUẤT, BIẾN NGẪU
NHIÊN VÀ LUẬT PHÂN PHỐI
o Biến cố ngẫu nhiên (A, B, C,…)
Xác suất của một biến cố
Trang 251 XÁC SUẤT CĂN BẢN
Biến cố tổng C = A B hay C = A + B là biến cố ∪
xảy ra khi và chỉ khi A hoặc B xảy ra
Biến cố tích C = A ∩ B hay C = A*B là biến cố
xảy ra khi và chỉ khi A và B cùng xảy ra
Biến cố xung khắc
Biến cố độc lập
Trang 272 BIẾN NGẪU NHIÊN
Biến ngẫu nhiên là những biến mà giá trị của nó
được xác định 1 cách ngẫu nhiên
o Biến ngẫu nhiên rời rạc
o Biến ngẫu nhiên liên tục
Trang 283 CÁC PHÂN PHỐI LÝ THUYẾT QUAN TRỌNG
Phân phối nhị thức (Binominal distribution)
Phân phối Poisson (Poisson distribution)
Phân phối bình thường (Normal distribution)
Phân phối bình thường chuẩn hóa (Standard
normal distribution)
Dùng phân phối bình thường tính xấp xỉ một số
phân phối rời rạc
Phân phối đều (Uniform distribution)
Trang 29CHƯƠNG 6 PHÂN PHỐI CỦA CÁC
THAM SỐ MẪU
1 PHÂN PHỐI CỦA TRUNG BÌNH MẪU
Trung bình mẫu là ước lượng không chệch của
trung bình tổng thể vì giá trị trung bình tính được
từ tất cả các trị trung bình mẫu của mẫu cỡ n có thể lấy được từ tổng thể cỡ N sẽ đúng trị trung bình của tổng thể
Ví dụ: Tuổi có cỡ N = 4 như sau {18, 20, 22, 24}
Ta có μ = (18 + 20 + 22 + 24)/4 = 21
Trang 301 PHÂN PHỐI CỦA TRUNG BÌNH MẪU
µ
16
336 16
) 24
20 19
18 (
x
Trang 311 PHÂN PHỐI CỦA TRUNG BÌNH MẪU
Sai số chuẩn của trung bình mẫu
4
) 21 24 (
) 21 18
58 ,
1 2
236 , 2
Như vậy: Khi cỡ mẫu tăng
thì sai số chuẩn của trung
FPC n
x
σ σ
σ
Khi n/N > 0,05
Với FPC (Finite population
Trang 321 PHÂN PHỐI CỦA TRUNG BÌNH MẪU
Chọn mẫu từ một tổng thể có phân phối bình thường
σ
µ
−
=
Trang 331 PHÂN PHỐI CỦA TRUNG BÌNH MẪU
Chọn mẫu từ một tổng thể không có phân phối
bình thường
o Lý thuyết giới hạn trung tâm (Central limit theorem)
• Tổng thể có phân phối bình thường thì trung bình mẫu cũng là phân phối bình thường dù cỡ mẫu là bao nhiêu
• n ≥ 30, phân phối mẫu xấp xỉ phân phối bình thường
• Hình dáng của phân phối tổng thể khá đối xứng thì phân phối mẫu xấp xỉ phân phối bình thường nếu cỡ mẫu n ≥ 15
o Ví dụ: P.179 (Thống kê ứng dụng)
Trang 342 PHÂN PHỐI CỦA TỶ LỆ MẪU
p p
) 1
( )
p p
FPC n
p
p
x
σ
Trang 35CHƯƠNG 7 ƯỚC LƯỢNG CÁC THAM
SỐ TỔNG THỂ
1 ƯỚC LƯỢNG TRUNG BÌNH TỔNG THỂ
Vấn đề đặt ra là ước lượng các đặc trưng của tổng
thể (chưa biết) từ các đặc trưng của mẫu dữ liệu thu thập được
Ước lượng điểm là phương pháp dùng một tham
số thống kê mẫu đơn lẻ để ước lượng về giá trị thật của tham số tổng thể
Ước lượng khoảng là phương pháp dựa vào dữ liệu
của mẫu, với một độ tin cậy cho trước, xác định khoảng giá trị mà đặc trưng của tổng thể có thể rơi
Trang 361 ƯỚC LƯỢNG TRUNG BÌNH TỔNG THỂ
Ước lượng khoảng trung bình tổng thể khi đã biết
phương sai tổng thể:
o Ví dụ: P 189 (Thống kê ứng dụng)
Ước lượng khoảng trung bình tổng thể khi không
biết phương sai tổng thể:
o Nếu n ≥ 30:
o Nếu n < 30:
Trang 37web
Trang 382 ƯỚC LƯỢNG TỈ LỆ TỔNG THỂ
n
p
p z
p
p n
p
p z
s
s
s s
) 1
( )
1
(
2 / 2
/
− +
Trang 393 XÁC ĐỊNH CỠ MẪU CHO BÀI
TOÁN ƯỚC LƯỢNG
Đối với trung bình tổng thể:
e
p p
z
) 1 (
'
− +
=
N n
nN n
Trang 404 ƯỚC LƯỢNG TRÊN HAI MẪU
Ước lượng khác biệt hai trung bình tổng thể trong
2 1 2
/ 2
(
n n
z x
Trang 414 ƯỚC LƯỢNG TRÊN HAI MẪU
o Trường hợp chưa biết phương sai tổng thể, mẫu nhỏ:
Độ lệch chuẩn mẫu gộp:
với df = n1+ n2 -2 Trong tình huống mẫu nhỏ, phương sai tổng thể không bằng nhau thì:
2 1
; 2 / 2
1
1
1)
(
n n
s t
x
x − ± α df p +
2
) 1 (
) 1 (
2 1
2 2 2
2 1
1
− +
− +
−
=
n n
s n
s
n
s p
2 2 2
2 2 1
2
2
2 2 1
2 1
n
s n
s df
Trang 424 ƯỚC LƯỢNG TRÊN HAI MẪU
Ước lượng khác biệt hai trung bình tổng thể trong
trường hợp mẫu cặp
o B1: Tính từng cặp chênh lệch di = x1i – x2i
o B2: Tính trung bình các chênh lệch trên mẫu
o B3: Tính độ lệch chuẩn của chênh lệch:
o B4: Xây dựng khoảng ước lượng:
n 1
; 2
± α
Trang 434 ƯỚC LƯỢNG TRÊN HAI MẪU
Ước lượng tỷ lệ hai mẫu
o Ví dụ: P 206 (Thống kê ứng dụng)
2
2 2
1
1
1 2
/ 2
1
) 1
( )
p
p z
p
s s
− +
−
±
Trang 44CHƯƠNG 8 KIỂM ĐỊNH GIẢ THUYẾT VỀ THAM SỐ TỔNG THỂ
1 CÁC VẤN ĐỀ CHUNG VỀ KIỂM ĐỊNH
Đặt giả thuyết về tham số tổng thể
o Giả thuyết H0 thường mô tả hiện tượng lúc bình thường, mô tả tình trạng nguyên thủy, hoặc tình trạng không chịu tác động gì của hiện tượng; Giả thuyết H0luân có dấu bằng (P.209)
o Giả thuyết H1 mô tả tình trạng ngược lại với H0
Trang 451 CÁC VẤN ĐỀ CHUNG VỀ KIỂM ĐỊNH
Xác suất sai lầm loại I là xác suất để chúng ta bác
bỏ H0 trong khi nó thật sự đúng
Xác suất sai lầm loại II là xác suất để chúng ta
không bác bỏ H0 trong khi nó sai
Mức ý nghĩa α của kiểm định (Significance level)
Giá trị tới hạn (Critical value) là biên giới chia đôi
hai vùng chấp nhập và bác bỏ H0
Kiểm định một bên và kiểm định hai bên (P.213)
Trang 462 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU
Kiểm định giả thuyết về trung bình tổng thể
o Khi biết độ lệch chuẩn
B1: Nhận định tình hình của tham số tổng thể B2: Đặt giả thuyết
B3: Xác định α B4: Tính giá trị kiểm định B5: Bác bỏ H0 nếu kiểm định hai bên thì ztt > zα/2 hoặc ztt
< -zα/2; nếu kiểm định bên trái ztt < -zα; nếu kiểm định
Trang 472 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU
Kiểm định giả thuyết về trung bình tổng thể
o Khi không biết độ lệch chuẩn
B1- B3: Giống TH biết độ lệch chuẩn B4: Tính giá trị kiểm định
n ≥ 30 thì
n < 30 thì B5: Bác bỏ H0 nếu kiểm định hai bên thì ztt > zα/2 hoặc ztt
< -zα/2(ttt > tα/2;n-1 hoặc ttt < -tα/2;n-1 ); nếu kiểm định bên trái ztt
< -z (t < -t ); nếu kiểm định bên phải z > z (t > t )
n s
Trang 482 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU
Tiếp cận p-value (P.221)
o P-value ≥ α thì chấp nhận H0
o P-value < α thì bác bỏ H0
Trang 492 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU
Kiểm định giả thuyết về tỷ lệ tổng thể:
Vì chúng ta giả định p = p0 nên dùng p0 thay thế cho p như một cách tính sắp xỉ
Quyết định chấp nhận hay bác bỏ H0 (P 223)
n p
Trang 502 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU
Kiểm định giả thuyết về phương sai tổng thể:
(P.226)
Bác bỏ H0 trong trường hợp:
Kiểm định hai bên: Hoặc
Kiểm định bên phải:
Kiểm định bên trái:
2 0
; 1
; 1
; 1
2
α
χ
χtt < n− −
Trang 513 KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU
Kiểm định giả thuyết cho khác biệt của hai trung
bình tổng thể, biết phương sai của hai tổng thể, hai mẫu độc lập
Kiểm định giả thuyết cho khác biệt của hai trung
bình tổng thể, không biết phương sai của hai tổng thể, hai mẫu độc lập cỡ mẫu lớn
(P.230)
2
2 2 1
2 1
2 1
2
n n
x
x
z tt
σσ
µµ
2 1
2 1
2
n
s n
Trang 523 KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU
Kiểm định giả thuyết cho khác biệt của hai trung
bình tổng thể, không biết phương sai của hai tổng thể, hai mẫu độc lập cỡ mẫu nhỏ (P.232)
Quy tắc bác bỏ H0:
Kiểm định hai bên: Hoặc
2 1
2 1
2 2 2
2 1 1
2 1
2 1
1
1 )
1 (
) 1 (
) 1 (
) 1 (
) (
n n
n n
s n
s n
−
− +
; 2
Trang 533 KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU
Kiểm định giả thuyết cho khác biệt của hai trung
bình tổng thể, hai mẫu không độc lập (Mẫu phối hợp từng cặp)
o B1: Tính từng cặp chênh lệch di = x1i – x2i
o B2: Tính trung bình các chênh lệch trên mẫu
o B3: Tính độ lệch chuẩn của chênh lệch:
o B4: Tính toán giá trị kiểm định:
d t
d
d tt
µ
−
=
Trang 543 KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU
Kiểm định giả thuyết khác biệt giữa hai tỷ lệ tổng
thể
o Phương pháp dùng phân phối z:
Với (P.242)
) 1 1
)(
1 (
) (
) (
2 1
2 1
2 1
n n
p p
p p
p p
z
s s
s s
2 1
2 1
2 2 1
1
n n
X
X n
n
p n p
n
p s s s
+
+
= +
+
=
Trang 55CHƯƠNG 9 PHÂN TÍCH PHƯƠNG SAI
1 PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
B1: Tính các trung bình mẫu của các nhóm
X k1
x k1
.
x knk
Trang 561 PHÂN TÍCH PHƯƠNG SAI MỘT
n
x x
n
x n
Trang 571 PHÂN TÍCH PHƯƠNG SAI MỘT
o Tổng chênh lệch bình phương giữa các nhóm (SSG)
o Tổng các chênh lệch bình phương toàn bộ (SST)
2 1 1
1 i
n 1
j i ( x ij x i )
∑ ∑
= = −
2 1
) (x x n
Trang 581 PHÂN TÍCH PHƯƠNG SAI MỘT
YẾU TỐ
B3: Tính các phương sai (Trung bình chênh lệch
của các chênh lệch bình phương)
o Tính phương sai trong nội bộ nhóm (MSW)
o Tính phương sai giữa các nhóm (MSG)
B4: Kiểm định giả thuyết:
Nếu F > F thì bác bỏ H
k n
SSW MSW
MSW MSG
F =
Trang 591 PHÂN TÍCH PHƯƠNG SAI MỘT
YẾU TỐ
(P.257)
Trang 602 PHÂN TÍCH SÂU ANOVA
Khi H0 bị bác bỏ thì cần phân tích sâu hơn để xác
định nhóm nào khác với nhóm nào (Turkey)
(
! 2
(
k −
=
Trang 612 PHÂN TÍCH SÂU ANOVA
Giá trị tới hạn Turkey:
Bác bỏ H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớm hơn hay bằng T giới hạn (P.266)
i
k n , k ,
n
MSW q
Trang 622 PHÂN TÍCH SÂU ANOVA
Trang 63CHƯƠNG 10 KIỂM ĐỊNH PHI THAM SỐ
1 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON VỀ
TRUNG VỊ CỦA MỘT TỔNG THỂ
B1: Thu thập thông tin mẫu
B2: Tính toán chênh lệch di giữa các giá trị quan sát được và giá trị trung vị
B3: Lấy giá trị tuyệt đối của chênh lệch
B4: Xếp hạng tuyệt đối của chênh lệch
B5: Với các giá trị di dương thì vào cột R+, ngược lại thì đặt vào cột B6: Tính giá trị thống kê W:
R-Hai bên: W = min[Σ(cột R+); Σ(cột R-)]
Bên phải W=Σ(cột R+)
Trang 641 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON VỀ
)(
1 (
4
) 1 (
+ +
+
−
=
n n
n
n n W
z
Trang 652 KIỂM ĐỊNH TỔNG HẠNG WILCOXON CHO
TRUNG BÌNH HAI MẪU ĐỘC LẬP
Trường hợp n1 và n2 không bằng nhau chúng ta
quy ước n1 là cỡ mẫu nhỏ và n2 là cỡ mẫu lớn và giá trị tổng hạng Wilcoxon T1 được tính là tổng tất
cả các hạng trong mẫu 1
o H0: M1 = M2
o Bác bỏ H0:
• Hai bên: T1 ≥ giới hạn trên hoặc T1 ≤ giới hạn dưới
• Bên phải: T1 ≥ giới hạn trên
• Bên trái: T1 ≤ giới hạn dưới (P.289)
Trang 663 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON
CHO MẪU PHỐI HỢP TỪNG CẶP
Tính khác biệt Di cho từng cặp quan sát
Xác định các giá trị tuyệt đối Di
Xác định cỡ mẫu thực tế
Tách riêng các hạng – và + theo dấu của Di gốc
Tính tổng hạng riêng cho các chênh lệch dương, đó chính
là trị thống kê kiểm định W=ΣRi(+)
o H0: MD = 0
o Bác bỏ H0:
Trang 674 KIỂM ĐỊNH KRUSKAL WALLIS
) 1 (
3 )
1 (
+
− +
n
R n
n
W
i i
) 293
(
2 ,
W > χk− α
Trang 685 KIỂM ĐỊNH CHI BÌNH PHƯƠNG
1 (
2
α
χ
χtt > r− c−
Trang 696 KIỂM ĐỊNH CHI BÌNH PHƯƠNG VỀ
2
α
χ
χtt > k−