1. Trang chủ
  2. » Cao đẳng - Đại học

Hướng dẫn sử dụng microsoft Excel thực hành lý thuyết xác suất và thống kê kinh tế quốc dân

84 1,1K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 6,1 MB

Nội dung

MỞ ĐẦU Phân loại Thống kê Phân loại biến dùng trong thống kê Bảng biểu Đồ thị Thống kê tổng hợp Ước lượng tham số Kiểm định giả thuyết Tr.bình, tr.vị, mốt Phương sai, độ lệch chuẩn, P

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

KHOA TOÁN KINH TẾ

BỘ MÔN TOÁN KINH TẾ

HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL

THỰC HÀNH

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN

TÀI LIỆU LƯU HÀNH NỘI BỘ

Tác giả: Bùi Dương Hải

Hà Nội, 7 / 2016

Trang 2

8 Kiểm định phi tham số

9 Phân tích phương sai

10 Hồi quy tương quan

Trang 3

MỞ ĐẦU

Phân loại Thống kê

Phân loại biến dùng trong thống kê

Bảng biểu

Đồ thị

Thống kê tổng hợp

Ước lượng tham số

Kiểm định giả thuyết

Tr.bình, tr.vị, mốt Phương sai, độ lệch chuẩn, Phân vị,

Hệ số nhọn, bất đối xứng, hệ số tương quan…

Ước lượng điểm:

𝑥 , 𝑠2, 𝑓 Khoảng tin cậy:

Biến định tính - Qualitative

Biến định danh Nominal

Biến thứ bậc Ordinal

Liệt kê, nhóm đếm số lượng, tỉ lệ

Liệt kê, nhóm đếm số lượng, tỉ lệ

So sánh, xếp thứ tự

Có thể 

Mã hóa thành các con số, không có đơn vị

Đồ thị tròn, cột

Không thể chuyển thành định lượng

Biến định lượng - Quantitative

Biến đo lường – Cardinal (rời rạc, liên tục / khoảng, tỉ lệ)

Liệt kê, nhóm, đếm số lượng, tỉ lệ

So sánh, xếp thứ tự Các phép toán học Các loại thống kê Các phân tích chéo, theo thời gian…

Là con số có có đơn vị Tất cả các loại đồ thị

Có thể chuyển thành định tính

Trang 4

Excel và công cụ Data Analysis

Toàn bộ tài liệu được viết dựa trên Microsoft Excel 2013

Để thực hiện các thao tác thống kê cơ bản, cần có Add-in “Data Analysis” trên thanh công cụ

Trước hết cần kiểm tra xem Excel đã cài công cụ Data Analysis hay chưa:

 Nhấn vào DATA để xem có Data Analysis

Hình 1

Nếu chưa có, thực hiện cài Data Analysis như sau:

Bước 1 File Options  Hộp thoại Excel Options

Bước 2 Tại hộp thoại Excel Options  Add-Ins  Manage: Excel Add-ins  Go  Hộp

Trang 5

1 TẠO MỘT SỐ CHUỖI NGẪU NHIÊN

Để thực hiện mô phỏng các hiện tượng ngẫu nhiên trong kinh tế xã hội, có thể thực hiện việc tạo

ra một số chuỗi giá trị ngẫu nhiên giả định Excel cho phép tạo một số chuỗi ngẫu nhiên tuân theo quy luật phân phối xác suất cơ bản, với số lượng chuỗi số và số lượng con số trong mỗi chuỗi là tùy ý

1.1 Chọn một số ngẫu nhiên

Trong nhiều trường hợp, để đảm bảo tính ngẫu nhiên khách quan, cần tìm một con số hoàn toàn ngẫu nhiên trong một khoảng cho trước, chẳng hạn chọn ngẫu nhiên một sinh viên trên danh sách của một lớp gồm 60 sinh viên

Hàm chọn ngẫu nhiên một giá trị nguyên trong đoạn [a, b] là: = RANDBETWEEN(a , b) Trong đó a, b là số thực bất kỳ, kết quả là các số có thể âm (nếu a < 0) và dương (nếu b > 0)

Ví dụ 1.1: Để chọn ngẫu nhiên một sinh viên từ danh sách lớp gồm 60 sinh viên, có thể dùng

hàm:

Xác suất để mỗi số nguyên trong đoạn [a ,b] được chọn là bằng nhau

Lệnh chọn lấy một số thực ngẫu nhiên trong đoạn [0,1] là : = RAND( )

1.2 Tạo chuỗi số phân phối Không-một: A(p)

Ví dụ 1.2: Tạo một chuỗi gồm 20 con số rút từ biến phân phối A(p = 0.4), đặt vào cột đầu tiên

của bảng tính, bắt đầu từ ô A2, làm như sau:

 DATA  Data Analysis  Hộp thoại [Data Analysis]  Random Number Generation

[Random Number Generation]

Trang 6

Hình 1.1

Kết quả sẽ hiển thị theo cột, gồm 20 con số 0 và 1 ngẫu nhiên

Kết quả sẽ khác nhau với mỗi lần thực hiện, do đó trong tài liệu này sẽ không đưa kết quả của thủ tục tạo chuỗi số ngẫu nhiên này

*Random seed: Nếu muốn tạo ra các chuỗi giống hệt như chuỗi tạo ra trước đó thì gõ số lần vào

ô này Ví dụ nếu gõ 4 thì nếu lặp lại 4 lần tiếp theo, chuỗi vẫn giống cũ Nếu để trống thì các chuỗi tạo ra sẽ khác nhau

1.3 Tạo chuỗi phân phối Nhị thức: B(n, p)

Biến X rời rạc, phân phối Nhị thức (Binary): X ~ B(n, p)

 X = {0, 1,…, n} với

 E(X) = np và V(X) = np(1 – p) ;

Trang 8

[Random Number Generation]

 Number of Variables: 1

 Number of Random Numbers: 20

 Parameters Between 0 and 5

 Output options  Output Range: F2 1.6 Tạo chuỗi phân phối Chuẩn: N(, σ2

Trang 9

(b) Tạo 10 chuỗi, mỗi chuỗi 10 phần tử, phân phối Không-một với p = 0.5 Dùng hàm SUM để

tính tổng các giá trị, cũng chính là tổng số phần tử bằng 1 Tỉ lệ phần tử bằng 1 so với tổng số bằng bao nhiêu?

(c) Khi tăng số chuỗi và số phần tử trong câu (b), thì tỉ lệ phần tử bằng 1 gần với giá trị nào?

Bài 1.2 Tạo hai chuỗi, mỗi chuỗi 10 phần tử, phân phối Nhị thức với n = 5 và p = 0.5

(a) Số lượng phần tử nhận các giá trị 0, 1, 2, 3, 4, 5 giữa hai chuỗi có bằng nhau không?

(b) Dùng hàm AVERAGE để tính trung bình các giá trị của mỗi chuỗi Trung bình của hai chuỗi có giống nhau không?

(c) Tăng số lượng phần tử của chuỗi lên thành 100, khi đó trung bình của chuỗi xấp xỉ bằng bao nhiêu?

Bài 1.3 Tạo ra 2 chuỗi, mỗi chuỗi 20 phần tử phân phối đều trong khoàng từ 4 đến 10

(a) Giá trị của các phần tử là số nguyên hay số thập phân

(b) Dùng hàm AVERAGE tính trung bình cộng của hai chuỗi và so sánh với nhau

Trang 10

BÀI 2 MỘT SỐ HÀM TÍNH XÁC SUẤT THÔNG DỤNG

Excel tự động tính một số giá trị hàm xác suất thông dụng Tại một ô bất kỳ trong bảng tính Excel, gõ hàm và giá trị các đối số, sẽ cho kết quả (làm tròn đến 4 số thập phân)

2.1 Biến ngẫu nhiên phân phối Nhị thức: B(n, p)

Xác suất tại giá trị x: P X( x n p| , ), hàm : = BINOMDIST(x, n, p, 0) Hàm phân phối (tích lũy) xác suất tại x: P X( x n p| , ), hàm : = BINOMDIST(x, n, p, 1)

2.2 Biến ngẫu nhiên phân phối Poisson: P()

Xác suất tại giá trị x: P X( x| ) , hàm : = POISSON(x, , 0) Hàm phân phối (tích lũy) xác suất tại x: P X( x| ) , hàm : = POISSON(x, , 1)

2.3 Biến ngẫu nhiên phân phối Chuẩn: N(, σ2

)

Hàm mật độ tại giá trị x: f x( ), hàm: = NORMDIST(x, , σ, 0) Hàm phân phối tại giá trị x: F x( )P X( x), hàm: = NORMDIST(x, , σ, 1)

Giá trị phân vị mức , kí hiệu x* : P(X < x* ) =  , hàm: = NORMINV(, , σ )

Giá trị tới hạn mức , kí hiệu x : P(X > x) = , hàm: = NORMINV(1 –  , , σ ) Phân phối Chuẩn hóa: N(0,1)

Giá trị tới hạn chuẩn hóa mức , kí hiệu u : hàm: = NORMINV(1 –  , 0, 1)

Do tính chất đối xứng nên giá trị u cũng có thể tính theo hàm: = – NORMINV( , 0, 1)

2.4 Biến ngẫu nhiên phân phối Khi-bình phương: 2

(n)

Giá trị xác suất P(2( )nx), hàm: = CHIDIST(x , n)

Hàm phân phối (tích lũy) xác suất: 2

2

( ) ( ( ) )

FxPnx , hàm: = 1 – CHIINV( , n)

Giá trị tới hạn mức : 2( )n , hàm: = CHIINV( , n)

2.5 Biến ngẫu nhiên phân phối Student: T(n)

Giá trị xác suất P T n( ( )x), hàm: = TDIST(x, n, 1)

Trang 11

Giá trị phân vị mức  kí hiệu t(n)*: P T n( ( )t( )*n ), hàm: = T.INV( , n)

Lưu ý: có dấu chấm “.” giữa T và INVGiá trị tới hạn mức  /2 kí hiệu ( )

Do tính chất đối xứng nên giá trị tới hạn cũng tính bởi hàm: = –T.INV( , n)

2.6 Biến ngẫu nhiên phân phối Fisher: F(n 1, n2 )

Giá trị xác suất P F n n( ( ,1 2)x), hàm: =FDIST(x, n1, n2) Giá trị tới hạn mức  : (n n1 , 2 )

Trang 12

P Xnp

Bài 2.2 Sử dụng Excel tính các bài toán sau, với X ~P( ) ;

P X  ( 5 | 6.2)

P X  

P X  

Bài 2.3 Trên một chặng bay, biết rằng số hành khách hủy vé của các chuyến bay là biến ngẫu

nhiên phân phối Poisson với trung bình là 5 Tính xác suất để trong một chuyến bay chọn ngẫu nhiên thì:

(a) Có đúng 3 khách hủy vé (b) Có hơn 6 khách hủy vé (c) Có hành khách hủy vé

Bài 2.4 Biết xác suất có lỗi khi in mỗi trang sách là đều bằng 0,004 Tính xác suất trong quyển

sách 800 trang có:

(a) Đúng 3 lỗi (b) Hơn 4 lỗi (c) Không có lỗi nào

Bài 2.5 ChoX ~N( , 2), tính các giá trị sau:

(a) f x( 10 |12,2 5 )2

( 10 | 12, 5 )

P X    

Trang 13

Bài 2.6 Sử dụng Excel giải bài toán sau:

Biết kích thước sản phẩm phân phối chuẩn với trung bình là 50 mm, phương sai 64 mm2 (a) Tính xác suất một sản phẩm ngắn hơn 48 mm

(b) Tính xác suất một sản phẩm dài hơn 53 mm (c) Tính tỉ lệ sản phẩm có kích thước trong khoảng 46 đến 52 mm (d) Với xác suất 0,95 thì kích thước sản phẩm tối đa bao nhiêu?

(e) Với xác suất 0,8 thì kích thước sản phẩm tối thiểu bao nhiêu?

Bài 2.7 Tính các giá trị sau và so sánh

(a) Giá trị tới hạn Student bậc tự do 10 mức 0.05 và mức 0.95 (b) Giá trị tới hạn Student bậc tự do 20 mức 0.025 và mức 0.975 (c) Giá trị tới hạn Student bậc tự do 20 mức 0.05 và bậc tự do 200 mức 0.05 (d) Giá trị tới hạn Student bậc tự do 1000 mức 0.05 và giá trị tới hạn chuẩn mức 0.05

Bài 2.8 Tính các giá trị sau và so sánh

(a) Giá trị tới hạn Khi-bình phương bậc tự do 10 mức 0.05 và mức 0.95 (b) Giá trị tới hạn Khi-bình phương bậc tự do 10 mức 0.025 và bậc tự do 100 mức 0.025

Bài 2.9 Tính các giá trị sau và so sánh

(a) Giá trị tới hạn Fisher bậc tự do 10 và 20, mức 0.05; và bậc tự do 10 và 20, mức 0.95 (b) Giá trị tới hạn Fisher bậc tự do 10 và 20, mức 0.025; và bậc tự do 20 và 10, mức 0.975 (c) Tính nghịch đảo của f0,95(20,20) và so sánh với f0,05(20,20)

Trang 14

3 HÀM THỐNG KÊ MÔ TẢ CƠ BẢN

Số liệu thực hành trong tệp PROBSTAT2016.xlsx, trang tính DATA

Số liệu được lấy từ bộ số liệu VHLSS năm 2012, gồm 420 quan sát là 420 hộ gia đình ở Hà Nội,

cả khu vực thành thị và nông thôn, gồm 5 biến, xếp theo cột từ A đến F; mỗi cột gồm dòng đầu

là tên biến, các dòng từ 2 đến 421 là các giá trị quan sát Các biến gồm:

 KV: mã hóa của khu vực, KV = 1 nếu ở Thành thị, KV = 2 nếu ở nông thôn

 Khu vực: Thành thị và Nông thôn

 Số người: Tổng số người trong hộ gia đình

 Thu nhập: Tổng thu nhập của hộ gia đình (đơn vị: triệu đồng) “

 Chi tiêu: Chi cho tiêu dùng thường xuyên (đơn vị: triệu đồng)

 Chi ăn uống: Chi cho các khoản ăn và uống (đơn vị: triệu đồng)

Trong các phần sau, khi dùng thuật ngữ “mảng” (array) sẽ được hiểu là một khu vực hình chữ

nhật, được xác định bởi ô đầu tiên (trên cùng bên trái) và ô cuối cùng (dưới cùng bên phải) cách nhau bởi dấu hai chấm “:” Ví dụ: A1:B3; A1:A421; A1: F421

3.1 Đếm số quan sát

Hàm COUNT đếm số lượng ô có số liệu trong mảng, có dạng: COUNT(mảng)

Ví dụ: Đếm số ô có giá trị của biến KV (trừ dòng đầu): = COUNT(A2:A421)

Đếm số ô có giá trị từ ô A2 đến ô F421: = COUNT(A2: F421)

Hàm COUNTIF đếm số lượng quan sát thỏa mãn điều kiện có dạng:

Trang 15

Đếm số hộ có trên 4 người, hay biến Số người > 4: = COUNTIF(C2:C421, “>4”) Đếm số hộ có dưới 5 người: = COUNTIF(C2:C421, “< 5”) Đếm số hộ có số người khác 5: = COUNTIF(C2:C421, “< > 5”) Đếm số hộ có số người từ 4 đến 6: qua phép trừ:

Hàm COUNTIFS đếm số quan sát thỏa mãn nhiều điều kiện:

Ví dụ: Đếm số hộ ở thành thị có từ 4 người trở lên:

Hàm RANK cho biết hạng của một giá trị x, nghĩa là nếu số liệu xếp theo thứ tự tăng dần thì giá

trị x đó đứng số thứ tự bao nhiêu trong mảng, có dạng: RANK(x, mảng, 1) Do đó RANK – 1 chính là số quan sát có giá trị nhỏ hơn x

Nếu xét theo thứ tự giảm dần thì dùng RANK(x, mảng, 0)

Ví dụ: Xét biến Số người, nếu xếp theo thứ tự tăng dần thì hộ gia đình có 2 người đứng ở vị trí

Kết quả là 23, nghĩa là có 22 hộ gia đình có số người nhỏ hơn 2

Bảng kết quả xếp hạng với biến Số người

Bảng 3.2

Số người RANK Ý nghĩa: Khi xếp theo thứ tự tăng dần của Số người thì:

1 1 Số 1 xếp đầu tiên: hộ gia đình ít nhất là 1 người

Hàm SUM tính tổng giá trị các con số: SUM(mảng cần tính tổng = mảng*)

Ví dụ: Tổng số người trong các hộ gia đình trong mẫu: = SUM(C2:C421)

Tổng thu nhập của các hộ gia đình trong mẫu: = SUM(D2:D421)

Hàm SUMIF tính tổng giá trị có điều kiện: SUMIF(mảng*, điều kiện) hoặc SUMIF(mảng 1, điều kiện, mảng*)

Trang 16

Ví dụ: Tính tổng số người chỉ với những hộ từ 4 người trở lên:

Hàm SUMSQ tính tổng bình phương các giá trị: SUMSQ(mảng)

Ví dụ: Tổng bình phương biến Số người: = SUMSQ(C2:C421)

3.3 Các cực trị

Hàm MIN và MAX cho giá trị nhỏ nhất và lớn nhất: MIN(mảng) và MAX(mảng)

Ví dụ: Mức Thu nhập thấp nhất trong các hộ gia đình: = MIN(D2:D421) = 5.5

Mức Thu nhập cao nhất trong các hộ gia đình: = MAX(D2:D421) = 782.5 Suy ra khoảng biến thiên: = MAX(D2:D421) – MIN(D2:D421)

3.4 Các thống kê về xu thế trung tâm (central tendency)

Gồm Trung bình, Trung vị, Mốt Trung bình trong hầu hết các trường hợp là Trung bình cộng

Ngoài ra còn trung bình nhân và trung bình điều hòa

Với số liệu

 Trung bình cộng (mean):

 Trung vị (median): x d là giá trị của phần tử nằm ở giữa

 Mốt (mode): x0 là giá trị xảy ra nhiều lần nhất

 Trung bình nhân (geometric mean) :

Trang 17

Hàm AVERAGE tính trung bình cộng x: AVERAGE(mảng)

Ví dụ: Trung bình cộng của Số người trong các hộ gia đình

= AVERAGEIFS(D2:D421, C2:C421, “>4”, B2:B421, “Thành thị”) = 263.77

Hàm MEDIAN tính trung vị x d : MEDIAN(mảng)

Ví dụ: Trung vị của Số người trong mẫu: = MEDIAN(C2:C421) = 4

Trung vị của Thu nhập: = MEDIAN(D2:D421) = 111.1

Hàm MODE tính mốt x0: MODE(mảng)

Ví dụ: Mốt của Số người: = MODE(C2:C421) = 4

Mốt của Thu nhập: = MODE(D2:D421) = 215.8

Có thể phân tích độ lệch của phân phối giá trị biến qua việc so sánh ba giá trị Trung bình, Trung

vị, Mốt qua hình minh họa sau:

 Nếu Trung bình < Trung vị < Mốt: phân phối lệch trái, hệ số bất đối xứng âm: đa

số các giá trị là lớn, một số ít giá trị rất nhỏ kéo đuôi của phân phối về bên trái

 Nếu Trung bình = Trung vị = Mốt: phân phối đối xứng, hệ số bất đối xứng gần 0,

đa số các giá trị tập trung vào giữa, phân phối ra hai bên đều nhau

 Nếu Mốt < Trung vị < Trung bình: phân phối lệch phải, hệ số bất đối xứng dương,

đa số các giá trị là nhỏ, một số ít giá trị rất lớn kéo đuôi của phân phối về bên phải

Hình 3.1

Đối xứng, hình chuông Phân phối chuẩn Phân phối lệch phải (lệch dương)

Phân phối lệch trái (lệch âm)

Trang 18

Hàm GEOMEAN tính trung bình nhân x: GEOMEAN(mảng)

Ví dụ: Trung bình nhân của Thu nhập: = GEOMEAN(D2:D421) = 106.008 Tính chất: logarit(trung bình nhân) = trung bình cộng(logarit)

Hàm HARMEAN tính trung bình điều hòa x : HARMEAN(mảng)

Ví dụ: Trung bình điều hòa của Thu nhập: = HARMEAN(D2:D421) = 70.16 Tính chất: nghịch đảo(trung bình điều hòa) = trung bình cộng(nghịch đảo)

3.5 Các phân vị (quantile)

Hàm QUARTILE tính các tứ phân vị: QUARTILE(mảng, j) với j = 1, 2, 3

Ví dụ: các tứ phân vị của Thu nhập

Tứ phân vị thứ nhất Q1 : = QUARTILE(D2:D421, 1) = 66.425

Tứ phân vị thứ hai Q2: = QUARTILE(D2:D421, 2) = 111.1 = Trung vị

Tứ phân vị thứ ba Q3: = QUARTILE(D2:D421, 3) = 185.775 Như vậy số lượng hộ gia đình trong 4 khoảng: (Min  Q1), (Q1  Q2), (Q2 Q3), (Q3  Max) là bằng nhau và bằng 420 / 4 = 105

Hàm PERCENTILE tính các bách phân vị: PERCENTILE(mảng, j) với j = 0.01, 0.02,…, 0.99

Ví dụ: các bách phân vị của Thu nhập

Bách phân vị thứ nhất P1 : = PERCENTILE(D2:D421, 0.01) = 9.342

Bách phân vị thứ 25: P25 : = PERCENTILE(D2:D421, 0.25) = Q1

Bách phân vị thứ 50: P50 : = PERCENTILE(D2:D421, 0.5) = Q2 = Trung vị

Với số liệu

 3 tứ phân vị (quartile) Q1, Q2, Q3 chia số liệu thành 4 phần với số phần tử bằng nhau

Tứ phân vị thứ hai bằng trung vị: Q2 = x d

 99 bách phân vị (percentile) chia số liệu thành 100 phần với số phần tử bằng nhau

Trang 19

Chẳng hạn muốn phân chia các hộ gia đình theo mức độ thu nhập bình quân đầu người, nếu sử dụng tứ phân vị, có thể chia thành bốn nhóm với số lượng bằng nhau: Nghèo – Trung bình thấp – Trung bình cao – Giàu Nếu dùng ngũ phân vị có thể chia thành năm nhóm: Nghèo – Trung bình thấp – Trung bình – Trung bình cao – Giàu

3.6 Các thống kê về độ phân tán (variability)

Hàm DEVSQ tính tổng bình phương sai lệch SS: DEVSQ(mảng)

Ví dụ: Tổng bình phương sai lệch của Thu nhập: = DEVSQ(D2:D421) = 5113997.07

Hàm VAR tính phương sai mẫu s2: VAR(mảng)

Ví dụ: Phương sai của Thu nhập: = VAR(D2:D421) = 12205.244

Hàm STDEV tính độ lệch chuẩn mẫu s: STDEV(mảng)

Ví dụ: Độ lệch chuẩn của Thu nhập: = STDEV(D2:D421) = 110.477

*Lưu ý: nếu dùng hàm VAR.P và STDEV.P thì Excel hiểu số liệu là tổng thể, do đó tính theo

công thức phương sai và độ lệch chuẩn tổng thể (chia cho n chứ không phải n – 1)

Hàm AVEDEV tính trung bình sai lệch tuyệt đối: AVEDEV(mảng)

Ví dụ: Trung bình sai lệch tuyệt đối của Thu nhập: = AVEDEV(D2:D421) = 80.685

Với số liệu

 Tổng bình phương sai lệch (sum squared Deviation):

 Phương sai mẫu (sample variance):

 Phương sai tổng thể (population variance):

 Độ lệch chuẩn (standard deviation): ;

 Khoảng tứ phân vị (interquartile range): IQR = Q3 – Q1

 Hệ số biến thiên (coefficient of variation):

 Trung bình sai lệch tuyệt đối (average absolute deviation)

Trang 20

Excel không tính sẵn Hệ số biến thiên hay Khoảng tứ phân vị nhưng có thể thực hiện qua các phép tính

Hệ số biến thiên đo độ phân tán tương đối của biến, đơn vị là % Tính hệ số biến thiên (mẫu) bằng cách lấy độ lệch chuẩn chia cho trung bình và nhân với 100:

= STDEV(mảng)/ABS(AVERAGE(mảng)*100 Khoảng tứ phân vị thể hiện độ rộng của khoảng chứa 50% giá trị của biến nằm ở giữa, là khoảng cách giữa tứ phân vị thứ ba và tứ phân vị thứ nhất:

= QUARTILE(mảng, 3) – QUARTILE(mảng, 1)

Các Tứ phân vị có thể dùng kết hợp với giá trị nhỏ nhất, lớn nhất để thể hiện sự phân bố của giá

trị các biến Năm giá trị xếp theo thứ tự: Min < Q1 < Q2 < Q3 < Max được thể hiện trên đồ thị, gọi

là đồ thị hộp (box-plot) Ngoài ra có thể thêm hai giá trị ngoại lệ kí hiệu là O1 và O2 với công thức như sau:

Trang 21

Hàm SKEW tính hệ số bất đối xứng Sk: SKEW(mảng)

 Sk < 0: Phân phối lệch trái, đuôi kéo dài về bên trái

 Sk = 0: Phân phối đối xứng, hai đuôi bằng nhau, gần Chuẩn

 Sk > 0: Phân phối lệch phải, đuôi kéo dài về bên phải

Độ lớn của Sk xét về trị tuyệt đối cho biết độ bất đối xứng của phân phối là nhiều hay ít, đuôi có

kéo dài về một phía đến mức độ nào Mức độ bất đối xứng của phân phối có thể đánh giá qua sự

so sánh ba giá trị Trung bình, Trung vị, Mốt

Ví dụ: Hệ số bất đối xứng của Thu nhập: = SKEW(D2:D421) = 1.871

Hệ số bất đối xứng của Chi tiêu: = SKEW(E2:E421) = 1.949 Hai giá trị trên cho biết Thu nhập và Chi tiêu đều phân phối lệch phải, đa số các giá trị là nhỏ hơn trung bình, một số hộ có thu nhập và chi tiêu cao vượt hẳn lên kéo đuôi về bên phải Độ lệch đuôi kéo về bên phải của Chi tiêu là lớn hơn so với Thu nhập

Hàm KURT tính hệ số nhọn K: KURT(mảng)

Theo công thức tính hệ số nhọn a4 trong Giáo trình thì a4 sẽ vây quanh giá trị 3, a4 càng gần 3 độ

nhọn càng gần với phân phối Chuẩn Tuy nhiên trong Excel hệ số nhọn K được tính bằng a4 – 3,

do vậy K của phân phối Chuẩn bằng 0, K càng lớn thì càng nhọn hơn Chuẩn Khái niệm nhọn

được hiểu là xác suất tập trung hơn hay ít tập trung hơn so với phân phối chuẩn

Ví dụ: Hệ số nhọn của Thu nhập: = KURT(D2:D421) = 5.119

Hệ số nhọn của Chi tiêu: = KURT(E2:E421) = 5.395

Hình 3.3

*Excel tính hệ số Skewness và Kurtosis đã hiệu chỉnh, không hoàn toàn như công thức ở trên

Tuy nhiên hai giá trị không khác nhau đáng kể khi kích thước mẫu lớn

Xét biến Chi tiêu, các thống kê mô tả như sau:

Trang 22

Hình 3.4

Có thể thấy Chi tiêu có phân phối lệch phải rất lớn, giá trị lớn nhất lệch khỏi trung bình rất nhiều

3.8 Các thống kê về mối liên hệ (relationship)

0 10 20 30 40 50 60 70 80

20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 480 500 520 540 560 580

Với số liệu theo cặp

 Hiệp phương sai (covariance):

 Hệ số tương quan (correlation):

 r = –1 : Tương quan tuyến tính âm: đường thẳng dốc xuống

 r < 0 : Tương quan âm: xu thế dốc xuống

 r = 0 : Không có tương quan: không liên hệ về thống kê

 r > 0 : Tương quan dương: xu thế dốc lên

 r = 1 : Tương quan tuyến tính dương: đường thẳng dốc lên

Min Q 1 Q2 Q3 Max

x0 xd x

Trang 23

Hình 3.5

Hàm COVAR tính hiệp phương sai của hai biến: COVAR(mảng 1, mảng 2)

Ví dụ: Hiệp phương sai Thu nhập và Chi tiêu: = COVAR(D2:D421, E2:E421) = 7289.152

Hàm CORREL tính hệ số tương quan của hai biến: CORREL(mảng 1, mảng 2)

Ví dụ: Hệ số tương quan của Thu nhập và Chi tiêu: = CORREL(D2:D421, E2:E421) = 0.8357

Tổng hợp các hàm thống kê cơ bản của mẫu như sau:

Trung bình nhân GEOMEAN = GEOMEAN(D2:D421) 106.0

Tứ phân vị QUARTILE j = QUARTILE(D2:D421, 1) 66.425 Bách phân vị PERCENTILE j = PERCENTILE(D2:D421, 0.05) 25.19 Tổng b.phương sai lệch DEVSQ = DEVSQ(D2:D421) 5113997

TB sai lệch tuyệt đối AVEDEV = AVEDEV(D2:D421) 80.7

Hiệp phương sai COVAR = COVAR(D2:D421, E2:E421) 7289.2

Hệ số tương quan CORREL = CORREL(D2:D421, E2:E421) 0.8357

Tương quan dươngLỏngChặt

Tương quan âm

Không tương quan

r = 0.5

r = – 0.5

r = 0.8

r = 0

Trang 24

3.9 Tổng hợp các thống kê

Công cụ Data Analysis tổng hợp các thống kê mô tả chính trong một bảng

Ví dụ: muốn tính các thống kê tổng hợp cho Thu nhập và Chi tiêu, dữ liệu từ D1 đến E421 (kể cả dòng đầu chứa tên biến)

 DATA Data Analysis  Hộp thoại [Data Analysis] Descriptive Statistics

Hình 3.6

[Descriptive Statistics]

Input Range: D1:E421 Mảng giá trị để tính

 Group by:  Column Số liệu theo cột

  Label in first row Dòng đầu là tên biến

 Output Range: M1 Kết quả đưa ra từ ô M1

  Summary statistics Các thống kê tổng hợp

 OK

Trang 26

(c) Tỉ lệ hộ có 5 người trở lên trong số các hộ ở thành thị (d) Tỉ lệ hộ ở thành thị trong số hộ có từ 5 người trở lên

Bài 3.2 Tính Trung bình của Chi tiêu của các hộ

(a) Có từ 5 người trở lên (b) Ở nông thôn và có từ 5 người trở lên (c) Ở thành thị và có thu nhập từ 200 trở lên (d) Ở thành thị, có từ 4 người trở lên, thu nhập từ 200 trở lên

Bài 3.3 Tính các thống kê cơ bản của biến Số người Biến này có dạng phân phối thế nào?

Bài 3.4 Với biến Thu nhập

(a) Tính các thống kê cơ bản (b) So sánh Trung bình, Trung vị và phán đoán dạng của phân phối (c) Thu nhập lệch trái hay lệch phải?

(d) Tìm mức thu nhập mà 25% các hộ thu nhập ít hơn mức đó (e) Mức thu nhập cận trên của 20% hộ có thu nhập cao nhất là bao nhiêu?

Bài 3.5 Đặt biến TNBQ là Thu nhập bình quân đầu người (Thu nhập / số người)

(a) Tính các thống kê cơ bản: trung bình, phương sai, độ lệch chuẩn

(b) Độ dao động tương đối, đo bằng hệ số biến thiên là bao nhiêu %?

(c) TNBQ lệch trái hay phải? Nhọn hơn chuẩn hay không?

(d) Hộ có TNBQ trong nhóm 20% thấp nhất là nghèo Xác định mức TNBQ để từ đó trở xuống gọi là nghèo

(e) Hộ có TNBQ trong nhóm 20% cao nhất là giàu Mức TNBQ cận dưới của các hộ giàu là bao nhiêu?

Bài 3.6 Đặt biến CTBQ là Chi tiêu bình quân đầu người

(a) Tính các thống kê cơ bản

(b) Nhóm 50% có CTBQ nằm ở giữa của các hộ sẽ có mức CTBQ trong khoảng từ bao nhiêu đến bao nhiêu ?

(c) So sánh độ biến động tuyệt đối và tương đối của TNBQ và CTBQ (d) Tính hệ số tương quan giữa TNBQ với CTBQ, so sánh hệ số này với hệ số tương quan giữa Thu nhập và Chi tiêu

Trang 27

4 BẢNG TỔNG HỢP NHIỀU CHIỀU

Khi cần tính các thống kê như tần số, tần suất, trung bình, độ lệch chuẩn… của một biến trong các điều kiện khác nhau, có thể sử dụng bảng thống kê theo nhiều chiều Chức năng PIVOT TABLE của Excel sẽ trợ giúp rất hiệu quả cho các công việc này

4.1 Tạo bảng Pivot Table

Tại trang tính chứa dữ liệu VHLSS

 INSERT  Pivot Table  Hộp thoại [Create Pivot Table]

Trang 28

4.2 Bảng tần số, tần suất một chiều

Tính số lượng các hộ được phân chia theo Khu vực (Thành thị, Nông thôn)

 Đánh dấu  Khu vực  giữ chuột trái, kéo xuống góc COLUMNS

 giữ chuột trái, kéo tiếp xuống góc VALUES Excel tự động chuyển thành “Count of Khu vực”

 Nhấn chuột vào “Count of Khu vực ”  Hộp lựa chọn  Value Field Settings…

Có thể nhấn chuột phải vào con số 237 hoặc 183 trong bảng kết quả cũng xuất hiện hộp lựa chọn

 Value Field Settings…

Trang 30

4.3 Bảng tần số, tần suất theo số liệu gộp nhóm

Thực hiện tương tự với biến Số người Lưu ý vì biến Khu vực là biến định danh nên Excel tự động tính tần số, còn biến Số người là biến định lượng nên Excel tự động tính Tổng Do đó thông tin trong khu vực VALUES là “Sum of Số người” do đó bảng kết quả không phải tần số

Để hiển thị bảng tần số, thực hiện đổi như sau:

 [Value Field Settings]  Summarize Value By…  Count

Trang 31

Row Labels Count of Số người

4.4 Bảng tần số, tần suất hai chiều

Tính số hộ vả tỉ lệ hộ phân chia theo Số người (theo dòng) và Khu vực (theo cột) Thực hiện tương tự trên, kéo biến Khu vực vào ô COLUMN của bảng Pivot Table

Hình 4.7

Trang 32

Tuy nhiên, khi đổi kết quả sang dạng tỉ lệ %, cần lưu ý có 3 loại chia tỉ lệ %

Theo tổng số Tỉ lệ trên tổng 420 hộ = (85 / 420)100% = 20.24%

Theo cột Tỉ lệ trong các hộ theo Khu vực = (85 / 237)100% = 35.86%

Theo hàng Tỉ lệ trong các hộ theo Số người = (85 / 154)100% = 55.19%

 [Value Field Settings]  Show Values As  % of Grand Total

Trang 33

 [Value Field Settings]  Show Values As  % of Row Total

4.5 Bảng thống kê nhiều chiều

Muốn tính các tiêu chí thống kê, như Trung bình, Phương sai, Độ lệch chuẩn,…, của một biến (chẳng hạn Thu nhập) theo các trường hợp khác nhau (như Khu vực, Số người), có thể thực hiện như sau:

 [PivotTable Fields]  ROWS: Số người  COLUMNS: Khu vực  VALUES: Thu nhập Thay đổi các thống kê được tính trong hộp thoại Value Field Settings

 Count Numbers Tổng số giá trị khác nhau

 StdDev Độ lệch chuẩn (mẫu)

 SedDevp Độ lệch chuẩn (tổng thể)

 Var Phương sai (mẫu)

 Varp Phương sai (tổng thể)

Ví dụ: Xét biến Thu nhập, phân tích theo Khu vực, Số người Thống kê về trung bình

Bảng 4.9

Average of Thu nhập Khu vực

Trang 34

Thống kê về độ lệch chuẩn

Bảng 4.10

StdDev of Thu nhập Khu vực

Có thể tạo bảng nhiều chiều hơn để phân tích

Ví dụ: Lập bảng thống kê trung bình của chi tiêu với các hộ gia đình được chia theo các tiêu chí:

Khu vực (thành thị, nông thôn), Thu nhập (theo nhóm khoảng cách 200), Số người (theo nhóm khoảng cách là 3)

Đổi các chữ tiếng Anh sang tiếng Việt, có bảng sau:

Những ô trống thể hiện không có hộ gia đình nào thỏa mãn các tiêu chí đó, chẳng hạn không có

hộ nào có 1–3 người ở Nông thôn có thu nhập trên 200; không hộ nào có từ 4 người trở lên ở Thành thị thu nhập từ 600 trở lên

Trong phân tích, việc thống kê theo Thu nhập và Chi tiêu của hộ có thể không thích hợp bằng phân thích theo Thu nhập bình quân đầu người và Chi tiêu bình quân đầu người Do đó với biến TNBQ và CTBQ là Thu nhập/người và Chi tiêu/người, có bảng thống kê sau:

Trang 35

Thống kê Trung bình của Chi tiêu/người theo Khu vực và Số người:

Bảng 4.12

Trung bình của TNBQ Khu vực

Số người Nông thôn Thành thị Tổng

Trung bình của CTBQ

Trang 36

Có thể tạo các bảng với nhiều chiều, nhiều lớp hơn, tuy nhiên khi đó việc đọc kết quả cũng không đơn giản Thông thường bảng có 2 chiều, bảng 3 chiều nên hạn chế

Bài tập

Bài 4.1 Lập bảng tần số, tỉ lệ của các hộ ứng với các giá trị của biến Số người

(a) Trong toàn bộ mẫu (b) Phân chia theo khu vực nông thôn, thành thị

Bài 4.2 Lập bảng tần số của các hộ phân chia theo hai tiêu chí: khu vực và Chi tiêu (phân thành

3 nhóm) Lập bảng tỉ lệ phân chia theo ba cách:

(a) Trong tổng số (b) Theo từng khu vực (c) Theo từng nhóm chi tiêu

Bài 4.3 Lập bảng tần số và tần suất của các hộ phân chia theo hai tiêu chí: Thu nhập (phân thành

3 nhóm) và Chi tiêu (phân thành 3 nhóm)

Bài 4.4 So sánh Chi cho ăn uống của các hộ khi phân chia theo các nhóm Thu nhập (phân thành

4 nhóm) qua các thống kê:

(a) Trung bình (b) Phương sai

Bài 4.5 So sánh trung bình và phương sai của Chi cho ăn uống khi phân chia các hộ gia đình

theo hai tiêu chí là Khu vực và Thu nhập (phân thành 4 nhóm)

Bài 4.6 So sánh trung bình của Chi tiêu bình quân đầu người của các hộ khi phân chia các hộ gia

đình theo hai tiêu chí:

(a) Khu vực và Số người (phân thành 3 nhóm) (b) Khu vực và Thu nhập (phân thành 3 nhóm) (c) Số người (phân thành 3 nhóm) và Thu nhập (phân thành 3 nhóm) (d) Khu vực và Thu nhập bình quân đầu người (phân thành 3 nhóm)

Trang 37

5 MÔ TẢ SỐ LIỆU BẰNG ĐỒ THỊ

Mỗi loại biến sẽ có cách thể hiện bằng đồ thị khác nhau, tùy theo đặc tính của biến và mục đích

sử dụng Thông thường đồ thị tròn dành cho các biến định tính, hoặc biến định lượng khi được phân chia thành các nhóm

Trong Excel, đồ thị thường được sử dụng với các bảng số liệu tổng hợp,

Trang 38

Nhấn chuột phải vào các phần trên đồ thị để sửa đổi, có thể tạo thành các đồ thị với hình thức đẹp hơn, hiển thị nhiều thông tin hơn, tùy vào mục đích sử dụng và sở thích của người dùng

Trang 39

Trung bình của TN Khu vực

Số người Nông thôn Thành thị Chung

Hình 5.6

0 50 100 150

20 40 60 80 100 120 140 160

Thu nhập theo Số người và Khu vực

Nông thôn Thành thị Chung

Trang 40

Khi muốn so sánh về Thu nhập giữa các Nhóm tuổi trong từng Khu vực, tức là xét thành 3 cụm

đồ thị tương ứng với 3 trường hợp Nông thôn – Thành thị - Chung; trong mỗi cụm gồm 4 cột thể hiện 4 nhóm tuổi, đồ thị như sau:

Hình 5.7

Cũng có thể sử dụng đồ thị trên hệ tọa độ ba chiều để so sánh theo cả hai cách Trong đồ thị sau khu vực Chung đã được bỏ bớt để tránh hình ảnh phức tạp

Hình 5.8

5.3 Đồ thị phân phối giá trị (histogram)

Đồ thị histogram khác với đồ thị cột khác ở chỗ trục hoành phải tương ứng với giá trị của một biến định lượng, trục tung là tần số hoặc tần suất

Thu nhập theo Khu vực và Số người

1-2 3-4 5-6 7-9

Nông thôn Thành thị 0

100 200 300 400

Ngày đăng: 01/09/2017, 20:23

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w