Các hàm thống kê trong excel
Trang 1H À M T HỐ N G KE Â T R ON G E X C E L
I XÁC SUẤT
Hàm số tính số cách chọn x phần tử trong tập hợp n phần tử
=COMBIN(number, number_chosen)
Trong đó number: số phần tử trong tập hợp
number_chosen: số phần tử sẽ chọn ra
Ví dụ: xác định số cách lấy 2 viên bi trong 1 thùng có 7 viên bi
=COMBIN(7,2) sẽ cho kết quả là 21
Tính bằng tay =
)!
2 7 ( 2
! 7
−
II MÔ TẢ TẬP DỮ LIỆU, CHỌN NGẪU NHIÊN DỮ LIÊU
Tập dữ liệu được nhập vào các cột A,B,C,D và hàng 1,2,3 trong Excel như sau:
1 3 2 7 9 2 3
2 8 10 4 6 4 2
3 1 5 2 8 6 2
4 8 3
6
Hàm tính số lượng dữ liệu: COUNT(value1, value2,…)
=COUNT(A1:D3) cho kết quả là 12
Hàm tính tần số của tập dữ liệu: FREQUENCY(data_array,bins_arrray)
Trong đó: bins_array là dãy số phân nhóm
data_array là tập dữ liệu xem xét để xếp vào từng phân nhóm
Ví dụ xác định có bao nhiêu số liệu nằm trong khoảng 0-2, >2-4, >4-6, >6-8, >8-10
Bước 1: Nhập dãy số phân nhóm (bins_array) vào ô F1:F5
Bước 2: Chọn dãy ô G1:G5
Bước 3: Gõ =FREQUENCY(A1:D3,F1:F5)
Bước 4: Nhấn cùng lúc tổ hợp phím Ctrl+Shift+Enter
Kết quả từ ô G1:G5 sẽ là {3,2,2,3,2}
Giải thích: có 3 số có giá trị từ 0-2; có 2 số có giá trị từ >2-4; có 2 số có giá trị từ >4-6; có
3 số có giá trị từ >6-8; và có 2 số có giá trị từ >8-10
Hàm tính giá trị trung bình: AVERAGE(number1,number2,…)
=AVERAGE(A1:D3) cho kết quả là 5,4
=AVERAGE(A1:C1,A3:C3) cho kết qủa là 3,3
Trang 2Hàm tìm số trung vị: MEDIAN(number1,number2,…)
=MEDIAN(A1:D3) cho kết quả là 5,5
Hàm tìm số yếu vị: MODE(number1,number2,…)
=MODE(A1:D3) cho kết quả là 2
Ghi chú: Nếu có nhiều số yếu vị, Excel sẽ tìm số đầu tiên từ trên xuống, từ trái qua
Hàm tìm giá trị lớn nhất: MAX(number1,number2,…)
=MAX(A1:D3) cho kết quả là 10
Hàm tìm giá trị nhỏ nhất: MIN(number1,number2,…)
=MIN(A1:D3) cho kết quả là 1
Hàm tính phương sai Tập hợp chính: VARP(number1,number2,…)
=VARP(A1:D3) cho kết quả là 8,41
Hàm tính độ lệch chuẩn Tập hợp chính: STDEVP(number1,number2,…)
=STDEVP(A1:D3) cho kết quả là 2,9
Hàm tính phương sai Mẫu: VAR(number1,number2,…)
=VAR(A1:D3) cho kết quả là 9,17
Hàm tính độ lệch chuẩn Mẫu: STDEV(number1,number2,…)
=STDEV(A1:D3) cho kết quả là 3,02
Hàm xếp hạng thứ tự 1 số trong tập dữ liệu: RANK(number,ref,order)
Trong đó: number là số muốn xếp hạng
ref là dãy số mà số muốn xếp hạng number nằm trong đó order là chọn lựa thứ tự xếp, 0 hoặc để trống là xếp giảm dần, có giá trị bất
kỳ khác thì hàm sẽ xếp tăng dần
=RANK(8,A1:D3) cho giá trị 3 (số 8 đứng vị trí thứ 3 nếu xếp 12 số trong dãy
A1:D3 giảm dần)
=RANK(8,A1:D3,1) cho giá trị 9 (số 8 đứng vị trí thứ 9 nếu xếp 12 số trong dãy
A1:D3 tăng dần) Ghi chú: Kiểm tra bằng tay, xếp 12 số theo thứ tự tăng dần
1 2 2 3 4 5 6 7 8 8 9 10
Trang 3Hàm tính số tứ phân: QUARTILE(array,quart)
Trong đó: array là dãy số tập dữ liệu đang xét (dãy liên tục)
quart là số tứ phân, có thể là 1, 2, hay 3
=QUARTILE(A1:D3,2) cho kết quả là 5,5, chính là số trung vị
=QUARTILE(A1:D3,1) cho kết quả là 2,75
=QUARTILE(A1:D3,3) cho kết quả là 8
Ghi chú: Số tứ phân thứ 1 là số nằm giữa số 2 và 3, tính tay sẽ là trung bình của 2 số
này nghĩa là 2,5 Tuy nhiên trong Excel số này sẽ có giá trị bằng số nhỏ cộng thêm ¾ khoảng cách của số lớn trừ nhỏ Trường hợp này sẽ là 2 + ¾ (3-2) = 2,75
Tuy nhiên với trường hợp tính số tứ phân thứ 3, nếu số này nằm giữa 2 số trong dãy, thì số tứ phân này sẽ có giá trị bằng số nhỏ cộng thêm ¼ khoảng cách của số lớn trừ nhỏ
Hàm tính số định vị phần trăm: PERCENTILE(array,k)
Trong đó: array là dãy số tập dữ liệu đang xét
k là phần trăm số liệu nhỏ hơn số định vị đang tìm
Ví dụ:
Tìm số định vị 50% (nghĩa là tìm số có 50% số liệu nhỏ hơn nó), gõ
=PERCENTILE(A1:D3,50%) sẽ cho kết quả là 5,5
Tìm số định vị 25% (nghĩa là tìm số có 25% số liệu nhỏ hơn nó), gõ
=PERCENTILE(A1:D3,25%) sẽ cho kết quả là 2,75
Chọn ngẫu nhiên 1 dữ liệu trong dãy (A1:D3)
=INDEX(A1:D3,RANDBETWEEN(1,3),RANDBETWEEN(1,4))
Trong đó: Hàm INDEX(array,row_num,column_num) sẽ chọn số liệu nằm ở hàng thứ
row_num và cột thứ column_num trong dãy số array Hàm RANDBETWEEN(bottom,top) sẽ cho 1 số ngẫu nhiên nằm trong đoạn từ bottom đến top
Ghi chú: muốn dùng được hàm RANDBETWEEN, vào menu Tools trong Excel, chọn
Add-Ins, chọn Analysis ToolPak
Giải thích: Dãy số A1:D3 có 3 hàng và 4 cột,
Hàm Randbetween(1,3) sẽ cho 1 số ngẫu nhiên từ 1 đến 3, ví dụ số 2 Hàm Randbetween(1,4) sẽ cho 1 số ngẫu nhiên từ 1 đến 4, ví dụ số 3 Hàm Index(A1:D3,2,3) sẽ cho dữ liệu nằm ở hàng 2, cột 3 trong dãy A1:D3, đó là số 4
Trang 4III BIẾN NGẪU NHIÊN VÀ PHÂN PHỐI XÁC SUẤT
Phân phối Nhị thức (Binomial distribution)
Số lần thử là n Xác suất thành công mỗi lần thử là p Gọi X là số lần thành công trong n lần thử (X có thể bằng 0…n)
Yêu cầu: tìm xác suất P(X=x) hoặc P(X≤x)
BINOMDIST(number_s,trials,probability_s,cumulative)
Hàm phân phối nhị thức BINOMIAL có 4 tham số:
number_s: số lần thành công (x) trials: số lần thử độc lập (n)
probability: xác suất thành công trong mỗi lần thử (p) cumulative: để trống, bằng 0 hay FALSE để tính xác suất P(X=x)
bằng 1 hay TRUE để tính xác suất tích lũy P(X≤x)
Ví dụ: cho n=5, p=0.4
Tính xác suất P(X=2), gõ hàm =BINOMDIST(2,5,0.4,0)
Tính xác suất P(X≤2), gõ hàm =BINOMDIST(2,5,0.4,1)
Phân phối Poisson (Poisson distribution)
Kỳ vọng của biến ngẫu nhiên theo phân phối Poisson là λ Gọi X là số biến cố hiếm tuân theo phân phối Poisson
Yêu cầu: tìm xác suất P(X=x) hoặc P(X≤x)
POISSON(x,mean,cumulative)
Hàm phân phối nhị thức POISSON có 3 tham số:
x: số biến cố mean: trung bình, kỳ vọng (số dương) cumulative: để trống, bằng 0 hay FALSE để tính xác suất P(X=x)
bằng 1 hay TRUE để tính xác suất tích lũy P(X≤x)
Ví dụ: cho λ=2
Tính xác suất P(X=3), gõ hàm =POISSON(3,2,0)
Tính xác suất P(X≤3), gõ hàm =POISSON(3,2,1)
Phân phối chuẩn (Normal distribution)
Yêu cầu: Tìm xác suất P(X≤x)
Trang 5x: giá trị biến mean: trung bình hay kỳ vọng, µ standard_dev: độ lệch chuẩn của biến, σ cumulative: bằng 1 để tính xác suất tích lũy P(X≤x)
Ví dụ: cho µ = 3, σ = 0,5
Tính P(X≤2), gõ =NORMDIST(2,3,0.5,1) cho kết quả là 0,02275
Yêu cầu: cho biết p=P(X≤x) tìm x
NORMINV(probability,mean,standard_dev)
Hàm NORMINV có 3 tham số:
probability: xác suất tích lũy, P(X≤x) mean: kỳ vọng µ
standard_dev: độ lệch chuẩn σ
Ví dụ: cho µ = 3, σ = 0.5
Biết P(X≤x) = 0,0227, tìm x, gõ =NORMINV(0.02275,3,0.5) cho kết quả là 2
Phân phối chuẩn chuẩn hóa hay chuẩn đơn vị (Standard Normal distribution)
Kỳ vọng 0
Yêu cầu: Tìm xác suất P(Z≤z)
NORMSDIST(z)
Hàm phân phối chuẩn hóa NORMSDIST có 1 tham số z
Ví dụ:
Tìm P(Z≤0.8), gõ =NORMSDIST(0.8) cho kết quả là 0,788145
Tìm P(0.5≤Z≤0.8)=P(Z≤0.8) – P(Z≤0.5), gõ =NORMSDIST(0.8)-NORMSDIST(0.5) cho kết quả là 0,0967
Yêu cầu: cho biết p=P(Z≤z) tìm z
NORMSINV(probability)
Hàm NORMINV có 1 tham số xác suất probability
Ví dụ:
Cho biết P(Z≤z) = 0,788, tìm z, gõ =NORMSINV(0.788) cho kết quả z = 0,7995
Trang 6VI PHÂN PHỐI MẪU
Độ chính xác của ước lượng hay dung sai ε
Cho trước: mức ý nghĩa α
Độ lệch chuẩn của tập hợp chính σ Cỡ mẫu n
Yêu cầu: Tìm khỏang tin cậy của trung bình tập hợp chính µ, nghĩa là tìm
µ = x ± ε trong đó ε = Zα/2
n
σ CONFIDENCE(alpha,standard_dev,size)
Hàm CONFIDENCE có 3 thông số
alpha: mức ý nghĩa, α standard_dev: độ lệch chuẩn của tập hợp chính, σ size: cỡ mẫu, n
Ví dụ: tập hợp chính có phân phối chuẩn và σ = 1,2 kg Một mẫu ngẫu nhiên gồm 25 phần tử có trung bình là 19,8kg Tìm khoảng tin cậy 95% của µ
Ta có: α = 0.05, σ = 1,2 và n = 25
Tìm ε bằng cách gõ =CONFIDENCE(0.05,1.2,25) cho kết quả là 0.4704
Vậy khoảng tin cậy 95% của µ là 19,8 ± 0.4704
V TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH
Hiệp tương quan của tập hợp chính
Cho trước: 2 tập dữ liệu X, Y có các giá trị theo cặp
Yêu cầu : Tính hiệp tương quan và hệ số tương quan giữa 2 đại lượng, nghĩa là tính
σXY = Cov(X,Y) =
N
) µ )(y µ (
N
1
∑
=
−
−
x
và
ρ = Corr(X,Y) =
Y X
XY Y
σ σ
σ
Y)
Hàm: COVAR(array1,array2)
CORREL(array1,array2)
Hàm COVAR và CORREL có 2 tham số:
array1: dãy giá trị của biến X
Trang 7Để tìm hiệp tương quan, gõ =COVAR(B1:F1,B2:F2) cho kết quả là –0.2
Để tìm hệ số tương quan, gõ =CORREL(B1:F1,B2:F2) cho kết quả là –0.1
Lưu ý: Theo lý thuyết, công thức tính hệ số tương quan cho tập hợp chính và cho mẫu là
giống nhau Vì vậy hàm CORREL dùng để tính hệ số tương quan cả cho mẫu
Xem thêm phần thực hành dùng Excel xác định phương trình hồi qui tuyến tính, khỏang ước lượng cho các hệ số của phương trình