CHƢƠNG 3 PHƢƠNG PHÁP XỬ LÝ SỐ LIỆU
3.2. Phƣơng pháp xử lý số liệu
Số liệu thống kê thƣờng là rất nhiều và chúng đƣợc ghi lại trong một bảng ma trận. Nếu quan sát số liệu trong bảng ma trận này, chúng ta khó nhận ra những thơng tin mong muốn. Để phát hiện tính quy luật của chuỗi số liệu, chúng ta cần phải vận dụng cơng cụ tốn học. Thống kê mơ tả (Descriptive Statistics) giúp chúng ta xác định những đặc trƣng thống kê nhƣ giá trị trung bình (Mean, Average = Xbq), phƣơng sai (Variance = S2), giá trị lớn nhất (XMax) và giá trị lớn nhỏ nhất (XMin), phạm vi biến động (Range = R = XMax - XMin), độ lệch (Skewness = Sk), độ nhọn (Kurtosis = Ku), khoảng tin cậy của trung bình mẫu...
3.2.1. Những số đo lƣờng mức độ tập trung của chuỗi số liệu
Mức độ tập trung của chuỗi số liệu đƣợc đo lƣờng bằng ba thống kê là trung bình (Mean), trung vị (Median) và số xuất hiện nhiều nhất (Mode).
43
(a) Trung bình mẫu (Sample Mean). Trong thống kê tốn học, ngƣời ta sử
dụng nhiều khái niệm khác nhau về số trung bình nhƣ trung bình cộng (trung bình số học = Arithmetic Average), trung bình nhân (Multiplictional Average), trung bình điều hịa (Harmonic Average), trung bình hình học (Geometric Average), trung bình bình phƣơng (Squared Average)…Tuy nhiên, trong lĩnh vực kinh tế và kinh doanh, hai trung bình đƣợc sử dụng phổ biến là trung bình số học (trung bình cộng) và trung bình nhân. Ý nghĩa cơ bản của giá trị trung bình cộng là nó đƣợc sử dụng để phân tích độ lớn của các thành phần của một biến số và dung hòa các dao động cao thấp. Giá trị trung bình của một mẫu quan sát đƣợc gọi là trung bình mẫu. Giá trị trung bình của một biến số (XBq) đƣợc tính theo trung bình cộng đơn giản và trung bình cộng gia quyền. Trong trƣờng hợp mẫu lớn (n > 30), giá trị XBq đơn giản đƣợc xác định theo công thức (3.1). Khi mẫu nhỏ (n < 30), giá trị XBq đơn giản đƣợc xác định theo công thức (3.2).
XBq = (X1 + X2 + …+ Xn)
n (3.1)
XBq = (X1 + X2 + …+ Xn)
n - 1 (3.2)
Khi nhiều biến quan sát nhận những giá trị nhƣ nhau, ngƣời ta xây dựng bảng phân phối tần số theo nhóm (tổ, cấp) quan sát. Khi số liệu đƣợc ghép thành nhóm, thì giá trị trung bình của chuỗi số liệu đƣợc tính theo trung bình cộng gia quyền (Trung bình có trọng số = The Weighted Mean). Trong trƣờng hợp mẫu lớn (n > 30), giá trị XBq gia quyền đƣợc xác định theo công thức (3.3). Khi mẫu nhỏ (n < 30), giá trị XBq gia quyền đƣợc xác định theo công thức (3.4). Ở công thức (3.3) và (3.4), n = tổng số quan sát; fi (i = 1 – n) là tần số quan sát của các biến Xi, n = f1+ f2 +…+ fn.
XBq = (f1X1 + f2X2 + …+ fnXn)
n (3.3)
XBq = (f1X1 + f2X2 + …+ fnXn)
44
Ví dụ: Xác định trung bình doanh thu (X, triệu đồng) của các cửa hàng theo số liệu ở Bảng 3.3.
Ngoài cách xác định trung bình cộng đơn giản, ngƣời ta cịn xác định trung bình nhân. Trung bình nhân là căn bậc n của tích các giá trị của chuỗi số liệu (công thức 3.5). Khi chuỗi số liệu đƣợc ghép thành nhóm, thì trung bình nhân đƣợc xác định theo công thức 3.6. 1 1 .. 3 2 1 n n n n y y t t t t t (3.5) fi fn n f f t t t t t 1 1 2 2 3... (3.6)
Bảng 3.3. Chuỗi doanh thu của các cửa hàng trong một tháng. ĐVT: Triệu đồng.
TT XMin XMax X(Giữa tổ) fi f(Tích lũy) fi*X(Giữa tổ) XBq
(1) (2) (3) (4) (5) (6) (7) (8) 1 300 500 400 10 10 4.000 970 2 500 700 600 25 35 15.000 3 700 900 800 30 65 24.000 4 900 1.100 1.000 50 115 50.000 5 1.100 1.300 1.200 25 140 30.000 6 1.300 1.500 1.400 15 155 21.000 7 1.500 1.700 1.600 10 165 16.000 Tổng số 165 160.000 970 165 160.000 1 1 n i i n i i i f f x x (triệu đồng)
Trung bình là một đặc trƣng thống kê của chuỗi số liệu. Giá trị trung bình chỉ là đại diện tốt cho chuỗi số liệu có phân bố chuẩn. Trong kinh tế và kinh doanh, trung bình nhân đƣợc áp dụng để xác định tốc độ phát triển trung bình trong thời kỳ
45
nào đó. Bảng 3.4 là doanh thu và tốc độ phát triển liên hoàn của các cửa hàng từ năm 2004 - 2009.
Bảng 3.4. Doanh thu và tốc độ phát triển liên hoàn của các cửa hàng trong 6 năm từ
năm 2004 – 2009. ĐVT: Tỷ đồng/năm.
Năm 2004 2005 2006 2007 2008 2009
(1) (2) (3) (4) (5) (6) (7)
Doanh thu (Tỷ đồng) 200 210 215 222 230 244
Tốc độ phát triển (ti lần) - 1,05 1,02 1,03 1,04 1,06
(b) Trung vị mẫu. Trung vị mẫu (Kí hiệu = Me = Sample Median) là số đứng ở vị trí trung tâm của chuỗi số liệu theo thứ tự tăng dần. Nếu số lƣợng của chuỗi số liệu là số lẻ, thì Me là số nằm ở trung tâm của chuỗi số liệu. Nếu số lƣợng của chuỗi số liệu là số chẵn, thì Me là số trung bình của cặp số nằm chính giữa của chuỗi số liệu đƣợc sắp xếp theo thứ tự từ nhỏ đến lớn.
Khi chuỗi số liệu bao gồm n phần tử và không đƣợc phân chia thành các tổ. Nếu n là số lẻ, thì Me đƣợc xác định theo cơng thức (3.7). Nếu n là số chẵn, thì Me đƣợc xác định theo công thức (3.8)
Me = X(n+1)/2 (3.7)
Me = [ (X(n/2) + X 2 (n/2)+1) ] (3.8)
Ví dụ: Xác định Me của chuỗi tiền lƣơng tháng của nhóm cơng nhân ở một tổ sản
xuất theo chuỗi số liệu sau đây (ĐVT: 1.000 đồng/ngƣời):
(+) Dãy số lẻ (n = 7): 1.500; 1.600; 1.750; 1.900; 2.150; 2.300; 2.500 ngàn đồng/ngƣời. Từ đó Me = X(7+1)/2 = X4 = 1.900 ngàn đồng/ngƣời.
(+) Dãy số chẵn (n = 8): 1.500; 1.600; 1.750; 1.900; 2.150; 2.300; 2.500; 2.800 ngàn đồng/ngƣời. Từ đó Me = [X(8/2) + X(8/2)+1]/2 = (X4 + X5)/2 = (1.900 + 2.150)/2 = 2.025 ngàn đồng/ngƣời.
46
Khi chuỗi số liệu bao gồm n phần tử và chúng đƣợc phân chia thành các tổ với cự ly tổ là K. Trong trƣờng hợp này, Me là giá trị thuộc tổ có tần số tích lũy lớn nhất. Gọi fM là tần số của tổ M; FM là tần số tích lũy từ tổ đầu tiên đến tổ M. Để xác định Me, trƣớc hết xác định tổ có tần số lớn nhất (fMax). Kế đến xác định tần số tích lũy từ tổ đầu tiên đến tổ có tần số lớn nhất (FM) và tổ M - 1 (FM-1). Sau đó xác định Me theo cơng thức (3.9); trong đó XM là giới hạn dƣới của tổ thứ M có tần số lớn nhất (fMax); K là khoảng cách của mỗi tổ; X(n/2) là giá trị ở vị trí n/2; FM là tần số tích lũy ở tổ có tần số lớn nhất, F(M-1) là tần số tích lũy ở tổ M - 1.
Me = XM + K*[(n/2 - F(M-1))
fM ] (3.9)
Ví dụ: Xác định trung vị của chuỗi doanh thu của các cửa hàng theo số liệu ở Bảng
3.5. Từ số liệu ở Bảng 3.5 cho thấy, K = 200, fMax = 50 và xuất hiện ở tổ 4. Nhƣ vậy, giá trị Me nằm ở tổ 4 (900 – 1.100). Tần số tích lũy từ tổ 1 đến tổ 4 là 115 và từ tổ 1 đến tổ 3 là 65. Giá trị n/2 = 165/2 = 82,5. Thay các số liệu này vào công thức (3.9), chúng ta nhận đƣợc Me = 930 triệu đồng/tháng.
Bảng 3.5. Chuỗi doanh thu của các cửa hàng trong một tháng. ĐVT: Triệu đồng.
TT XMin XMax X(Giữa tổ) fi f(Tích lũy) Me (1) (2) (3) (4) (5) (6) (8) 1 300 500 400 10 10 930 2 500 700 600 25 35 3 700 900 800 30 65 4 900 1.100 1.000 50 115 5 1.100 1.300 1.200 25 140 6 1.300 1.500 1.400 15 155 7 1.500 1.700 1.600 10 165 Tổng số 165
47 Me = 900 + 200*[(82,5 - 65)
115 ] = 930 triệu đồng/tháng.
Trong phần giải thích kết quả phân tích thống kê, từ giá trị Me cho thấy 50% số cửa hàng có doanh thu lớn hơn 930 triệu đồng/tháng và 50% số cửa hàng có doanh thu nhỏ hơn 930 triệu đồng/tháng.
Trung vị là một đặc trƣng thống kê của chuỗi số liệu. Ƣu điểm của Me là nó khơng phụ thuộc vào kiểu phân bố của chuỗi số liệu. Khi chuỗi số liệu có phân bố lệch chuẩn, thì trung vị là đại diện tốt hơn so với giá trị trung bình.
(c) Giá trị xuất hiện nhiều nhất. Trong một chuỗi số liệu, những số xuất hiện nhiều nhất đƣợc gọi là Mốt (Kí hiệu = Mo = Mode). Nói cách khác, Mo là số có tần số cao nhất trong bảng số liệu đã đƣợc ghép thành tổ hay nhóm. Tùy theo cách thức tập hợp số liệu, giá trị Mo đƣợc xác định khác nhau.
(+) Đối với chuỗi số liệu đƣợc phân tổ nhƣng khơng có khoảng cách tổ. Trong trƣờng hợp này, M0 là giá trị tƣơng ứng với tần số xuất hiện nhiều nhất. Ví dụ: Xác định điểm số xuất hiện nhiều nhất (Mo) theo chuỗi số liệu ở Bảng 3.6. Quan sát số liệu ở Bảng 3.6 cho thấy điểm 7 xuất hiện nhiều nhất (52/124 = 49%). Vì thế, theo định nghĩa, Mo = 7.
Bảng 3.6. Điểm số của sinh viên ở Trƣờng Cao đẳng A.
Điểm số 4 5 6 7 8 9 Tổng
Số sinh viên 10 15 30 52 15 2 124
(+) Đối với chuỗi số liệu đƣợc phân tổ với khoảng cách đều nhau. Trong trƣờng hợp này, Mo là giá trị thuộc tổ có tần số lớn nhất và đƣợc xác định theo công thức 3.10. Ở công thức 3.10, XM là giá trị ở cận dƣới của tổ chứa Mo; K là khoảng cách của mỗi tổ; fMo là tần số của tổ chứa Mo; f(Mo-1) là tần số của tổ đứng trƣớc tổ chứa Mo; f(Mo+1) là tần số của tổ đứng sau tổ chứa Mo.
Mo = XM + K*[ (fMo - f(Mo-1))
48
Ví dụ: Xác định Mo theo chuỗi doanh thu của các cửa hàng trong một tháng ở Bảng
3.5. Từ số liệu ở Bảng 3.5 cho thấy, XM = 900; K = 200, fMo = 50 và xuất hiện ở tổ 4; f(Mo-1) = 30 ở tổ 3; f(Mo+1) = 25 ở tổ 5. Thay các số liệu này vào công thức 3.10, chúng ta nhận đƣợc Mo = 940 triệu đồng/tháng.
Mo = 900 + 200*[ (50 - 30)
((50 - 30) + (50 + 30)) ] = 940 triệu đồng/tháng.
Ƣu điểm của Mo là nó khơng chịu ảnh hƣởng của các giá trị cực trị (giá trị lớn nhất và giá trị nhỏ nhất). Nhƣợc điểm của Mo là nó kém nhạy bén với sự biến thiên của chuỗi số liệu. Trong thực tế, giá trị Mo đƣợc sử dụng ít hơn so với Me và số trung bình. Thơng thƣờng, Mo đƣợc ứng dụng để phân tích nhu cầu của thị trƣờng đối với một loại sản phẩm nào đó (giày, dép, mũ nón, quần áo…). Giá trị Mo chỉ rõ tính đa số, tính khuynh hƣớng và tính phong trào. Giá trị Mo là đại lƣợng thống kê mô tả duy nhất có thể sử dụng cho các dữ liệu định tính.
3.2.2. Những số đo mức độ phân tán của chuỗi số liệu
Các giá trị trung bình, Me và Mo chỉ cho biết những giá trị trung tâm của chuỗi số liệu. Chúng phản ánh khơng đầy đủ các tính chất của chuỗi số liệu. Vì thế, để đo lƣờng mức độ phân tán của chuỗi số liệu, ngƣời ta sử dụng một số thống kê nhƣ khoảng biến thiên hay phạm vi biến động (Range = R), độ lệch (Bias), phƣơng sai (Variance = S2), sai tiêu chuẩn hay độ lệch chuẩn (Standard Deviation = S), hệ số biến động (Coefficient of Variation = CV%), độ lệch (Skewness = Sk) và độ nhọn (Kurtosis = Ku).
(a) Khoảng biến thiên (R). Đó là thống kê phản ánh sự chênh lệch giữa giá
trị lớn nhất (Xmax) và giá tri nhỏ nhất (Xmin) của chuỗi số liệu. Giá trị R đƣợc xác định theo công thức 3.11. Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều và số trung bình có tính đại diện càng cao và ngƣợc lại.
49
(b) Độ lệch (Bias). Đó là chênh lệch giữa các giá trị quan sát (Xi) so với giá trị trung bình mẫu (XBq) của chuỗi số liệu. Thống kê Bias đƣợc xác định theo công thức 3.12.
Bias = Xi – XBq (3.12)
Trong thống kê, ngƣời ta sử dụng Bias để đo sự phân tán của các quan sát so với trung bình mẫu. Các giá trị Bias có thể nhận giá trị âm hoặc giá trị dƣơng. Nếu tổng Bias dƣơng, thì những giá trị lớn hơn giá trị trung bình là nhiều hơn so với những giá trị nhỏ hơn giá trị trung bình. Ngƣợc lại, nếu tổng Bias âm, thì những giá trị lớn hơn giá trị trung bình là nhỏ hơn so với những giá trị nhỏ hơn giá trị trung bình. Bởi vì các giá trị Bias có thể nhận giá trị âm hoặc giá trị dƣơng, nên khi dung lƣợng mẫu lớn (n > 30), thì tổng Bias của chuỗi số liệu bằng Zero. Điều đó gây ra khó khăn trong việc phân tích và so sánh giữa các tập số liệu. Để loại bỏ hiện tƣợng Bias = 0, ngƣời ta xác định sai lệch tuyệt đối trung bình (MAE = Mean Absolute Error) (Cơng thức 3.13) và sai lệch tuyệt đối trung bình theo phần trăm (MAPE = Mean Absolute Percent Error) (Công thức 3.14).
MAE = | (Xi - XBq)
n | (3.13)
MAPE = | (Xi - XBq)
XBq |*100 (3.14)
(c) Phƣơng sai (S2). Đó là số bình quân cộng của bình phƣơng các độ lệch
(Bias) giữa các giá trị quan sát (Xi) so với số trung bình của chuỗi số liệu. Khi chuỗi số liệu khơng đƣợc ghép thành nhóm và n > 30, thì phƣơng sai mẫu đƣợc xác định theo công thức 3.15.
S2 = (Xi - XBq) 2
n (3.15)
Khi chuỗi số liệu khơng đƣợc ghép thành nhóm và n < 30, thì phƣơng sai mẫu đƣợc xác định theo công thức 3.16.
S2 = (Xi - XBq) 2
50
Khi chuỗi số liệu đƣợc ghép thành nhóm và n > 30, thì phƣơng sai mẫu đƣợc xác định theo cơng thức 3.17; trong đó X*
i và fi tƣơng ứng là giá trị giữa và tần số của mỗi nhóm, cịn tổng fi = n.
S2 = fi(Xi *
- XBq)2
n (3.17)
Khi chuỗi số liệu khơng đƣợc ghép thành nhóm và n < 30, thì phƣơng sai mẫu đƣợc xác định theo công thức 3.18.
S2 = (Xi - XBq) 2
n - 1 (3.18)
(d) Sai tiêu chuẩn (S). Đó là căn bậc 2 của phƣơng sai. Khi chuỗi số liệu khơng đƣợc ghép thành nhóm và n > 30, thì sai tiêu chuẩn mẫu đƣợc xác định theo công thức 3.19.
S = √ - (3.19)
Khi chuỗi số liệu khơng đƣợc ghép thành nhóm và n < 30, thì sai tiêu chuẩn mẫu đƣợc xác định theo công thức 3.20.
S = √ -
- (3.20)
Khi chuỗi số liệu đƣợc ghép thành nhóm và n > 30, thì sai tiêu chuẩn mẫu đƣợc xác định theo công thức 3.21.
S = √ - (3.21)
Khi chuỗi số liệu đƣợc ghép thành nhóm và n < 30, thì sai tiêu chuẩn mẫu đƣợc xác định theo công thức 3.22.
S = √ -
- (3.22)
(e) Chuẩn hóa số liệu. Chuẩn hóa số liệu là loại bỏ đơn vị đo của chuỗi số
51
Score là tỷ lệ giữa các sai lệch của các giá trị quan sát so với giá trị trung bình và sai tiêu chuẩn mẫu. Giá trị Z – Score đƣợc xác định theo công thức 3.23.
Z - Score = [(Xi - XBq)
S ] (3.23)
Giá trị Z – Score đƣợc sử dụng để xác định những số ngoại lai (số cực trị = số lớn nhất và số nhỏ nhật). Những số ngoại lai là những giá trị của chuỗi quan sát (Xi) lớn hơn hoặc nhỏ hơn 3*Z - Score.
(e) Hệ số biến động (CV%). Hệ số biến động biểu thị biến động theo phần trăm giữa các giá trị quan sát so với giá trị trung bình mẫu. Hệ số CV% của mẫu đƣợc xác định theo công thức 3.24.
CV% = S
XBq *100 (3.24)
(f) Độ lệch (Sk). Thống kê độ lệch (Sk) đo tính đối xứng hoặc tính bất đối
xứng của chuỗi số liệu. Phân bố của tập dữ liệu là đối xứng nếu chuỗi số liệu ở bên trái và bên phải của giá trị trung tâm (trung bình, Me, Mo) là nhƣ nhau. Vì thế, giá trị Sk đƣợc sử dụng để biểu thị độ lệch (độ xiên) của chuỗi số liệu so với giá trị trung tâm. Khi chuỗi số liệu khơng đƣợc ghép thành nhóm, thì hệ số Sk đƣợc xác định theo cơng thức 3.25. Khi chuỗi số liệu đƣợc ghép thành nhóm, thì hệ số Sk đƣợc xác định theo công thức 3.26. Sk = (Xi - XBq) 3 n*S3 (3.25) Sk = fi(Xi - XBq) 3 n*S3 (3.26)
Hệ số Sk có thể nhận giá trị bằng zero, giá trị âm hoặc giá trị dƣơng. Khi chuỗi số liệu phân bố chuẩn, thì hệ số Sk = 0. Khi hệ số Sk > 0, thì chuỗi số liệu phân bố lệch trái. Nguyên nhân là vì tổng tam thừa của những chênh lệch dƣơng lớn hơn so với tổng tam thừa của những chênh lệch âm so với giá trị trung bình mẫu. Trái lại, khi hệ số Sk < 0, thì chuỗi số liệu phân bố lệch phải. Nguyên nhân là vì tổng tam thừa của những chênh lệch dƣơng nhỏ hơn so với tổng tam thừa của những chênh lệch âm so với giá trị trung bình mẫu.
52
(g) Độ nhọn (Ku). Thống kê độ nhọn (Ku) biểu thị mức độ tập trung của các
giá trị quan sát xung quanh giá trị trung tâm (trung bình, Me, Mo). Khi chuỗi số liệu khơng đƣợc ghép thành nhóm, thì hệ số Ku đƣợc xác định theo công thức 3.27. Khi chuỗi số liệu đƣợc ghép thành nhóm, thì hệ số Ku đƣợc xác định theo công thức 3.28. Ku = (Xi - XBq) 4 n*S4 - 3 (3.27) Ku = fi(Xi - XBq) 4 n*S4 - 3 (3.28)
Hệ số Ku có thể nhận giá trị bằng Zero, giá trị âm hoặc giá trị dƣơng. Khi chuỗi số liệu phân bố chuẩn, thì hệ số Ku = 3. Khi hệ số Ku > 0, thì đỉnh đƣờng cong của chuỗi số liệu có dạng nhọn. Điều đó có nghĩa là chuỗi số liệu có nhiều giá