Excel’s statistical functions calculate all the standard statistical measures, such as average, maximum, minimum, and standard deviation. For most of the statistical functions, you supply a list of values (which could be an entire population or just a sample from a population). You can enter individual values or cells, or you can specify a range. Excel has dozens of statistical functions, many of which are rarely, if ever, used in business. Những hàm thống kê của Excel tính toán tất cả những các số đo thống kê chuẩn như trung bình, lớn nhất, nhỏ nhất, và độ lệch chuẩn. Đối với hầu hết các hàm thống kê, bạn cung cấp cho nó một danh sách các giá trị (có thể là toàn bộ tập hợp hay chỉ là một mẫu của tập hợp). Bạn có thể nhập những giá trị hoặc những ô riêng lẻ, hay là xác định một mảng. Excel có hàng chục hàm thống kê, có nhiều hàm trong số đó hiếm khi được sử dụng trong công việc kinh doanh.
Trang 1Hàm thống kê trong excel
HARNESSING THE POWER OF FUNCTIONS
Tận dụng sức mạnh của các hàm
Excel’s statistical functions calculate all the standard
statistical measures, such as average, maximum, minimum, and standard deviation For most of the statistical functions, you supply a list of values (which could be an entire
population or just a sample from a population) You can enter individual values or cells, or you can specify a range Excel has dozens of statistical functions, many of which arerarely, if ever, used in business
Những hàm thống kê của Excel tính toán tất cả những các số
đo thống kê chuẩn như trung bình, lớn nhất, nhỏ nhất, và độlệch chuẩn Đối với hầu hết các hàm thống kê, bạn cung cấpcho nó một danh sách các giá trị (có thể là toàn bộ tập hợp hay chỉ là một mẫu của tập hợp) Bạn có thể nhập những giátrị hoặc những ô riêng lẻ, hay là xác định một mảng Excel
có hàng chục hàm thống kê, có nhiều hàm trong số đó hiếm khi được sử dụng trong công việc kinh doanh
12.1 Understanding Descriptive Statistics
Tìm hiểu về thống kê mô tả
One of the goals of this book is to show you how to use
formulas and functions to turn a jumble of numbers and values into results and summaries that give you useful
information about the data Excel’s statistical functions are particularly useful for extracting analytical sense out of data nonsense Many of these functions might seem strange and obscure, but they reward a bit of patience and effort with
Trang 2striking new views of your data.
Một trong những mục đích của cuốn sách này là trình bày cho bạn cách sử dụng các công thức và các hàm để biến một
mớ hỗn độn những con số và những giá trị thành những kết quả và bảng tổng kết, nhằm cho bạn thông tin hữu dụng về
dữ liệu Các hàm thống kê của Excel đặc biệt hữu dụng cho việc trích xuất ra những phân tích có nghĩa khỏi những dữ liệu vô nghĩa Nhiều hàm trong số này có vẻ lạ lẫm và khó hiểu, nhưng chúng sẽ đền đáp cho sự kiên nhẫn và nỗ lực của bạn bằng những cái nhìn mới đáng ngạc nhiên cho dữ liệu
This is particularly true of the branch of statistics known casually as descriptive statistics (or summary statistics) As the name implies, descriptive statistics are used to describe various aspects of a data set, to give you a better overall picture of the phenomenon underlying the numbers In
Excel’s statistical repertoire, 16 measures make up its
descriptive statistics package: sum, count, mean, median, mode, maximum, minimum, rank, kth largest, kth smallest, standard deviation, variance, standard error of the mean, confidence level, kurtosis, and skewness
Điều này đặc biệt đúng với nhóm thống kê được biết với tên
là thống kê mô tả (hay thống kê tổng hợp) Như tên gọi của
nó, thống kê mô tả được sử dụng để mô tả những khía cạnh khác nhau của một tập hợp dữ liệu, nhằm mang lại cho bạn một cái nhìn rõ ràng hơn về sự thật ở bên dưới các con số Trong kho thống kê của Excel, có 16 số đo thống kê tạo nên một gói thống kê mô tả: sum (tính tổng), count (đếm),
mean (giá trị trung bình), median (trung bình vị), mode (số lần xuất hiện), maximum (giá trị lớn nhất), minimum (giá trịnhỏ nhất), rank (thứ hạng), kth largest (giá trị lớn thứ k), kth smallest (giá trị nhỏ thứ k), standard deviation (độ lệch chuẩn), variance (phương sai), và những lỗi thông thường của giá trị trung bình, mức tin cậy, độ nhọn, hệ số lệch
In this chapter, you’ll learn how to wield all of these
statistical measures (except sum, which you’ve already seen
Trang 3earlier in this book).
Trong chương này, bạn sẽ học cách nắm vững tất cả các số
đo thống kê (ngoại trừ sum(tính tổng) bạn đã học trong phần trước)
You can download the workbook that contains this chapter’s examples here:
Bạn có thể tải về bảng tính với những ví dụ trong chương này tại đây:
www.mcfedries.com/Excel2007Formulas/
Trong chương này, do hầu hết các hàm tôi đã trình bày chi tiết ở topic: Các hàm Thống kê
(http://www.giaiphapexcel.com/forum/showthread.php?t=7979), nên tôi sẽ không trình bày lại danh sách các hàm,
cú pháp và chú giải các đối số của mỗi hàm nữa (không theonhư nguyên bản cuốn sách này) Trong các bài dịch sau đây,khi nói đến một hàm nào, tôi sẽ tạo liên kết (link) đến bài viết về hàm đó Nếu muốn tìm hiểu kỹ hơn về cú pháp và cách sử dụng các đối số (argument), các bạn theo những liên kết này để xem
BNTT
01-07-08, 11:01 PM12.2 Counting Items with the COUNT() Function
Đếm các phần tử với Hàm COUNT
The simplest of the descriptive statistics is the total number
of values, which is given by the COUNT() function:
Thống kê đơn giản nhất trong số các thống kê mô tả là tổng
số các giá trị được cho bởi hàm COUNT():
COUNT
(http://www.giaiphapexcel.com/forum/showpost.php?
p=54786&postcount=2) (value1 [,value2, ])
The COUNT() function counts only the numeric values that
Trang 4appear in the list of arguments Text values, dates, logical values, and errors are ignored In the worksheet shown in Figure 12.1, the following formula is used to count the
number of defect values in the database:
Hàm COUNT() chỉ đếm các giá trị số ở trong danh sách các đối số Các giá trị text, giá trị ngày tháng, giá trị logic, và các lỗi sẽ được bỏ qua Trong bảng tính minh họa ở hình 12.1, công thức sau đây được dùng để đếm số sản phẩm bị lỗi trong cơ sở dữ liệu:
=COUNT(D3:D22)
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure121.jpg
Figure 12.1 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
TIP:
To get a quick look at the count, select the range or, if
you’re working with data in a table, select a single column inthe table Excel displays the Count in the status bar
Để xem nhanh kết quả của việc đếm, bạn chọn dãy muốn đếm, hoặc nếu bạn đang làm việc với dữ liệu dạng bảng, thì chọn một cột đơn trong bảng Excel sẽ hiển thị tất cả những
gì nó đếm được ở mục Count dưới thanh trạng thái (Status bar)
http://i216.photobucket.com/albums/cc49/BNTT_photos/HAM%20THONG%20KE/COUNT1.png
If you want to know how many numeric values are in the selection, right-click the status bar and then click the
Numerical Count value
Nếu bạn chỉ muốn biết có bao nhiêu giá trị số (numeric
value) trong vùng đang chọn, bạn nhấn nút chuột phải vào thanh trạng thái và chọn giá trị Numerical Count
Trang 5BNTT
02-07-08, 12:00 AM12.3 Calculating Averages
Sự phân tích thống kê cơ bản đáng chú ý nhất có lẽ là giá trịtrung bình, mặc dù bạn luôn cần phải biết bạn muốn có loại trung bình nào Có ba loại: trung bình cộng (mean), trung bình vị (median), và trung bình trọng số (mode) Vài phần tiếp theo đây sẽ trình bày cho bạn những hàm để tính các giá trị trung bình này
12.3.1 The AVERAGE Function — Hàm AVERAGE
The mean is what you probably think of when someone usesthe term average That is, it’s the arithmetic mean of a set
of numbers In Excel, you calculate the mean using the
AVERAGE() function:
Mean nghĩa là những gì bạn có thể nghĩ đến khi người ta sử dụng thuật ngữ average Nghĩa là, nó là trung bình cộng củamột tập hợp các con số Trong Excel, bạn tính trung bình cộng bằng hàm AVERAGE():
AVERAGE
(http://www.giaiphapexcel.com/forum/showpost.php?
p=54788&postcount=3) (number1 [, number2, ])
For example, to calculate the mean of the values in the
defects database, you use the following formula:
Ví dụ, để tính trung bình cộng của những giá trị trong cơ sở
dữ liệu các sản phẩm lỗi (xem lại ví dụ của bài trước, hình
Trang 6The AVERAGE() function (as well as the MEDIAN() and
MODE() functions discussed in the next two sections)
ignores text and logical values It also ignores blank cells, but it does not ignore cells that contain the value 0
Hàm AVERAGE() (cũng như hàm MEDIAN() và hàm MODE()
sẽ nói đến trong hai phần tiếp theo đây) bỏ qua các giá trị text và các giá trị logic Nó cũng bỏ qua các ô rỗng, nhưng
nó không bỏ qua những ô có giá trị là 0
12.3.2 The MEDIAN Function — Hàm MEDIAN
The median is the value in a data set that falls in the middle when all the values are sorted in numeric order That is, 50% of the values fall below the median, and 50% fall above
it The median is useful in data sets that have one or two extreme values that can throw off the mean result because the median is not affected by extremes You calculate the median using the MEDIAN() function:
Median — trung bình vị — là một giá trị nằm ở giữa một tập hợp các dữ liệu, khi tất cả các giá trị được sắp xếp theo thứ
tự Nghĩa là, có 50% giá trị xếp dưới median và 50% giá trị xếp trên median Trung bình vị hữu dụng trong một tập hợp
Trang 7dữ liệu có một hoặc hai giá trị cực trị có thể đưa đến kết quảtrung bình, bởi vì trung bình vị không phụ thuộc vào các cực trị Bạn sử dụng hàm MEDIAN() để tính trung bình vị:
MEDIAN
(http://www.giaiphapexcel.com/forum/showpost.php?
p=54815&postcount=5) (number1 [, number2, ])
For example, to calculate the median of the values in the defects database, you use the following formula:
Ví dụ, để tính trung bình vị của những giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:
=MEDIAN(D3:D22)
12.3.3 The MODE Function — Hàm MODE
The mode is the value in a data set that occurs most
frequently The mode is most useful when you’re dealing with data that doesn’t lend itself to being either added
(necessary for calculating the mean) or sorted (necessary for calculating the median) For example, you might be
tabulating the result of a poll that included a question about the respondent’s favorite color The mean and median don’t make sense with such a question, but the mode will tell you which color was chosen the most
Mode là một giá trị xuất hiện nhiều lần nhất trong một tập hợp các dữ liệu Mode rất hữu dụng khi bạn làm việc với những dữ liệu không thích hợp với việc cộng (việc cần thiết
để tính trung bình cộng) hoặc sắp xếp theo thứ tự (cần thiết cho việc tính trung bình vị) Ví dụ, bạn có thể lập một bảng kết quả của một thăm dò có bao gồm một câu hỏi về màu
da ưa thích nhất Trung bình cộng (mean) và trung bình vị (median) không thích hợp với một câu hỏi như vậy, nhưng mode sẽ cho bạn biết màu nào được chọn nhiều nhất
You calculate the mode using the MODE() function:
Trang 8Bạn tính mode (số lần xuất hiện nhiều nhất) bằng hàm
MODE():
MODE (http://www.giaiphapexcel.com/forum/showpost.php?p=54820&postcount=6) (number1 [, number2, ])
For example, to calculate the mode of the values in the
defects database, you use the following formula:
Ví dụ, để tính giá trị xuất hiện nhiều nhất trong cơ sở dữ liệucác sản phẩm lỗi, bạn dùng công thức sau:
=MODE(D3:D22)
BNTT
02-07-08, 07:35 PM12.3.4 Calculating the Weighted Mean
Tính trung bình gia trọng
In some data sets, one value might be more important than another For example, suppose that your company has
several divisions, the biggest of which generates $100
million in annual sales and the smallest of which generates only $1 million in sales If you want to calculate the average profit margin for the divisions, it doesn’t make sense to treatthe divisions equally because the largest is two orders of magnitude bigger than the smallest You need some way of factoring the size of each division into your average profit margin calculation
Trong một số tập hợp dữ liệu, có thể có một giá trị thì quan trọng hơn những giá trị khác Ví dụ, giả sử rằng công ty của bạn có vài bộ phận, bộ phận lớn nhất đem lại $100 triệu trong tổng doanh thu hằng năm, còn bộ phận nhỏ nhất chỉ mang lại doanh thu có $1 triệu Nếu bạn muốn tính mức lợi nhuận trung bình cho các bộ phận, việc xem các bộ phận đều như nhau thì không hợp lý bởi vì bộ phận lớn nhất hơn
bộ phận nhỏ nhất đến hai bậc Bạn cần có cách khác để đưa quy mô của mỗi bộ phận vào trong phép tính trung bình lợi nhuận
Trang 9You can do this by calculating the weighted mean This is anarithmetic mean in which each value is weighted according
to its importance in the data set Here’s the procedure to follow to calculate the weighted mean:
Bạn có thể làm điều đó bằng cách tính trung bình gia trọng Đây là một trung bình cộng mà trong đó mỗi giá trị có trọng
số tùy theo mức quan trọng của nó trong một tập hợp dữ liệu Đây là những bước để tính mức trung bình gia trọng:
For each value, multiply the value by its weight
Với mỗi giá trị, nhân giá trị với trọng số của nó
Sum the results from step 1
Tính tổng của các kết quả ở bước 1
Sum the weights
Tính tổng các trọng số
Divide the sum from step 2 by the sum from step 3
Chia tổng ở bước 2 cho tổng ở bước 3
Let’s make this more concrete by tying this into our
database of product defects Suppose you want to know the average percentage of product defects (the values in columnF) Simply applying the AVERAGE() function to the range F3:F22 doesn’t give an accurate answer because the number
of units produced by each division is different (the maximum
is 1,625 in division C, and the minimum is 690 in division R)
To get an accurate result, you must give more weight to those divisions that produced more units In other words, you need to calculate the weighted mean for the percentage
of defective products
Hãy làm cho điều này cụ thể hơn bằng cách đưa nó vào
trong cơ sở dữ liệu của các sản phẩm lỗi của chúng ta Giả
sử bạn muốn biết số phần trăm trung bình các sản phẩm bị
Trang 10lỗi (những giá trị trong cột F) Việc đơn giản áp dụng hàm AVERAGE() vào dãy F3:F22 không đem lại một kết quả chính xác bởi vì số sản phẩm mà mỗi đơn vị sản xuất được thì khác nhau (bộ phận C làm ra nhiều nhất, 1,625 sản phẩm; còn bộ phận R làm được ít nhất, 690 sản phẩm) Để
có được kết quả chính xác, bạn phải tăng thêm trọng số (giatrọng) cho những bộ phận làm được nhiều sản phẩm hơn Nói cách khác, bạn cẩn phải tính mức trung bình gia trọng cho số phần trăm các sản phẩm lỗi
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure122.jpg
Figure 12.2 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
In this case, the weights are the units produced by each division, so the weighted mean is calculated as follows:
Trong trường hợp này, trọng số là số sản phẩm của mỗi bộ phận làm được, do đó trung bình gia trọng được tính như sau:
Multiply the percentage defective values by the units (The sharp-eyed reader will note that this just gives the number
of defects I’ll ignore this for now for illustration purposes.)Nhân giá trị phần trăm sản phẩm bị lỗi với số sản phẩm (Nếu bạn tinh mắt bạn sẽ thấy điều này cho ra con số các sản phẩm lỗi Tôi sẽ bỏ qua điều này, bởi vì đây chỉ là minh họa)
Sum the results from step 1
Tính tổng các kết quả ở bước 1
Sum the units
Tính tổng các sản phẩm
Trang 11Divide the sum from step 2 by the sum from step 3.
Lấy tổng số ở bước 2 chia cho tổng số ở bước 3
You can combine all of these steps into the following array formula, as shown in Figure 12.2:
Bạn có thể kết hợp các bước trên trong công thức mảng sau đây, như minh họa ở hình 12.2:
{=SUM(F3:F22 * E3:E22) / SUM(E3:E22))}
BNTT
02-07-08, 11:33 PM12.4 Calculating Extreme Values
Tính các cực trị
The average calculations tell you things about the “middle”
of the data, but it can also be useful to know something about the “edges” of the data For example, what’s the
biggest value and what’s the smallest? The next two
sections take you through the worksheet functions that
return the extreme values of a sample or population
Các phép tính trung bình cho bạn biết về "điểm giữa" của dữliệu, nhưng cũng thật hữu ích nếu biết được điều gì đó về
"biên" của dữ liệu, ví dụ, giá trị lớn nhất và giá trị nhỏ nhất
là gì? Hai phần tiếp theo đây trình bày cho bạn những hàm trả về các cực trị của một mẫu hoặc một tập hợp
12.4.1 The MAX and MIN Function — Hàm MAX và Hàm MIN
If you want to know the largest value in a data set, use the MAX() function:
Khi bạn muốn biết giá trị lớn nhất của một tập hợp dữ liệu, bạn cùng hàm MAX():
MAX (http://www.giaiphapexcel.com/forum/showpost.php?p=54851&postcount=7) (number1 [, number2, ])
Trang 12For example, to calculate the maximum value in the defects database, you use the following formula:
Ví dụ, để tính giá trị lớn nhất trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:
For example, to calculate the minimum value in the defects database, you use the following formula:
Ví dụ, để tính giá trị nhỏ nhất trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:
=MIN(D3:D22)
TIP:
If you need just a quick glance at the maximum or minimumvalue, select the range, right-click the status bar, and then click the Maximum or Minimum value
Nếu bạn chỉ muốn xem lướt qua giá trị cực đại hoặc cực tiểu,bạn chọn dãy và nhấn nút phải chuột vào Status bar, và chọn giá trị Maximum hoặc Minimum
NOTE:
If you need to determine the maximum or minimum over a range or array that includes text values or logical values, use the MAXA() or MINA() functions instead These functionsignore text values and treat logical values as either 1 (for
Trang 13TRUE) or 0 (for FALSE)
Nếu bạn muốn những giá trị cực đại hay cực tiểu trong một dãy hoặc một mảng bao gồm cả những giá trị text và các giátrị logic, bạn dùng hàm MAXA() hoặc MINA(), những hàm này sẽ bỏ qua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)
BNTT
02-07-08, 11:44 PM12.4.2 The LARGE and SMALL Function — Hàm LARGE và Hàm SMALL
Instead of knowing just the largest value, you might need toknow the kth largest value, where k is some integer You can calculate this using Excel’s LARGE() function:
Thay vì chỉ biết có giá trị lớn nhất, bạn cũng nên biết giá trị lớn thứ k, với k là một số nguyên nào đó Bạn có thể tính giátrị này với hàm LARGE() của Excel:
Tương tự, thay vì chỉ biết giá trị nhỏ nhất, bạn cũng cần biếtđược giá trị nhỏ thứ k, với k là một số nguyên nào đó Bạn
có thể xác định giá trị này bằng hàm SMALL():
Trang 14SMALL
(http://www.giaiphapexcel.com/forum/showpost.php?
p=54870&postcount=10) (array, k)
For example, the following formula returns 4, the
third-smallest defects value in the product defects database (see Figure 12.3):
Ví dụ, công thức sau đây trả về 4, giá trị nhỏ thứ ba của các sản phẩm lỗi trong cơ sở dữ liệu các sản phẩm lỗi (xem hình 12.3):
=SMALL(D3:D22, 3)
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure123.jpg
Figure 12.3 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
BNTT
04-07-08, 09:28 AMPerforming Calculations on the Top k Values
Thực hiện các phép tính với k giá trị cao nhất
Sometimes, you might need to sum only the top 3 values in
a data set, or take the average of the top 10 values You can
do this by combining the LARGE() function and the
appropriate arithmetic function (such as SUM()) in an array formula Here’s the general formula:
Đôi khi, bạn cần phải tính tổng của 3 giá trị cao nhất trong một tập hợp dữ liệu, hoặc lấy trung bình của 10 giá trị cao nhất Bạn có thể làm điều này bằng cách kết hợp hàm
LARGE() và một hàm số học thích hợp (như là SUM()) trong một công thức mảng Đây là công thức chung:
{=FUNCTION(LARGE(range, {1,2,3, ,k}))}
Here, FUNCTION() is the arithmetic function, range is the
Trang 15array or range containing the data, and k is the number of values you want to work with In other words, LARGE()
applies the top k values from range to the FUNCTION()
Ở đây, FUNCTION là một hàm số học, range là một mảng hay là một dãy chứa dữ liệu, và k là số các giá trị mà bạn muốn làm việc với chúng Nói cách khác, LARGE() áp dụng kgiá trị cao nhất của range vào trong FUNCTION
For example, suppose that you want to find the mean of the top five values in the defects database Here’s an array
formula that does this:
Ví dụ, giả sử bạn muốn tìm trung bình của 5 giá trị cao nhất trong cơ sở dữ liệu các sản phẩm lỗi, đây là công thức mảng
để làm điều này:
{=AVERAGE(LARGE(D3:D22,{1,2,3,4,5}))}
Performing Calculations on the Bottom k Values
Thực hiện các phép tính với k giá trị thấp nhất
You can probably figure out that performing calculations on the smallest k values is similar In fact, the only difference isthat you substitute the SMALL() function for LARGE():
Tương tự, bạn có thể thực hiện các phép tính với k giá trị thấp nhất trong một tập hợp dữ liệu Thật sự thì chỉ có mỗi một điều khác, là bạn thay hàm LARGE() bằng hàm
Trang 1604-07-08, 09:57 AM12.5 Calculating Measures of Variation
Tính độ biến thiên
Descriptive statistics such as the mean, median, and mode fall under what statisticians call measures of central
tendency (or sometimes measures of location) These
numbers are designed to give you some idea of what
constitutes a “typical” value in the data set
Những thống kê mô tả như tính trung bình cộng (mean), trung bình vị (median), và tính số lần xuất hiện (mode) là những điều mà các nhà thống kê gọi là thước đo của xu
hướng trung tâm (hoặc đôi khi được gọi là thước đo của vị trí) Những con số này được thiết kế để đem lại cho bạn một
số ý niệm về những cái cấu thành một giá trị "tiêu biểu" trong một tập hợp dữ liệu
This is in contrast to the so-called measures of variation (or sometimes measures of dispersion), which are designed to give you some idea of how the values in the data set vary with respect to one another For example, a data set in
which all the values are the same would have no variability;
in contrast, a data set with wildly different values would have high variability Just what is meant by “wildly different”
is what the statistical techniques in this section are designed
to help you calculate
Tương phản với thước đo của xu hướng trung tâm (measures
of central tendency) là độ biến thiên (hay còn gọi là độ phântán), được thiết kế để cho bạn biết một số ý niệm về những giá trị trong tập hợp dữ liệu khác nhau như thế nào Ví dụ, một tập hợp dữ liệu những giá trị hoàn toàn giống nhau sẽ không có sự biến thiên, trái lại, một tập hợp những dữ liệu cực kỳ khác nhau thì sẽ có độ biến thiên cao Để hiểu "cực
kỳ khác nhau" là gì, phần này sẽ trình bày những kỹ thuật thống kê được thiết kế để giúp bạn tính toán
Trang 1712.5.1 Calculating the Range
Tính độ biến thiên trong dãy
The simplest measure of variability is the range, which is defined as the difference between a data set’s maximum andminimum values Excel doesn’t have a function that
calculates the range directly Instead, you first apply the MAX() and MIN() functions to the data set Then, when you have these extreme values, you calculate the range by
subtracting the minimum from the maximum
Độ biến thiên đơn giản nhất là độ biến thiên trong dãy, đượcđịnh nghĩa là sự khác nhau giữa các giá trị lớn nhất và nhỏ nhất trong một tập hợp Excel không có hàm để tính độ biếnthiên trong dãy cách trực tiếp, nhưng thay vào đó, đầu tiên bạn áp dụng hàm MAX() và MIN() vào tập hợp dữ liệu này, rồi khi bạn đã có những cực trị, bạn tính độ biến thiên trong dãy bằng cách lấy giá trị cực đại trừ đi giá trị cực tiểu
For example, here’s a formula that calculates the range for the defects database:
Ví dụ, đây là công thức để tính độ biến thiên trong dãy cho những sản phẩm lỗi:
=MAX(D3:D22) - MIN(D3:D22)
Speaking generally, the range is a useful measure of
variation only for small sample sizes The larger the sample
is, the more likely it becomes that an extreme maximum or minimum will occur, and the range will be skewed
Trang 18When computing the variability of a set of values, one
straightforward approach is to calculate how much each value deviates from the mean You could then add those differences and divide by the number of values in the
sample to get what might be called the average difference The problem, however, is that, by definition of the arithmeticmean, adding the differences (some of which are positive and some of which are negative) gives the result 0 To solvethis problem, you need to add the absolute values of the deviations and then divide by the sample size This is what statisticians call the average deviation
Khi tính sự biến thiên của một tập hợp giá trị, có một
phương pháp đơn giản là tính mỗi giá trị lệch khỏi giá trị trung bình (mean) bao nhiêu, sau đó, bạn cộng hết mấy độ lệch này rồi chia cho số giá trị có trong mẫu, và bạn sẽ có cái gọi là độ lệch trung bình Tuy nhiên, vấn đề là theo định nghĩa của trung bình cộng thì việc cộng các độ lệch (một số cái là dương và một số cái là âm) sẽ cho ra kết quả là 0 Để giải quyết vấn đề này, bạn cần cộng các giá trị tuyệt đối củacác độ lệch và sau đó mới chia cho số giá trị trong mẫu Đây
là cái mà các nhà thống kê gọi là độ lệch trung bình
Unfortunately, this simple state of affairs is still problematic because (for highly technical reasons) mathematicians tend
to shudder at equations that require absolute values To get around this, they instead use the square of each deviation from the mean, which always results in a positive number They sum these squares and divide by the number of values (I’m simplifying things considerably here), and the result is the called the variance This is a common measure of
variation, although interpreting it is hard because the result isn’t in the units of the sample: It’s in those units squared What does it mean to speak of “defects squared,” for
example? This doesn’t matter that much for our purposes because, as you’ll see in the next section, the variance is used chiefly to get to the standard deviation
Nhưng không may, công việc đơn giản này vẫn gây hoài nghi (vì những lý do mang tính kỹ thuật cao), các nhà toán
Trang 19học hay rùng mình trước những chương trình đòi hỏi những giá trị tuyệt đối Để giải quyết điều này, họ sử dụng bình phương của mỗi độ lệch từ giá trị trung bình, việc này luôn tạo ra một giá trị dương, rồi họ tính tổng các bình phương này rồi chia cho số giá trị, và kết quả được gọi là phương sai Đây là một độ biến thiên chung, mặc dù hiểu được nó thì không dễ bởi vì kết quả không nằm trong các đơn vị của mẫu, mà nó nằm trong các đơn vị được tính bình phương Ví
dụ, "các sản phẩm lỗi" được tính bình phương là gì? Điều nàykhông quan trọng cho lắm đối với mục đích của chúng ta, bởi vì như bạn sẽ thấy trong phần tiếp theo đây, phương sai được sử dụng chủ yếu là để có được độ lệch chuẩn
In any case, variance is usually a standard part of a
descriptive statistics package, so that’s why I’m covering it Excel calculates the variance using the VARP() and VAR() functions:
Trong bất kỳ trường hợp nào, phương sai thường là một chuẩn của một thống kê mô tả, do đó đây là lý do tại sao nóđược đề cập đến Excel tính phương sai bằng cách sử dụng các hàm VARP() và VAR():
VARP (http://www.giaiphapexcel.com/forum/showpost.php?p=55066&postcount=14) (number1 [, number2, ])
VAR (http://www.giaiphapexcel.com/forum/showpost.php?p=54884&postcount=13)(number1 [, number2, ])
You use the VARP() function if your data set represents the entire population (as it does, for example, in the product defects case); you use the VAR() function if your data set represents only a sample from the entire population
Bạn dùng hàm VARP() nếu tập hợp dữ liệu của bạn tượng trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các sản phẩm lỗi); bạn dùng hàm VAR() nếu tập hợp dữ liệu chỉ tượng trưng cho một mẫu từ toàn bộ tập hợp
For example, to calculate the variance of the values in the
Trang 20defects database, you use the following formula:
Ví dụ, để tính phương sai của các giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau đây:
=VARP(D3:D22)
NOTE:
If you need to determine the variance over a range or array that includes text values or logical values, use the VARPA()
or VARA() functions instead.These functions ignore text
values and treat logical values as either 1 (for TRUE) or 0 (for FALSE)
Nếu bạn muốn tính phương sai trong một dãy hoặc một
mảng bao gồm cả những giá trị text và các giá trị logic, bạn dùng hàm VARPA() hoặc VARA(), những hàm này sẽ bỏ qua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)
BNTT
05-07-08, 01:17 AM12.5.3 Calculating the Standard Deviation with the STDEVP and STDEV Functions
Tính độ lệch chuẩn bằng hàm STDEVP và hàm STDEV
As I mentioned in the previous section, in real-world
scenarios, the variance is really used only as an
intermediate step for calculating the most important of the measures of variation, the standard deviation This measure tells you how much the values in the data set vary with
respect to the average (the arithmetic mean) What exactly this means won’t become clear until you learn about
frequency distributions in the next section For now,
however, it’s enough to know that a low standard deviation means that the data values are clustered near the mean, and a high standard deviation means the values are spread out from the mean
Như tôi đã nói trong bài trước, trong thực tế, phương sai chỉ được dùng như một bước trung gian để tính cái chính yếu của độ lệch, hay còn gọi là độ lệch chuẩn Độ lệch chuẩn cho
Trang 21bạn biết giá trị trong tập hợp dữ liệu lệch bao nhiêu so với giá trị trung bình Định nghĩa này sẽ rõ ràng hơn khi bạn học
về sự phân bổ tần số trong bài sau Tuy nhiên, nó cũng đủ
để hiểu rằng một độ lệch chuẩn thấp nghĩa là các giá trị của
dữ liệu thì gần với giá trị trung bình, còn độ lệch chuẩn cao
có nghĩa là các giá trị của dữ liệu thì cách xa giá trị trung bình
The standard deviation is defined as the square root of the variance This is good because it means that the resulting units will be the same as those used by the data For
example, the variance of the product defects is expressed in the meaningless defects squared units, but the standard deviation is expressed in defects
Độ lệch chuẩn được định nghĩa là căn bậc hai của phương sai Điều này thì tốt bởi vì nó có nghĩa là những đơn vị của kết quả sẽ giống như các đơn vị được dùng trong dữ liệu Ví
dụ, phương sai của các sản phẩm lỗi được biểu thị như "bìnhphương sản phẩm lỗi", nhưng độ lệch chuẩn thì được biểu thịbằng chính các sản phẩm lỗi
You could calculate the standard deviation by taking the square root of the VAR() result, but Excel offers a more direct route:
Bạn có thể tính độ lệch chuẩn bằng cách lấy căn bậc hai của kết quả của hàm VAR(), nhưng Excel cho bạn một cách làm trực tiếp hơn:
Trang 22use the STDEV() function if your data set represents only a sample from the entire population.
Bạn dùng hàm STDEVP() nếu tập hợp dữ liệu của bạn tượng trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các sản phẩm lỗi); bạn dùng hàm STDEV() nếu tập hợp dữ liệu chỉ tượng trưng cho một mẫu từ toàn bộ tập hợp
For example, to calculate the standard deviation of the
values in the defects database, you use the following
formula (see Figure 12.4):
Ví dụ, để tính độ lệch chuẩn của các giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau đây (xem hình 12.4):
=STDEVP(D3:D22)
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure124.jpg
Figure 12.4 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
NOTE:
If you need to determine the standard deviation over a
range or array that includes text values or logical values, use the STDEVPA() or STDEVA() functions instead.These functions ignore text values and treat logical values as either
1 (for TRUE) or 0 (for FALSE)
Nếu bạn muốn tính phương sai trong một dãy hoặc một
mảng bao gồm cả những giá trị text và các giá trị logic, bạn dùng hàm STDEVPA() hoặc STDEVA(), những hàm này sẽ bỏqua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)
BNTT
05-07-08, 09:41 AM
Trang 2312.6 Working with Frequency Distributions
Làm việc với các sự phân bổ tần số
A frequency distribution is a data table that groups data values into bins — ranges of values — and shows how many values fall into each bin The size of each bin is called the bin interval How many bins should you use? The answer usually depends on the data If you want to calculate the frequency distribution for a set of student grades, for
example, you’d probably set up six bins: 0–49, 50–59, 60–
69, 70–79, 80–89, and 90+ For poll results, you might group the data by age into four bins: 18–34, 35–49, 50–64, and 65+
Một sự phân bổ tần số là một bảng nhóm các dữ liệu theo từng dãy giá trị (bin) và trình bày số giá trị trong mỗi dãy
đó Kích thước của mỗi dãy giá trị (bin) được gọi là khoảng giá trị Bạn nên sử dụng bao nhiêu khoảng giá trị? Câu trả lời thường phụ thuộc vào dữ liệu Ví dụ, nếu bạn muốn tính
sự phân bổ tần số cho một tập hợp điểm thi của sinh viên, bạn có thể thiết lập 6 khoảng giá trị: 0-49 (điểm, tối đa là 100), 50–59, 60–69, 70–79, 80–89, và trên 90 Đối với các bảng thăm dò, bạn có thể kết nhóm dữ liệu theo độ tuổi vào
4 khoảng giá trị: 18–34, 35–49, 50–64, và trên 65 tuổi
If your data has no obvious bin intervals, you can use the following rule:
Nếu dữ liệu của bạn không có các khoảng giá trị rõ ràng, bạn có thể dùng quy tắc sau đây:
If n is the number of values in the data set, enclose n
between two successive powers of 2, and take the higher exponent to be the number of bins
Nếu n là số giá trị trong tập hợp dữ liệu, đặt n vào giữa hai lũy thừa liên tục của 2, và lấy số mũ cao nhất để làm số khoảng giá trị
For example, if n is 100, you would use 7 bins because 100 lies between 26 (64) and 27 (128) For the product defects,
n is 20, so the number of bins should be 5 because 20 falls between 24 (16) and 25 (32)
Ví dụ, nếu n là 100, bạn sẽ dùng 7 khoảng giá trị, bởi vì 100
Trang 24nằm giữa 2^6 (=64) và 2^7 (=128) Với ví dụ về các sản phẩm lỗi, n là 20, nên số khoảng giá trị được dùng là 5, vì
To help you construct a frequency distribution, Excel offers the FREQUENCY() function:
Để giúp bạn xây dựng một sự phân bổ tần số, Excel có hàm FREQUENCY():
FREQUENCY
(http://www.giaiphapexcel.com/forum/showpost.php?
p=55174&postcount=18) (data_array, bins_array)
Here are some things you need to know about this function:Đây là một số điều bạn cần biết về hàm này:
For the bins_array, you enter only the upper limit of each bin If the last bin is openended (such as 16+), you don’t include it in the bins_array For example, here’s the
bins_array for the product defects frequency distribution shown earlier: {3, 7, 11, 15}
Đối với đối số bins_array, bạn chỉ nhập giới hạn trên của mỗikhoảng giá trị Nếu khoảng giá trị cuối cùng là mở (ví dụ, trên 16), bạn đừng đưa nó vào trong danh sách bins_array
Ví dụ, đây là bins_array cho sự phân bổ tần số của ví dụ về các sản phẩm lỗi mà chúng ta đã xem xét từ đầu đến giờ: {3, 7, 11, 15}
Trang 25CAUTION:
Make sure that you enter your bin values in ascending order.Hãy chắc chắn rằng bạn luôn nhập những khoảng giá trị của mình (trong đối số bin_array) theo thứ tự tăng dần
The FREQUENCY() function returns an array (the number of values that fall within each bin) that is one greater than the number of elements in bins_array For example, if the
bins_array contains four elements, FREQUENCY() returns five elements (the extra element is the number of values that fall in the open-ended bin)
Hàm FREQUENCY() trả về một mảng (số các giá trị trong mỗi khoảng giá trị) lớn hơn số các phần tử trong bins_array
1 đơn vị Ví dụ, nếu bins_array chứa 4 phần tử,
FREQUENCY() sẽ trả về 5 phần tử (phần tử cuối cùng là số giá trị cho khoảng giá trị mở, thường là khoảng giá trị cuối cùng trong danh sách các khoảng giá trị của bạn)
Because FREQUENCY() returns an array, you must enter it
as an array formula To do this, select the range in which you want the function results to appear (again, make this range one cell bigger than the bins_array range), type in theformula, and press Ctrl+Shift+Enter
Bởi vì FREQUENCY() trả về một mảng, nên bạn phải nhập nó
ở dạng công thức mảng Để làm điều này, bạn chọn dãy mà bạn muốn chưa kết quả của hàm (nhắc lại, dãy này phải nhiều hơn dãy trong bins_array 1 ô), nhập công thức, rồi nhấn Ctrl+Shift+Enter
Figure 12.5 shows the product defects database with a
frequency distribution added The bins_array is the range K4:K7, and the FREQUENCY() results appear in the range L5:L8, with the following formula entered as an array in thatrange:
Hình 12.5 minh họa cơ sở dữ liệu các sản phẩm lỗi với một bảng phân bổ tần số được thêm vào (phía bên phải)
Trang 26Bins_array là dãy K4:K7, và kết quả của FREQUENCY() xuất hiện trong dãy L5:L8, với công thức mảng sau đây được nhập vào trong dãy đó:
{=FREQUENCY(D3:D22, K4:K7)}
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure125.jpg
Figure 12.5 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
Chú thích: Nhìn vào bảng đó, ta biết rằng từ số sản phẩm lỗiđược phân loại theo số lượng như sau: từ 0-3 (sản phẩm lỗi trên tổng số sản phẩm làm ra của một đơn vị) có 2 cái, từ 4-
7 có 5 cái, từ 8-11 có 8 cái, từ 12-15 có 4 cái và trên 15 có
1 cái
BNTT
07-07-08, 04:40 PM12.6.2 Understanding the Normal Distribution and the
NORMDIST Function
Tìm hiểu Phân bố chuẩn và hàm NORMDIST
The next few sections require some knowledge of perhaps the most famous object in the statistical world: the normal distribution (it’s also called the normal frequency curve) This refers to a set of values that are symmetrically
clustered around a central mean, with the frequencies of each value highest near the mean and falling off as you
move farther from the mean (either to the left or to the
right)
Vài bài tiếp theo đây đòi hỏi một số kiến thức về đối tượng
có lẽ là nổi tiếng nhất trong giới thống kê: Phân bố chuẩn (hay còn gọi là Đường cong tần số chuẩn) Phân bố chuẩn làmột tập hợp giá trị được gộp lại xung quanh một giá trị
trung bình một cách đối xứng, với các tần số của mỗi giá trị cao nhất thì gần với giá trị trung bình, và giảm dần khi đi xa
Trang 27ra khỏi giá trị trung bình (về phía bên trái hoặc về phía bên phải).
Figure 12.6 shows a chart that displays a typical normal distribution In fact, this particular example is called the standard normal distribution, and it’s defined as having mean 0 and standard deviation 1 The distinctive bell shape
of this istribution is why it’s often called the bell curve
Hình 12.6 minh họa một biểu đồ hiển thị một phân bố chuẩnđiển hình Trong thực tế, phân bố này được gọi là một phân
bố chuẩn chuẩn tắc (standard normal distribution), là một phân bố có giá trị trung bình là 0 và độ lệch chuẩn là 1 Vì
nó có đồ thị dạng cái chuông, nên nó còn được gọi là đường cong chuông
http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure126.jpg
Figure 12.6 - Statistics.xlsx
(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)
To generate this normal distribution, I used Excel’s
NORMDIST() function, which returns the probability that a given value exists within a population:
Để tạo một phân bố chuẩn, tôi dùng hàm NORMDIST() của Excel, là hàm trả về xác suát của một giá trị nào đó hiện hữu trong một tập hợp:
Ví dụ sau đây tính phân bố chuẩn chuẩn tắc — phân bố có
Trang 28giá trị trung bình là 0 và độ lệch chuẩn là 1 — của giá trị 0:
=NORMDIST(0, 0, 1, TRUE)
With the cumulative argument set to TRUE, this formula returns 0.5, which makes intuitive sense because, in this distribution, half of the values fall below 0 In other words, the probabilities of all the values below 0 add up to 0.5
Với số cumulative được đặt là TRUE, công thức trên trả về 0.5, là một giá trị chính xác mang tính trực giác, vì trong phân bố này có một nửa giá trị nằm dưới 0 Nói cách khác, xác suất của tất cả những giá trị nằm dưới 0 cộng lại thành 0.5
Now consider the same function, but this time with the
cumulative argument set to FALSE:
Bây giờ, cũng công thức đó, nhưng lần này đối số cumulativeđược đặt là FALSE:
=NORMDIST(0, 0, 1, FALSE)
This time, the result is 0.39894228 In other words, in this distribution, about 3.99% of all the values in the population are 0
Lần này, kết quả là 0.39894228, hay nói cách khác, trong phân bố này, có khoảng 3.99% số giá trị trong tập hợp là 0
BNTT
07-07-08, 06:17 PM12.6.3 The Shape of the Curve I: The SKEW Function
Hình dạng của đường cong I: Hàm SKEW
How do you know if your frequency distribution is at or close
to a normal distribution? In other words, does the shape of your data’s frequency curve mirror that of the normal
distribution’s bell curve?
Làm thế nào để bạn biết sự phân bố tần số nằm ngay tại phân bố chuẩn hay nằm gần phân bố chuẩn? Hay nói cách khác: Hình dạng đường cong tần số của dữ liệu của bạn có