Tận dụng sức mạnh hàm thống kê trong excel (song ngữ anh việt)

Excel’s statistical functions calculate all the standard statistical measures, such as average, maximum, minimum, and standard deviation. For most of the statistical functions, you supply a list of values (which could be an entire population or just a sample from a population). You can enter individual values or cells, or you can specify a range. Excel has dozens of statistical functions, many of which are rarely, if ever, used in business. Những hàm thống kê của Excel tính toán tất cả những các số đo thống kê chuẩn như trung bình, lớn nhất, nhỏ nhất, và độ lệch chuẩn. Đối với hầu hết các hàm thống kê, bạn cung cấp cho nó một danh sách các giá trị (có thể là toàn bộ tập hợp hay chỉ là một mẫu của tập hợp). Bạn có thể nhập những giá trị hoặc những ô riêng lẻ, hay là xác định một mảng. Excel có hàng chục hàm thống kê, có nhiều hàm trong số đó hiếm khi được sử dụng trong công việc kinh doanh.

Trang 1

Hàm thống kê trong excel

HARNESSING THE POWER OF FUNCTIONS

Tận dụng sức mạnh của các hàm

Excel’s statistical functions calculate all the standard

statistical measures, such as average, maximum, minimum, and standard deviation For most of the statistical functions, you supply a list of values (which could be an entire

population or just a sample from a population) You can enter individual values or cells, or you can specify a range Excel has dozens of statistical functions, many of which arerarely, if ever, used in business

Những hàm thống kê của Excel tính toán tất cả những các số

đo thống kê chuẩn như trung bình, lớn nhất, nhỏ nhất, và độlệch chuẩn Đối với hầu hết các hàm thống kê, bạn cung cấpcho nó một danh sách các giá trị (có thể là toàn bộ tập hợp hay chỉ là một mẫu của tập hợp) Bạn có thể nhập những giátrị hoặc những ô riêng lẻ, hay là xác định một mảng Excel

có hàng chục hàm thống kê, có nhiều hàm trong số đó hiếm khi được sử dụng trong công việc kinh doanh

12.1 Understanding Descriptive Statistics

Tìm hiểu về thống kê mô tả

One of the goals of this book is to show you how to use

formulas and functions to turn a jumble of numbers and values into results and summaries that give you useful

information about the data Excel’s statistical functions are particularly useful for extracting analytical sense out of data nonsense Many of these functions might seem strange and obscure, but they reward a bit of patience and effort with

Trang 2

striking new views of your data.

Một trong những mục đích của cuốn sách này là trình bày cho bạn cách sử dụng các công thức và các hàm để biến một

mớ hỗn độn những con số và những giá trị thành những kết quả và bảng tổng kết, nhằm cho bạn thông tin hữu dụng về

dữ liệu Các hàm thống kê của Excel đặc biệt hữu dụng cho việc trích xuất ra những phân tích có nghĩa khỏi những dữ liệu vô nghĩa Nhiều hàm trong số này có vẻ lạ lẫm và khó hiểu, nhưng chúng sẽ đền đáp cho sự kiên nhẫn và nỗ lực của bạn bằng những cái nhìn mới đáng ngạc nhiên cho dữ liệu

This is particularly true of the branch of statistics known casually as descriptive statistics (or summary statistics) As the name implies, descriptive statistics are used to describe various aspects of a data set, to give you a better overall picture of the phenomenon underlying the numbers In

Excel’s statistical repertoire, 16 measures make up its

descriptive statistics package: sum, count, mean, median, mode, maximum, minimum, rank, kth largest, kth smallest, standard deviation, variance, standard error of the mean, confidence level, kurtosis, and skewness

Điều này đặc biệt đúng với nhóm thống kê được biết với tên

là thống kê mô tả (hay thống kê tổng hợp) Như tên gọi của

nó, thống kê mô tả được sử dụng để mô tả những khía cạnh khác nhau của một tập hợp dữ liệu, nhằm mang lại cho bạn một cái nhìn rõ ràng hơn về sự thật ở bên dưới các con số Trong kho thống kê của Excel, có 16 số đo thống kê tạo nên một gói thống kê mô tả: sum (tính tổng), count (đếm),

mean (giá trị trung bình), median (trung bình vị), mode (số lần xuất hiện), maximum (giá trị lớn nhất), minimum (giá trịnhỏ nhất), rank (thứ hạng), kth largest (giá trị lớn thứ k), kth smallest (giá trị nhỏ thứ k), standard deviation (độ lệch chuẩn), variance (phương sai), và những lỗi thông thường của giá trị trung bình, mức tin cậy, độ nhọn, hệ số lệch

In this chapter, you’ll learn how to wield all of these

statistical measures (except sum, which you’ve already seen

Trang 3

earlier in this book).

Trong chương này, bạn sẽ học cách nắm vững tất cả các số

đo thống kê (ngoại trừ sum(tính tổng) bạn đã học trong phần trước)

You can download the workbook that contains this chapter’s examples here:

Bạn có thể tải về bảng tính với những ví dụ trong chương này tại đây:

www.mcfedries.com/Excel2007Formulas/

Trong chương này, do hầu hết các hàm tôi đã trình bày chi tiết ở topic: Các hàm Thống kê

(http://www.giaiphapexcel.com/forum/showthread.php?t=7979), nên tôi sẽ không trình bày lại danh sách các hàm,

cú pháp và chú giải các đối số của mỗi hàm nữa (không theonhư nguyên bản cuốn sách này) Trong các bài dịch sau đây,khi nói đến một hàm nào, tôi sẽ tạo liên kết (link) đến bài viết về hàm đó Nếu muốn tìm hiểu kỹ hơn về cú pháp và cách sử dụng các đối số (argument), các bạn theo những liên kết này để xem

BNTT

01-07-08, 11:01 PM12.2 Counting Items with the COUNT() Function

Đếm các phần tử với Hàm COUNT

The simplest of the descriptive statistics is the total number

of values, which is given by the COUNT() function:

Thống kê đơn giản nhất trong số các thống kê mô tả là tổng

số các giá trị được cho bởi hàm COUNT():

COUNT

(http://www.giaiphapexcel.com/forum/showpost.php?

p=54786&postcount=2) (value1 [,value2, ])

The COUNT() function counts only the numeric values that

Trang 4

appear in the list of arguments Text values, dates, logical values, and errors are ignored In the worksheet shown in Figure 12.1, the following formula is used to count the

number of defect values in the database:

Hàm COUNT() chỉ đếm các giá trị số ở trong danh sách các đối số Các giá trị text, giá trị ngày tháng, giá trị logic, và các lỗi sẽ được bỏ qua Trong bảng tính minh họa ở hình 12.1, công thức sau đây được dùng để đếm số sản phẩm bị lỗi trong cơ sở dữ liệu:

=COUNT(D3:D22)

http://i216.photobucket.com/albums/cc49/BNTT_photos/Chapter%2012/Figure121.jpg

Figure 12.1 - Statistics.xlsx

(http://www.mcfedries.com/Excel2007Formulas/Chapter12/Statistics.xlsx)

TIP:

To get a quick look at the count, select the range or, if

you’re working with data in a table, select a single column inthe table Excel displays the Count in the status bar

Để xem nhanh kết quả của việc đếm, bạn chọn dãy muốn đếm, hoặc nếu bạn đang làm việc với dữ liệu dạng bảng, thì chọn một cột đơn trong bảng Excel sẽ hiển thị tất cả những

gì nó đếm được ở mục Count dưới thanh trạng thái (Status bar)

http://i216.photobucket.com/albums/cc49/BNTT_photos/HAM%20THONG%20KE/COUNT1.png

If you want to know how many numeric values are in the selection, right-click the status bar and then click the

Numerical Count value

Nếu bạn chỉ muốn biết có bao nhiêu giá trị số (numeric

value) trong vùng đang chọn, bạn nhấn nút chuột phải vào thanh trạng thái và chọn giá trị Numerical Count

Trang 5

BNTT

02-07-08, 12:00 AM12.3 Calculating Averages

Sự phân tích thống kê cơ bản đáng chú ý nhất có lẽ là giá trịtrung bình, mặc dù bạn luôn cần phải biết bạn muốn có loại trung bình nào Có ba loại: trung bình cộng (mean), trung bình vị (median), và trung bình trọng số (mode) Vài phần tiếp theo đây sẽ trình bày cho bạn những hàm để tính các giá trị trung bình này

12.3.1 The AVERAGE Function — Hàm AVERAGE

The mean is what you probably think of when someone usesthe term average That is, it’s the arithmetic mean of a set

of numbers In Excel, you calculate the mean using the

AVERAGE() function:

Mean nghĩa là những gì bạn có thể nghĩ đến khi người ta sử dụng thuật ngữ average Nghĩa là, nó là trung bình cộng củamột tập hợp các con số Trong Excel, bạn tính trung bình cộng bằng hàm AVERAGE():

AVERAGE

p=54788&postcount=3) (number1 [, number2, ])

For example, to calculate the mean of the values in the

defects database, you use the following formula:

Ví dụ, để tính trung bình cộng của những giá trị trong cơ sở

dữ liệu các sản phẩm lỗi (xem lại ví dụ của bài trước, hình

Trang 6

The AVERAGE() function (as well as the MEDIAN() and

MODE() functions discussed in the next two sections)

ignores text and logical values It also ignores blank cells, but it does not ignore cells that contain the value 0

Hàm AVERAGE() (cũng như hàm MEDIAN() và hàm MODE()

sẽ nói đến trong hai phần tiếp theo đây) bỏ qua các giá trị text và các giá trị logic Nó cũng bỏ qua các ô rỗng, nhưng

nó không bỏ qua những ô có giá trị là 0

12.3.2 The MEDIAN Function — Hàm MEDIAN

The median is the value in a data set that falls in the middle when all the values are sorted in numeric order That is, 50% of the values fall below the median, and 50% fall above

it The median is useful in data sets that have one or two extreme values that can throw off the mean result because the median is not affected by extremes You calculate the median using the MEDIAN() function:

Median — trung bình vị — là một giá trị nằm ở giữa một tập hợp các dữ liệu, khi tất cả các giá trị được sắp xếp theo thứ

tự Nghĩa là, có 50% giá trị xếp dưới median và 50% giá trị xếp trên median Trung bình vị hữu dụng trong một tập hợp

Trang 7

dữ liệu có một hoặc hai giá trị cực trị có thể đưa đến kết quảtrung bình, bởi vì trung bình vị không phụ thuộc vào các cực trị Bạn sử dụng hàm MEDIAN() để tính trung bình vị:

MEDIAN

p=54815&postcount=5) (number1 [, number2, ])

For example, to calculate the median of the values in the defects database, you use the following formula:

Ví dụ, để tính trung bình vị của những giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:

=MEDIAN(D3:D22)

12.3.3 The MODE Function — Hàm MODE

The mode is the value in a data set that occurs most

frequently The mode is most useful when you’re dealing with data that doesn’t lend itself to being either added

(necessary for calculating the mean) or sorted (necessary for calculating the median) For example, you might be

tabulating the result of a poll that included a question about the respondent’s favorite color The mean and median don’t make sense with such a question, but the mode will tell you which color was chosen the most

Mode là một giá trị xuất hiện nhiều lần nhất trong một tập hợp các dữ liệu Mode rất hữu dụng khi bạn làm việc với những dữ liệu không thích hợp với việc cộng (việc cần thiết

để tính trung bình cộng) hoặc sắp xếp theo thứ tự (cần thiết cho việc tính trung bình vị) Ví dụ, bạn có thể lập một bảng kết quả của một thăm dò có bao gồm một câu hỏi về màu

da ưa thích nhất Trung bình cộng (mean) và trung bình vị (median) không thích hợp với một câu hỏi như vậy, nhưng mode sẽ cho bạn biết màu nào được chọn nhiều nhất

You calculate the mode using the MODE() function:

Trang 8

Bạn tính mode (số lần xuất hiện nhiều nhất) bằng hàm

MODE():

MODE (http://www.giaiphapexcel.com/forum/showpost.php?p=54820&postcount=6) (number1 [, number2, ])

For example, to calculate the mode of the values in the

Ví dụ, để tính giá trị xuất hiện nhiều nhất trong cơ sở dữ liệucác sản phẩm lỗi, bạn dùng công thức sau:

=MODE(D3:D22)

BNTT

02-07-08, 07:35 PM12.3.4 Calculating the Weighted Mean

Tính trung bình gia trọng

In some data sets, one value might be more important than another For example, suppose that your company has

several divisions, the biggest of which generates $100

million in annual sales and the smallest of which generates only $1 million in sales If you want to calculate the average profit margin for the divisions, it doesn’t make sense to treatthe divisions equally because the largest is two orders of magnitude bigger than the smallest You need some way of factoring the size of each division into your average profit margin calculation

Trong một số tập hợp dữ liệu, có thể có một giá trị thì quan trọng hơn những giá trị khác Ví dụ, giả sử rằng công ty của bạn có vài bộ phận, bộ phận lớn nhất đem lại $100 triệu trong tổng doanh thu hằng năm, còn bộ phận nhỏ nhất chỉ mang lại doanh thu có $1 triệu Nếu bạn muốn tính mức lợi nhuận trung bình cho các bộ phận, việc xem các bộ phận đều như nhau thì không hợp lý bởi vì bộ phận lớn nhất hơn

bộ phận nhỏ nhất đến hai bậc Bạn cần có cách khác để đưa quy mô của mỗi bộ phận vào trong phép tính trung bình lợi nhuận

Trang 9

You can do this by calculating the weighted mean This is anarithmetic mean in which each value is weighted according

to its importance in the data set Here’s the procedure to follow to calculate the weighted mean:

Bạn có thể làm điều đó bằng cách tính trung bình gia trọng Đây là một trung bình cộng mà trong đó mỗi giá trị có trọng

số tùy theo mức quan trọng của nó trong một tập hợp dữ liệu Đây là những bước để tính mức trung bình gia trọng:

For each value, multiply the value by its weight

Với mỗi giá trị, nhân giá trị với trọng số của nó

Sum the results from step 1

Tính tổng của các kết quả ở bước 1

Sum the weights

Tính tổng các trọng số

Divide the sum from step 2 by the sum from step 3

Chia tổng ở bước 2 cho tổng ở bước 3

Let’s make this more concrete by tying this into our

database of product defects Suppose you want to know the average percentage of product defects (the values in columnF) Simply applying the AVERAGE() function to the range F3:F22 doesn’t give an accurate answer because the number

of units produced by each division is different (the maximum

is 1,625 in division C, and the minimum is 690 in division R)

To get an accurate result, you must give more weight to those divisions that produced more units In other words, you need to calculate the weighted mean for the percentage

of defective products

Hãy làm cho điều này cụ thể hơn bằng cách đưa nó vào

trong cơ sở dữ liệu của các sản phẩm lỗi của chúng ta Giả

sử bạn muốn biết số phần trăm trung bình các sản phẩm bị

Trang 10

lỗi (những giá trị trong cột F) Việc đơn giản áp dụng hàm AVERAGE() vào dãy F3:F22 không đem lại một kết quả chính xác bởi vì số sản phẩm mà mỗi đơn vị sản xuất được thì khác nhau (bộ phận C làm ra nhiều nhất, 1,625 sản phẩm; còn bộ phận R làm được ít nhất, 690 sản phẩm) Để

có được kết quả chính xác, bạn phải tăng thêm trọng số (giatrọng) cho những bộ phận làm được nhiều sản phẩm hơn Nói cách khác, bạn cẩn phải tính mức trung bình gia trọng cho số phần trăm các sản phẩm lỗi

In this case, the weights are the units produced by each division, so the weighted mean is calculated as follows:

Trong trường hợp này, trọng số là số sản phẩm của mỗi bộ phận làm được, do đó trung bình gia trọng được tính như sau:

Multiply the percentage defective values by the units (The sharp-eyed reader will note that this just gives the number

of defects I’ll ignore this for now for illustration purposes.)Nhân giá trị phần trăm sản phẩm bị lỗi với số sản phẩm (Nếu bạn tinh mắt bạn sẽ thấy điều này cho ra con số các sản phẩm lỗi Tôi sẽ bỏ qua điều này, bởi vì đây chỉ là minh họa)

Sum the results from step 1

Tính tổng các kết quả ở bước 1

Sum the units

Tính tổng các sản phẩm

Trang 11

Divide the sum from step 2 by the sum from step 3.

Lấy tổng số ở bước 2 chia cho tổng số ở bước 3

You can combine all of these steps into the following array formula, as shown in Figure 12.2:

Bạn có thể kết hợp các bước trên trong công thức mảng sau đây, như minh họa ở hình 12.2:

{=SUM(F3:F22 * E3:E22) / SUM(E3:E22))}

BNTT

02-07-08, 11:33 PM12.4 Calculating Extreme Values

Tính các cực trị

The average calculations tell you things about the “middle”

of the data, but it can also be useful to know something about the “edges” of the data For example, what’s the

biggest value and what’s the smallest? The next two

sections take you through the worksheet functions that

return the extreme values of a sample or population

Các phép tính trung bình cho bạn biết về "điểm giữa" của dữliệu, nhưng cũng thật hữu ích nếu biết được điều gì đó về

"biên" của dữ liệu, ví dụ, giá trị lớn nhất và giá trị nhỏ nhất

là gì? Hai phần tiếp theo đây trình bày cho bạn những hàm trả về các cực trị của một mẫu hoặc một tập hợp

12.4.1 The MAX and MIN Function — Hàm MAX và Hàm MIN

If you want to know the largest value in a data set, use the MAX() function:

Khi bạn muốn biết giá trị lớn nhất của một tập hợp dữ liệu, bạn cùng hàm MAX():

MAX (http://www.giaiphapexcel.com/forum/showpost.php?p=54851&postcount=7) (number1 [, number2, ])

Trang 12

For example, to calculate the maximum value in the defects database, you use the following formula:

Ví dụ, để tính giá trị lớn nhất trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:

For example, to calculate the minimum value in the defects database, you use the following formula:

Ví dụ, để tính giá trị nhỏ nhất trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau:

=MIN(D3:D22)

TIP:

If you need just a quick glance at the maximum or minimumvalue, select the range, right-click the status bar, and then click the Maximum or Minimum value

Nếu bạn chỉ muốn xem lướt qua giá trị cực đại hoặc cực tiểu,bạn chọn dãy và nhấn nút phải chuột vào Status bar, và chọn giá trị Maximum hoặc Minimum

NOTE:

If you need to determine the maximum or minimum over a range or array that includes text values or logical values, use the MAXA() or MINA() functions instead These functionsignore text values and treat logical values as either 1 (for

Trang 13

TRUE) or 0 (for FALSE)

Nếu bạn muốn những giá trị cực đại hay cực tiểu trong một dãy hoặc một mảng bao gồm cả những giá trị text và các giátrị logic, bạn dùng hàm MAXA() hoặc MINA(), những hàm này sẽ bỏ qua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)

BNTT

02-07-08, 11:44 PM12.4.2 The LARGE and SMALL Function — Hàm LARGE và Hàm SMALL

Instead of knowing just the largest value, you might need toknow the kth largest value, where k is some integer You can calculate this using Excel’s LARGE() function:

Thay vì chỉ biết có giá trị lớn nhất, bạn cũng nên biết giá trị lớn thứ k, với k là một số nguyên nào đó Bạn có thể tính giátrị này với hàm LARGE() của Excel:

Tương tự, thay vì chỉ biết giá trị nhỏ nhất, bạn cũng cần biếtđược giá trị nhỏ thứ k, với k là một số nguyên nào đó Bạn

có thể xác định giá trị này bằng hàm SMALL():

Trang 14

SMALL

p=54870&postcount=10) (array, k)

For example, the following formula returns 4, the

third-smallest defects value in the product defects database (see Figure 12.3):

Ví dụ, công thức sau đây trả về 4, giá trị nhỏ thứ ba của các sản phẩm lỗi trong cơ sở dữ liệu các sản phẩm lỗi (xem hình 12.3):

=SMALL(D3:D22, 3)

BNTT

04-07-08, 09:28 AMPerforming Calculations on the Top k Values

Thực hiện các phép tính với k giá trị cao nhất

Sometimes, you might need to sum only the top 3 values in

a data set, or take the average of the top 10 values You can

do this by combining the LARGE() function and the

appropriate arithmetic function (such as SUM()) in an array formula Here’s the general formula:

Đôi khi, bạn cần phải tính tổng của 3 giá trị cao nhất trong một tập hợp dữ liệu, hoặc lấy trung bình của 10 giá trị cao nhất Bạn có thể làm điều này bằng cách kết hợp hàm

LARGE() và một hàm số học thích hợp (như là SUM()) trong một công thức mảng Đây là công thức chung:

{=FUNCTION(LARGE(range, {1,2,3, ,k}))}

Here, FUNCTION() is the arithmetic function, range is the

Trang 15

array or range containing the data, and k is the number of values you want to work with In other words, LARGE()

applies the top k values from range to the FUNCTION()

Ở đây, FUNCTION là một hàm số học, range là một mảng hay là một dãy chứa dữ liệu, và k là số các giá trị mà bạn muốn làm việc với chúng Nói cách khác, LARGE() áp dụng kgiá trị cao nhất của range vào trong FUNCTION

For example, suppose that you want to find the mean of the top five values in the defects database Here’s an array

formula that does this:

Ví dụ, giả sử bạn muốn tìm trung bình của 5 giá trị cao nhất trong cơ sở dữ liệu các sản phẩm lỗi, đây là công thức mảng

để làm điều này:

{=AVERAGE(LARGE(D3:D22,{1,2,3,4,5}))}

Performing Calculations on the Bottom k Values

Thực hiện các phép tính với k giá trị thấp nhất

You can probably figure out that performing calculations on the smallest k values is similar In fact, the only difference isthat you substitute the SMALL() function for LARGE():

Tương tự, bạn có thể thực hiện các phép tính với k giá trị thấp nhất trong một tập hợp dữ liệu Thật sự thì chỉ có mỗi một điều khác, là bạn thay hàm LARGE() bằng hàm

Trang 16

04-07-08, 09:57 AM12.5 Calculating Measures of Variation

Tính độ biến thiên

Descriptive statistics such as the mean, median, and mode fall under what statisticians call measures of central

tendency (or sometimes measures of location) These

numbers are designed to give you some idea of what

constitutes a “typical” value in the data set

Những thống kê mô tả như tính trung bình cộng (mean), trung bình vị (median), và tính số lần xuất hiện (mode) là những điều mà các nhà thống kê gọi là thước đo của xu

hướng trung tâm (hoặc đôi khi được gọi là thước đo của vị trí) Những con số này được thiết kế để đem lại cho bạn một

số ý niệm về những cái cấu thành một giá trị "tiêu biểu" trong một tập hợp dữ liệu

This is in contrast to the so-called measures of variation (or sometimes measures of dispersion), which are designed to give you some idea of how the values in the data set vary with respect to one another For example, a data set in

which all the values are the same would have no variability;

in contrast, a data set with wildly different values would have high variability Just what is meant by “wildly different”

is what the statistical techniques in this section are designed

to help you calculate

Tương phản với thước đo của xu hướng trung tâm (measures

of central tendency) là độ biến thiên (hay còn gọi là độ phântán), được thiết kế để cho bạn biết một số ý niệm về những giá trị trong tập hợp dữ liệu khác nhau như thế nào Ví dụ, một tập hợp dữ liệu những giá trị hoàn toàn giống nhau sẽ không có sự biến thiên, trái lại, một tập hợp những dữ liệu cực kỳ khác nhau thì sẽ có độ biến thiên cao Để hiểu "cực

kỳ khác nhau" là gì, phần này sẽ trình bày những kỹ thuật thống kê được thiết kế để giúp bạn tính toán

Trang 17

12.5.1 Calculating the Range

Tính độ biến thiên trong dãy

The simplest measure of variability is the range, which is defined as the difference between a data set’s maximum andminimum values Excel doesn’t have a function that

calculates the range directly Instead, you first apply the MAX() and MIN() functions to the data set Then, when you have these extreme values, you calculate the range by

subtracting the minimum from the maximum

Độ biến thiên đơn giản nhất là độ biến thiên trong dãy, đượcđịnh nghĩa là sự khác nhau giữa các giá trị lớn nhất và nhỏ nhất trong một tập hợp Excel không có hàm để tính độ biếnthiên trong dãy cách trực tiếp, nhưng thay vào đó, đầu tiên bạn áp dụng hàm MAX() và MIN() vào tập hợp dữ liệu này, rồi khi bạn đã có những cực trị, bạn tính độ biến thiên trong dãy bằng cách lấy giá trị cực đại trừ đi giá trị cực tiểu

For example, here’s a formula that calculates the range for the defects database:

Ví dụ, đây là công thức để tính độ biến thiên trong dãy cho những sản phẩm lỗi:

=MAX(D3:D22) - MIN(D3:D22)

Speaking generally, the range is a useful measure of

variation only for small sample sizes The larger the sample

is, the more likely it becomes that an extreme maximum or minimum will occur, and the range will be skewed

Trang 18

When computing the variability of a set of values, one

straightforward approach is to calculate how much each value deviates from the mean You could then add those differences and divide by the number of values in the

sample to get what might be called the average difference The problem, however, is that, by definition of the arithmeticmean, adding the differences (some of which are positive and some of which are negative) gives the result 0 To solvethis problem, you need to add the absolute values of the deviations and then divide by the sample size This is what statisticians call the average deviation

Khi tính sự biến thiên của một tập hợp giá trị, có một

phương pháp đơn giản là tính mỗi giá trị lệch khỏi giá trị trung bình (mean) bao nhiêu, sau đó, bạn cộng hết mấy độ lệch này rồi chia cho số giá trị có trong mẫu, và bạn sẽ có cái gọi là độ lệch trung bình Tuy nhiên, vấn đề là theo định nghĩa của trung bình cộng thì việc cộng các độ lệch (một số cái là dương và một số cái là âm) sẽ cho ra kết quả là 0 Để giải quyết vấn đề này, bạn cần cộng các giá trị tuyệt đối củacác độ lệch và sau đó mới chia cho số giá trị trong mẫu Đây

là cái mà các nhà thống kê gọi là độ lệch trung bình

Unfortunately, this simple state of affairs is still problematic because (for highly technical reasons) mathematicians tend

to shudder at equations that require absolute values To get around this, they instead use the square of each deviation from the mean, which always results in a positive number They sum these squares and divide by the number of values (I’m simplifying things considerably here), and the result is the called the variance This is a common measure of

variation, although interpreting it is hard because the result isn’t in the units of the sample: It’s in those units squared What does it mean to speak of “defects squared,” for

example? This doesn’t matter that much for our purposes because, as you’ll see in the next section, the variance is used chiefly to get to the standard deviation

Nhưng không may, công việc đơn giản này vẫn gây hoài nghi (vì những lý do mang tính kỹ thuật cao), các nhà toán

Trang 19

học hay rùng mình trước những chương trình đòi hỏi những giá trị tuyệt đối Để giải quyết điều này, họ sử dụng bình phương của mỗi độ lệch từ giá trị trung bình, việc này luôn tạo ra một giá trị dương, rồi họ tính tổng các bình phương này rồi chia cho số giá trị, và kết quả được gọi là phương sai Đây là một độ biến thiên chung, mặc dù hiểu được nó thì không dễ bởi vì kết quả không nằm trong các đơn vị của mẫu, mà nó nằm trong các đơn vị được tính bình phương Ví

dụ, "các sản phẩm lỗi" được tính bình phương là gì? Điều nàykhông quan trọng cho lắm đối với mục đích của chúng ta, bởi vì như bạn sẽ thấy trong phần tiếp theo đây, phương sai được sử dụng chủ yếu là để có được độ lệch chuẩn

In any case, variance is usually a standard part of a

descriptive statistics package, so that’s why I’m covering it Excel calculates the variance using the VARP() and VAR() functions:

Trong bất kỳ trường hợp nào, phương sai thường là một chuẩn của một thống kê mô tả, do đó đây là lý do tại sao nóđược đề cập đến Excel tính phương sai bằng cách sử dụng các hàm VARP() và VAR():

VARP (http://www.giaiphapexcel.com/forum/showpost.php?p=55066&postcount=14) (number1 [, number2, ])

VAR (http://www.giaiphapexcel.com/forum/showpost.php?p=54884&postcount=13)(number1 [, number2, ])

You use the VARP() function if your data set represents the entire population (as it does, for example, in the product defects case); you use the VAR() function if your data set represents only a sample from the entire population

Bạn dùng hàm VARP() nếu tập hợp dữ liệu của bạn tượng trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các sản phẩm lỗi); bạn dùng hàm VAR() nếu tập hợp dữ liệu chỉ tượng trưng cho một mẫu từ toàn bộ tập hợp

For example, to calculate the variance of the values in the

Trang 20

Ví dụ, để tính phương sai của các giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau đây:

=VARP(D3:D22)

NOTE:

If you need to determine the variance over a range or array that includes text values or logical values, use the VARPA()

or VARA() functions instead.These functions ignore text

values and treat logical values as either 1 (for TRUE) or 0 (for FALSE)

Nếu bạn muốn tính phương sai trong một dãy hoặc một

mảng bao gồm cả những giá trị text và các giá trị logic, bạn dùng hàm VARPA() hoặc VARA(), những hàm này sẽ bỏ qua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)

BNTT

05-07-08, 01:17 AM12.5.3 Calculating the Standard Deviation with the STDEVP and STDEV Functions

Tính độ lệch chuẩn bằng hàm STDEVP và hàm STDEV

As I mentioned in the previous section, in real-world

scenarios, the variance is really used only as an

intermediate step for calculating the most important of the measures of variation, the standard deviation This measure tells you how much the values in the data set vary with

respect to the average (the arithmetic mean) What exactly this means won’t become clear until you learn about

frequency distributions in the next section For now,

however, it’s enough to know that a low standard deviation means that the data values are clustered near the mean, and a high standard deviation means the values are spread out from the mean

Như tôi đã nói trong bài trước, trong thực tế, phương sai chỉ được dùng như một bước trung gian để tính cái chính yếu của độ lệch, hay còn gọi là độ lệch chuẩn Độ lệch chuẩn cho

Trang 21

bạn biết giá trị trong tập hợp dữ liệu lệch bao nhiêu so với giá trị trung bình Định nghĩa này sẽ rõ ràng hơn khi bạn học

về sự phân bổ tần số trong bài sau Tuy nhiên, nó cũng đủ

để hiểu rằng một độ lệch chuẩn thấp nghĩa là các giá trị của

dữ liệu thì gần với giá trị trung bình, còn độ lệch chuẩn cao

có nghĩa là các giá trị của dữ liệu thì cách xa giá trị trung bình

The standard deviation is defined as the square root of the variance This is good because it means that the resulting units will be the same as those used by the data For

example, the variance of the product defects is expressed in the meaningless defects squared units, but the standard deviation is expressed in defects

Độ lệch chuẩn được định nghĩa là căn bậc hai của phương sai Điều này thì tốt bởi vì nó có nghĩa là những đơn vị của kết quả sẽ giống như các đơn vị được dùng trong dữ liệu Ví

dụ, phương sai của các sản phẩm lỗi được biểu thị như "bìnhphương sản phẩm lỗi", nhưng độ lệch chuẩn thì được biểu thịbằng chính các sản phẩm lỗi

You could calculate the standard deviation by taking the square root of the VAR() result, but Excel offers a more direct route:

Bạn có thể tính độ lệch chuẩn bằng cách lấy căn bậc hai của kết quả của hàm VAR(), nhưng Excel cho bạn một cách làm trực tiếp hơn:

Trang 22

use the STDEV() function if your data set represents only a sample from the entire population.

Bạn dùng hàm STDEVP() nếu tập hợp dữ liệu của bạn tượng trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các sản phẩm lỗi); bạn dùng hàm STDEV() nếu tập hợp dữ liệu chỉ tượng trưng cho một mẫu từ toàn bộ tập hợp

For example, to calculate the standard deviation of the

values in the defects database, you use the following

formula (see Figure 12.4):

Ví dụ, để tính độ lệch chuẩn của các giá trị trong cơ sở dữ liệu các sản phẩm lỗi, bạn dùng công thức sau đây (xem hình 12.4):

=STDEVP(D3:D22)

NOTE:

If you need to determine the standard deviation over a

range or array that includes text values or logical values, use the STDEVPA() or STDEVA() functions instead.These functions ignore text values and treat logical values as either

1 (for TRUE) or 0 (for FALSE)

Nếu bạn muốn tính phương sai trong một dãy hoặc một

mảng bao gồm cả những giá trị text và các giá trị logic, bạn dùng hàm STDEVPA() hoặc STDEVA(), những hàm này sẽ bỏqua các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE) hoặc là 0 (FALSE)

BNTT

05-07-08, 09:41 AM

Trang 23

12.6 Working with Frequency Distributions

Làm việc với các sự phân bổ tần số

A frequency distribution is a data table that groups data values into bins — ranges of values — and shows how many values fall into each bin The size of each bin is called the bin interval How many bins should you use? The answer usually depends on the data If you want to calculate the frequency distribution for a set of student grades, for

example, you’d probably set up six bins: 0–49, 50–59, 60–

69, 70–79, 80–89, and 90+ For poll results, you might group the data by age into four bins: 18–34, 35–49, 50–64, and 65+

Một sự phân bổ tần số là một bảng nhóm các dữ liệu theo từng dãy giá trị (bin) và trình bày số giá trị trong mỗi dãy

đó Kích thước của mỗi dãy giá trị (bin) được gọi là khoảng giá trị Bạn nên sử dụng bao nhiêu khoảng giá trị? Câu trả lời thường phụ thuộc vào dữ liệu Ví dụ, nếu bạn muốn tính

sự phân bổ tần số cho một tập hợp điểm thi của sinh viên, bạn có thể thiết lập 6 khoảng giá trị: 0-49 (điểm, tối đa là 100), 50–59, 60–69, 70–79, 80–89, và trên 90 Đối với các bảng thăm dò, bạn có thể kết nhóm dữ liệu theo độ tuổi vào

4 khoảng giá trị: 18–34, 35–49, 50–64, và trên 65 tuổi

If your data has no obvious bin intervals, you can use the following rule:

Nếu dữ liệu của bạn không có các khoảng giá trị rõ ràng, bạn có thể dùng quy tắc sau đây:

If n is the number of values in the data set, enclose n

between two successive powers of 2, and take the higher exponent to be the number of bins

Nếu n là số giá trị trong tập hợp dữ liệu, đặt n vào giữa hai lũy thừa liên tục của 2, và lấy số mũ cao nhất để làm số khoảng giá trị

For example, if n is 100, you would use 7 bins because 100 lies between 26 (64) and 27 (128) For the product defects,

n is 20, so the number of bins should be 5 because 20 falls between 24 (16) and 25 (32)

Ví dụ, nếu n là 100, bạn sẽ dùng 7 khoảng giá trị, bởi vì 100

Trang 24

nằm giữa 2^6 (=64) và 2^7 (=128) Với ví dụ về các sản phẩm lỗi, n là 20, nên số khoảng giá trị được dùng là 5, vì

To help you construct a frequency distribution, Excel offers the FREQUENCY() function:

Để giúp bạn xây dựng một sự phân bổ tần số, Excel có hàm FREQUENCY():

FREQUENCY

p=55174&postcount=18) (data_array, bins_array)

Here are some things you need to know about this function:Đây là một số điều bạn cần biết về hàm này:

For the bins_array, you enter only the upper limit of each bin If the last bin is openended (such as 16+), you don’t include it in the bins_array For example, here’s the

bins_array for the product defects frequency distribution shown earlier: {3, 7, 11, 15}

Đối với đối số bins_array, bạn chỉ nhập giới hạn trên của mỗikhoảng giá trị Nếu khoảng giá trị cuối cùng là mở (ví dụ, trên 16), bạn đừng đưa nó vào trong danh sách bins_array

Ví dụ, đây là bins_array cho sự phân bổ tần số của ví dụ về các sản phẩm lỗi mà chúng ta đã xem xét từ đầu đến giờ: {3, 7, 11, 15}

Trang 25

CAUTION:

Make sure that you enter your bin values in ascending order.Hãy chắc chắn rằng bạn luôn nhập những khoảng giá trị của mình (trong đối số bin_array) theo thứ tự tăng dần

The FREQUENCY() function returns an array (the number of values that fall within each bin) that is one greater than the number of elements in bins_array For example, if the

bins_array contains four elements, FREQUENCY() returns five elements (the extra element is the number of values that fall in the open-ended bin)

Hàm FREQUENCY() trả về một mảng (số các giá trị trong mỗi khoảng giá trị) lớn hơn số các phần tử trong bins_array

1 đơn vị Ví dụ, nếu bins_array chứa 4 phần tử,

FREQUENCY() sẽ trả về 5 phần tử (phần tử cuối cùng là số giá trị cho khoảng giá trị mở, thường là khoảng giá trị cuối cùng trong danh sách các khoảng giá trị của bạn)

Because FREQUENCY() returns an array, you must enter it

as an array formula To do this, select the range in which you want the function results to appear (again, make this range one cell bigger than the bins_array range), type in theformula, and press Ctrl+Shift+Enter

Bởi vì FREQUENCY() trả về một mảng, nên bạn phải nhập nó

ở dạng công thức mảng Để làm điều này, bạn chọn dãy mà bạn muốn chưa kết quả của hàm (nhắc lại, dãy này phải nhiều hơn dãy trong bins_array 1 ô), nhập công thức, rồi nhấn Ctrl+Shift+Enter

Figure 12.5 shows the product defects database with a

frequency distribution added The bins_array is the range K4:K7, and the FREQUENCY() results appear in the range L5:L8, with the following formula entered as an array in thatrange:

Hình 12.5 minh họa cơ sở dữ liệu các sản phẩm lỗi với một bảng phân bổ tần số được thêm vào (phía bên phải)

Trang 26

Bins_array là dãy K4:K7, và kết quả của FREQUENCY() xuất hiện trong dãy L5:L8, với công thức mảng sau đây được nhập vào trong dãy đó:

{=FREQUENCY(D3:D22, K4:K7)}

Chú thích: Nhìn vào bảng đó, ta biết rằng từ số sản phẩm lỗiđược phân loại theo số lượng như sau: từ 0-3 (sản phẩm lỗi trên tổng số sản phẩm làm ra của một đơn vị) có 2 cái, từ 4-

7 có 5 cái, từ 8-11 có 8 cái, từ 12-15 có 4 cái và trên 15 có

1 cái

BNTT

07-07-08, 04:40 PM12.6.2 Understanding the Normal Distribution and the

NORMDIST Function

Tìm hiểu Phân bố chuẩn và hàm NORMDIST

The next few sections require some knowledge of perhaps the most famous object in the statistical world: the normal distribution (it’s also called the normal frequency curve) This refers to a set of values that are symmetrically

clustered around a central mean, with the frequencies of each value highest near the mean and falling off as you

move farther from the mean (either to the left or to the

right)

Vài bài tiếp theo đây đòi hỏi một số kiến thức về đối tượng

có lẽ là nổi tiếng nhất trong giới thống kê: Phân bố chuẩn (hay còn gọi là Đường cong tần số chuẩn) Phân bố chuẩn làmột tập hợp giá trị được gộp lại xung quanh một giá trị

trung bình một cách đối xứng, với các tần số của mỗi giá trị cao nhất thì gần với giá trị trung bình, và giảm dần khi đi xa

Trang 27

ra khỏi giá trị trung bình (về phía bên trái hoặc về phía bên phải).

Figure 12.6 shows a chart that displays a typical normal distribution In fact, this particular example is called the standard normal distribution, and it’s defined as having mean 0 and standard deviation 1 The distinctive bell shape

of this istribution is why it’s often called the bell curve

Hình 12.6 minh họa một biểu đồ hiển thị một phân bố chuẩnđiển hình Trong thực tế, phân bố này được gọi là một phân

bố chuẩn chuẩn tắc (standard normal distribution), là một phân bố có giá trị trung bình là 0 và độ lệch chuẩn là 1 Vì

nó có đồ thị dạng cái chuông, nên nó còn được gọi là đường cong chuông

To generate this normal distribution, I used Excel’s

NORMDIST() function, which returns the probability that a given value exists within a population:

Để tạo một phân bố chuẩn, tôi dùng hàm NORMDIST() của Excel, là hàm trả về xác suát của một giá trị nào đó hiện hữu trong một tập hợp:

Ví dụ sau đây tính phân bố chuẩn chuẩn tắc — phân bố có

Trang 28

giá trị trung bình là 0 và độ lệch chuẩn là 1 — của giá trị 0:

=NORMDIST(0, 0, 1, TRUE)

With the cumulative argument set to TRUE, this formula returns 0.5, which makes intuitive sense because, in this distribution, half of the values fall below 0 In other words, the probabilities of all the values below 0 add up to 0.5

Với số cumulative được đặt là TRUE, công thức trên trả về 0.5, là một giá trị chính xác mang tính trực giác, vì trong phân bố này có một nửa giá trị nằm dưới 0 Nói cách khác, xác suất của tất cả những giá trị nằm dưới 0 cộng lại thành 0.5

Now consider the same function, but this time with the

cumulative argument set to FALSE:

Bây giờ, cũng công thức đó, nhưng lần này đối số cumulativeđược đặt là FALSE:

=NORMDIST(0, 0, 1, FALSE)

This time, the result is 0.39894228 In other words, in this distribution, about 3.99% of all the values in the population are 0

Lần này, kết quả là 0.39894228, hay nói cách khác, trong phân bố này, có khoảng 3.99% số giá trị trong tập hợp là 0

BNTT

07-07-08, 06:17 PM12.6.3 The Shape of the Curve I: The SKEW Function

Hình dạng của đường cong I: Hàm SKEW

How do you know if your frequency distribution is at or close

to a normal distribution? In other words, does the shape of your data’s frequency curve mirror that of the normal

distribution’s bell curve?

Làm thế nào để bạn biết sự phân bố tần số nằm ngay tại phân bố chuẩn hay nằm gần phân bố chuẩn? Hay nói cách khác: Hình dạng đường cong tần số của dữ liệu của bạn có

Định dạng
Số trang	56
Dung lượng	192 KB