Thống kê: Ngành học nghiên cứu các thông số đặc trưng của những tập hợp dữ liệu lớn thông qua việc nghiên cứu các mẫu rút ra từ những tập hợp đó.. Ví dụ về tập hợp thống kê: • Tình tr
Trang 1
Giáo trình Thống kê trong
kinh doanh
Trang 2Chương mở đầu
GIỚI THIỆU VỀ THỐNG KÊ
1.1 Thống kê:
Ngành học nghiên cứu các thông số đặc trưng của những tập hợp dữ liệu lớn thông qua việc nghiên cứu các mẫu rút ra từ những tập
hợp đó
2 phạm trù chính áp dụng thống kê: - Mô tả tập hợp
- Kết luận thống kê
Tập hợp thống kê
µ, σ2, p
Mẫu
x, s2, p
1.2 Các thành phần cơ bản của thống kê:
1 Tập hợp thống kê (tổng thể) (population): tập hợp dữ liệu có
liên quan đến hiện tượng quan tâm nghiên cứu
Phân biệt khái niệm tập dữ liệu, thông tin và đối tượng liên quan
Ví dụ về tập hợp thống kê:
• Tình trạng có việc làm của mọi công dân trong độ tuổi lao động
• Lợi nhuận hàng tháng của một công ty (quá khứ và tương lai)
• Tình trạng khuyết tật của một loại sản phẩm của một công ty
• Dữ liệu khách hàng của một loại sản phẩm của một công ty
Trang 32 Mẫu thống kê (sample): là một tập hợp dữ liệu con được rút ra
từ tập hợp thống kê
Ví dụ về mẫu thống kê:
• Các số liệu về tình trạng thất nghiệp của các công dân trong độ tuổi lao động trong vòng 10 năm qua
• Lợi nhuận hàng tháng của một công ty trong 2 năm vừa qua
• Số liệu về lỗi khuyết tật của các sản phẩm sản xuất trong 3 ca gần đây của một công ty
• Dữ liệu về 150 khách hàng được chọn ngẫu nhiên của công ty
Thực tế khái niệm mẫu thống kê và tập hợp đối tượng được dùng lẫn
nhau dù không chính xác
3 Kết luận thống kê (statistical inference): Một quyết định, một
sự phỏng đoán, một sự tổng quát hóa về tập hợp thống kê dựa trên thông tin nhận được từ mẫu thống kê
Ví dụ về kết luận thống kê:
• Từ số liệu về tình trạng thất nghiệp của các công dân trong độ tuổi lao động trong vòng 10 năm qua, dự báo mức thất nghiệp của năm tới
• Từ số liệu về lỗi khuyết tật của các sản phẩm sản xuất trong 3 ca gần đây của một công ty, dự đoán tỷ lệ khuyết tật của toàn bộ các sản phẩm
⇒ Quan trọng của việc: Xác định tập hợp thống kê
Chọn lựa mẫu thống kê Kết luận thống kê
Trang 44 Độ tin cậy (reliability) của kết luận thống kê
Kết luận thống kê có chính xác tuyệt đối?
Mức độ tin cậy để phản ánh sai số do phỏng đoán (prediction error) = chặn trên, chặn dưới và một xác suất
Ví dụ độ tin cậy:
• Mức thất nghiệp của năm tới: 32% ± 2,5% (với xác suất 99%)
• Tỷ lệ khuyết tật của toàn bộ các sản phẩm: 3,6% ± 0,5% (với xác suất là 95%)
1.3 Vai trò của thống kê trong việc ra các quyết định quản lý:
Thiết lập bài
toán quản lý
Vấn đề quản lý
phải giải quyết
Bài toán thống
kê có liên quan
bài toán quản lý thực tế
Lời giải cho bài toán quản lý
Câu hỏi mới
Phân tích thống kê
Lời giải cho bài toán thống kê Lời giải sơ bộ cho bài toán quản lý
Trang 5Chương Hai
SƠ LƯỢC VỀ LÝ THUYẾT XÁC SUẤT
1 Thí nghiệm ngẫu nhiên, không gian mẫu, biến cố:
1.1 Thí nghiệm ngẫu nhiên (Random experiment)
Một TN ngẫu nhiên thỏa 2 đặc tính:
• Không biết chắc kết quả nào sẽ xảy ra
• Nhưng biết được các kết quả sẽ xảy ra
1.2 Không gian mẫu (Sample space)
Tập hợp các kết quả có thể xảy ra trong thí nghiệm ngẫu nhiên, ký hiệu là S
Ví dụ:
Tung một con xúc sắc:
Tung một đồng xu:
Tuổi thọ hoạt động của một chiếc xe:
1.3 Biến cố (Event)
Biến cố: Tập hợp con của không gian mẫu, ký hiệu là E
Biến cố sơ đẳng: Biến cố chỉ chứa một phần tử của S
Ví dụ:
Tung một con xúc sắc
Biến cố mặt chẵn:
Biến cố mặt lẻ:
Biến cố sơ đẳng:
Trang 6Ghi chú:
Biến cố không: Tập hợp rỗng ∅, (∅⊂ S)
Biến cố chắc chắn: Tập hợp S, (S⊂ S)
1.4 Các phép tính về biến cố
Cho 2 biến cố E và F, E ⊂ S, F ⊂ S
a Biến cố hội (Uninon event)
Ký hiệu: E∪F
S
b Biến cố giao (Intersection event)
Ký hiệu: E∩F hoặc EF
S
Lưu ý: Các định nghĩa về hội và giao của 2 biến cố có thể mở rộng
cho nhiều biến cố: E1, E2, E3 …En
c Phần bù của một biến cố (Complement)
Ký hiệu: EC hoặc E
EC xảy ra ⇔ E không xảy ra
Lưu ý: SC = ∅
S
EC
E
Trang 7d Sự xung khắc tương hỗ (Mutually exclusive)
E xung khắc F ⇔ E ∩ F = ∅
S
Lưu ý: • Một biến cố và phần bù của nó là xung khắc
• Sự xung khắc không có tính kéo theo
• Tập hợp các biến cố gọi là xung khắc nếu từng cặp trong đó xung khắc nhau
e Tập hợp đầy đủ các biến cố (Collectively exhaustive)
Tập hợp các biến cố F1, F2, F3, … Fk được gọi là tập đầy đủ nếu:
• F1, F2, F3, … Fk là các biến cố xung khắc
• F1∪F2∪F3∪…∪Fk = S
Ví dụ:
Thí nghiệm tung xúc sắc: S = {1, 2, 3, 4, 5, 6}
Gọi: A = {1, 3, 5} (biến cố mặt lẻ xuất hiện)
B = {3, 6} (biến cố mặt là bội số của 3)
Trang 82 Xác suất (Probability):
Xét N lần thử một thí nghiệm ngẫu nhiên trong đó biến cố E xảy ra
NE lần, ta có
Tỷ lệ xuất hiện biến cố E trong N lần thử = NN E
Khi N tăng đủ lớn ⇒ tỷ lệ này gần như không đổi ⇒ khái niệm tần
suất tương đối của xác suất (relative frequency of probability)
2.1 Định nghĩa
Gọi NE là số lần xuất hiện của biến cố E trong N phép thử lặp lại, theo khái niệm tần suất tương đối của xác suất, xác suất để E xảy ra là tỷ số NE/N khi số lần thử N lớn vô hạn
2.2 Các tính chất mang tính hệ quả
1 Nếu không gian mẫu S có n biến cố sơ đẳng O1, O2, On thì
P(Oi) = 1/n (i = 1, 2, , n)
Trang 92 Nếu không gian mẫu S có n biến cố sơ đẳng, biến cố E có nE biến cố sơ đẳng, E⊂S thì
i i
N 1
4 P(E) + P(EC) = 1
5 P(∅) = 0
6 P(E∪F) = P(E) + P(F) – P(EF)
Trường hợp 3 biến cố:
P(E∪F∪G) = P(E) + P(F) + P(G) – P(EF) – P(EG) – P(FG) +
Trang 102.3 Xác suất có điều kiện
2 Tung lần lượt 2 con xúc sắc, tìm xác suất để tổng 2 mặt bằng 6 biết rằng mặt đầu tiên là 4
3 Một sinh viên chọn học hoặc môn máy tính hoặc môn hóa học dựa trên kết quả tung 1 đồng tiền đồng nhất Nếu SV học máy tính, xác suất đạt điểm A là 1/2 Ngược lại, nếu SV học hóa thì xác suất này là 1/3 Tìm xác suất để SV đạt điểm A trong môn hóa học
2.3.2 Biến cố độc lập
Biến cố E và F là độc lập thống kê nếu
P(EF) = P(E)P(F)
• Nói khác đi, biến cố E được gọi là độc lập với biến cố F nếu P(E) không thay đổi cho dù biến cố F đã xảy ra và ngược lại
P(E/F) = P(E) P(F/E) = P(F)
• E và F không độc lập thì gọi là 2 biến cố phụ thuộc
Trang 11• Tổng quát, các biến cố E1, E2, , En được gọi là các biến cố độc lập nếu với mọi r≤ n, ta có:
P(E1E2 Er) = P(E1)P(E2) P(Er)
Ví dụ:
Trong những người có bằng cử nhân có 48% là nữ, và 17,5% là cử nhân thuộc lĩnh vực kinh doanh Số liệu thống kê cũng cho biết có 4,7% cử nhân vừa thuộc lĩnh vực kinh doanh vừa là nữ Biến cố “Cử nhân thuộc lĩnh vực kinh doanh” và biến cố “Cử nhân là nữ” có phải là 2 biến cố độc lập?
2.3.3 Công thức xác suất đầy đủ – công thức Bayes
a Công thức xác suất đầy đủ
Cho không gian mẫu S và tập hợp đầy đủ biến cố Fi (i=1, 2, , n) xung khắc từng đôi một
Gọi E là một biến cố bất kỳ trong không gian mẫu S Biến cố E được biểu diễn như sau
Trang 12E = EF1∪EF2∪ ∪EFi∪ ∪EFn
P(E) = P(EF1) + P(EF2) + + P(EFn) = P(EFi)
n
1 i
Một nhà máy có 4 phân xưởng sản xuất một loại sản phẩm
PX I sản xuất 1/3 tổng sản lượng của nhà máy
PX II sản xuất 1/4 tổng sản lượng của nhà máy
PX III sản xuất 1/4 tổng sản lượng của nhà máy
PX IV sản xuất 1/6 tổng sản lượng của nhà máy
Tỷ lệ phế phẩm của các phân xưởng I, II, III và IV lần lượt là 15%, 8%, 5% và 1%
Nếu lấy ngẫu nhiên 1 sản phẩm trong kho của nhà máy, tính xác suất để sản phẩm đó là phế phẩm
Trang 13Lưu ý: ở đây biết P(F i ), P(E/F i ) và P(E) ⇒ tìm P(F i /E)
Ví dụ:
Lấy ví dụ các phân xưởng sản xuất của một nhà máy
Lấy ngẫu nhiên 1 sản phẩm trong kho của nhà máy và thấy nó là phế phẩm, tìm xác suất để sản phẩm này thuộc phân xưởng I
Trang 14Chương Ba
MÔ TẢ TẬP DỮ LIỆU
1 Các biểu đồ mô tả:
1.1 Các loại dữ liệu
Hai loại dữ liệu:
Định lượng: đo lường bằng số
Định tính: không đo lường được bằng số ⇒ có dạng phân loại
1.2 Các biểu đồ biểu diễn cho tập dữ liệu định tính
Biểu đồ thanh (Bar chart)
Ví dụ: Quan sát 30 khách hàng mua 4 kiểu sản phẩm
Kiểu loại Số quan sát Tần suất
(f i) Tần suất tương đối (f i r)
Kiểu loại
Trang 15Biểu đồ hình tròn (Pie chart)
A16.67%
B36.67%
C20.00%
D26.67%
1.3 Các biểu đồ biểu diễn cho tập dữ liệu định lượng
1.3.1 Biểu đồ thân và lá (Stem and Leaf)
Trang 16Các bước thiết lập sơ đồ thân và lá:
1 Xác định thân và lá, chọn đơn vị biểu diễn sao cho tổng số thân trong sơ đồ từ 5 đến 20
2 Xếp các thân theo thứ tự tăng dần trên 1 cột, kể cả các thân không có lá
3 Ứng với mỗi thân, xếp các lá theo thứ tự tăng dần từ trái sang phải Các lá nên được biểu diễn chỉ bằng 1 ký tự số (nếu cần phải làm tròn số)
1.3.2 Biểu đồ Histogram (tần suất)
Tập dữ liệu (có N phần tử) được chia thành các nhóm có khoảng giá trị bằng nhau
Tần suất: Số quan sát trong mỗi nhóm, ký hiệu f i
Tần suất tích lũy: Tổng số quan sát của nhóm i và các nhóm trước Tần suất tương đối: Tỷ số fi/N, ký hiệu f i r
Tần suất tương đối tích lũy:
Trang 17Các bước vẽ biểu đồ tần suất:
1 Sắp xếp các số liệu theo thứ tự tăng dần
2 Chia các số liệu thành các nhóm có độ lớn bằng nhau (từ 5 đến
20 nhóm) sao cho không có số liệu nào nằm trên vùng biên của các nhóm
Trang 18Bảng tần suất và tần suất tương đối cho các nhóm
Nhóm Khoảng giá trị Tần suất
(Số quan sát)
Trang 192 Các thông số đặc trưng của tập dữ liệu:
2.1 Thông số đo lường khuynh hướng tập trung: (measure of
central tendency)
Là thông số thể hiện vai trò trung tâm của tập dữ liệu, còn gọi là các số định tâm gồm:
• Giá trị trung bình số học / giá trị kỳ vọng (mean/expected value)
• Số trung vị (median)
• Số yếu vị (mode)
2.1.1 Giá trị trung bình số học
Giá trị trung bình của tổng thể (Population mean)
N
x f N
µ
Giá trị trung bình của mẫu (Sample mean)
n
x f n
x
2.1.2 Số trung vị (Median)
Là số có giá trị nằm giữa tập dữ liệu khi các giá trị quan sát trong tập dữ liệu được sắp từ nhỏ đến lớn (hay ngược lại)
Trường hợp số quan sát là số chẵn thì trung vị là giá trị trung bình của 2 quan sát ở giữa
Trang 20Trong vài trường hợp, số trung vị đo khuynh hướng tập trung tốt hơn giá trị trung bình số học
- Giá trị trung vị
- Giá trị trung bình số học
⇒ Khái quát độ méo (skewness)
của tập dữ liệu
Ví dụ: Điểm của 20 học sinh
Trang 21Điểm trung vị = (số thứ 10 + số thứ 11)/2 = (7,5 + 8) / 2 = 7,75
10 9 8 7 6 5 4 3 2 1
Histogram of Mau 2, with Normal Curve
2.1.3 Số yếu vị (Mode)
Là giá trị quan sát có số lần xuất hiện nhiều nhất (có fi lớn nhất)
Không thích hợp khi tập dữ liệu có nhiều giá trị mode → dùng lớp mode (modal class)
Ví dụ:
Cho tập dữ liệu:
0 1 0 2 5 2 5 2 3 3 5 6 4 Tìm giá trị trung bình, số trung vị và yếu vị
2.2 Thông số đo lường khuynh hướng phân tán: (measure of
dispersion)
Trang 22Là thông số thể hiện sự khác biệt giữa các số trong tập dữ liệu so với số định tâm (thường là giá trị trung bình)
2 số phân tán thường dùng là phương sai và độ lệch chuẩn
2.2.1 Phương sai: (variance)
Phương sai của tổng thể (population variance)
2
N 1 i
N 1 i
2 i
2
µ N
Phương sai của mẫu (sample variance)
1) - (n
)
( s
n 1 i
2 i
1
n 1 i
2 i
2
n
1 1
n
1
2.2.2 Độ lệch chuẩn: (standard deviation)
Độ lệch chuẩn của tổng thể (population SD)
2 i
N
1 σ
σ
Độ lệch chuẩn của mẫu (sample SD)
Trang 232.2.3 Ý nghĩa của độ lệch chuẩn
a/ Quy tắc kinh nghiệm
b/ Quy tắc Tchebychev
Với bất kỳ tổng thể có trung bình µ, độ lệch chuẩn σ thì có ít nhất 100(1-1/m2)% các giá trị của tổng thể nằm trong khoảng µ ± mσ (m>1)
m 1,5 2 2,5 3
c/ Quy tắc đối với tập dữ liệu có phân bố hình chuông (đối xứng)
hay số phần tử của tập dữ liệu là rất lớn: (Rule of Thumb)
Trang 25z =
s
x
Ý nghĩa của z:
Là độ lệch của x so với giá trị trung bình, đơn vị tính là độ lệch chuẩn (x cách giá trị trung bình z lần độ lệch chuẩn)
Ví dụ một giá trị x trong 1 mẫu dữ liệu có giá trị z = -2, nghĩa là x nhỏ hơn giá trị trung bình 2 lần độ lệch chuẩn s
Lưu ý: Quy tắc của phân phối hình chuông
Trang 26Khoảng = Max – Min
2.3.3 Các điểm định vị phần trăm (percentiles)
(1-p)% các số liệu p% các số liệu
25% các số liệu
Q2 = x50 Q3 = x75
25% các số liệu Tần suất (f i )
Q1 = x25
25% các số liệu
x
Trang 27Chương Bốn
BIẾN NGẪU NHIÊN và PHÂN BỐ XÁC SUẤT
1 Biến ngẫu nhiên:
1.2 Phân loại biến ngẫu nhiên
Hai loại biến ngẫu nhiên:
Rời rạc / gián đoạn (discrete random variable): là biến ngẫu nhiên
mà các giá trị có thể có của nó là hữu hạn hoặc đếm được
(các giá trị xếp thành 1 dãy rời rạc các số x 1 , x 2 , … x n )
Liên tục (continuous random variable): là biến ngẫu nhiên mà các
giá trị có thể có của nó là liên tục hoặc không đếm được
(các giá trị lấp đầy toàn bộ khoảng (a,b) của trục giá trị)
Trang 282 Phân bố xác suất của biến ngẫu nhiên rời rạc:
2.1 Hàm khối lượng xác suất (probabilty mass function)
⇒ Hàm khối lượng xác suất p(x) = 1/6
2.2 Phân bố xác suất (probability distribution)
Thể hiện sự tương quan giữa các giá trị xi của biến ngẫu nhiên X và xác suất của xi Sự thể hiện có thể có dạng bảng hay đồ thị
x 1 2 3 4 5 6
P(X=x) 1/6 1/6 1/6 1/6 1/6 1/6
P(X=x) 1/6
x
Trang 292.3 Hàm phân bố xác suất tích lũy (Cumulative probability
function)
F(b) = P (X ≤ b) Là xác suất để biến ngẫu nhiên X có giá trị ≤ b
a
Trang 302.4 Kỳ vọng, phương sai và độ lệch chuẩn của biến ngẫu nhiên
Độ lệch chuẩn (standard deviation):
Trang 312.5 Biến ngẫu nhiên Bernoulli – Phân bố Bernoulli
Định nghĩa: Xét 1 biến ngẫu nhiên X có giá trị được xác định dựa trên kết quả của 1 thí nghiệm như sau: X = 1 nếu thí nghiệm là
“thành công”, X = 0 nếu thí nghiệm là “thất bại” Biến ngẫu nhiên như vậy gọi là biến ngẫu nhiên Bernoulli (tuân theo phân bố Bernoulli)
Hàm khối lượng xác suất:
p(0) = P(X = 0) = 1 – p p(1) = P(X = 1) = p
Trong đó p là xác suất để thí nghiệm “thành công”
Kỳ vọng: E[X] = p
thử thì X là biến ngẫu nhiên nhị thức (tuân theo phân bố nhị thức) –
Trang 32Kỳ vọng: E[X] = np
Phương sai: Var(X) = np(1-p) = npq
Một loại động cơ máy bay có xác suất bị trục trặc khi đang bay là (1-p) Giả sử rằng một chuyến bay sẽ thành công nếu ít nhất 50% số động cơ của nó hoạt động bình thường trong suốt chuyến bay Xác định p để một máy bay loại 4 động cơ được ưa chuộng nhiều hơn một máy bay loại 2 động cơ (lắp cùng 1 loại động cơ)
Một số lưu ý:
• Khi n lớn việc tính toán p(i) gặp trở ngại ⇒ dùng các công
thức gần đúng
a Công thức Moixre – Lapalace:
p(i) = P(X= i) =
p)-np(1
(x)ϕ
2
2
1(x)= e−x
π
Ví dụ: Xác suất để sản xuất ra 1 sản phẩm đạt chất lượng là 0,4 Tìm xác suất để trong 26 sản phẩm sản xuất ra có 13 sản phẩm loại tốt
Trang 33b Xấp xỉ Poisson:
Khi n lớn và p khá nhỏ ⇒ np = λ = const
p(i) = P(X = i) = e-λi! λi
Ví dụ:
Tổng sản phẩm của xí nghiệp A trong 1 quí là 800, xác suất sản xuất
1 phế phẩm là 0,005 Tìm xác suất để có 3 sản phẩm là phế phẩm Tìm xác suất để không quá 10 sản phẩm bị hư
• Số lần xuất hiện chắc chắn nhất
p(i) phụ thuộc vào i, gọi i0 là số lần xuất hiện chắc chắn nhất của X, hay nói cách khác i0 là giá trị mà ở đó p(i0) đạt giá trị lớn nhất
Định nghĩa: Tiến hành các phép thử độc lập Trong mỗi phép thử
xác suất xuất hiện của biến cố A như nhau và gọi là p Gọi X là
biến ngẫu nhiên biểu diễn số các phép thử cần thực hiện cho đến khi xuất hiện biến cố A thì X là biến ngẫu nhiên hình học (tuân theo phân bố hình học)
Hàm khối lượng xác suất:
p(n) = P(X = n) = (1-p)n-1p n = 1, 2, …
Trang 34Ký vọng: E[X] = 1/p
Phương sai: Var(X) = q/p2
2.8 Biến ngẫu nhiên Poisson – Phân bố Poisson (Poisson
distribution)
Định nghĩa: Một biến ngẫu nhiên X nhận các giá trị 1, 2, 3…∞ được gọi là biến ngẫu nhiên Poisson (hoặc tuân theo phân bố Poisson) với thông số λ, ký hiệu X∼P(λ), nếu
p(i) = P(X = i) = e-λi! λi
Phân bố Poisson thường dùng cho các biến cố hiếm (rare events) có xác suất xảy ra rất nhỏ hoặc trong các quá trình ngẫu nhiên xảy ra chậm
Ví dụ:
1 Giả sử số lỗi đánh máy trên một trang tài liệu được đánh máy tuân theo phân phối Poisson với thông số λ = 1 (trung bình 1 lỗi 1 trang) Xác định xác suất để có ít nhất một lỗi trên một trang tài liệu đánh máy nào đó
Gọi X là số lỗi đánh máy trên 1 trang tài liệu chọn ngẫu nhiên
P(X ≥ 1) = 1 – P(X = 0) = 1 – (e-110)/0! = 0,632
2 Nếu số tai nạn xảy ra trên xa lộ trong một ngày tuân theo phân bố Poisson với thông số λ = 3 Tìm xác suất để không có tai nạn trong 1 ngày nào đó P(X = 0) = e-330/0! = 0,5