Mục đích, nhiệm vụ và đối tượng của thống kê Nhiệm vụ thống kê: Phản ánh về lượng của các hiện tượng kinh tế, chính trị, xã hội; Cung cấp dữ liệu có tính hệ thống để XD các chiến lược
Trang 1NCT-FIT-HNUE 1
BÀI GIẢNG
GIÁO DỤC THỐNG KÊ
Nguyễn Chí Trung Khoa CNTT - ĐHSPHN
Trang 2§1 XÁC SUẤT
1 Hiện tượng ngẫu nhiên và phép thử
Hiện tượng ngẫu nhiên: gieo một con xúc xắc
Phép thử (ngẫu nhiên): thực hiện thí nghiệm một hiện tượng nào đó
ngẫu nhiên
Biến cố ngẫu nhiên: là sự kiện nào đó (xảy ra hay không xảy ra)
trong một phép thử
Biến cố ∅ (không bao giờ xảy ra) và biến cố Ω (chắc chắn)
Ví dụ: Phép thử gieo một con xúc xắc, có thể có các biến cố:
Trang 3§1 XÁC SUẤT
2 Quan hệ giữa các biến cố
Cho A và B là 2 biến cố của cùng một phép thử
A thuận lợi (kéo theo) đối với B, kí hiệu A ⊂ B nếu A xuất hiện thì B
cũng xuất hiện trong cùng một phép thử
A đồng nhất B, kí hiệu A = B, nếu A và B là thuận lợi đối với nhau
trong cùng một phép thử
A đối lập B, kí hiệu A =!B, nếu A xuất hiện khi và chỉ khi B không xuất
hiện (!B nghĩa là không (xảy ra) B)
A đồng khả năng với B, nếu trong cùng một phép thử không có biến cố
nào được ưu tiên hơn biến cố B
Trang 4 ∅ thuận lợi đối với mọi biến cố
Mọi biến cố đều thuận lợi đối với biến cố chắc chắn
Trang 5§1 XÁC SUẤT
3 Các phép toán trên các biến cố
Cho A và B là 2 biến cố của cùng một phép thử
Hợp C = A ∪ B Ù ít nhất một trong hai A hoặc B xuát hiện
Nếu A = !B thì ta viết C = A ∪ B thành C = A + B (gọi là Tổng 2
Trang 6§1 XÁC SUẤT
3 Các phép toán trên các biến cố (tiếp)
Định nghĩa: A là biến cố sơ cấp (hay cơ bản) nếu A = B ∪ C thì
hoặc A = B hoặc A = C
Định nghĩa: Cho A1, A2, , An là các biến cố của một phép thử
Ta nói rằng chúng lập thành một hệ đầy đủ , kí hiệu là H, nếu:
• (i) Chúng đôi một xung khắc Ai ∩ Aj = ∅
• (ii) Tổng của chúng là cả không gian: A1 + A2 + + An = Ω
Nếu các biến cố Ak (k=1, 2, , n) là các biến cố sơ cấp thì họ n
biến cố đó gọi là không gian các biến cố sơ cấp.
Ví dụ: Trong phép thử gieo xúc xắc
Họ {X1 , X2 , X3 , X4 , X5 , X6} tạo thành không gian các biến cố sơ cấp
Trang 7§1 XÁC SUẤT
4 Định nghĩa xác xuất cổ điển
Xác xuất của một biến cố chỉ khả năng xuất hiện một biến cố nào đó
Định nghĩa: B1, B2, , Bnlà một hệ đầy đủ các biến cố đồng khả
năng trong một phép thử và A là một biến cố trong phép thử đó Giả
sử trong hệ đó có k biến thuận lợi đối với A, tức là:
Trang 8§1 XÁC SUẤT
4 Định nghĩa xác xuất cổ điển (tiếp 1)
P(A) = số khả năng thuận lợi cho A / tổng số khả năng
Ví dụ 2: Trong phép thử tung 2 đồng tiền, tìm xác suất để
a) Cả 2 đồng tiền đều xuất hiện mặt sấp
Trang 9§1 XÁC SUẤT
4 Định nghĩa xác xuất cổ điển (tiếp 2)
P(A) = số khả năng thuận lợi cho A / tổng số khả năng
Ví dụ 3: Trong phép thử gieo xúc xắc, tìm xác suất để xuất hiện mặt
sáu chấm; xác xuất xuất hiện mặt có số chấm lẻ
Giải
H = {X1, X2, X3, X4, X5, X6}
Gọi A = “xuất hiện mặt 6 chấm” Æ A = X6
Gọi B = “xuất hiện mặt có số chấm lẻ” Æ B = {X1, X3, X5}
P(A) = 1/6 ≈ 0.17; P(B) = 3/6 = 0.5
Tương tự ta cũng có P(Xk) ≈ 0.17
Trang 10§1 XÁC SUẤT
4 Định nghĩa xác xuất cổ điển (tiếp 3)
P(A) = số khả năng thuận lợi cho A / tổng số khả năng
Ví dụ 4:
Đậu hoa vàng có cặp gien trội AA; Đậu hoa trắng có cặp gien lặn aa
Khi đem lai hai cây đậu hoa vàng và hoa trắng để sinh ra thế hệ F1, rồi
lai hai cây đậu ở thế hệ F1 với nhau để sinh ra thế hệ F2 Tính xác xuất
để cây đậu ở thế hệ F2 có hoa vàng?
Giải
- Lai cây đậu hoa vàng với cây đậu hoa trắng ta được các cây đậu ở thế
hệ F1 mang cặp gien kiểu hoa vàng Aa
- Đem lai hai cây đậu ở thể hệ F1 thì ở thế hệ F2 ta được các cây đậu có
4 kiểu gien: AA, Aa, aA, aa (gien đầu của bố, gien sau của mẹ)
- Gọi X = “kiểu hình hoa vàng ở thế hệ F2” ta có
Trang 11 P(A+B) = P(A) + P(B) ; Nếu A ⊂ B thì P(A) ≤ P(B)
P(A∪B) = P(A) + P(B) – P(A∩B)
P(!A) = 1 – P(A)
Ví dụ 4:
Trong kì thi qui định “điểm giỏi” là điểm trên 8 (không cho điểm thập
phân) Một học sinh vào thi, A là sự kiện “đạt điểm 10”, B là sự kiện “đạt
điểm 9” Giả sử với em đó, xác xuất p(A) = 0.3, p(B) = 0.4
Gọi C là sự kiện “đạt điểm giỏi”, ta có
p(C) = P(A∪B) = P(A) + P(B) – P(A∩B) = 0.3 + 0.4 – 0 = 0.7
Trang 12A theo nghĩa thống kê, kí hiệu là P(A).
Ví dụ:
Trong nhiều phép thử tung đồng tiền ta thấy P(S) = 0.5
Trong các phép thử gieo xúc xắc ta thấy P(X6) ≈ 0.17
Trang 13§2 THỐNG KÊ
1 Mục đích, nhiệm vụ và đối tượng của thống kê
Nhiệm vụ thống kê: Phản ánh về lượng của các hiện tượng kinh tế,
chính trị, xã hội; Cung cấp dữ liệu có tính hệ thống để XD các chiến lược,
kế sách, chương trình phát triển kinh tế - xã hội
Đối tượng: Thống kê là khoa học nghiên cứu các phương pháp thu thập,
xử lí và phân tích dữ liệu (mặt lượng) của những hiện tượng nhằm tìm
hiểu bản chất và tính qui luật nội tại của chúng (mặt chất) trong các điều
kiện về không gian và thời gian xác định
Các hiện tượng nghiên cứu thống kê về kinh tế xã hội
• Về quá trình sản xuất, phân phối, sử dụng
• Về dân số, tăng trưởng, phân bố
• Về đời sống: mức sống, trình độ văn hóa, bảo hiểm xã hội
Trang 14§2 THỐNG KÊ
2 Các khái niệm
Tổng thể thống kê là một tập tất cả các đối tượng hay cá thể của hiện
tượng trong phạm vi nghiên cứu, được quan sát và phân tích Ví dụ:
Toàn bộ SV ở các trường ĐH giai đoạn 2008 - 2010
Đơn vị tổng thể là cá thể của tổng thể thống kê Do đó đơn vị tổng thể
có thể là người, vật, yếu tố, hiện tượng
Tiêu thức thống kê: Là các thuộc tính (đặc điểm) của các đơn vị tổng
thể mà ta cần quan tâm nghiên cứu
Tiêu thức thuộc tính : Là dạng dữ liệu định tính của tiêu thức thống kê
Ví dụ Giới tính (nam, nữ); Hình thức sở hữu (nhà nước, tập thể, tư nhân)
Tiêu thức số lượng: Là dạng dữ liệu số của tiêu thức thống kê Ví dụ
Chiều cao, trọng lượng, mức lương
Trang 15§2 THỐNG KÊ
2 Các khái niệm
Chỉ tiêu thống kê là biểu thị về mặt lượng trong mối quan hệ về mặt
chất của hiện tượng nghiên cứu trong điều kiện không gian, thời gian xácđịnh Chỉ tiêu thống kê gồm:
• Khái niệm gồm định nghĩa, giới hạn thực thể, không gian, thời
gian của hiện tượng nghiên cứu Nó biểu thị nội dung của chỉ tiêuthống kê
• Con số biểu thị mức độ của chỉ tiêu thống kê.
Ví dụ: Lượng khách bình quân một tháng tại khách sạn Hồng hà năm 2010
là 1500 người
• Khái niệm = Lượng khách bình quân một tháng tại khách sạn
Hồng hà năm 2010
• Con số = 1500
Trang 16§2 THỐNG KÊ
2 Các khái niệm
Chỉ tiêu số lượng: Biểu thị qui mô của hiện tượng nghiên cứu Ví
dụ số sinh viên ĐH và CĐ; tổng nhân khẩu; tổng thu nhập quốc dân
Chỉ tiêu chất lượng: Biểu thị trình độ phổ biến Ví dụ mức lương
một nhân viên, năng suất lao động; giá thành đơn vị sản phẩm
Trang 17§3 BẢNG PHÂN PHỐI TẦN SỐ
1 Bảng phân phối thực nghiệm
Dãy số thống kê rất lớn, không đủ điều kiện xử lí, nên chỉ chọn
một phần của quần thể vô hạn gọi là mẫu đại diện (dãy thống kê
hữu hạn).
Các mẫu được chọn gọi là biến x Biến x được biến đổi trong
khoảng quan sát
Ví dụ: Xét chiều cao của HS 11 (quần thể) Một ví dụ về mẫu hay
biến x là chiều cao của HS mà ta đo được là 1.61, 1.64, 1.65, 1.66, 1.71, 1.73, …
Trang 18§3 BẢNG PHÂN PHỐI TẦN SỐ
1 Bảng phân phối thực nghiệm (tiếp)
Từ mẫu ta có bảng sau đây, gọi là bảng phân phối thực nghiệm:
Trang 19§3 BẢNG PHÂN PHỐI TẦN SỐ
2 Tần suất tuyệt đối
Ví dụ ta thấy có một số HS 11 có chiều cao
như nhau, chẳng hạn trong mẫu có 7 HS chiều cao 1.50 Khi đó ta nói 7 là tần suấttuyệt đối, kí hiệu là F
Tổng quát, khi quan sát một đại lượng x nào
đó, ta nhận được k giá trị phân biệt x1, x2, …,
xk (gọi là giá trị quan sát) với tần suất tuyệtđối tương ứng là F1, F2, …, Fk Khi đó bảngphân phối thực nghiệm như sau:
Trang 20§3 BẢNG PHÂN PHỐI TẦN SỐ
3 Tần suất quan hệ (tần suất)
Tần suất quan hệ, kí hiệu là f, là tỉ
số giữa tần suất thuyệt đối F và tổng
%
100
n F
f =
Trang 21§3 BẢNG PHÂN PHỐI TẦN SỐ
3 Tần suất quan hệ
Kết quả điều tra số trẻ em từ 7 đến 14 tuổi
Bảng phân phối thực nghiệm
dạng tần suất tuyệt đối
Bảng phân phối thực nghiệm dạng tầnsuất quan hệ
F
f =
Trang 22§3 BẢNG PHÂN PHỐI TẦN SỐ
4 Tần suất tuyệt đối hội tụ
Xét mẫu điều tra số trẻ em từ 7 đến 14 tuổi
Trang 23§3 BẢNG PHÂN PHỐI TẦN SỐ
4 Tần suất tuyệt đối hội tụ
z Tần suất hội tụ lùi FL(x≤ xi)
1 xi Fi FL(x≤xi) 2
3 4 5 6 7 8 9
Trang 24fL(x≤x i )
0 0.14+0=0.14 0.14+0.16=0.30 0.30+0.18=0.48 0.48+0.20=0.68 0.68+0.16=0.84 0.84+0.08=0.92
Trang 25§3 BẢNG PHÂN PHỐI TẦN SỐ
5 Bảng phân phối tần suất ghép
lớp
Ví dụ: Có 200 người đăng kí đi
chuyến máy bay 14h ngày
1/5/2009 Hà nội – Paris, người
ta ghi được thông tin như 3
bảng bên về tuổi hành khách
Æ Ta có bảng dưới đây
Phân lớp theo độ tuổi
Trang 26§3 BẢNG PHÂN PHỐI TẦN SỐ
5 Bảng phân phối tần suất ghép lớp
Æ Phân lớp theo độ tuổi Æ Phân lớp theo khoảng
• 29 tuổi 11 tháng ∈lớp (khoảng) [20, 30); chưa là 30 tuổi
• 10.3 ∈ [0, 10) ;
Trang 27§3 BẢNG PHÂN PHỐI TẦN SỐ
6 Khoảng và biên độ
a) Khoảng và giới hạn của khoảng: Khoảng là đoạn hay nửa đoạn hay khoảng
của một lớp
Ví dụ: [10, 20) là nửa đoạn theo lớp “tuổi”
x ∈ [10, 20) Æ 10 là giới hạn dưới của lớp; 20 là giới hạn trên của lớp
b) Biên độ: Là khoảng cách giữa hai giới hạn
Ví dụ: (10, 20) có khoảng cách 20-10 = 10
c) Điểm giữa của lớp: là giá trị trung bình cộng của hai giới hạn của khoảng
Ví dụ xét lớp 10 ≤ x ≤ 30 Æ Điểm giữa xi = (10+30)/2 = 25
Trang 28§3 BẢNG PHÂN PHỐI TẦN SỐ
7 Đồ thị biểu diễn đường phân phối tần suất (Biểu đồ tổ chức)
Chia các khoảng = các biên độ trên trục hoành
Dựng các đoạn song song với trục tung tại các điểm giữa trên trục hoành và
cao bằng tần suất
Đường gẫy khúc thu được là đường phân phối của tần suất (tuyệt đối hay quan
hệ tương ứng)
a) Biểu đồ tổ chức phân phối tần suất tuyệt đối
Khoảng (biên độ) bằng nhau
Trang 29§3 BẢNG PHÂN PHỐI TẦN SỐ
7 Đồ thị biểu diễn đường phân phối tần suất (Biểu đồ tổ chức)
a) Biểu đồ tổ chức phân phối tần suất tuyệt đối
Khoảng (biên độ) khác nhau Æ cần sửa
để bằng nhau Ví dụ Điểm môn toán (thangđiểm 20) của 80 HS
Có 3 nhóm lớp ứng với 3 biên độ 2, 3 và 4
Cần sửa lại tần suất để các
lớp có cùng biên độ: Lấy tần
suất chia cho số lần gấp
so với biên độ nhỏ nhất để được tần suất mới
Cách vẽ đồ thị như cũ, tức làcác cột xuất phát từ các
điểm giữa các khoảng, nhưng độ cao của các cộttuân theo tuần suất mới
Trang 30§3 BẢNG PHÂN PHỐI TẦN SỐ
7 Đồ thị biểu diễn đường phân phối tần suất (Biểu đồ tổ chức)
b) Biểu đồ tổ chức phân phối tần suất quan hệ
Ví dụ: Cho bảng phân tần
suất nhận lương của một
xí nghiệp 600 nhân viên
Hãy xác định biểu đồ tổ
chức của tần suất
Trang 31§3 BẢNG PHÂN PHỐI TẦN SỐ
7 Đồ thị biểu diễn đường phân phối tần suất (Biểu đồ tổ chức của tần suất)
c) Biểu đồ tổ chức phân phối tần suất hội tụ
Cho bảng phân phối tần suất
tuyệt đối Ta cần lập bảng phân phối tần suất tuyệt đối và tần suất quan hệ lùi và tiến để vẽ các biểu đồ
Biểu đồ tổ chức của tần suất
tuyệt đối hội tụ lùi
Biểu đồ tổ chức của tần suất tuyệt đối hội tụ tiến
Trang 32§3 BẢNG PHÂN PHỐI TẦN SỐ
8 Biểu diễn đồ thị theo các dạng khác
Đồ thị hình tròn
Chuyển thành tỉ lệ trong các góc Góc 360 0
được chia thành 100 phần, mỗi phần 3.6 0
Thu thập ý kiến của 140260 cặp
vợ chồng
73400 140260
x 100
x = 73400*100/140260
Trang 33§3 BẢNG PHÂN PHỐI TẦN SỐ
9 Qui định sự tăng trưởng dân số
Giả sử dân số tại thời điểm (năm) t0 là P1
Và giả sử dân số tăng mỗi năm so với năm trước là i lần (ta nói rằng dân số tăng theo qui luật số mũ)
Khi đó, dân số các năm tiếp theo là:
P2 = P1 + i*P1 = P1 (1 + i); P3 = P2 + i*P2 = P2 (1 + i) = P1(1+i)2 ; …
Pn+1 = Pn + i*Pn= P1(1+i)n
Ví dụ: Một xí nghiệp có 240 người Số người sẽ tăng 40% trong 10 năm
Hãy xác định dân số sau 10 năm
Giải: Tăng 40% trong 10 năm nên mỗi năm tăng 0.04% Giả sử đang là
năm thứ nhất: P1 = 240, theo yêu cầu bài toán ta cần xác định P11
Theo qui luật số mũ thì P11 = P1(1+i)10 = 240(1+0.04)10 = 240 * 1.0410 =
240 * 1.48024 = 115 (người).
Trang 34§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.1 Trung bình cộng
Khi có tần số Khi không có tần số
n
F x F
x F x n
F x
1
n
x x
x n
Ví dụ thống kê điểm của
40 nghiên cứu sinh thu
i i
Trang 35§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.1 Trung bình cộng
Ví dụ 2: Chọn 300 cháu mẫu giáo, mỗi
cháu nhanh tay nhặt ra các viên bi màu
từ hộp của mình
Sau 2 phút, kết quả phân lớp theo số bi
nhặt được như bảng bên:
Ta có bảng xác định các trung điểm xi và các tích
xiFi để tính trung bình cộng như sau:
74 300
k
i
i i
Vậy trung bình sau 2 phút các cháu nhặt được
74 viên bi
Trang 36§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.2 Trung vị và các tứ phân vị mẫu
z Trung vị là số đứng ở vị trí giữa, có khoảng 50% số có giá trị bé hơn
nó và có khoảng 50% số có giá trị lớn hơn nó Trung vị kí hiệu là Me
z Tứ phân vị dưới là số mà có khoảng 25% số có giá trị bé hơn
z Tứ phân vị trên là số mà có khoảng 25% số có giá trị lớn hơn
z Khi n nhỏ thì khó tính chính xác so với n lớn
z Nếu chia khoảng thì có thể nội suy trung vị và các tứ phân vị
Trang 37§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.2 Trung vị và các tứ phân vị mẫu
Cách tính trung vị đối với mẫu không phân lớp
Me là số sao cho số các giá trị mẫu ≥ nó bằng số các giá trị mẫu ≤ nó
Vậy nếu sắp xếp các giá trị của mẫu (X1, X2, …, Xn) tăng dần X1 ≤ X2
, 2
) ( ,
1 2 2
2 1
n even if
X X
n odd if
Æ n = 10, Xn/2 = 6, X1+n/2 = 7 Æ Me = (6+7)/2 = 6.5
Trang 38§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.2 Trung vị và các tứ phân vị mẫu
Cách tính trung vị đối với mẫu có phân lớp
Phân lớp (khoảng) sao cho sắp xếp theo tần số hội tụ lùi; sau đó tính
trung vị theo công thức dưới đây:
i i
1 1
−
−
− +
i là khoảng Ii-1 - Ii ứng với giá trị N/2
Gọi nó là khoảng trung vị
Ii-1 là giới hạn dưới;
Fi là tần số của khoảng trung vị
Ni-1 là tần số hội tụ ngay trước khoảng
Trang 39§4 CÁC THAM SỐ THỐNG KÊ
1 Các tham số đo giá trị trung tâm
1.2 Trung vị và các tứ phân vị mẫu
Ví dụ Cách tính trung vị đối với mẫu có phân lớp
1 1
−
−
− +
Do đó:
03 8 5
* 38
52
75
=
Trang 40§4 CÁC THAM SỐ THỐNG KÊ
2 Các tham số đo độ phân tán
2.1 Độ lệch trung bình tuyệt đối
F
F X
x d
Ví dụ Xét dãy thống kê {1, 5, 7, 9, 11, 15} Hãy xác định d
Giải:
8 7
56 7
15 11
9 8 7 5 1
=
=
+ +
+ + +
| 8 15 1
.
| 8 11
| 1
| 8 9
| 1
| 8 8
| 1
| 8 7
| 1
| 8 5
| 1
| 8 1
F
F X x
d
Trang 41§4 CÁC THAM SỐ THỐNG KÊ
2 Các tham số đo độ phân tán
2.1 Độ lệch trung bình tuyệt đối
Ví dụ 2: Cho bảng thống kê số
lượng ăn theo Hãy xác định độ
lệch trung bình tuyệt đối Lập bảng phân phối
78
5 64
370 64
50 90
45 35
75 75
=
=
+ +
+ +
x d
Lứa
tuổi
Sốngười1-5 6
8
12.518
8018232413
276
7.52.52.57.5
1823
112 12.528
90
|
|x i − X |x i − X |F i
Trang 42§4 CÁC THAM SỐ THỐNG KÊ
2 Các tham số đo độ phân tán
2.1 Phương sai, độ lệch chuẩn
Trung bình cộng bằng tổng các giá trị quan sát xi chia cho số quan sát n
(n gọi là kích thước mẫu) Trung vị là vị trí chính giữa mẫu quan sát
Hai mẫu có thể có cùng giá trị trung bình và trung vị nhưng độ biến động (độ lệch) giữa các giá trị của mẫu này so với trung bình của nó có thế
rất khác so với độ biến động tương ứng trong mẫu kia
Phương sai và độ lệch chuẩn dùng để đánh giá độ biến động hay độ
phân tán của các giá trị trong mẫu so với giá trị trung bình của mẫu
Độ lệch chuẩn Hệ số biến động Phương sai
F x
k
i
2 2
) (
Trang 43§4 CÁC THAM SỐ THỐNG KÊ
2 Các tham số đo độ phân tán
2.1 Phương sai, độ lệch chuẩn
Bài toán phân tích dữ liệu chiều cao bé mẫu giáo
Trong cuộc điều tra về lớp mẫu giáo bé người ta có bảng dưới đây
Bằng kiến thức thống kê toán học, hãy phân tích số liệu của bảng phân phối này Khi phân tích chia thành 7 khoảng 5, 90, 94, 97, 100, 104,
109, 116 Cho biết chuẩn chiều cao của mẫu giáo bé là 94-104cm