Hạn chế: Không phản ánh toàn bộ đại diện của tổng thể, kết quả có thể không đại diện cho tổng thể... Khả năng tỏ ra không đại diện: Chọn mẫu không đại diện hoặc phương pháp chọn
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA KINH TẾ
BÀI TẬP NHÓM BỘ MÔN: LÝ THUYẾT
XÁC SUẤT THỐNG KÊ
Giảng viên : Nguyễn Thị Nga
Nhóm bài tập : Nhóm 8
Trang 2I Danh sách các thành viên nhóm 8.
NHÓM: 8 Nhóm trưởng: Vương Tố Nga
2 Phạm Thị Minh Thư B23DCQT236 1m67
6 Nguyễn Thị Thúy Quỳnh B23DCMR284 1m6
7 Nguyễn Huyền Trang B23DCMR339 1m55
9 Nguyễn Thị Thùy Linh B23DCMR189 1m55
10 Trần Thị Thùy Trang B23DCMR349 1m50
Trang 3Câu 1 : Bằng phương pháp nghiên cứu tổng thể hãy:
- Cho biết chiều cao trung bình của sinh viên trong lớp của bạn.
- Tính độ lệch tiêu chuẩn của chiều cao sinh viên trong lớp.
- Tính tỷ lệ sinh viên có chiều cao từ 1.6m đến 1.65m.
- Tính tỷ lệ sinh viên có chiều cao 1.6m.
- Tính tý lệ sinh viên có chiều cao trên 1.65m.
LỜI GIẢI
1 công thức tính trung bình
μ = ΣX / N (i: 1->92)
μ = (X₁ + X₂ + ⋯ + X ) / Nₙ
μ =(1,63+1,61+1,56+ +1,96+1,7)/92
2 (Độ lệch tiêu chuẩn)^2 = Σ((xi - μ)²) / N
Trong đó:
- xi là giá trị của phần tử trong tập dữ liệu
- μ là giá trị trung bình của tập dữ liệu
- Σ là ký hiệu tổng
- N là số lượng phần tử trong tập dữ liệu
= Σ((xi - μ)²) / 92= Σ((xi - 1,642 )²) / 92 (i: 1->92)
μ
μ=1,642717391
(Độ lệch chuẩn)^2 0,007411094045
Độ lệch chuẩn 0,08608771135
Trang 4 Tỷ lệ sinh viên có chiều cao từ 1,6 đến 1,65; chiều cao 1,6 và lớn hơn 1,65 là:
Câu 2 : Bằng phương pháp nghiên cứu mẫu hãy cho biết chiều cao trung bình của sinh viên trong lớp của bạn và nêu phương pháp lấy mẫu mà bạn sử dụng.
LỜI GIẢI
Phương pháp lấy mẫu ngẫu nhiên đơn:
Căn cứ vào danh sách chiều cao các bạn sinh viên, sau 1 khoảng cách nhất định lại chọn ra một bạn làm đơn vị mẫu, sau đó cứ cách đều d đơn vị lại chọn
ra 1 bạn vào mẫu Cứ như vậy cho đến khi chọn đủ số đơn vị của mẫu.
Khoảng cách để chọn ra đơn vị mẫu:
d = N/n
Trong đó: N là số đơn vị tổng thể chung
n là số đơn vị của tổng thể mẫu
+) B1: Chọn ra chiều cao của 23 bạn trong một tập thể lớp có 92 bạn
+) B2: Tính khoảng cách d:
d = 92/23 = 4
+) B3: Như vậy trong 4 bạn đầu tiên sẽ lấy ngẫu nhiên chiều cao của 1 bạn nào đó (chẳng hạn như lấy chiều cao của bạn thứ 2 là 1m61, tiếp tục chọn các bạn tiếp theo với chiều cao là 1m56, 1m70, cho đến khi đủ 23 bạn)
+) B4: Tính chiều cao TB của 23 bạn
(161+156+170+164+154+ +160+150+177+170)/23= 162,2
>=1,6;<=1,6
0,347826087 0,1086956522 0,3695652174
Trang 5 Chiều cao TB của sinh viên trong lớp theo phương pháp chọn mẫu ngẫu nhiên đơn
Phương pháp lấy mẫu ngẫu nhiên phân tầng
Tổng thể
N= 92
Ph
Tìm xi ⇒ nixi = 7680
N= 46
ADCT tính trung bình mẫu
= 7680/46 = 166,9
Chiều cao TB của sinh viên trong lớp theo phương pháp chọn mẫu ngẫu nhiên phân tầng
Câu 3 : So sảnh giữa phương pháp nghiên cứu mẫu và phương pháp nghiên cứu tổng thể.
LỜI GIẢI
Phương pháp nghiên cứu mẫu:
Ưu điểm:
Tiết kiệm thời gian và chi phí: Nghiên cứu mẫu thường ít tốn kém
hơn so với nghiên cứu tổng thể, đặc biệt khi tổng thể rất lớn
Dễ thực hiện: Thu thập dữ liệu từ một mẫu nhỏ hơn thường dễ dàng
hơn so với việc thu thập dữ liệu từ toàn bộ tổng thể
Cung cấp kết quả nhanh chóng: Nghiên cứu mẫu cung cấp thông
tin chi tiết về một mẫu cụ thể trong một khoảng thời gian ngắn
Hạn chế:
Không phản ánh toàn bộ đại diện của tổng thể, kết quả có thể
không đại diện cho tổng thể
Trang 6 Nguy cơ sai số mẫu: Kích thước mẫu quá nhỏ có thể dẫn đến sai số
mẫu => kết quả nghiên cứu không chính xác
Khả năng tỏ ra không đại diện: Chọn mẫu không đại diện hoặc
phương pháp chọn mẫu không random => kết quả không chính xác
Phương pháp nghiên cứu tổng thể:
Ưu điểm:
Độ chính xác cao: Cung cấp thông tin về toàn bộ tổng thể, loại bỏ
hoặc giảm thiểu sai số mẫu
Đại diện chính xác: Kết quả từ nghiên cứu tổng thể có thể áp dụng
trực tiếp cho toàn bộ tổng thể mà không cần lo lắng về việc đại diện
Hạn chế:
Tốn kém về thời gian và chi phí: Thu thập dữ liệu từ toàn bộ tổng
thể thường đòi hỏi nhiều tài nguyên về thời gian, nhân lực và tài chính
Khó thực hiện: Đôi khi việc thu thập dữ liệu từ toàn bộ tổng thể có
thể gặp khó khăn do vấn đề về quy mô hoặc tính phức tạp của tổng thể
Giống nhau:
Mục đích: Thu thập dữ liệu và phân tích dữ liệu đất đưa ra kết luận về một vấn đề nghiên cứu
Phương tiện thu thập dữ liệu: bằng câu hỏi cuộc khảo sát, phỏng vấn, quan sát,
Phân tích dữ liệu: đều sử dụng phương pháp phân tích dữ liệu như thống kê, môt thống kê, suy luận, phân tích đa biến,
Độ chính xác: đều cần đảm bảo độ chính xác của dữ liệu thu thập, phân tích đất đưa ra kết luận chính xác
Độ đại diện: đều cần đảm bảo độ đại diện của mẫu hoặc tổng thể để đưa ra kết luận có tính khái quát
Ứng dụng: được sử dụng trong nhiều lĩnh vực khác nhau như kinh tế, y tế, giáo dục, khoa học xã hội,
Khác nhau
Phương pháp nghiên cứu tổng
Mục
đích
Để tìm hiểu toàn bộ tổng thể và
đưa ra kết luận chính xác hơn
Để đại diện cho tổng thể và giảm thiểu thời gian, chi phí
Cách
thức Các tham số đặc trưng của tổng thể có thể xác định được một Sử dụng các phương pháp toán học (đặc biệt là lý thuyết xác suất), người ta tiến
Trang 7cách trực tiếp hành suy rộng kết quả nghiên cứu trên
mẫu cho toàn bổ tổng thể
Số phần
tử
Chưa thể xác định được toàn bộ
phân tử của tổng thể
Xác định được số lượng phân tử cần phải nghiên cứu
Chất
lượng
phân tử
Nếu các phân tử của tập hợp bị
phá huỷ trong quá trình nghiên
cứu thì phương pháp nghiên cứu
toàn bộ trở thành vô nghĩa
Không bị ảnh hưởng nếu trường hợp bị phá huỷ thì ta có thể thay thế bằng phân
tử khác
Trường
hợp sử
dụng
- Khi tổng thể có kích thước nhỏ
hoặc có thể tiếp cận được
- Khi mục tiêu của nghiên cứu
là tìm hiểu đặc điểm của toàn bộ
tổng thể
- Khi độ chính xác của kết quả
là yếu tố quan trọng
- Khi có nhiều thời gian và chi
phí
- Khi tổng thể quá lớn, khó nắm bắt được hết các phân tử của tổng thể
- Khi không đủ thời gian và kinh phí để nghiên cứu tổng thể
- Trong một số trường hợp nếu dùng phương pháp nghiên cứu tổng thể sẽ dẫn đến phá huỷ tổng thể
Độ chính
xác
- Nếu quy mô của tổng thể quá
lớn có thể xảy ra trường hợp
trùng hoặc bỏ sót các phần tử,
sai sót trong quá trình thu thập
thông tin ban đầu, hạn chế độ
chính xác của kết quả phân tích
- Việc tiến hành mất nhiều thời
gian nên có thể không đảm bảo
được tính kịp thời của số liệu
thống kê
- Hạn chế được sự trùng lặp và sai số trong quá trình thu thập dữ liệu
- Vẫn đảm bảo được độ chính xác của kết quả, thu nhập được nhiều chỉ tiêu thống kê
- Không thể có mẫu đại diện cho tổng thể ở mọi khía cạnh Do đó luôn có sai sót sinh ra từ việc chọn mẫu
Chi phí,
thời gian - Tốn nhiều thời gian, chi phí, nhân lực, phương tiện
- Có thể không khả thi
- Sai sót khi thu thập có thể phá
huỷ tập hợp
- Tiết kiệm thời gian, chi phí
- Có thông tin nhanh hơn
- Chi phí cho công tác tổ chức nghiên cứu thấp, vì vậy phương pháp chọn mẫu nghiên cứu tiết kiệm được cả nhân lực, vật lực và tài chính
- Trong nghiên cứu chọn mẫu, khảo sát không nhiều đơn vị nghiên cứu nên thông thường chọn mẫu được tiến hành trong thời gian ngắn Dữ liệu được xử lý
và phân tích nhanh nên thông tin thu
Trang 8được từ hoạt động chọn mẫu có tính thời
sự, cập nhật
Độ đại
diện
- Đảm bảo độ đại diện cao
- Sai số đại diện với tổng thể =0
- Chỉ đảm bảo độ đại diện cao khi mẫu được lựa chọn một cách ngẫu nhiên và đại diện cho tổng thể
- Có sai số nhất định
Khả
năng áp
dụng
- Được áp dụng trong các nghiên cứu có quy mô nhỏ, đối tượng nghiên cứu đơn giản
- Có những trường hợp ta không thể xác định được toàn bộ N phân tử của tổng thể
- Được áp dụng trong các nghiên cứu từ nhỏ đến lớn, đối tượng nghiên cứu phức tạp hơn
Trong tình huống cụ thể, lựa chọn giữa hai phương pháp này thường phụ thuộc vào mục tiêu nghiên cứu, tài nguyên có sẵn và khả năng tiếp cận đối tượng nghiên cứu
Câu 4 : Phát biểu các định lý về luật số lớn và định lý giới hạn trung tâm Nếu sự hiểu biết của bạn về mỗi định lý Làm bài tập 4.20; 4.21; 4.22
LỜI GIẢI
A) PHÁT BIỂU CÁC ĐỊNH LÝ VỀ LUẬT SỐ LỚN VÀ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM.
Trang 9I Luật số lớn.
1 Hội tụ theo xác suất
Định nghĩa: Dãy các biến ngẫu nhiên X1, X2,… gọi là hội tụ theo xác suất về biến ngẫu nhiên X , ký hiệu Xn P
→ X, nếu:
∀ ε>0 n → ∞lim P{ |X n −X|>ε}=0 Như vậy, dãy các biến ngẫu nhiên X1, X2,… hội tụ theo xác suất về biến ngẫu nhiên X thì
với n đủ lớn, thực tế ta có thể coi rằng, Xn không khác mấy so với X
2 Luật số lớn Trêbưsép.
Định lý: Giả sử X1, X2,… là dãy các biến ngẫu nhiên độc lập, có các kỳ vọng hữu hạn và phương sai đều bị chặn trên bởi hằng số C (DXi≤ C; ∀ i=1,2, ) Khi đó:
lim
n → ∞ P(|X1+ + X n
n −EX1+ +EX n
n |>ε )=0
Chứng minh: Xét biến ngẫu nhiên Sn =X1+ + X n
n Từ giả thiết độc lập của dãy các biến ngẫu nhiên X1, X2,… ta suy ra ESn = EX1+ +EX n
n ; DSn = DX1+ +DX n
n2 ≤
C n
Áp dụng bất đẳng thức Trêbưsép cho biến ngẫu nhiên Sn ta có:
P(|X1+ + X n
n −EX1+ +EX n
n |>ε )≤ C
n ε2n → ∞
→
0
Hệ quả 1: Giả sử X1, X2,… là dãy các biến ngẫu nhiên độc lập có cùng có kỳ vọng µ và phương sai đều bị chặn trên bởi hằng số C (DXi≤ C ; ∀ i=1,2, ) Khi đó
X1+ + X n
n P → μ
Hệ quả 2: Giả sử X1, X2,… là dãy các biến ngẫu nhiên độc lập có cùng phân bố, có kỳ vọng µ và phương sai σ2 Khi đó:
X1+ + X n
n P → μ
Ứng dụng:
-Định lý trebusep có ứng dụng rộng rãi trong nhiều lĩnh vực
Trang 10-Nó chính là cơ sở cho phương pháp đo lường trong vật lý Để xác định giá trị của 1 đại lượng vật lý nào đó ngta thường tiến hành đo n lần độc lập và láy trung bình số học của các kết quả đo làm giá trị thực của đại lượng cần đo
-Nó còn là cơ sở cho phương pháp mẫu ứng dụng trong thống kê
3 Luật số lớn Bernoulli
Xét phép thử ngẫu nhiên C và A là một biến cố liên quan đến phép thử C Tiến hành phép thử C n lần độc lập phép thử và gọi kn là tần số xuất hiện biến cố A trong n phép thử đó
f n=k n
n được gọi là tần suất xuất hiện của A trong n phép thử
Định lý: Tần suất f n hội tụ theo xác suất về xác suất p của biến cố A , nghĩa là với mọi ε > 0
lim
n → ∞ P{ |f n − p|<ε}=1
Chứng minh: Xét dãy các biến ngẫu nhiên X1, X2,…,Xn xác định như sau:
Xk = { 1 nếu A xảy ra ở phép thử thứ k
0 nếu A không xảy ra ở phép thử thứ k
ta gọi dãy các biến ngẫu nhiên X1, X2,…,Xn độc lập có cùng phân bố không – một A(p)
EXk = p, DXk = p(1-p)
Ta có: X1+ + X n
n =k n
n =f n
f n hội tụ theo xác suất về p
4.Ứng dụng.
- Quy luật số lớn có tác dụng rất quan trọng trong nhiều lĩnh vực khác nhau, từ kinh tế học
và tài chính đến y tế, khoa học và kỹ thuật Việc hiểu rõ về quy luật này giúp chúng ta đánh giá và dự đoán kết quả, kiểm tra tính đúng đắn của kết luận và cung cấp cho chúng ta một công cụ quan trọng để phân tích dữ liệu
- Quy luật số lớn cũng có tác dụng quan trọng trong việc đánh giá rủi ro và dự đoán kết quả trong các lĩnh vực khác như tài chính, y tế, khoa học và kỹ thuật
-Trong khoa học, nó có thể áp dụng để phân tích dữ liệu lớn và đưa ra dự đoán về các hiện tượng tự nhiên
Trang 11B) Định lý giới hạn trung tâm
1.Định lý (Moivre-Laplace) : Giả sử X1,X2,… là dãy các biến ngẫu nhiên độc lập có cùng phân bố, có kỳ vọng µ và phương sai σ2
Khi đó dãy biến ngẫu nhiên Sn = X1+ + X n −nμ
σ√n hội tụ theo phân bố về phân bố chuẩn tắc N(0;1), nghĩa là:
Với mọi x∈ R , lim
n → ∞ P{S n < x}=Φ(x)
Φ ( x) là hàm phân bố xác suất của phân bố chuẩn tắc N(0;1)
Áp dụng định lý giới hạn trung tâm cho dãy các biến ngẫu nhiên độc lập X1,X2,… có cùng phân bố không – một A(p) ta được định lý Moivre –Laplace:
Dãy các biến ngẫu nhiên X1,X2,… độc lập có cùng phân bố không – một A(p) ta được:
Với mọi x ∈ R , lim
n → ∞ P{X1+ + X n −np
√npq <x}=Φ( x )
2 Ứng dụng:
-Tính xác suất trong phân phối nhị thức B (n , p)
-Tính xác suất để trung bình mẫu của một biến ngẫu nhiên bất kỳ có kỳ vọng μ và độ lệch chuẩn σ nhận giá trị trong khoảng nào đó
-Tìm khoảng tin cậy cho kỳ vọng của một biến ngẫu nhiên có luật phân phối bất kỳ khi mẫu lớn
-Sử dụng trong kiểm định giả thiết thống kê
- Định lý giới hạn trung tâm có vai trò quan trọng trong việc xác định phân phối xấp xỉ của một biến ngẫu nhiên Nó cho phép xác định xác suất xảy ra của một sự kiện dựa trên mẫu ngẫu nhiên có kích thước lớn
- Kinh tế học: CLT được sử dụng trong phân tích kinh tế và tài chính để đưa ra kết luận
về phân phối xấp xỉ của các biến quan trọng như thu nhập, giá cả và lợi nhuận
- Kế toán: Định lý giới hạn trung tâm cũng có ứng dụng trong lĩnh vực kế toán và kiểm toán Nó giúp xác định xác suất sai lệch trong kiểm soát tài chính và giúp đưa ra quyết định về tiến trình kiểm toán
- Y học: Trong y học, CLT được sử dụng để xác định phân phối xấp xỉ của các biến y tế như chiều cao, cân nặng, huyết áp trong các nghiên cứu lâm sàng
Trang 12BÀI TẬP:
4.20 Một xí nghiệp sản xuất máy tính có xác suất làm ra sản phẩm phế phẩm là 0,02
Chọn ngẫu nhiên 250 máy tính để kiểm tra Tính xác suất để:
a) Có đúng hai máy phế phẩm;
b) Có không quá hai máy phế phẩm
Giải:
Gọi X là số sản phẩm hỏng
Ta có X ~ B (250;0,02) X sẽ có xấp xỉ phân bố Poisson với λ = 250⋅0,02 = 5
Từ đó tra bảng ta được:
a) P{X=2}= 0,0842
b) P{X≤ 2}=P{X=0}+P{X=1}+P{X=2} = 0,1247
4.21 Một nhà nghỉ có 1000 khách Nhà ăn phục vụ bữa trưa làm hai đợt liên tiếp Số chỗ
ngồi của nhà ăn phải ít nhất là bao nhiêu để xác suất của biến cố “không đủ chỗ cho người đến ăn” bé hơn 1%?
Giải:
Giả sử X là số người chọn ăn ở đợt 1
Khi đó 1000 − X là số người chọn ăn ở đợt 2
Gọi k là số chỗ ngồi trong nhà ăn Ta phải chọn k nhỏ nhất để
P{X < k, 1000 − X < k} ≥ 0,99
⇔ P{1000 − k < X < k}≥ 0,99
Ta xem X có phân bố chuẩn với µ = 500 , σ = √250 Vậy ta phải có:
Φ (k−500
√250 )−Φ(500−k
√250 )≥ 0 ,99⇔2Φ (k−500
√250 )≥1,99⇔ Φ(k−500
√250 )≥ Φ(2,58)
Từ đó k≥ 500 +2,58√250=540 , 49
Vậy k = 541
4.22 Một trường đại học có chỉ tiêu tuyển sinh là 300.
a) Giả sử có 325 người dự thi và xác suất thi đỗ của mỗi người là 90% Tính xác suất để
số người trúng tuyển không vượt quá chỉ tiêu
Trang 13b) Cần cho phép tối đa bao nhiêu người dự thi (xác suất đỗ của họ vẫn là 90%) để biến cố
“số người trúng tuyển lớn hơn 0,99
Giải:
a)Gọi X là số người trúng tuyển
Giả sử có 325 người dự thi, mỗi người có xác suất thi đỗ là 90% => p = 0.9
Số người trúng tuyển X tuân theo phân phối nhị thức A(n=325, p=0,9)
Ta có μ= np = 292,5
σ2= 5.41
Để số người trúng tuyển không vượt quá chỉ tiêu 300
=> P (X≤ 300)
Ta có
P(X−295.2
5.41 ≤
300−295.2 5.41 ) Z= 300−295.25.41 =1.387
Mà P(Z≤ 1.387)
=> Xác suất để số người trúng tuyển không vượt quá chỉ tiêu là khoảng 91.77%
b) Giả sử số lượng thí sinh là n và X∼B(n,p=0.9
Đối với xấp xỉ chuẩn: P(√0.9∗0.1∗nX −0.9 n >
300−0.9 n
√0.9∗0.1∗¿n)<0.01
Ta có pt
300−0.9 n
√0.9∗0.1∗¿n = -2.33
n≤ 319.99
Vậy n=319