Một số khái niệm có liên quan ñến lý thuyết xác suất Xác suất Probability là một giá trị bằng số, nó diễn tả mức ñộ không chắc chắn khi xem xét sự xuất hiện của một biến cố nào ñó.. Tậ
Trang 1TRƯỜNG ðẠI HỌC NHA TRANG
Trang 2Tài liệu học
1 Bài giảng Thiết kế và phân tắch thắ nghiệm Ờ đặng Thị Thu Hương
2 đặng Văn Giáp Phân tắch dữ liệu khoa học bằng chương trình MS- Excel NXB giáo dục-
1997
5 Tài liệu tham khảo:
I TIẾNG VIỆT
1 Nguyễn Cảnh Quy hoạch thực nghiệm.Trường ựại học bách khoa Tp HCM 2004
2 Nguyễn Cảnh- Nguyễn đình Soa Tối ưu hoá thực nghiệm trong hoá học và kỹ
thuật hoá học.Tài liệu dịch- Trường ựại học kỹ thuật Tp Hồ Chắ minh 1994
3 Phạm Hiếu Hiền Phương pháp bố trắ thắ nghiệm và xử lý số liệu NXB nông
nghiệp - Tp Hồ Chắ Minh 2001
4 Phạm Văn Lang- Bạch Quốc Khang Cơ sở lý thuyết quy hoạch thực nghiệm và
ứng dụng trong kỹ thuật nông nghiệp NXB nông nghiệp Hà Nội- 1998
5 Chu Văn Mẫn Ờ đào Hữu Hồ Thống kê sinh học NXB khoa học và kỹ thuật Ờ 2001
II TIẾNG ANH
1 W Michael Kelly and Robert A Donnelly Jr.2009 The humongous book of statistic
problems
2 D Brynn Hibbert and J Justin Gooding 2006 Data Analysis for Chemistry
3 John A Bower 2009 Statistical Methods for Food Science
Trang 3CHƯƠNG 1 THU THẬP VÀ TRÌNH BÀY SỐ LIỆU
1.1.Tổng thể và mẫu
1.1.1.Tổng thể (population, ñám ñông )
Là toàn bộ tập hợp các phần tử ñồng nhất theo một dấu hiệu nghiên cứu ñịnh tính hoặc ñịnh lượng nào ñó (là tập hợp các ñối tượng có chung một tính chất nào ñó mà chúng ta ñang quan tâm) Số lượng các phần tử của tổng thể ñược gọi là kích thước của tổng thể, ký hiệu N
Dấu hiệu ñịnh lượng: là những dấu hiệu quan sát cho những giá trị bằng số
Dấu hiệu ñịnh tính: là những dấu hiệu quan sát cho những tính chất
1.1.2 Mẫu (sample)
Từ tổng thể N phần tử chọn ra một tập hợp con n phần tử và chỉ tập trung nghiên cứu n phần tử ñó ñể rút ra những kết luận về tổng thể thì tập hợp con ñó ñược gọi là mẫu Số phần tử của mẫu ñược gọi là kích thước mẫu, ký hiệu n Các thí nghiệm ñược tiến hành trên mẫu, kết quả thu ñược qua xử lý thống kê ñể suy rộng ra cho cả tổng thể
Lý do ñể chúng ta tiến hành nghiên cứu trên mẫu chứ không phải trên tổng thể là do:
- Quy mô của tập hợp quá lớn, việc nghiên cứu toàn bộ sẽ ñòi hỏi nhiều chi phí vật chất và thời gian
- Quy mô của tập hợp quá lớn vì vậy có thể xảy ra trường hợp tính trùng hoặc bỏ sót các phần tử của nó
- Quy mô nghiên cứu lớn nhưng trình ñộ tổ chức nghiên cứu lại hạn chế dẫn ñến sai sót trong quá trình thu thập thông tin ban ñầu, do ñó hạn chế ñộ chính xác của kết quả phân tích
- Nếu các phần tử của tập hợp bị phá huỷ trong quá trình nghiên cứu thì phương pháp
nghiên cứu toàn bộ trở thành vô nghĩa
Do ñó phương pháp nghiên cứu toàn bộ thường chỉ áp dụng ñối với tập hợp các phần tử có quy mô nhỏ, còn chủ yếu là áp dụng phương pháp nghiên cứu không toàn
bộ ñặc biệt là phương pháp chọn mẫu
Phương pháp nghiên cứu chọn mẫu: Là phương pháp chọn ra một tập hợp các phần
tử từ tổng thể nghiên cứu, phân tích các tổng thể này và dựa vào ñó mà mà suy ra các
Trang 4lý bằng phương pháp xác suất thì các kết luận sẽ thu ñược một cách nhanh chóng, ñỡ tốn kém mà vẫn bảo ñảm ñộ chính xác cần thiết
Do ñặc ñiểm là mẫu có kích thước hữu hạn n<<N nên những kết luận ñược suy
ra từ mẫu cho tổng thể sẽ có một sai số (gọi là sai số do chọn mẫu) Thường có hai nguyên nhân dẫn ñến sai số do chọn mẫu:
- Kích thước mẫu quá nhỏ so với tổng thể
- Phương pháp chọn mẫu không khách quan
⇒ Do vậy chúng ta phải có phương pháp chọn mẫu phù hợp và kích thước mẫu phải
ñủ lớn ñể ñạt ñược ñộ tin cậy
Các phương pháp chọn mẫu:
- Chọn mẫu ngẫu nhiên ñơn giản
- Chọn mẫu ngẫu nhiên phân tầng
- Chọn mẫu ngẫu nhiên hệ thống
- Chọn mẫu cụm
Thông tin ñầu tiên và nhiều khi cũng là thông tin duy nhất mà chúng ta dựa vào
ñể nghiên cứu, phân tích chính là các kết quả quan sát có ñược vì vậy các kết quả này
phải ñảm bảo tính chính xác, tính ngẫu nhiên của nó, phải là các ñại diện một cách trung thực cho hiện tượng hoặc cho ñại lượng mà chúng ta ñang nghiên cứu
Xuất phát từ thông tin sai lệch thì các kết luận nhận ñược sẽ phản ánh không
ñúng hiện tượng nghiên cứu thậm trí còn làm cho ta nghi ngờ ngay cả tính hiệu quả của
phương pháp chúng ta sử dụng Do vậy trước tiên ta quan tâm ñến việc thu thập thông tin ban ñầu
Việc thu thập thông tin phải ñảm bảo các yêu cầu sau
- Các quan sát ñộc lập hay phép thử ñộc lập: các quan sát (phép thử) ñược tiến hành một cách ñộc lập với nhau, kết quả của phép thử (quan sát) này không phụ thuộc vào kết quả của phép thử (quan sát) khác và cũng không ảnh hưởng ñến khả năng xảy ra kết quả của phép thử (quan sát) khác
- Các phép thử lặp: các phép thử ñược tiến hành trong các ñiều kiện hoàn toàn như nhau
Trang 51.2 Thu thập số liệu
Là quá trình cân, ñong, ño, ñếm trên các mẫu ñược chọn Trong quá trình thu thập
số liệu thường gặp các loại sai số sau:
* Sai số thô: Là sai số phát sinh khi phạm các ñiều kiện cơ bản của việc thu thập số
liệu do sự bất cẩn của người làm công tác thu thập số liệu hoặc sử dụng sai phương pháp lấy số liệu do chọn mẫu không ñúng phương pháp Loại sai số này không ñược chấp nhận trong thống kê, vì vậy phải ñựơc loại bỏ
* Sai số hệ thống: Loại sai số này không ñổi trong một loạt ño và thay ñổi theo một quy luật
nhất ñịnh Sai số này phát sinh là do phương pháp hoặc do dụng cụ thu thập số liệu Trong thống kê có thể chấp nhận loại sai số này nhưng phải ñược hiệu chỉnh trước khi tính toán thống kê
* Sai số ngẫu nhiên: Là những sai số của phép ño còn lại sau khi ñã loại bỏ sai số hệ
thống và sai số thô ðây là những sai số bắt buộc có trong quá trình thu thập số liệu mà con người không hạn chế ñược nó, chính vì vậy mà nó ñược chấp nhận trong thống kê
1.3.Trình bày số liệu
Sau khi ñiều tra thống kê chúng ta thu thập ñược hàng loạt thông tin (gọi là dữ liệu ban ñầu hay dữ liệu thô, gốc) Tuỳ theo mục ñích nghiên cứu mà có cách xử lý số liệu gốc khác nhau
ðể những thông tin này có tác dụng cần sắp xếp chúng theo trật tự nhất ñịnh (theo kiểu có ý nghĩa).Việc sắp xếp này giúp cho chúng ta có một sự ñánh giá chung về phân phối dữ liệu, sơ bộ phát hiện ra các ñặc ñiểm của mẫu nghiên cứu làm cơ sở cho việc ñưa ra những quyết ñịnh ñúng ñắn
Các cách trình bày số liệu gốc
1.3.1.Trình bày số liệu dưới dạng các bảng mô tả
• Bảng mô tả ñặc tính ñịnh tính
• Bảng mô tả ñặc tính ñịnh lượng
1.3.2 Trình bày số liệu thống kê bằng biểu ñồ
Biểu ñồ là một hình ảnh cho phép thấy toàn bộ số liệu, những nét ñặc trưng của tập hợp mẫu, những sự kiện ñáng chú ý, gợi cho người nghiên cứu những ñiều cần so
Trang 6phép phát hiện nhanh các biến thiên bất thường hoặc một sự gián ñoạn ñột ngột ở chiều hướng tiến triển của sự kiện
Khi trình bày số liệu bằng biểu ñồ phải theo nguyên tắc:
- Biểu ñồ phải rõ ràng, không rườm rà, bỏ qua chi tiết không cần thiết
- Những chỉ dẫn trên biểu ñồ phải ñược hiểu dễ dàng
- Chú ý ñơn vị ño của biểu ñồ, cách phân biệt các thành phần khác nhau của biểu
ñồ bằng màu sắc, ký tự
Có hai loại biểu diễn: biểu ñồ và ñồ thị
Biểu ñồ: biểu ñồ hình chữ nhật, biểu ñồ hình quạt và biểu ñồ ñường gấp khúc
ðồ thị có thể là tuyến tính (ñường bậc 1) hoặc phi tuyến (parabol, quả chuông …)
CHƯƠNG II MÔ TẢ DỮ LIỆU THỐNG KÊ
(Descriptive Statistics)
ðể có thể cô ñọng và nhanh chóng nắm bắt ñược những thông tin quan trọng
chứa ñựng trong mẫu, người ta ñưa ra một vài chỉ số gọi là chỉ số ñăc trưng (giá trị ñặc trưng hay ñại lượng thống kê tóm lược )
2.1 ðộ tập trung
Các số ñặc trưng cho chúng ta là một hình ảnh về vị trí trung tâm của mẫu tức
là về xu thế các số liệu trong mẫu tụ tập xung quanh các con số nào ñó Thường quan tâm ñến các số ñặc trưng sau: trung bình mẫu, trung vị, mode
2.1.1.Trung bình mẫu (sample mean)
X n
X = 1∑ i=1÷m +++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp
Trang 7
i
i X f n
X =1∑ i = 1 ÷k Xi: trung ñiểm của lớp thứ i
• Trung bình nhân
n n
i
n
x x x
1
1 2
n
i i bp
2 + +
=
n n e
x x m
++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn X nhận m giá trị khác nhau
Xi ñược gọi là số trung vị sao cho i là chỉ số bé nhất ñể f1+f2+… +fi≥ n/2
+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp
Khi ñó khoảng Ci ñược gọi là
khoảng trung vị nếu i là chỉ số bé nhất ñể f1+f2+… +fi≥ n/2
Số trung vị là số mà tại ñó ñường thẳng x = me chia ñôi diện tích của tổ chức ñồ tần số
Số trung vị luôn luôn nằm trong khoảng trung vị
Trang 8f
S n h x
m
1 min 2− −
∗+
=
xme min: cận dưới của khoảng chứa trung vị
h: bề rộng khoảng
n: kích thước mẫu n=∑ f i
S me -1 : tổng tần số của các lớp ñứng trước lớp (khoảng ) chứa trung vị
fme: tần số của lớp (khoảng) chứa trung vị
0 0
0 min
−
−
∗+
=
M M M
M
M M m
f f f
f
f f h
x
xM0min: cận dưới của khoảng chứa mode (khoảng có tần số fi lớn nhất)
h: bề rộng khoảng
fM0 :tần số của khoảng chứa mode
f Mo-1: tần số của khoảng trước khoảng chứa mode
f M0+1: tần số của khoảng sau khoảng chứa mode
ðây là một chỉ tiêu thường ñược chú ý trong các bài toán về kinh tế
2.2 ðộ phân tán
Là các số ñặc trưng cho chúng ta một hình ảnh về mức ñộ phân tán của các số liệu, ñộ biến ñộng của các số liệu.Thường quan tâm tới: biên ñộ (khoảng biến thiên),
ñộ lệch tuyệt ñối trung bình, phương sai, ñộ lệch chuẩn
2.2.1.Khoảng biến thiên (range)
R= x max - x min
Trang 9Khi khoảng biến thiên càng nhỏ thì giá trị trung bình ñại diện càng tốt
2.2.2 ðộ lệch tuyệt ñối trung bình (Mean Abrolate Deviation)
+ Số liệu mẫu gồm n giá trị rời rạc ñược sắp xếp theo thứ tự tăng dần
i
i x f x n
i
i x f x n
S
2 1
= i = 1 ÷k Xi:trung ñiểm của lớp thứ i
2.2.4 ðộ lệch chuẩn (Standard deviation)
Trang 10CHƯƠNG III ƯỚC LƯỢNG CÁC THAM SỐ ðẶC TRƯNG CỦA TỔNG THỂ
3.1 Một số khái niệm có liên quan ñến lý thuyết xác suất
Xác suất (Probability) là một giá trị bằng số, nó diễn tả mức ñộ không chắc
chắn khi xem xét sự xuất hiện của một biến cố nào ñó
Phép thử (trial) hay là thí nghiệm ngẫu nhiên: Việc thực hiện một nhóm các
ñiều kiện cơ bản ñể quan sát một hiện tượng nào ñó có thể xảy ra hay không ñược gọi
là thực hiện một phép thử hay một thí nghiệm ngẫu nhiên
Biến cố (event) :Hiện tượng có thể xảy ra trong kết quả của phép thử ñó ñược
gọi là biến cố
Ví dụ: kết quả sấp
gieo ñồng xu: (event)
(trial) ngửa
Biến cố sơ cấp (elementary event): Là biến cố không thể phân chia ñược nữa
Không gian mẫu (sample space): Là tập hợp các biến cố sơ cấp
Tập hợp các biến cố sơ cấp trong không gian mẫu theo qui ñịnh riêng của chúng ta gọi
là event set (những biến cố có cùng tính chất).Ví dụ: {1,2,3,4,5,6… }
Số biến cố trong không gian mẫu gọi là kích thước của không gian mẫu (size of sample space)
Một biến cố chỉ có thể xảy ra khi một phép thử gắn liền với nó ñược thực hiện Thực tế
có các loại các biến cố sau
- Biến cố chắc chắn (certain event): Là biến cố nhất ñịnh xảy ra khi thực hiện một phép thử
- Biến cố không thể (impossible event): Là biến cố nhất ñịnh không xảy ra trong một phép thử
- Biến cố ngẫu nhiên (random event): Là biến cố có thể xảy ra hoặc không xảy ra khi thực
hiện một phép thử
3.1.1 Các ñịnh nghĩa cơ bản về xác suất
3.1.1.1 ðịnh nghĩa xác suất theo quan ñiểm cổ ñiển
n
m
A)=
Pr( với n là số trường hợp cùng khả năng m là số trường hợp thuận lợi ñể biến cố A xảy ra
Ví dụ: có mười sản phẩm trong ñó có 3 phế phẩm Lấy ngẫu nhiên một sản phẩm Tính
xác suất ñể sản phẩm lấy ñược là phế phẩm
Trang 11G ọi A là biến cố sản phẩm lấy ñược là phế phẩm.
10
3)Pr(A =
3.1.1.2 ðịnh nghĩa xác suất theo quan ñiểm thống kê
Tần suất: tần suất xuất hiện của biến cố A là tỷ lệ giữa số phép thử trong ñó biến
cố A xảy ra và tổng số phép thử ñược thực hiện
Pr -1Pr(A)
0event) impossible
(
Pr
1event)certain
(
Pr
1)Pr(
Thường có hai loại xác suất:
- Xác suất khách quan (objective probability) dựa vào kinh nghiệm,sự hiểu biết về phép thử
- Xác suất chủ quan (subjective probability) không thể ñánh giá bằng khách quan, buộc
lòng phải dựa vào chủ quan
3.1.2 Các quy tắc tính xác suất
3.1.2.1 Quy tắc cộng (Addition Law)
- Biến cố xung khắc: Hai biến có A và B gọi là xung khắc với nhau nếu chúng không
bao giờ xảy ra ñồng thời
- Hợp của hai biến cố (union of events): Là biến cố xảy ra nếu có ít nhất một trong
hai biến cố A,B xảy ra Ký hiệu: A+B, A or B, A U B
P ∪ = + (Nếu A và B xung khắc ) Nếu A và B không xung khắc thì
A*B biến cố cả A và B ñồng thời xảy ra
3.1.2.2 Quy tắc nhân (Multiplication Law)
- Biến cố ñôc lập (independent events): A và B là hai biến cố ñộc lập nhau nếu việc
xảy ra hoặc không xảy ra của biến cố này không ảnh hưởng tới xác suất của biến cố
kia Trường hợp ngược lại thì người ta gọi là biến cố phụ thuộc (dependent events)
Ký hiệu: A*B, A and B, Khi A và B ñộc lập thì P (A and B) = P(A)* P(B)
Trang 12- Xác suất có ñiều kiện (conditional probability): Xác suất của biến cố A ñược tính
với giả thiết biến cố B ñã xảy ra ñược gọi là xác suất có ñiều kiện của biến cố A với
ñiều kiện B Ký hiệu: P (A/B)
Quy tắc nhân tổng quát: A và B là 2 biến cố bất kỳ
P(A*B) = P(A)*P(B/A), A và B ñộc lập: P(B/A) = P (B)
3.1.3 Biến ngẫu nhiên và quy luật phân phối xác suất
(random variable and probability distribution)
3.1.3.1 ðịnh nghĩa và phân loại
Biến ngẫu nhiên là ñại lượng mà trong kết quả của phép thử nó thay ñổi và thay
ñổi với một xác suất xác ñịnh
Có hai loại biến ngẫu nhiên (BNN):
- Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên gọi là rời rạc nếu các giá trị mà nó có thể
nhận lập nên một tập hợp hữu hạn hoặc ñếm ñược (nói cách khác là ta có thể liệt kê
ñược tất cả các giá trị có thể có của nó)
- Biến ngẫu nhiên liên tục: Biến ngẫu nhiên gọi là liên tục nếu các giá trị mà nó có thể
nhận lấp ñầy một hay nhiều khoảng của trục số thậm trí lấp ñầy toàn bộ trục số
Vd: Xét phép thử gieo xúc sắc Gọi X: là số chấm xuất hiện trên mặt xúc sắc, X là BNN rời rạc Y: thời gian hoạt ñông của một bóng ñèn, Y là BNN liên tục
3.1.3.2 Quy luật phân phối xác suất
@1 BNN rời rạc
a Bảng phân phối xác suất
Bảng cho biết sự tương ứng giữa các giá trị có thể có của biến ngẫu nhiên và các xác suất tương ứng của nó gọi là bảng phân phối xác suất
n i
x x p
,1
)(
=
=
=
ðiều kiện của bảng phân phối xác suất p i ≥0,∀i,∑p i =1
b Các giá trị ñặc trưng của BNN rời rạc
Trang 13+ Kỳ vọng (expected value): chính là giá trị trung bình khi n→∞ E( )X =∑x i∗p( )x i
+ Phương sai (variance): 2 = ( )X =∑ [x i −E( )x ]2 ∗p( )x i
var
σ
+ ðộ lệch chuẩn (standard deviation) σ = σ2 ñộ lệch chuẩn của tổng thể
Ý nghĩa của:
Kỳ vọng: chính là giá trị mong ñợi, nó gần bằng trung bình số học của các giá trị quan
sát của BNN khi số phép thử gần ñến vô cùng Nó phản ánh giá trị trung tâm của phân phối xác suất của BNN
Phương sai: phản ánh mức ñộ phân tán của các giá trị của BNN xung quanh giá trị
trung tâm của nó là kỳ vọng toán Trong thực tế phương sai ñặc trưng cho mức ñộ phân tán của các chi tiết gia công hay sai số của thiết bị (trong kỹ thuật) mức ñộ rủi ro của các quyết ñịnh trong quản lý kinh doanh)
ðộ lệch chuẩn: ðơn vị ño của phương sai bằng bình phương ñơn vị ño của BNN Vì
vậy khi cần phải ñánh giá mức ñộ phân tán của BNN theo ñơn vị ño của nó người ta thường tính ñộ lệch chuẩn chứ không phải là phương sai vì ñộ lệch chuẩn có cùng ñơn
vị ño với BNN cần nghiên cứu
@2 Biến ngẫu nhiên liên tục
a Hàm mật ñộ xác suất
ðối với biến ngẫu nhiên liên tục, xác suất ñể nó nhận một giá trị cụ thể nào ñó
luôn luôn bằng 0 Có nghĩa là với mọi a, P (X = a) = 0
Do vậy mà với biến ngẫu nhiên liên tục người ta chỉ quan tâm tới xác suất ñể nó nhận giá trị trong một khoảng nào ñó Xác suất này ñược quyết ñịnh bởi một hàm gọi
là hàm mật ñộ xác suất
ðể ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên liên tục người
ta dùng hàm mật ñộ xác suất
ðịnh nghĩa: Hàm mật ñộ xác suất của biến ngẫu nhiên liên tục X ký hiệu là f(x) là ñạo
hàm bậc nhất của hàm phân bố xác suất của biến ngẫu nhiên ñó
Trang 14( ) ( ) ( )
( )
P b a
dx x f x
x f
x F x f
*)
(
*
σσ
µσ
X Var
dx x f x X
E
b Hàm phân bố xác suất
Nếu như bảng phân bố xác suất ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên rời rạc và hàm mật ñộ xác suất ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên liên tục thì hàm phân bố xác suất ñược dùng cho cả biến ngẫu nhiên rời rạc và liên tục
i P x
F
x X P x F
Thực chất hàm phân bố xác suất là hàm xác suất tích lũy
Tính chất của hàm phân phối
Trang 15( ) ( ) ( )
( )x dx f x F
F x F
F x F
a F b F b X a P
x F
x x x
0,
0lim
1,
1lim
1)(0
Hàm phân bố xác suất phản ánh mức ñộ tập trung xác suất ở về phía bên trái một số thực x nào ñó X là biến ngẫu nhiên liên tục thì hàm phân bố xác suất của nó liên tục và khả vi tại mọi ñiểm của X ðồ thị của nó là một ñường cong liên tục
X là biến ngẫu nhiên rời rạc thì ñồ thị hàm phân bố xác suất của nó có dạng bậc thang với số ñiểm gián ñoạn bằng số giá trị có thể có của X
Trong thống kê có nhiều hàm xác suất thường dùng, mỗi hàm là một công thức toán với một vài thông số ñặc trưng Ta gọi mỗi công thức ñó là một mô hình xác suất Người ta sử dụng các mô hình ñó ñể suy diễn các kết quả thí nghiệm Người dùng thống kê như một công cụ không nhất thiết phải nhớ công thức mà chỉ cần biết ñiều kiện nào thì sử dụng mô hình nào là phù hợp
• Một số phân phối thường gặp và ứng dụng trong thực tế
@ 1 Phân bố nhị thức (binominal distribution)
Xét quá trình Bernoully:
Mỗi thí nghiệm ngẫu nhiên ñược xem là một phép thử và quá trình này là một loạt các phép thử, ñối với mỗi phép thử kết quả của nó là một trong hai biến cố sơ
cấp bù nhau thành công và không thành công A hoặc không A Xác suất ñể cho biến
cố thành công xảy ra là một hằng số ñối với mọi phép thử P(A)=const Các biến cố thành công trong các phép thử là ñộc lập với nhau
Gọi X là số lần biến cố A xuất hiện trong lược ñồ Bernoully thì X có phân phối nhị thức với hai tham số n, p Ký hiệu
Trang 16p n X
E p n b X
K X P K
X P
K X P X
P X
P K X P
n k p p
C K X P P
n X
p n b X
k n k
k n k
=+
10
,0,1
2,1,
2
σ
µ
Mode: nếu (n*p - q) không nguyên: n∗p−q≤M0 ≤n∗p+q
nếu (n*p - q) nguyên: Mod= (n*p - q) và (n*p - q + 1), p = 1- q
@ 2.Mô hình phân bố chuẩn (normal distribution)
ðây là mô hình quan trong nhất trong thống kê, thường áp dụng với biến số liên tục
ðịnh nghĩa: Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (-∞, +∞) gọi là có phân phối chuẩn với các tham số µ,σ2
X E
Khi µ tăng thì ñồ thị dịch chuyển sang phải và ngược lại σ tăng thì ñồ thị thấp xuống
và phình ra, σ giảm thì ñồ thị cao lên và nhọn
πσ
@ 3 Mô hình phân bố chuẩn hóa (Normal Standard distribution)
ðịnh nghĩa: Biến ngẫu nhiên Z nhận các giá trị trong khoảng (-∞, +∞) ñược gọi là có phân phối chuẩn hóa X∼N(0,1) nếu hàm mật ñộ xác suất của nó có dạng
2
*2
e z
Trang 17khi ñó Φ( )z =P[Z ≤z] Ta có thể tính xác suất liên quan ñến X bằng cách ñưa nó về một biến cố liên quan tới Z rồi tra bảng:
µσ
µσ
Z P a
x P a X P
Người ta ñã lập bảng tính sẵn các giá trị của hàm Φ(z) Trường hợp z < 0: có thể tra bảng hoặc dùng công thức Φ(-z) = 1- Φ(z) Tra Φ(z) dùng bảng Laplace
µσ
µσ
Z
a P b X a P
+ Phân vị mức αααα (0<αααα<1) của phân bố chuẩn hóa Z ký hiệu zα là một số thỏa mãn ñẳng thức
α α α α
−
=Φ
=Φ
1
z z
z Z P
z Z P
@ 4 Hàm phân bố Student (T)
ðịnh nghĩa: ðại lượng ngẫu nhiên T ñược gọi là có phân bố Student với n bậc tự do (n
là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng
1 2
12
n
n x
ðịnh nghĩa: ðại lượng ngẫu nhiên χχχχ2
ñược gọi là có phân bố Khi bình phương với n
bậc tự do (n là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng
X
1
2 2
221
0
n x x e n x
Trang 18@ 6 Hàm phân bố Fisher (F)
ðịnh nghĩa: ðại lượng ngẫu nhiên F được gọi là cĩ phân bố Fisher với (n1,n2)bậc tự
do nếu hàm mật độ của nĩ cĩ dạng
x≤0 x>0
2
2 2 1 1
2 2
2 2 1
2 1
2 2 2 1 2 1
2 1
2 1
222
n
Y Y n
X X
X F
n n
n n n n C
n n
n n
+
++
3.2 Ước lượng các tham số đặc trưng của tổng thể
Ước lượng là dựa vào các đặc trưng trên mẫu để dự đốn giá trị cho các đặc
trưng của tổng thể
Nếu gọi θ’
là đặc trưng trên mẫu và θ là đặc trưng của tổng thể thì
- θ’
chính là ước lượng điểm cho đặc trưng θ
- cịn θ’ ±ε chính là khoảng ước lượng cho đặc trưng θ
3.2.1 Ước lượng giá trị trung bình của tổng thể
• Phương sai σσσσ2
đã biết
n z
2 2
2 1 1
0
n n n
x n n
x C
x f
Trang 19Ớ Phương sai σσσσ2
chưa biết, n<30
Giả sử khi nghiên cứu trên mẫu về một ựặc tắnh nào ựó, từ kết quả của mẫu tắnh
ựược giá trị trung bình, và ựộ lệch chuẩn Tức là từ n →X,S)
muốn biết ựược trị số trung bình của tổng thể (ộ) có hai trường hợp
- Ước lượng ựiểm: X chắnh là ước lượng ựiểm cho ộ
- Ước lượng khoảng cho ộ là Xổε, với
n
S t
)
∗
= α2
3.2.2 Ước lượng phương sai cho tổng thể
Giả sử khi nghiên cứu trên mẫu về một ựặc tắnh nào ựó, từ kết quả của mẫu tắnh
ựược giá trị trung bình, và ựộ lệch chuẩn Tức là từ mẫu có kắch thước n →X,S)
, 2
chắnh là ước lượng ựiểm cho σ2
- Ước lượng khoảng cho σ2
là:
Ớ đã biết kỳ vọng toán ộộộộ của biến ngẫu nhiên gốc X
2 2 2 2
Ớ Chưa biết kỳ vọng toán ộộộộ của biến ngẫu nhiên gốc X
2 2
2 1 2
2 2
1 1
S n S
π π )
3.2.3 Ước lượng tỷ lệ cho tổng thể
Trong một mẫu thực nghiệm có n cá thể, trong ựó có m cá thể có ựặc tắnh C.Tần suất của C trong mẫu thực nghiệm sẽ là f = m/n Từ tần suất thực nghiệm này suy ựoán
tỷ lệ ựặc tắnh C của tổng thể Tỷ lệ ựó ựược ký hiệu là p
- Ước lượng ựiểm cho p chắnh là f
n
f f
Trang 20thời gian và kinh phí, còn nếu n quá nhỏ thì các kết luận chưa ñủ tin cậy ðể xác ñịnh n cần thiết ta xác ñịnh trong 2 trường hợp sau ñây
• Xác ñịnh kích thước mẫu ñể ước lượng cho trung bình µµµµ
Muốn có ước lượng µ với sai số không quá ε cho trước với ñộ tin cậy (1-α)
)
với ñiều kiện vế phải không nhỏ hơn 30
• Xác ñịnh kích thước mẫu ñể ước lượng cho tỷ lệ p:
3.2.5 Phương pháp xác ñịnh số liệu bất thường (khử sai số thô)
* Khi ñã biết σσσσ: Tính
n n
X x z
1+
∗
−
=
∗σ
Sau ñó tra Φ(z) Cho trước mức ý nghĩa α khá bé
- Nếu Φ(z) >1-α/2: Thì x* là số liệu bất thường
- Nếu Φ(z) ≤ 1-α/2: Thì x* không phải là số liệu bất thường
• Khi chưa biết σσσσ:
t= −)
∗
Sau ñó tra t (n-1, α/2) cho trước mức ý nghĩa α khá bé
- Nếu t >t α/2: thì x* là số liệu bất thường (phải loại bỏ)
- Nếu t ≤ t α/2: Thì x* không phải là số liệu bất thường
CHƯƠNG IV KIỂM ðỊNH GIẢ THUYẾT THỐNG KÊ
(hypothesis testing)
Khi sử dụng phương pháp ñiều tra chọn mẫu, ñôi khi người ta phải ñặt những bài toán so sánh
ñể ñưa ra kết luận chính xác về nội dung hoặc bản chất của hiện tượng nghiên cứu
Trang 21Trong nghiên cứu khoa học, nhiều vấn ñề ñược giải quyết nhờ ñưa ra một số giả thuyết, sau ñó kiểm ñịnh các giả thuyết ấy bằng thực nghiệm
4.1 Một số khái niệm
4.1.1 Giả thuyết thống kê
Là giả thuyết về phân phối xác suất của BNN, về các tham số ñặc trưng của BNN hoặc tính ñộc lập của các BNN
Vd: - Tuổi thọ trung bình của hai loại bóng ñèn A và B là như nhau
- Phương pháp ñiều trị A chữa khỏi 90% bệnh nhân
4.1.2 Kiểm ñịnh thống kê
Là một quy tắc hoặc một thủ tục quyết ñịnh dẫn tới việc bác bỏ hoặc chấp nhận giả thuyết ñã nêu Thực tế là sự so sánh một số chỉ tiêu thống kê ñược gọi là tiêu chuẩn kiểm ñịnh ñược tính theo số liệu thực nghiệm với các chỉ tiêu ấy ñược nêu ra theo giả thuyết
Thường giả thuyết ñược ñưa ra kiểm ñịnh là giả thuyết không H0 (thuật ngữ của Fisher) Là giả thuyết mà nếu ta bác bỏ là một cách sai lầm thì sẽ chịu một hậu quả nghiêm trọng, nói một cách ñơn giản giả thuyết không H0 là giả thuyết mà ta nghi ngờ
và muốn bác bỏ
Các bước kiểm ñịnh:
1.Xây dựng cấu trúc của giả thuyết (The structure of a hypothesis test)
Gồm 2 giả thuyết bù nhau có nghĩa: nếu không là giả thuyết này thì sẽ là giả thuyết kia
• Giả thuyết không H0 (Null hypothesis)
• Giả thuyết ñối Ha (Alternative hypothesis)
Việc ñặt giả thiết H0 là tuỳ ý nhưng thông thường người ta ñặt giả thuyết không
là giả thuyết mà nếu ta bác bỏ nó 1 cách sai lầm ta sẽ chịu 1 hậu quả nghiêm trọng Khi ñặt ra 2 giả thuyết như vậy sẽ có 2 sự lựa chọn
• Chấp nhận H0 (accept H0) tương ứng với reject Ha
• Bác bỏ H0 (reject H0) tương ứng với accept Ha
Tuy nhiên mới chỉ ñặt ra giả thiết thôi, ta chưa biết ñược giả thiết nào ñúng, vì vậy cần phải tiến hành các bước tiếp theo
Trang 223 Quy tắc kiểm ñịnh (quyết ñịnh)
ðể quyết ñịnh xem giả thuyết nào ñúng, ta phải dựa vào bảng quyết ñịnh
Hành ñộng (acts) Biến cố
(events) Accept H0 Reject H0
H0 true Correct decision Type I error xác suất mắc sai lầm là α
H0 false Type II error xác suất mắc sai lầm là β Correct decision
Nhìn vào bảng quyết ñịnh ta thấy có 2 quyết ñịnh ñúng ñó là
• Chấp nhận H0 khi H0 ñúng và Bác bỏ H0 khi H0 sai
2 sai lầm:
• Bác bỏ H0 khi H0 ñúng và Chấp nhận H0 khi H0 sai
Tìm kiếm xác suất mắc sai lầm (finding the error probabilities)
α = P[type I error] = P[reject H0 /H0 true]
β = P[type II error] = P[accept H0 /H0 false]
Ta luôn mong cả 2 loại sai lầm ñạt cực tiểu nhưng khi cỡ mẫu n cố ñịnh thì mong muốn trên không thể thực hiện ñược do ñó thông thường cho trước giới hạn trên của xác suất phạm sai lầm loại I, ký hiệu α, α thường nhỏ (α = 0.1; 0.05; 0.01) khi ñó
ta sẽ ñi tìm miền sao cho β ñạt cực tiểu α : mức ý nghĩa tiêu chuẩn
Trong thực tế người ta thường cho phép ñược mắc sai lầm loại I ở mức xác suất α
nào ñó ( tuỳ theo tầm quan trọng của sai lầm loại I) sau ñó cực tiểu hoá sai lầm loại II
ðể chọn ñúng ta làm như sau: Mặc dù cả hai sai lầm trên ñều không mong
muốn nhưng bác bỏ H 0 khi H 0 ñúng là sai lầm nghiêm trọng hơn cả Do ñó xác suất
mắc sai lầm α ñược coi là mức ý nghĩa (significanse level) Tuỳ theo bài toán cụ thể nếu mức ñộ nghiêm trọng càng lớn thì chọn α càng nhỏ
Như vậy khi ta ra quyết ñịnh bác bỏ Ho, mặc dù Ho ñúng thì ta ñã mắc một sai lầm với xác suất α, còn khi ta chấp nhận Ho mặc dù Ho sai ta cũng mắc một sai lầm với xác suất β
Giá trị α, β phụ thuộc vào việc ta chọn quy ñịnh Tuỳ thuộc vào quá trình nghiên cứu mà chúng ta cần giảm nguy cơ mắc loại sai lầm nào