Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế :p n_a/n ≅ n_a/n Xác suất p =Pa xảy ra của một sự kiện a với một số n_a là xác suất thành công trong n lần thử.. M
Trang 1Bài tập lớn:Quá trình ngẫu nhiên và ứng
dụng
ĐỀ TÀI:Tìm hiểu tổng quan về phương pháp thống
kê và kiểm định giả thiết
Giáo viên hướng dẫn : PGS.TS Nguyễn Thị Hoàng Lan
Nhóm sinh viên thực hiện:
Trang 2Phân công công việc
Hoàng Tùng Anh Tìm hiểu các khái niệm cơ bản và hoàn thành
báo cáo
Nguyễn Đức Hậu Kiểm định kì vọng+ Bài tập
Đoàn Khắc Hùng Phương sai và kiểm định độc lập
Hà Văn Cầu Phân phối và kiểm định phân phối
An Mạnh Công Likelihood radio test
Trần Quang Đạt Ứng dụng Matlab
Trang 3Phần I Giới thiệu chung
Khái niệm cơ bản -Quan sát các hiện tượng tự nhiên ta thấy
có những hiện tượng thường xảy ra, có những hiện tượng ít xảy ra Xác suất là
một đại lượng thể hiện mức độ xảy ra
(thường xuyên hay ít khi) của một biến cố Trong lịch sử Toán học đã có nhiều định nghĩa cho khái niệm xác suất
-Xác suất là một môn toán học phát triển trí óc và theo kiểu trừu tượng Nó là
những dự đoán và suy luận cơ bản về
thực tế Thống kê dựa trên các áp dụng lý thuyết để giải quyết các vấn đề thưc tế và
nó là những dự đoán và diễn giải cơ bản dựa trên sự theo dõi và quan sát thực tế
Trang 4-Để hiểu rõ hơn về thống kê, ta nêu các ví dụ :
Giả sử một hộp chứa 3 bi trắng và 1 bi đen Trò
chơi đặt ra : Người tham gia chơi sẽ bốc ngẫu
nhiên một viên bi.
Sẽ nhận được 5 đô nếu bốc được bi trắng, sẽ trả
6 đô nếu bốc phải bi đen Biết xác suất bốc mỗi
viên bi là như nhau Có nên tham gia????
=>>Nhận xét: Trong nhiều tình huống , để đưa ra quyết định , đánh giá hay giải quyết một vấn đề
nào đó… => ta dựa các tham số p, δ… Lưu ý là với BNN nào đó thì các tham số là duy nhất => Thống
kê để ta có các thông tin về tham số.
Trang 5Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế :
p n_a/n ≅ n_a/n Xác suất p =P(a) xảy ra của một sự kiện a với một số n_a là xác suất thành công trong n lần thử Chúng ta
sử dụng các cách thức thử nghiệm để làm sáng tỏ sự liên kết của tất cả các khái niệm xác suất
-Thống kê: là số các giá trị , Giá trị của hàm không lớn hơn 1 Mối quan hệ đó là theo lối lặp lại các
công việc ước lượng đoạn η và một vấn đề chính
của người thống kê là mang tới cho mọi người
một kết quả chính xác nhất.
Trang 6Quá trình nghiên cứu thống kê sẽ có các giai đoạn :
1 Điều tra thống kê : xây dựng các khái niệm, chỉ tiêu
phát triển Báo cáo và truyền đạt kết quả nghiên cứu
Mục đích của nghiên cứu thống kê là sẽ giải quyết các
vấn đề sau:
• Vấn đề thứ nhất, chúng ta giả sử rằng giả thuyết thống
kê là đúng và chúng ta muốn rằng làm được việc dự đoán một điều gì đó trong tương lai.
• Trong trường hợp thứ hai, một hay nhiều tham số ,
không biết gì về đối tượng mà chúng ta ước lượng, hoặc là những giá trị đó (tham số ước lượng khác)
phải chọn là , là một giá trị hằng (lấy từ giả thuyết).
Trang 7Ví dụ :chúng ta theo dõi giá trị của một RV x và chúng
ta muốn có hoặc là sự đánh giá về ý nghĩa của hoặc là thừa nhận giả thuyết rằng = 5.3 Chúng ta tung đồng xu
1000 lần và nó hiện lên mặt ngửa 465 lần Sử dụng
thông tin đó, chúng ra sẽ có được ước lượng xác suất
p xuất hiện mặt ngửa xuất hiện ít hơn hoặc là quyết
định là xác suất xảy ra hai sự hiện là bằng nhau (theo giả thuyết).
- Chúng ta đưa ra một RV x cùng sự thống kê của nó và chúng ta muốn ước lượng giá trị của x ở một lần thử
trong tương lai Một cách ước lượng x là quyết định chọn một hằng số c sao cho tổng các giá trị -c là nhỏ nhất.
Trang 8-Trong một số lần thử đặc biệt, RV x có thể mang một trong nhiều giá trị Có thể các giá trị đó ko thể nào dự đoán trước, nó chỉ có thể ước lượng được Vì vậy ước lượng của một RV x là
dự đoán một giá trị tiếp theo của x dựa vào giá trị của c Nếu chúng ta sử dụng tiêu chuẩn cho sự lựa chọn c ở mức độ nhỏ nhất có thể của độ lệch sai số MS E{(x - c) 2 }, suy ra c = E{x} Vấn đề là phải cân nhắc kĩ lưỡng Một quá trình lấy rời rạc của x
là một sự quyết định hai tham số c 1 và c 2 :
Trang 9Sự lựa chọn có hai vấn đề xung đột với nhau Nếu gần tới1
thì dự đoán rằng x sẽ nằm trong khoảng (c1 ,c 2 ) là đáng tin
cậy nhưng mà khoảng c 2 – c 1 quá lớn; nếu nhỏ bớt đi, c 2 – c 1
được giảm đi nhưng mà ước lượng là thiếu tin cậy Giá trị
đặc trưng của là 0.9, 0.95, 0.99 Để có được sự dự đoán tối
ưu, chúng ta cần phải thêm vào một giá trị vào để chúng ta xác định rõ c 1 và c 2 để cho khoảng cách c 2 – c 1 là nhỏ nhất để thực hiện được (9-4) Chúng ta cần đưa ra rằng nếu như mật độ
của x một giá trị lớn nhất, c2 – c 1 là nhỏ nhất nếu như Tạo ra
c 1 và c 2 bằng cách thử và xác định độ lệch Một điểm cực dễ
dàng để tìm thấy nếu như chúng ta các định rõ c 1 và c 2 giống
như : Mang lại c 1 = và c 2 = với xu là u % xuất hiện của x trong
khoảng (c 1 ,c 2 ) Cách giải quyết vấn đề này là tối ưu nếu như
là đối xứng Điều đó có nghĩa là η là giá trị trung bình bởi vì thì sẽ
đối xứng Nếu x là chuẩn, thì x u = η + z u là tỉ lệ % chuẩn
Trang 10Ví dụ : Chúng ta tung đồng xu 100 lần và muốn dự đoán được số lần n a là mặt ngửa với γ = 0.997 Trong vấn đề này thì n = 100 và p = 0.5 Chúng ta dự đoán, vì vậy, cùng với hệ số 0.997 là số mặt ngửa nằm trong khoảng từ
35 tới 65 Các ví dụ trên đã làm rõ vai trò của thống kê trong các ứng dụng xác suất để giải quyết các vấn đề
thực tế: Sự kiện được định nghĩa trong thực nghiệm
của trò chơi tung đồng xu Nó mang lại những thông tin rằng xác suất xảy ra không thể được sử dụng để xác
thực dự đoán về sự kiện A thi hành ở thực nghiệm sự kiện:được khai báo ở thực nghiệm trong vòng lặp
thử nghiệm và nó là xác suất Nếu như chúng ta có thể gần chắcchắn rằng sẽ xảy ra ở một quá trình thực tế.
Chúng ta có sự thay đổi suy nghĩ “chủ quan” về A dựa trên thông tin cơ bản để có thể khách quan hơn để kết luận rằng sẽ chắc chắn chính xác, dựa trên xác suất
Trang 11II.Kiểm định kì vọng
Bài toán đặt ra:Đại lượng ngẫu nhiên X có trung bình E(X)= =
TH1: Phương sai đã biết
- Chọn thống kê Z= Nếu đúng thì Z
- Lấy mẫu cụ thể và tính giá trị quan sát k=
-Với mức ý nghĩa miền bác bỏ được xác định trong 3 trường hợp sau:
Trang 12
So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:
+Nếu k ,chấp nhận và bác bỏ +Nếu k ,bác bỏ và chấp nhận
Miền bác bỏ :
Trang 13 TH2:Phương sai chưa biết
- Chọn thống kê Z Nếu đúng thì ZT(n-1)
- Lấy mẫu cụ thể và tính giá trị quan sát
- Với mức ý nghĩa miền bác bỏ được xác định trong 3
trường hợp sau:
Trang 14
Miền bác bỏ :
(;-t(n-1;1-)) ( t(n-1;1-);
( t(n-1;1-);
(;-t(n-1;1-))
So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:
+Nếu k ,chấp nhận và bác bỏ +Nếu k ,bác bỏ và chấp nhận
Trang 15
Ví dụ:Chúng ta tiến hành đo điện áp V của một nguốn điện 25
lần và có =110.12V.Kiểm tra giả thuyết V==110V với mức ý nghĩa =0.05.Giả sử phân phối có dạng N(0,
Trang 16độc lập
Trang 20Kỳ vọng ɳ chưa biết
Trong trường hợp này ta vẫn chọn thống kê như trên trong đó kì vọng như trên trường hợp 1 trong đó kì vọng được thay bởi giá trị trung bình của mẫu ngẫu nhiên
Nếu đúng thì q ) Tương tự trên, ta có miền bác bỏ là
•
Trang 211 Bài toán đặt ra:
Chúng ta kiểm định giả thiết với hai sự kiện B và C là độc lập
Giả thiết:
H0 : P(A∩B) = P(A) P(B) ngược lại (H1: P(A∩B) ≠ P(A) P(B))
Giả sử xác suất của hai sự kiện b = P(B) và c = P(C) đã biết Ta áp dụng kiểm định chi bình phương để phân vùng các sự kiện :
A1 = B∩C A2 = B∩
A3 = ∩C A4 = ∩
Ký hiệu p01 p02, p03, p04 lần lượt là xác suất của các sự kiện A1 ,A2 ,A3 ,A4
Nếu H0 đúng, tức là các sự kiện Ai (i=1,4) là độc lập Do đó:
Trang 222.Ví dụ
Trong một trường đại học , tỷ lệ sinh viên năm thứ nhất là nam giới là 60 % còn tỷ lệ đó với toàn bộ sinh viên tốt nghiệp đại học là 75%. Chọn ngẫu nhiên các hồ sơ của 299 nam và 101 nữ cùng với 168 nam và 68 nữ tốt nghiệp.
Trang 23Phần IV Phân Phối
• Trong ứng dụng này của lý thuyết kiểm định
tham số, hàm phân bố F(x) của một biến ngẫu
Trang 24• Phương pháp Kolmogorov-Mirnov
• Phương pháp này được thực hiện bằng việc hình thành 1 quá trình ngẫu nhiên có phân phối F*(x) để dự đoán vấn đề và sử dụng để kiểm tra số liệu thống kê cho biến ngẫu nhiên
• q= maxx| F*(x)-F0(x)|
• sự lựa chọn này được giả thích như sau: với mỗi tham số cụ thể , F*( x) có ước lượng phụ thuộc vào F(x), và nó có xu hướng tiến tới F(x) khi n tiến tới vô cùng
• Kì vọng E(F*(x)) =F(x)
• F*(x)→F(x) khi n tiến tới vô cùng
• Xét với n lớn.Biến ngẫu nhiên q có thể tiến về 0 nếu H0 đúng và tới 1 giá trị F(x)-F0(x) nếu H 1 đúng Để phủ nhận giả thuyết H 0 hay chấp nhận H 0 ta đi so sánh q với một hằng
số c.Hằng số này phụ thuộc vào mức ý nghĩa α và phân phối của biến ngẫu nhiên q theo giả thuyết H 0 chúng ta kiểm tra biến ngẫu nhiên q= max x |F*(x)-F(x)| với mức ý nghĩa
Trang 25• Phương pháp Chi- Squared
• Phương pháp này sử dụng kiểm tra thống kê Pearson Và thực hiện như sau
• Đưa ra các phần vùng U=[ A1,…… ,Am] của không gian P và muốn kiểm tra giả thuyết các xác suất pi=P(Ai )của sự kiện Ai bằng m cho hằng số poi:
• H0: pi=p0i với mọi i ngược lại H1: pi≠p0i với 1 vài giá trị của i dữ liệu đầu vào là số lần thử thành công ki trong n lần thử của mỗi sự kiện Ai
• Xét biến ngẫu nhiên q= (9.75)
• Biến ngẫu nhiên ki có phân nhị thức với kì vọng npi và phương sai npiqi vì thế tỉ lệ ki/
n có xu hướng tiến tới pi khi n Kiểm tra giả thuyết bằng việc so sánh q với 1 hàng số c
• Để tìm c, chúng ta phải xác định được phân phối của q chúng ta sẽ đi tìm theo hướng giả định n lớn Với giả định như vậy , biến ngẫu nhiên k là gần với phân phối chuẩn với kì vọng là kpi theo giả thuyết H0, biến ngẫu nhiên q có phân phối X2(m-1),trên thực tế, với hằng số p0i thỏa mãn
• Quan sát số lượng ki và tính toán tổng q trong (9.75) , tìm χ21-α(m-1 )
m
i i
k np np
Trang 26
Trang 27Phần V: Likelihood radio test
VD:Trong bài toán 𝜂 = 𝜂0và
√(2𝜋)𝑛 exp {− 1
2 (𝑥𝑖 − 𝜂)
2} Đạt giá trị max nếu tổng :
2 σ (𝑥𝑖−𝑥ҧ )2ቅ = exp ቄ−𝑛
2 (𝑥 ̅ − 𝜂0 )2ቅ Lưu ý trong bài toán này rằng, m = 1 vàmo = 0.Hơn nữa,
Trang 28Giả lập tính toán trong kiểm định giả thuyết.
HàmF(q) là hàm đơn điệu tăng Từ đó,
với 𝑥𝑘 ,𝑖 là các mẫu tính toán tạo ra của m RVs 𝑥𝑘 Sử dụng
theo trình tự 𝑋𝑖, chúng ta hình thành được chuỗi𝑞𝑖 = 𝑔 (𝑋𝑖) và chúng ta đếm số 𝑛𝑞 của 𝑞𝑖 nhỏ hơn so với tính toán q.Thêm vào (8-163), chúng ta có được F(q)=𝑛𝑞 /𝑛 .Với F(q)được xác
định, công thức 9-84 được kiểm tra:
đồng ý 𝐻0 nếu 𝑎 < 𝑛𝑞
𝑛 < 𝑏
Trang 30• Kstest: [h, p, ksstat, cv] = kstest(x)
kiểm định Kolmogorov-Smirnov trên 1 mẫu có phân phối liên tục với các tham số được chỉ rõ. Đối thuyết của nó là không có phân phối như vậy.
• Kstest2: [h, p, ks2stat] = kstest2(x, y)
kiểm định Kolmogorov-Smirnov trên 2 mẫu có phân phối liên tục giống nhau. Đối thuyết là chúng không
có phân phối giống nhau.
• Chi2gof: [h, p] = chi2gof(x)
kiểm định Chi-square ( goodness-of-fit) với 1 mẫu có phân phối được chỉ rõ. Đối thuyết là nó không có
phân phối như vậy.
Trang 31• Ví dụ 1: cho mẫu ngẫu nhiên 150 phần tử , kiểm
định giả thuyết có phân phối chuẩn với kì vọng 0,1 và độ lệch chuẩn bằng 1, mức ý nghĩa 5%
• Sử dụng hàm ztest: :[h, p, ci, zval] = ztest(x, m, sigma, alpha)
• Tạo mẫu ngẫu nhiên có phân phối chuẩn:
x=norm(0.1,1,150,1);
Trang 37• Ví dụ 3: Kiểm định giả thuyết với 2 mẫu x,y có
cùng kì vọng
• Dùng hàm ttest2: [h, p, ci, stats] = ttest2(x, y)
Trang 39• Ví dụ 4: Kiểm định Kolmogorov-Smirnov:
• Kiểm định liệu là các giá trị có được lấy từ phân phối chuẩn hay ko?
x = -2:1:4
(x nhận giá trị từ -2 đến 4, mỗi số tăng lên 1 đơn vị)
• Dùng hàm kstest: [h, p, ksstat, cv] = kstest(x)
Trang 41• h=0:chấp nhận
• p: giá trị P
• ksstat: số liệu thống kê
• cv: giá trị quan trọng