1. Trang chủ
  2. » Giáo án - Bài giảng

Tìm hiểu tổng quan về phương pháp thống kê và kiểm định giả thiết

41 812 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 873,73 KB

Nội dung

Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế :p n_a/n ≅ n_a/n Xác suất p =Pa xảy ra của một sự kiện a với một số n_a là xác suất thành công trong n lần thử.. M

Trang 1

Bài tập lớn:Quá trình ngẫu nhiên và ứng

dụng

ĐỀ TÀI:Tìm hiểu tổng quan về phương pháp thống

kê và kiểm định giả thiết

Giáo viên hướng dẫn : PGS.TS Nguyễn Thị Hoàng Lan

Nhóm sinh viên thực hiện:

Trang 2

Phân công công việc

Hoàng Tùng Anh Tìm hiểu các khái niệm cơ bản và hoàn thành

báo cáo

Nguyễn Đức Hậu Kiểm định kì vọng+ Bài tập

Đoàn Khắc Hùng Phương sai và kiểm định độc lập

Hà Văn Cầu Phân phối và kiểm định phân phối

An Mạnh Công Likelihood radio test

Trần Quang Đạt Ứng dụng Matlab

Trang 3

Phần I Giới thiệu chung

Khái niệm cơ bản -Quan sát các hiện tượng tự nhiên ta thấy

có những hiện tượng thường xảy ra, có những hiện tượng ít xảy ra Xác suất là

một đại lượng thể hiện mức độ xảy ra

(thường xuyên hay ít khi) của một biến cố Trong lịch sử Toán học đã có nhiều định nghĩa cho khái niệm xác suất

-Xác suất là một môn toán học phát triển trí óc và theo kiểu trừu tượng Nó là

những dự đoán và suy luận cơ bản về

thực tế Thống kê dựa trên các áp dụng lý thuyết để giải quyết các vấn đề thưc tế và

nó là những dự đoán và diễn giải cơ bản dựa trên sự theo dõi và quan sát thực tế

Trang 4

-Để hiểu rõ hơn về thống kê, ta nêu các ví dụ :

Giả sử một hộp chứa 3 bi trắng và 1 bi đen Trò

chơi đặt ra : Người tham gia chơi sẽ bốc ngẫu

nhiên một viên bi.

Sẽ nhận được 5 đô nếu bốc được bi trắng, sẽ trả

6 đô nếu bốc phải bi đen Biết xác suất bốc mỗi

viên bi là như nhau Có nên tham gia????

=>>Nhận xét: Trong nhiều tình huống , để đưa ra quyết định , đánh giá hay giải quyết một vấn đề

nào đó… => ta dựa các tham số p, δ… Lưu ý là với BNN nào đó thì các tham số là duy nhất => Thống

kê để ta có các thông tin về tham số.

Trang 5

Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế :

p n_a/n ≅ n_a/n Xác suất p =P(a) xảy ra của một sự kiện a với một số n_a là xác suất thành công trong n lần thử Chúng ta

sử dụng các cách thức thử nghiệm để làm sáng tỏ sự liên kết của tất cả các khái niệm xác suất

-Thống kê: là số các giá trị , Giá trị của hàm không lớn hơn 1 Mối quan hệ đó là theo lối lặp lại các

công việc ước lượng đoạn η và một vấn đề chính

của người thống kê là mang tới cho mọi người

một kết quả chính xác nhất.

Trang 6

Quá trình nghiên cứu thống kê sẽ có các giai đoạn :

1 Điều tra thống kê : xây dựng các khái niệm, chỉ tiêu

phát triển Báo cáo và truyền đạt kết quả nghiên cứu

Mục đích của nghiên cứu thống kê là sẽ giải quyết các

vấn đề sau:

Vấn đề thứ nhất, chúng ta giả sử rằng giả thuyết thống

kê là đúng và chúng ta muốn rằng làm được việc dự đoán một điều gì đó trong tương lai.

Trong trường hợp thứ hai, một hay nhiều tham số ,

không biết gì về đối tượng mà chúng ta ước lượng, hoặc là những giá trị đó (tham số ước lượng khác)

phải chọn là , là một giá trị hằng (lấy từ giả thuyết).

Trang 7

Ví dụ :chúng ta theo dõi giá trị của một RV x và chúng

ta muốn có hoặc là sự đánh giá về ý nghĩa của hoặc là thừa nhận giả thuyết rằng = 5.3 Chúng ta tung đồng xu

1000 lần và nó hiện lên mặt ngửa 465 lần Sử dụng

thông tin đó, chúng ra sẽ có được ước lượng xác suất

p xuất hiện mặt ngửa xuất hiện ít hơn hoặc là quyết

định là xác suất xảy ra hai sự hiện là bằng nhau (theo giả thuyết).

- Chúng ta đưa ra một RV x cùng sự thống kê của nó và chúng ta muốn ước lượng giá trị của x ở một lần thử

trong tương lai Một cách ước lượng x là quyết định chọn một hằng số c sao cho tổng các giá trị -c là nhỏ nhất.

Trang 8

-Trong một số lần thử đặc biệt, RV x có thể mang một trong nhiều giá trị Có thể các giá trị đó ko thể nào dự đoán trước, nó chỉ có thể ước lượng được Vì vậy ước lượng của một RV x là

dự đoán một giá trị tiếp theo của x dựa vào giá trị của c Nếu chúng ta sử dụng tiêu chuẩn cho sự lựa chọn c ở mức độ nhỏ nhất có thể của độ lệch sai số MS E{(x - c) 2 }, suy ra c = E{x} Vấn đề là phải cân nhắc kĩ lưỡng Một quá trình lấy rời rạc của x

là một sự quyết định hai tham số c 1 và c 2 :

Trang 9

Sự lựa chọn có hai vấn đề xung đột với nhau Nếu gần tới1

thì dự đoán rằng x sẽ nằm trong khoảng (c1 ,c 2 ) là đáng tin

cậy nhưng mà khoảng c 2 – c 1 quá lớn; nếu nhỏ bớt đi, c 2 – c 1

được giảm đi nhưng mà ước lượng là thiếu tin cậy Giá trị

đặc trưng của là 0.9, 0.95, 0.99 Để có được sự dự đoán tối

ưu, chúng ta cần phải thêm vào một giá trị vào để chúng ta xác định rõ c 1 và c 2 để cho khoảng cách c 2 – c 1 là nhỏ nhất để thực hiện được (9-4) Chúng ta cần đưa ra rằng nếu như mật độ

của x một giá trị lớn nhất, c2 – c 1 là nhỏ nhất nếu như Tạo ra

c 1 và c 2 bằng cách thử và xác định độ lệch Một điểm cực dễ

dàng để tìm thấy nếu như chúng ta các định rõ c 1 và c 2 giống

như : Mang lại c 1 = và c 2 = với xu là u % xuất hiện của x trong

khoảng (c 1 ,c 2 ) Cách giải quyết vấn đề này là tối ưu nếu như

là đối xứng Điều đó có nghĩa là η là giá trị trung bình bởi vì thì sẽ

đối xứng Nếu x là chuẩn, thì x u = η + z u là tỉ lệ % chuẩn

Trang 10

Ví dụ : Chúng ta tung đồng xu 100 lần và muốn dự đoán được số lần n a là mặt ngửa với γ = 0.997 Trong vấn đề này thì n = 100 và p = 0.5 Chúng ta dự đoán, vì vậy, cùng với hệ số 0.997 là số mặt ngửa nằm trong khoảng từ

35 tới 65 Các ví dụ trên đã làm rõ vai trò của thống kê trong các ứng dụng xác suất để giải quyết các vấn đề

thực tế: Sự kiện được định nghĩa trong thực nghiệm

của trò chơi tung đồng xu Nó mang lại những thông tin rằng xác suất xảy ra không thể được sử dụng để xác

thực dự đoán về sự kiện A thi hành ở thực nghiệm sự kiện:được khai báo ở thực nghiệm trong vòng lặp

thử nghiệm và nó là xác suất Nếu như chúng ta có thể gần chắcchắn rằng sẽ xảy ra ở một quá trình thực tế.

Chúng ta có sự thay đổi suy nghĩ “chủ quan” về A dựa trên thông tin cơ bản để có thể khách quan hơn để kết luận rằng sẽ chắc chắn chính xác, dựa trên xác suất

Trang 11

II.Kiểm định kì vọng

Bài toán đặt ra:Đại lượng ngẫu nhiên X có trung bình E(X)= =

 TH1: Phương sai đã biết

- Chọn thống kê Z= Nếu đúng thì Z

- Lấy mẫu cụ thể và tính giá trị quan sát k=

-Với mức ý nghĩa miền bác bỏ được xác định trong 3 trường hợp sau:

 

Trang 12

So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:

+Nếu k ,chấp nhận và bác bỏ +Nếu k ,bác bỏ và chấp nhận

 

Miền bác bỏ :

Trang 13

 TH2:Phương sai chưa biết

- Chọn thống kê Z Nếu đúng thì ZT(n-1)

- Lấy mẫu cụ thể và tính giá trị quan sát

- Với mức ý nghĩa miền bác bỏ được xác định trong 3

trường hợp sau:

 

Trang 14

Miền bác bỏ :

   

(;-t(n-1;1-))  ( t(n-1;1-);

   

( t(n-1;1-);

   

(;-t(n-1;1-))

So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:

+Nếu k ,chấp nhận và bác bỏ +Nếu k ,bác bỏ và chấp nhận

 

Trang 15

Ví dụ:Chúng ta tiến hành đo điện áp V của một nguốn điện 25

lần và có =110.12V.Kiểm tra giả thuyết V==110V với mức ý nghĩa =0.05.Giả sử phân phối có dạng N(0,

Trang 16

độc lập

Trang 20

Kỳ vọng ɳ chưa biết

Trong trường hợp này ta vẫn chọn thống kê như trên trong đó kì vọng như trên trường hợp 1 trong đó kì vọng được thay bởi giá trị trung bình của mẫu ngẫu nhiên

Nếu đúng thì q ) Tương tự trên, ta có miền bác bỏ là

•  

Trang 21

1 Bài toán đặt ra:

Chúng ta kiểm định giả thiết với hai sự kiện B và C là độc lập

Giả thiết:

H0 : P(A∩B) = P(A) P(B) ngược lại (H1: P(A∩B) ≠ P(A) P(B))

Giả sử xác suất của hai sự kiện b = P(B) và c = P(C) đã biết Ta áp dụng kiểm định chi bình phương để phân vùng các sự kiện :

A1 = B∩C A2 = B∩

A3 = ∩C A4 = ∩

Ký hiệu p01 p02, p03, p04 lần lượt là xác suất của các sự kiện A1 ,A2 ,A3 ,A4

Nếu H0 đúng, tức là các sự kiện Ai (i=1,4) là độc lập Do đó:

Trang 22

2.Ví dụ

Trong một trường đại học , tỷ lệ sinh viên năm thứ nhất là nam giới là 60 %  còn tỷ lệ đó với toàn bộ sinh viên tốt nghiệp đại học là 75%. Chọn ngẫu nhiên  các hồ sơ của 299 nam và 101 nữ cùng với 168 nam và 68 nữ tốt nghiệp. 

Trang 23

Phần IV Phân Phối

• Trong ứng dụng này của lý thuyết kiểm định

tham số, hàm phân bố F(x) của một biến ngẫu

Trang 24

• Phương pháp Kolmogorov-Mirnov

• Phương pháp này được thực hiện bằng việc hình thành 1 quá trình ngẫu nhiên có phân phối F*(x) để dự đoán vấn đề và sử dụng để kiểm tra số liệu thống kê cho biến ngẫu nhiên

• q= maxx| F*(x)-F0(x)|

• sự lựa chọn này được giả thích như sau: với mỗi tham số cụ thể , F*( x) có ước lượng phụ thuộc vào F(x), và nó có xu hướng tiến tới F(x) khi n tiến tới vô cùng

• Kì vọng E(F*(x)) =F(x)

• F*(x)→F(x) khi n tiến tới vô cùng

• Xét với n lớn.Biến ngẫu nhiên q có thể tiến về 0 nếu H0 đúng và tới 1 giá trị F(x)-F0(x) nếu H 1 đúng Để phủ nhận giả thuyết H 0 hay chấp nhận H 0 ta đi so sánh q với một hằng

số c.Hằng số này phụ thuộc vào mức ý nghĩa α và phân phối của biến ngẫu nhiên q theo giả thuyết H 0 chúng ta kiểm tra biến ngẫu nhiên q= max x |F*(x)-F(x)| với mức ý nghĩa

Trang 25

• Phương pháp Chi- Squared

• Phương pháp này sử dụng kiểm tra thống kê Pearson Và thực hiện như sau

• Đưa ra các phần vùng U=[ A1,…… ,Am] của không gian P và muốn kiểm tra giả thuyết các xác suất pi=P(Ai )của sự kiện Ai bằng m cho hằng số poi:

• H0: pi=p0i với mọi i ngược lại H1: pi≠p0i với 1 vài giá trị của i dữ liệu đầu vào là số lần thử thành công ki trong n lần thử của mỗi sự kiện Ai

• Xét biến ngẫu nhiên q= (9.75)

• Biến ngẫu nhiên ki có phân nhị thức với kì vọng npi và phương sai npiqi vì thế tỉ lệ ki/

n có xu hướng tiến tới pi khi n Kiểm tra giả thuyết bằng việc so sánh q với 1 hàng số c

• Để tìm c, chúng ta phải xác định được phân phối của q chúng ta sẽ đi tìm theo hướng giả định n lớn Với giả định như vậy , biến ngẫu nhiên k là gần với phân phối chuẩn với kì vọng là kpi theo giả thuyết H0, biến ngẫu nhiên q có phân phối X2(m-1),trên thực tế, với hằng số p0i thỏa mãn

• Quan sát số lượng ki và tính toán tổng q trong (9.75) , tìm χ21-α(m-1 )

m

i i

k np np

Trang 26

Trang 27

Phần V: Likelihood radio test

VD:Trong bài toán 𝜂 = 𝜂0và

√(2𝜋)𝑛 exp {− 1

2 ෍ (𝑥𝑖 − 𝜂)

2} Đạt giá trị max nếu tổng :

2 σ (𝑥𝑖−𝑥ҧ )2ቅ = exp ቄ−𝑛

2 (𝑥 ̅ − 𝜂0 )2ቅ Lưu ý trong bài toán này rằng, m = 1 vàmo = 0.Hơn nữa,

Trang 28

Giả lập tính toán trong kiểm định giả thuyết.

HàmF(q) là hàm đơn điệu tăng Từ đó,

với 𝑥𝑘 ,𝑖 là các mẫu tính toán tạo ra của m RVs 𝑥𝑘 Sử dụng

theo trình tự 𝑋𝑖, chúng ta hình thành được chuỗi𝑞𝑖 = 𝑔 (𝑋𝑖) và chúng ta đếm số 𝑛𝑞 của 𝑞𝑖 nhỏ hơn so với tính toán q.Thêm vào (8-163), chúng ta có được F(q)=𝑛𝑞 /𝑛 .Với F(q)được xác

định, công thức 9-84 được kiểm tra:

đồng ý 𝐻0 nếu 𝑎 < 𝑛𝑞

𝑛 < 𝑏

Trang 30

• Kstest: [h, p, ksstat, cv] = kstest(x)

kiểm định Kolmogorov-Smirnov trên 1 mẫu có phân  phối liên tục với các tham số được chỉ rõ. Đối thuyết  của nó là không có phân phối như vậy.

• Kstest2:  [h, p, ks2stat] = kstest2(x, y)

kiểm định Kolmogorov-Smirnov trên 2 mẫu có phân  phối liên tục giống nhau. Đối thuyết  là chúng không 

có phân phối giống nhau.

• Chi2gof: [h, p] = chi2gof(x)

kiểm định Chi-square ( goodness-of-fit) với 1 mẫu có  phân phối được chỉ rõ. Đối thuyết là nó không có 

phân phối như vậy.  

Trang 31

• Ví dụ 1: cho mẫu ngẫu nhiên 150 phần tử , kiểm 

định giả thuyết  có phân phối chuẩn với kì vọng  0,1 và độ lệch chuẩn bằng 1, mức ý nghĩa 5%

• Sử dụng hàm ztest: :[h, p, ci, zval] = ztest(x, m,  sigma, alpha)

• Tạo mẫu ngẫu nhiên có phân phối chuẩn: 

x=norm(0.1,1,150,1);

Trang 37

• Ví dụ 3: Kiểm định giả thuyết với 2 mẫu x,y có 

cùng kì vọng

• Dùng hàm ttest2: [h, p, ci, stats] = ttest2(x, y)

Trang 39

• Ví dụ 4: Kiểm định Kolmogorov-Smirnov:

• Kiểm định liệu là các giá trị có được lấy từ  phân phối chuẩn hay ko?

x = -2:1:4   

(x nhận giá trị từ -2 đến 4, mỗi số tăng  lên 1  đơn vị)

• Dùng hàm kstest: [h, p, ksstat, cv] = kstest(x)

Trang 41

• h=0:chấp nhận 

• p: giá trị P

• ksstat: số liệu thống kê

• cv: giá trị quan trọng

Ngày đăng: 16/03/2016, 20:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w