Kiểm định giả thuyết

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp monte carlo cho bài toán kiểm định (Trang 28 - 37)

ƯỚC LƯỢNG KHOẢNG TIN

2.1Kiểm định giả thuyết

Trong kiểm định giả thuyết, mục tiêu của chúng tôi là đưa ra quyết định loại bỏ hay không loại bỏ một vài tuyên bố

về không gian dựa trên dữ liệu của một mẫu ngẫu nhiên. Chúng ta bắt đầu với một giả thuyết thống kê là các ước (ĩoán về một hoặc nhiều không gian mẫu. Một vài ví dụ như:

• Một quan chức vận tải ỡ Washington D.c cho rằng rằng thời gian đi lại trung bình đi t ới

Bắc Virginia đã tăng hơn so với năm 1995.

• Một nghiên cứu y khoa muốn xác nhận việc aspirin làm giảm nguy cơ đau tim .

• Một công ty (lược phẩm phải quyết định xem loại vacxin mới là vượt trội hơn so với loại đang

sử dụng.

• Một kiến trúc sư' phải xác định xem sự khác nhau trong độ chính xác giữa hai loại công cụ.

Bài toán kiểm định giả thuyết thống kê tong quát được đặt dưới (lạng sau:

Một mệnh đề khác với H0 được gọi là đối thuyết H-ị. cần kiểm định xem H0

đúng hay H1 đúng trên cơ sở mẫu lấy được. Khi chúng ta thực hiện một kiếm định giả thuyết chúng ta không thể biết được thực tế giả thuyết nào là đúng. Dể đảm bảo tính đơn

giản, chúng ta dùng khái niệm chấp nhận giả thuyết bác bỏ giả thuyết cho các quyết định trong kiểm định giả thuyết.

Dể hiểu hơn về ý tưởng, hãy xem lại ví dụ về quan chức vận tải, nơi muốn quyết định xem thời gian đi lại trung bình đi tới nơi làm việc để là tăng so với năm 1995. Thời gian trungbình đitới nơi làm việc của cư dân ở phía Bắc Vingrinia

là 45 phút.

ta muốn xácđịnh xem là thời gian trung bình đi lại là tăng, giả thuyết thống kê được

đưa ra :

H0 : ỊI, = 45 phút

H! : //, > 45 phút

CÁC BƯỚC KIỂM DỊNH GIẢ THƯYẺT

1. Xác định giả thuyết và đối thuyết, sử dụng các biểu thức toán học phù hợp. Thông thường, đây là một biểu thức bao hàm một đặc điểm hoặc công cụ đo lường của khống gian mẫu.

2. Lấy m ột một mẫu ngẫu nhiên từ không gian mẫu.

3. Tíĩili toán thống kê từ mẫu Iihằm cung cấp thông tin về giả thuyết. Chúng ta sử dụng dữ liệu này để đưa ra quyết định

4. Nếu giá trị của thống kê thích hợp với giả thuyết thì không bá c bỏ Hữ.

5. Nếu giá trị của thống kê không thích hợp với giả thuyết thì bá c bỏ H0 và chấp nhận đối thuyết.

Vấn đề được xác định khi m ột thống kê phù hợp với giả thuyết. Ta biết rằng thống kê bản thân nó là một biến ngẫu nhiên và có hàm phân phối xá c suât tương ứng.Do vậy, để quyết định chấp nhận hay không chấp nliận một giá trị thống kê phù hợp với giả thuyết, chúng ta phải biết sự phân bố của các số liệu thống kê khi giả thuyết là đúng.

Trỏ lại ví dụ về thời gian trung bình (ĩi tới nơi làm việc của cư (lân ở phía Bắc Vingrinia. Để thực hiện phép phân tích, quan chức giao thông lấy mẫu ngẫu nhiên là100 cư dân ở phía Bắc Vingrinia và tính toán thời gian trung bình đi lại đến nơi làm việc của họ. Ong ta sử dụng trung bình mẫu xem trợ giúp quyết định xem có đủ căn cứ để bác bỏ giả thuyết và kết luận rằng thời gian trung bình đi lại có tăng. Trung bình mẫu mà ông ta tính toán được là 47.2 phút. Đây là con số lớn hơn một chút so với con số trung bình 45 phút của giả thuyết. Tuy nhiên, trung bình mẫu là m ột biến ngẫu nhiên và có sự biến động tương ứng. Nếu phương sai trung bình mẫu dư ới giả thuyết là lớn, khi đó giá trị quan sát của X = 47.2 phút không mâu thuẫn với H0 . Diều này được giải thích rõ hơn trong ví dụ 2.1.1.

Ví dụ 2.1.1. Chúng ta tiếp tục với vấn đề về giao thông ở trên. Chúng ta cần quyết định xem là chấp nhận hay không chấp nhận giá trị thống kê nhận từ mẫu ngẫu nhiên là phù hợp với giả thuyết. Ỡ đẫy chúng ta có mẫu ngẫu nhiên gồm n =100

phần tử. Trung bình mẫu quan sát là X — 47.2 phút. Nếu quan chức qiao thông qiả thuyết rằng thời gian trung bình đi lại để làm việc là phân phối chuẩn với ơ =15 phút ( người ta có thể biết một giá trị hợp lý cho ơ dựa vào thực nghiệm trước đó với không gian mẫu). Chúnq ta cũnq biết rằng X xấp xỉ phân phối chuẩn với Ịiỵ và

độ lệch chuẩn ơ Y — ơX / \fn. Chuẩn hóa giá trị quan sát của trung bình mẫu , chúng ta có 47 .2 - 45 _ 2.2 l õ/ VĨÕÕ - 1-5 X - //ọ _ X - ụ ,0 ơx / y j n aY (2.1) t r o n q đ ó Z q l à g i á t r ị q u a n s á t đ ể k i ể m đ ị n h m ẫ u , v à l à t r u n q b ì n h dưới q i ả t h u y ế t . Do đó,

c ì i úng t a c ó gi á t rị c ủa X= 47.2 phút l à 1. 47 (l ộ l ệ c h c huẩn t ừ gi á t rị t rung bì nh, nế u gi ả

t huy ế t l à đúng. ( Di ề u này gi ải t hí c h t ại sao c húng t a sử dụng Ho t rong phương t rì nh 2. 1). C húng t a bi ế t rằng k hoảng 95% c ủa phân phối ngẫu nhiê n c huẩn rơi v ào t rong hai (adsbygoogle = window.adsbygoogle || []).push({});

độ l ệ c h t ới hạn bê n cạnh t rung bì nh. Do đó X= 47.2 phút l à k hông phải mẫu t huẩn v ới gi ả

t huy ế t . o

T rong k iể m đị nh gi ả t huyế t , quy t ắ c ảnh hư ở ng đế n quy ế t đị nh củ a c hú ng t a c ó t hể c ó dạ ng : nế u c ác số l iệ u t hống k ê quan sát được nằm t rong một v ài mi ề n t hì c húng t a c oi

gi ả t huy ế t HQ v à c húng t a bác bó gi ả t huy ế t dó. C á c mi ề n t ới hạn l à m ột khoả ng c ho

t hống k ê c ầ n k iể m đị nh m à c húng t a bá c bỏ HQ. Dôi khi c hú ng t a gọi l à mi ề n bác bỏ .

Gi á t rị t ới hạn l à gi á t rị củ a t hống kê c ầ n ki ể m đị nh m à c hi a m i ề n xá c đị nh t hà nh m ột

m i ề n m à HQ bị bá c bỏ và m ột m i ề n m à H0 đư ợ c c hấ p nhậ n. C húng t a c ầ n bi ế t phâ n phối c ủa t hống k ê c ầ n k iể m đị nh dư ớ i gi ả t huy ế t để t ì m c á c gi á t rị t ớ i hạ n.

Miền t ới hạn phụ thuộc vào sự phân bố thống kê dư ới giả thuyết, đối thuyết, và mức sai số mà chúng ta chấp nhận. Thường thì các miền tới hạn là nằm nhoài ria của phân bố của thống kê cần kiểm định khi Hồ là đúng. Nó có thể là ở rìa trái, rìa phải hoặc cả hai bên và phụ thuộc vào đối thuyết. Ví dụ:

• Nếu một giá trị lớn của thống kê cần kiểm địnli phù hợp với đối thuyết, khi đó miền tới hạn nằm bên phải của hàm phân phối của thống kê cần kiểm định. • Nếu một giá trị lớn của thống kê cần kiểm định phù hợp với đối thuyết, khi đó

miền tới hạn nằm bên trái của hàm phân phối của thống kê cần kiểm định. • Nếu giá trị nhỏ hoặc lớn của thống kê cần kiểm định chỉ dấu đối thuyết và khi

(ĩó miền tới hạn nằm bên trái và bên phải của hàm phân phối của thống kê cần kiểm định.

Có hai loại sai lầm có thể xảy ra khi chúng ta đưa ra kết luận khi kiểm định giả thuyết thống kê.

Sai lầm loại ỉ, là sai lầm mắc phải khi giả thuyết H0 đúng mà ta bỏ giả thuyết ấy đi, tương ứng xá c suất sai lầm a.

Sai lầm loại 2, là sai lầm mắc phải khi giả thuyết HQ mà ta lại chấp nhận nó, tương ứng xá c suất sai lầm ị3.

Nhắc lại rằng chúng ta thường tìm kiếm bằng chứng cho (ĩối thuyết là phù hợp, và chúng ta không muốn thay đỗi thực trạng (tức là bác bỎHQ ) trừ khi có đủ các chứng cứ trong dữ liệu để đưa chúng ta theo hướng đó. Do vậy, khi xây dựng kiểm định giả thuyết chúng ta cần chắc chắn rằng xác suất của sự sai lầm bác bỏ H0 được kiểm soát. Xác suất của sai lầm loại 1 được kí hiệu là a và đôi khi được gọi là mức ý nghĩa của kiểm định. Giá trị a được xá c lập bởi pliân tích, và nó đại diện cho thống kê tối (ĩa của sai lầm loạil mà có thể bỏ qua. Giá trị thường gặp là a = 0.01, 0.05. 0.10 .

Các phương pháp cụ thể cho kết luận thống kê cần kiểm định được đưa ra dưới đây. Nó còn được gọi là tiếp cận giá trị tới hạn, bởi vì quyết định được dựa trên giá trị của thống kê cần kiểm định rơi vào miền bá c bỏ. Ý tưởng của kiểm định giả thuyết sử (lụng phương' pháp tiếp cận giá trị tới hạn (lược minh họa trong ví (lự ??.

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp monte carlo cho bài toán kiểm định (Trang 28 - 37)