Phân phối Chi-Bình phương( Chi-Squared)

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 42)

D. Công thức tính xác suất

3.2.4 Phân phối Chi-Bình phương( Chi-Squared)

Phân phối Chi-bình phương (Chi-squared) ược sử dụng rộng rãi trong thống kê ể tính toán những giá trị sau:

• Ước lượng khoảng tin cậy cho ộ lệch chuẩn của tập tổng thể ối với một phân phối chuẩn, sử dụng ộ lệch chuẩn của mẫu.

• Để kiểm tra ộ ộc lập của hai phân loại tiêu chuẩn ối với các biến a tính.

• Để nghiên cứu ộ biến thiên mẫu trong trường hợp phân phối là phân phối chuẩn.

• Để kiểm thử ộ lệch giữa các tần số kỳ vọng và tần số thực tế.

Nếu có n biến ngẫu nhiên Chuẩn hóa , khi bình phương các biến ó rồi lấy tổng, thì tổng ó sẽ phân phối theo một quy luật gọi là quy luật “Chi – bình phương”, ký hiệu là χ2(n), ọc là quy luật “Chi – bình phương bậc tự do n”.

i. Đại lượng ngẫu nhiên 𝜒2 gọi là có phân phối Chi-bình phương n bậc tự do nếu 𝛘2=𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2 trong ó 𝑋12, 𝑋22, … , 𝑋𝑛2 là các ại lượng ngẫu nhiên có phân phối chuẩn chuẩn tắc. Vậy hàm mật ọ có dạngL

, 𝑥 > 0

𝑓

Ký hiệu 𝜞(x) là hàm gamma 𝜞 𝑡𝑥−𝑡𝑒−𝑡𝑑𝑡. Trong trường hợp này ta ký hiệu X~χ2(n) ii. Tính chất phân phối Chi-bình phương

Nếu X~χ2(n)

➢ E(χ2) = n, D(χ2) = 2n

➢ Với quy luật Khi – bình phương bậc tự do n, ta cần quan tâm giá trị tới hạn mức α, là một con số sao cho biến ngẫu nhiên lớn hơn con số ó bằng úng α.

Con số ó ký hiệu là 𝜒𝑎2(𝑛), ọc là giá trị tới hạn mức α bậc tự do n. Sử dụng bảng giá trị tới hạn

+Ví dụ:Muốn tra giá trị tới hạn Khi – bình phương mức 0,05 bậc tự do 10, tìm

cột 0,05 và dòng 10, ối chiếu ược giá trị 18,31. Ta viết:𝜒0.052 (10) = 18.31 3.2.5 Phân phối Student

Phân phối Student còn ược gọi là phân phối T hay phân phối T Student, trong tiếng anh là T Distribution hay Student’s t-distribution.

Phân phối Student có hình dạng ối xứng trục giữa gần giống với phân phối chuẩn. Khác biệt ở chỗ phần uôi nếu trường hợp có nhiều giá trị trung bình phân phối xa hơn sẽ khiến ồ thị dài và nặng. Phân phối student thường ứng dụng ể mô tả các mẫu khác nhau trong khi phân phối chuẩn lại dùng trong mô tả tổng thể. Do ó, khi dùng ể mô tả mẫu càng lớn thì hình dạng của 2 phân phối càng giống nhau.

Phân phối T – Student thường ược dùng rộng rãi trong việc suy luận phương sai tổng thể khi có giả thiết tổng thể phân phối chuẩn, ặc biệt khi cỡ mẫu càng nhỏ thì ộ chính xác càng cao. Ngoài ra, còn ược ứng dụng trong kiểm ịnh giả tiết về trung bình khi chưa biết phương sai tổng thể là bao nhiêu.

i. Cho U, V là các biến ngẫu nhiên ộc lập, U có phân phối Chuẩn hóa,V có phân phối khi bình phương bậc tự do n, ại lượng ngẫu nhiên T gọi là

phân phối Student n bậc tự do khi 𝑇 = 𝑈 và hàm mật ộ xác suất có √𝑉/𝑛 dạng: 𝑛 + 1 −𝑛+1 𝑓𝑛 𝛤 ( 2 ) 𝑥2 2

Trong trường hợp này ta ký hiệu 𝑇~𝑇(𝑛) ii. Cho 𝑇~𝑇(𝑛)

➢ E(T)=0;D(T)=n/(n-2)

➢ Đối với biến ngẫu nhiên phân phối Student , ta cần quan tâm giá trị tới hạn mức α, Con số ó ký hiệu là 𝑡𝛼(𝑛), ọc là giá trị tới hạn mức α bậc tự do n. là một con số sao cho xác suất ể T lớn hơn con số ó bằng úng α. Sử dụng bảng giá trị tới hạn:

+Ví dụ:Tra giá trị tới hạn mức 0,05 bậc tự do 10, ta tìm cột 0,05 và dòng 10, ối chiếu

3.3 Hệ số Z của Altman 3.3.1 Giới thiệu 3.3.1 Giới thiệu

Công thức iểm Z ể dự oán phá sản ược Edward I. Altman, lúc ó là Trợ lý Giáo sư Tài chính tại Đại học New York, xuất bản năm 1968. Công thức này có thể ược sử dụng ể dự oán xác suất một công ty sẽ phá sản trong vòng hai năm. Điểm Z ược sử dụng ể dự oán các vụ vỡ nợ của công ty và là một biện pháp kiểm soát dễ tính toán ối với tình trạng kiệt quệ tài chính của các công ty trong các nghiên cứu học thuật. Điểm số Z sử dụng nhiều giá trị thu nhập doanh nghiệp và bảng cân ối kế toán ể o lường sức khỏe tài chính của một công ty. Điểm này càng thấp thì khả năng phá sản càng cao. Các công ty có iểm Z trên 3 ược xem là khỏe mạnh và không có khả năng phá sản. Điểm Z trong khoảng từ 1.8 ến 3 là vùng xám.Đây là một mô hình tương ối chính xác - việc ứng dụng iểm Z thực tế trên thế giới ã dự oán thành công 72% sự phá sản của các doanh nghiệp trước 2 năm.

3.3.2 Công thức

Mô hình này kết hợp 5 chỉ số tài chính khác nhau ể xác ịnh khả năng phá sản của các công ty.

Z score = 1,2*A1+1,4*A2+3,3*A3+0,6*A4+1,0*A5 Trong ó:

➢ A1 = Vốn luân chuyển ( = Tài sản ngắn hạn – Nợ ngắn hạn)/Tổng tài sản. Tỷ lệ này cung cấp thông tin về tình hình tài chính ngắn hạn của doanh nghiệp ➢ A2 = Lợi nhuận chưa phân phối/Tổng tài sản. Tỷ lệ này o lường mức ộ phụ

thuộc của doanh nghiệp vào nợ.

➢ A3 = EBIT (Lợi nhuận trước lãi vay và thuế)/Tổng tài sản

➢ A4 = (Giá thị trường của cổ phiếu*Số lượng cổ phiếu lưu hành)/Tổng nợ.Cho thấy giá trị thị trường của doanh nghiệp có thể giảm bao nhiêu trước khi nợ phải trả vượt quá tài sản

➢ A5 = Hiệu quả sử dụng tài sản =Doanh thu/Tổng tài sản. Từ 1 ồng tài sản, doanh nghiệp làm ra bao nhiêu ồng doanh thu thuần.

CHƯƠNG 4.KIỂM ĐỊNH GIẢ THIẾT 4.1 Khái niệm

Các nhà phân tích thống kê kiểm tra một giả thuyết bằng cách o lường và kiểm tra một mẫu ngẫu nhiên của không gian mẫu ang ược phân tích. Việc họ làm là sử dụng một không gian mẫu ngẫu nhiên ể kiểm tra hai giả thuyết khác nhau: giả thuyết không và giả thuyết nghịch.

4.1.1 Giả thiết không (Null Hypothesis)

Giả thuyết không H0 là một loại giả thuyết ược sử dụng trong thống kê giả ịnh rằng không có ý nghĩa thống kê nào tồn tại trong một tập hợp các quan sát nhất ịnh. Giả thuyết không ược cho là úng cho ến khi có bằng chứng thống kê bác bỏ nó với một giả thuyết thay thế khác.

Giả thuyết không giả ịnh rằng bất kì sự khác biệt hay ý nghĩa nào bạn quan sát ược trong một tập hợp dữ liệu là do sự ngẫu nhiên.

4.1.2 Giả thiết nghịch (Alternative hypothesis)

Khái niệm về một giả thuyết nghịch trong thử nghiệm do Jerzy Neyman và Egon Pearson nghĩ ra, và nó ược sử dụng trong bổ ề Neyman-Pearson(E. L. Lehmann, 1986). Nó tạo thành một thành phần chính trong thử nghiệm giả thuyết thống kê hiện ại. Tuy nhiên, nó không phải là một phần trong công thức kiểm tra giả thuyết thống kê của Ronald Fisher, và ông phản ối việc sử dụng nó. Trong cách tiếp cận kiểm ịnh của Fisher, ý tưởng trung tâm là ánh giá xem liệu tập dữ liệu quan sát có thể là kết quả ngẫu nhiên hay không nếu giả thuyết không ược giả ịnh là úng, không có ịnh kiến về những gì các mô hình khác có thể nắm giữ. Thử nghiệm giả thuyết thống kê hiện ại áp ứng iều này loại kiểm ịnh vì giả thuyết nghịch H1 có thể chỉ là sự phủ ịnh của giả thuyết không.

4.1.3 Mức ý nghĩa

Trong thống kê, một kết quả ược gọi là có ý nghĩa thống kê nếu nó không có khả xảy ra là do ngẫu nhiên. Cụm từ Ý nghĩa thống kê ược ặt tên bởi Ronald Fisher. Trong thống kê, ý nghĩa không có nghĩa là quan trọng , nhưng những nhà phân tích chỉ tập trung vào kết quả có thể bỏ sót các dạng mẫu trả lời quan trọng mà có thể rơi dưới ngưỡng ược ặt ra cho kiểm ịnh ý nghĩa.

4.1.4 Miền bác bỏ

Miền bác bỏ là miền xác ịnh trong ồ thị, ược o trong phân phối lấy mẫu của thống kê ang nghiên cứu, dẫn ến bác bỏ giả thuyết không H0 trong một bài kiểm tra giả thuyết. Miền bác bỏ bổ sung cho vùng chấp nhận và ược liên kết với xác suất α, ược gọi là mức ý nghĩa..

4.1.5 Kiểm ịnh giả thiêt thông kê

Bài toán kiểm nghiệm giả thiêt thống kê tổng quát ược ặt dưới dạng sau:

i. Cho ại lượng ngẫu nhiên X và một giả thiết H0 về phân phối xác suất của X. Một mệnh ề khác với H0 ưuọc gọi là ói thiết H1. Cần kiểm nghiệm xem H0 dúng hay sao trên cở sở mẫu lấy ược là (𝑋1, 𝑋2, … , 𝑋𝑛)

Trên không gian mẫu ta xác ịnh miền W gọi là miền bác bỏ giả thiêt H0, phần bù của W ký hiệu là 𝑊 là miền chấp nhận giả thiêt H0.

Mẫu ã lấy ược (𝑥1, 𝑥2, … , 𝑥𝑛) là một iểm xác ịnh của không gian mẫu.

Mẫu ã lấy ược (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑤 thì ta coi giả thiêt H0 là sai và bác bỏ giả thiết ó. Mẫu ã lấy ược (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑊 thì ta coi giả thiêt H0 là úng và chấp nhận giả thiet ó

ii. Các loại sai lầm: Trong việc chọn một quy tắc có thể mắc các sai lầm ➢ Sai lầm loại I: Bác bỏ giả thuyết H0 nhưng thực tế H0 là úng. Sai lầm này ược

ặc trưng bởi 𝑃 = (𝑊)

𝐻0

➢ Sai lầm loại II: Chấp nhận giả thuyết H0 nhưng thực tế H0 là sai. Sai lầm này ược ặc trưng bởi P=(𝑊)

𝐻1

Quyết ịnh bác bỏ hay chấp nhận giả thuyết hoàn toàn dựa vào thông tin mẫu, do ó ta sẽ có xác suất mắc sai lầm loại I và sai lầm loại II. Ký hiệu α là xác suất mắc sai lầm loại I.

Lúc ó α ược gọi là mức ý nghĩa. Ký hiệu β là xác suất mắc sai lầm loại II. α =

P(sai lầm loại I) = P(bác bỏ H0 | H0 úng)= P(chấp nhận H0 | H1 sai).

β = P(sai lầm loại II) = P (chấp nhận H0 | H0 sai) = P(chấp nhận H0 | H1 úng).

+Ví dụ:

Giả thiết H0 cho rằng:” bệnh nhân A uống ược thuốc B”.

Sai lầm loại 1 dẫn ến việc phải i tìm thuôcs khác khi bênh nhân uống ược thuốc B. Còn sai lầm loại 2 lại dẫn ến kết luận là cho bệnh nhân uống thuốc B trong lúc bệnh nhân không uống ược thuốc ó.

iii. Các bước kiểm ịnh giả thiết thống kê

Bước 1: Xác ịnh tham số cần kiểm ịnh, ặt giả thuyết và ối thuyết.

Bước 2: Xác ịnh tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê ối với giá trị mẫu ã cho.

Bước 3: Xác ịnh miền bác bỏ W.

Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0.

4.2 Kiểm ịnh giả thiết tham số

4.2.1 Kiểm ịnh giá trị kì vọng của phân phối chuẩn

i. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2. Hãy kiểm ịnh giả thiết

H0:μ=μ0 với mức ý nghĩa α A.

Trường hợp 1:

➢ 2 ã biết, H1:μ≠μ0

Tiêu chuẩn kiểm ịnh:𝑍 =

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑍 có phân phối chuẩn N(0; 1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

|𝑋− 𝜇0|

𝑃 ( √𝑛≤ 𝑍𝛼) = 1 − 𝛼

Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼

Nếu 𝑍0 ≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H

Nếu giá trị ó thuộc vào miền tiêu chuẩn thì ta bác bỏ giả thuyết, kết luận kỳ vọng của biến X thực sự khác μ0 . Ngược lại, nếu giá trị ó nằm trong miền chấp nhận thì phải kết luận kỳ vọng của X không khác μ0 một cách có ý nghĩa.

+Ví dụ:

Điểm trung bình năm nay của 100 học sinh là 5.9 iểm toán cuối kì, có ộ lệch chuẩn là 1.21. Điểm trung bình mới vừa thay ổi ể ạt danh hiệu thi ua của môn toán năm ngoái là 5.72. Với mức ý nghĩa 1% có phải iểm trung bình năm nay có ạt tiêu chuẩn năm ngoái không?

Giải: Giả thiết H0:μ=μ0 =5.72 ( iểm năm nay bằng năm trước)

2𝛷(𝑍𝛼) = 1 − 𝛼= 1 − 0.01 => 𝑍𝛼= 2.58 |𝑋− 𝜇0| |5.9 − 5.72| 𝑍 𝑋 − 𝜇 0 √𝑛 0 = √𝑛 = 1.21 √100=1.49

Vì 𝑍0 < 𝑍𝛼 nên chấp nhận H0 . Vậy iểm môn toán năm nay không cao hơn năm trước với mức ý nghĩa 1%, nên không ạt ược tiêu chuẩn nhận danh hiệu thi ua.

B.Trường hợp 2

➢ 2 ã biết, H1:μ>μ0

Tiêu chuẩn kiểm ịnh:𝑍 =

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑍 có phân phối chuẩn N(0; 1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

𝑋− 𝜇0 𝑃 ( √𝑛 > 𝑍𝛼) = 1 − 𝛼 Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼 Nếu 𝑍0 > 𝑍𝛼 thì chấp nhận H. C.Trường hợp 3 ➢ 2 ã biết, H1:μ<μ0

Tiêu chuẩn kiểm ịnh:𝑍 =

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑍 có phân phối chuẩn N(0; 1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

𝑋− 𝜇0 𝑃 ( √𝑛 < 𝑍𝛼) = 1 − 𝛼 𝑋 − 𝜇 0 √𝑛 𝑋 − 𝜇 0 √𝑛

Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼

Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H ii. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu

có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2 chưa biết. Hãy kiểm ịnh giả thiết H0:μ=μ0 với mức ý nghĩa α

A.Trường hợp 1

➢ 2 chưa biết, H1:μ≠μ0

Tiêu chuẩn kiểm ịnh:𝑇 =

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑇0 có phân phối Student T(n-1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

|𝑋− 𝜇0|

𝑃 ( √𝑛≤ 𝑇𝛼(𝑛− 1)) = 1 − 𝛼

Tìm 𝑇𝛼 từ bảng phân phối Student

Nếu 𝑇0 ≤ 𝑇𝛼, thì chấp nhận H. Nếu 𝑇0 > 𝑇𝛼 thì bác bỏ H

+Ví dụ:

Một vưòn ươm cây giống, theo quy ịnh khi nào cây cao trung bình trên 1m thì em ra trồng. Đo ngẫu nhiên 25 cây, ược số liệu:

Chiều cao 0.8 0.9 1.0 1.1 1.2 1.3

Số cây 1 2 9 7 4 2

Với mức ý nghĩa 5%, có thể em cây ra trồng không, gải thiết chiều cao của cây theo luật phân phối chuẩn.

𝑋 − 𝜇 0 √𝑛

0 √𝑛

Giải:

Gọi μ là chiều cao trung bình của cây trong vườn. Từ mẫu ta có: H0:μ=μ0 =1 ( chưa nên em cây ra trồng)

-𝑇𝛼= 𝑇0.05(24) = 2.064

-𝑇 = 25

Vì 𝑇0 > 𝑇𝛼 thì bác bỏ H, nên ta kết luận nên em cây ra trồng

B.Trường hợp 2

➢ 2 chưa biết, H1:μ>μ0

Tiêu chuẩn kiểm ịnh:𝑇 =

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑇0 có phân phối Student T(n-1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

𝑋− 𝜇

𝑃 ( > 𝑇𝛼(𝑛− 1)) = 1 − 𝛼

Tìm 𝑇𝛼 từ bảng phân phối Student

Nếu 𝑇0 > 𝑇𝛼, thì chấp nhận H.

C.Trường hợp 3

➢ 2 chưa biết, H1:μ<μ0

Tiêu chuẩn kiểm ịnh:𝑇 =

0 |1.068−1 | 0.122 √ =2.787 𝑋 − 𝜇 0 √𝑛 𝑋 − 𝜇 0 √𝑛

Ta thấy nếu giả thuyết H 0 úng thì thống kê 𝑇0 có phân phối Student T(n-1), ồng thời X là một ước lượng không chệch cho μ.

Từ ó ta có quy tắc kiểm ịnh sau :

𝑋− 𝜇0

𝑃 ( √𝑛 < 𝑇𝛼(𝑛− 1)) = 1 − 𝛼

Tìm 𝑇𝛼 từ bảng phân phối Student Nếu 𝑇0 > 𝑇𝛼, thì bác bỏ H.

4.2.2 Kiểm ịnh so sánh hai trung bình

Cho hai biến ngẫu nhiên ộc lập X và Y, trong ó X có phân phối chuẩn 𝑁(𝜇1; 𝜎12)

mẫu kích thước n1,biến Y có phân phối chuẩn 𝑁(𝜇2; 𝜎22) mẫu kích thước n2. Ta có giả thiết H0:𝜇1 = 𝜇2, ta có các dạng bài toán:

i. Trường hợp 𝜎12; 𝜎22 ã biết: chia thành 3 ối thuyết H1:μ1>μ2 ;H1:μ1<μ2 ;H1:μ1≠μ2

Ta có quy tắc kiểm ịnh như sau:

Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼;Tính thống kê

|𝑋− 𝑌|

𝑍𝛼

Nếu 𝑍0 ≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H

ii. Trường hợp 𝜎12; 𝜎22 chưa biết: chia thành 3 ối thuyết H1:μ1>μ2 ;H1:μ1<μ2 ;H1:μ1≠μ2 (Bài toán Behrens Fisher)

- Trong thống kê, bài toán Behrens-Fisher, ược ặt theo tên của Walter Behrens và Ronald Fisher, là bài toán ước lượng khoảng thời gian và kiểm ịnh giả thuyết liên quan ến sự khác biệt giữa giá trị trung bình của hai quần thể phân bố chuẩn khi phương sai của hai quần thể không ược giả ịnh là bằng nhau , dựa trên hai mẫu ộc lập.

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 42)