i. Cho f(x) là hàm mật độGauss. Khi đó ta có hàm phân phối Gauss
𝐹(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥−∞𝑢
Và tích phân Laplace 𝛷(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥0𝑢 = √2𝜋1 ∫ 𝑒0𝑢 −𝑥22𝑑𝑥
Giữa hàm phân phối Gauss và tích phân Laplace có mối liên hệ F(u)=1/2+Φ(u) D. Công thức tính xác suất Nếu 𝑋~𝑁(𝑎, 𝜎2) 𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷 (𝛽−𝑎𝜎 ) − 𝛷 (𝛼−𝑎𝜎 ) 𝑃(|𝑋 − 𝑎| < 𝛼) = 2𝛷 (𝛼𝜎) với α>0 Nếu 𝑋~𝑁(0,1) 𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷(𝛽) − 𝛷(𝛼) 𝑃(|𝑋| < 𝛼) = 2𝛷(𝛼) với α>0
+Ví dụ: Bài toán của Lambert Quetelet
Giả sử trung bình độ rộng của ngực của một người đàn ông trưởng thành trung
bình là 39,8 inch và độ lệch chuẩn là 2.05 inch. Vậy xác suất khi chọn ngẫu nhiên
20 người nam, 5 người đầu có độ rộng của ngực mình ít nhất 40inch?
Giải: Gọi p là xác suất khi chọn được người đàn ông có độ rộng ngực của mình từ
40 inch trở lên. Nếu X là biến có phân phối chuẩn với trịtrung bình là 39.8 và độ
lệch chuẩn là 2.05 thì ta có đồ thị:
Hình 7. Hình thể hiện ví dụ phân phối chuẩn Gọi i là độ rộng của ngực i=33,…..Ta phân tích
thấy được độ rộng i từ33 đến 48 inch có tần số tương đối với phần đồ thị có hàm mật độ P(i- 1/2<X<1/2) khi X là biến có phân phối đều với X có phân phối chuẩn 𝑋~𝑁(𝑎, 𝜎2)
Vậy sử dụng bảng tra tích phân Laplace ta có thểtìm được:
𝑝 = 𝑃(𝑋 ≥ 40) = 𝑃 (𝑋 − 39.82.05 ≥ 40 − 39.82.05 ) = 𝑃 (𝑋 − 39.82.05 ≥ 0.1) = 𝑃(𝑍 ≥ 0.1) = 1 − 𝛷(0.1) ≈ 1 − 0.5398 ≈ 0.46
Vậy xác suất để 5 người chọn đầu thỏa yêu cầu bài toán là :𝐶205 (0.46)5(0.54)15 ≈ 0.03
3.2.4 Phân phối Chi-Bình phương( Chi-Squared)
Phân phối Chi-bình phương (Chi-squared) được sử dụng rộng rãi trong thống kê để
tính toán những giá trị sau:
Ước lượng khoảng tin cậy cho độ lệch chuẩn của tập tổng thể đối với một phân phối chuẩn, sử dụng độ lệch chuẩn của mẫu.
Để kiểm tra độ độc lập của hai phân loại tiêu chuẩn đối với các biến đa tính.
Để nghiên cứu độ biến thiên mẫu trong trường hợp phân phối là phân phối chuẩn.
Để kiểm thử độ lệch giữa các tần số kỳ vọng và tần số thực tế.
Nếu có n biến ngẫu nhiên Chuẩn hóa , khi bình phương các biến đó rồi lấy tổng, thì tổng đó sẽ phân phối theo một quy luật gọi là quy luật “Chi –bình phương”, ký
hiệu là χ2(n), đọc là quy luật “Chi –bình phương bậc tựdo n”.
i. Đại lượng ngẫu nhiên 𝜒2 gọi là có phân phối Chi-bình phương n bậc tự
do nếu 𝛘2=𝑋12+ 𝑋22 + ⋯ + 𝑋𝑛2 trong đó 𝑋12, 𝑋22, … , 𝑋𝑛2 là các đại
lượng ngẫu nhiên có phân phối chuẩn chuẩn tắc. Vậy hàm mật đọ có dạngL
𝑓(𝑥) = { 1
𝛤 (𝑛2)2𝑛2𝑥𝑛2−1𝑒−𝑥/2, 𝑥 > 0 0, 𝑥 ≤ 0
Ký hiệu 𝜞(x) là hàm gamma 𝜞(x) =∫ 𝑡0+∞ 𝑥−𝑡𝑒−𝑡𝑑𝑡. Trong trường hợp này ta ký hiệu X~χ2(n)
ii. Tính chất phân phối Chi-bình phương
Nếu X~χ2(n)
E(χ2) = n, D(χ2) = 2n
Với quy luật Khi –bình phương bậc tự do n, ta cần quan tâm giá trị tới hạn mức α, là một con số sao cho biến ngẫu nhiên lớn hơn con sốđó bằng đúng
α. Con sốđó ký hiệu là 𝜒𝑎2(𝑛), đọc là giá trị tới hạn mức α bậc tự do n. Sử dụng bảng giá trị tới hạn
+Ví dụ:Muốn tra giá trị tới hạn Khi –bình phương mức 0,05 bậc tự do 10, tìm cột 0,05 và dòng 10, đối chiếu được giá trị 18,31. Ta viết:𝜒0.052 (10) = 18.31
3.2.5 Phân phối Student
Phân phối Student còn được gọi là phân phối T hay phân phối T Student, trong tiếng anh là T Distribution hay Student’s t-distribution.
Phân phối Student có hình dạng đối xứng trục giữa gần giống với phân phối chuẩn. Khác biệt ở chỗ phần đuôi nếu trường hợp có nhiều giá trị trung bình phân phối xa
hơn sẽ khiến đồ thị dài và nặng. Phân phối student thường ứng dụng để mô tả các mẫu khác nhau trong khi phân phối chuẩn lại dùng trong mô tả tổng thể. Do đó, khi dùng để mô tả mẫu càng lớn thì hình dạng của 2 phân phối càng giống nhau.
Phân phối T – Student thường được dùng rộng rãi trong việc suy luận phương sai
tổng thể khi có giả thiết tổng thể phân phối chuẩn, đặc biệt khi cỡ mẫu càng nhỏ thì
độ chính xác càng cao. Ngoài ra, còn được ứng dụng trong kiểm định giả tiết về trung bình khi chưa biết phương sai tổng thể là bao nhiêu.
i. Cho U, V là các biến ngẫu nhiên độc lập, U có phân phối Chuẩn hóa,V có phân phối khi bình phương bậc tựdo n, đại lượng ngẫu nhiên T gọi là phân phối Student n bậc tự do khi 𝑇 = √𝑉/𝑛𝑈 và hàm mật độ xác suất có dạng: 𝑓𝑛(𝑥) = 𝛤 (𝑛 + 12 ) √𝑛𝜋𝛤 (𝑛2)(1 + 𝑥2 𝑛 ) −𝑛+12
Trong trường hợp này ta ký hiệu 𝑇~𝑇(𝑛)
ii. Cho 𝑇~𝑇(𝑛)
Đối với biến ngẫu nhiên phân phối Student , ta cần quan tâm giá trị tới hạn mức α, Con sốđó ký hiệu là 𝑡𝛼(𝑛) , đọc là giá trị tới hạn mức α bậc tự do n. là một con số sao cho xác suất để T lớn hơn con sốđó bằng đúng α.
Sử dụng bảng giá trị tới hạn:
+Ví dụ:Tra giá trị tới hạn mức 0,05 bậc tự do 10, ta tìm cột 0,05 và dòng 10, đối chiếu ô tương ứng được con số 1,812. Ta viết 𝑡0.05(10) = 1.812
3.3 Hệ số Z của Altman 3.3.1 Giới thiệu 3.3.1 Giới thiệu
Công thức điểm Z để dự đoán phá sản được Edward I. Altman, lúc đó là Trợ lý
Giáo sư Tài chính tại Đại học New York, xuất bản năm 1968. Công thức này có thể được sử dụng để dự đoán xác suất một công ty sẽ phá sản trong vòng hai năm. Điểm Z được sử dụng để dự đoán các vụ vỡ nợ của công ty và là một biện pháp
kiểm soát dễ tính toán đối với tình trạng kiệt quệ tài chính của các công ty trong các nghiên cứu học thuật. Điểm số Z sử dụng nhiều giá trị thu nhập doanh nghiệp và bảng cân đối kế toán đểđo lường sức khỏe tài chính của một công ty. Điểm này càng thấp thì khả năng phá sản càng cao. Các công ty có điểm Z trên 3 được xem là khỏe mạnh và không có khả năng phá sản. Điểm Z trong khoảng từ 1.8 đến 3 là
vùng xám.Đây là một mô hình tương đối chính xác - việc ứng dụng điểm Z thực tế
trên thế giới đã dự đoán thành công 72% sự phá sản của các doanh nghiệp trước 2
năm.
3.3.2 Công thức
Mô hình này kết hợp 5 chỉ số tài chính khác nhau để xác định khả năng phá sản của các công ty.
Z score = 1,2*A1+1,4*A2+3,3*A3+0,6*A4+1,0*A5
Trong đó:
A1 = Vốn luân chuyển ( = Tài sản ngắn hạn – Nợ ngắn hạn)/Tổng tài sản. Tỷ lệ này cung cấp thông tin về tình hình tài chính ngắn hạn của doanh nghiệp
A2 = Lợi nhuận chưa phân phối/Tổng tài sản. Tỷ lệ này đo lường mức độ
phụ thuộc của doanh nghiệp vào nợ.
A3 = EBIT (Lợi nhuận trước lãi vay và thuế)/Tổng tài sản
A4 = (Giá thị trường của cổ phiếu*Số lượng cổ phiếu lưu hành)/Tổng nợ.Cho thấy giá trị thịtrường của doanh nghiệp có thể giảm bao nhiêu trước khi nợ phải trả vượt quá tài sản
A5 = Hiệu quả sử dụng tài sản =Doanh thu/Tổng tài sản. Từ 1 đồng tài sản, doanh nghiệp làm ra bao nhiêu đồng doanh thu thuần.
CHƯƠNG 4. KIỂM ĐỊNH GIẢ THIẾT 4.1 Khái niệm 4.1 Khái niệm
Các nhà phân tích thống kê kiểm tra một giả thuyết bằng cách đo lường và kiểm tra một mẫu ngẫu nhiên của không gian mẫu đang được phân tích. Việc họ làm là sử
dụng một không gian mẫu ngẫu nhiên để kiểm tra hai giả thuyết khác nhau: giả
thuyết không và giả thuyết nghịch.
4.1.1 Giả thiết không (Null Hypothesis)
Giả thuyết không H0 là một loại giả thuyết được sử dụng trong thống kê giả định rằng không có ý nghĩa thống kê nào tồn tại trong một tập hợp các quan sát nhất
định. Giả thuyết không được cho là đúng cho đến khi có bằng chứng thống kê bác bỏ nó với một giả thuyết thay thế khác.
Giả thuyết không giả định rằng bất kì sự khác biệt hay ý nghĩa nào bạn quan sát
được trong một tập hợp dữ liệu là do sự ngẫu nhiên.
4.1.2 Giả thiết nghịch (Alternative hypothesis)
Khái niệm về một giả thuyết nghịch trong thử nghiệm do Jerzy Neyman và Egon
Pearson nghĩ ra, và nó được sử dụng trong bổ đề Neyman-Pearson(E. L. Lehmann, 1986). Nó tạo thành một thành phần chính trong thử nghiệm giả thuyết thống kê hiện đại. Tuy nhiên, nó không phải là một phần trong công thức kiểm tra giả thuyết thống kê của Ronald Fisher, và ông phản đối việc sử dụng nó. Trong cách tiếp cận kiểm định của Fisher, ý tưởng trung tâm là đánh giá xem liệu tập dữ liệu quan sát có thể là kết quả ngẫu nhiên hay không nếu giả thuyết không được giả định là
đúng, không có định kiến về những gì các mô hình khác có thể nắm giữ. Thử
nghiệm giả thuyết thống kê hiện đại đáp ứng điều này loại kiểm định vì giả thuyết nghịch H1 có thể chỉ là sự phủđịnh của giả thuyết không.
4.1.3 Mức ý nghĩa
Trong thống kê, một kết quả được gọi là có ý nghĩa thống kê nếu nó không có khả
xảy ra là do ngẫu nhiên. Cụm từ Ý nghĩa thống kê được đặt tên bởi Ronald Fisher. Trong thống kê, ý nghĩa không có nghĩa là quan trọng , nhưng những nhà phân tích chỉ tập trung vào kết quả có thể bỏ sót các dạng mẫu trả lời quan trọng mà có thể rơi dưới ngưỡng được đặt ra cho kiểm định ý nghĩa.
4.1.4 Miền bác bỏ
Miền bác bỏ là miền xác định trong đồ thị, được đo trong phân phối lấy mẫu của thống kê đang nghiên cứu, dẫn đến bác bỏ giả thuyết không H0 trong một bài kiểm tra giả thuyết. Miền bác bỏ bổ sung cho vùng chấp nhận và được liên kết với xác suất α, được gọi là mức ý nghĩa..
4.1.5 Kiểm định giả thiêt thông kê
Bài toán kiểm nghiệm giả thiêt thống kê tổng quát được đặt dưới dạng sau: i. Cho đại lượng ngẫu nhiên X và một giả thiết H0 về phân phối xác suất
của X. Một mệnh đề khác với H0đưuọc gọi là đói thiết H1. Cần kiểm nghiệm xem H0 dúng hay sao trên cở sở mẫu lấy được là (𝑋1, 𝑋2, … , 𝑋𝑛)
Trên không gian mẫu ta xác định miền W gọi là miền bác bỏ giả thiêt H0, phần bù của W ký hiệu là 𝑊 là miền chấp nhận giả thiêt H0.
Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) là một điểm xác định của không gian mẫu.
Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑤 thì ta coi giả thiêt H0 là sai và bác bỏ giả thiết
đó.
Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑊 thì ta coi giả thiêt H0 là đúng và chấp nhận giả thiet đó
ii. Các loại sai lầm: Trong việc chọn một quy tắc có thể mắc các sai lầm
Sai lầm loại I: Bác bỏ giả thuyết H0 nhưng thực tế H0 là đúng. Sai lầm này
được đặc trưng bởi 𝑃 = (𝐻𝑊
0)
Sai lầm loại II: Chấp nhận giả thuyết H0nhưng thực tế H0 là sai. Sai lầm này
được đặc trưng bởi P=(𝐻𝑊
1)
Quyết định bác bỏ hay chấp nhận giả thuyết hoàn toàn dựa vào thông tin mẫu, do
đó ta sẽ có xác suất mắc sai lầm loại I và sai lầm loại II. Ký hiệu α là xác suất mắc sai lầm loại I.
Lúc đó α được gọi là mức ý nghĩa. Ký hiệu β là xác suất mắc sai lầm loại II.
α = P(sai lầm loại I) = P(bác bỏ H0 | H0 đúng)= P(chấp nhận H0 | H1 sai).
β = P(sai lầm loại II) = P (chấp nhận H0 | H0 sai) = P(chấp nhận H0 | H1đúng).
+Ví dụ:
Giả thiết H0 cho rằng:” bệnh nhân A uống được thuốc B”.
Sai lầm loại 1 dẫn đến việc phải đi tìm thuôcs khác khi bênh nhân uống được thuốc B.
Còn sai lầm loại 2 lại dẫn đến kết luận là cho bệnh nhân uống thuốc B trong lúc bệnh nhân không uống được thuốc đó.
iii. Các bước kiểm định giả thiết thống kê
Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết.
Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho.
Bước 3: Xác định miền bác bỏ W.
Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0.
4.2 Kiểm định giả thiết tham số
4.2.1 Kiểm định giá trị kì vọng của phân phối chuẩn
i. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2. Hãy kiểm định giả thiết H0:μ=μ0 với mức ý nghĩa α A. Trường hợp 1: 2đã biết, H1:μ≠μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0 √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0 √𝑛 có phân phối chuẩn
N(0; 1), đồng thời X là một ước lượng không chệch cho μ. Từđó ta có quy tắc kiểm định sau :
Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼
Nếu 𝑍0 ≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H
Nếu giá trịđó thuộc vào miền tiêu chuẩn thì ta bác bỏ giả thuyết, kết luận kỳ vọng của biến X thực sự khác μ0. Ngược lại, nếu giá trịđó nằm trong miền chấp nhận thì phải kết luận kỳ vọng của X không khác μ0 một cách có ý nghĩa.
+Ví dụ:
Điểm trung bình năm nay của 100 học sinh là 5.9 điểm toán cuối kì, có độ lệch chuẩn là 1.21. Điểm trung bình mới vừa thay đổi đểđạt danh hiệu thi đua của môn toán năm ngoái là 5.72. Với mức ý nghĩa 1% có phải điểm trung bình năm nay có
đạt tiêu chuẩn năm ngoái không?
Giải: Giả thiết H0:μ=μ0 =5.72 ( điểm năm nay bằng năm trước)
2𝛷(𝑍𝛼) = 1 − 𝛼 = 1 − 0.01 => 𝑍𝛼 = 2.58 𝑍0 =|𝑋 − 𝜇 0|√𝑛 = |5.9 − 5.72|
1.21 √100 = 1.49
Vì 𝑍0 < 𝑍𝛼 nên chấp nhận H0 . Vậy điểm môn toán năm nay không cao hơn năm
trước với mức ý nghĩa 1%, nên không đạt được tiêu chuẩn nhận danh hiệu thi đua.
B. Trường hợp 2 2đã biết, H1:μ>μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0 √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0 √𝑛 có phân phối chuẩn
Từđó ta có quy tắc kiểm định sau : 𝑃 (𝑋 − 𝜇 0√𝑛 > 𝑍𝛼) = 1 − 𝛼 Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼 Nếu 𝑍0 > 𝑍𝛼 thì chấp nhận H. C. Trường hợp 3 2đã biết, H1:μ<μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0 √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0 √𝑛 có phân phối chuẩn
N(0; 1), đồng thời X là một ước lượng không chệch cho μ. Từđó ta có quy tắc kiểm định sau :
𝑃 (𝑋 − 𝜇 0√𝑛 < 𝑍𝛼) = 1 − 𝛼
Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼
Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H
ii. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2chưa biết. Hãy kiểm định giả thiết H0:μ=μ0 với mức ý nghĩa α
2 chưa biết, H1:μ≠μ0 Tiêu chuẩn kiểm định:𝑇 = 𝑋−𝜇0
√𝑛
Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇0 = 𝑋−𝜇0
√𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ.
Từđó ta có quy tắc kiểm định sau :
𝑃 (|𝑋 − 𝜇 0|√𝑛 ≤ 𝑇𝛼(𝑛 − 1)) = 1 − 𝛼
Tìm 𝑇𝛼 từ bảng phân phối Student
Nếu 𝑇0 ≤ 𝑇𝛼, thì chấp nhận H. Nếu 𝑇0 > 𝑇𝛼 thì bác bỏ H
+Ví dụ:
Một vưòn ươm cây giống, theo quy định khi nào cây cao trung bình trên 1m thì
đem ra trồng. Đo ngẫu nhiên 25 cây, được số liệu:
Chiều cao 0.8 0.9 1.0 1.1 1.2 1.3
Số cây 1 2 9 7 4 2
Với mức ý nghĩa 5%, có thể đem cây ra trồng không, gải thiết chiều cao của cây theo luật phân phối chuẩn.
Giải:
Gọi μ là chiều cao trung bình của cây trong vườn. Từ mẫu ta có: H0:μ=μ0 =1 ( chưa nên đem cây ra trồng)
-𝑇𝛼 = 𝑇0.05(24) = 2.064
-𝑇0 =|1.068−1|0.122 √25 = 2.787
Vì 𝑇0 > 𝑇𝛼 thì bác bỏ H, nên ta kết luận nên đem cây ra trồng
B. Trường hợp 2 2 chưa biết, H1:μ>μ0 Tiêu chuẩn kiểm định:𝑇 = 𝑋−𝜇0