Tích phân Laplace

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 47)

i. Cho f(x) là hàm mật độGauss. Khi đó ta có hàm phân phối Gauss

𝐹(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥−∞𝑢

Và tích phân Laplace 𝛷(𝑢) = ∫ 𝑓(𝑥)𝑑𝑥0𝑢 = √2𝜋1 ∫ 𝑒0𝑢 −𝑥22𝑑𝑥

Giữa hàm phân phối Gauss và tích phân Laplace có mối liên hệ F(u)=1/2+Φ(u) D. Công thức tính xác suất Nếu 𝑋~𝑁(𝑎, 𝜎2)  𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷 (𝛽−𝑎𝜎 ) − 𝛷 (𝛼−𝑎𝜎 )  𝑃(|𝑋 − 𝑎| < 𝛼) = 2𝛷 (𝛼𝜎) với α>0 Nếu 𝑋~𝑁(0,1)  𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷(𝛽) − 𝛷(𝛼)  𝑃(|𝑋| < 𝛼) = 2𝛷(𝛼) với α>0

+Ví dụ: Bài toán của Lambert Quetelet

Giả sử trung bình độ rộng của ngực của một người đàn ông trưởng thành trung

bình là 39,8 inch và độ lệch chuẩn là 2.05 inch. Vậy xác suất khi chọn ngẫu nhiên

20 người nam, 5 người đầu có độ rộng của ngực mình ít nhất 40inch?

Giải: Gọi p là xác suất khi chọn được người đàn ông có độ rộng ngực của mình từ

40 inch trở lên. Nếu X là biến có phân phối chuẩn với trịtrung bình là 39.8 và độ

lệch chuẩn là 2.05 thì ta có đồ thị:

Hình 7. Hình thể hiện ví dụ phân phối chuẩn Gọi i là độ rộng của ngực i=33,…..Ta phân tích

thấy được độ rộng i từ33 đến 48 inch có tần số tương đối với phần đồ thị có hàm mật độ P(i- 1/2<X<1/2) khi X là biến có phân phối đều với X có phân phối chuẩn 𝑋~𝑁(𝑎, 𝜎2)

Vậy sử dụng bảng tra tích phân Laplace ta có thểtìm được:

𝑝 = 𝑃(𝑋 ≥ 40) = 𝑃 (𝑋 − 39.82.05 ≥ 40 − 39.82.05 ) = 𝑃 (𝑋 − 39.82.05 ≥ 0.1) = 𝑃(𝑍 ≥ 0.1) = 1 − 𝛷(0.1) ≈ 1 − 0.5398 ≈ 0.46

Vậy xác suất để 5 người chọn đầu thỏa yêu cầu bài toán là  :𝐶205 (0.46)5(0.54)15 ≈ 0.03

3.2.4 Phân phối Chi-Bình phương( Chi-Squared)

Phân phối Chi-bình phương (Chi-squared) được sử dụng rộng rãi trong thống kê để

tính toán những giá trị sau:

 Ước lượng khoảng tin cậy cho độ lệch chuẩn của tập tổng thể đối với một phân phối chuẩn, sử dụng độ lệch chuẩn của mẫu.

 Để kiểm tra độ độc lập của hai phân loại tiêu chuẩn đối với các biến đa tính.

 Để nghiên cứu độ biến thiên mẫu trong trường hợp phân phối là phân phối chuẩn.

 Để kiểm thử độ lệch giữa các tần số kỳ vọng và tần số thực tế.

Nếu có n biến ngẫu nhiên Chuẩn hóa , khi bình phương các biến đó rồi lấy tổng, thì tổng đó sẽ phân phối theo một quy luật gọi là quy luật “Chi –bình phương”, ký

hiệu là χ2(n), đọc là quy luật “Chi –bình phương bậc tựdo n”.

i. Đại lượng ngẫu nhiên 𝜒2 gọi là có phân phối Chi-bình phương n bậc tự

do nếu 𝛘2=𝑋12+ 𝑋22 + ⋯ + 𝑋𝑛2 trong đó 𝑋12, 𝑋22, … , 𝑋𝑛2 là các đại

lượng ngẫu nhiên có phân phối chuẩn chuẩn tắc. Vậy hàm mật đọ có dạngL

𝑓(𝑥) = { 1

𝛤 (𝑛2)2𝑛2𝑥𝑛2−1𝑒−𝑥/2, 𝑥 > 0 0, 𝑥 ≤ 0

Ký hiệu 𝜞(x) là hàm gamma 𝜞(x) =∫ 𝑡0+∞ 𝑥−𝑡𝑒−𝑡𝑑𝑡. Trong trường hợp này ta ký hiệu X~χ2(n)

ii. Tính chất phân phối Chi-bình phương

Nếu X~χ2(n)

 E(χ2) = n, D(χ2) = 2n

 Với quy luật Khi –bình phương bậc tự do n, ta cần quan tâm giá trị tới hạn mức α, là một con số sao cho biến ngẫu nhiên lớn hơn con sốđó bằng đúng

α. Con sốđó ký hiệu là 𝜒𝑎2(𝑛), đọc là giá trị tới hạn mức α bậc tự do n. Sử dụng bảng giá trị tới hạn

+Ví dụ:Muốn tra giá trị tới hạn Khi –bình phương mức 0,05 bậc tự do 10, tìm cột 0,05 và dòng 10, đối chiếu được giá trị 18,31. Ta viết:𝜒0.052 (10) = 18.31

3.2.5 Phân phối Student

Phân phối Student còn được gọi là phân phối T hay phân phối T Student, trong tiếng anh là T Distribution hay Student’s t-distribution.

Phân phối Student có hình dạng đối xứng trục giữa gần giống với phân phối chuẩn. Khác biệt ở chỗ phần đuôi nếu trường hợp có nhiều giá trị trung bình phân phối xa

hơn sẽ khiến đồ thị dài và nặng. Phân phối student thường ứng dụng để mô tả các mẫu khác nhau trong khi phân phối chuẩn lại dùng trong mô tả tổng thể. Do đó, khi dùng để mô tả mẫu càng lớn thì hình dạng của 2 phân phối càng giống nhau.

Phân phối T – Student thường được dùng rộng rãi trong việc suy luận phương sai

tổng thể khi có giả thiết tổng thể phân phối chuẩn, đặc biệt khi cỡ mẫu càng nhỏ thì

độ chính xác càng cao. Ngoài ra, còn được ứng dụng trong kiểm định giả tiết về trung bình khi chưa biết phương sai tổng thể là bao nhiêu.

i. Cho U, V là các biến ngẫu nhiên độc lập, U có phân phối Chuẩn hóa,V có phân phối khi bình phương bậc tựdo n, đại lượng ngẫu nhiên T gọi là phân phối Student n bậc tự do khi 𝑇 = √𝑉/𝑛𝑈 và hàm mật độ xác suất có dạng: 𝑓𝑛(𝑥) = 𝛤 (𝑛 + 12 ) √𝑛𝜋𝛤 (𝑛2)(1 + 𝑥2 𝑛 ) −𝑛+12

Trong trường hợp này ta ký hiệu 𝑇~𝑇(𝑛)

ii. Cho 𝑇~𝑇(𝑛)

 Đối với biến ngẫu nhiên phân phối Student , ta cần quan tâm giá trị tới hạn mức α, Con sốđó ký hiệu là 𝑡𝛼(𝑛) , đọc là giá trị tới hạn mức α bậc tự do n. là một con số sao cho xác suất để T lớn hơn con sốđó bằng đúng α.

Sử dụng bảng giá trị tới hạn:

+Ví dụ:Tra giá trị tới hạn mức 0,05 bậc tự do 10, ta tìm cột 0,05 và dòng 10, đối chiếu ô tương ứng được con số 1,812. Ta viết 𝑡0.05(10) = 1.812

3.3 Hệ số Z của Altman 3.3.1 Giới thiệu 3.3.1 Giới thiệu

Công thức điểm Z để dự đoán phá sản được Edward I. Altman, lúc đó là Trợ lý

Giáo sư Tài chính tại Đại học New York, xuất bản năm 1968. Công thức này có thể được sử dụng để dự đoán xác suất một công ty sẽ phá sản trong vòng hai năm. Điểm Z được sử dụng để dự đoán các vụ vỡ nợ của công ty và là một biện pháp

kiểm soát dễ tính toán đối với tình trạng kiệt quệ tài chính của các công ty trong các nghiên cứu học thuật. Điểm số Z sử dụng nhiều giá trị thu nhập doanh nghiệp và bảng cân đối kế toán đểđo lường sức khỏe tài chính của một công ty. Điểm này càng thấp thì khả năng phá sản càng cao. Các công ty có điểm Z trên 3 được xem là khỏe mạnh và không có khả năng phá sản. Điểm Z trong khoảng từ 1.8 đến 3 là

vùng xám.Đây là một mô hình tương đối chính xác - việc ứng dụng điểm Z thực tế

trên thế giới đã dự đoán thành công 72% sự phá sản của các doanh nghiệp trước 2

năm.

3.3.2 Công thức

Mô hình này kết hợp 5 chỉ số tài chính khác nhau để xác định khả năng phá sản của các công ty.

Z score = 1,2*A1+1,4*A2+3,3*A3+0,6*A4+1,0*A5

Trong đó:

 A1 = Vốn luân chuyển ( = Tài sản ngắn hạn – Nợ ngắn hạn)/Tổng tài sản. Tỷ lệ này cung cấp thông tin về tình hình tài chính ngắn hạn của doanh nghiệp

 A2 = Lợi nhuận chưa phân phối/Tổng tài sản. Tỷ lệ này đo lường mức độ

phụ thuộc của doanh nghiệp vào nợ.

 A3 = EBIT (Lợi nhuận trước lãi vay và thuế)/Tổng tài sản

 A4 = (Giá thị trường của cổ phiếu*Số lượng cổ phiếu lưu hành)/Tổng nợ.Cho thấy giá trị thịtrường của doanh nghiệp có thể giảm bao nhiêu trước khi nợ phải trả vượt quá tài sản

 A5 = Hiệu quả sử dụng tài sản =Doanh thu/Tổng tài sản. Từ 1 đồng tài sản, doanh nghiệp làm ra bao nhiêu đồng doanh thu thuần.

CHƯƠNG 4. KIỂM ĐỊNH GIẢ THIẾT 4.1 Khái niệm 4.1 Khái niệm

Các nhà phân tích thống kê kiểm tra một giả thuyết bằng cách đo lường và kiểm tra một mẫu ngẫu nhiên của không gian mẫu đang được phân tích. Việc họ làm là sử

dụng một không gian mẫu ngẫu nhiên để kiểm tra hai giả thuyết khác nhau: giả

thuyết không và giả thuyết nghịch.

4.1.1 Giả thiết không (Null Hypothesis)

Giả thuyết không H0 là một loại giả thuyết được sử dụng trong thống kê giả định rằng không có ý nghĩa thống kê nào tồn tại trong một tập hợp các quan sát nhất

định. Giả thuyết không được cho là đúng cho đến khi có bằng chứng thống kê bác bỏ nó với một giả thuyết thay thế khác.

Giả thuyết không giả định rằng bất kì sự khác biệt hay ý nghĩa nào bạn quan sát

được trong một tập hợp dữ liệu là do sự ngẫu nhiên.

4.1.2 Giả thiết nghịch (Alternative hypothesis)

Khái niệm về một giả thuyết nghịch trong thử nghiệm do Jerzy Neyman và Egon

Pearson nghĩ ra, và nó được sử dụng trong bổ đề Neyman-Pearson(E. L. Lehmann, 1986). Nó tạo thành một thành phần chính trong thử nghiệm giả thuyết thống kê hiện đại. Tuy nhiên, nó không phải là một phần trong công thức kiểm tra giả thuyết thống kê của Ronald Fisher, và ông phản đối việc sử dụng nó. Trong cách tiếp cận kiểm định của Fisher, ý tưởng trung tâm là đánh giá xem liệu tập dữ liệu quan sát có thể là kết quả ngẫu nhiên hay không nếu giả thuyết không được giả định là

đúng, không có định kiến về những gì các mô hình khác có thể nắm giữ. Thử

nghiệm giả thuyết thống kê hiện đại đáp ứng điều này loại kiểm định vì giả thuyết nghịch H1 có thể chỉ là sự phủđịnh của giả thuyết không.

4.1.3 Mức ý nghĩa

Trong thống kê, một kết quả được gọi là có ý nghĩa thống kê nếu nó không có khả

xảy ra là do ngẫu nhiên. Cụm từ Ý nghĩa thống kê được đặt tên bởi Ronald Fisher. Trong thống kê, ý nghĩa không có nghĩa là quan trọng , nhưng những nhà phân tích chỉ tập trung vào kết quả có thể bỏ sót các dạng mẫu trả lời quan trọng mà có thể rơi dưới ngưỡng được đặt ra cho kiểm định ý nghĩa.

4.1.4 Miền bác bỏ

Miền bác bỏ là miền xác định trong đồ thị, được đo trong phân phối lấy mẫu của thống kê đang nghiên cứu, dẫn đến bác bỏ giả thuyết không H0 trong một bài kiểm tra giả thuyết. Miền bác bỏ bổ sung cho vùng chấp nhận và được liên kết với xác suất α, được gọi là mức ý nghĩa..

4.1.5 Kiểm định giả thiêt thông kê

Bài toán kiểm nghiệm giả thiêt thống kê tổng quát được đặt dưới dạng sau: i. Cho đại lượng ngẫu nhiên X và một giả thiết H0 về phân phối xác suất

của X. Một mệnh đề khác với H0đưuọc gọi là đói thiết H1. Cần kiểm nghiệm xem H0 dúng hay sao trên cở sở mẫu lấy được là (𝑋1, 𝑋2, … , 𝑋𝑛)

Trên không gian mẫu ta xác định miền W gọi là miền bác bỏ giả thiêt H0, phần bù của W ký hiệu là 𝑊 là miền chấp nhận giả thiêt H0.

Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) là một điểm xác định của không gian mẫu.

Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑤 thì ta coi giả thiêt H0 là sai và bác bỏ giả thiết

đó.

Mẫu đã lấy được (𝑥1, 𝑥2, … , 𝑥𝑛) ∈ 𝑊 thì ta coi giả thiêt H0 là đúng và chấp nhận giả thiet đó

ii. Các loại sai lầm: Trong việc chọn một quy tắc có thể mắc các sai lầm

 Sai lầm loại I: Bác bỏ giả thuyết H0 nhưng thực tế H0 là đúng. Sai lầm này

được đặc trưng bởi 𝑃 = (𝐻𝑊

0)

 Sai lầm loại II: Chấp nhận giả thuyết H0nhưng thực tế H0 là sai. Sai lầm này

được đặc trưng bởi P=(𝐻𝑊

1)

Quyết định bác bỏ hay chấp nhận giả thuyết hoàn toàn dựa vào thông tin mẫu, do

đó ta sẽ có xác suất mắc sai lầm loại I và sai lầm loại II. Ký hiệu α là xác suất mắc sai lầm loại I.

Lúc đó α được gọi là mức ý nghĩa. Ký hiệu β là xác suất mắc sai lầm loại II.

α = P(sai lầm loại I) = P(bác bỏ H0 | H0 đúng)= P(chấp nhận H0 | H1 sai).

β = P(sai lầm loại II) = P (chấp nhận H0 | H0 sai) = P(chấp nhận H0 | H1đúng).

+Ví dụ:

Giả thiết H0 cho rằng:” bệnh nhân A uống được thuốc B”.

Sai lầm loại 1 dẫn đến việc phải đi tìm thuôcs khác khi bênh nhân uống được thuốc B.

Còn sai lầm loại 2 lại dẫn đến kết luận là cho bệnh nhân uống thuốc B trong lúc bệnh nhân không uống được thuốc đó.

iii. Các bước kiểm định giả thiết thống kê

Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết.

Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho.

Bước 3: Xác định miền bác bỏ W.

Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0.

4.2 Kiểm định giả thiết tham số

4.2.1 Kiểm định giá trị kì vọng của phân phối chuẩn

i. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2. Hãy kiểm định giả thiết H0:μ=μ0 với mức ý nghĩa α A. Trường hợp 1:  2đã biết, H1:μ≠μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0  √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0  √𝑛 có phân phối chuẩn

N(0; 1), đồng thời X là một ước lượng không chệch cho μ. Từđó ta có quy tắc kiểm định sau :

Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼

Nếu 𝑍0 ≤ 𝑍𝛼, thì chấp nhận H. Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H

Nếu giá trịđó thuộc vào miền tiêu chuẩn thì ta bác bỏ giả thuyết, kết luận kỳ vọng của biến X thực sự khác μ0. Ngược lại, nếu giá trịđó nằm trong miền chấp nhận thì phải kết luận kỳ vọng của X không khác μ0 một cách có ý nghĩa.

+Ví dụ:

Điểm trung bình năm nay của 100 học sinh là 5.9 điểm toán cuối kì, có độ lệch chuẩn là 1.21. Điểm trung bình mới vừa thay đổi đểđạt danh hiệu thi đua của môn toán năm ngoái là 5.72. Với mức ý nghĩa 1% có phải điểm trung bình năm nay có

đạt tiêu chuẩn năm ngoái không?

Giải: Giả thiết H0:μ=μ0 =5.72 ( điểm năm nay bằng năm trước)

2𝛷(𝑍𝛼) = 1 − 𝛼 = 1 − 0.01 => 𝑍𝛼 = 2.58 𝑍0 =|𝑋 − 𝜇 0|√𝑛 = |5.9 − 5.72|

1.21 √100 = 1.49

Vì 𝑍0 < 𝑍𝛼 nên chấp nhận H0 . Vậy điểm môn toán năm nay không cao hơn năm

trước với mức ý nghĩa 1%, nên không đạt được tiêu chuẩn nhận danh hiệu thi đua.

B. Trường hợp 2  2đã biết, H1:μ>μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0  √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0  √𝑛 có phân phối chuẩn

Từđó ta có quy tắc kiểm định sau : 𝑃 (𝑋 − 𝜇 0√𝑛 > 𝑍𝛼) = 1 − 𝛼 Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼 Nếu 𝑍0 > 𝑍𝛼 thì chấp nhận H. C. Trường hợp 3  2đã biết, H1:μ<μ0 Tiêu chuẩn kiểm định:𝑍 = 𝑋−𝜇0  √𝑛 Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑍0 =𝑋−𝜇0  √𝑛 có phân phối chuẩn

N(0; 1), đồng thời X là một ước lượng không chệch cho μ. Từđó ta có quy tắc kiểm định sau :

𝑃 (𝑋 − 𝜇 0√𝑛 < 𝑍𝛼) = 1 − 𝛼

Tìm 𝑍𝛼 từ hệ thức 2𝛷(𝑍𝛼) = 1 − 𝛼

Nếu 𝑍0 > 𝑍𝛼 thì bác bỏ H

ii. Giả sử tổng thể có trung bình (kỳ vọng) μ. Mẫu có kích thước n, trung bình mẫu 𝑥, phương sai mẫu hiệu chỉnh 2chưa biết. Hãy kiểm định giả thiết H0:μ=μ0 với mức ý nghĩa α

 2 chưa biết, H1:μ≠μ0 Tiêu chuẩn kiểm định:𝑇 = 𝑋−𝜇0

 √𝑛

Ta thấy nếu giả thuyết H 0 đúng thì thống kê 𝑇0 = 𝑋−𝜇0

 √𝑛 có phân phối Student T(n-1), đồng thời X là một ước lượng không chệch cho μ.

Từđó ta có quy tắc kiểm định sau :

𝑃 (|𝑋 − 𝜇 0|√𝑛 ≤ 𝑇𝛼(𝑛 − 1)) = 1 − 𝛼

Tìm 𝑇𝛼 từ bảng phân phối Student

Nếu 𝑇0 ≤ 𝑇𝛼, thì chấp nhận H. Nếu 𝑇0 > 𝑇𝛼 thì bác bỏ H

+Ví dụ:

Một vưòn ươm cây giống, theo quy định khi nào cây cao trung bình trên 1m thì

đem ra trồng. Đo ngẫu nhiên 25 cây, được số liệu:

Chiều cao 0.8 0.9 1.0 1.1 1.2 1.3

Số cây 1 2 9 7 4 2

Với mức ý nghĩa 5%, có thể đem cây ra trồng không, gải thiết chiều cao của cây theo luật phân phối chuẩn.

Giải:

Gọi μ là chiều cao trung bình của cây trong vườn. Từ mẫu ta có: H0:μ=μ0 =1 ( chưa nên đem cây ra trồng)

-𝑇𝛼 = 𝑇0.05(24) = 2.064

-𝑇0 =|1.068−1|0.122 √25 = 2.787

Vì 𝑇0 > 𝑇𝛼 thì bác bỏ H, nên ta kết luận nên đem cây ra trồng

B. Trường hợp 2  2 chưa biết, H1:μ>μ0 Tiêu chuẩn kiểm định:𝑇 = 𝑋−𝜇0

Một phần của tài liệu BÁO CÁO CUỐI KỲ MÔN HỌC PHÂN TÍCH DỮ LIỆU (Trang 47)

Tải bản đầy đủ (PDF)

(98 trang)