Các phân phối liên tục

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 35)

D. Phân phối nhị thức (Binomial distribution)

A. Kỳ vọng

3.2 Các phân phối liên tục

3.2.1 Phân phối ều

Phân phối ều liên tục là một phân phối mà xác suất xảy ra như nhau cho mọi kết

cục của biến ngẫu nhiên liên tục.

i. Đại lượng ngẫu nhiên X gọi là phân phối ều trên oạn [a,b] nếu hàm mật ộ của X là

1

𝑛ế𝑢 𝑥𝜖[𝑎, 𝑏]

𝑓(𝑥) = {𝑏− 𝑎

0 𝑛ế𝑢𝑥 [𝑎, 𝑏]

ii. Tính chất của phân phối ều

Nếu 𝑋~𝑈(𝑎, 𝑏) ➢ 𝐸(𝑋) = 𝑏+𝑎 2 ➢ 𝐷(𝑋) = ( 𝑏−𝑎)2 12 +Ví dụ:

Bắt ầu từ 5 giờ sáng, mỗi 30 phút sẽ có duy nhất 1 chuyến bay từ Hà nội ến Thành phố Hồ Chí Minh. Một ngời muốn bay từ Hà Nội vào thành phố, người ấy ến sân bay khoảng 8 giờ 45 phút và 9 giờ 45 phút. Giả sử luôn luôn có chỗ trống trên máy bay. Tìm xác suất khi người ó phải ợi 10 phút.

Giải: Gọi X là số phút sau 8 giờ 45 phút. Vậy X là biến có phân phô ều từ [0,60]. Có hàm mật ộ là

1

𝑓(𝑥) = { 60 , 𝑛ế𝑢 0 < 𝑥 < 60

0, 𝑡𝑟ườ𝑛𝑔ℎợ𝑝𝑘ℎá𝑐

Nếu người ấy phải ợi 10 trong khoảng thời gian từ 8 giờ 50 phút ến 9 giờ , hoặc từ 9 giờ 20 phút ến 9 giờ 30 phút. Vậy ta có khoảng xác ịnh biến X là 5 < 𝑋 < 15

𝑃

3.2.2 Phân phối mũ (Exponential Distribution)

Phân phối mũ (Exponential Distribution) hoặc phân phối mũ phủ ịnh ại diện cho một phân phối xác suất giúp mô tả thời gian giữa hai sự kiện trong một quá trình Poisson. Trong quá trình Poisson, các sự kiện xảy ra liên tục và ộc lập theo một tần suất trung bình không ổi.

Biến ngẫu nhiên có phân phối mũ có thể ược coi là một phiên bản liên tục của các biến ngẫu nhiên hình học. Nó mô hình hóa thời gian chờ ợi cho ến khi một sự kiện ược tạo ngẫu nhiên xảy ra trong thời gian liên tục.

Phân phối mũ ược sử sụng với các biến ngẫu nhiên liên tục chuyển trạng thái , những sự kiện cực kỳ hiếm xảy ra hoặc là có biến ộng cực kì lớn:

Thời gian cho ến khi xảy ra tại nạn giao thông tại ngã tư Thời gian giữa hai lần xảy ra ộng ất tiếp theo tại một ịa iểm

i. Đại lượng ngẫu nhiên X gọi là phân phối mũ với tham số ( >0) nếu hàm mật ộ của X là:

𝑓(𝑥) = { 𝑒− 𝑥 𝑛ế𝑢𝑥≥ 0

0 𝑛ế𝑢𝑥 < 0

Trong trường hợp này ta ký hiệu 𝑋~𝐸( ) ii. Tính chất của phân phối mũ

Nếu 𝑋~𝐸( ) ➢ 𝐸(𝑋) = 1

➢ 𝐷(𝑋) = 12

Thời hạn sử dụng của Tivi là biến có phân phối mũ với thời gian tối a là 10 năm. Nếu một người mua Tivi của anh ấy vào 10 năm trước, vậy xác suất Tivi còn sử dụng ược thêm 10 năm tiếp theo là bao nhiêu?

Giải: Gọi X là thời hạn sử dụng của Tivi. Do biến X là biến ngẫu nhiên có phân phối mũ, vậy:

𝑃(𝑋 > 20|𝑋 >

3.2.3 Phân phối chuẩn (Normal Distribution)

A.Phân phối chuẩn

Bây giờ chúng ta chuyển sang một trong những phân phối quan trọng nhất trong xác suất và thống kê - Phân phối chuẩn.

Thật vậy, Định lý Giới hạn Trung tâm (Central Limit Theorem) nói rằng tổng của một số lượng lớn các biến ngẫu nhiên ộc lập và có phân phối giống hệt nhau ược phân phối gần úng chuẩn không phụ thuộc vào phân phối cơ bản cụ thể, với iều kiện rằng nó có hữu hạn giá trị trung bình và phương sai .

i. Phân phối chuẩn (Normal Distribution) là sự phân bố dữ liệu mà ở ó giá trị tập trung nhiều nhất ở khoảng giữa và các giá trị còn lại rải ều ối xứng về phía các iểm cực trị(Phân phối chuẩn, 2021).Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình ) và tỉ lệ (phương sai ).

Abraham de Moivre là người ầu tiên ưa ra phân phối chuẩn trong bài báo năm 1734 ( ược in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) khi muốn xấp xỉ một phân phối nhị thức với n lớn. Kết quả ược mở rộng bởi Laplace trong cuốn sách Analytical Theory of Probabilities (1812), và bây giờ gọi là ịnh lý MoivreLaplace. Biểu diễn ồ thị của một phân phối chuẩn ôi khi ược gọi là ường cong hình chuông vì hình dạng loe rộng ra của nó. Hình dạng chính xác có thể thay ổi tùy theo tập toàn thể của phân phối nhưng ỉnh luôn luôn ở giữa và ường cong luôn ối xứng. Trong một phân phối chuẩn, giá trị trung bình, yếu vị và trung vị là giống nhau.Tên gọi " ường cong chuông" do Jouffret, người ầu tiên dùng thuật ngữ "bề mặt hình chuông" năm

(𝑥) = 1 − 2𝜎 2

1872 cho phân phối chuẩn hai chiều với các thành phần ộc lập. Tên gọi "phân phối chuẩn" ược tạo ra bởi Charles S. Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875.

ii. Đại lượng ngẫu nhiên X gọi là phân phối chuẩn nếu hàm mật ộ của X có dạng:

(𝑥−𝑎)2

𝑓 𝑒 , 𝑣ớ𝑖𝜎 > 0

𝜎√2𝜋

Trong trường hợp này ta ký hiệu 𝑋~𝑁(𝑎, 𝜎2)

Trong công thức trên, x là giá trị của biến ngẫu nhiên; a và σ2 là các tham số; π và e là các hằng số của tự nhiên, π ≈ 3,14; e≈ 2,718. Công thức khá phức tạp, tuy nhiên việc tính toán sẽ ơn giản vì các giá trị cần tìm sẽ ược cho sẵn trong bảng số.

iii. Tính chất của phân phối chuẩn Nếu 𝑋~𝑁(𝑎, 𝜎2)➢

E(X)=a ➢ 𝐷(𝑋) = 𝜎2

B.Phân phối chuẩn chuẩn tắc

Tuy vậy một trong những ứng dụng ầu tiên ược Gauss áp dụng phân phối chuẩn vào năm 1809, khi ông dùng nó ể nghiên cứu thiên văn học. Nhưng trong cuốn An Introduction to Mathematical Statistics and Its Application của Larsen và Marx, Lambert Quetelet lần ầu ưa dữ liệu thống kê trong nhiều trường hợp trong xã hội.(Ghahramani, 1999)

Các biến ngẫu nhiên phân phối Chuẩn có ồ thị quả chuông tại vị trí khác nhau, ộ cao thấp khác nhau, do ó không thuận lợi trong tính toán các xác suất. Để việc tính toán ược thuận lợi, ta xét một biến ngẫu nhiên phân phối Chuẩn ặc biệt là biến ngẫu nhiên phân phối Chuẩn hóa.

Là phân phối chuẩn với giá trị trung bình bằng 0 và ộ lệch chuẩn bằng 1. i. Đại lượng ngẫu nhiên 𝑋~𝑁(0,1) gọi là phân phối chuẩn chuẩn tắc Nếu X có phân phối chuẩn chuẩn tắc thì hàm mật ộ của X là

𝑓(𝑥) = 1 𝑒−𝑥22 là hàm mật ộ Gauss. √2𝜋

Hình 6. Biểu ồ hàm mật ộ phân phối chuẩn chuẩn tắc ii. Tính chất của phân phối chuẩn chuẩn tắc

Nếu 𝑋~𝑁(𝑎, 𝜎2) thì 𝑌 = 𝑋−𝑎~𝑁(0,1) 𝜎

C.Tích phân Laplace

i. Cho f(x) là hàm mật ộ Gauss. Khi ó ta có hàm phân phối Gauss

𝐹(𝑢) = ∫−𝑢∞ 𝑓(𝑥)𝑑𝑥

𝑢 1 𝑢 𝑥2

Và tích phân Laplace 𝛷 𝑒 𝑑𝑥

Giữa hàm phân phối Gauss và tích phân Laplace có mối liên hệ F(u)=1/2+Φ(u) D.Công thức tính xác suất Nếu 𝑋~𝑁(𝑎, 𝜎2) ➢ 𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷 ( 𝛽−𝑎) − 𝛷 (𝛼−𝑎) 𝜎 𝜎 ➢ 𝑃(|𝑋− 𝑎| < 𝛼) = 2𝛷 ( 𝛼) với α>0 𝜎 Nếu 𝑋~𝑁(0,1) ➢ 𝑃(𝛼 < 𝑋 < 𝛽) = 𝛷(𝛽) − 𝛷(𝛼) ➢ 𝑃(|𝑋| < 𝛼) = 2𝛷(𝛼) với α>0

Giả sử trung bình ộ rộng của ngực của một người àn ông trưởng thành trung bình là 39,8 inch và ộ lệch chuẩn là 2.05 inch. Vậy xác suất khi chọn ngẫu nhiên 20 người nam, 5 người ầu có ộ rộng của ngực mình ít nhất 40inch?

Giải: Gọi p là xác suất khi chọn ược người àn ông có ộ rộng ngực của mình từ 40 inch trở lên. Nếu X là biến có phân phối chuẩn với trị trung bình là 39.8 và ộ lệch chuẩn là 2.05 thì ta có ồ thị:

𝑋− 39.8 40 − 39.8 𝑋− 39.8

𝑝 = 𝑃

= 𝑃(𝑍≥ 0.1) = 1 − 𝛷(0.1) ≈ 1 − 0.5398 ≈ 0.46 Vậy xác suất ể 5 người chọn ầu thỏa yêu cầu bài toán là

Hình 7. Hình th ể hi ệ n ví d ụ phân ph ố i chu ẩ n

G ọi i là ộ r ộ ng c ủ a ng ực i=33,…..Ta phân tích th ấy ược ộ r ộ ng i t ừ 33 ế n 48 inch có t ầ n s ố tương ố i v ớ i ph ần ồ th ị có hàm m ật ộ P(i- 1 /2<X<1/2) khi X là bi ế n có phân ph ối ề u v ớ i X có phân ph ố i chu ẩ n 𝑋~𝑁(𝑎,𝜎2)

V ậ y s ử d ụ ng b ả ng tra tích phân Laplace ta có th ể tìm ượ c:

:𝐶205 (0.46)5(0.54)15 ≈ 0.03

3.2.4 Phân phối Chi-Bình phương( Chi-Squared)

Phân phối Chi-bình phương (Chi-squared) ược sử dụng rộng rãi trong thống kê ể tính toán những giá trị sau:

• Ước lượng khoảng tin cậy cho ộ lệch chuẩn của tập tổng thể ối với một phân phối chuẩn, sử dụng ộ lệch chuẩn của mẫu.

• Để kiểm tra ộ ộc lập của hai phân loại tiêu chuẩn ối với các biến a tính.

• Để nghiên cứu ộ biến thiên mẫu trong trường hợp phân phối là phân phối chuẩn.

• Để kiểm thử ộ lệch giữa các tần số kỳ vọng và tần số thực tế.

Nếu có n biến ngẫu nhiên Chuẩn hóa , khi bình phương các biến ó rồi lấy tổng, thì tổng ó sẽ phân phối theo một quy luật gọi là quy luật “Chi – bình phương”, ký hiệu là χ2(n), ọc là quy luật “Chi – bình phương bậc tự do n”.

i. Đại lượng ngẫu nhiên 𝜒2 gọi là có phân phối Chi-bình phương n bậc tự do nếu 𝛘2=𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2 trong ó 𝑋12, 𝑋22, … , 𝑋𝑛2 là các ại lượng ngẫu nhiên có phân phối chuẩn chuẩn tắc. Vậy hàm mật ọ có dạngL

, 𝑥 > 0

𝑓

Ký hiệu 𝜞(x) là hàm gamma 𝜞 𝑡𝑥−𝑡𝑒−𝑡𝑑𝑡. Trong trường hợp này ta ký hiệu X~χ2(n) ii. Tính chất phân phối Chi-bình phương

Nếu X~χ2(n)

➢ E(χ2) = n, D(χ2) = 2n

➢ Với quy luật Khi – bình phương bậc tự do n, ta cần quan tâm giá trị tới hạn mức α, là một con số sao cho biến ngẫu nhiên lớn hơn con số ó bằng úng α.

Con số ó ký hiệu là 𝜒𝑎2(𝑛), ọc là giá trị tới hạn mức α bậc tự do n. Sử dụng bảng giá trị tới hạn

+Ví dụ:Muốn tra giá trị tới hạn Khi – bình phương mức 0,05 bậc tự do 10, tìm

cột 0,05 và dòng 10, ối chiếu ược giá trị 18,31. Ta viết:𝜒0.052 (10) = 18.31 3.2.5 Phân phối Student

Phân phối Student còn ược gọi là phân phối T hay phân phối T Student, trong tiếng anh là T Distribution hay Student’s t-distribution.

Phân phối Student có hình dạng ối xứng trục giữa gần giống với phân phối chuẩn. Khác biệt ở chỗ phần uôi nếu trường hợp có nhiều giá trị trung bình phân phối xa hơn sẽ khiến ồ thị dài và nặng. Phân phối student thường ứng dụng ể mô tả các mẫu khác nhau trong khi phân phối chuẩn lại dùng trong mô tả tổng thể. Do ó, khi dùng ể mô tả mẫu càng lớn thì hình dạng của 2 phân phối càng giống nhau.

Phân phối T – Student thường ược dùng rộng rãi trong việc suy luận phương sai tổng thể khi có giả thiết tổng thể phân phối chuẩn, ặc biệt khi cỡ mẫu càng nhỏ thì ộ chính xác càng cao. Ngoài ra, còn ược ứng dụng trong kiểm ịnh giả tiết về trung bình khi chưa biết phương sai tổng thể là bao nhiêu.

i. Cho U, V là các biến ngẫu nhiên ộc lập, U có phân phối Chuẩn hóa,V có phân phối khi bình phương bậc tự do n, ại lượng ngẫu nhiên T gọi là

phân phối Student n bậc tự do khi 𝑇 = 𝑈 và hàm mật ộ xác suất có √𝑉/𝑛 dạng: 𝑛 + 1 −𝑛+1 𝑓𝑛 𝛤 ( 2 ) 𝑥2 2

Trong trường hợp này ta ký hiệu 𝑇~𝑇(𝑛) ii. Cho 𝑇~𝑇(𝑛)

➢ E(T)=0;D(T)=n/(n-2)

➢ Đối với biến ngẫu nhiên phân phối Student , ta cần quan tâm giá trị tới hạn mức α, Con số ó ký hiệu là 𝑡𝛼(𝑛), ọc là giá trị tới hạn mức α bậc tự do n. là một con số sao cho xác suất ể T lớn hơn con số ó bằng úng α. Sử dụng bảng giá trị tới hạn:

+Ví dụ:Tra giá trị tới hạn mức 0,05 bậc tự do 10, ta tìm cột 0,05 và dòng 10, ối chiếu

3.3 Hệ số Z của Altman 3.3.1 Giới thiệu 3.3.1 Giới thiệu

Công thức iểm Z ể dự oán phá sản ược Edward I. Altman, lúc ó là Trợ lý Giáo sư Tài chính tại Đại học New York, xuất bản năm 1968. Công thức này có thể ược sử dụng ể dự oán xác suất một công ty sẽ phá sản trong vòng hai năm. Điểm Z ược sử dụng ể dự oán các vụ vỡ nợ của công ty và là một biện pháp kiểm soát dễ tính toán ối với tình trạng kiệt quệ tài chính của các công ty trong các nghiên cứu học thuật. Điểm số Z sử dụng nhiều giá trị thu nhập doanh nghiệp và bảng cân ối kế toán ể o lường sức khỏe tài chính của một công ty. Điểm này càng thấp thì khả năng phá sản càng cao. Các công ty có iểm Z trên 3 ược xem là khỏe mạnh và không có khả năng phá sản. Điểm Z trong khoảng từ 1.8 ến 3 là vùng xám.Đây là một mô hình tương ối chính xác - việc ứng dụng iểm Z thực tế trên thế giới ã dự oán thành công 72% sự phá sản của các doanh nghiệp trước 2 năm.

3.3.2 Công thức

Mô hình này kết hợp 5 chỉ số tài chính khác nhau ể xác ịnh khả năng phá sản của các công ty.

Z score = 1,2*A1+1,4*A2+3,3*A3+0,6*A4+1,0*A5 Trong ó:

➢ A1 = Vốn luân chuyển ( = Tài sản ngắn hạn – Nợ ngắn hạn)/Tổng tài sản. Tỷ lệ này cung cấp thông tin về tình hình tài chính ngắn hạn của doanh nghiệp ➢ A2 = Lợi nhuận chưa phân phối/Tổng tài sản. Tỷ lệ này o lường mức ộ phụ

thuộc của doanh nghiệp vào nợ.

➢ A3 = EBIT (Lợi nhuận trước lãi vay và thuế)/Tổng tài sản

➢ A4 = (Giá thị trường của cổ phiếu*Số lượng cổ phiếu lưu hành)/Tổng nợ.Cho thấy giá trị thị trường của doanh nghiệp có thể giảm bao nhiêu trước khi nợ phải trả vượt quá tài sản

➢ A5 = Hiệu quả sử dụng tài sản =Doanh thu/Tổng tài sản. Từ 1 ồng tài sản, doanh nghiệp làm ra bao nhiêu ồng doanh thu thuần.

CHƯƠNG 4.KIỂM ĐỊNH GIẢ THIẾT 4.1 Khái niệm

Các nhà phân tích thống kê kiểm tra một giả thuyết bằng cách o lường và kiểm tra một mẫu ngẫu nhiên của không gian mẫu ang ược phân tích. Việc họ làm là sử dụng một không gian mẫu ngẫu nhiên ể kiểm tra hai giả thuyết khác nhau: giả thuyết không và giả thuyết nghịch.

4.1.1 Giả thiết không (Null Hypothesis)

Giả thuyết không H0 là một loại giả thuyết ược sử dụng trong thống kê giả ịnh rằng không có ý nghĩa thống kê nào tồn tại trong một tập hợp các quan sát nhất ịnh. Giả thuyết không ược cho là úng cho ến khi có bằng chứng thống kê bác bỏ nó với một giả thuyết thay thế khác.

Giả thuyết không giả ịnh rằng bất kì sự khác biệt hay ý nghĩa nào bạn quan sát ược trong một tập hợp dữ liệu là do sự ngẫu nhiên.

4.1.2 Giả thiết nghịch (Alternative hypothesis)

Khái niệm về một giả thuyết nghịch trong thử nghiệm do Jerzy Neyman và Egon Pearson nghĩ ra, và nó ược sử dụng trong bổ ề Neyman-Pearson(E. L. Lehmann, 1986). Nó tạo thành một thành phần chính trong thử nghiệm giả thuyết thống kê hiện ại. Tuy nhiên, nó không phải là một phần trong công thức kiểm tra giả thuyết thống kê của Ronald Fisher, và ông phản ối việc sử dụng nó. Trong cách tiếp cận kiểm ịnh của Fisher, ý tưởng trung tâm là ánh giá xem liệu tập dữ liệu quan sát có thể là kết quả ngẫu nhiên hay không nếu giả thuyết không ược giả ịnh là úng, không có ịnh kiến về những gì các mô hình khác có thể nắm giữ. Thử nghiệm giả thuyết thống kê hiện ại áp ứng iều này loại kiểm ịnh vì giả thuyết nghịch H1 có thể chỉ là sự phủ ịnh của giả thuyết không.

4.1.3 Mức ý nghĩa

Trong thống kê, một kết quả ược gọi là có ý nghĩa thống kê nếu nó không có khả xảy ra là do ngẫu nhiên. Cụm từ Ý nghĩa thống kê ược ặt tên bởi Ronald Fisher. Trong thống kê, ý nghĩa không có nghĩa là quan trọng , nhưng những nhà phân tích chỉ tập trung vào kết quả có thể bỏ sót các dạng mẫu trả lời quan trọng mà có thể rơi dưới ngưỡng ược ặt ra cho kiểm ịnh ý nghĩa.

4.1.4 Miền bác bỏ

Miền bác bỏ là miền xác ịnh trong ồ thị, ược o trong phân phối lấy mẫu của thống kê ang nghiên cứu, dẫn ến bác bỏ giả thuyết không H0 trong một bài kiểm tra giả thuyết. Miền bác bỏ bổ sung cho vùng chấp nhận và ược liên kết với xác suất α, ược gọi là mức ý nghĩa..

Một phần của tài liệu Báo cáo cuối kỳ môn phân tích dữ liệu (Trang 35)

Tải bản đầy đủ (PDF)

(83 trang)