Kỳ vọng, phương sai, độ lệch chuẩn của ĐLNN

Một phần của tài liệu vấn đề so sánh các mẫu dữ liệu thống kê, sự nối khớp giữa dạy học xác suất thống kê với đào tạo cử nhân kinh tế (Trang 36)

3. Phương pháp nghiên cứu

2.1.1.Kỳ vọng, phương sai, độ lệch chuẩn của ĐLNN

Kỳ vọng

Tùy theo việc ĐLNN là rời rạc hay liên tục, tập giá trị của nó là hữu hạn hay vô hạn đếm được mà công thức tính kỳ vọng khác nhau. Cụ thể:

“•Đại lượng ngẫu nhiên rời rạc X có bảng phân phối xác suất

X x1 x2 … xn

P p1 p2 … pn

Kỳ vọng của X, ký hiệu là E(X), được xác định như sau: E(X) = ∑ = n i i ip x 1

• Trong trường hợp X(S) vô hạn đếm được (và tổng ∑+∞

=1

i i ip

x hội tụ tuyệt đối)

E(X) = ∑+∞ =1 i i ip x

• Đại lượng ngấu nhiên liên tục X có hàm mật độ xác suất là f(x) (và ∫−+∞∞xf(x)dxhội tụ tuyệt đối)

Kỳ vọng toán của X ký hiệu là E(X), xác định như sau: E(X) = ∫−+∞∞xf(x)dx

” (GT3, tr.46)

Để minh họa cho các định nghĩa trên, GT3 đưa vào hai ví dụ minh họa. Thông qua hai ví dụ đó, tác giả muốn khẳng định ý nghĩa của kỳ vọng:

“Nói chung kỳ vọng cho ta ý niệm về độ lớn trung bình của đại lượng ngẫu nhiên X. Có khi kỳ vọng còn được gọi là giá trị trung bình của X” (GT3, tr.47)

Đặc biệt, trong ví dụ 3.4, tác giả đưa ra bài toán so sánh kỳ vọng của hai đại lượng ngẫu nhiên. Ví dụ được nêu như sau:

“Một công ty cần trang bị một số lượng lớn máy cho khu vực sản suất mới. Có hai loại máy được xem xét là máy do công ty AP sản xuất và máy do công ty TB sản xuất với số liệu thống kê như sau:

Mức độ hỏng 1 2 3 Máy của công ty AP Tỷ lệ hỏng (%) 4 4 2

Chi phi sửa chữa

(triệu đồng/năm) 7 10,5 15,5 Máy của công ty TB Tỷ lệ hỏng (%) 2 5 3

Chi phi sửa chữa

(triệu đồng/năm) 6,5 9,5 14

Giả sử các yếu tố khác không có sự khác biệt đáng kể và công ty này chỉ quan tâm đến chi phí sửa chữa hàng năm, hỏi nên chọn mua máy của công ty nào sản xuất?

Giải : Gọi X là chi phí sửa chữa của một máy của công ty AP (triệu đồng/năm). Ta xem X là đại lượng ngẫu nhiên có bảng phân phối xác suất như sau:

X 0 7 10,5 15,5

P 0,9 0,04 0,04 0,02

Ta có: E(X) = 1,01

Gọi Y là chi phí sửa chữa của một máy của công ty TB (triệu đồng/năm). Ta xem Y là đại lượng ngẫu nhiên có bảng phân phối xác suất như sau:

Y 0 6,5 9,5 14

P 0,9 0,02 0,05 0,03 (adsbygoogle = window.adsbygoogle || []).push({});

Trong ví dụ trên, người mua chỉ quan tâm tới chi phí sửa chữa hàng năm. Do đó, việc quyết định mua máy của công ty nào sẽ phụ thuộc vào chi phí kỳ vọng sửa chữa một máy của công ty đó có thấp hay không. Để giải quyết bài toán này, tác giả cho xác suất để máy chạy tốt là 0,9 và xác suất để một máy hư là 0,1 (đối với cả hai loại máy của công ty AP và TB) rồi lập bảng phân phối xác suất của các đại lượng ngẫu nhiên: chi phí sửa chữa một máy của công ty AP và chi phí sửa một máy của công ty TB. Do chi phí sửa chữa kỳ vọng (hay trung bình) nhỏ hơn nên máy của công ty AP đã được chọn. Như vậy, việc so sánh giá trị trung bình của hai ĐLNN giúp người ta có thể đưa ra một quyết định hợp lý.

Ngoài việc giới thiệu ý nghĩa của kỳ vọng cho sinh viên, GT3 cũng nêu một số tính chất thông dụng của kỳ vọng (có kèm theo chứng minh) như sau:

“(a) E(aX + b) = aE(X) + b

(b) E(X+Y) = E(X) + E(Y)

E(X1 + X2 + …. + Xn)= E(X1)+ E(X2) + …+ E(Xn) (c) Nếu X, Y độc thì E(X.Y) = E(X).E(Y)” (GT3, tr.49)

Mặc dù các khái niệm và tính chất liên quan đến kỳ vọng của một ĐLNN được đưa vào rất chi tiết và đầy đủ nhưng những tính chất này không thể giải thích được cho những kĩ thuật so sánh hai tham số trung bình bằng mô hình hồi qui với biến giả được trình bày trong giáo trình Kinh tế lượng.

Phương sai và độ lệch chuẩn

Trước khi nêu ra định nghĩa, tác giả đã đặt ra vấn đề sau : “Ta xem các đại lượng ngẫu nhiên rời rạc sau đây

X - 0,1 0,1 Z -90 10 P 2 1 2 1 P 10 1 10 9 Y -10000 10000 P 2 1 2 1

Mặc dù E(X) = E(Y) = E(Z) = 0 nhưng các ĐLNN này rất khác biệt nhau. Ta cần đưa ra một đặc trưng cho sự khác biệt đó.” (GT3, tr.52)

Từ vấn đề đặt ra, cần thiết phải đưa thêm vào một tham số mới giúp chúng ta chỉ ra sự khác nhau của các ĐLNN khi chúng có kỳ vọng như nhau. Mặt khác, tác giả cũng nhận xét rằng :

“Nếu đại lượng ngẫu nhiên X có E(X) = m thì E(X – m) = E(X) – m = 0” (GT3, tr.52)

Do đó, nếu sử dụng đại lượng E(X – m) sẽ không chỉ ra được sự khác biệt giữa các ĐLNN. Vì vậy,tham số cần đưa vào là phương sai, có định nghĩa như sau :

“Phương sai của đại lượng ngẫu nhiên X, kỳ hiệu là Var(X), được xác định như sau: Var(X) = E[(X – E(X))2]” (GT3, tr.52)

Một công thức khác để tính phương sai : “Var(X) = E(X 2) – [E(X)]2” (GT3, tr.52) Tác giả cũng đặc biệt nhấn mạnh ý nghĩa của phương sai:

“Phương sai cho ta ý niệm về mức độ phân tán các giá trị của X xung quanh giá trị trung bình. Phương sai càng lớn thì độ phân tán này càng lớn” (GT3, tr.52)

Với định nghĩa về phương sai nếu xem xét lại 3 đại lượng ngẫu nhiên X, Y, Z nêu trong ví dụ ở trên, ta có :

Var(X) = 0,01 ; Var(Y) = 900 ; Var(Z) = 100000000

Như vậy, Var(Z) > Var(Y) > Var(X) hay độ phân tán của Z lớn nhất, kế tiếp là độ phân tán của Y và cuối cùng, độ phân tán của X bé nhất.

Sau khi giới thiệu định nghĩa và ý nghĩa của phương sai, tác giả đưa vào 3 ví dụ, trong đó ví dụ 3.6 và ví dụ 3.7 nhằm minh họa cho sinh viên cách tính phương sai khi biết bảng phân phối xác suất hoặc biết hàm mật độ xác suất của ĐLNN X. Riêng ví dụ 3.8, ngoài việc tính toán các kỳ vọng và phương sai của các ĐLNN, tác giả còn yêu cầu sinh viên phải so sánh các giá trị tìm được :

“Một nhà đầu tư có 3 dự án. Gọi Xi(i = 1, 2, 3) là lợi nhuận khi thực hiện dự án thứ i, còn giá trị âm chỉ số tiền bị thua lỗ. Qua nghiên cứu và bằng kinh nghiệm, nhà đầu tư có ước lượng như sau :

P 0,4 0,2 0,4 P 0,3 0,2 0,5

X3 -3 -2,5 8

P 0,3 0,2 0,5

Đơn vị tính : Tỷ đồng Ta tính được :

E(X1) = 3 E(X2) = 3 E(X3) = 2,6 Var(X1) = 32,8 Var(X2) = 7 Var(X3)= 29,19

(Chú ý : Var(X) và E(X) không cùng đơn vị)

Nếu chọn một trong 3 dự án trên, theo bạn nên chọn dự án nào ?

(GT3, tr.53-54)

Tác giả đưa ra câu hỏi mở đối với sinh viên và không nêu cách giải. Trong ví dụ trên có 3 ĐLNN X1, X2, X3 lần lượt là lợi nhuận khi thực hiện dự án thứ 1, 2, 3. Ta thấy bài toán ví dụ này chính là một bài toán so sánh lợi nhuận và rủi ro trong đầu tư. Trong 3 dự án thì có 2 dự án cho lợi nhuận kỳ vọng bằng nhau còn dự án thứ 3 cho lợi nhuận kỳ vọng thấp hơn, đồng thời phương sai của 3 dự án này đều khác nhau. Để quyết định chọn dự án nào thì sinh viên phải xem xét cả lợi nhuận kỳ vọng và độ phân tán của mỗi dự án. Ở đây, sinh viên chưa được tiếp cận định nghĩa rủi ro của dự án nên có thể hiểu độ phân tán của mỗi dự án cho biết mức độ ổn định của lợi nhuận, nếu độ phân tán càng lớn thì khả năng lợi nhuận nhận được khác với lợi nhuận kỳ vọng càng cao. Trong phần này, giáo trình mới chỉ giới thiệu khái niệm phương sai và chưa hề nhắc tới hệ số biến động của ĐLNN. Chính vì vậy, việc so sánh độ phân tán của ba dự án trên có vẻ khó khăn. Tuy nhiên, trong ví dụ này, tác giả đã cố ý cho đại lượng ngẫu nhiên X3 có kỳ vọng thấp hơn kỳ vọng của hai đại lượng X1 (adsbygoogle = window.adsbygoogle || []).push({});

và X2 nhưng có phương sai rất lớn. Trong khi đó, ĐLNN X1 vừa có kì vọng lớn hơn lại có phương sai nhỏ nhất trong 3 dự án. Nếu sinh viên so sánh từng cặp dự án sẽ thấy ngay kết quả:

- So sánh dự án 1 và 2 : Lợi nhuận kỳ vọng bằng nhau nhưng Var(X1) > Var(X2) do đó dự án 2 tối ưu hơn dự án 1.

- So sánh dự án 2 và 3: E(X2) > E(X3) và Var(X2) lại nhỏ hơn Var(X3) rất nhiều. Vậy dự án 2 tối ưu hơn dự án 3. (Trong trường hợp này, kết luận độ phân tán của dự án 2 bé hơn độ phân tán của dự án 3 vẫn đúng do CV(X2) < CV(X3))

Như vậy dự án 2 là tối ưu nhất.

Nếu sinh viên so sánh dự án 1 và dự án 3 : E(X1) > E(X3), Var(X1) > Var(X3), sinh viên sẽ dễ sai lầm khi cho rằng độ phân tán của dự án 1 lớn hơn dự án 3. Trong khi đó, lợi nhuận của dự án 1 lại lớn hơn dự án 3 dẫn tới sinh viên khó đưa ra lựa chọn cho trường hợp này. Như vậy, dường như kỹ thuật so sánh hai tổng thể dựa trên kỳ vọng và phương sai đã không được xây dựng hoàn chỉnh trong GT3.

Tiếp theo ví dụ 3.8, tác giả đưa vào các tính chất của phương sai như sau: “ (a) Nếu X là đại lượng ngẫu nhiên và a, b là hai hằng số thì

Var(aX+b) = a2Var(X)” (GT3, tr.54)

“Nếu hai đại lượng ngẫu nhiên X và Y độc lập (và các phương sai hữu hạn thì Var(X+Y) = Var(X) + Var(Y) ” (GT3, tr.54)

“ Nếu các đại lượng ngẫu nhiên X1, X2, …, Xnđộc lập3F

4(và các phương sai hữu hạn) thì Var(X1+ X2+ …+Xn )= Var(X1) +Var(X2)+ …+Var(Xn) ” (GT3, tr.54) Cuối cùng, tác giả định nghĩa độ lệch chuẩn của ĐLNN X theo phương sai như sau :

“ Độ lệch tiêu chuẩn của đại lượng ngẫu nhiên X : σX = Var(X)

X

σ có cùng đơn vị đo với X.” (GT3, tr.55)

Sau đó tác giả không đưa vào tính chất của độ lệch chuẩn hay không có ví dụ nào minh họa cho cách dùng độ lệch chuẩn. Và đặc biệt là hệ số biến động không được giới thiệu trong chương này. Như vậy, những tính chất và ý nghĩa liên quan đến phương sai và độ lệch chuẩn nêu trong GT3 chỉ có thể giải thích cho một phần nhỏ kĩ thuật so sánh độ phân tán của hai tổng thể mà chúng tôi đã chỉ ra trong giáo trình Phân tích và đầu tư chứng khoán. Cụ thể là trường hợp hai tổng thể có giá trị trung bình bằng nhau, tổng thể nào có phương sai (độ lệch chuẩn) lớn hơn sẽ có giá trị quan sát phân tán nhiều hơn quanh giá trị trung bình. Trong trường hợp hai tổng thể có trung bình khác nhau thì GT3 hoàn toàn không đưa vào lý thuyết để so sánh độ phân tán của hai tổng thể.

Bài tập cuối chương

Chương này gồm có 18 bài, trong đó có 17 bài yêu cầu tính toán các tham số của ĐLNN hoặc tính xác suất của X khi biết hàm phân phối xác suất của X. Chỉ có duy nhất bài 17 có liên quan đến so sánh kỳ vọng của hai ĐLNN:

“Tại một địa phương có 5 mạch nước ngầm khác nhau, trong đó có một mạch nước bị nhiễm thạch tín. Có 900 giếng nước tại địa phương lấy nước từ 5 mạch nước này nhưng không rõ nguồn gốc mạch nước ngầm của giếng (mỗi giếng thuộc duy nhất một mạch nước ngầm). Một đoàn kiểm tra muốn xác định giếng có bị nhiễm chất thạch tín hay không bằng cách xét nghiệm mẫu nước. Có hai phương pháp được đề nghị:

Cách 1: Xét nghiệm từng mẫu nước riêng biệt.

Cách 2: Ghép chung 9 mẫu nước giếng khác nhau thành 1 nhóm làm 1 xét nghiệm, nếu mẫu ghép không bị nhiễm thì kết luận cả 9 mẫu không nhiễm và ngược lại nếu mẫu ghép bị nhiễm thì làm thêm 9 xét nghiệm riêng cho 9 mẫu để xác định giếng nào bị nhiễm.

a) Nếu biết chi phí mỗi lần xét nghiệm là như nhau thì hãy tính xem cách xét nghiệm nào có lợi hơn.” (GT3, tr.63)

Các bài tập được đưa vào trong giáo trình để sinh viên luyện tập nên không kèm theo lời giải. Chúng tôi dự kiến lời giải như sau :

Xác suất để một giếng lấy nước từ mạch nước nhiễm thạch tín là 1/5 = 0,2 Gọi X là số lần xét nghiệm theo cách 1.

Gọi Y là số lần xét nghiệm theo cách 2.

Y1, Y2, …, Y100là các đại lượng ngẫu nhiên biểu thị số lần xét nghiệm theo nhóm thứ k. Ta có X = 900 nên E(X) = 900

Y = Y1 + Y2 + … + Y100

Ta thấy Yk (k = 1, 2, …, 100) là các ĐLNN độc lập.

Yk có thể nhận một trong 2 giá trị: 1 và 10. Yk nhận giá trị là 1 khi 9 giếng trong nhóm không nhiễm thạch tín. Yk nhận giá trị 10 nếu trong nhóm có ít nhất một giếng nhiễm thạch tín.

Ykcó phân phối xác suất giống nhau (Với mọi k = 1, 2, …, 100) P (Yk = 1) = (0,8)9 ; P(Yk = 10) = 1 – (0,8)9

Yk 1 10 P (0,9)9 1 – (0,8)9 Vậy E(Y) = E      ∑ = 100 1 k k Y =∑ = 100 1 ) ( k k Y E =100[( )0,8 9 +10(1−(0,8)9)]≈879,2

Do E(Y) < E(X) nên làm theo cách 2 sẽ có chi phí ít hơn lại nhanh hoàn thành công việc hơn. (adsbygoogle = window.adsbygoogle || []).push({});

Phần bài tập cuối chương 2 hoàn toàn không xuất hiện dạng bài tập so sánh độ phân tán của hai tổng thể.

Một phần của tài liệu vấn đề so sánh các mẫu dữ liệu thống kê, sự nối khớp giữa dạy học xác suất thống kê với đào tạo cử nhân kinh tế (Trang 36)