Lý thuyết quyết định thống kê - Các phương pháp dự- 123docz.net

2 2 1 '' (1/ ' ) ( /n ) δ δ δ = + (5). Nhận xét: Trong phân phối Bayes ta đã sử dụng nhiều thông tin tiên nghiệm dựa vào đánh giá chủ quan của ng−ời phân tích. Những đánh giá này chủ yếu thu đ−ợc từ phân tích lý thuyết hoặc kinh nghiệm trong thực tế quá khứ. Xác suất thu đ−ợc từ đánh giá này gọi là xác suất chủ quan, đòi hỏi phải có những −ớc l−ợng thận trọng.

4.2. lý thuyết quyết định thống kê.

Trong thực tế nhiều tr−ờng hợp phải ra quyết định trong khi thiếu thông tin, khi có thể có nhiều ph−ơng án hoạt động khác nhau mà mỗi ph−ơng án lại gắn với một kết cục với một xác suất xảy ra xác định. Trong những tr−ờng hợp nh− vậy kỳ vọng toán đ−ợc sử dụng để lựa chọn trong số các ph−ơng án có thể có một ph−ơng án hoặc cực đại lợi ích kỳ vọng hoặc cực tiểu thiệt hại kỳ vọng.

Việc phân tích một quyết định có thể tóm l−ợc trong các b−ớc sau: (1) Xác định ph−ơng án quyết định.

(2) Xác định xác suất thực hiện các ph−ơng án đó.

(3) Xác định kết cục cuối cùng của các ph−ơng án có thể có. (4) Xác định thông tin bổ sung.

4.2.1. Cây quyết định.

Một công cụ hữu hiệu trong quá trình phân tích và ra quyết định thống kê là dùng cây quyết định.

Cây quyết định là hình thức liệt kê những ph−ơng án quyết định có thể có để từ đó chọn ra ph−ơng án quyết định cuối cùng. Mỗi ph−ơng án quyết định đ−ợc trình bày d−ới dạng một mắt quyết định và cành là ph−ơng án có thể chọn để đi đến một mắt khác.

Cây quyết định cho thấy các ph−ơng án quyết định có thể lựa chọn. Tuy nhiên tất cả các ph−ơng án quyết định nói chung là không chắc chắn, chúng có thể xảy ra với một xác suất nào đó và có thể dẫn đến một kết cục cuối cùng nào đó. Việc tìm đ−ợc xác suất xảy ra các ph−ơng án quyết định và kết cục của ph−ơng án là khâu quan trọng để chọn ra ph−ơng án quyết định tốt nhất. Ví dụ: Cây quyết định về vấn đề có nên đ−a một sản phẩm mới vào thị tr−ờng hay không? (H1)

4.2.2. Bảng thanh toán.

Bảng thanh toán liệt kê tất cả những kết cục có thể có mà ta có thể thu đ−ợc từ mỗi ph−ơng án quyết định. Đây chính là b−ớc xây dựng đầu tiên trong việc lựa chọn bất kỳ quyết định nào.

Kết cục cuối cùng + 100 000 USD

-20 000 USD

Bảng thanh toán giống nh− một bảng kiểm định giả thuyết thống kê khi chấp nhận hay bác bỏ một giả thuyết, trong đó liệt kê những kết cục có thể có của ph−ơng án quyết định khi chấp nhận hay bác bỏ một giả thuyết trong tr−ờng hợp giả thuyết đó đúng hoặc sai.

Với ví dụ trên ta có bảng thanh toán dạng sau đây: Sản phẩm

Quyết định

Thành công Thất bại

Đ−a vào thị tr−ờng +100000 -20000

Không đ−a vào thị tr−ờng 0 0

Vấn đề cần thiết là phải xác định đ−ợc xác suất xảy ra các kết cục nói trên. Nó dựa trên đánh giá xác suất chủ quan. Giả sử các nghiên cứu Marketing trong quá khứ cho phép −ớc l−ợng xác suất thành công của sản phẩm mới trên thị tr−ờng là 0,75. Nh− vậy xác suất thất bại là 0,25. Với những đặc tr−ng này cây quyết định có dạng sau (H.2).

Kết cục cuối cùng + 100 000 USD

-20 000 USD

Lúc đó giá trị kỳ vọng của cơ may đ−ợc tìm theo công thức kỳ vọng toán: E = (100000). (0,75) + (-20000). (0,25) = 70000

Với giá trị kỳ vọng tìm đ−ợc cho mắt của cây quyết định thì ta có cây quyết định mới nh− sau (H.3)

So sánh giá trị kỳ vọng bằng 70000 với giá trị 0, hiển nhiên ta quyết định đi theo cành trên vì đó là ph−ơng án quyết định tối −u.

4.2.3. Sử dụng thông tin bổ sung bằng định lớ Bayes.

Do thiếu thông tin nên bài toán ra quyết định thống kê luôn nằm ở tình trạng không chắc chắn, do vậy, ta luôn tìm cách bổ sung thêm thông tin cần thiết. Khi có thông tin bổ sung thì ta có thể ra quyết định tốt hơn hay thiệt hại thấp hơn. Định lý Bayes có thể cung cấp thêm những thông tin bổ sung khai thác từ thông tin của mẫu điều tra.

Ta trở lại bài toán về việc cần quyết định có đ−a sản phẩm mới ra thị tr−ờng hay không. ở mục tr−ớc ta mới chỉ thuần tuý sử dụng thông tin tiên nghiệm để ra quyết định, còn nếu có thêm thông tin từ một mẫu điều tra thị

Kết cục cuối cùng + 100 000 USD

-20 000 USD

tr−ờng thi có thể tìm xác suất có điều kiện để ra quyết định một cách chắc chắn hơn.

Gọi S là biến cố sản phẩm sẽ thành công trên thị tr−ờng và F = Slà biến cố sản phẩm sẽ bị thất bại. Gọi IS là biến cố mẫu điều tra cho thấy sản phẩm sẽ thành công và IF là biến cố mẫu điều tra cho thấy sản phẩm sẽ thất bại trên thị tr−ờng. Lúc đó độ tin cậy của các kết luận thu đ−ợc từ mẫu điều tra sẽ đ−ợc đo bằng các xác suất có điều kiện P (IS/S), P (IS/F), P (IF/S) và P (IF/F). Từ đó có thể tìm các xác suất hậu nghiệm t−ơng ứng. Các xác suất hậu nghiệm này có thể tìm theo công thức Bayes.

P(S/IS) = ) ( ). / ( ) ( ). / ( ) ( ). / ( F P F IS P S P S IS P S P S IS P + (6)

Trong công thức trên P(S) và P(F) là các xác suất tiên nghiệm t−ơng ứng với hai kết cục thành công hay thất bại của sản phẩm còn P(IS/S) và P(IS/F) là độ tin cậy của kết quả điều tra mẫu, từ công thức (6) cho phép tìm xác suất hậu nghiệm để sản phẩm sẽ thành công trên thị tr−ờng, nếu kết quả điều tra mẫu chỉ ra rằng sản phẩm sẽ thành công trên thị tr−ờng.

Những thông tin trên cho phép ta xây dựng lại cây quyết định bằng cách đ−a thêm vào hai ph−ơng án quyết định nữa là thử nghiệm hay không thử nghiệm thị tr−ờng, tức là bổ sung thêm thông tin hay không. Nếu thử nghiệm thị tr−ờng thì chi phí thử nghiệm là 5.000USD và lúc đó cây quyết định có hình dạng sau (H.4):

Đối với cành trên của cây quyết định ta có dãy các kết cục sau:

Thử nghiệm thị tr−ờng→thử nghiệm chỉ ra khả năng thành công→đ−a sản phẩm ra thị tr−ờng → sản phẩm thành công. Kết cục cuối cùng của cành này là 95.000USD. Xác suất t−ơng ứng với kết cục này chính là xác suất có điều kiện P(S/IS). Xác suất này đ−ợc tìm theo công thức (6). Để áp dụng công thức này cần có xác suất điều kiện P(IS/S) và P(IS/F) là thông tin bổ sung thu đ−ợc từ kết quả thử nghiệm thị tr−ờng. Giả sử các xác suất đó bằng: P(IS/S) =0,9; P(IS/F) = 0,15 tức là nếu sản phẩm thực sự thành công trên thị tr−ờng thì khả năng đến 90% là thử nghiệm thị tr−ờng sẽ chỉ ra điều đó, còn nếu sản phẩm thực sự thất bại thì chỉ có 15% khả năng là thử nghiệm thị tr−ờng lại kết

Kết cục cuối cùng 95 000 USD -25 000 USD -5000 USD 95 000 USD -25 000 USD -5000 USD +100 000 USD P = 0,75 -20 000 USD P = 0,25 0 USD

P(S/IS) = ) ( ). / ( ) ( ). / ( ) ( ). / ( F P F IS P S P S IS P S P S IS P + =0,9474

Chú ý rằng mẫu số chính là P(IS) và đ−ợc tìm bằng công thức xác suất đầy đủ.Vậy ta có P(IS)=0,7125 và P(S/IS)=0,9474.

Từ đó P(F/IS) =1- P(S/IS) = 0,0526 và P(IF)=1-P(IS) = 0,2875.

T−ơng tự ta có thể xác định các xác suất P(S/IF) = 0,2609 và P(IF) = 0,2875. Suy ra P(F/IF)=1-P(S/IF) =0,7391

Với các xác suất tìm đ−ợc bây giờ ta có thể xây dựng một cây quyết định hoàn chỉnh để từ đó lựa chọn ph−ơng án quyết định tối −u (H5):

IF Kết cục cuối cùng 95 000 USD -25 000 USD -5000 USD 95 000 USD -25 000 USD -5000 USD +100 000 USD -20 000 USD 0 USD IS S F S F S F

Cuối cùng ta có thể tìm đ−ợc kỳ vọng của các kết cục cuối cùng. E1=88688; E2 =6308 ; E3=70000;

Với hai nhánh trên ta tiếp tục tìm giá trị kỳ vọng của kết cục thử nghiệm thị tr−ờng :E4=65003,75;

So sánh lần l−ợt các nhánh ta tìm đ−ợcgiá trị kỳ vọng lớn nhất là70000. Đó là quyết định tối −u. Nó đ−ợc chỉ ra ở (H6).

70 000

4.2.4. Giá trị thông tin.

Ta xây dựng tiêu chuẩn quyết định sao cho thiệt hại kỳ vọng là cực tiểu. Mặt khác việc ra quyết định không nhất thiết xây dựng d−ới dạng cây quyết định. Nó còn có thể xây dựng d−ới dạng bảng khi có quá nhiều ph−ơng án quyết định và dạng bảng là tiện lợi hơn.

88688 65 003,75 6308 6308 70 000 88688 88688 70 000

Ví dụ: Công ty hàng không Pacific airline khai thác chuyến bay HN-HCM cùng với đối thủ cạnh tranh chính là Vietnam airline.Lợi nhuận của nó phụ thuộc vào mức giá mà Vietnam airline quy định cho chuyến bay.Giả sử lợi nhuận của Pacific airline thu đ−ợc theo từng mức giá và theo mức giá của đối thủ cạnh tranh là Vietnam airline đ−ợc cho trong bảng sau (đơn vị triệu USD).

Giá của Vietnam airline Giá của Pacific airline

100USD 150USD

100USD 8 9

150USD 4 10

Giả sử xác suất để Vietnam airline chọn mức giá thấp là 0,6 và chọn mức giá cao là 0,4 .Vậy Pacific airline phải chọn mức giá nào thì có lợi nhất?

Ta sẽ mô tả bài toán d−ới dạng cây quyết định sau dây

Theo cây quyết định thì nếu chọn mức giá 100USD thì lợi nhuận kỳ vọng là: (0,6).8+(0,4).9=8,4 triệu USD, còn nếu chọn mức giá 150 USD thì lợi nhuận kỳ vọng là (0,6).4+(0,4).10=6,4 triệu USD. Vậy mức giá phải chọn theo quyết định tối −u là 100USD và lợi nhuận kỳ vọng là 8,4 triệu

Vậy giá trị kỳ vọng của thông tin hoàn hảo bằng bao nhiêu nếu Pacific airline biết chắc chắn rằng Vietnam airline sẽ chọn mức giá 100USD thì để cạnh tranh nó cũng đặt mức giá nh− vậy và thu đ−ợc lợi nhuận là 8 triệu, và nếu nó biết chắc chắn rằng Vietnam airline chọn mức giá150USD thì Pacific airline cũng đặt giá t−ơng tự và sẽ thu đ−ợc lợi nhuận là 10 triệu.Vậy tuỳ thuộc vào mức giá j của Vietnam airline, PMj của Pacific airline có giá trị sau

j 100 150 PMj 8 10 Pj 0,6 0,4

Vậy với lợi nhuận kỳ vọng khi có thông tin hoàn hảo là: PEIP=0,6.8+0,4.10=8,8 triệu

Nh− vậy giá trị kỳ vọng của thông tin hoàn hảo là: VIEP = PEIP –PE* = 8,8 - 8,4 = 0,4 triệu

Nh− thế thì Pacific airline sẽ bị thiệt hại kỳ vọng là 0,4 triệu do không có thông tin hoàn hảo. Nói cách khác nó sẽ sẵn sàng trả tối đa 0,4 triệu USD để có đ−ợc thông tin chính xác là Vietnam airline sẽ quy định giá vé là bao nhiêu .

Một vài ứng dụng thực tế

1. Sử dụng máy tính bỏ túi trong thống kê.

Máy tính bỏ túi là công cụ hỗ trợ rất đắc lực cho việc học thống kê toán. Nhờ máy tính bỏ túi, thống kê toán đã trở nên dễ học và dễ ứng dụng. Chẳng hạn, đối với máy Casio FX - 500MS, để tính giá trị trung bình, ph−ơng sai, độ lệch chuẩn của một mẫu số liệu chúng ta cần làm trình tự theo các b−ớc sau:

1) Đầu tiên vào chế độ tính toán thống kê, ta ấn:

2) Xoá các dữ liệu còn l−u trong máy, ta ấn:

3) Giả sử mẫu số liệu là: x1, x2, ..., xn. Để nhập số liệu ta ấn: x1 x2 ... xn

Nếu mẫu số liệu x1, x2, ..., xn trong đó xi có tần số ni (i = 1, ..., m) ta ấn: x1 n1 ... x2 n2 ... xm nm

4) Nhập dữ liệu xong, tính giá trị trung bình X ta ấn:

5) Tính độ lệch chuẩn δ, ta ấn:

6) Tính ph−ơng sai δ2: Lấy bình ph−ơng của độ lệch chuẩn, ta ấn tiếp:

Ví dụ: Tính giá trị trung bình, ph−ơng sai, độ lệch chuẩn điểm các môn học của bạn An biết:

MODE 2

Shift Clr 1 =

DT DT DT

Shift ; DT Shift ; DT Shift ; DT

Shift S - Var 1 =

Shift S - Var 2 =

Môn Điểm trung bình Môn Điểm trung bình

Toán 8 Lịch sử 8

Vật lý 7,5 Địa lý 8,2

Hoá học 7,8 Anh văn 9

Sinh học 7,8 Thể dục 8

Văn học 7 Kỹ thuật 8,3

GDCD 9

Sau khi thực hiện b−ớc 1 và 2, để nhập dữ liệu ta ấn: 3) 8 7,5 ... 9

4) Tính X:

Trên màn hình hiện ra số 8,1. Đó là giá trị trung bình. 5) Tính độ lệch chuẩn δ ta ấn:

Trên màn hình hiện ra số 0,555959449. Đó là độ lệch chuẩn. 6) Tính ph−ơng sai δ2:

Trên màn hình hiện ra số 0,309090909. Đó là ph−ơng sai.

2. Thống kê toán là một ph−ơng pháp đ−ợc sử dụng trong nghiên cứu khoa học giáo dục.

Trong nghiên cứu khoa học giáo dục đối t−ợng là các hiện t−ợng, quá trình phức tạp, biến động theo nhiều nguyên nhân, ta không thể làm hai thực nghiệm giáo dục trong điều kiện hoàn toàn nh− nhau (trình độ học sinh, hoàn cảnh, môi tr−ờng...) và kết quả hoàn toàn trùng nhau. Do vậy sử dụng toán học để làm tăng độ tin cậy của các kết quả nghiên cứu. Trong nghiên cứu khoa học

DT DT DT

Shift S - Var 1 =

Shift S - Var 2 =

công thức (tần suất, trung bình cộng, ph−ơng sai, độ lệch chuẩn, trung vị...) đ−ợc dùng để nghiên cứu đối t−ợng khoa học, tính toán các thông số liên quan đến đối t−ợng, tìm ra quy luật vận động của đối t−ợng...

Ví dụ: Kết quả bài kiểm tra toán của 10 học sinh lớp 10A nh− sau: 4; 5; 6; 4; 8; 9; 7; 5; 7; 5;

Hãy phân loại, đánh giá kết quả kiểm tra của 10 học sinh trên. a. Phân loại.

- Lập bảng số liệu gốc: Quy −ớc: xi - loại điểm

ni - số ng−ời đạt loại điểm t−ơng ứng.

xi 4 5 6 7 8 9

ni 2 3 1 2 1 1

- Phân loại. Quy −ớc: Loại kém: 1; 2; 3 Loại yếu: 4

Loại trung bình: 5; 6 Loại khá: 7; 8

Loại giỏi: 9; 10 áp dụng công thức tính tuần suất: fi = ni

n , ta có: Loại yếu: f1 = n1 n = 2 10 = 20%.... b. Đánh giá: Trung bình cộng: 1 n i i i n x X n = = ∑ ta có: X=6

Vậy kết quả chung của 10 học sinh nói trên đạt loại trung bình. Kết quả học tập không đều, phân tán từ điểm 4 tới điểm 9, tập trung nhiều ở loại điểm trung bình.

- Tính độ chụm của kết quả kiểm tra. + Tính ph−ơng sai δ2 áp dụng: 2 2 1 1 ( ) k i i i n X X n δ = = ∑ − Ta có: 2 26 10 δ = + Độ lệch chuẩn: 2 1, 6 δ = δ = ± Tính độ chụm: X±δ = ±6 1, 6 hay 4,4 → 7,6.

Kết luận: Vậy điểm có thể chấp nhận trong kết quả chung của 10 học sinh nói trên phân tán quanh trung bìnhg cộng là 4,4 đến 7,6.

3. Bài toán xác định kích th−ớc mẫu tối thiểu.

Trong dạng toán −ớc l−ợng các tham số của biến ngẫu nhiên phân phối theo quy luật chuẩn.

Với độ tin cậy (1 - α), sau khi ta tìm đ−ợc khoảng tin cậy đối xứng của −ớc l−ợng.

I = 2ε (với ε độ chính xác của −ớc l−ợng).

Từ đây ta sẽ thu đ−ợc công thức xác định kích th−ớc mẫu tối thiểu n sao cho với độ tin cậy (1 - α) cho tr−ớc, độ dài khoảng tin cậy không v−ợt quá giá trị I0 cho tr−ớc.

Bài tập xác định kích th−ớc mẫu tối thiểu n th−ờng đ−ợc đặt ra tr−ớc khi chọn mẫu. Khi phải xác định kích th−ớc mẫu cần điều tra để đáp ứng những yêu cầu chất l−ợng cho tr−ớc về độ tin cậy và độ chính xác của −ớc l−ợng.

Ví dụ: Với độ tin cậy (1 - α), sau khi tìm đ−ợc khoảng tin cậy đối xứng của kỳ vọng toán à là: (X u / 2;X u / 2)

n α n α

δ δ

− +

Ta có độ dài khoảng tin cậy I 2 2 u / 2 n α

δ ε

Khi đó công thức xác định kích th−ớc mẫu tối thiểu n sao cho với độ tin cậy bằng (1 - α) cho tr−ớc độ dài khoảng tin cậy không v−ợt quá I0 cho tr−ớc có dạng:

2 2 2 2 / 2 2 / 2 0 0 4 n u u I α α δ δ ε   ≥ =  

tức n là số nguyên d−ơng nhỏ nhất lớn hơn hoặc bằng 2 2