Xác suất thống kê ứng dụng trong KT: Một vài điểm cần nắm vững trước khi thi (Dùng cho phần mềm R) pot

**I > Những thao tác cơ bản với R : >>Các phép toán số học và các hàm giải tích cơ bản trong R >>Cách nhập dữ liệu < scan vs nhập từ file >,các thao tác với véc tơ và ma trận nhập, dãy s

Trang 1

Xác suất thống kê ứng dụng trong KT: Một số điểm cần

nắm vững trước khi thi

**I > Những thao tác cơ bản với R :

>>Các phép toán số học và các hàm giải tích cơ bản trong R

>>Cách nhập dữ liệu < scan() vs nhập từ file >,các thao tác với véc tơ và ma trận (nhập), dãy số, cách đặt đường dẫn <setwd() vs change dir >

*** II > Phần Bài tập dữ liệu và xử lý dữ liệu :

>>Hiểu rõ dữ liệu định lượng và định tính

>>Cách lấy cột dữ liệu (vec tơ) từ dữ liệu data.frame và ngược lại

>>Bảng tần số của vectơ dữ liệu < lệnh table(x) >, tần suất < prop.table(x) > , tần số tích lũy và tần suất tích lũy < cumsum(table(x)) và cumsum(prop.table(x)) >

>>Cách chia tổ cho DL định lượng

>>Các loại biểu đồ cho DL định tính, định lượng : sử dụng sao cho phù hợp với yêu cầu và

dữ liệu của đề bài Cách nhận xét biểu đồ

>>Các đại lượng thống kê mô tả dùng cho DL véc tơ và cách nhận xét kết quả thu được

Lưu ý:

>>> Lệnh vẽ biểu đồ có rất nhiều tham số mặc định ,khi vẽ nếu không có yêu cầu gì thêm

chỉ cần chú ý đến những tham số cơ bản nhất ,tránh rườm rà ,đơn giản hóa câu lệnh

>>>Phần dữ liệu định tính chỉ áp dụng dụng được một đại lượng thống kê mô tả duy nhất

,đó là Mode Cách tìm Mode <chung cho cả 2 loại DL> :

>which( table(x)==max(table(x)) )

Eg:

> x=c(1,1,2,2,2,5,5,5,5)

> which(table(x)==max(table(x)))

5

3 # 5,3 ?

> table(x)

x

1 2 5

2 3 4

Cách đọc kết quả : 5 là giá trị Mode (có tần số lớn nhất trong x) còn 3 là vị trí của nó trong bảng tần số(tần số của nó là 4 ) Nếu dữ liệu có nhiều Mode thì kết quả sẽ hiện lần lượt theo thứ tự xuất hiện trong bảng tần số

>>>Khi phải tính nhiều đại lượng TK thì dùng lệnh gộp : summary(x)

Eg:

> x=1:100

> summary(x)

Min 1st Qu Median Mean 3rd Qu Max

Trang 2

1.00 25.75 50.50 50.50 75.25 100.00

Lệnh này sẽ cho biết theo thứ tự : Giá trị nhỏ nhất, tứ phân vị thứ nhất, trung vị, trung bình , tứ phân vị thứ 3 và giá trị lớn nhất của dữ liệu vec tơ x

*** III > Phần Bài tập xác suất cổ điển và biến ngẫu nhiên :

>>>Hiểu được khái niệm xác suất theo nghĩa cổ điển,cách đếm số trường hợp thuận lợi và

số trường hợp có thể(không gian mẫu)

>>>Hiểu về các biến cố độc lập , xung khắc, hệ biến cố đầy đủ ,và xác suất có điều

kiện Các công thức về xác suất : cộng , nhân, Bayes, xác suất điều kiện, CT xác suất đầy

đủ

>>>>Biết cách đặt các mệnh đề A=””,B=”” H=”” sao cho đề bài sẽ được xác suất hóa :

P(A)=a,P(B)=b,P(A|H)=ah, và Yêu cầu của bài toán được biểu diễn bởi một xác suất dạng P(H|A) hay P(A+B), nào đó Áp dụng các công thức quen thuộc và từ giả thuyết sẽ tính được xác suất cần tính !

>>>Một số công thức tính xác suất của các phân phối thông dụng : chuẩn , đều, nhị thức, poison với các dạng theo điểm (dnorm(),dpois() ),tích lũy (pnorm(),ppois() ),tìm ngược giá trị để xác suất tích lũy đạt giá trị cho trước (qnorm(),qpois() )

Lưu ý : tham số mặc định : lower.tail=T trong các hàm p~ và q~ để xác định việc tích lũy từ

cận dưới đến giá trị tích lũy, nếu đổi lower.tail=F thì việc tích lũy sẽ được hiểu là từ già trị tích lũy đến cận trên (rất hợp nếu tính ppois() với già trì X>N)

*** IV >Phần khoảng tin cậy và kiểm định tham số :

>>>Kiểm tra xem máy đã có thư viện BSDA chưa nếu không thì cài vào : dùng lệnh

>library(BSDA) <gọi thư viện BSDA>

>>>Khi ước lượng khoảng tin cậy hay kiểm định về TB của tổng thể (1 hoặc 2) cần xét

xem bài toán rơi vào trường hợp nào để dùng các lệnh z.test(),zsum.test() , t.test() hay tsum.test() cho phù hợp

>>>>Xây dựng cặp giả thuyết H0,H1 cho phù hợp: Giả thuyết bao gồm dấu = (giống

nhau,như nhau, không nhỏ hơn, không lớn hơn ) bao giờ cũng để ở H0, và giả thuyết đối

của nó để ở H1 (khác nhau, <>,lớn hơn , nhỏ hơn).Như vậy giả thuyết cần kiểm định có thể đặt ở H0 hoặc H1 tùy thuộc nó có bao gồm dấu = hay không!

>>>Khi dùng prop.test(x,n,p=NULL,correct=F) để tìm khoảng tin cậy cho tỷ lệ hay kiểm định tỷ lệ một hay 2 tổng thể thì để giá trị tham số correct = F

>>Cách viết tắt một số tham số : alternative =alt , TRUE=T, FALSE=F, “greater” = “g”,

“less”=”l”, “two.sided”=”t” ( mặc định là kiểm định 2 phía nên có thể bỏ qua tham số alt=”t” nếu muốn kiểm định 2 phía !)

Trang 3

>>>Khi kiểm định trung bình 2 tổng thể :

- Trong trường hợp dùng hàm tsum.test( ) thì lưu ý có thêm tham số var.equal ,mặc định

var.equal=TRUE ;nghĩa là giả thiết 2 tổng thể có phương sai bằng nhau

- Trong trường hợp dùng hàm t.test( ) thì có thêm 2 tham số paired và var.equal để

thể hiện lấy mẫu độc lập hay theo cặp và có giả thiết gì về phương sai 2 tổng thể hay không Mặc định paired=F và var.equal=F , tức lấy mẫu độc lập và 2 phương sai tổng thể khác nhau Tùy vào đề bài mà xem xét có điều chỉnh giá trị các tham số nàu không ! *** V> Phần kiểm định Phi Tham số :

>>>Kiểm định Khi-bình phương :

- Về tính độc lập :Dữ liệu liên hệ giữa 2 tính chất được thể hiện trong một ma trận

H0:2 tính chất cần kiểm định là độc lập

H1:2 tính chất đó phụ thuộc

Lệnh trong R : > chisq.test(X)

Với X là : ma trận những giá trị trong mẫu

-Về sự phù hợp :

H0: Sự kiện xảy ra phù hợp với quy luật thông thường , tức p= p0

H1: Sự kiện xảy ra không phù hợp với quy luật thông thường

Lưu ý p0 là một vec tơ các xác suất mô tả quy luật thông thường và tổng các xác suất

này phải =1

Lệnh trong R : >chisq(x,p=p0, )

Với x: véc tơ các tần số trong mẫu

>>>Kiểm định Wilcoxon về trung vị và tổng hạng :

- Khi không có giả thuyết về phân phối chuẩn của tổng thể và cỡ mẫu lấy ra nhỏ thì ta dùng kiểm định wilcoxon và kiểm định về trung vị thay cho trung bình (trường hợp này trung vị sẽ đại diện tốt hơn cho tổng thể !)

- Kiểm định về trung vị của một tổng thể :

>wilcox.test(x,mu=mu0,alt=)

Với x : véc tơ giá trị mẫu ; mu0 : giá trị trung vị theo H0 (mu=mu0)

- Kiểm định về tổng hạng 2 tổng thể (hay 2 trung vị của 2 tổng thể):

>wilcox.test(x,y,alt=,paired=F, )

Ở đây mu0=0 nên bỏ qua, mu0 là chênh lệch giá tri 2 trung vị theo H0

Tham sô paired cho biết 2 mẫu có lấy độc lập hay không, mặc định là F(độc lập)

>>Kiểm định Kruskal Wallis cho nhiều mẫu độc lập trong R : (xem qua!)

>kruskal.test(list(x,y,z, ))

Với x,y,z, : các mẫu dữ liệu

>>>Kiểm định về hệ số tương quan thứ hạng bằng phương pháp Spearman:

Khi không có giả thuyết về phân phối chuẩn của 2 tổng thể :

Với (x,y ):mẫu dữ liệu rút ra từ tổng thể

>cor(x,y,method=”spearman”) # Hệ số tương quan thứ hạng mẫu

>cor.test(x,y,alt=,method=”spearman”, ) # Kiểm định về hệ số tương quan thứ hạng ,ở đây H0: hệ số tương quan =0

Trang 4

*** VI > Phần hồi quy tuyến tính :

*** Hồi quy đơn biến :

Các câu lệnh trong R :

Với x,y :tập dữ liệu mẫu tương ứng với biến độc lập và phụ thuộc

>lm(y~x) # Xác định đường hồi quy mẫu

>summary(lm(y~x)) # Các kết quả phân tích

>confint(lm(y~x),level=) # Khoảng tin cậy cho hệ số beta_0 , beta_1 với độ tin cậy

cân xứng level (mặc định=0.95)

>predict(lm(y~x),newdata,interval= , level= , )

# newdata : là dữ liệu data.frame chứa giá trị mới của x cần xử lý ,nếu không có tham số này thì sẽ xử lý trên véc tơ x đã nhập

# Nếu interval = “ confidence” : tìm khoảng tin cậy cho trung bình y khi x nhận giá trị trong newdata

# Nếu interval = “ prediction: : tìm khoảng dự báo cho giá trị(thực) của y khi x nhận giá trị trong newdata

# level : độ tin cậy cân xứng trong phép xử lý (mặc định =0.95)

>plot(x,y) # Vẽ biểu đồ tán xạ thể hiện mối quan hệ giữa hai biến

>abline(lm(y~x)) # Vẽ thêm đường hồi quy mẫu vào biểu đồ trên

>>>> Eg:

> x=1:10

> y=c(2,3,4,5,7,8,9,13,16,18)

> lm(y~x)

Call:

lm(formula = y ~ x)

Coefficients:

(Intercept) x

-1.267 1.776

# Các hệ số ( Coefficients ) :

(Intercept) :beta_0 = -1.267

x : beta_1 = 1.776

> confint(lm(y~x),level=0.98)

1 % 99 %

(Intercept) -3.916843 1.383509

x 1.348643 2.202872

# với độ tin cậy cân xứng 98% thì các hệ số beta_0 , beta_1 nằm trong các khoảng trên ## Tìm khoảng tin cậy và khoảng dự báo cho ytb và y :

Trang 5

> newdata=data.frame(x=c(1.5,2.5,5.5))

> newdata

x

1 1.5

2 2.5

3 5.5

> predict(lm(y~x),newdata,interval="confidence",level=0.99)

fit lwr upr

1 1.396970 -1.039581 3.833520

2 3.172727 1.117716 5.227738

3 8.500000 7.078828 9.921172

# Tìm khoảng tin cậy 99% cho giá tri trung bình của y khi x=c(1.5 ,2.5 ,5.5) là các khoảng

từ lwr đến upr (lower ,uper)

> predict(lm(y~x),newdata,interval="prediction",level=0.99)

fit lwr upr

1 1.396970 -3.715179 6.509119

2 3.172727 -1.768969 8.114423

3 8.500000 3.786507 13.213493

# Tìm khoảng dự báo 99% cho giá trị thực của y khi x=c(1.5 , 2.5 , 5.5 )

Nhận xét : Độ rộng của khoảng dự báo (cho gt thực y )bao giờ cũng lớn hơn khoảng tin

cậy của trung bình y

> summary(lm(y~x))

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-2.164e+00 -7.803e-01 -2.082e-16 1.142e+00 1.509e+00

Coefficients:

Estimate Std Error t value Pr(>|t|)

(Intercept) -1.2667 0.9150 -1.384 0.204

x 1.7758 0.1475 12.042 2.09e-06 ***

-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.339 on 8 degrees of freedom

Multiple R-squared: 0.9477, Adjusted R-squared: 0.9412

F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06

### Cách đọc các giá trị trong lệnh summary() :độ tin cậy mặc định 95%

>> Residuals : là giá trị phần dư , các đại lượng thống kê cho nó được liệt kê ở dưới

>>>> Coefficients : Các hệ số :

Trang 6

- beta_0 : giá trị ước đoán (Estimate ) -1.2667 , sai số chuẩn (Std Error ) : 0.9150 , t-value :-1.384

- beta_1 : giá trị ước đoán : 1.7758 , sai số chuẩn : 0.1475 , t-value : 12.042

Lưu ý : giá tri t (t-value) dùng để kiểm định về độ dốc của đường hồi quy (hay beta_1)

>> Residual standard error : Sai số chuẩn của phần dư : là 1.339 với 8 bậc tự do (=n-2 , ở đây n=10 và chiều dai véc tơ nhập x,y )

>>>> Multiple R-squared : Là hệ số xác định R^2 : 0.9477

Adjusted R-squared : Hệ số xác định đã điều chỉnh : 0.94124 (nhỏ hơn R^2)

>> F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06 : Thống kê toàn diện F (xem qua)

> plot(x,y)

> abline(lm(y~x))

# Lệnh vẽ :

>>>> Kiểm định độ dốc đường hồi quy mẫu với mức ý nghĩa anfa :

H0: Độ dốc =0 hay beta_1 =0

-Nếu “H1 : beta_1 >0 “ thì tính >pt(t-value,lower.tail=F,df=n-2) ,rồi so sánh với anfa -Nếu “H1 : beta_1 <0 “ thì tính >pt(t-value,df=n-2) ,rồi so sánh với anfa

-Nếu “H1 : beta_1 <> 0” thì tính >2*pt(|t-value|,lower.tail=F,df=n-2) , rồi so sánh với anfa

Eg: Tiếp VD trên : có n=10 , t-value =12.042 , với giả thuyết H1 hai phía (beta_1<>0) và

giả sử anfa =0.1 :

> t_value =12.042

> 2*pt(abs(t_value),lower.tail=F,df=8)

[1] 2.087528e-06

Rõ ràng là p-value = 2.087528e-06 < 0.1 =anfa nên ta bác bỏ H0 chấp nhận H1

>>>Hệ số tương quan :

>cor(x,y) # Hệ số tương quan mẫu

Trang 7

>cor.test(x,y,alt= ) # Kiểm định về hệ số tương quan, với H0: hệ số tương quan =0

Lưu ý :tham số method có thể nhận giá trị “pearson”,”kendall” hay “spearman” , nếu

không có yêu cầu cụ thể thì bỏ qua (mặc định)

** Hồi quy đa biến :

Tương tự như hồi quy đơn biến , trong các câu lệnh chỉ thay lm( y~x ) bằng

lm(y~x1+x2+x3+ )

Chẳng hạn nếu y phụ thuộc hai biến độc lập x1,x2 thì :

>lm(y~x1+x2) # Xác định đường hồi quy mẫu

>summary(lm(y~x1+x2)) # Các kết quả phân tích

>confint(lm(y~x1+x2),level=) # Khoảng tin cậy cho hệ số beta_0 , beta_1 ,beta_2 với

độ tin cậy cân xứng level (mặc định=0.95)

>predict(lm(y~x1+x2),newdata,interval= , level= , )

Chú ý : newdata ở đây sẽ có 2 cột x1 và x2 chứ không phải một như trước , vd :

> newdata=data.frame(x1=c(1,2,5),x2=c(1.5 ,3.5 ,7))

> newdata

x1 x2

1 1 1.5

2 2 3.5

3 5 7.0

Không có các lệnh vẽ trong trường hợp này !

* VII > Phần phân tích phương sai :

Xem qua !

Ghi chú :

Các dấu * (từ * đến *** ) đại diện cho tầm quan trọng của mỗi phần mục lớn.

Các dấu > ( từ >> đến >>>> ) biểu hiện cho mức độ quan trọng của các mục nhỏ.

Dấu > đứng độc lập : biểu diễn câu lệnh trong R !!!

Định dạng
Số trang	7
Dung lượng	81 KB