Phân tích số giờ nắng của các tháng năm 2011

Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN



-BÁO CÁO MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU

Đề tài: Phân tích số giờ nắng của các tháng năm 2011 Giảng viên HD : Th.S Nguyễn Phương Nga

Lớp : Đại học Khoa học máy tính 2 - K7 Sinh viên TH : Nhóm 16

HÀ NỘI - 2015

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

Trang 2

KHOA CÔNG NGHỆ THÔNG TIN



-BÁO CÁO MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU

Đề tài: Phân tích số giờ nắng của các tháng năm 2011

Giảng viên HD: Th.S Nguyễn Phương Nga Sinh viên TH : Nhóm 16

Nguyễn Đức Mạnh Đặng Văn Đoàn

Trang 3

Mục lục

Trang 4

LỜI NÓI ĐẦU

“Phân tích thống kê số liệu” là một ngành khoa học có ứng dụng tương đối rộngrãi trong các lĩnh vực của đời sống như nông nghiệp, kinh tế, y học, các ngành khoahọc… Nó giúp chúng ta có những đánh giá, dự báo về một sự kiện, một đối tượng nào

đó, từ đó giúp chúng ta đưa ra được những giải pháp đúng đắn để phát huy cũng nhưhạn chế, khắc phục những ưu và nhược điểm của sự kiện, đối tượng đó

Đối với Nhóm 16 - ĐH Khoa học máy tính 2_K7 thì “Phân tích thống kê

số liệu” là một môn mới và xa lạ Tuy nhiên trong quá trình học và nghiên cứu môn nhóm đã được tìm hiểu và được sự hướng dẫn của cô giáo Nguyễn Phương Nga Do

vậy nhóm đã quyết định chọn đề tài bài tập lớn là: “Phân tích số giờ nắng của các tháng năm 2011” để nghiên cứu Vận dụng những kiến thức đã học được nhóm đã

nghiên cứu và đưa ra những dự báo, đánh giá về tình hình số giờ nắng của một sốvùng miền trên cả nước, thấy được sự chênh lệch giữa các vùng miền, từ đó sẽ đưa racác dự báo thích hợp

Nhóm 16 xin chân thành cảm ơn cô giáo Nguyễn Phương Nga đã tận tình giúp

nhóm hoàn thành bài tập lớn này

Trang 5

CHƯƠNG I: LÝ THUYẾT TÌM HIỂU

I KHÁI NIỆM:

Mặt lượng của hiện tượng thường xuyên biến động qua thời gian Trong thống

kê để nghiên cứu sự biến động này ta thường dựa vào dãy số thời gian

Dãy số thời gian là dãy số các trị số của chỉ tiêu thống kê được sắp xếp theo thứ

tự thời gian

 Mỗi dãy số thời gian có hai thành phần:

- Thời gian: có thể là ngày, tuần, tháng, quí, năm, Độ dài giữa hai thờigian liền nhau được gọi là khoảng cách thời gian

- Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối, số tươngđối, số bình quân Trị số của chỉ tiêu còn gọi là mức độ của dãy số

II PHÂN LOẠI DÃY SỐ THỜI GIAN

Căn cứ vào tính chất thời gian của dãy số, có thể phân biệt thành 2 loại:

1 Dãy số thời kỳ:

Là dãy số biểu hiện mặt lượng của hiện tượng qua từng thời kỳ nhất định

2 Dãy số thời điểm:

Là loại dãy số biểu hiện mặt lượng của hiện tượng qua các thời điểm nhất định.Dãy số này còn được phân biệt thành 2 loại:

- Dãy số thời điểm có khoảng cách thời gian đều nhau

III CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN BIẾN ĐỘNG THỜI GIAN

1 Biến động có xu hướng

2 Biến động theo thời vụ

3 Biến động theo chu kỳ

4 Biến động bất thường

Trang 6

IV.CÁC CHỈ TIÊU PHÂN TÍCH

Để phản ánh đặc điểm biến động qua thời gian của hiện tượng nghiên cứu,người ta thường tính các chỉ tiêu sau đây:

1 Mức độ trung bình theo thời gian:

Chỉ tiêu này phản ánh mức độ đại biểu của các mức độ tuyệt đối trong một dãy

số thời gian Mức độ trung bình theo thời gian được xác định theo các công thức khácnhau, tùy theo tính chất thời gian của dãy số

 Đối với dãy số thời kỳ:

Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho sốcác mức độ, tức là:

Trong đó:

Yi (i = 1,…, n): các mức độ của dãy số thời kỳ

n: số mức độ của dãy số

 Đối với dãy số thời điểm:

* Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theocông thức sau:

Trang 7

* Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bìnhđược tính theo công thức:

i i

ti (i=1,2, , n): độ dài của các khoảng cách thời gian

2 Lượng tăng hoặc giảm tuyệt đối

Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời giannghiên cứu Tùy theo mục đích nghiên cứu ta có:

 Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn)

Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳliền nhau

Công thức tính: δ = −y i y i−1

yi : mức độ của kỳ nghiên cứu

yi-1 :mức độ của kỳ đứng liền trước đó

* Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là(n-1) lượng tăng (giảm) tuyệt đối từng kỳ

 Lượng tăng (hoặc) giảm tuyệt đối định gốc

Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua mộtthời gian dài

Công thức tính: y i 1

∆ = −

yi : mức độ của kỳ nghiên cứu

y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số)

Trang 8

+ Mối quan hệ giữa ∆y

 Lượng tăng giảm tuyệt đối trung bình

Chỉ tiêu này phản ánh lượng tăng (giảm) tuyệt đối điển hình của hiện tượng trong

cả thời kỳ nghiên cứu:

Là một số tương đối (thường được biểu hiện bằng lần hoặc %) phản ánh tốc độ

và xu hướng biến động của hiện tượng qua thời gian (tuỳ theo mục đích nghiên cứu ta

có tốc độ phát triển sau đây:)

 Tốc độ phát triển từng kỳ (liên hoàn)

Chỉ tiêu này phản ánh hiện tượng đã phát triển với tốc độ phát triển cụ thể là baonhiêu qua 2 kỳ liền nhau:

Trang 9

yi : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số)

* Mối quan hệ giữa K và k: tích số của các tốc độ phát triển từng kỳ bằng tốc độphát triển định gốc

4 Tốc độ tăng hoặc giảm

Là chỉ tiêu cho thấy nhịp độ tăng trưởng của hiện tượng nghiên cứu qua thời gian

 Tốc độ tăng (giảm) liên hoàn (từng kỳ)

Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua

2 thời kỳ nghiên cứu liền nhau

Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua

1 thời gian dài

 5.2.4.3 Tốc độ tăng (giảm) trung bình

Trang 10

Chỉ tiêu này cho thấy nhịp độ tăng (giảm) điển hình của hiện tượng trong cả thời

5 Trị tuyệt đối của 1% tăng (hoặc giảm)

Chỉ tiêu này dùng để đánh giá trị số tuyệt đối tương ứng với 1% của tốc độ tăng(hoặc giảm) từng kỳ

(ĐVT trùng với ĐVT của lượng biến)

CHƯƠNG II: TRIẾN KHAI VỚI BÀI TOÁN ỨNG DỤNG

Trang 11

I.THU THẬP DỮ LIỆU

Qua việc tìm hiểu trên sách báo và các trang thống kê nhóm đã thu thập được

dữ liệu số giờ nắng của các tĩnh năm 2011

Không gian mẫu là 12 tháng được lựa chọn trong số liệu thống kê Nhóm nhậnthấy không gian mẫu tương đối nhỏ nhưng đủ mức tin cậy để sử dụng các mô hìnhthống kê

II.XÁC ĐỊNH BÀI TOÁN

1.Yêu cầu của bài toán

Bài toán “Phân tích số giờ nắng của các tháng năm 2011” với mục đích nghiên cứu về

số giờ nắng của các tháng qua đó đưa ra được ảnh hưởng của số giờ nắng và dự đoán trong các năm tiếp theo, đưa ra được nhận xét về quá trình chuyển dịch cơ cấu số giờ nắng tới diện tích gieo trồng lúa

2.Mô hình dữ liệu

X: Là biến các tháng năm 2011

HaNoi: Là biến số giờ nắng ở Hà nội

trung binh (mm)

Nhiet do trung binh

Trang 12

DaNang: Là biến số giờ nắng ở Đà Nẵng

NhaTrang: Là biến số giờ nắng ở Nha Trang

luongmua: Là biến lượng mưa trung binh các tháng năm 2011

nhietdo:Là biến nhiệt độ trung bình các tháng năm 2011

• Variance: Phương sai

• Standard deviation: Độ lệch chuẩn

• Coeff of variation: Hệ số biến thiên

• Standard Error: Sai số chuẩn

• Minimum: Trị số quan sát bé nhất

• Maximum: Trị số quan sát lớn nhất

• Range: Độ biến thiên

• Skewness: Độ lệch của phân bố

• Kurtosis: Độ nhọn của phân bố

• Sum: Tổng các trị số quan sát

Analyze > Variable Data > One – Variable Analysis…

Trang 13

2 Mô hình hồi quy đơn biến

2.1 Khái niệm

Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tínhkhi tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽmột đường cũng được “làm khớp ” cho một tập dữ liệu Tuy nhiên vấn đề là: Làm thếnào vẽ một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so vớiđường thẳng được làm khớp

Các giải pháp cho vẫn đề:

Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị trung bìnhcủa y tương ứng với giá trị của x Đồ thị là đường thẳng và các điểm đi chệch so vớiđường thẳng này do ngẫu nhiên, và bằng e, tức là:

y=A+Bx+eTrong đó: A và B là các tham số chưa biết trong xác định mô hình Nếu ta giả

xử giá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:

- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp ứng)

Trang 14

2.2 Tính hệ số tự do(A), độ nghiêng(B) theo phương pháp bình phương cực tiểu

Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B của mô hình hồi quy dựa trên một dữ liệu mẫu

Giả sử chúng ta có một mẫu của n điểm dữ liệu (x1,y1), (x2,y2), , (xn,yn) Mô hình đường thẳng cho các y tương ứng với x là:

y=AB + x+eĐường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữ liệu mẫu Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước lượngcủa A và B tương ứng Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trị quansát của y là yi và các giá trị dự đoán của y sẽ là:

và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:

Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương phápbình phương cực tiểu của các tham số quần thể A và B và phương trình dự báo được gọi là đường bình phương cực tiểu

Công thức tính toán cho đường bình phương cực tiểu:

Trang 15

2.3 Đánh giá phương sai ()

Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết

và phải được ước tính từ dữ liệu mẫu Với đo phương sai của cá giá trị y về đường hồiquy, trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp

2.4 Kiểm định về năng lực mô hình

3 Hồi quy đa biến

3.1 Giới thiệu các mô hình tuyến tính tổng quát

 Một số mô hình:

 Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:

Mô hình bậc hai:

Đặt

Trang 16

Trở thành mô hình bậc nhất:

Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến

 Mô hình tuyến tính đa biến tổng quát

Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến

Trong đó e là sai số ngẫu nhiên :

 Đối với các giá trị bất kỳ của x1, x2,…, xk lỗi ngẫu nhiên e có phân bố chuẩn với trung bình bằng 0 và phương sai bằng

 Các lỗi ngẫu nhiên là độc lập

b Phương pháp bình phương tối thiểu

Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản

Giả sử ta có bảng dữ liệu mẫu:

x1 n

x2 n

…

xk n

Trang 17

Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B0, B1, B2,…., Bk sao cho cực tiểu.

SSE =

=Chúng ta có có thể viết ngắn gọn:

Y=, X=, b=

Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:

(X’X)b = X’YTrong đó X’ là chuyển vị của X

Suy ra : b = (X’X)-1 XY

c Đánh giá phương sai

Vì phương sai sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ liệu mẫu để ước tính giá trị của nó

Ước lượng của , phương sai trong mô hình hồi quy đa biến

Trong đó

d Đánh giá và kiểm định

 Kiểm định một phía:

H0: Bi=0; Ha: Bi<0 (hoặc Bi>0)Kiểm định thống kê

t = Vùng loại bỏ

t < -tα (hoặc t > t α)

 Kiểm định hai phía:

H0: Bi=0; Ha: Bi≠0Kiểm định thống kê

Trang 18

t = Vùng loại bỏ

t < -tα/2 (hoặc t > tα/2

e Kiểm tra năng lực của mô hình

Kiểm tra năng lực của mô hình:

E(y) = B0 + B1x1 + … + Bkxk

H0: Bi=0; Ha: Bi≠0Kiểm định thống kê:

F=

Vùng bác bỏ: F > Fα

f Sử dụng mô hình để ước lượng và dự báo

 Một khoảng tin cậy(1-α)100% đối với E(y)

tα/2 sTrong đó:

= b0+b1x1*+b2x2*+…+bχxχ*x*=(1 x1* x2* … xχ*)’ là một giá trị cụ thể của x

s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu

tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]

 Một khoảng dự báo(1-α)100% đối với E(y)

tα/2 sTrong đó:

= b0+b1x1*+b2x2*+…+bχxχ*x*=(1 x1 x2 … xχ*)’ là một giá trị cụ thể của x

s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu

tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]

3.2 Mô hình tương quan

3.2.1 Tổng quan

Để mô tả độ tương quan giữa hai biến, chúng ta cần phải ước tính hệ số tương quan (coefficient of correlation) Và, để hiểu “cơ chế” của hệ số tương quan, chúng ta cần làm quen với khái niệm hiệp biến(covariance) Chúng ta biết rằng với một

biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung (mean), và phương

Trang 19

sai (variance), mà tôi đã bàn qua trong bài ‘Độ lệch chuẩn hay sai số chuẩn?’ Nhưng

để mô tả mối tương quan giữa hai biến X và Y, chúng ta cần đến hiệp biến.

Có thể hiểu hiệp biến qua hình học lượng giác như sau Chúng ta biết rằng cho

một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí

Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia:

Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau:

Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y:

var(X + Y) = var(X) + var(Y)

trong đó, “var” là viết tắt của phương sai (tức variance) Chú ý rằng X+Y là một biến

mới Chúng ta cũng chú ý rằng công thức này tương đương với Định lí Pythagorascho tam giác vuông

Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng

một công thức khác với hiệp biến:

var(X + Y) = var(X) + var(Y) + 2×Cov(X,Y)

trong đó, “Cov” là viết tắt của hiệp biến (tức covariance) Chúng ta chú ý rằng côngthức này tương đương với công thức của tam giác thường, và cũng chú ý rằng công

thức trên giống như nhị thức:

Trên đây là khái niệm Bây giờ để đi vào chi tiết toán, chúng ta cần một số kíhiệu để viết tắt các chỉ số trên Gọi xi và yi là hai biến quan sát được của X và Y cho cá

nhân i Giả sử chúng ta có n đối tượng thì i = 1, 2, 3, …., n Gọi và là hai số trung

Trang 20

bình của biến quan sát được x và y; và lần lược là phương sai của hai biến, được

định nghĩa như sau:

Do đó, nếu X và Y độc lập, chúng ta có thể viết:

Nhưng nếu X và Y có liên hệ với nhau, công thức trên không đáp ứng được vấn

đề mô tả Chúng ta cần tìm một chỉ số khác mô tả mối liên hệ giữa hai biến, bằng cách nhân độ lệch của biến x từ số trung bình, , cho độ lệch của

biến y, , thay vì bình phương độ lệch từng biến riêng lẻ như công thức [1] Nói cách khác, tích số hai độ lệch chính là hiệp biến Đối với mỗi cá nhân, hiệp biếnlà:

Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia

cho số đối tượng:

Công thức [2] chính là định nghĩa của hiệp biến Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét sơ khởi:

o Phương sai lúc nào cũng là số dương, bởi vì chúng được tính toán từbình phương, nhưng hiệp biến có thể âm mà cũng có thể dương vì được ước tính từtích của hai độ lệch

Trang 21

o Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng thuận với y.

o Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng nghịch với y.

o Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì

với nhau

Một cách để “chuẩn hóa” hiệp biến và phương sai là lấy tỉ số của hai chỉ số này, và đó

chính là định nghĩa củahệ số tương quan Hệ số tương quan thường được kí hiệu bằng r:

(Chú ý rằng căn số bậc hai của phương sai là độ lệch chuẩn, tức

là: , cho nên công thức trên được mô tả bằng độ lệch chuẩn, thay vì phương sai) Với vài thao tác đại số, có thể viết lại công thức [3] như sau:

Công thức còn được biết đến như là hệ số Pearson (Pearson’s correlation

coefficient) để ghi nhận cống hiến của nhà thống kê học nổi tiếng Karl Pearson, người đầu tiên phát triển lí thuyết về tương quan vào đầu thế kỉ 20

Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại Nếu r = 1 hay r = -1 (Biểu đồ 1a và 1b), mối liên hệ củay và x được hoàn toàn xác định; có nghĩa là cho bất cứ giá trị nào của x, chúng ta có thể xác định giá trị

của y.Nếu r = 0 (Biểu đồ 1c), hai biến x và y hoàn toàn độc lập, tức không có liên hệ

với nhau

Trang 22

Biểu đồ 1: Mối liên hệ giữa x và y: (a) r = 1, (b) r = -1, và (c) r = 0 (độc lập).

Biểu đồ 1: Mối liên hệ giữa x và y: (d) r = 0.80; (e) r = -0.80, và (f) r = 0.001

Tất nhiên, trong thực tế khoa học thực nghiệm, ít khi nào chúng ta có những mối liên hệ xác định như vừa trình bày Vì sai số trong đo lường, vì các lí do dao động

sinh học, mối liên hệ giữa x và y thường dao động cao hơn -1 và thấp hơn 1, như Biểu

đồ 1d, 1e và 1f

Vấn đề đặt ra là diễn dịch ý nghĩa của hệ số tương quan như thế nào? Có thể xem hệ số tương quan như là một “hệ số ảnh hưởng” (effect size) Nếu hệ số ảnh hưởng càng cao, thì mối liên hệ có ý nghĩa lâm sàng thực tế Tuy nhiên, vì ý nghĩa lâm sàng còn tùy thuộc vào bộ môn khoa học Chẳng hạn như đối với các bộ môn khoa học đòi hỏi độ chính xác cao, hệ số tương quan phải trên 0.8 mới có thể xem là

“có ý nghĩa”; nhưng đối với các bộ môn khoa học lâm sàng và y tế công cộng, một hệ

số tương quan 0.6 cũng có thể là có ý nghĩa

Sau đây là những qui ước chung về cách diễn dịch hệ số tương quan trong lâm sàng và y tế công cộng

Trang 23

Bảng 2 Ý nghĩa của hệ số tương quan

Hệ số tương quan Ý nghĩa

±0.01 đến ±0.1 Mối tương quan quá thấp, không đáng kể

±0.2 đến ±0.3 Mối tương quan thấp

±0.4 đến ±0.5 Mối tương quan trung bình

±0.6 đến ±0.7 Mối tương quan cao

±0.8 trở lên Mối tương quan rất cao

Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không có nghĩa là những “tiêu chuẩn vàng” để ứng dụng

3.2.2 Khoảnh tin cậy 95 % của hệ số tương quan

Cũng như các thông số thống kê khác như số trung bình và độ lệch chuẩn, hệ

số tương quan cũng chịu ảnh hưởng của dao động giữa các mẫu Do đó, chúng ta cầnphải ước tính khoảng tin cậy 95% của hệ số tương quan Xin nhắc lại rằng, chúng takhông biết hệ số tương quan thật (tức là hệ số trong quần thể, và hãy gọi hệ số này làρ) là bao nhiêu, nên phải sử dụng hệ số r để ước tính ρ

Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ lệch chuẩncủa r

Lý thuyết thống kê cho biết độ lệch chuẩn của r là: Khó khăn ở đây, như công thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính độc lập Do

đó, cần phải tìm một phương pháp khác sao cho khách quan hơn Nhà thống kê học(và cũng là cha đẻ của khoa học thống kê hiện đại và cha đẻ của lí thuyết di truyền

hiện đại) Ronald A Fisher chứng minh rằng thay vì tính độ lệch chuẩn của r, có thể tính độ lệch chuẩn của một hàm số của r và sẽ đạt được mục tiêu khách quan.

Trang 24

Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán chuyển r sang một chỉ số mới z, qua công thức sau đây:

Và, có thể chứng minh rằng độ lệch chuẩn của z là:

Do đó, khoảng tin cậy 95% của z là: z ± 1.96*s z Tất nhiên, sau khi đã ước tính

được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại cho khoảng tincậy 95% của ρ

3.2.3 Kiểm định 2 hệ số tương quan

Giả sử chúng ta có hai hệ số tương quan r1 và r2, là ước số của hai hệ số ρ1

và ρ2 trong một quần thể Hai hệ số r1 và r2 được ước tính từ hai mẫu độc lập n1 và n2 đối tượng Để kiểm định giả định rằng ρ1=ρ2 và giả định ρ1≠ρ2 , chúng ta trước hết cần phải hoán chuyển r thành chỉ số z:

Gọi d = z 1 -z 2 , chúng ta có thể chứng minh rằng phương sai của d là:

Hay, nói cách khác, độ lệch chuẩn của d là:

Và kiểm định cho giả thuyết ρ1=ρ2 có thể tính toán chỉ số t như sau:

Trang 25

Có thể chứng minh rằng nếu giả thuyết ρ1=ρ2 là đúng thì t tuân theo luật phân

phối chuẩn với trung bình 0 và phương sai 1 Điều này có nghĩa là nếu giá trị

của t thấp hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan khác nhau

Trang 26

Để đánh giá yếu tố xu thế , phương pháp sử dụng phổ biến là:Phương pháp bình phương tối thiểu (BPTT)

Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc mặt phẳng ( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số liệu trong quá khứ ( “ gần với số liệu quan sát “)

Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài là tuyến tính , phương trình sẽ xác định bởi

Y=a+bt

Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định đường thẳng tính được từ phương án BPTT

Trang 27

Gọi Δyi là khoảng cách thẳng đứng từ điểm quan sát (ti, , Yi ) đến đường thẳng cần xác định Ta định nghĩa hàm mục tiêu

[ ( )]

N i i

ta biết đó là cực tiểu ) ta phải có

y

[1]

0)]

([

i i i

t N t

y t N y t

.)(

i

i b t y

N

t N

1

N-> tổng số quan trắc

Chú ý : Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến dạng

đường cong hàm mũ y=abt hoặc dạng parabol y = a + bt + ct2

Định dạng
Số trang	54
Dung lượng	2,07 MB