Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011 Phân tích số giờ nắng của các tháng năm 2011
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
-BÁO CÁO MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU
Đề tài: Phân tích số giờ nắng của các tháng năm 2011 Giảng viên HD : Th.S Nguyễn Phương Nga
Lớp : Đại học Khoa học máy tính 2 - K7 Sinh viên TH : Nhóm 16
HÀ NỘI - 2015
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
Trang 2KHOA CÔNG NGHỆ THÔNG TIN
-BÁO CÁO MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU
Đề tài: Phân tích số giờ nắng của các tháng năm 2011
Giảng viên HD: Th.S Nguyễn Phương Nga Sinh viên TH : Nhóm 16
Nguyễn Đức Mạnh Đặng Văn Đoàn
Trang 3Mục lục
Trang 4LỜI NÓI ĐẦU
“Phân tích thống kê số liệu” là một ngành khoa học có ứng dụng tương đối rộngrãi trong các lĩnh vực của đời sống như nông nghiệp, kinh tế, y học, các ngành khoahọc… Nó giúp chúng ta có những đánh giá, dự báo về một sự kiện, một đối tượng nào
đó, từ đó giúp chúng ta đưa ra được những giải pháp đúng đắn để phát huy cũng nhưhạn chế, khắc phục những ưu và nhược điểm của sự kiện, đối tượng đó
Đối với Nhóm 16 - ĐH Khoa học máy tính 2_K7 thì “Phân tích thống kê
số liệu” là một môn mới và xa lạ Tuy nhiên trong quá trình học và nghiên cứu môn nhóm đã được tìm hiểu và được sự hướng dẫn của cô giáo Nguyễn Phương Nga Do
vậy nhóm đã quyết định chọn đề tài bài tập lớn là: “Phân tích số giờ nắng của các tháng năm 2011” để nghiên cứu Vận dụng những kiến thức đã học được nhóm đã
nghiên cứu và đưa ra những dự báo, đánh giá về tình hình số giờ nắng của một sốvùng miền trên cả nước, thấy được sự chênh lệch giữa các vùng miền, từ đó sẽ đưa racác dự báo thích hợp
Nhóm 16 xin chân thành cảm ơn cô giáo Nguyễn Phương Nga đã tận tình giúp
nhóm hoàn thành bài tập lớn này
Trang 5CHƯƠNG I: LÝ THUYẾT TÌM HIỂU
I KHÁI NIỆM:
Mặt lượng của hiện tượng thường xuyên biến động qua thời gian Trong thống
kê để nghiên cứu sự biến động này ta thường dựa vào dãy số thời gian
Dãy số thời gian là dãy số các trị số của chỉ tiêu thống kê được sắp xếp theo thứ
tự thời gian
Mỗi dãy số thời gian có hai thành phần:
- Thời gian: có thể là ngày, tuần, tháng, quí, năm, Độ dài giữa hai thờigian liền nhau được gọi là khoảng cách thời gian
- Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối, số tươngđối, số bình quân Trị số của chỉ tiêu còn gọi là mức độ của dãy số
II PHÂN LOẠI DÃY SỐ THỜI GIAN
Căn cứ vào tính chất thời gian của dãy số, có thể phân biệt thành 2 loại:
1 Dãy số thời kỳ:
Là dãy số biểu hiện mặt lượng của hiện tượng qua từng thời kỳ nhất định
2 Dãy số thời điểm:
Là loại dãy số biểu hiện mặt lượng của hiện tượng qua các thời điểm nhất định.Dãy số này còn được phân biệt thành 2 loại:
- Dãy số thời điểm có khoảng cách thời gian đều nhau
III CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN BIẾN ĐỘNG THỜI GIAN
1 Biến động có xu hướng
2 Biến động theo thời vụ
3 Biến động theo chu kỳ
4 Biến động bất thường
Trang 6IV.CÁC CHỈ TIÊU PHÂN TÍCH
Để phản ánh đặc điểm biến động qua thời gian của hiện tượng nghiên cứu,người ta thường tính các chỉ tiêu sau đây:
1 Mức độ trung bình theo thời gian:
Chỉ tiêu này phản ánh mức độ đại biểu của các mức độ tuyệt đối trong một dãy
số thời gian Mức độ trung bình theo thời gian được xác định theo các công thức khácnhau, tùy theo tính chất thời gian của dãy số
Đối với dãy số thời kỳ:
Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho sốcác mức độ, tức là:
Trong đó:
Yi (i = 1,…, n): các mức độ của dãy số thời kỳ
n: số mức độ của dãy số
Đối với dãy số thời điểm:
* Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theocông thức sau:
Trang 7* Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bìnhđược tính theo công thức:
i i
ti (i=1,2, , n): độ dài của các khoảng cách thời gian
2 Lượng tăng hoặc giảm tuyệt đối
Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời giannghiên cứu Tùy theo mục đích nghiên cứu ta có:
Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn)
Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳliền nhau
Công thức tính: δ = −y i y i−1
yi : mức độ của kỳ nghiên cứu
yi-1 :mức độ của kỳ đứng liền trước đó
* Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là(n-1) lượng tăng (giảm) tuyệt đối từng kỳ
Lượng tăng (hoặc) giảm tuyệt đối định gốc
Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua mộtthời gian dài
Công thức tính: y i 1
∆ = −
yi : mức độ của kỳ nghiên cứu
y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số)
Trang 8+ Mối quan hệ giữa ∆y
Lượng tăng giảm tuyệt đối trung bình
Chỉ tiêu này phản ánh lượng tăng (giảm) tuyệt đối điển hình của hiện tượng trong
cả thời kỳ nghiên cứu:
Là một số tương đối (thường được biểu hiện bằng lần hoặc %) phản ánh tốc độ
và xu hướng biến động của hiện tượng qua thời gian (tuỳ theo mục đích nghiên cứu ta
có tốc độ phát triển sau đây:)
Tốc độ phát triển từng kỳ (liên hoàn)
Chỉ tiêu này phản ánh hiện tượng đã phát triển với tốc độ phát triển cụ thể là baonhiêu qua 2 kỳ liền nhau:
Trang 9yi : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số)
* Mối quan hệ giữa K và k: tích số của các tốc độ phát triển từng kỳ bằng tốc độphát triển định gốc
4 Tốc độ tăng hoặc giảm
Là chỉ tiêu cho thấy nhịp độ tăng trưởng của hiện tượng nghiên cứu qua thời gian
Tốc độ tăng (giảm) liên hoàn (từng kỳ)
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua
2 thời kỳ nghiên cứu liền nhau
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua
1 thời gian dài
5.2.4.3 Tốc độ tăng (giảm) trung bình
Trang 10Chỉ tiêu này cho thấy nhịp độ tăng (giảm) điển hình của hiện tượng trong cả thời
5 Trị tuyệt đối của 1% tăng (hoặc giảm)
Chỉ tiêu này dùng để đánh giá trị số tuyệt đối tương ứng với 1% của tốc độ tăng(hoặc giảm) từng kỳ
(ĐVT trùng với ĐVT của lượng biến)
CHƯƠNG II: TRIẾN KHAI VỚI BÀI TOÁN ỨNG DỤNG
Trang 11I.THU THẬP DỮ LIỆU
Qua việc tìm hiểu trên sách báo và các trang thống kê nhóm đã thu thập được
dữ liệu số giờ nắng của các tĩnh năm 2011
Không gian mẫu là 12 tháng được lựa chọn trong số liệu thống kê Nhóm nhậnthấy không gian mẫu tương đối nhỏ nhưng đủ mức tin cậy để sử dụng các mô hìnhthống kê
II.XÁC ĐỊNH BÀI TOÁN
1.Yêu cầu của bài toán
Bài toán “Phân tích số giờ nắng của các tháng năm 2011” với mục đích nghiên cứu về
số giờ nắng của các tháng qua đó đưa ra được ảnh hưởng của số giờ nắng và dự đoán trong các năm tiếp theo, đưa ra được nhận xét về quá trình chuyển dịch cơ cấu số giờ nắng tới diện tích gieo trồng lúa
2.Mô hình dữ liệu
X: Là biến các tháng năm 2011
HaNoi: Là biến số giờ nắng ở Hà nội
trung binh (mm)
Nhiet do trung binh
Trang 12DaNang: Là biến số giờ nắng ở Đà Nẵng
NhaTrang: Là biến số giờ nắng ở Nha Trang
luongmua: Là biến lượng mưa trung binh các tháng năm 2011
nhietdo:Là biến nhiệt độ trung bình các tháng năm 2011
• Variance: Phương sai
• Standard deviation: Độ lệch chuẩn
• Coeff of variation: Hệ số biến thiên
• Standard Error: Sai số chuẩn
• Minimum: Trị số quan sát bé nhất
• Maximum: Trị số quan sát lớn nhất
• Range: Độ biến thiên
• Skewness: Độ lệch của phân bố
• Kurtosis: Độ nhọn của phân bố
• Sum: Tổng các trị số quan sát
Analyze > Variable Data > One – Variable Analysis…
Trang 132 Mô hình hồi quy đơn biến
2.1 Khái niệm
Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tínhkhi tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽmột đường cũng được “làm khớp ” cho một tập dữ liệu Tuy nhiên vấn đề là: Làm thếnào vẽ một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so vớiđường thẳng được làm khớp
Các giải pháp cho vẫn đề:
Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị trung bìnhcủa y tương ứng với giá trị của x Đồ thị là đường thẳng và các điểm đi chệch so vớiđường thẳng này do ngẫu nhiên, và bằng e, tức là:
y=A+Bx+eTrong đó: A và B là các tham số chưa biết trong xác định mô hình Nếu ta giả
xử giá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp ứng)
Trang 142.2 Tính hệ số tự do(A), độ nghiêng(B) theo phương pháp bình phương cực tiểu
Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B của mô hình hồi quy dựa trên một dữ liệu mẫu
Giả sử chúng ta có một mẫu của n điểm dữ liệu (x1,y1), (x2,y2), , (xn,yn) Mô hình đường thẳng cho các y tương ứng với x là:
y=AB + x+eĐường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữ liệu mẫu Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước lượngcủa A và B tương ứng Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trị quansát của y là yi và các giá trị dự đoán của y sẽ là:
và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:
Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương phápbình phương cực tiểu của các tham số quần thể A và B và phương trình dự báo được gọi là đường bình phương cực tiểu
Công thức tính toán cho đường bình phương cực tiểu:
Trang 152.3 Đánh giá phương sai ()
Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết
và phải được ước tính từ dữ liệu mẫu Với đo phương sai của cá giá trị y về đường hồiquy, trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp
2.4 Kiểm định về năng lực mô hình
3 Hồi quy đa biến
3.1 Giới thiệu các mô hình tuyến tính tổng quát
Một số mô hình:
Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
Đặt
Trang 16Trở thành mô hình bậc nhất:
Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến
Mô hình tuyến tính đa biến tổng quát
Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến
Trong đó e là sai số ngẫu nhiên :
Đối với các giá trị bất kỳ của x1, x2,…, xk lỗi ngẫu nhiên e có phân bố chuẩn với trung bình bằng 0 và phương sai bằng
Các lỗi ngẫu nhiên là độc lập
b Phương pháp bình phương tối thiểu
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản
Giả sử ta có bảng dữ liệu mẫu:
x1 n
x2 n
…
xk n
Trang 17Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B0, B1, B2,…., Bk sao cho cực tiểu.
SSE =
=Chúng ta có có thể viết ngắn gọn:
Y=, X=, b=
Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:
(X’X)b = X’YTrong đó X’ là chuyển vị của X
Suy ra : b = (X’X)-1 XY
c Đánh giá phương sai
Vì phương sai sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ liệu mẫu để ước tính giá trị của nó
Ước lượng của , phương sai trong mô hình hồi quy đa biến
Trong đó
d Đánh giá và kiểm định
Kiểm định một phía:
H0: Bi=0; Ha: Bi<0 (hoặc Bi>0)Kiểm định thống kê
t = Vùng loại bỏ
t < -tα (hoặc t > t α)
Kiểm định hai phía:
H0: Bi=0; Ha: Bi≠0Kiểm định thống kê
Trang 18t = Vùng loại bỏ
t < -tα/2 (hoặc t > tα/2
e Kiểm tra năng lực của mô hình
Kiểm tra năng lực của mô hình:
E(y) = B0 + B1x1 + … + Bkxk
H0: Bi=0; Ha: Bi≠0Kiểm định thống kê:
F=
Vùng bác bỏ: F > Fα
f Sử dụng mô hình để ước lượng và dự báo
Một khoảng tin cậy(1-α)100% đối với E(y)
tα/2 sTrong đó:
= b0+b1x1*+b2x2*+…+bχxχ*x*=(1 x1* x2* … xχ*)’ là một giá trị cụ thể của x
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
Một khoảng dự báo(1-α)100% đối với E(y)
tα/2 sTrong đó:
= b0+b1x1*+b2x2*+…+bχxχ*x*=(1 x1 x2 … xχ*)’ là một giá trị cụ thể của x
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
3.2 Mô hình tương quan
3.2.1 Tổng quan
Để mô tả độ tương quan giữa hai biến, chúng ta cần phải ước tính hệ số tương quan (coefficient of correlation) Và, để hiểu “cơ chế” của hệ số tương quan, chúng ta cần làm quen với khái niệm hiệp biến(covariance) Chúng ta biết rằng với một
biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung (mean), và phương
Trang 19sai (variance), mà tôi đã bàn qua trong bài ‘Độ lệch chuẩn hay sai số chuẩn?’ Nhưng
để mô tả mối tương quan giữa hai biến X và Y, chúng ta cần đến hiệp biến.
Có thể hiểu hiệp biến qua hình học lượng giác như sau Chúng ta biết rằng cho
một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí
Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia:
Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau:
Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y:
var(X + Y) = var(X) + var(Y)
trong đó, “var” là viết tắt của phương sai (tức variance) Chú ý rằng X+Y là một biến
mới Chúng ta cũng chú ý rằng công thức này tương đương với Định lí Pythagorascho tam giác vuông
Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng
một công thức khác với hiệp biến:
var(X + Y) = var(X) + var(Y) + 2×Cov(X,Y)
trong đó, “Cov” là viết tắt của hiệp biến (tức covariance) Chúng ta chú ý rằng côngthức này tương đương với công thức của tam giác thường, và cũng chú ý rằng công
thức trên giống như nhị thức:
Trên đây là khái niệm Bây giờ để đi vào chi tiết toán, chúng ta cần một số kíhiệu để viết tắt các chỉ số trên Gọi xi và yi là hai biến quan sát được của X và Y cho cá
nhân i Giả sử chúng ta có n đối tượng thì i = 1, 2, 3, …., n Gọi và là hai số trung
Trang 20bình của biến quan sát được x và y; và lần lược là phương sai của hai biến, được
định nghĩa như sau:
Do đó, nếu X và Y độc lập, chúng ta có thể viết:
Nhưng nếu X và Y có liên hệ với nhau, công thức trên không đáp ứng được vấn
đề mô tả Chúng ta cần tìm một chỉ số khác mô tả mối liên hệ giữa hai biến, bằng cách nhân độ lệch của biến x từ số trung bình, , cho độ lệch của
biến y, , thay vì bình phương độ lệch từng biến riêng lẻ như công thức [1] Nói cách khác, tích số hai độ lệch chính là hiệp biến Đối với mỗi cá nhân, hiệp biếnlà:
Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia
cho số đối tượng:
Công thức [2] chính là định nghĩa của hiệp biến Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét sơ khởi:
o Phương sai lúc nào cũng là số dương, bởi vì chúng được tính toán từbình phương, nhưng hiệp biến có thể âm mà cũng có thể dương vì được ước tính từtích của hai độ lệch
Trang 21o Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng thuận với y.
o Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng nghịch với y.
o Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì
với nhau
Một cách để “chuẩn hóa” hiệp biến và phương sai là lấy tỉ số của hai chỉ số này, và đó
chính là định nghĩa củahệ số tương quan Hệ số tương quan thường được kí hiệu bằng r:
(Chú ý rằng căn số bậc hai của phương sai là độ lệch chuẩn, tức
là: , cho nên công thức trên được mô tả bằng độ lệch chuẩn, thay vì phương sai) Với vài thao tác đại số, có thể viết lại công thức [3] như sau:
Công thức còn được biết đến như là hệ số Pearson (Pearson’s correlation
coefficient) để ghi nhận cống hiến của nhà thống kê học nổi tiếng Karl Pearson, người đầu tiên phát triển lí thuyết về tương quan vào đầu thế kỉ 20
Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại Nếu r = 1 hay r = -1 (Biểu đồ 1a và 1b), mối liên hệ củay và x được hoàn toàn xác định; có nghĩa là cho bất cứ giá trị nào của x, chúng ta có thể xác định giá trị
của y.Nếu r = 0 (Biểu đồ 1c), hai biến x và y hoàn toàn độc lập, tức không có liên hệ
với nhau
Trang 22Biểu đồ 1: Mối liên hệ giữa x và y: (a) r = 1, (b) r = -1, và (c) r = 0 (độc lập).
Biểu đồ 1: Mối liên hệ giữa x và y: (d) r = 0.80; (e) r = -0.80, và (f) r = 0.001
Tất nhiên, trong thực tế khoa học thực nghiệm, ít khi nào chúng ta có những mối liên hệ xác định như vừa trình bày Vì sai số trong đo lường, vì các lí do dao động
sinh học, mối liên hệ giữa x và y thường dao động cao hơn -1 và thấp hơn 1, như Biểu
đồ 1d, 1e và 1f
Vấn đề đặt ra là diễn dịch ý nghĩa của hệ số tương quan như thế nào? Có thể xem hệ số tương quan như là một “hệ số ảnh hưởng” (effect size) Nếu hệ số ảnh hưởng càng cao, thì mối liên hệ có ý nghĩa lâm sàng thực tế Tuy nhiên, vì ý nghĩa lâm sàng còn tùy thuộc vào bộ môn khoa học Chẳng hạn như đối với các bộ môn khoa học đòi hỏi độ chính xác cao, hệ số tương quan phải trên 0.8 mới có thể xem là
“có ý nghĩa”; nhưng đối với các bộ môn khoa học lâm sàng và y tế công cộng, một hệ
số tương quan 0.6 cũng có thể là có ý nghĩa
Sau đây là những qui ước chung về cách diễn dịch hệ số tương quan trong lâm sàng và y tế công cộng
Trang 23Bảng 2 Ý nghĩa của hệ số tương quan
Hệ số tương quan Ý nghĩa
±0.01 đến ±0.1 Mối tương quan quá thấp, không đáng kể
±0.2 đến ±0.3 Mối tương quan thấp
±0.4 đến ±0.5 Mối tương quan trung bình
±0.6 đến ±0.7 Mối tương quan cao
±0.8 trở lên Mối tương quan rất cao
Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không có nghĩa là những “tiêu chuẩn vàng” để ứng dụng
3.2.2 Khoảnh tin cậy 95 % của hệ số tương quan
Cũng như các thông số thống kê khác như số trung bình và độ lệch chuẩn, hệ
số tương quan cũng chịu ảnh hưởng của dao động giữa các mẫu Do đó, chúng ta cầnphải ước tính khoảng tin cậy 95% của hệ số tương quan Xin nhắc lại rằng, chúng takhông biết hệ số tương quan thật (tức là hệ số trong quần thể, và hãy gọi hệ số này làρ) là bao nhiêu, nên phải sử dụng hệ số r để ước tính ρ
Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ lệch chuẩncủa r
Lý thuyết thống kê cho biết độ lệch chuẩn của r là: Khó khăn ở đây, như công thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính độc lập Do
đó, cần phải tìm một phương pháp khác sao cho khách quan hơn Nhà thống kê học(và cũng là cha đẻ của khoa học thống kê hiện đại và cha đẻ của lí thuyết di truyền
hiện đại) Ronald A Fisher chứng minh rằng thay vì tính độ lệch chuẩn của r, có thể tính độ lệch chuẩn của một hàm số của r và sẽ đạt được mục tiêu khách quan.
Trang 24Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán chuyển r sang một chỉ số mới z, qua công thức sau đây:
Và, có thể chứng minh rằng độ lệch chuẩn của z là:
Do đó, khoảng tin cậy 95% của z là: z ± 1.96*s z Tất nhiên, sau khi đã ước tính
được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại cho khoảng tincậy 95% của ρ
3.2.3 Kiểm định 2 hệ số tương quan
Giả sử chúng ta có hai hệ số tương quan r1 và r2, là ước số của hai hệ số ρ1
và ρ2 trong một quần thể Hai hệ số r1 và r2 được ước tính từ hai mẫu độc lập n1 và n2 đối tượng Để kiểm định giả định rằng ρ1=ρ2 và giả định ρ1≠ρ2 , chúng ta trước hết cần phải hoán chuyển r thành chỉ số z:
Gọi d = z 1 -z 2 , chúng ta có thể chứng minh rằng phương sai của d là:
Hay, nói cách khác, độ lệch chuẩn của d là:
Và kiểm định cho giả thuyết ρ1=ρ2 có thể tính toán chỉ số t như sau:
Trang 25Có thể chứng minh rằng nếu giả thuyết ρ1=ρ2 là đúng thì t tuân theo luật phân
phối chuẩn với trung bình 0 và phương sai 1 Điều này có nghĩa là nếu giá trị
của t thấp hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan khác nhau
Trang 26Để đánh giá yếu tố xu thế , phương pháp sử dụng phổ biến là:Phương pháp bình phương tối thiểu (BPTT)
Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc mặt phẳng ( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số liệu trong quá khứ ( “ gần với số liệu quan sát “)
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài là tuyến tính , phương trình sẽ xác định bởi
Y=a+bt
Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định đường thẳng tính được từ phương án BPTT
Trang 27Gọi Δyi là khoảng cách thẳng đứng từ điểm quan sát (ti, , Yi ) đến đường thẳng cần xác định Ta định nghĩa hàm mục tiêu
[ ( )]
N i i
ta biết đó là cực tiểu ) ta phải có
y
[1]
0)]
([
i i i
t N t
y t N y t
.)(
i
i b t y
N
t N
1
N-> tổng số quan trắc
Chú ý : Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến dạng
đường cong hàm mũ y=abt hoặc dạng parabol y = a + bt + ct2