Phân tích tương quan là công cụ thống kê có thể sử dụng để mô tả mức độ các biến quan hệ tuyến tính liên quan. Thường thường, phân tích mối tương quan được sử dụng kết hợp với phân tích hồi quy để đánh giá mô hình tìm theo bình phương cực tiểu là phù hợp với những dữ liệu hay không. Phân tích tương quan cũng có thể được sử dụng để đo lường mức độ liên kết giữa hai biến. Trong phần này chúng tôi trình bày hai phương pháp để mô tả sự tương quan giữa hai biến: Dùng Hệ số xác
định và hệ số tương quan.
4.1. Hệ số tương quan
Cho một tập mẫu gồm n các số đo trên x và y Các hệ số tương quan r là một độ đo cường độ của quan hệ tuyến tính giữa hai biến x và y. Nó được tính như sau :
r =
SSxy = SSxx = 2 SSyy = 2
4.2. Một số tính chất của hệ số tương quan
-1 R 1 (theo bất đẳng thức Cauchy-Bunhiacopskij)
r và b (độ dốc của đường hồi qui bình phương cực tiểu) có cùng dấu
Một giá trị của r gần hoặc bằng 0 có nghĩa là ít hoặc không có mối quan hệ tuyến tính giữa x và y. Các r gần 1 hoặc -1, thì mối quan hệ tuyến tính giữa x và y là mạnh mẽ .
Hệ số tương quan r do sự tương quan giữa giá trị x và giá trị y trong mẫu, và tương tự hồi qui tuyến tính, hệ số tương quan tồn tại cho quần thể từ đó các điểm dữ liệu được lựa chọn. Các hệ số tương quan quần thể được kí hiệu là (rho). được tính từ các số liệu thống kê mẫu tương ứng r. Thay vì tính , ta có thể kiểm định giả thuyết H0: = 0 hoặc Ha: 0, nghĩa là, kiểm tra giả thuyết rằng x không góp phần thông tin cho dự đoán y sử dụng mô hình đường thẳng, hoặc ngược lại, hai biến ít nhất có liên quan tuyến tính. Nhưng đã chứng minh được giả thuyết H0: r = 0 tương đương với giả thuyết H0: B = 0. Vì vậy, chúng ta bỏ qua kiểm tra giả thuyết cho sự tương quan tuyến tính.
-Các hệ số xác định
Một cách khác để đo sự đóng góp của x trong việc dự đoán y là xem xét có bao nhiêu sai số trong dự đoán về y có thể được giảm bằng cách sử dụng các thông tin
Các hệ số xác định từ tập mẫu được khai triển từ mối quan hệ giữa hai kiểu của phương sai: Phương sai của các giá trị y trong một tập dữ liệu so với:
1. Đường hồi quy được “làm khớp” 2. Trung bình của chúng
Các biểu thức phương sai trong cả hai trường hợp được sử dụng theo ý nghĩa thống kê của nó là "sự tổng hợp của một nhóm các bình phương độ lệch ".
SSE = SSyy -
Phương sai đầu tiên là phương sai của các giá trị y xung quanh đường hồi quy, tức là xung quanh các giá trị dự đoán của chúng.
Phương sai này là tổng bình phương các lỗi (SSE) của mô hình hồi quy. Phương sai thứ hai là tổng hợp sự biến động của giá trị y so với trung bình của nó SSyy = 2
Hệ số xác định là , r2 = = 1-
Trong đó r là hệ số tương quan.
Vì vậy, thông thường ta gọi , r2 là hệ số xác định. Ý nghĩa của hệ số xác định, r2
Khoảng 100(r2) % cuả tổng các bình phương của độ lệch giữa các gía trị y trong tập mẫu với trung bình của chúng có thể được giải thích bởi sử dụng x để dự báo y trong mô hình đường thẳng