Dựa trên các lý thuyết xác suất thống kê, hệ số tương quan là giá trị giúp các nhà nghiên cứu có thể lượng hóa được mức độ phụ thuộc tuyến tính giữa hai biến ngẫu nhiên. Ngày nay, các nhà khoa học đã phát triển rất nhiều phương pháp để đo lường mức độ tương quan. Trong các cách đo lường này, phương pháp Pearson được phát triển bởi nhà khoa học Karl Pearson (1895) dựa trên những ý tưởng được đề xuất bởi Francis Galton trong những năm 1880. Theo đó, đối với hai biến 𝑋, 𝑌 ngẫu nhiên, hệ số tương quan Pearson được tính bằng công thức:
𝜌𝑋,𝑌: 𝑐𝑜𝑣(𝑋, 𝑌) 𝜎𝑋𝜎𝑌 (3.7)
Trong đó:
𝜌𝑋,𝑌: Hệ số tương quan Pearson giữa 𝑋 và 𝑌 𝑐𝑜𝑣(𝑋, 𝑌): Hiệp phương sai giữa 𝑋 và 𝑌 𝜎𝑋, 𝜎𝑌: Độ lệch chuẩn của 𝑋 và 𝑌.
Độ biến động của giá trị hệ số tương quan Pearson dao động quanh giá trị -1 đến 1. Trong đó, khi 𝜌𝑋,𝑌 > 0, tồn tại sự phụ thuộc tuyến tính giữa hai biến 𝑋 và 𝑌. Điều này đồng nghĩa với việc mối quan hệ giữa hai biến này biến động theo tỷ lệ thuận, tức là giá trị của một biến tăng lên thì đồng thời giá trị của biến còn lại cũng sẽ tăng lên theo. Khi 𝜌𝑋,𝑌 < 0, tồn tại mối quan hệ nghịch chiều giữa hai biến 𝑋 và
𝑌. Đối với trường hợp 𝜌𝑋,𝑌 = 0, theo định nghĩa của Pearson, hai biến này tồn tại mối quan hệ độc lập thống kê. Tuy nhiên, trong thực tế xác suất tồn tại trường hợp độc lập giữa hai biến với nhau là rất thấp, điều này phản ánh nhược điểm của phương pháp hệ số tương quan là chưa giải thích được mối quan hệ giữa các biến phi tuyến.
Đối với các phương pháp hồi quy đa biến giữa biến độc lập với các biến phụ thuộc, khi mối quan hệ tương quan giữa hai chuỗi quan sát này cao sẽ phản ánh sự tồn tại của hiện tương đa cộng tuyến. Trong trường hợp có nhiều hơn hai biến độc lập trong mô hình, tác giả sử dụng ma trận tương quan để minh họa cụ thể mức độ phụ thuộc giữa các chuỗi dữ liệu này với nhau (theo Karl Pearson, 1895).