GIỚI THIỆU Phân tích tương quan Correlation là kỹ thuật rất thường dùng trong thống kê y học nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tượng thông qua hệ số tương
Trang 1
TƯƠNG QUAN TUYẾN TÍNH
(Linear correlation)
I GIỚI THIỆU
Phân tích tương quan (Correlation) là kỹ thuật rất thường dùng trong thống kê
y học nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tượng thông qua hệ số tương quan (correlation coefficient) Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày hệ số tương quan r của Pearson (Pearson r correlation coefficient) Pearson r là số đo mối liên quan tuyến tính của 2 biến số, và được sử dụng khi 2 biến số thuộc thang đo lường tỉ số hoặc thang khoảng
II CÁCH TÍNH và ĐẶC ĐIỂM CỦA PEARSON r
Để tính được Pearson r, cần phải đo dược 2 biến số, x và y – thí dụ, chiều cao (x) và cân nặng (y) Các số đo này phải được lấy thành cặp đối với từng thành viên của 1 mẫu ngẫu nhiên đơn giản rút ra từ 1 dân số
Công thức tính:
2 2
xy r
Trang 2
ĐẶC ĐIỂM:
+ Giá trị của Pearson r nằm trong khoảng –1 đến +1
Một HSTQ bằng –1 cho thấy 2 biến số có mối liên quan nghịch chiều tuyệt đối
(perfect negative relationship)
(liên quan nghịch chiều: x tăng, y giảm; x giảm, y tăng)
Một HSTQ bằng +1 cho thấy 2 biến số có mối liên quan thuận chiều tuyệt đối
(perfect positive relationship)
(liên quan thuận chiều : x tăng, y tăng; x giảm, y giảm)
Một HSTQ bằng 0 cho thấy không có mối liên quan giữa 2 biến số
+ Giá trị tính được của Pearson r không phụ thuộc vào các đơn vị của x và y
+ Giá trị của Pearson r bị ảnh hưởng rất nhiều bởi giá trị cực (giống như ĐLC)
+ Giả định cơ bản của Pearson r là mối liên quan giữa 2 biến số là mối liên quan tuyến tính
Do vậy, việc dựng các biểu đồ phân tán (scatter diagram) với x ở trục ngang và y ở trục dọc
của đồ thị sẽ giúp đánh giá mối liên quan giữa 2 biến số Nếu các điểm (trên đồ thị) nằm sát
Trang 3
1 đường thẳng hướng chéo lên trên hoặc chéo xuống dưới thì 2 biến số được xem là
có mối
liên quan tuyến tính, và việc sử dụng Pearson r là hoàn toàn thích hợp
A B C D E
F
Hình 1 Scatter plot và correlation A: r = +1; B: r = 0,7; C: r = –0,9; D: r =–0,4; E: r = 0,0; F: r = 0,0
III KIỂM ĐỊNH GIẢ THUYẾT VỀ PEARSON r
Pearson r là số thống kê tính được từ 1 mẫu rút ra từ 1 dân số có hệ số tương quan ρ (đọc là rho) Khi tính r, chúng ta quan tâm đến việc tìm hiểu xem ρ ra sao, và điều này được thực hiện qua phép kiểm định gỉa thuyết về ρ
H0: ρ = 0 ρ ≥ 0 ρ ≤ 0
HA: ρ ≠ 0 ρ < 0 ρ > 0
Dùng số kiểm định tỉ số t (t ratio) khi ρ trong H0 có số không 22
1
n
t r
r
Trang 4
Dùng số kiểm định zr (Fisher Z transformation) 1ln1
r
r z
r
khi ρ trong H0 là một số bất kỳ không phải bằng không
Thí dụ minh họa: Tìm và kiểm định mối liên quan giữa thời gian nằm việc (Length of Stay –LOS) và viện phí (Total charges) trên nhóm b/n bị phù phổi và suy hô hấp (DRG 087)
B/n LOS
(x)
Vphí (USD)
(y)
B/n LOS
(x)
Vphí (USD)
(y)
Trang 6
1/ Số liệu: (như trên)
2/ Giả định: 2 biến số LOS và viện phí cùng biến thiên trong 1 phân phối hợp có dạng phân
phối bình thường (gọi là PPBT nhị biến – bivariate normal distribution); mẫu
ngẫu nhiên
3/ Giả thuyết: H0: ρ = 0
HA: ρ ≠ 0 α = 0,05
Trang 7
4/ Số TKKĐ: 22
1
n
r
5/ Phân phối của số TKKĐ: phân phối t với 32 df khi H0 đúng và các giả định được thỏa
6/ Qui tắc quyết định: giá trị tới hạn của t ở 32 df đối với test 1 đuôi là 0,287 Nếu t tính
được lớn hơn 0,287 thì từ chối H0
7/ Tính số TKKĐ: với r = 0,88
2
0,88 0, 88(16, 3) 14, 3
n
t r
r
8/ Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 14,3 (> 0,287)
9/ Kết luận: Trong dân số b/n phù phổi và suy hô hấp (DRG 087), LOS và viện phí có mối
tương quan tuyến tính với nhau p = 0,0001
IV CÁC GHI NHỚ QUAN TRỌNG
+ Hai biến số có tương quan với nhau không nhất thiết phải có mối liên hệ nhân-quả
(không thể kết luận rằng LOS làm tăng viện phí.)
Trang 8
+ Cỡ mẫu đóng vai trò quan trọng trong tính toán pearson r r nhỏ có thể có ý nghĩa
thống kê khi cỡ mẫu lớn, trong khi r lớn có thể không có ý nghĩa thống kê khi
cỡ mẫu
nhỏ
+ Hệ số quyết định (coefficient of determination) r2 là một giá trị quan trọng r2 cho biết
bao nhiêu phần thay đổi (biến thiên) của Y được qui là do X, và ngược lại
(Trong thí dụ minh họa chúng ta có r 2 =0,774 (0,88) 2 Có thể kết luận là 77,4% các
biến thiên trong viện phí của DRG 087 được giải thích là do LOS của b/n)
Hệ số quyết định giúp đánh giá tốt hơn độ mạnh của mối liên hệ giữa 2 biến số
-