1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tài liệu hướng dẫn thống kê y học sử dụng SPSS - Hệ số tương quan Spearman

30 1,4K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 2,6 MB

Nội dung

Lời nói đầu Thân chào các bạn, lần này chúng ta sẽ bàn về phân tích tương quan bằng hệ số rho của Spearman.. Spearman thiết lập vào năm 1910 với mục đích thay thế cho phương pháp quy ước

Trang 1

Tài liệu hướng dẫn thống kê y học sử dụng SPSS

SPSS

Hệ số tương quan Spearman

BS Lê Đông Nhật Nam

1

Trang 2

Lời nói đầu

Thân chào các bạn, lần này chúng ta sẽ bàn về phân tích tương quan bằng hệ số rho của Spearman Đây cũng là phần đầu tiên trong bộ tài liệu hướng dẫn về các phương pháp phi tham số trong SPSS Tuy nhiên trước hết tôi muốn chia sẻ với các bạn 1 câu chuyện về bản thân …

Thời học sinh, môn ngoại ngữ thực sự là một cơn ác mộng với tôi Bắt đầu học tiếng Anh năm lớp 6, cho đến lớp 10 điểm số của tôi vẫn chỉ ở mức trung bình, tôi không nói, nghe được và thường quên hết từ vựng sau khi học xong Mỗi lần biết một thần đồng nào đó đạt điểm TOEFL cao, tôi luôn tự hỏi liệu có vấn đề gì với cái đầu của mình ? Vì thế khi vào cấp 3 tôi dành thời gian rất nhiều để học bài, với mục tiêu đạt điểm cao trong mỗi bài kiểm tra tiếng Anh Sự cần cù có vẻ là chìa khóa cho vấn đề vì điểm kiểm tra của tôi tỉ lệ thuận với thời gian tự học Tuy nhiên khi vào đại học, tôi nhận

ra tất cả những gì mình làm đều vô dụng : mở Textbook y học ra tôi không hiểu gì hết và gặp một người nước ngoài tôi chỉ có thể chào hỏi vài câu rồi tắt đài luôn

Tôi chán tới mức bỏ luôn không học tiếng anh nữa suốt nhiều năm Tuy nhiên trong suốt thời gian

đó, tôi buộc phải xem phim với English audio và English subs 7 năm trôi qua và vào một ngày nọ khi đang theo dõi series “Damages”, dù không có English sub nhưng tôi dứt điểm Season 1 một cách dễ dàng Như vậy sau khoảng 5000 giờ xem phim tôi đã nghe được tiếng anh, và sau đó không lâu tôi phát hiện mình có thể nói thoải mái mà không cần bận tâm về ngữ pháp gì cả Tuy chưa bao giờ trải qua bất cứ kì thi nào để đo lường năng lực của mình, nhưng bây giờ tôi có thể giao tiếp dễ dàng với những người Anh và Mỹ Nếu tôi nhận ra luyện nghe mới chính là chìa khóa thì tôi đã không phí

10 năm học không xong

Trong hành trình nghiên cứu, đôi khi việc quá tập trung vào một yếu tố nào đó và đi theo lối mòn so sánh lặp lại, chúng ta có nguy cơ bỏ sót những điều quan trọng, mới lạ khác, và chọn sai giải pháp - cũng như tôi từng sai lầm khi nghĩ điểm số là thước đo năng lực ngoại ngữ và thời gian học ngữ pháp, từ vựng trong sách vở là điều thiết yếu để học giỏi tiếng Anh

Nghiên cứu về sự tương quan sẽ giúp bạn thoát ra khỏi lối mòn tư duy theo cách bạn không ngờ Những nghiên cứu tương quan giúp bạn không ngừng thay thế những kiến thức lỗi thời, tìm ra những ý tưởng mới lạ, mà giới hạn duy nhất là trí tưởng tượng của bạn Nếu so sánh chỉ cho phép bạn khảo sát từng yếu tố, sự vật riêng lẻ thì tương quan cho bạn con mắt thứ 3, nhìn thấy sợi dây nối kết giữa bất kỳ hiện tượng, đại lượng nào

Nghe có vẻ to tát, nhưng phân tích tương quan lại là quy trình dễ dàng nhất trong SPSS Cũng vì nó quá dễ nên nhiều sinh viên vẫn chưa phân biệt được giữa Spearman và Pearson, và ít người dành thời gian để đi hết con đường ngắn này, thường chúng ta hay dừng chân khi đã tìm thấy thứ mình muốn (giá trị p)

Như thường lệ, tôi sẽ sử dụng cách trình bày hoàn toàn khác với những bài học chính thống mà các thầy cô khác thường dạy Ngay cả khi bạn chưa biết gì, tài liệu này sẽ giúp bạn thực hiện thành công

từ A đến Z phân tích tương quan Hy vọng tài liệu sẽ cho bạn thấy môn học thống kê dễ hiểu và thú

vị hơn

2

Trang 3

Quy ước trình bày

Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái

Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ Anh ta sẽ xuất hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và

ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống

kê …

Bác sĩ Lê Ngọc Khả Nhi

Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo SPSS Như tên gọi của mình, BS Nhi có tính cách rất hồn nhiên và sống ngây thơ như trẻ con, vì vậy cô luôn có khuynh hướng đơn giản hóa tối đa mọi vấn đề Cô ấy sẽ hướng dẫn các bạn sử dụng SPSS từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ dàng nhất

Sinh viên Trần Quốc Bảo

Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu khoa học Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi liên quan đến thống kê Mặc dù những đế tài do Bảo thực hiện rất đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích

số liệu và thiết kế nghiên cứu

3

Trang 4

Hình ảnh cộng hưởng từ thông thường (A) và ở chế độ khuếch tán (B)

Giải pháp thay thế cho hệ số tương quan r của Pearson là hệ số tương quan rho (ρ) của Spearman Đây là một phương pháp phi tham số, do Charles E Spearman thiết lập vào năm 1910 với mục đích thay thế cho phương pháp quy ước trong trường hợp vi phạm giả định phân phối chuẩn và/hoặc có ảnh hưởng của điểm ngoại lai

Lý thuyết về tương quan dựa trên giả định là: khi 2 đại lượng có quan hệ với nhau, sự biến thiên giá trị của một đại lượng này sẽ dẫn đến một thay đổi tương ứng ở đại lượng kia Ví dụ nếu A và B có quan hệ tỉ lệ thuận, giá trị của A tăng thì giá trị B cũng tăng theo

Thực ra hai phương pháp tương quan Pearson (r) và Spearman (rho) có cùng nguyên tắc, cùng cách diễn giải, chỉ khác là Pearson dựa trực tiếp trên giá trị thực còn Spearman dựa trên việc xếp thứ hạng của những giá trị này

Charles Edward Spearman, (1863 -1945) Nhà tâm lý học và toán học thống kê

Not this Spearman !

4

Trang 5

n= số trường hợp khảo sát (cỡ mẫu)

ρ= hệ số tương quan của Spearman

1 1.2 Hệ số tương quan Spearman

d

Đầu tiên, ta xếp thứ hạng cho mỗi giá trị trong mẫu khảo sát Những giá trị ngang nhau sẽ có thứ hạng trung bình

Sau đó cho mỗi trường hợp, xác định khác biệt thứ hạng d giữa 2 biến số cần khảo sát tương quan

Hệ số tương quan Rho được tính như sau:

Để kiểm tra ý nghĩa thống kê của hệ số tương quan ρ, chúng ta dùng lý thuyết về xác suất (Giả thuyết H0: rho = 0) Có 2 cách:

Cách thứ 1: Dựa vào Z-score

Ta có thể tính xác suất phân phối tương ứng cho một giá trị Z-score, dựa vào phân phối bình thường

Do hệ số r không có phân phối bình thường, nên trước tiên nó phải được hiệu chỉnh theo Fisher (1921)

Trong đó n là số trường hợp, ρ là hệ số tương quan rho của Spearman

Z-score : 𝑍 = 𝑆𝐸𝑍𝑟

𝑍𝑟Giá trị Z-Score này sẽ tương đương với giá trị của 𝜌−0𝑆𝐸 với SE = sai số của thứ hạng

Từ đó ta tính được xác suất tương ứng của giá trị Z-score dựa theobảng phân phối bình thường (đây

là giá trị p 1 bên (One tailed) Nếu muốn có giá trị 2 bên (2-tailed), ta chỉ cần nhân cho 2

Ngưỡng ý nghĩa thống kê cho p (2 bên) thường là 0,05 Với p<0,05 ta có thể kết luận hệ số ρ khác biệt

có ý nghĩa với 0, tức sự tương quan có ý nghĩa

𝑍𝑟 = 1

2 𝐿𝑛

1 + ρ

1 − ρ

Khoảng tin cậy của Zr: Zr ± (1.96*SEZr)

Sai số chuẩn (Standar-error) của Zr : 𝑆𝐸𝑍𝑟= 1

𝑛−3

Trường hợp i Vẫn là trường hợp i

Biến số A Biến số B

Trang 6

1 1.2 Hệ số tương quan Spearman

Cách 2: Dựa vào kiểm định t

Đầu tiên ta tính hệ số t như sau:

𝑡 = 𝜌 𝑛 − 2

1 − 𝜌2

Trong đó n là số trường hợp, ρ là hệ số tương quan rho của Spearman

Sau đó ước tính xác suất (giá trị p) bằng cách đọc bảng phân phối t với độ tự do = (n-2)

Ngưỡng ý nghĩa thống kê cho p (2 bên) thường là 0,05 Với p<0,05 ta có thể kết luận hệ số ρ khác biệt có ý nghĩa với 0, tức sự tương quan có ý nghĩa

Tính hệ số R2 (Effect size của tương quan)

Diễn giải kết quả

3

? So sánh giá trị 2 hệ số tương quan ? …

1) Bước đầu tiên ta sẽ thăm dò số liệu, trong đó mục đích chính là kiểm tra 2 giả định: phân phối chuẩn của 2 biến số và quan hệ tuyến tính giữa chúng Sau đó quan trọng không kém là phát hiện điểm ngoại lai Bạn có thể dùng chức năng Explore trong SPSS Tùy theo kết quả , ta có thể chọn giải pháp tương ứng

2) Trong thí dụ này, phương pháp ta sẽ sử dụng là phân tích tương quan phi tham số theo Spearman

3) SPSS sẽ cung cấp giá trị hệ số tương quan rho (ρ) và ý nghĩa thống kê của tương quan Cuối cùng ta diễn giải kết quả và tính hệ số R2 (effect size) =

Trang 7

Trong nghiên cứu y học, phân tích tương quan

có rất nhiều ứng dụng

+ Chứng minh có mối liên hệ giữa 2 đại lượng,

ví dụ giữa triệu chứng, độ nặng lâm sàng và

Tìm chứng cứ về quan hệ nhân quả: yếu tố

này chịu chi phối/ kéo theo một yếu tố khác,

ví dụ: tương quan nghịch giữa liều thuốc giảm

đau và mức độ đau, tương quan thuận giữa

thuốc lá và chức năng hô hấp…

Bằng chứng cho một quy luật có tính hệ thống

gây ảnh hưởng trên dữ liệu (ví dụ: sai lệch gây

ra do thiết bị đo)

Kiểm tra những yếu tố dự báo trước khi đưa

vào một mô hình hồi quy đa biến

1 1.3 Giới thiệu

Hệ số tương quan rho của Spearman có thể sử dụng trong các trường hợp sau:

+ Phân tích tương quan giữa những biến số định lượng trong đó

có biến số thuộc kiểu không liên tục hoặc thứ hạng

Ví dụ: thang điểm (loại biến số này rất thường gặp trong nghiên cứu về hình ảnh học và giải phẫu bệnh), độ nặng …

+ Dùng thay thế cho r của Peaeson trong trường hợp biến số liên tục nhưng vi phạm giả định

Ví dụ: phân phối không chuẩn, phân tán và/hoặc có điểm giá trị ngoại lai và/hoặc cỡ mẫu tương đối ít (thường gặp trong nghiên cứu thực nghiệm trên tế bào, mô hình động vật, nghiên cứu lâm sàng trong bệnh lý hiếm gặp)…

Một số điểm cần lưu ý:

+ 2 phương pháp tương quan Pearson (r) và Spearman (rho) có cùng nguyên tắc thực hiện, cùng cách diễn giải Vì thế, trong đa số trường hợp chúng sẽ cho bạn câu trả lời như nhau

Spearman mềm dẻo hơn, nó dùng được cho mọi trường hợp

Tuy nhiên nếu có thể thì nên dùng phương pháp Pearson, chỉ dùng phương pháp Spearman trong một số trường hợp đặc biệt hoặc bất khả kháng

+ Tránh lạm dụng phương pháp Spearman cho những cỡ mẫu quá nhỏ (<10) hoặc có nhiều cặp thứ hạng bằng nhau, trong trường hợp này nên dùng hệ số tau (τ) của Kendall

7

Trang 8

2 2.1 Nhập số liệu

Nhãn ý nghĩa

Ở đây tác giả còn muốn khảo sát 2

phân nhóm khác nhau về mức độ

biệt hóa tế bào, vì vậy anh ta đã tạo

thêm biến số « Phanloai » và mã hóa

giá trị cho nó như hình bên

Phân tích tương quan cần 2 biến số định lượng (Scale), ở đây là chỉ số khuếch tán biểu kiến (ADC)

và mức độ tế bào ung thư: Tebao (%, dựa vào giải phẩu bệnh lý) Bạn nên cẩn thận dán nhãn ý nghĩa cho từng biến số trong SPSS, để mọi thứ đều rõ ràng dễ hiểu khi chia sẻ số liệu với đồng nghiệp sau này

Sau đó ta chỉ việc nhập số liệu vào bảng Hình bên trình bày nội dung chi tiết của 20 trường hợp bệnh nhân ung thư phổi được khảo sát (mỗi phân nhóm biệt hóa tốt/kém có n=10 bệnh nhân)

8

Trang 10

/STATISTICS DESCRIPTIVES /CINTERVAL 95

/MISSING LISTWISE /NOTOTAL

10

Trang 11

2 2.2 Thăm dò số liệu

Tests of Normality

Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig Statistic df Sig

Hệ số khuyếch tán biểu kiến ,154 20 ,200 * ,896 20 ,035

* This is a lower bound of the true significance

a Lilliefors Significance Correction

Kết quả kiểm định Sapiro-Wilk

Có 2 cách kiểm tra giả định phân phối chuẩn:

1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov : tối

ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi

cỡ mẫu quá nhỏ)

2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn (>

50 trường hợp)

Với kiểm định Kolmogorov Smirnov hoặc Shapiro-Wilk: Nếu p<0.05 tức là giả định phân phối chuẩn

đã bị vi phạm Trong thí dụ này, phân phối của giá trị của ADC và Tebao đều không chuẩn

Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có thể dùng biểu đồ Q-Q để phát hiện nhanh sự vi phạm giả định phân phối chuẩn Nếu các điểm giá trị phân phối chuẩn, chúng sẽ nằm rải rác gần đường thẳng (màu xanh) như trong hình Nếu có sự phân tán (các điểm phân bố xa khỏi đường thẳng này) tức là phân phối không chuẩn (màu đỏ)

Phân phối chuẩn

Phân phối không chuẩn

Phân phối không chuẩn

Bước kiểm tra giả định về phân phối chuẩn có thể bỏ qua nếu có biến số không liên tục (1 thang điểm hay phân loại nào đó), bạn chắc chắn phải dùng hệ số Spearman

11

Trang 12

Chọn Graphs > Chart builder …

Trong hộp thoại chart builder, chọn loại biểu đồ là scatter plot

Kéo biến số thứ nhất vào trục tung

Và biến số thứ hai vào trục hoành

Nhấn để vẽ biểu đồ

Bước tiếp theo, ta sẽ kiểm tra giả định về quan hệ tuyến tính giữa 2 biến

số cần khảo sát tương quan, bằng cách vẽ biểu đồ tập hợp điểm

12

Trang 13

Biểu đồ Scatter plot cho phép chúng ta kiểm tra 2 điều:

(1) Giả định về quan hệ tuyến tính giữa 2 biến số cần khảo sát tương quan

và (2) phát hiện sự tồn tại của những điểm giá trị cá biệt (ngoại lai)

Hình vẽ dưới đây mô tả 4 trường hợp

có thể gặp:

(A) Và (B) đều cho thấy có quan hệ tuyến tính giữa 2 biến số Kết luận chỉ dựa vào trực quan, bạn không cần phải

lo lắng về mức độ phân tán của các điểm giá trị, chỉ cần chúng cho thấy 1 khuynh hướng tuyến tính rõ rệt là đủ thỏa giả định (1)

Trường hợp (C) là ví dụ điển hình khi giả định bị vi phạm: không có quan hệ tuyến tính giữa 2 biến số

(D) Là trường hợp tệ nhất vì vừa không có quan hệ tuyến tính, vừa có các điểm giá trị ngoại lai Bạn sẽ không thích điều này, vì những giá trị cá biệt đó sẽ làm sai lệch nghiêm trọng kết quả phân tích tương quan

Trở lại với thí dụ của chúng ta, biểu đồ cho thấy mặc dù có sự phân nhóm rõ rệt 2 nhóm giá trị tương ứng với mức độ biệt hóa tế bào kém và tốt; tuy nhiên 2 nhóm này vẫn biểu lộ rõ khuynh hướng tương quan tuyến tính (tỉ lệ nghịch)

Ngoài ra cũng không có giá trị ngoại lai nào

Như vậy ta có thể yên tâm thực hiện tiếp những bước tiếp theo

13

Trang 14

2 2.2 Thăm dò số liệu

Nếu các giả định bị vi phạm hoặc có điểm ngoại lai thì có nguy hiểm không ? Ta phải xử trí ra sao ?

Giả định về phân phối chuẩn thực ra không quan trọng lắm, nếu nó bị vi phạm, bạn không thể dùng phương pháp Pearson, nhưng vẫn có thể dùng phương pháp phi tham số của Spearman

Điểm ngoại lai nguy hiểm hơn nhiều, vì nó có thể làm sai lệch kết luận về tương quan Khi có điểm ngoại lai chắc chắn bạn phải dùng phương pháp của Spearman

Tóm lại phân phối không chuẩn và/hoặc có điểm ngoại lai gợi ý cho ta dùng phương pháp phi tham số (Spearman) vì sẽ an toàn hơn Nếu cỡ mẩu đủ lớn và vẫn muốn dùng Pearson, bạn đừng

do dự khi loại bỏ những điểm này vì chúng có nguy cơ gây ra “tương quan giả“

Nếu giả định về quan hệ tuyến tính bị vi phạm, kết quả của bạn sẽ âm tính, có thể bạn phải kiểm tra lại sai sót trong khi đo đạc, chuyển dạng biến số, loại bỏ giá trị nghi ngờ… để cải thiện tình hình Cuối cùng bạn vẫn có thể làm phân tích tương quan, nhưng kết quả sẽ rất yếu về độ mạnh

Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá trị của Skewness và Kurtosis (trong bảng kết quả Explore)

Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ

về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo Người đọc

sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống kê

Trang 15

3 3.1 Chạy phân tích tương quan Spearman

Kích hoạt quy trình phân tích tương quan 2 biến số

Hộp thoại « Bivariate correlation » được mở ra, trước hết ta kéo những biến số cần phân tích vào ô Variables Bạn có thể đưa vào bao nhiêu biến số tùy ý, SPSS sẽ thực hiện phân tích tương quan cho tất

cả các tổ hợp giữa 2 biến số và trình bày kết quả dưới dạng 1 ma trận tương quan

Nếu bạn đã có ý định chọn phương pháp cụ thể (ví dụ Pearson, Kendall hay Spearman), bạn có thể thay đổi cấu hình mặc định từ Pearson sang phương pháp mới Dĩ nhiên bạn có thể làm cùng lúc 2-3 phương pháp nhưng việc đọc những kết quả thừa hoàn toàn phí thời gian

Mục « test of significance » nên giữ nguyên (p 2 bên), trừ khi bạn có giả thuyết riêng về định hướng (tương quan thuận, nghịch mang tính nhân quả)

Nếu bạn chọn phương pháp Spearman, bạn có thể làm 1 số tùy chọn khác trong mục option, nhưng với phương pháp phi tham số thì không cần thiết

Quan trọng nhất là chức năng « Bootstrap », tôi sẽ giải thích về nó sau 15

Ngày đăng: 22/03/2016, 22:37

TỪ KHÓA LIÊN QUAN

w