Tương quan thứ hạng Spearman: Lịch sử, lý thuyết về hệ số tương quan thứ hạng Spearman, cách sử dụng tương quan thứ hạng, bộ dữ liệu, so sánh tương quan thứ hạng spearman và tương quan tuyến tính pearson, ứng dụng, ví dụ cụ thể, cách làm, công thức tính hệ số tương quan Spearman, tính hệ số tương quan Spearman trên R, Excel, SPSS, thống kê tương quan
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TƯƠNG QUAN SPEARMAN Hà Nội - 2021 Mục lục DANH MỤC HÌNH ẢNH MỞ ĐẦU Các câu hỏi ngày đặt công việc, sống như: Chỉ số IQ trẻ có phụ thuộc vào thời gian xem chương trình truyền hình hay khơng, điểm số môn Thống kê Sinh học có phụ thuộc vào số chuẩn bị tập trước nhà hay không, số lần xem quảng cáo sản phẩm A có ảnh hưởng đến mức độ định mua sản phẩm khơng,… Để giải câu hỏi trên, có số thước đo để định lượng mức độ phụ thuộc thống kê cặp liệu quan sát Phổ biến tương quan Pearson - phép đo thống kê độ mạnh mối quan hệ tuyến tính biến độc lập biến phụ thuộc Tuy nhiên, liệu tương quan Pearson có thực cơng cụ mạnh mẽ để đánh giá mối tương quan hay khơng? Khó khăn đặt để áp dụng tương quan Pearson liệu phải có u cầu sau: - Thuộc liệu khoảng mức tỷ lệ Có mối tương quan tuyến tính Bộ số liệu phải thuộc phân phối chuẩn Nếu số liệu không đáp ứng yêu cầu phải hướng đến mối tương quan khác để giải vấn đề Tương quan xếp hạng Spearman giải pháp hữu ích khắc phục khó khăn tương quan Pearson Tương quan xếp hạng Spearman đánh giá mối quan hệ đơn điệu giá trị xếp hạng Trong mối quan hệ đơn điệu, biến có xu hướng thay đổi nhau, khơng thiết phải mối quan hệ tuyến tính Bài tiểu luận tìm hiểu trường hợp sử dụng tương quan Spearman, cách tính kiểm định hệ số tương quan Spearman, bước tiếp cận xử lý ví dụ cụ thể phần mềm Excel, R SPSS Hạn chế đề tài: Vì chưa có khả cài đặt phần mềm SPSS nên bước thực SPSS lấy từ nguồn tài liệu tham khảo Một số bước xử lý số liệu mang tính chủ quan, ví dụ cách chọn kiểm tra phân phối chuẩn liệu có nhiều cách khác nhau, không thiết phải làm cách tiếp cận luận NỘI DUNG Dẫn nhập 1.1 Lịch sử đời tương quan Spearman Tương quan Spearman lấy tên từ cha đẻ Charles Edward Spearman (10/9/1863 – 17/9/1945) nhà tâm lý học người Anh tiếng với công việc lĩnh vực thống kê, người tiên phong phân tích nhân tố Nghiên cứu ông hệ số tương quan Spearman công bố báo The American Journal of Psychology năm 1904 với tiêu đề “The Proof and Measurement of Association between Two Things” Trong báo cáo trên, ông thể quan tâm đến biến đo đạc định lượng được, lấy dẫn chứng câu nói Galton “Chiều dài cánh tay tương quan với chiều dài chân, người có cánh tay dài thường có chân dài ngược lại ", nhận thấy chúng có mối tương quan khơng phải biến đo lường cụ thể Hay từ câu nói “Một lần ghi chép dễ nhớ lần nghe”, dễ nhận thấy có mối tương quan mức độ quan sát nhìn thấy liệu với khả ghi nhớ liệu não, nhiên khơng thể dựng cơng thức hồi quy xác Tiếp theo ông nhận thấy vấn đề gặp phải sử dụng hệ số tương quan Pearson để đánh giá số tương quan thí nghiệm tâm lý học đưa kết luận khơng có mức độ tin cậy cao Từ đó, ơng đưa chứng minh phương pháp đánh giá tương quan thứ hạng hệ số tương quan Spearman đời từ 1.2 Ý nghĩa tương quan Spearman thực tế Tương quan Spearman cơng cụ thống kê phân tích mối tương quan đơn điệu biến độc lập biến phụ thuộc, dễ hiểu biến độc lập (X) tăng biến phụ thuộc Y tăng (giảm) theo hay không Các biến đánh giá hệ số tương quan Spearman không cần bắt buộc phải có mối quan hệ tuyến tính phân phối chuẩn nên áp dụng nhiều trưởng hợp mà tương quan Pearson ưu Sử dụng tương quan Spearman trả lời câu hỏi sau đây: Có mối quan hệ có ý nghĩa thống kê trình độ học vấn người tham gia (trung học, cử nhân sau đại học) mức lương khởi điểm họ khơng? Có mối quan hệ có ý nghĩa thống kê vị trí hồn thành ngựa đua tuổi ngựa không? Trong Sinh học, tương quan Spearman ứng dụng nghiên cứu: - Microarray để phân cụm gen dựa vào mức độ tương quan biểu chúng liệu thu thập microarray nhiễu với liệu bất thường Tương quan Spearman thực cơng cụ mạnh phân tích biểu gen - chứng minh qua nhiều nghiên cứu Được sử dụng nhiều nghiên cứu tương quan hoạt động tế bào miễn dịch (ví dụ: Sự tương quan số lượng tế bào T hỗ trợ tế bào plasmablast - bệnh nhân bị sốt xuất huyết) Tác động thuốc có mối tương quan với tác động khác thuốc hay khơng (Ví dụ: mối tương quan giá trị IC 50 hoạt tính chống sốt rét in vitro giá trị IC 50 hoạt tính chống haemozoin số thuốc chloroquinoline, quinolines xanthones để xem liệu thuốc có hiệu chống haemozoin tốt có liên quan đến khả điều trị sốt rét hay khơng) Ngồi tương quan Spearman ứng dụng Page’s test: Các đối tượng nghiên cứu thực nhiều lần thử nghiệm với nhiệm vụ dự đoán hiệu suất cải thiện từ thử nghiệm sang thử nghiệm khác Một thử nghiệm ý nghĩa xu hướng điều kiện khác phát triển Ellis Batten Page (1963) với giả thuyết: Ho: m1=m2=m3=…=mn H1: m1>m2>m3>…>mn Tuy nhiên không đề cập sâu mục đích Bộ số liệu 2.1 Yêu cầu số liệu phân tích tương quan Spearman Khi nên sử dụng tương quan Spearman thay cho tương quan Pearson? Yêu cầu số liệu phân tích tương quan Spearman: Số liệu thuộc liệu: thứ tự, khoảng, tỉ lệ (phụ lục) X Y phải có mối liên hệ đơn điệu (có thể nhìn vào đồ thị phân tán để dự đoán) Phân tích tương quan Spearman sử dụng trường hợp sau giả định tương quan Pearson không đáp ứng: Nếu liệu thể mối quan hệ phi tuyến tính khơng theo phân phối chuẩn Nếu có biến biến thứ tự Nếu có số liệu bất thường, cao q thấp so với số liệu cịn lại Khơng giống tương quan Pearson, tương quan Spearman không nhạy cảm với ngoại lệ thực phép tính cấp bậc, chênh lệch giá trị ban đầu thực tế khơng có ý nghĩa chuyển hết dạng thứ bậc Hình 2.1 So sánh hệ số tương quan Spearman hệ số tương quan Pearson số trường hợp a) rs = hai biến có quan hệ đơn điệu, mối quan hệ chúng khơng tuyến tính Trường hợp khơng đưa mối tương quan Pearson hoàn hảo (rp = 0.88) b) Tương quan Spearman nhạy so với tương quan Pearson giá trị ngoại lệ nằm biên hai mẫu c) Khi liệu phân phối gần hình elip khơng có giá trị ngoại lệ bật, tương quan Spearman tương quan Pearson cho giá trị gần 2.2 Bộ số liệu thứ hạng ràng buộc thứ hạng không ràng buộc Xếp hạng ràng buộc hai mục cột có thứ hạng Giả sử hai mục ví dụ gắn cho thứ hạng Hình ảnh sau cho thấy điểm liệu ràng buộc gán thứ hạng trung bình 5,5: Hình 2.2 Ví dụ số liệu thứ hạng ràng buộc Xếp hạng khơng có ràng buộc khơng có liệu bị trùng hạng nhau, thứ hạng để dạng số nguyên, ví dụ minh họa sau: Hình 2.3 Ví dụ số liệu thứ hạng không ràng buộc 2.3 Bộ số liệu ví dụ áp dụng phương pháp tương quan Spearman việc xử lý biến thứ hạng Một mẫu gồm 1.000 công ty hỏi số lượng nhân viên doanh thu họ năm 2018 Sau hoàn thành việc thu thập liệu, bảng cho thấy kết Hình 2.4 Kết khảo sát quy mô công ty doanh thu họ năm 2018 Câu hỏi đặt quy mơ cơng ty có liên quan đến doanh thu khơng? Nhìn kỹ vào bảng kết cho thấy điều hiển nhiên: cơng ty có nhiều nhân viên thường tạo nhiều doanh thu Nhưng lưu ý mối quan hệ khơng hồn tồn vậy: có 60 cơng ty với nhân viên kiếm 50.000 USD - 99.999 USD có 89 cơng ty với 2-5 nhân viên kiếm từ - 49.999 USD Mối quan hệ trở nên rõ ràng hình dung kết biểu đồ bên Hình 2.5 Biểu đồ cột thể mối liên hệ dữa quy mô doanh thu công ty Biểu đồ cho thấy mối quan hệ tăng đơn điệu quy mô doanh thu: công ty lớn có xu hướng tạo nhiều doanh thu công ty nhỏ Câu hỏi tiếp theo: Mối quan hệ mạnh mẽ nào? Lựa chọn nghĩ đến tính tốn mối tương quan Pearson quy mô công ty doanh thu Tuy nhiên, điều khơng hiệu khơng có quy mô công ty doanh thu liệu mà có cấp bậc quy mơ doanh thu Quy mô công ty doanh thu biến thứ tự liệu này: biết 2-5 nhân viên lớn nhân viên lớn Trong trường hợp này, sử dụng tương quan cấp bậc Spearman (Rs) = 0,81 (khơng trình bày cách tính cụ thể đây) Điều cho biết biến có tương quan tăng đơn điệu mạnh Nhưng khơng biết liệu mối quan hệ có quan hệ tuyến tính mức độ hay khơng 2.4 Ví dụ ứng dụng phương pháp tương quan Spearman lĩnh vực Sinh học Ví dụ 1: Nghiên cứu tương quan lượng IL-21 tế bào Th máu với lượng plasmablast bệnh nhân bị sốt xuất huyết cấp tính Tần số tế bào plasmablast, IL-21 Th ghi lại không tuân theo phân phối chuẩn (kiểm định Mann-Whitney U test two-tailed) Ở đồ thị có xuất số liệu bất thường Tương quan Spearman áp dụng trường hợp này: Hình Tần số plasmablasts ( n = 14) tương quan đơn điệ tăng, mối quan hệ mạnh với tần số tế bào Tfh giai đoạn nhiễm trùng cấp tính (Spearman r = 0,91, p zcrit => Bác bỏ giả thuyết Ho với độ tin cậy – α cho trước Một cách để kiểm tra giả thuyết Ho sử dụng kiểm định hoán vị Ưu điểm cách tiếp cận tự động tính đến số lượng giá trị liệu ràng buộc mẫu thể ưu điểm vượt trội xử lý tính tốn mối tương quan thứ hạng 15 Ví dụ thực tế Đề bài: Dữ liệu sau ghi lại nồng độ Uranium (ppb) nồng độ chất rắn hòa tan (mg / L) 23 mẫu nước ngầm thu thập: ST T 10 11 Uranium conc (ppb) 678.1 818.93 302.38 1149.6 573.14 1034.55 633.25 1095.42 1122.58 686.51 1172.84 TDS (mg/L) 0.8 1.93 0.97 11.8 1.41 2.41 3.4 0.98 2.46 0.26 9.97 ST T 12 13 14 15 16 17 18 19 20 21 22 23 Uranium conc (ppb) 593.7 1247.95 533.99 605.51 696.96 1282.95 531.16 788.36 956.06 1149.38 1069.82 1124.17 TDS (mg/L) 0.37 6.7 0.09 1.72 6.76 10.27 0.13 2.87 3.1 0.96 3.77 7.09 Kiểm tra tương quan hai biến 4.1 Thực hành phân tích tương quan Spearman phần mềm Excel Đáng tiếc, Excel khơng có chức sẵn có để tính hệ số tương quan xếp hạng Spearman Tuy nhiên, số thao tác với Excel, đưa cách đơn giản để thực tương quan Spearman 16 Hình 4.1 Nhập liệu tốn Excel Bước 1: Lựa chọn tương quan thích hợp Ban đầu nên cân nhắc xem mối tương quan Pearson có phù hợp hay khơng liệu có nên sử dụng Spearman có vi phạm giả định Hình 4.2 Biểu đồ phân tán hàm lượng Uranium lượng chất rắn hòa tan Biểu đồ phân tán gợi ý mối tương quan thuận Uranium TDS Có thể quan sát khơng tuyến tính điểm đồ thị ứng với giá trị TDS gần với Ngoài ra, có vài điểm ngoại lệ chệch khỏi đường chung mà mối tương quan Pearson nhạy cảm với điều Chúng ta kiểm tra xem liệu có thuộc phân phối chuẩn hay khơng Một cách đơn giản kiểm tra đồ thị boxplot (có hỗ trợ Excel) Hình 4.3 Đồ thị boxplot hàm lượng uranium (ppb) (bên trái) TDS (mg/L) (bên phải) Dựng đồ thị Boxplot cho thấy: Đồ thị boxplot cho Uranium phù hợp với liệu thuộc phân phối chuẩn; median gần với tâm hộp râu có chiều dài gần 17 Boxplot cho TDS đáng lo ngại chỗ median gần với phân vị thấp râu ngắn râu trên, cho thấy độ lệch (Skewness) dương Công cụ tốt để kiểm tra giả thuyết phân phối chuẩn trường hợp kiểm định Shapiro-Wilk Tuy nhiên dùng phương pháp Excel sức phức tạp nên khơng trình bày Kết kiểm định Shapiro-Wilk R (trình bày sau) cho thấy kết với dự đoán dựa vào đồ thị Boxplot Các điều kiện để áp dụng tương quan Pearson bị vi phạm, bước thực tương quan Spearman để kiểm tra tính tương quan đơn điệu hai biến Bước 2: Xếp hạng liệu Điều thực nhanh chóng cách sử dụng Hàm Excel RANK.AVG Có thể tính khoảng cách cặp cấp bậc (d) muốn tính cơng thức thơng thường Hình 4.4 Sắp xếp thứ tự liệu phần mềm Excel hàm RANK.AVG Hàm ô D2: =RANK.AVG(B2,$B$2:$B$24,0) Hàm ô E2: =RANK.AVG(C2,$C$2:$C$24,0) 18 Hình 4.5 Tính khoảng cách rank X rank Y cặp phần mềm Excel Công thức ô F2: =D2-E2 Công thức ô G2: =F2^2 Bước 3: Tính hệ số tương quan Spearman cách nhập cơng thức hàm Correl Hình 4.6 Tính ρ hai cách khác phần mềm Excel Trong ví dụ khơng có mối quan hệ ràng buộc cấp bậc nào, tính tốn ρ với cơng thức đơn giản: 19 Tổng bình phương khoảng cách (2): Ơ G25: =SUM(G2:G24) Cơng thức tính ρ G26: =1-((6*G25)/(A24*(A24^2-1))) Hàm tính ρ G27: =CORREL(D2:D24,E2:E24) Bước 4: Kiểm định tồn hệ số tương quan Spearman Hình 4.7 Các bước kiểm định tồn hệ số tương quan Spearman Ô H36: =TINV(0.025,A24-2) Ô B37: =G26*SQRT((A24-2)/(1-G26^2)) Các bước kiểm định giả thuyết tồn hệ số tương quan Spearman: Bước 1: Đặt giả thuyết Bước 2: Chọn α Ở chọn α = 0.05 Bước 3: Chọn test thống kê T-test thuộc hàm phân phối Student với số bậc tự n-2 Trong Tcrit phân vị thứ α/2 (0,025) phân phối student với bậc tự n-2 Bước 4: Chọn vùng bác bỏ vùng chấp nhận Nếu |Tstat| > Tcrit bác bỏ giả thuyết Ho 20 Nếu |Tstat| < Tcrit chấp nhận giả thuyết Ho Bước 5: Tính Tstat với công thức: Bước 6: Kết luận bác bỏ hay chấp nhận giả thuyết Ho với độ tin cậy 1-α (95%) cho trước Kết luận chung: Tương quan thứ bậc Spearman sử dụng để xác định mối quan hệ giá trị nồng độ uranium TDS nước ngầm Kết mối tương quan Uranium TDS mối tương quan đơn điệu tăng, tương quan mạnh mẽ (ρ = 0,71, n = 23, α=0,05) 4.2 Thực hành phân tích tương quan Spearman phần mềm SPSS Tương tự cách lập luận mục 4.1, phần khơng nhắc lại Hình 4.8 Đồ thị phân tán thể mối quan hệ nồng độ Uranium (ppb) TDS (mg/L) 23 mẫu nước thực phần mềm SPSS Hình 4.9 Đồ thị boxplot thể nồng độ Uranium (bên trái) thể nồng độ TDS (bên phải) thực phần mềm SPSS Với nghi ngờ trên, kiểm tra tính phân phối chuẩn liệu hệ số skewness để thêm chứng 21 Kiểm tra nhanh giá trị skewness có lớn hai lần sai số tiêu chuẩn hay không Sử dụng theo cách này, độ lệch liệu Uranium phù hợp với liệu phân phối chuẩn Tuy nhiên, skewness TDS đủ lớn để đảm bảo lo ngại tổng thể có skewness dương (1,189> 2x0.481 ), nghi ngờ số liệu TDS rút từ tổng thể không theo phân phối chuẩn Phân tích tương quan Spearman Hình 4.10 Bảng thống kê mơ tả thực phần mềm SPSS cho thấy số Skewness hai số liệu: Uranium conc (bên trái), TDS (bên phải) Hình 4.11 Tính tốn kiểm nghiệm giả thuyết tồn hệ số tương quan Spearman phần mềm SPSS Kết cho thấy Spearman’s rho có giá trị 0,708 Kiểm định giả thuyết thống kê tồn hệ số tương quan cho kết giá trị p-value = 0.000 Bác bỏ giả thuyết Ho Kết luận chung: "Mối tương quan Spearman sử dụng để xác định mối quan hệ giá trị nồng độ uranium TDS nước ngầm Kết cho thấy quan hệ tăng đơn điệu, mạnh mẽ mối tương quan Uranium TDS (ρ = 0,71, n = 23, p value