Phân tích tương quan

Một phần của tài liệu Bài giảng Ứng dụng công cụ phân tích dữ liệu: Phần 2 (Trang 55 - 60)

Chương 4: Các công cụ phân tích dữ liệu cho mô hình thông kê, dự báo

4.1.3. Phân tích tương quan

Độ tin cậy của ước tính y phụ thuộc vào cường độ của mối quan hệ giữa các biến x và y. Một mối quan hệ mạnh mẽ bao hàm một ước tính chính xác hơn và đáng tin cậy của y. Phân tích tương quan đo sức mạnh của mối liên kết tuyến tính giữa hai biến số (ratio-scaled), x và y.

Phương pháp này được gọi là hệ số tương quan của Pearson. Nó được biểu diễn bằng ký hiệu r khi nó được tính từ dữ liệu mẫu. Công thức sau được sử dụng để tính hệ số tương quan mẫu:

Trong đó:

 r = hệ số tương quan mẫu  x = giá trị của biến độc lập  y = giá trị của biến phụ thuộc

 n = số điểm dữ liệu kết hợp trong mẫu

Ví dụ : Tham khảo kịch bản quản lý của ví dụ trên. Tìm ra hệ số tương quan mẫu, r, giữa số quảng cáo được đặt và doanh thu TV màn hình phẳng. Bình luận về sức mạnh của mối quan hệ tuyến tính.

Giải pháp

Hình 4.1.3.A

Với bảng trên ta có n = 12 và

Vậy r bằng :

Làm thế nào để giải thích một hệ số tương quan: một hệ số tương quan là một tỷ lệ nằm giữa -1 và +1.

Hình sau cho thấy cường độ của mối liên kết tuyến tính giữa hai biến số được biểu diễn bởi hệ số tương quan.

Hình 4.1.3.B

Các hình sau đây chỉ ra cả hướng và sức mạnh của một hệ số tương quan liên quan đến các điểm phân tán khác nhau của hai biến số ngẫu nhiên số.

Kết hợp hoàn hảo

Tương quan tuyến cực dương hoàn hảo (r = +1).

Tất cả các điểm dữ liệu của một phân tán nằm chính xác trên một đường thẳng nghiêng thẳng.

Tương quan tuyến tính âm hoàn hảo (r = -1).

Tất cả các điểm dữ liệu một lần nữa sẽ nằm chính xác trên một đường thẳng, nhưng ngược lại (nghĩa là tăng x, giảm y và ngược lại). Đó là một đường thẳng nghiêng nghiêng. Trong cả hai trường hợp, các giá trị của x chính xác dự đoán các giá trị của y.

Kết hợp khỏe

Tương quan tuyến tính dương (0 <r <+1), với r gần với +1

Đây là một mối quan hệ trực tiếp. Khi x tăng (hoặc giảm), y cũng sẽ tăng (hoặc giảm).

Tương quan tuyến tính âm (-1 <r <0), với r gần -1

Đây là một mối quan hệ nghịch, vì khi x tăng (hoặc giảm), y sẽ giảm (hoặc tăng). Sự kết hợp chặt chẽ các điểm phân tán trong cả hai sơ đồ hàm ý một mối quan hệ tuyến tính mạnh, với hệ số tương quan r gần +1 nếu mối quan hệ là dương (hoặc trực tiếp), hoặc gần -1 nếu mối quan hệ âm (hoặc nghịch đảo) .

Tích cực tuyến tính dương (0 <r <+1), với r gần 0

Điều này minh hoạ mối quan hệ trực tiếp nhưng yếu giữa x và y.

Tương quan tuyến tính âm (-1 <r <0), với r gần bằng 0

Điều này minh hoạ một mối quan hệ ngược lại - nhưng yếu - giữa x và y. Các điểm phân tán rộng rãi hơn trong cả hai trường hợp cho thấy một mối quan hệ tuyến tính vừa phải đến yếu, với hệ số tương quan, r, nằm gần 0.

Không kết hợp

Không có tương quan tuyến tính (r = 0)

Các giá trị của x không có giá trị trong ước lượng các giá trị của y. Các điểm dữ liệu được phân tán ngẫu nhiên. Từ những minh họa ở trên, có thể thấy r gần nhất là -1 hoặc +1, sự kết hợp càng mạnh. Tương tự, r gần nhất là 0, thì mối quan hệ tuyến tính giữa x và y càng yếu.

Bất kỳ giải thích nào cần phải tính đến hai điểm sau:

 Sự tương quan thấp không nhất thiết hàm ý rằng các biến số không liên quan, chỉ là mối quan hệ này được mô tả bằng một đường thẳng. Một mối quan hệ phi

tuyến tính có thể tồn tại. Hệ số tương quan của Pearson không đo được các mối quan hệ phi tuyến tính.

 Tương quan không hàm ý mối quan hệ nhân quả. Nó chỉ đơn thuần là một thống kê tương quan quan sát được.

Đối với ví dụ trên, hệ số tương quan mẫu Pearson r = 0.8198. Điều này hàm ý sự liên kết thống kê mạnh mẽ, trực tiếp (tích cực) giữa số lượng quảng cáo được đặt và doanh thu của TV màn hình phẳng. Do đó, số lượng quảng cáo trên báo được đặt là một ước tính tốt về số lượng thực tế của TV màn hình phẳng mà công ty có thể mong đợi bán ra trong tuần tiếp theo.

Hệ số r²

Khi hệ số tương quan mẫu, r, được bình phương (r²), thì phương pháp kết quả được gọi là hệ số xác định. Hệ số xác định đo tỷ lệ (hoặc phần trăm) biến thiên của biến phụ thuộc, y, được giải thích bởi biến độc lập, x. Hệ số xác định dao động từ 0 đến 1 (hoặc 0% và 100%).

r² là một chỉ thị quan trọng về tính hữu ích của phương trình hồi quy vì nó đo độ mạnh x và y liên quan như thế nào. r² gần nhất là 1 (hoặc 100%), sự liên kết giữa x và y càng mạnh. Cách khác, gần hơn r² là 0, thì sự kết hợp giữa x và y càng yếu. Giải thích này được thể hiện trong hình sau.

Hình 4.1.3.C

Khi:

 r² = 0 Không có sự kết hợp giữa x và y.

 r² = ±1 Có sự kết hợp hoàn hảo giữa x và y. Trong cả hai trường hợp âm/dương, y hoàn toàn (100%) được giải thích bởi x.

 0 <r² <1 Sức mạnh của liên kết phụ thuộc vào khoảng cách r² nằm ở 0 hoặc 1.  Khi r² nằm gần 0 (hoặc 0%), nó chỉ ra mối liên hệ yếu giữa x và y.

 Khi r² nằm gần 1 (hoặc 100%), nó chỉ ra sự kết hợp chặt chẽ giữa x và y.

Ví dụ : Tham khảo kịch bản quản lý của ví dụ trên. Tính toán hệ số mẫu xác định, r², giữa số quảng cáo được đặt và doanh thu TV màn hình phẳng. Bình luận về sức mạnh của mối quan hệ tuyến tính.

Giải pháp:

Hệ số xác định, r², giữa x (số quảng cáo được đặt) và y (doanh thu hàng tuần của TV màn hình phẳng) được tìm ra bằng cách tính hệ số tương quan, r. Cho r = 0.8198, sau đó r² = (0.8198) ² = 0.6721 (hoặc 67.21%). Điều này có nghĩa là số lượng quảng cáo đặt trên báo, x,

giải thích 67.21% biến thể của doanh số bán hàng TV màn hình phẳng, y. Quảng cáo trên báo vì vậy có tác động trung bình đến mạnh mẽ đối với doanh thu TV màn hình phẳng hàng tuần. Hệ số r² hữu ích hơn so với hệ số tương quan khi giải thích sức mạnh của sự kết hợp giữa hai biến ngẫu nhiên, bởi vì nó đo cường độ theo tỷ lệ phần trăm.

Một phần của tài liệu Bài giảng Ứng dụng công cụ phân tích dữ liệu: Phần 2 (Trang 55 - 60)