Chương 2 CƠ SỞ LÝ THUYẾT
2.7. Thuật tốn Hồi quy tuyến tính:
2.7.2. Ví dụ về Hồi quy tuyến tính
2.7.2.1. Chuẩn bị
Để bắt đầu với Hồi quy tuyến tính, chúng ta hãy đi lướt qua một số khái niệm toán học về thống kê.
Tương quan (r) - Giải thích mối quan hệ giữa hai biến, giá trị có thể chạy từ -1
đến +1
Phương sai (σ2) - Đánh giá độ phân tán trong dữ liệu của bạn
Độ lệch chuẩn (σ) - Đánh giá độ phân tán trong dữ liệu của bạn (căn bậc hai của
phương sai)
Phân phối chuẩn
Sai số (lỗi) - {giá trị thực tế - giá trị dự đoán}
2.7.2.2. Giả định
Khơng một kích thước nào phù hợp cho tất cả, điều này cũng đúng đối với Hồi quy tuyến tính. Để thoả mãn hồi quy tuyến tính, dữ liệu nên thoả mãn một vài giả định quan trọng. Nếu dữ liệu của bạn không làm theo các giả định, kết quả của bạn có thể sai cũng như gây hiểu nhầm.
- Tuyến tính & Thêm vào : Nên có một mối quan hệ tuyến tính giữa biến độc lập và biến không độc lập và ảnh hưởng của sự thay đổi trong giá trị của các biến độc lập nên ảnh hưởng thêm vào tới các biến phụ thuộc.
- Tính bình thường của phân bổ các lỗi : Sự phân bổ sai khác giữa các giá trị thực và giá trị dự đoán (sai số) nên được phân bổ một cách bình thường.
- Sự tương đồng: Phương sai của các lỗi nên là một giá trị khơng đổi so với:
Dự đốn
Giá trị của các biến độc lập
Sự độc lập về thống kê của các lỗi: Các sai số (dư) khơng nên có bất kỳ mối tương quan nào giữa chúng. Ví dụ: Trong trường hợp dữ liệu theo chuỗi thời gian, khơng nên có sự tương quan giữa các sai số liên tiếp nhau.
2.7.2.3. Đường hồi quy tuyến tính
Trong khi sử dụng hồi quy tuyến tính, mục tiêu của chúng ta là để làm sao một đường thẳng có thể tạo được sự phân bố gần nhất với hầu hết các điểm. Do đó làm giảm khoảng cách (sai số) của các điểm dữ liệu cho đến đường đó.
Hình 2.4 Đường hồi quy tuyến tính
Ví dụ, ở các điểm ở hình trên (trái) biểu diễn các điểm dữ liệu khác nhau và đường thẳng (bên phải) đại diện cho một đường gần đúng có thể giải thích mối quan hệ giữa các trục x & y. Thơng qua, hồi quy tuyến tính chúng ta cố gắng tìm ra một đường như vậy. Ví dụ, nếu chúng ta có một biến phụ thuộc Y và một biến độc lập X - mối quan hệ giữa X và Y có thể được biểu diễn dưới dạng phương trình sau:
Ở đây:
Y = Biến phụ thuộc
X = biến độc lập
Β0 = Hằng số
Β1 = Hệ số mối quan hệ giữa X và Y
2.7.2.4. Một vài tính chất của hồi quy tuyến tính
Đường hồi quy ln ln đi qua trung bình của biến độc lập (x) cũng như trung
bình của biến phụ thuộc (y)
Đường hồi qui tối thiểu hóa tổng của "Diện tích các sai số". Đó là lý do tại sao
phương pháp hồi quy tuyến tính được gọi là "Ordinary Least Square (OLS)"
Β1 giải thích sự thay đổi trong Y với sự thay đổi X bằng một đơn vị. Nói cách
khác, nếu chúng ta tăng giá trị của X bởi một đơn vị thì nó sẽ là sự thay đổi giá trị của Y
2.7.2.5. Tìm đường hồi quy tuyến tính
Sử dụng cơng cụ thống kê ví dụ như Excel, R, SAS ... bạn sẽ trực tiếp tìm hằng số (B0 và B1) như là kết quả của hàm hồi quy tuyến tính. Như lý thuyết ở trên, nó hoạt động trên khái niệm OLS và cố gắng giảm bớt diện tích sai số, các cơng cụ này sử dụng các gói phần mềm tính các hằng số này.
Ví dụ, giả sử chúng ta muốn dự đốn y từ x trong bảng sau và giả sử rằng phương trình hồi quy của chúng ta sẽ giống như y = B0 + B1 * x
x y Predict 'y'
x y Predict 'y' 2 1 Β0+B1*2 3 3 Β0+B1*3 4 6 Β0+B1*4 5 9 Β0+B1*5 6 11 Β0+B1*6 7 13 Β0+B1*7 8 15 Β0+B1*8 9 17 Β0+B1*9 10 20 Β0+B1*10 Ở đây: Độ lệch chuẩn x 3.02765 Độ lệch chuẩn y 6.617317 Trung bình x 5.5 Trung bình y 9.7
Tương quan x và y .989938
Nếu chúng ta phân biệt các Tổng cịn lại của diện tích sai số (RSS) tương ứng với B0 & B1 và tương đương với các kết quả bằng khơng, chúng ta có được các phương trình sau đây như là một kết quả:
B1 = Tương quan * ( Độ lệch chuẩn của y / Độ lệch chuẩn của x) B0 = trung bình (Y) - B1 * Trung bình (X)
Đưa giá trị từ bảng 1 vào các phương trình trên,
B1 = 2,64 B0 = -2,2
Do đó, phương trình hồi quy nhất sẽ trở thành -
Y = -2,2 + 2,64 * x
Hãy xem, dự đoán của chúng ta như thế nào bằng cách sử dụng phương trình này
x Y - giá trị thực Y - Dự đoán
1 2 0.44
x Y - giá trị thực Y - Dự đoán 3 3 5.72 4 6 8.36 5 9 11 6 11 13.64 7 13 16.28 8 15 18.92 9 17 21.56 10 20 24.2
Chỉ với 10 điểm dữ liệu để phù hợp với một đường thẳng thì dự đốn của chúng ta sẽ chính xác lắm, nhưng nếu chúng ta thấy sự tương quan giữa 'Y-Thưc tế' và 'Y - Dự đốn' thì triển vọng sẽ rất cao do đó cả hai series đang di chuyển cùng nhau và đây là biểu đồ để hiển thị giá trị dự đoán:
2.7.2.6. Hiệu suất của mơ hình:
Để tính tốn hiệu suất cho mơ hình, chúng ta đến với khái niệm Mean Square Error (MSE) (Sai số tồn phương trung bình)
MSE đánh giá chất lượng của một ước lượng (ví dụ, một hàm toán học lập bản đồ mẫu dữ liệu của một tham số của dân số từ đó các dữ liệu được lấy mẫu) hoặc một yếu tố dự báo (ví dụ, một bản đồ chức năng có số liệu vào tùy ý để một mẫu của các giá trị của một số biến ngẫu nhiên). Định nghĩa của một MSE khác với những gì tương ứng cho dù là một trong những mô tả một ước lượng, hay một yếu tố dự báo.
Ta có cơng thức:
Với mơ hình như trên ta có: - Y là các giá trị thực. - Y^ là các giá trị dự đốn
Tức là MSE là trung bình của tổng bình phương các sai số. Với MSE càng nhỏ thì mơ hình sẽ có hiệu suất càng cao và ngược lại.