6. Hợp nhất dữ liệu
1.3.2 Giải pháp hồi quy tuyến tính trong Python
Chương trình 8-2: Hồi quy tuyến tính đơn giản - Bài tập.
1) Đầu tiên, chúng ta cần kích hoạt một thư viện mới và nhập dữ liệu
2) y = reg01 ['Y'] - từ khung dữ liệu reg01, chúng ta cần tạo một chuỗi (một mảng) chỉ với các biến mục tiêu y
3) Giai đoạn tiếp theo liên quan đến việc tạo dữ liệu với biến mà chúng ta muốn t sử dụng để dự đoán y. Mô hình gói trong Python không bao gồm một lệnh chặn trong kết quả của nó, trừ khi một biến đã được tạo. Trong trường hợp này,
114
chúng tôi đã sử dụng sm.add_constant (x). Kết quả tương tự có thể đạt được với x [‘const’] = 1.
4) Mô hình dựa trên bình phương nhỏ nhất thông thường (OLS), trong đó sử dụng mọi thứ trong khung dữ liệu x, để dự đoán y.
5) Bằng cách gọi .fit (), chúng ta nhận được các kết quả thay đổi. Đối tượng này nắm giữ nhiều thông tin về mô hình hồi quy.
6) In kết quả đầy đủ của chúng ta, như thể hiện trong hình 8.3.
Dưới đây là mô tả ngắn gọn về một số kết quả:
+ R-Square - R-Squared là tỷ lệ phương sai trong biến phụ thuộc có thể được giải thích bằng các biến độc lập. R-square là thống kê để đo lường mức độ phù hợp của mô hình với dữ liệu thực tế đã được tính toán trước đó.
+ Bình phương R được điều chỉnh - Trong nhiều mô hình hồi quy, bình
phương rsquared sẽ tăng lên khi có nhiều biến hơn được đưa vào mô hình. Đây là sự điều chỉnh của bình phương R phạt việc bổ sung các yếu tố dự đoán không liên quan vào mô hình. Bình phương R đã điều chỉnh được tính bằng công thức 1 - ((1 - Rsq) (N - 1) / (N - k - 1)) trong đó k là số yếu tố dự đoán.
+ F-Statistic - Mô hình bình phương trung bình chia cho Sai số bình phương
trung bình. Đây là một chỉ báo tốt về việc có mối quan hệ giữa yếu tố dự đoán và các biến phản ứng hay không. Thống kê F càng xa 1 thì càng tốt.
115
+ Std. Error - đo lường số tiền trung bình mà hệ số ước tính thay đổi so với
giá trị trung bình thực tế của biến phản hồi của chúng ta. Lý tưởng nhất là chúng ta muốn một số thấp hơn so với giá trị của nó.
+ Giá trị T - đây là thước đo có bao nhiêu độ lệch chuẩn mà ước tính hệ số
của chúng tôi cách xa 0. Đối với giá trị t, số càng cao thì khả năng dự đoán biến càng mạnh . Ngoài ra, giá trị t cũng được sử dụng để tính giá trị p. + Pr |> t | cho chúng ta biết sức mạnh của dự đoán ‘y’. Giá trị càng thấp thì biến càng mạnh. Giá trị p từ 0,05 (5%) trở xuống là một điểm giới hạn tốt. Áp dụng: y = mx + c.
Với giá trị dương trên ước lượng tham số, chúng ta có thể suy ra rằng khi lương tăng, thì số tiền vay cũng vậy. Ngoài ra, với r-square lớn hơn 0,7 (0,7684), chúng ta có thể sử dụng các kết quả này một cách tự tin. Do đó, đối với những người có mức lương 10.000, chúng tôi có thể dự đoán rằng khả năng cho vay của họ sẽ là: 3,43 + (0,19558 x 10) = 5,1858.
Do đó, dự đoán tín dụng = 5185,80. Các đơn vị tiền lương có thể thay đổi là vào những năm 1000, do đó chúng ta phải thực hiện các tính toán cần thiết để tạo ra số tiền tín dụng được dự đoán một cách chính xác.
1.4 Tóm tắt
Mục đích chính của mục này là đặt nền tảng cho hồi quy tuyến tính và ứng dụng của nó. Tôi đã có kinh nghiệm nhiều người nói rằng họ hiểu hồi quy tuyến tính, nhưng không nắm được những điều cơ bản mà chương này đề cập.
116