Lời giải bài tập 10

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 142 - 147)

3. Hồi quy logistic

3.5.2.Lời giải bài tập 10

143 Giải pháp đã được chia thành 6 phân đoạn 1) Nhập và làm sạch dữ liệu cơ bản

Có thể, bạn đã tham khảo các chương trước để biết mã này. Như đã đề cập trước đây, nếu chúng ta có mã sẵn sàng để sử dụng… hãy sử dụng nó.

2)

Tạo biến mục tiêu và biến dự đoán của chúng ta Mẹo duy nhất mà tôi có thể cung cấp ở đây là đảm bảo rằng bạn không thêm bất kỳ chữ hoa nào khi nhập các biến.

144

Từ kết quả, chúng ta nhận được phép tính điểm. Bây giờ có thể tính điểm của bạn.

4) Cho điểm và tính xác suất

Sử dụng ID 1 làm ví dụ của: + CCJ_go Government = 0 + CCJ_private = 0

145 + bank_balance = 1884; + thuộc tính = 1; + amount_owed = 24. Ví dụ. Sử dụng ID 2: + CCJ_government = 0; + CCJ_private = 0; + bank_balance = 33946; + properties = 2; + amount_owed = 1.

Sự khác biệt giữa kết quả Python và của chúng ta (như đã đề cập trước đây) là do làm tròn.

146 Hình 10.11: Gắn xác suất vào khung dữ liệu

Tính xác suất rất dễ dàng, là khi chúng ta có điểm

For ID1, the score = -7.734440

Vì vậy, ID1 có 0,0437% khả năng phá sản. 5) Tạo biểu đồ ROC

147 Hình 10.12: Biểu đồ ROC cho bài tập 10.1

Từ biểu đồ, chúng ta có thể nói rằng chúng ta sẽ có một con số AUC lớn, điều này ngụ ý rằng mô hình sẽ rất mang tính dự đoán.

6) Tính AUC và Gini

Với giá trị AUC là 0,8939 và Gini là 0,7877, những số liệu này xác nhận rằng mô hình dự đoán kết quả tốt.

3.6. Tóm tắt

Mục này hy vọng sẽ hiểu được những kiến thức cơ bản và các phép đo chính khi chúng ta xây dựng một mô hình logistic. Trong một kịch bản thực tế, quá trình xây dựng mô hình sẽ sử dụng nhiều biến hơn, yêu cầu thử nghiệm thêm và nhiều vấn đề (thường là dữ liệu).

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 142 - 147)