Ví dụ về tạo mô hình hậu cần

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 132 - 136)

3. Hồi quy logistic

3.2. Ví dụ về tạo mô hình hậu cần

Ví dụ này sử dụng tệp CSV có tên là logistic1, nhập tệp này và gọi khung dữ liệu logistic1. Tệp này có một biến phản hồi nhị phân được gọi là đã bán, giá trị này bằng 1 nếu một lần bán đã được thực hiện và bằng 0 nếu ngược lại. Có ba biến dự báo:

- Thu nhập (liên tục);

- Tỷ lệ thế chấp (% tiền lương dành cho thế chấp) (liên tục); - Cấp (xếp hạng khách hàng) (phân loại / rời rạc).

Bậc thay đổi nhận các giá trị từ 1 đến 4. Các bậc có thứ hạng 1 có uy tín cao nhất, trong khi những bậc có 4 có uy tín thấp nhất.

Chương trình 10 – 1. Chương trình logistic thứ nhất

Như chúng ta có thể thấy mã trông rất giống với mục 9 (chương trình 9-11), trong đó sự khác biệt chính duy nhất là 1. thay vì sử dụng OLS, chúng ta đang sử dụng Logit.

133

Chúng ta có thể coi ‘P> | z | ' với P> | t |. Như chúng ta có thể thấy, tất cả các biến đều thỏa mãn quy tắc 0,05. Phương trình ở đây là:

Điểm = -3,99 + (thu nhập * 0,0002) + (thế chấp * 0,0804) + (Ước tính bậc) Nhưng, chúng ta phải chuyển nó thành xác suất:

Để hiểu quá trình này, chúng ta sẽ chia nhỏ điều này bằng Python. Tính điểm khung dữ liệu bằng Python.

Điểm số rất hữu ích để chứng minh cách chúng ta tính toán các xác suất. Từ hình 10.2, có các hệ số, nhưng chúng ta cần độ chính xác hơn để tạo ra điểm số. Chương trình 10-3: Cải thiện mã độ chính xác của hệ số.

+ income = 0.000226; + mortgage = 0.080404;

134 + tier_2 = -0.675443;

+ tier_3 = -1.340204; + tier_4 = -1.551464; + const = -3.989979.

Using ID 1, Tier=3 as an example:

Sự khác biệt là do làm tròn số. Lặp lại cho ID 3, trong đó tier = 1.

Một lần nữa, sự khác biệt là do làm tròn, điều này không đáng quan tâm. Tuy nhiên, như đã đề cập trước đây, chúng ta muốn xác suất chứ không phải điểm số. Vì vậy có thể tự tính toán hoặc nhờ Python thực hiện.

Chương trình 10-4: Sản xuất mô hình logistic xác suất.

Chương trình 10-4 chuyển tỷ số thành xác suất

Nếu chọn lấy các xác suất ngay lập tức, thì chúng ta có thể sử dụng Chương trình 10-5:

Sản xuất mô hình logistic xác suất- phiên bản2

+ logistic1['pred_y1']=

điều này cho Python biết rằng chúng ta muốn tạo một biến mới trong khung dữ liệu đã ghi được gọi là pred_y1.

135 + pred_y1 result.predict(x)

Điều này yêu cầu Python sử dụng kết quả như dự đoán đã tạo trước đó (x), sử dụng khung dữ liệu x và áp dụng mô hình trên đó để nhận dự đoán của chúng ta.

Có thể thấy, các xác suất từ việc sử dụng phương trình, đến sử dụng Python ngay lập tức cung cấp cùng một câu trả lời. Sử dụng ví dụ trước của chúng ta về ID 1 và 3.

Đối với điểm ID 1 = -1,56712.

Phủ định đã biến mất khi cả hai phủ định triệt tiêu lẫn nhau.

Do đó, xác suất để những người tiêu dùng đó phù hợp với cùng tiêu chí của ID 2 của một lần bán hàng là 17,26%.

Đối với ID 3

Do đó, xác suất để những người tiêu dùng đó phù hợp với cùng tiêu chí của ID 3 của một lần bán hàng là 73,84%. Một câu hỏi phổ biến được đặt ra ở giai đoạn này là "Tại sao chúng ta lại tính toán xác suất của các sự kiện khi chúng ta có câu trả lời ở phía trước?" Vì vậy, chúng ta có thể áp dụng mô hình này trên một

136

nhóm dân số khác. Cụ thể, có thể tối đa hóa nỗ lực của mình để đạt được thành công. Ví dụ: Tại sao lại tập trung nỗ lực vào một khách hàng có xác suất bán hàng là 17% trong khi chúng ta có một khách hàng khác với 73%? Sử dụng các mô hình thống kê để giúp chúng ta đưa ra các lựa chọn sáng suốt và thông minh.

Điều này sẽ luôn gợi lên câu hỏi tiếp theo… 'Làm thế nào để biết liệu mô hình này có tốt hay không?' Đối với mô hình hồi quy đa tuyến tính, chúng ta sử dụng bình phương R đã điều chỉnh, nhưng vì đường cong logistic không phải là một đường thẳng, sẽ cần thứ gì khác.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 132 - 136)

Tải bản đầy đủ (PDF)

(147 trang)