Chuyển một biến liên tục thành một biến phân loạ

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 27 - 29)

3. Khai phá dữ liệu trong Excel

3.2 Chuyển một biến liên tục thành một biến phân loạ

Việc chuyển đổi một biến số thành đặc tính rất đơn giản, chúng ta chỉ cần tính các bin 'tốt nhất'. Nếu chúng ta sử dụng phỏng đoán, điều này có thể tạo ra các bin không có 'mục tiêu', điều này sẽ không cho phép thực hiện thống kê khi- bình phương. Trước tiên, hãy tải xuống tệp nhị phân sổ làm việc Excel. Sổ làm việc này trình bày chi tiết doanh số bán một sản phẩm với các đặc điểm cơ bản của

28

khách hàng. Giai đoạn tiếp theo đòi hỏi việc phân đoạn các biến giải thích liên tục thành các tỷ lệ có kích thước bằng nhau dựa trên biến mục tiêu (không phải tổng số quan sát), như sẽ được minh họa trong ví dụ 1 sau:

Ví dụ 1. Sổ làm việc Excel, nhị phân, có một biến phản hồi nhị phân được

gọi là đã bán, giá trị này bằng 1 nếu một lần bán đã được thực hiện và bằng 0 nếu không. Sổ làm việc này cũng chứa ba biến dự báo:

Thu nhập (liên tục);

Thế chấp% (% tiền lương được sử dụng để trả tiền thế chấp) (liên tục); Tier (thứ hạng khách hàng) (phân loại / rời rạc).

Bậc thay đổi nhận các giá trị từ 1 đến 4. Các bậc có thứ hạng 1 có uy tín cao nhất, trong khi những bậc có 4 có uy tín thấp nhất. Đầu tiên, chuyển đổi các biến liên tục thành các biến phân loại, với số lượng mục tiêu bằng nhau trong mỗi bin (phân đoạn). Điều này yêu cầu tạo một bảng tính mới với tất cả các cột, nhưng chỉ khi cột đã bán = 1. Sắp xếp bảng tính Excel theo số lượng đã bán (lớn nhất đến nhỏ nhất). Sao chép và dán tất cả dữ liệu mà đã bán = 1 vào một trang tính mới. Phải có 89 khách hàng mà cờ bán hàng = 1. Giai đoạn tiếp theo yêu cầu sản xuất 4 bin để thu nhập và thế chấp. Vì chúng tôi muốn mỗi bin có số lượng mục tiêu gần như nhau, hãy đo các giá trị ở mỗi phần tư. Sắp xếp trang tính mới này theo thu nhập. Tại dòng 22, 44, 66 ghi lại các giá trị này.

29  Ở dòng 22, thu nhập bằng 5200;  Ở dòng 44, thu nhập bằng 6000;  Tại dòng 66, thu nhập bằng 6800.

Không cần biết con số cuối cùng vì bất kỳ số nào trên 6800 sẽ đại diện cho bin thứ tư và cuối cùng của chúng ta. Tiếp theo, sắp xếp trang tính mới này theo% thế chấp. Tại dòng 22, 44, 66 ghi lại các giá trị này. Ở dòng 22,% thế chấp bằng 31,7. Ở dòng 44,% thế chấp bằng 34,9. Ở dòng 66,% thế chấp bằng 37,1. Không cần biết con số cuối cùng vì bất kỳ số nào trên 37,1 sẽ đại diện cho bin thứ tư và cuối cùng của chúng ta. Phần tiếp theo trình bày chi tiết về hai phương pháp tạo cột mới với bin.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(147 trang)