Ví dụ về tổng hợp dữ liệu theo nhóm

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 93 - 95)

6. Hợp nhất dữ liệu

7.2.1. Ví dụ về tổng hợp dữ liệu theo nhóm

Chúng tôi muốn phân tích tổng số CCJ do chính phủ đệ trình, bởi những người đã phá sản. Đối với điều này, chúng ta sẽ:

1. Tạo một khung dữ liệu mới được gọi là sum_exer;

2. Sử dụng cờ mục tiêu để tạo một cột mới được gọi là phá sản;

3. Tóm tắt dữ liệu cho kết quả của chúng tôi Bước 1 và 2 rất đơn giản và đã được đề cập trước đó.

94

Phần trên cho Python biết rằng nếu target bằng 1, thì cột bị phá sản bằng “CÓ”, còn lại đối với tất cả các hàng khác, hãy phá sản bằng “KHÔNG”. Đối với bước 3, chúng ta sẽ tóm tắt theo nhóm.

Chương trình 7-4: Tạo một biến và khung dữ liệu mới.

We have completed simple statistics before, program7-4 takes it to the next level

+ sum_exe.groupby(['bankrupt']). sử dụng khung dữ liệu sum_exe

groupby(['bankrupt']). – phân đoạn các thống kê sau theo biến bankrupt . + sum()[["count", "CCJ_government"]]

sum() – thêm (sum) trường tiếp sau count – Cộng tất cả số 1

CCJ-government – thêm tất cả ccj_government figures.

Lập bảng kết quả để dễ tham khảo tạo ra: Bảng 7.1: Bảng kết quả

1) bankrupt

a. Biến được phân đoạn để phân tích 2) count

a. Đây là biến được sử dụng như được chỉ định trong câu lệnh tóm tắt và cho bạn biết số hàng / quan sát đã được sử dụng từ khung dữ liệu

95 i. 12387 không phải bankrupt

ii. 1121 trở thành bankrupt 3) CCJ_government

a. Đây là biến được sử dụng như được chỉ định trong lệnh tóm tắt i. 518 CCJ_government không phải bankrupt

ii. 2248 CCJ_government bankrupt

Từ kết quả, chúng tôi nhận thấy rằng CCJ_go Government lớn hơn tổng số khách hàng trong nhóm đó. Phần sau sẽ nghiên cứu thêm về sự bất thường này.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 93 - 95)

Tải bản đầy đủ (PDF)

(147 trang)