3. Khai phá dữ liệu trong Excel
3.3.2 Thiết kế cây quyết định trong Excel
Nhánh đầu tiên của chúng ta sẽ chứa các hình sau:
Tổng số và tổng số hàng đã bán được thu thập từ bảng Tổng hợp. "Not Sold" được tính như sau:
Not Sold = Total – Total Sold.
Sử dụng nút Border, chúng ta có thể đơn giản tạo cây quyết định, dựa trên biến mạnh nhất (bậc) Hình 3.38, mặc dù sâu sắc nhưng có thể coi là khá nhàm chán. Thêm một số màu vào cây, với định dạng có điều kiện, sẽ tạo ra một cây tạo hình mắt đẹp hơn.
48 1) Sử dụng CTRL và nhấp vào các ô, có thể đánh dấu tất cả các ô mà ta muốn thêm định dạng có điều kiện vào.
a. Trong trường hợp này, các ô% đã bán đã được đánh dấu. 2) Chọn Thang màu và biểu đồ thứ hai ở hàng trên cùng. 3) Tô màu nhẹ cho các ô này
a. Các nhãn đã bán và chưa bán có màu xanh lam nhạt.
Quay lại câu hỏi ban đầu, có dân số nào mà chúng ta có thể nhắm mục tiêu chi phí hiệu quả không? Sử dụng cây quyết định, chúng ta nên nhắm mục tiêu những khách hàng đó ở cấp 1 và 2. Cấp 1 có nhiều hơn hai lần rưỡi để mua so với Cấp 4! Công việc này có thể được coi là rộng rãi, nhưng cần phải phát hiện ra biến số phân biệt đối xử với một sản phẩm đang được bán hoặc không phải là sản phẩm mạnh nhất. Điều này sẽ cho phép chúng ta tối đa hóa lợi nhuận của mình bằng cách nhắm mục tiêu các khách hàng hiệu quả về chi phí.
3.4. Tóm tắt
Nội dung đã trình bày cho chúng ta thấy Excel có thể phân tích mạnh mẽ. Ngoài ra, nó là một công cụ tuyệt vời để giải thích các số liệu thống kê, một cách đơn giản. Excel có thể tạo ra các biểu đồ sâu sắc và là một trong những công cụ phân tích phổ biến nhất ở nơi làm việc. Đôi khi chúng ta có thể gặp các vấn đề phức tạp cần giải quyết mà không nằm ngoài việc gửi Excel.
49
Chương 2. Xử lý dữ liệu bằng Python 1. Giới thiệu về Python
Python là một công cụ phân tích dữ liệu mã nguồn mở và miễn phí cho phép làm việc các tập dữ liệu lớn và tiến hành các phân tích phức tạp. Python là một ngôn ngữ kịch bản, có nghĩa là bạn phải viết mã (mà chúng tôi đã giới thiệu một chút trong Excel với câu lệnh ‘IF’). Mục này bao gồm những điều cơ bản về thống kê trong Python), để loại bỏ bất kỳ giả định nào về các khả năng trước đó Python không có tất cả các công cụ cần khi cài đặt ban đầu. Do đó khi làm việc với Python, chúng ta sẽ không tải xuống các công cụ này (gói / thư viện).
Các gói là tập hợp các hàm Python, có thể được sử dụng sau khi cài đặt. Mục đích của chương này là:
Hiểu cách sử dụng các kiểu dữ liệu khác nhau: Danh sách, mảng, khung dữ liệu.
Tính toán thống kê đơn giản (trung bình, chế độ, chi-square, v.v.) Tạo đồ thị cơ bản.
1.1 Spyder
Với nhiều lời khuyên và video trên internet hướng dẫn chi tiết cách tải xuống và cài đặt Python, cuốn sách này sẽ bắt đầu ở màn hình mở cho Spyder. Tôi thích máy chơi game console, trong khi người khác thích máy tính xách tay Jupyter hơn. Mã sẽ hoạt động trong bất kỳ môi trường nào.
Cuốn sách này lặp lại các phần nhất định từ mục 1 đến mục 3 như một cách để chứng minh cách lập trình bằng Python. Điều này cũng sẽ cung cấp một nền tảng về cách chuyển kiến thức Excel sang Python và để kiểm tra kết quả của chúng
50
ta. Không giống như Excel, nơi có thể dễ dàng quan sát tiến trình, Python không hiển thị kết quả ngay khi viết mã. Thay vì giải thích các phân đoạn khác nhau trong Python, cuốn sách này sẽ hướng dẫn sử dụng các ví dụ. Qua nhiều năm kinh nghiệm, chúng tôi phát hiện ra rằng ‘làm điều đó’ có hiệu quả hơn những lời giới thiệu dài dòng.
Do đó, mục này là một cách tiếp cận áp dụng để học những điều cơ bản trong Python. Hai thư viện quan trọng nhất để sử dụng trong cuốn sách này là:
Chương trình 4-1: Thư viện ban đầu import numpy as np
import pandas as pd
Là một cách nhanh chóng để chạy mã, hãy dùng chuột đánh dấu mã, sau đó nhấn Shift và Enter.
Điều này sẽ chạy mã của ta. Chạy hai thư viện này sẽ được giới thiệu sau dưới đây.
Bỏ qua các dấu chấm than trong hình tam giác, điều này có nghĩa chúng ta chưa viết bất kỳ mã nào sử dụng các thư viện này.