3. Khai phá dữ liệu trong Excel
3.3.1 Bảng tổng hợp
Bước tiếp theo của chúng ta là tính tổng số quan sát trong mỗi bin cho từng biến bậc, nhóm thu nhập và nhóm thế chấp. Điều này có thể dễ dàng được tính toán bằng cách sử dụng bảng tổng hợp trong Excel, nhưng bước đầu tiên thêm một cột mới vào tập dữ liệu của chúng ta (trang tính Excel) được gọi là số. Cột mới này sẽ chứa số 1 cho tất cả các quan sát (hàng).
36
1) đánh số 1 vào ô H2 và H3 (như hình trên). a. đánh dấu cả hai ô bằng chuột.
2) Như trước đây, hãy nhấp đúp vào góc dưới cùng bên phải của các ô được đánh dấu để tự động điền vào cột.
Lưu ý: nếu bạn chỉ nhập 1 vào chỉ một trong các ô và sau đó bấm đúp vào ô
đó, Excel sẽ cung cấp cho bạn số lượng tích lũy, ví dụ: 1, 2, 3, 4, 5… đi xuống cuối dữ liệu, trong trường hợp này là dòng 299.
Hình 3.15: Hoàn thành cột mới trong Exel.
Với cột đã hoàn thành, giai đoạn tiếp theo liên quan đến việc tạo một bảng tổng hợp.
37
1) Nhấp vào một ô duy nhất trong tất cả dữ liệu.
a. không đánh dấu 2 hoặc nhiều ô vì Excel sẽ chọn chỉ sử dụng các ô được đánh dấu đó để tạo bảng tổng hợp.
2) Nhấp vào tab CHÈN trên đầu dải băng.
3) Nhấp vào Bảng tổng hợp Excel sẽ tự động chọn dữ liệu ta muốn.
1) Dữ liệu! $ A $ 1: $ H $ 299 - Excel đã tự động hoàn thành việc này cho bạn đã hoàn thành; a. Dữ liệu là tên của trang tính; b. $ A $ 1: $ H $ 299, điều này cho Excel biết vị trí các ô chứa dữ liệu.
2) Chọn Trang tính mới. 3) Nhấp vào OK.
38
Danh sách này liệt kê tất cả các cột có sẵn cho bảng tổng hợp;
Bước tiếp theo liên quan đến việc chọn các trường dữ liệu bắt buộc vào bảng tổng hợp.
1) Nhấp vào Bậc (không bỏ nhấp) và kéo đến hộp có tên ROWS. Bây giờ hãy bỏ nhấp vào.
2) Các biến chúng tôi muốn tóm tắt được kéo vào đây.
a. Nhấp vào Count (không bỏ nhấp) và kéo đến hộp có tên là Giá trị. Bây giờ hãy bỏ nhấp vào.
b. Nhấp vào Sold (không bỏ nhấp) và kéo đến hộp có tên là Giá trị. Bây giờ hãy bỏ nhấp vào.
Giai đoạn tiếp theo yêu cầu chúng tôi tính toán phần trăm doanh số, bằng cách chèn một trường đã tính toán.
1) Đảm bảo rằng một ô được đánh dấu trong bảng tổng hợp; 2) Nhấp vào tab ANALYZE;
3) Tiếp theo nhấp vào Fields, Items & Sets;
4) Chọn trường được tính.
1) Viết trên Field1 với Perc_sale 2) Trong hộp Công thức, hãy tạo phương trình cho phép chúng tôi tính toán tỷ lệ phần trăm của một người nào đó mua, Sold / Count; a. Xóa số 0 trong hộp công thức (giữ nguyên dấu =);
39 b. Trong hộp Trường, bấm đúp vào Sold; c. Bây giờ gõ /
d. Nhấp đúp tiếp theo vào Count.
Hy vọng rằng công thức sẽ giống như được hiển thị trong hình sau:
40
Giai đoạn tiếp theo yêu cầu làm cho Bảng tổng hợp hiển thị hơn.
Kích chọn: Sum of count sau đó cọn cài đặt trường giá trị.
41
Lặp lại tương tự cho Sold, nhưng gọi cột này là Total Sold.
Với ‘Sum of Perc_sale’, chúng tôi muốn thay đổi tên của nó và làm cho nó hiển thị phần trăm (%). Sử dụng menu box ‘Value Field Setting’ cho ‘Sum of Perc_sale’.
1) Đổi tên % Sold;
2) Nhấp vào Number format.
42
1) Chọn Phần trăm; 2) Nhấp vào OK.
Sau đó nhấp vào OK trên hộp: ‘Value Field Settings’.
Chúng ta cần so sánh giá trị quan sát được với giá trị mong đợi. Nhìn chung, có tỷ lệ bán hàng 29,87%, do đó, tính toán cho mỗi Cấp 29,87% tổng số khách
43
hàng trong mỗi ben (giá trị dự kiến). Điều này yêu cầu một trường được tính toán mới có tên là ‘Expected sales’.
Đảm bảo rằng một ô được đánh dấu trong bảng tổng hợp; Nhấp vào tab ANALYZE;
Tiếp theo nhấp vào Fields, Items & Sets; Chọn Trường Tính toán.
1) Name: Expected sales;
2) Công thức: = count * 0.2987.
Excel không thích hai cột được gắn nhãn giống nhau và ta có thể nhận được thông báo lỗi cho ‘Expected sales’, trong trường hợp này, chỉ cần đặt dấu cách trước chữ "E" trong doanh số dự kiến.
44
Với các số liệu dự kiến và thực tế đã hoàn thành, chúng ta có thể tính toán thống kê khi - square. Sao chép công thức như trong hình 3.34, với một bảng chi tiết kết quả.
Đối với biến Tier, chúng tôi nhận thấy rằng giá trị khi-square là 0,015386, 1,5386% (đây là mức thấp). Để tính toán khi-bình phương cho nhóm Thu nhập, chúng ta thực hiện theo hướng dẫn sau:
1) Nhấp vào Bậc trong Hộp Hàng (không được bỏ bấm) a. Kéo nó lên hộp trên cùng (bỏ bấm);
2) Bấm vào Nhóm thu nhập (không bỏ bấm);
a. Kéo nó vào hộp hàng (bỏ bấm).
45
Đảm bảo rằng các ô chính xác đang được sử dụng để tính khi-square thống kê Đối với nhóm thu nhập, giá trị khi-bình phương là 0,583968, hay 58,397% (mức này rất cao).
Lặp lại tương tự đối với nhóm thế chấp.
1) Nhấp vào Bậc trong Hộp Hàng (không được bỏ nhấp (click)); a. Kéo nó lên hộp trên cùng (bỏ kích). 2) Bấm vào Nhóm thu nhập (không bỏ kích). a. Kéo nó vào hộp Hàng (bỏ kích).
46
Đảm bảo rằng các ô chính xác đang được sử dụng để tính toán thống kê Khi bình phương.
Đối với nhóm thu nhập, giá trị Khi bình phương là 0,583968 hoặc 58,397% (tỷ lệ này rất cao).
Lặp lại tương tự cho nhóm thế chấp (mortagage).
Đối với nhóm thế chấp, giá trị Khi-square là 0,23237, hay 23,237% (đây là mức cao). Kết quả khi-bình phương được hiển thị trong bảng 3.1.
47
Dựa trên kết quả Khi bình phương, nhánh đầu tiên sẽ được tạo bằng cách sử dụng biến Tier, vì nó có thống kê khi bình phương thấp nhất và đáp ứng quy tắc dưới 5%. Nếu không có giá trị nào thỏa mãn quy tắc 5%, chúng ta sẽ xem xét liệu có nên khôn ngoan khi xây dựng cây quyết định hay không.