Dữ liệu cho mục

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 68 - 71)

5. Dữ liệu cho Python và thao tác dữ liệu

5.1. Dữ liệu cho mục

Có thể làm sạch và sửa đổi dữ liệu là chìa khóa để trở thành một nhà phân tích giỏi. Như bạn có thể đã khám phá ra với cuốn sách này, một cách tiếp cận thực tế hơn là lý thuyết được sử dụng. Đối với chương này, cần có tệp CSV có tên là 'mẫu'. Tệp này nêu chi tiết về khả năng khách hàng không trả được nợ đối với một sản phẩm tài chính. Vui lòng nhập nó, thông qua Python nhập dữ liệu hoặc tự viết tập lệnh, để chúng ta ‘làm sạch’.

Chương trình 5-1: Nhập tệp CSV

Khi chúng ta nhập tệp CSV này, nó sẽ tạo ra một khung dữ liệu, được gọi là mẫu.

+ sample=, khung dữ liệu tạo ra; + pd.read_csv (- lệnh đọc CSV file);

+ "C:/temp/sample.csv" – nơi tệp được lưu trữ, được nhập vào Python. Tất cả công việc của chúng ta trong chương này sẽ sử dụng khung dữ liệu này. Khung dữ liệu này có 13508 hàng và 16 cột. Các cột được mô tả trong bảng 5.1.

69

Nhiệm vụ đầu tiên của chúng ta là xem xét 20 hàng trên cùng. Để thực hiện việc này, chúng ta sẽ tạo một khung dữ liệu mới có tên là top20, chứa 20 hàng đầu tiên của khung dữ liệu, mẫu.

+ top20- tên của khung dữ liệu mới;

+ sample – tên của khung dữ liệu của chúng ta;

+ head(20) – head là lệnh cho Python biết rằng chúng ta muốn xem số hàng trên cùng. Con số 20, nói với Python rằng chúng ta muốn 20 hàng trên cùng.

Sau đó, chỉ cần nhấp đúp vào khung dữ liệu mới này (trong quá trình khám phá biến). Nếu sử dụng Jupyter, thì chúng ta có thể viết top20.

70 Hình sau là khung dữ liệu của top20.

+ Điều đầu tiên cần chú ý là cột chỉ mục bắt đầu từ số 0.

+ Thứ hai, 2 cột đã có giá trị bị thiếu được thay đổi từ trống (thiếu) thành

nan(CCJ_governmet và CCJ_private).

Python ghi đè các giá trị bị thiếu bằng nan. Xử lý các giá trị bị thiếu được đề cập trong phần tiếp theo. Để đóng cửa sổ này, chúng ta chỉ cần nhấp vào dấu ‘x’ ở góc bên phải của khung dữ liệu.

Giai đoạn tiếp theo liên quan đến việc lấy dữ liệu về dữ liệu (siêu dữ liệu). Để có được thông tin này, chúng ta sử dụng:

Chương trình 5-3: Siêu dữ liệu mẫu

Siêu dữ liệu liên quan đến dữ liệu về dữ liệu, trong Python, chúng ta sử dụng .info (), trong đó tên khung dữ liệu đứng trước tên này. Cụ thể:

71

Từ lệnh info (), chúng ta có thể thấy rằng mẫu khung dữ liệu có: + 13508 obs (hàng);

+ 16 biến (cột);

+ Tên của tất cả các biến (phân biệt chữ hoa chữ thường); + Các biến là số nguyên (int64) hoặc number (float64).

Điều này đã cho chúng ta hiểu rõ hơn về dữ liệu mà lệnh head () không thể truyền tải.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 68 - 71)

Tải bản đầy đủ (PDF)

(147 trang)