5. Dữ liệu cho Python và thao tác dữ liệu
5.3 Thao tác dữ liệu
Có thể sửa đổi dữ liệu và chỉ chọn các giá trị cụ thể tạo thành một cột là kỹ năng quan trọng đối với bất kỳ nhà phân tích / nhà khoa học quyết định nào.
5.3.1. Equal to
Nếu chúng ta muốn tạo một khung dữ liệu mới chỉ chứa những khách hàng đã phá sản (target = 1), thì chúng ta sẽ viết một chương trình nhỏ. Trong Python, nếu muốn một biến có giá trị bằng nhau, thì chúng ta sẽ sử dụng hai dấu bằng ‘==’. Chương trình 5-4: Equal to
Mã đã được chia nhỏ như sau:
+ targ1 - tên của khung dữ liệu mới được tạo;
+ mẫu - tên của khung dữ liệu mà chúng ta sẽ sử dụng;
+ [sample $ target - thông báo cho Python biết khung dữ liệu và biến chúng ta muốn sử dụng;
+ == 1 - như đã đề cập trước đây, trong Python, chúng ta sẽ sử dụng '==' có nghĩa là bằng;
+ ] - chỉ định phần cuối của lệnh.
Trong Python, tên cột và khung dữ liệu phân biệt chữ hoa chữ thường, do đó 'Target' sẽ không hoạt động, ngược lại ' target 'không. Lệnh info () đã được đưa vào để hoàn thiện, nhưng chúng ta không cần phải chạy nó. Nếu chúng ta nhìn vào
72
cửa sổ trên cùng bên phải, chúng ta sẽ thấy rằng khung dữ liệu targ1 có 1121 quan sát (hình 5.5).
Nếu bạn nhấp vào từ ‘targ1’, thì trong Python, điều này sẽ hiển thị khung dữ liệu (hình 5.5).
Hình 5.5: Sử dụng ngăn trình khám phá biến.
5.3.2 Các biểu thức khác
Cho đến nay chúng ta đã thấy lệnh ‘==’, nhưng còn có các lệnh khác: Bảng 5.2: Các lệnh khác
73 Hình 5.6: Kết quả các biểu thức cơ bản
Xin lưu ý rằng các kết quả không theo thứ tự đã tạo mà theo thứ tự bảng chữ cái, trong đó các ký tự viết hoa đứng trước các ký tự viết thường. Thông thường, thao tác dữ liệu bằng cách sử dụng hai hoặc nhiều biến, điều này dẫn chúng ta đến các lệnh ‘và’ và ‘hoặc’. Sử dụng khung dữ liệu 'mẫu', chúng ta sẽ tạo một khung dữ liệu mới chỉ chứa những khách hàng có mức lương trên 2000 và tiết kiệm dưới 100. Trong trường hợp này, chúng ta sẽ sử dụng '&' và sử dụng mỗi lệnh có dấu ngoặc , như hình dưới đây:
Chương trình 5-6: Lệnh AND Nếu chúng ta xem xét mức lương > 3000 hoặc tiết kiệm > 500 thì chúng ta sẽ sử dụng ‘|’.
74 Chương trình 5-7: Lệnh OR
Như chúng ta có thể thấy trong hình 5.10, các khung dữ liệu đã được tạo, nhưng làm thế nào chúng ta có thể kiểm tra xem chúng có đúng không? Chúng ta có thể kiểm tra nhanh ‘eyeball’ bằng cách sử dụng head () hoặc tiến hành một số thống kê đơn giản như trong bảng 5.3.
Lưu ý. Khung dữ liệu và tên cột có phân biệt chữ hoa chữ thường, vì vậy
nếu đã sử dụng chữ in hoa trong mã hóa của mình (ví dụ: Save500), hãy nhớ liên
tục sử dụng chúng.
Chúng ta đã mở rộng công việc của mình từ mục 4 sang tính toán các số liệu thống kê đơn giản bằng cách sử dụng khung dữ liệu. Miễn là khung dữ liệu và biến (phân tách bằng dấu ‘. ') được viết đúng, thì nó sẽ đơn giản.