5. Dữ liệu cho Python và thao tác dữ liệu
5.3.5. Các biến đặc trưng
Cho đến nay chúng ta mới chỉ xem xét các giá trị số, nhưng dữ liệu thường đến ở dạng hỗn hợp giữa các giá trị đặc trưng và số. Giai đoạn đầu tiên là tạo một khung dữ liệu với các giá trị đặc trưng:
Chương trình 5-9: Khung dữ liệu ký tự
Ở trên tạo một mảng có tên là ‘boom’, sau đó được chuyển đổi thành một khung dữ liệu có tên là ‘bosh’ bằng cách sử dụng lệnh ‘pd.DataFrame’. Để lọc dữ liệu theo một biến đặc trưng rất giống với phiên bản số như trong chương trình sau:
76
Chương trình 5-10: Thao tác dữ liệu biến ký tự 1) char1 = bosh [bosh.boom == "EXAMPLE"]:
a. Chúng ta có thể sử dụng dấu ngoặc kép hoặc đơn, nhưng bạn phải nhớ sử dụng chúng và không trộn lẫn chúng, v.d. “EXAMPLE’ sẽ không hoạt động.
2) Tương tự như số 1, nhưng sử dụng số khác.
3) Một lần nữa, như được hiển thị trước đó với phiên bản số, nhưng các từ được bao quanh bởi dấu ngoặc kép.
4) Nhiều hoặc câu lệnh:
a. Điều này chứng tỏ rằng chúng ta có thể sử dụng nhiều câu lệnh ‘or’. 5) Điều này sử dụng một cách rút gọn từ việc viết ra cùng một biến nhiều
lần. Trong trường hợp này, chúng ta có thể sử dụng lệnh ‘isin’, lệnh này cung cấp cho chúng ta kết quả tương tự như trong 5.
Hình 5.8 dưới đây, trình bày kết quả sử dụng các biến đặc trưng:
Câu lệnh isin có thể được sử dụng cho các giá trị số cũng như đặc trưng. Khi xử lý các biến đặc trưng, phải nhớ rằng nó có phân biệt chữ hoa chữ thường. Chẳng hạn: từ ví dụ trước, char1 = bosh [bosh.boom == "EXAMpLE"] sẽ không hoạt động.
77