6. Hợp nhất dữ liệu
6.1. Tạo khung mô phỏng
Vui lòng nhập mẫu tệp CSV vào Python.
Giai đoạn tiếp theo liên quan đến việc tạo một khung dữ liệu được gọi là mockdata chứa:
1) Hai biến mới:
a. Mock_wages, đây là tiền lương nhân với 100;
b. Mock_savings, đây là khoản tiết kiệm nhân với 100;
2) Một biến khác sử dụng lệnh np.where được gọi là Land_group a. Trường hợp land_worth bằng 0 và nhỏ hơn;
86
c. Trường hợp land_worth bằng 100 trở lên và nhỏ hơn 1000; d. Trường hợp land_worth bằng 1000 hoặc hơn.
3) Trường ngày tháng được gọi là Mock_date –2002-02-02. 4) Các biến sau: a. Id b. Mock_wages c. Mock_savings d. Land_group e. Mock_date.
Nếu bạn quyết định bỏ qua mục 4 và 5 và bắt đầu từ chương này, thì danh sách các yêu cầu này có thể gây khó khăn.
Phần 3 - tạo cột ngày tháng
Chương trình 6-4: Tạo cột ngày tháng năm
Phần cuối cùng của bài tập này yêu cầu khung dữ liệu chỉ chứa các nội dung sau:
a. Id
b. Mock_wages c. Mock_savings d. Land_groupe
87 e. Mock_date.
Phần 4– tạo khung dữ liệu giả.
Chương trình 6-5: Chọn cột Từ đoạn mã trên
Chúng ta đã tạo một khung dữ liệu gọi là mockdata, chỉ sử dụng các cột đã chọn (trong dấu phẩy ngược) trong [[…]]
Nếu chúng ta xem tất cả các nhiệm vụ đó cùng một lúc, thì điều đó có thể khiến bạn nản lòng. Do khả năng chia nhỏ các nhiệm vụ thành các phần có thể quản lý được, việc tạo khung dữ liệu cuối cùng (mockdata) của chúng ta trở nên dễ dàng hơn. Bước tiếp theo liên quan đến việc chọn một mẫu ngẫu nhiên từ mockdata và gọi nó là mockdata1. Lệnh được gọi là sample.
Con số (1000) thông báo cho Python biết tổng số hàng (quan sát) mà chúng tôi yêu cầu. Trong trường hợp này, chúng ta đang yêu cầu Python cung cấp cho 1000 hàng ngẫu nhiên từ mô hình khung dữ liệu. Khung dữ liệu cuối cùng được tạo sẽ được gọi là mocksamp.
Điều này sẽ chỉ chứa 3 cột từ mẫu khung dữ liệu: - Id
- Wages - Mortgage
88 Chương trình 6-6: Tạo mocksamp.
Như trước đây, việc chọn cột từ khung dữ liệu chủ yếu liên quan đến việc đặt tên khung dữ liệu bên ngoài [[..]] và trong dấu ngoặc, liệt kê các cột muốn trong dấu phẩy ngược được phân tách bằng dấu phẩy.
6.2 Hợp nhất các tập dữ liệu
Phần này sẽ chỉ xem xét việc kết hợp hai khung dữ liệu và sẽ tập trung vào ba loại kết hợp khác nhau:
Full/Outer Exclusive
Appending/concatenating