Kết hợ p/ nối dữ liệu

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 90 - 92)

6. Hợp nhất dữ liệu

6.2.3 Kết hợ p/ nối dữ liệu

Đôi khi chúng ta có thể có 2 tập dữ liệu mà chúng ta muốn kết hợp bằng cách xếp chồng chúng lên trên tập dữ liệu kia, điều này được gọi là nối hoặc nối.

91 Hình 6.6: Sơ đồ nối thêm

Lệnh để nối dữ liệu rất đơn giản, pd.concat. Điều này sẽ tạo ra một khung dữ liệu được gọi là conc chứa 14508 hàng và 7 cột.

Chuẩn bị dữ liệu là rất quan trọng khi tiến hành phân tích. Mục 5 cung cấp các lệnh cơ bản để làm sạch dữ liệu. Nếu không làm sạch dữ liệu đơn giản, ta có thể nhận được kết quả sai và số liệu sai lệch được báo cáo. Ngoài ra, hiếm khi dữ liệu yêu cầu được lưu trữ ở một nơi, do đó cần phải nối các bảng, như được mô tả trong mục 6.

6.3. Tóm tắt

92

7. Phân tích

Phần này cung cấp các công cụ để bắt đầu phân tích dữ liệu. Như đã trình bày trước đây, dữ liệu hiếm khi được cung cấp "sẵn sàng để sử dụng". Vì vậy chúng ta phải biết cách điều khiển khung dữ liệu bằng các lệnh cụ thể. Trước đây, chúng ta tính toán các số liệu thống kê đơn giản, bây giờ chúng ta sẽ mở rộng kiến thức vào phân tích.

Chương sau trình bày cách chúng ta có thể sử dụng Python để thực hiện các phân tích hữu ích và sâu sắc cũng như cách chúng ta có thể sử dụng nhiều công cụ để trình bày kết quả.

Python có một số gói mạnh mẽ cho phép chúng ta thực hiện các phân tích phức tạp, một cách đơn giản.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 90 - 92)

Tải bản đầy đủ (PDF)

(147 trang)