TẠO CÁC BIẾN MỚI CÓ Ý NGHĨA DỰA VÀO CÁC BIẾN ĐÃ CÓ

Một phần của tài liệu Báo cáo cuối kỳ học phần phân tích dữ liệu Đề tài phân tích dữ liệu thời tiết ở australia (Trang 33 - 38)

6.1 Mục tiêu

Trong phần này, chúng ta sẽ tạo ra các biến mới từ biến Date hiện có để hỗ trợ tốt hơn cho việc phân tích dữ liệu và xây dựng mô hình.

6.2 Tạo biến mới từ biến Date

- Bước 1: Chuyển đổi biến Date sang định dạng datetime: Đầu tiên, chúng ta chuyển đổi cột Date, hiện đang ở dạng chuỗi (object), sang định dạng ngày giờ (datetime). Điều này giúp chúng ta dễ dàng trích xuất các thành phần như năm, tháng, và ngày từ biến Date.

Hình 26 : Chuyển đổi biến Date sang định dạng datetime

- Bước 2: Trích xuất các thành phần từ biến Date và Kiểm tra dữ liệu sau khi trích xuất: Sau khi chuyển đổi Date sang định dạng datetime, chúng ta tiến hành trích xuất các thành phần năm, tháng, và ngày từ biến này và lưu chúng vào các cột mới.

Trích xuất năm:

Hình 27 : Trích xuất năm từ biến Date

Trích xuất tháng:

Hình 28 : Trích xuất tháng từ biến Date Trích xuất ngày:

Hình 29 : Trích xuất ngày từ biến Date

- Sau khi trích xuất các thành phần năm, tháng, và ngày, chúng ta kiểm tra lại các giá trị của những cột mới tạo.

- Bước 3: Loại bỏ biến Date ban đầu: Sau khi tạo các cột mới từ biến Date, chúng ta có thể loại bỏ biến Date ban đầu để tránh dư thừa dữ liệu.

Hình 30 : Xoá biến Date ban đầu

- Kiểm tra lại cấu trúc của tập dữ liệu: Cuối cùng, chúng ta kiểm tra lại cấu trúc của tập dữ liệu để đảm bảo rằng các biến mới đã được tạo và biến Date đã được loại bỏ.

Hình 31 : Info của tập dataset 6.2 Tạo biến mới từ biến RainToday

- Mô tả biến RainToday: Biến RainToday là một biến phân loại với hai giá trị:

+ "Yes": Có mưa trong ngày.

+ "No": Không có mưa trong ngày.

Cách tiếp cận và phương pháp mã hoá: Để chuyển đổi giá trị phân loại của biến RainToday thành dạng số có thể sử dụng trong các mô hình học máy, tôi đã sử dụng Binary Encoding.

Binary Encoding là một phương pháp mã hoá cho các biến phân loại với hai giá trị ("Yes"/"No"), biến đổi chúng thành các cột nhị phân. Trong trường hợp này, chúng ta có thể tạo ra hai cột mới: RainToday_0 và RainToday_1, với các giá trị nhị phân tương ứng.

- Quy trình thực hiện:

1. Chọn biến RainToday trong bộ dữ liệu.

2. Áp dụng phương pháp BinaryEncoder từ thư viện Category Encoders.

Phương pháp này chuyển đổi biến RainToday thành hai cột nhị phân:

+ RainToday_0: Đại diện cho "No" (không có mưa).

+ RainToday_1: Đại diện cho "Yes" (có mưa).

- Cụ thể:

+ Nếu RainToday có giá trị "No", thì RainToday_0 = 1 và RainToday_1 = 0.

+ Nếu RainToday có giá trị "Yes", thì RainToday_0 = 0 và RainToday_1 = 1.

Kết quả: Sau khi thực hiện mã hoá, chúng ta có hai cột mới RainToday_0 và RainToday_1 trong bộ dữ liệu. Điều này giúp chúng ta có thể sử dụng các mô hình học máy yêu cầu đầu vào là các giá trị số.

+ Sự thay đổi trong bộ dữ liệu:

+ Ban đầu, biến RainToday có giá trị "Yes" và "No".

+ Sau khi mã hoá, biến này được chuyển thành hai cột mới với các giá trị nhị phân 0 và 1.

Ví dụ:

+ Nếu RainToday = "No", thì RainToday_0 = 1 và RainToday_1 = 0.

+ Nếu RainToday = "Yes", thì RainToday_0 = 0 và RainToday_1 = 1.

Kiểm tra dữ liệu: Sau khi mã hoá, chúng ta kiểm tra xem dữ liệu có bị thiếu giá trị nào không. Kết quả cho thấy rằng tất cả các giá trị thiếu trong bộ dữ liệu đã được xử lý hoàn toàn, và không có giá trị thiếu trong các cột RainToday_0 và RainToday_1.

Hình 32 : Tạo ra biến phân loại mới RainToday_0 và RainToday_1 6.3 Kết luận

Trong phần này, chúng ta đã tạo ra các biến mới Year, Month, và Day từ biến Date ban đầu và biến RainToday. Việc trích xuất các thành phần này không chỉ giúp dữ liệu trở nên dễ dàng phân tích hơn mà còn hỗ trợ tốt hơn cho việc xây dựng mô hình dự đoán. Sau đó, chúng ta đã loại bỏ biến Date ban đầu để tránh dư thừa dữ liệu và kiểm tra lại cấu trúc của tập dữ liệu để đảm bảo mọi thứ đều hợp lý.

Một phần của tài liệu Báo cáo cuối kỳ học phần phân tích dữ liệu Đề tài phân tích dữ liệu thời tiết ở australia (Trang 33 - 38)

Tải bản đầy đủ (PDF)

(86 trang)