Xử Lý Giá Trị Ngoại Lai (Outlier Values)

Một phần của tài liệu Báo cáo cuối kỳ học phần phân tích dữ liệu Đề tài phân tích dữ liệu thời tiết ở australia (Trang 26 - 29)

Phần 4. TRÌNH BÀY CÁC BƯỚC TIỀN XỬ LÝ DỮ LIỆU

4.1 Xử Lý Giá Trị Ngoại Lai (Outlier Values)

Giá trị ngoại lai là những giá trị khác biệt rõ rệt so với phần còn lại của dữ liệu và có thể ảnh hưởng tiêu cực đến kết quả phân tích. Dưới đây là các bước xử lý giá trị ngoại lai.

Khám phá và xử lý giá trị ngoại lệ với các biến số - Rainfall, Evaporation, WindSpeed9am, WindSpeed3pm

Khi kiểm tra các biến số trong dữ liệu, các cột Rainfall (Lượng mưa), Evaporation (Bốc hơi), WindSpeed9am, và WindSpeed3pm được xác định có thể chứa giá trị ngoại lệ. Để hiểu rõ hơn về vấn đề, biểu đồ hộp (boxplot) đã được vẽ nhằm trực quan hóa sự phân phối của các giá trị và phát hiện các ngoại lệ.

Hình 17 : Trước khi xử lý ngoại lai 1. Rainfall (Lượng mưa):

Quan sát biểu đồ cho thấy có một số giá trị vượt ra ngoài khoảng giới hạn trên (upper whisker), được xem là ngoại lệ. Những giá trị này xuất hiện trong khoảng từ 0.6 đến 1.0 mm.

Nhận xét đây có thể là do các cơn mưa lớn bất thường. Các ngoại lệ này cần được kiểm tra thêm để xem xét tính hợp lệ và ảnh hưởng đến phân tích.

2. Evaporation (Bốc hơi):

Quan sát biểu đồ thể hiện rất nhiều giá trị ngoại lệ ở phía trên. Sự phân bố này cho thấy phần lớn các giá trị tập trung dưới mức 8 mm, nhưng có một số điểm cao vượt ngưỡng 12-14 mm.

Nhận xét điều này có thể xảy ra trong những ngày thời tiết khắc nghiệt hoặc có thể là lỗi đo lường. Các giá trị này cần được xử lý cẩn thận để giảm tác động đến các kết quả phân tích.

3. WindSpeed9am:

Quan sát phân phối của tốc độ gió lúc 9 giờ sáng khá đồng đều, với rất ít hoặc không có ngoại lệ rõ ràng. Phạm vi giá trị nằm trong khoảng từ 0 đến khoảng 35 km/h.

Nhận xét dữ liệu này dường như không có vấn đề lớn về ngoại lệ. Có thể sử dụng trực tiếp mà không cần xử lý bổ sung.

4. WindSpeed3pm:

Quan sát tương tự như WindSpeed9am, biểu đồ không cho thấy ngoại lệ đáng kể. Phân bố giá trị nằm trong khoảng từ 0 đến khoảng 40 km/h.

Nhận xét tốc độ gió lúc 3 giờ chiều có sự phân bố ổn định và không cần các biện pháp xử lý ngoại lệ phức tạp.

-Xử lý ngoại lệ sử dụng phương pháp Interquartile Range (IQR)

Trong phân tích dữ liệu, việc xử lý các giá trị ngoại lệ là một bước quan trọng nhằm loại bỏ các yếu tố gây méo mó kết quả và ảnh hưởng tiêu cực đến hiệu suất của mô hình. Sử dụng phương pháp Interquartile Range (IQR) để xác định và thay thế các giá trị ngoại lệ. Phương pháp này dựa trên khoảng cách giữa phần tư thứ ba (Q3) và phần tư thứ nhất (Q1) để tính ngưỡng dưới và ngưỡng trên, qua đó phát hiện các giá trị nằm ngoài phạm vi hợp lý.

Đối với biến Rainfall, các giá trị ngoại lệ được xác định là nhỏ hơn -3.0 hoặc lớn hơn 3.2. Dựa trên phân tích, các giá trị này đã được thay thế bằng giá trị trung bình của cột Rainfall để giảm thiểu sự sai lệch. Điều này giúp làm sạch dữ liệu mà vẫn giữ được đặc điểm chung của biến số.

Đối với biến Evaporation, áp dụng phương pháp tương tự để tính toán các ngưỡng ngoại lệ. Các giá trị nhỏ hơn -3.0 hoặc lớn hơn 3.225 đã được thay thế bằng giá trị trung bình của cột. Kết quả là biến Evaporation không còn chứa các giá trị bất thường, đảm bảo tính toàn vẹn của dữ liệu.

Biến WindSpeed9am cũng được xử lý theo cách tương tự. Các giá trị ngoại lệ được xác định là nhỏ hơn 2.5 hoặc lớn hơn 23.5, và thay thế những giá trị này bằng trung bình của cột WindSpeed9am. Đối với biến WindSpeed3pm, các giá trị ngoài khoảng 8.35 và 28.5 đã được thay thế để đảm bảo tính chính xác của dữ liệu.

Sau khi xử lý ngoại lệ, vẽ lại biểu đồ boxplot để kiểm tra kết quả. Biểu đồ cho thấy rằng các giá trị cực đoan đã được loại bỏ hoặc thay thế hợp lý, đồng thời không ảnh hưởng đến cấu trúc dữ liệu tổng thể. Điều này đảm bảo rằng các biến số Rainfall, Evaporation, WindSpeed9am và WindSpeed3pm sẵn sàng cho các phân tích sâu hơn hoặc xây dựng mô hình dự báo.

Hình 18 : Sau khi xử lý ngoại lai

Một phần của tài liệu Báo cáo cuối kỳ học phần phân tích dữ liệu Đề tài phân tích dữ liệu thời tiết ở australia (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(86 trang)