GIỚI THIỆU ĐỀ TÀI Chương I giới thiệu về đề tài "Phân tích và dự đoán độ ẩm tương đối từ các thông số thời tiết" 1.1 Tổng quan để tài Khảo sát hiện trạng Độ ẩm tương đổi Relative Humidit
Trang 1BỘ THONG TIN VA TRUYEN THONG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
NHẬP MÔN KHOA HỌC DỮ LIỆU
Dé tai: “ PHAN TICH VA DU DOAN DO AM TUONG DOI
TU CAC THONG SO THOI TIET ”
Trang 2BỘ THONG TIN VA TRUYEN THONG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
es
eae
NHAP MON KHOA HOC DU LIEU
Dé tai: “ PHAN TICH VA DU DOAN DO AM TUONG DOI
TU CAC THONG SO THOI TIET ”
Nguyễn Văn A2 : D2ICQCNI23 Nguyễn Văn A3 : D2ICQCNI23 Nguyễn Văn A4 : D2ICQCNI23 Nguyễn Văn A5 : D2ICQCNI23 Nguyễn Văn A6 : D2ICQCNI23
Trang 3
LỜI CẢM ƠN
Lời cảm ơn của sinh viên (SV) tới người yêu, gia đình, bạn bè, thầy cô, và chính bản thân mình vì đã chăm chỉ và
quyết tâm thực hiện ĐATN để đạt kết quả tốt nhất, nên viết phần cảm ơn ngắn gọn, tránh dùng các từ sáo rỗng, giới han trong khoang 100-150 tw
Đại diện nhóm
Nguyễn Văn A
Trang 42.1 Tổng quan quá trình làm dự án trong 12 tuần 2202200002002 011 11111 n1 n1 xnxx 3
Trang 5DANH MỤC THUẬT NGỮ VÀ TỪ VIET TAT
Thuật ngữ Ý nghĩa
API: Application Programming Interface | Giao diện lập trình ứng dụng
11
Trang 6
DANH MUC HINH VE
Tién dé thuc hiénthuct4p 2 Q Q Q Q2 3 Trích xuất trén Visual Crossing 2 2 TQ TQ v2 5
Loại bỏ cột preciptype,in ra thông tin các cột sau khiloạ bỏ 10 Cột dữ liệu trước và sau khixÓa Q Q Q HQ Q HH HH ki k kg 10
Trang 7DANH MỤC BẢNG BIỂU
Trang 8
PHAN MO DAU
Mục tiêu và định hướng cá nhân về quá trình thực tập cơ sở: Mục tiêu bản thân trong quá trình thực tập cơ sở
là củng cỗ kiến thức cơ sở cho sinh viên trước khi vào phần chuyên ngành tạo tiền đề cho các sinh viên trong kỳ thực tập năm tiếp theo Nêu ra mục tiêu cá nhân và định hướng của bản thân trong tương lai? Lý do lựa chọn nếu
Trình bày phân các giải pháp hiện tại và hạn chế: Trong thực tế, sự phát triển kinh tế xã hội nhanh chóng, bùng
nổ lượng phương tiện giao thông trong khi cơ sở hạ tầng chưa kịp đáp ứng dẫn đến tình trạng thiếu hụt bãi đỗ xe, ác tắc, mất thời gian khi gửi, lấy xe Tại Học viện cũng đã từng xảy ra tình trạng ắc tách khi gửi xe dẫn đến mắt thẩm quan khuôn viên nhà trường, ảnh hưởng đến giờ học của sinh viên Trực tiếp bản thân em cũng đã trải qua những lần xếp hàng đợi gửi xe rất lâu dẫn đến sự không hài lòng, ảnh hưởng đến công việc khác Vì vậy nhu cầu đặt ra là cần có hệ thống thông minh hỗ trợ tự động hóa các bãi đỗ xe
Trình bày phân mục tiêu và hướng giải pháp: Nhận dạng biển số xe là một phần tiện ích giúp tự động hóa các bãi
đỗ xe Nó không chỉ giúp những người quản lý có khả năng bao quát được khách hàng, tình trạng bãi đỗ xe mà còn tiết kiệm thời gian cũng như nguồn nhân lực
Trình bày phân đóng góp của Đô án và bô cục của Đô án: Hướng tới nhu cầu đó, đề tài đồ án tốt nghiệp có tên
“Ủng dụng nhận dạng ký tự quang cho bài toán nhận điện biển sô xe”
Nội dung trình bày trong báo cáo gồm 3 chương chính:
5 Chương 1: Báo cáo tiễn độ từng tuần trong quá trình training
« Chương 2: Đề xuất và báo cáo đề tài Thực tập cơ sở bao gồm 3 nội dung:
— Giới thiệu chung Trình bày tổng quan về đề tài, xác định được mục tiêu, đối tượng, phương hướng giải quyết và giới thiệu những kiến thức công nghệ liên quan
— Cơ sở lý thuyết Tìm hiểu cơ sở lý thuyết và phân tích đặc điểm về biển số xe ô tô tại Việt Nam, mạng
nơ ron tích chập InceptionResNetV2, nhận dạng ký tự quang OCR Từ đó lựa chọn các thư viện, công
cụ tiến hành xây dựng chương trình
— Xây dựng chương trình Trình bày sơ đồ hệ thống, chỉ tiết các bước thực hiện xây dựng chương trình Tiến hành đóng gói và tích hợp vào website đemo Sau đó triển khai thực nghiệm và đánh giá kết quả
« Chương 3: Kết luận quá trình Thực tập bao gồm Bài học và kết quả đạt được từ đó rút ra những điều cần cải
thiện trong tương lai
vi
Trang 9CHƯƠNG I GIỚI THIỆU ĐỀ TÀI
Chương I giới thiệu về đề tài "Phân tích và dự đoán độ ẩm tương đối từ các thông số thời tiết"
1.1 Tổng quan để tài
Khảo sát hiện trạng
Độ ẩm tương đổi (Relative Humidity - RH) là một trong những thông số thời tiết quan trọng, đo lường lượng hơi nước trong không khí so với mức tối đa mà không khí có thể giữ ở một nhiệt độ nhất định Độ ẩm ảnh hưởng trực
tiếp đến cảm giác của con người về thời tiết, năng suất nông nghiệp, sức khỏe, và chất lượng không khí
Với sự phát triển của các mô hình dự báo thời tiết, việc phân tích và dự đoán độ ẩm tương đối từ các thông số khí tượng khác như nhiệt độ, áp suất, lượng mưa, tốc độ gió đã trở thành một nhiệm vụ quan trọng trong nhiều ứng
dụng, từ nông nghiệp thông minh đến các dịch vụ thời tiết đô thị
Các giải pháp biện tại và hạn chế
Hiện nay, các phương pháp phân tích và dự đoán độ ẩm tương đổi chủ yếu dựa vào hai hướng chính: các mô hình
thống kê truyền thống và các phương pháp học máy Các mô hình thống kê như hỗi quy tuyến tính, phân tích chuỗi thời gian đã được sử dụng rộng rãi, nhưng thường không thể xử lý được mỗi quan hệ phi tuyến và tương tác phức tạp giữa các thông số thời tiết
Trong khi đó, các giải pháp học máy, bao gồm các mô hình như Random Forest, XGBoosi, và mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) đã và đang phát triển mạnh mẽ nhờ vào khả năng xử lý dữ liệu lớn và phát hiện các mẫu tiềm ẩn trong đữ liệu Tuy nhiên, các mô hình này yêu cầu đữ liệu lớn và chất lượng cao, đồng thời
việc giải thích các kết quả đầu ra của mô hình học máy vẫn còn là một thách thức lớn
Xu hướng hiện nay là sử dụng kết hợp giữa các mô hình truyền thống và học máy để tận dụng ưu điểm của cả hai phương pháp Tuy nhiên, việc cải thiện hiệu quả dự báo và giảm thiểu sai số trong điều kiện khí hậu biến động vẫn còn nhiều hạn chế và cần nghiên cứu thêm
1.2 Mục tiêu và định hướng giải pháp
Trong chương này, mục tiêu của nghiên cứu là xây dựng một mô hình dự đoán độ ẩm tương đối với độ chính xác cao, dựa trên các thông số thời tiết như nhiệt độ, áp suất khí quyển, lượng mưa, và tốc độ gió
Để đạt được mục tiêu này, nghiên cứu đề xuất áp dụng các phương pháp học máy tiên tiến như Random Forest, XGBoost, và mạng nơ-ron sâu (Deep Neural Networks) Mỗi phương pháp sẽ được thử nghiệm và đánh giá dựa
trên các bộ đữ liệu thời tiết thu thập được, nhằm xác định phương pháp tối ưu nhất cho việc dự đoán độ ẩm tương đối
Ngoài ra, nghiên cứu cũng sẽ xem xét việc kết hợp giữa các mô hình truyền thống và các phương pháp học máy
nhằm tận dụng ưu điểm của cả hai hướng tiếp cận Các giải pháp sẽ được kiểm chứng dựa trên các tiêu chí như độ chính xác, khả năng mở rộng và khả năng giải thích được kết quả đầu ra, nhằm tối ưu hóa hệ thống dự đoán độ ẩm.I.I
1.3 Đóng góp của đề tài
Đề tài "Phân tích và dự đoán độ ẩm tương đỗi từ các thông số thời tiết"có những đóng góp cụ thể như sau:
Trang 10
Đề xuất mô hình dự đoán độ ẩm tương đối chính xác hơn: Nghiên cứu này đề xuất các mô hình học máy
tiên tiến như Random Forest, XGBoost, và mạng nơ-ron nhân tạo (ANN) Các mô hình này có khả năng xử
lý tốt các mỗi quan hệ phi tuyến giữa các yếu tổ thời tiết và dự báo chính xác hơn so với các phương pháp thống kê truyền thống
Ứng dụng học máy vào phân tích thời tiết: Đề tài áp dụng các kỹ thuật học máy vào phân tích dữ liệu thời tiết, giúp nâng cao chất lượng dự báo trong tương lai, đặc biệt trong bỗi cảnh biến đổi khí hậu và hiện tượng
thời tiết cực đoan ngày càng gia tăng
Cãi thiện quá trình thu thập và xử lý dữ liệu: Đề tài cung cấp phương pháp hiệu quả trong việc thu thập
và xử lý đữ liệu thời tiết từ nhiều nguồn khác nhau như trạm quan trắc, vệ tỉnh và API thời tiết, đảm bảo chất lượng và tính đồng bộ của dữ liệu đầu vào
Góp phần phát triển các hệ thông dự báo thời tiết: Kết quả nghiên cứu có thể được áp dụng vào các hệ
thống dự báo thời tiết thực tế, giúp nâng cao độ chính xác trong dự báo độ ẩm tương đối, đặc biệt trong các
lĩnh vực như nông nghiệp, y tế, quản lý tài nguyên nước và cảnh báo thiên tai
Đóng góp tài liệu cho cộng đồng nghiên cứu khoa học dữ liện: Nghiên cứu này cung cấp một tài liệu tham
khảo hữu ích cho cộng đồng nghiên cứu về khoa học dữ liệu, đặc biệt là trong lĩnh vực dự báo thời tiết và
học máy Các phương pháp và kết quả của đề tài có thể được sử dụng cho các nghiên cứu liên quan trong
Việc phân tích và dự đoán độ ẩm tương đổi không chỉ đóng vai trò quan trọng trong các ứng dụng thực tế mà còn
là một thách thức khoa học, đặc biệt khi các phương pháp truyền thống gặp khó khăn trong việc xử lý mỗi quan hệ
phi tuyến giữa các thông số thời tiết Trong bối cảnh đó, các mô hình học máy đã nổi lên như một giải pháp tiềm năng, giúp nâng cao độ chính xác của các dự báo
Chương này đã nêu rõ mục tiêu của đề tài là đề xuất và xây dựng các mô hình dự đoán độ ẩm tương đối từ các thông số thời tiết, đồng thời đề ra các hướng giải quyết để vượt qua những thách thức hiện tại trong lĩnh vực này Các chương tiếp theo sẽ tập trung vào phân tích chỉ tiết từng yếu tổ và mô hình hóa quá trình dự báo, nhằm đạt được kết quả chính xác và hiệu quả hơn
Trang 11
CHƯƠNG 2 BÁO CÁO TIẾN ĐỘ TUNG TUAN Topic 1-12
float amsmath listings xcolor
language=Python, basicstyle=, keywordstyle=, commentstyle=, stringstyle=, showstringspaces=false, frame=single, breaklines=true,
2.1 Tổng quan quá trình làm dự án trong 12 tuần
Nội dung thực tập trong 3 tháng
Tiến độ thực hiện thực tập thể hiện trong bảng dưới đây:
1 | Hadoop 10 Trinh bay va cai dat
4| Project 3 Dé xuat dé tai
1 Lý do: Độ ẩm tương đối là một trong những yếu tổ quan trọng ảnh hưởng trực tiếp đến thời tiết và khí hậu,
tác động mạnh mẽ đến các lĩnh vực như nông nghiệp, y tế, công nghiệp và đời sống hàng ngày Việc dự đoán chính xác độ ẩm tương đối giúp đưa ra các quyết định quan trọng trong sản xuất nông nghiệp, dự báo
thời tiết, quản lý nguồn nước và phòng chỗng các vấn đề liên quan đến sức khỏe cộng đồng.Tuy nhiên, các
phương pháp dự đoán truyền thống như hồi quy tuyến tính hoặc mô hình thống kê thường gặp khó khăn trong việc xử lý các mỗi quan hệ phức tạp và phi tuyến giữa các yếu tổ thời tiết Trong bối cảnh đó, việc áp dụng
Trang 12Công nghệ thực biện lấy dữ liệu trên trang visual crossing https://www.visualcrossing.com/weather-data
Website thuộc kiểu website động
1 Kĩ thuật để thu thập dữ liệu:
Tìm được một số API như Open Weather API, Visual Crossing API, Underground Weather API.Kết quả cuối
cùng chọn Visual Crossing API vì không tốn phí và đữ liệu cung cấp khá chỉ tiết.API này cung cấp dữ liệu thời tiết trong quá khứ tại I thời điểm giữa hai khoảng thời gian
Téng quan vé Visual crossing Weather API:
¢ API cung cap dữ liệu thời tiết gồm nhiệt độ, độ ẩm, áp suất, trong quá khứ giữa 2 khoảng thời gian
cho trước tại một địa điểm xác định và có thể có thêm thông tin dự báo thời tiết (nhưng ta sẽ không lấy thông tin này)
5 Cần tạo một tài khoản để được cung cấp API key
¢ Méi API key miễn phí bị giới hạn chỉ được thu thập tối đa 1000 kết quả trả về trong một ngày
2 Những trường dữ liệu
+ Nhiệt độ téi da (Maximum Temperature)
* Nhiét d6 téi thiéu (Minimum Temperature)
¢ Do 4m trung binh (Average Humidity)
¢ Ap suat khi quyén trung binh (Average Atmospheric Pressure)
¢ Nhiét d6 trung bình (Average Temperature)
¢ Diém suong trung binh (Average Dew Point)
s Áp suất trung binh (Mean Pressure)
* Dé am t6i da (Maximum Humidity)
* Dé am t6i thiéu (Minimum Humidity)
* Diém suong t6i da (Maximum Dew Point)
* Diém suong téi thiéu (Minimum Dew Point)
Ap suat t6i da (Maximum Pressure) Ap suất tối thiéu (Minimum Pressure)
Trang 13
« Sự kết tủa (Precipitation)
3 Phần trăm làm việc tuần này
« Phạm Hữu Quốc Anh - 50%
in feclatne dew tmenidity precy pretiopreb precipeoves preciptype snow mwwdegth windwet whdipeed winddl pr
Hình 2.2: Trích xuất trên Visual Crossing
Dữ liệu thu về ban đầu có dạng :
Kết quả CSV
Name, datetime temp, feelslike, dew, humidity, precip, precipprob, preciptype, snow, snowdepth, windgust ,windspeed ,winddir, sealevelpressure, cloudcover
"London, England, United Kingdom", 2023-05-02100:00:00,54.9,54.9,45.6,70.72,0,0,rain,0,@,8.3,5.1,320,1022,0,6.2,0, ,0,10,Clear,clear-night, "—EGH
“London, England, United Kingdom”, 2023-05-02T@1:00:00,53.1,53.1,45.9,76.46,0,0, ,0,0,5.6,4.9, 366, 1022,25.8,6.2,@,,0,10,Partially cloudy, partly
“London, England, United Kingdom", 2023-05-02T02:00:00,51.7,51.7,46.7,82.93,0,0,,0,0,6,4.9,307,1022.8,24.8,6.2,0,,0,10,Partially cloudy, partly
“London, England, United Kingdom", 2023-@5-02103:00:00,51,51,47.1,86.37,0,0 7,5.2,10,1025,88,6.2,0,,0,10,Partially cloudy, partly-cloudy
"London, England, United Kingdom" , 2023-@5-02T10:00:@0,52.1,52.1,47,82.78,6,@, ,0,0,16.3,9.9,90,1926.6,97.5,6.2,97,0.3,1,10 Overcast, cloudy, "EG
Hình 2.3: Dữ liệu thu thập Tuần Topic 2 (13/09-20/09)
Chủ đề tìm hiểu tuần 2: Thu thập và tiền xử lý dữ liệu
Ham collect data có chức năng thu thập dữ liệu thời tiết từ một API trong một khoảng thời gian nhất định
Trang 14
(api_url):
weather_data
success Eee te print( api_url}")
r = requests.get(api_url)
“ pydata = json
Ham create api url: dùng để tạo URL API cho việc truy xuất đữ liệu thời tiết
Ham collect all data: thu thập đữ liệu thời tiết từ một API cho một khoảng thời gian cụ thể và trả về dữ liệu đã thu thập
‘location, start_date, end get
Cae mee cd end_date, location, api |
Trang 15
Phần trăm làm việc tuần này
* Phạm Hữu Quốc Anh - 30%
Number of data loaded from CSV: 732
5 Sau khi đọc xong, số lượng dong dif liéu đã được tải vào được in ra bằng lệnh len (a11_ weather_ data)
Kết quả là 732 dòng đữ liệu
Trang 16
missing percentage - all weather data
: all weather data
¢ Kiém tra số lượng giá trị không bị thiéu (non-null counts) trong mỗi cột của dữ liệu
* Tinh toán tỷ lệ phần trăm giá trị bị thiếu (missing percentage) bằng phương pháp isnull () mean() dé
xác định các cột có dữ liệu bị thiếu
5 Tạo một DataFrame tóm tắt bao gồm tên cột, số giá trị không bị thiếu, và phần trăm đữ liệu bị thiếu
5 In ra danh sách các cột có tỷ lệ đữ liệu thiểu lớn hơn 20%, và các cột có ít hơn 50 giá trị không bị thiếu
Trang 17
Columns with less than 5@ non-null values:
Series([], dtype: int64)
¢ Hién thi két quả của DataFrame tóm tắt, bao gồm tên cột, số lượng giá trị không bị thiếu, và tỷ lệ phần trăm
dữ liệu bị thiếu trong mỗi cột
« Kết quả cho thấy chỉ có cột Preciptype có 25.68% giá trị bị thiếu, trong khi các cột khác không có đữ liệu bị thiếu
« Không có cột nào có ít hơn 50 giá trị không bị thiếu