1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áo cáo dự án nhập môn khoa học dữ liệu Đề tài “ phân tích và dự Đoán Độ ẩm tương Đối từ các thông số thời tiết

35 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích và dự đoán độ ẩm tương đối từ các thông số thời tiết
Tác giả Nguyễn Văn A, Nguyễn Văn A2, Nguyễn Văn A3, Nguyễn Văn A4, Nguyễn Văn A5, Nguyễn Văn A6
Người hướng dẫn TS. Nguyễn Văn B
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học dữ liệu
Thể loại Báo cáo dự án
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 35
Dung lượng 5,23 MB

Nội dung

GIỚI THIỆU ĐỀ TÀI Chương I giới thiệu về đề tài "Phân tích và dự đoán độ ẩm tương đối từ các thông số thời tiết" 1.1 Tổng quan để tài Khảo sát hiện trạng Độ ẩm tương đổi Relative Humidit

Trang 1

BỘ THONG TIN VA TRUYEN THONG

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

NHẬP MÔN KHOA HỌC DỮ LIỆU

Dé tai: “ PHAN TICH VA DU DOAN DO AM TUONG DOI

TU CAC THONG SO THOI TIET ”

Trang 2

BỘ THONG TIN VA TRUYEN THONG

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

es

eae

NHAP MON KHOA HOC DU LIEU

Dé tai: “ PHAN TICH VA DU DOAN DO AM TUONG DOI

TU CAC THONG SO THOI TIET ”

Nguyễn Văn A2 : D2ICQCNI23 Nguyễn Văn A3 : D2ICQCNI23 Nguyễn Văn A4 : D2ICQCNI23 Nguyễn Văn A5 : D2ICQCNI23 Nguyễn Văn A6 : D2ICQCNI23

Trang 3

LỜI CẢM ƠN

Lời cảm ơn của sinh viên (SV) tới người yêu, gia đình, bạn bè, thầy cô, và chính bản thân mình vì đã chăm chỉ và

quyết tâm thực hiện ĐATN để đạt kết quả tốt nhất, nên viết phần cảm ơn ngắn gọn, tránh dùng các từ sáo rỗng, giới han trong khoang 100-150 tw

Đại diện nhóm

Nguyễn Văn A

Trang 4

2.1 Tổng quan quá trình làm dự án trong 12 tuần 2202200002002 011 11111 n1 n1 xnxx 3

Trang 5

DANH MỤC THUẬT NGỮ VÀ TỪ VIET TAT

Thuật ngữ Ý nghĩa

API: Application Programming Interface | Giao diện lập trình ứng dụng

11

Trang 6

DANH MUC HINH VE

Tién dé thuc hiénthuct4p 2 Q Q Q Q2 3 Trích xuất trén Visual Crossing 2 2 TQ TQ v2 5

Loại bỏ cột preciptype,in ra thông tin các cột sau khiloạ bỏ 10 Cột dữ liệu trước và sau khixÓa Q Q Q HQ Q HH HH ki k kg 10

Trang 7

DANH MỤC BẢNG BIỂU

Trang 8

PHAN MO DAU

Mục tiêu và định hướng cá nhân về quá trình thực tập cơ sở: Mục tiêu bản thân trong quá trình thực tập cơ sở

là củng cỗ kiến thức cơ sở cho sinh viên trước khi vào phần chuyên ngành tạo tiền đề cho các sinh viên trong kỳ thực tập năm tiếp theo Nêu ra mục tiêu cá nhân và định hướng của bản thân trong tương lai? Lý do lựa chọn nếu

Trình bày phân các giải pháp hiện tại và hạn chế: Trong thực tế, sự phát triển kinh tế xã hội nhanh chóng, bùng

nổ lượng phương tiện giao thông trong khi cơ sở hạ tầng chưa kịp đáp ứng dẫn đến tình trạng thiếu hụt bãi đỗ xe, ác tắc, mất thời gian khi gửi, lấy xe Tại Học viện cũng đã từng xảy ra tình trạng ắc tách khi gửi xe dẫn đến mắt thẩm quan khuôn viên nhà trường, ảnh hưởng đến giờ học của sinh viên Trực tiếp bản thân em cũng đã trải qua những lần xếp hàng đợi gửi xe rất lâu dẫn đến sự không hài lòng, ảnh hưởng đến công việc khác Vì vậy nhu cầu đặt ra là cần có hệ thống thông minh hỗ trợ tự động hóa các bãi đỗ xe

Trình bày phân mục tiêu và hướng giải pháp: Nhận dạng biển số xe là một phần tiện ích giúp tự động hóa các bãi

đỗ xe Nó không chỉ giúp những người quản lý có khả năng bao quát được khách hàng, tình trạng bãi đỗ xe mà còn tiết kiệm thời gian cũng như nguồn nhân lực

Trình bày phân đóng góp của Đô án và bô cục của Đô án: Hướng tới nhu cầu đó, đề tài đồ án tốt nghiệp có tên

“Ủng dụng nhận dạng ký tự quang cho bài toán nhận điện biển sô xe”

Nội dung trình bày trong báo cáo gồm 3 chương chính:

5 Chương 1: Báo cáo tiễn độ từng tuần trong quá trình training

« Chương 2: Đề xuất và báo cáo đề tài Thực tập cơ sở bao gồm 3 nội dung:

— Giới thiệu chung Trình bày tổng quan về đề tài, xác định được mục tiêu, đối tượng, phương hướng giải quyết và giới thiệu những kiến thức công nghệ liên quan

— Cơ sở lý thuyết Tìm hiểu cơ sở lý thuyết và phân tích đặc điểm về biển số xe ô tô tại Việt Nam, mạng

nơ ron tích chập InceptionResNetV2, nhận dạng ký tự quang OCR Từ đó lựa chọn các thư viện, công

cụ tiến hành xây dựng chương trình

— Xây dựng chương trình Trình bày sơ đồ hệ thống, chỉ tiết các bước thực hiện xây dựng chương trình Tiến hành đóng gói và tích hợp vào website đemo Sau đó triển khai thực nghiệm và đánh giá kết quả

« Chương 3: Kết luận quá trình Thực tập bao gồm Bài học và kết quả đạt được từ đó rút ra những điều cần cải

thiện trong tương lai

vi

Trang 9

CHƯƠNG I GIỚI THIỆU ĐỀ TÀI

Chương I giới thiệu về đề tài "Phân tích và dự đoán độ ẩm tương đối từ các thông số thời tiết"

1.1 Tổng quan để tài

Khảo sát hiện trạng

Độ ẩm tương đổi (Relative Humidity - RH) là một trong những thông số thời tiết quan trọng, đo lường lượng hơi nước trong không khí so với mức tối đa mà không khí có thể giữ ở một nhiệt độ nhất định Độ ẩm ảnh hưởng trực

tiếp đến cảm giác của con người về thời tiết, năng suất nông nghiệp, sức khỏe, và chất lượng không khí

Với sự phát triển của các mô hình dự báo thời tiết, việc phân tích và dự đoán độ ẩm tương đối từ các thông số khí tượng khác như nhiệt độ, áp suất, lượng mưa, tốc độ gió đã trở thành một nhiệm vụ quan trọng trong nhiều ứng

dụng, từ nông nghiệp thông minh đến các dịch vụ thời tiết đô thị

Các giải pháp biện tại và hạn chế

Hiện nay, các phương pháp phân tích và dự đoán độ ẩm tương đổi chủ yếu dựa vào hai hướng chính: các mô hình

thống kê truyền thống và các phương pháp học máy Các mô hình thống kê như hỗi quy tuyến tính, phân tích chuỗi thời gian đã được sử dụng rộng rãi, nhưng thường không thể xử lý được mỗi quan hệ phi tuyến và tương tác phức tạp giữa các thông số thời tiết

Trong khi đó, các giải pháp học máy, bao gồm các mô hình như Random Forest, XGBoosi, và mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) đã và đang phát triển mạnh mẽ nhờ vào khả năng xử lý dữ liệu lớn và phát hiện các mẫu tiềm ẩn trong đữ liệu Tuy nhiên, các mô hình này yêu cầu đữ liệu lớn và chất lượng cao, đồng thời

việc giải thích các kết quả đầu ra của mô hình học máy vẫn còn là một thách thức lớn

Xu hướng hiện nay là sử dụng kết hợp giữa các mô hình truyền thống và học máy để tận dụng ưu điểm của cả hai phương pháp Tuy nhiên, việc cải thiện hiệu quả dự báo và giảm thiểu sai số trong điều kiện khí hậu biến động vẫn còn nhiều hạn chế và cần nghiên cứu thêm

1.2 Mục tiêu và định hướng giải pháp

Trong chương này, mục tiêu của nghiên cứu là xây dựng một mô hình dự đoán độ ẩm tương đối với độ chính xác cao, dựa trên các thông số thời tiết như nhiệt độ, áp suất khí quyển, lượng mưa, và tốc độ gió

Để đạt được mục tiêu này, nghiên cứu đề xuất áp dụng các phương pháp học máy tiên tiến như Random Forest, XGBoost, và mạng nơ-ron sâu (Deep Neural Networks) Mỗi phương pháp sẽ được thử nghiệm và đánh giá dựa

trên các bộ đữ liệu thời tiết thu thập được, nhằm xác định phương pháp tối ưu nhất cho việc dự đoán độ ẩm tương đối

Ngoài ra, nghiên cứu cũng sẽ xem xét việc kết hợp giữa các mô hình truyền thống và các phương pháp học máy

nhằm tận dụng ưu điểm của cả hai hướng tiếp cận Các giải pháp sẽ được kiểm chứng dựa trên các tiêu chí như độ chính xác, khả năng mở rộng và khả năng giải thích được kết quả đầu ra, nhằm tối ưu hóa hệ thống dự đoán độ ẩm.I.I

1.3 Đóng góp của đề tài

Đề tài "Phân tích và dự đoán độ ẩm tương đỗi từ các thông số thời tiết"có những đóng góp cụ thể như sau:

Trang 10

Đề xuất mô hình dự đoán độ ẩm tương đối chính xác hơn: Nghiên cứu này đề xuất các mô hình học máy

tiên tiến như Random Forest, XGBoost, và mạng nơ-ron nhân tạo (ANN) Các mô hình này có khả năng xử

lý tốt các mỗi quan hệ phi tuyến giữa các yếu tổ thời tiết và dự báo chính xác hơn so với các phương pháp thống kê truyền thống

Ứng dụng học máy vào phân tích thời tiết: Đề tài áp dụng các kỹ thuật học máy vào phân tích dữ liệu thời tiết, giúp nâng cao chất lượng dự báo trong tương lai, đặc biệt trong bỗi cảnh biến đổi khí hậu và hiện tượng

thời tiết cực đoan ngày càng gia tăng

Cãi thiện quá trình thu thập và xử lý dữ liệu: Đề tài cung cấp phương pháp hiệu quả trong việc thu thập

và xử lý đữ liệu thời tiết từ nhiều nguồn khác nhau như trạm quan trắc, vệ tỉnh và API thời tiết, đảm bảo chất lượng và tính đồng bộ của dữ liệu đầu vào

Góp phần phát triển các hệ thông dự báo thời tiết: Kết quả nghiên cứu có thể được áp dụng vào các hệ

thống dự báo thời tiết thực tế, giúp nâng cao độ chính xác trong dự báo độ ẩm tương đối, đặc biệt trong các

lĩnh vực như nông nghiệp, y tế, quản lý tài nguyên nước và cảnh báo thiên tai

Đóng góp tài liệu cho cộng đồng nghiên cứu khoa học dữ liện: Nghiên cứu này cung cấp một tài liệu tham

khảo hữu ích cho cộng đồng nghiên cứu về khoa học dữ liệu, đặc biệt là trong lĩnh vực dự báo thời tiết và

học máy Các phương pháp và kết quả của đề tài có thể được sử dụng cho các nghiên cứu liên quan trong

Việc phân tích và dự đoán độ ẩm tương đổi không chỉ đóng vai trò quan trọng trong các ứng dụng thực tế mà còn

là một thách thức khoa học, đặc biệt khi các phương pháp truyền thống gặp khó khăn trong việc xử lý mỗi quan hệ

phi tuyến giữa các thông số thời tiết Trong bối cảnh đó, các mô hình học máy đã nổi lên như một giải pháp tiềm năng, giúp nâng cao độ chính xác của các dự báo

Chương này đã nêu rõ mục tiêu của đề tài là đề xuất và xây dựng các mô hình dự đoán độ ẩm tương đối từ các thông số thời tiết, đồng thời đề ra các hướng giải quyết để vượt qua những thách thức hiện tại trong lĩnh vực này Các chương tiếp theo sẽ tập trung vào phân tích chỉ tiết từng yếu tổ và mô hình hóa quá trình dự báo, nhằm đạt được kết quả chính xác và hiệu quả hơn

Trang 11

CHƯƠNG 2 BÁO CÁO TIẾN ĐỘ TUNG TUAN Topic 1-12

float amsmath listings xcolor

language=Python, basicstyle=, keywordstyle=, commentstyle=, stringstyle=, showstringspaces=false, frame=single, breaklines=true,

2.1 Tổng quan quá trình làm dự án trong 12 tuần

Nội dung thực tập trong 3 tháng

Tiến độ thực hiện thực tập thể hiện trong bảng dưới đây:

1 | Hadoop 10 Trinh bay va cai dat

4| Project 3 Dé xuat dé tai

1 Lý do: Độ ẩm tương đối là một trong những yếu tổ quan trọng ảnh hưởng trực tiếp đến thời tiết và khí hậu,

tác động mạnh mẽ đến các lĩnh vực như nông nghiệp, y tế, công nghiệp và đời sống hàng ngày Việc dự đoán chính xác độ ẩm tương đối giúp đưa ra các quyết định quan trọng trong sản xuất nông nghiệp, dự báo

thời tiết, quản lý nguồn nước và phòng chỗng các vấn đề liên quan đến sức khỏe cộng đồng.Tuy nhiên, các

phương pháp dự đoán truyền thống như hồi quy tuyến tính hoặc mô hình thống kê thường gặp khó khăn trong việc xử lý các mỗi quan hệ phức tạp và phi tuyến giữa các yếu tổ thời tiết Trong bối cảnh đó, việc áp dụng

Trang 12

Công nghệ thực biện lấy dữ liệu trên trang visual crossing https://www.visualcrossing.com/weather-data

Website thuộc kiểu website động

1 Kĩ thuật để thu thập dữ liệu:

Tìm được một số API như Open Weather API, Visual Crossing API, Underground Weather API.Kết quả cuối

cùng chọn Visual Crossing API vì không tốn phí và đữ liệu cung cấp khá chỉ tiết.API này cung cấp dữ liệu thời tiết trong quá khứ tại I thời điểm giữa hai khoảng thời gian

Téng quan vé Visual crossing Weather API:

¢ API cung cap dữ liệu thời tiết gồm nhiệt độ, độ ẩm, áp suất, trong quá khứ giữa 2 khoảng thời gian

cho trước tại một địa điểm xác định và có thể có thêm thông tin dự báo thời tiết (nhưng ta sẽ không lấy thông tin này)

5 Cần tạo một tài khoản để được cung cấp API key

¢ Méi API key miễn phí bị giới hạn chỉ được thu thập tối đa 1000 kết quả trả về trong một ngày

2 Những trường dữ liệu

+ Nhiệt độ téi da (Maximum Temperature)

* Nhiét d6 téi thiéu (Minimum Temperature)

¢ Do 4m trung binh (Average Humidity)

¢ Ap suat khi quyén trung binh (Average Atmospheric Pressure)

¢ Nhiét d6 trung bình (Average Temperature)

¢ Diém suong trung binh (Average Dew Point)

s Áp suất trung binh (Mean Pressure)

* Dé am t6i da (Maximum Humidity)

* Dé am t6i thiéu (Minimum Humidity)

* Diém suong t6i da (Maximum Dew Point)

* Diém suong téi thiéu (Minimum Dew Point)

Ap suat t6i da (Maximum Pressure) Ap suất tối thiéu (Minimum Pressure)

Trang 13

« Sự kết tủa (Precipitation)

3 Phần trăm làm việc tuần này

« Phạm Hữu Quốc Anh - 50%

in feclatne dew tmenidity precy pretiopreb precipeoves preciptype snow mwwdegth windwet whdipeed winddl pr

Hình 2.2: Trích xuất trên Visual Crossing

Dữ liệu thu về ban đầu có dạng :

Kết quả CSV

Name, datetime temp, feelslike, dew, humidity, precip, precipprob, preciptype, snow, snowdepth, windgust ,windspeed ,winddir, sealevelpressure, cloudcover

"London, England, United Kingdom", 2023-05-02100:00:00,54.9,54.9,45.6,70.72,0,0,rain,0,@,8.3,5.1,320,1022,0,6.2,0, ,0,10,Clear,clear-night, "—EGH

“London, England, United Kingdom”, 2023-05-02T@1:00:00,53.1,53.1,45.9,76.46,0,0, ,0,0,5.6,4.9, 366, 1022,25.8,6.2,@,,0,10,Partially cloudy, partly

“London, England, United Kingdom", 2023-05-02T02:00:00,51.7,51.7,46.7,82.93,0,0,,0,0,6,4.9,307,1022.8,24.8,6.2,0,,0,10,Partially cloudy, partly

“London, England, United Kingdom", 2023-@5-02103:00:00,51,51,47.1,86.37,0,0 7,5.2,10,1025,88,6.2,0,,0,10,Partially cloudy, partly-cloudy

"London, England, United Kingdom" , 2023-@5-02T10:00:@0,52.1,52.1,47,82.78,6,@, ,0,0,16.3,9.9,90,1926.6,97.5,6.2,97,0.3,1,10 Overcast, cloudy, "EG

Hình 2.3: Dữ liệu thu thập Tuần Topic 2 (13/09-20/09)

Chủ đề tìm hiểu tuần 2: Thu thập và tiền xử lý dữ liệu

Ham collect data có chức năng thu thập dữ liệu thời tiết từ một API trong một khoảng thời gian nhất định

Trang 14

(api_url):

weather_data

success Eee te print( api_url}")

r = requests.get(api_url)

“ pydata = json

Ham create api url: dùng để tạo URL API cho việc truy xuất đữ liệu thời tiết

Ham collect all data: thu thập đữ liệu thời tiết từ một API cho một khoảng thời gian cụ thể và trả về dữ liệu đã thu thập

‘location, start_date, end get

Cae mee cd end_date, location, api |

Trang 15

Phần trăm làm việc tuần này

* Phạm Hữu Quốc Anh - 30%

Number of data loaded from CSV: 732

5 Sau khi đọc xong, số lượng dong dif liéu đã được tải vào được in ra bằng lệnh len (a11_ weather_ data)

Kết quả là 732 dòng đữ liệu

Trang 16

missing percentage - all weather data

: all weather data

¢ Kiém tra số lượng giá trị không bị thiéu (non-null counts) trong mỗi cột của dữ liệu

* Tinh toán tỷ lệ phần trăm giá trị bị thiếu (missing percentage) bằng phương pháp isnull () mean() dé

xác định các cột có dữ liệu bị thiếu

5 Tạo một DataFrame tóm tắt bao gồm tên cột, số giá trị không bị thiếu, và phần trăm đữ liệu bị thiếu

5 In ra danh sách các cột có tỷ lệ đữ liệu thiểu lớn hơn 20%, và các cột có ít hơn 50 giá trị không bị thiếu

Trang 17

Columns with less than 5@ non-null values:

Series([], dtype: int64)

¢ Hién thi két quả của DataFrame tóm tắt, bao gồm tên cột, số lượng giá trị không bị thiếu, và tỷ lệ phần trăm

dữ liệu bị thiếu trong mỗi cột

« Kết quả cho thấy chỉ có cột Preciptype có 25.68% giá trị bị thiếu, trong khi các cột khác không có đữ liệu bị thiếu

« Không có cột nào có ít hơn 50 giá trị không bị thiếu

Ngày đăng: 16/02/2025, 15:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] E. H. Hovy, “Automated điscourse ứeneration using discourse structure rela- tions,"Azfficial imtelligence, vol. 63, no. 1-2, pp. 341-385, 1993<Sách: Tên tác giả, tên sách, volume (nếu có), lần tái bản (nếu có), nhà xuất bản, năm xuất bản&gt Sách, tạp chí
Tiêu đề: Automated discourse generation using discourse structure relations
Tác giả: E. H. Hovy
Nhà XB: Artificial Intelligence
Năm: 1993
[3]N. T. Hải, Mạng máy tính và các hệ thông mở. Nhà xuất bản giáo dục, 1999. <Tập san Báo cáo Hội nghị Khoa học: Tên tác giả, tên báo cáo, tên hội nghị, ngày (nếu có), địa điểm hội nghị, năm xuất bản&gt Sách, tạp chí
Tiêu đề: Mạng máy tính và các hệ thông mở
Tác giả: N. T. Hải
Nhà XB: Nhà xuất bản giáo dục
Năm: 1999
[4] M. Poesio and B. Di Eugenio, “Discourse structure and anaphoric accessibil- ity,"in ESSLLI workshop on information structure, discourse structure and discourse semantics, Copenhagen, Denmark, 2001, pp. 129-143.<bài tập lớn , Luận văn Thạc sĩ, Tiến sĩ: Tên tác giả, tên bài tập lớn, loại bài tập lớn, tên trường, địa điểm, năm xuất bản&gt Sách, tạp chí
Tiêu đề: Discourse structure and anaphoric accessibility
Tác giả: M. Poesio, B. Di Eugenio
Nhà XB: ESSLLI workshop on information structure, discourse structure and discourse semantics
Năm: 2001
[5] A. Knott, “A data-driven methodology for motivating a set of coherence relations,"Ph.D. dissertation, The University of Edinburgh, UK, 1996.<Tài liệu tham khảo từ Internet: Tên tác giả (nếu có), tựa đề, cơ quan (nếu có), địa chỉ trang web, thời gian lần cuối truy cập trang web&gt Sách, tạp chí
Tiêu đề: A data-driven methodology for motivating a set of coherence relations
Tác giả: A. Knott
Nhà XB: The University of Edinburgh
Năm: 1996
[6] T. Berners-Lee, Hypertext transfer protocol (HTTP). [Online]. Available: ftp: /info.cern.ch/pub/ www/doc/http-spec.txt .Z (visited on 09/30/2010) Khác
[7] Princeton University, Wordnet. [Online]. Available: http://www. cogsci.princeton.edu/~wn/index. shtml (visited on 09/30/2010) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN