1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN TÍCH DỰ BÁO LƯU LƯỢNG XẢ HỒ THỦY ĐIỆN BẰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH

57 33 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dự Báo Lưu Lượng Xả Hồ Thủy Điện Bằng Mô Hình Hồi Quy Tuyến Tính
Tác giả Nguyễn Văn Đạt, Nguyễn Khắc Thắng, Nguyễn Việt Hùng
Người hướng dẫn TS. Nguyễn Mạnh Cường
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành Khoa Học Máy Tính
Thể loại Đồ Án Chuyên Ngành
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 57
Dung lượng 1,44 MB

Cấu trúc

  • CHƯƠNG 1. TÌM HIỂU BÀI TOÁN (10)
    • 1.1. Khái quát về lượng mưa, lượng xả về hồ thủy điện (10)
      • 1.1.1. Khái niệm dự báo kinh tế xã hội (11)
    • 1.2. Phân loại dự báo (12)
      • 1.2.1. Theo độ dài của thời gian dữ báo, dự báo (12)
    • 1.3. Tiêu chuẩn lựa chọn phương pháp dự báo (13)
    • 1.4. Tìm hiểu chung về bài toán (15)
      • 1.4.1. Phát biểu bài toán (15)
      • 1.4.2. Khó khăn và thách thức (16)
  • CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ (18)
    • 2.1. Phương hướng tiếp cận bài toán (18)
    • 2.2 Một số kỹ thuật giải quyết bài toán (18)
      • 2.2.1. Support Vector Machine (SVM) (19)
      • 2.2.2 Thuật toán di truyền (GA) (21)
      • 2.2.3 K-means Clustering (27)
      • 2.2.4. Mô hình hồi quy tuyến tính (29)
    • 2.3 Đề xuất giải pháp cho bài toán (36)
      • 2.3.1 Đề xuất và áp dụng mô hình hồi quy tuyến tính (36)
      • 2.3.2 Đề xuất thuật toán K-Means (37)
  • CHƯƠNG 3: THỰC NGHIỆM (7)
    • 3.1 Tổng quan về bộ dữ liệu (40)
      • 3.1.1 Thông tin bộ dữ liệu (40)
      • 3.1.2. Tiền xử lý dữ liệu (41)
    • 3.2 Thực nghiệm chương trình (44)
  • CHƯƠNG 4: XÂY DỰNG SẢN PHẨM DEMO (7)
    • 4.1 Giới thiệu bộ công nghệ được sử dụng (46)
    • 4.2 Giao diện hệ thống (47)
    • 4.2 Các chức năng của hệ thống (50)
      • 4.2.1. Xây dựng và Huấn luyện Mô hình (model.py) (50)
      • 4.2.2 Tải và Sử dụng Mô hình (run_model.py) (51)
      • 4.2.3. Giao Diện Người Dùng và Tương Tác (main.py) (52)
  • KẾT LUẬN (55)
  • TÀI LIỆU THAM KHẢO (56)

Nội dung

Hệ thống năng lượng tái tạo, đặc biệt là điện năng từ nguồn nước, đóng vai trò quan trọng trong việc đáp ứng nhu cầu năng lượng ngày càng tăng và giảm lượng khí thải gây hiệu ứng nhà kính. Hồ thủy điện, như một phương pháp lưu trữ năng lượng dễ dàng điều chỉnh, đã được sử dụng rộng rãi để cân bằng nguồn cung cấp và tiêu thụ năng lượng. Trong ngữ cảnh này, dự báo lưu lượng xả của hồ thủy điện trở thành một nhiệm vụ quan trọng để đảm bảo hoạt động hiệu quả của các nhà máy điện. Trong nghiên cứu này, chúng tôi tiếp cận vấn đề này thông qua phương pháp hồi quy tuyến tính, một công cụ mạnh mẽ trong việc dự báo và mô hình hóa mối quan hệ giữa các biến số. Chúng tôi tập trung vào việc phân tích mối quan hệ giữa các yếu tố khác nhau như mức độ mưa, độ dốc địa hình, diện tích lưu vực và nhiệt độ không khí với lưu lượng xả của hồ thủy điện. Nghiên cứu này đã đưa ra mô hình dự báo lưu lượng xả của hồ thủy điện có độ chính xác cao. Mô hình này cho thấy rằng các yếu tố tự nhiên và nhân tạo như mức độ mưa, độ dốc địa hình, diện tích lưu vực và nhiệt độ không khí đều có tác động đáng kể đến lưu lượng xả của hồ thủy điện.

TÌM HIỂU BÀI TOÁN

Khái quát về lượng mưa, lượng xả về hồ thủy điện

Lượng mưa và lượng xả vào hồ thủy điện là hai yếu tố then chốt trong quản lý năng lượng thủy điện Lượng mưa, tức là lượng nước mưa rơi xuống một khu vực trong một khoảng thời gian nhất định, quyết định nguồn nước cung cấp cho hồ Biến đổi theo mùa, vùng địa lý và biến đổi khí hậu, lượng mưa ảnh hưởng trực tiếp đến khả năng sản xuất năng lượng của hệ thống Do đó, việc thu thập dữ liệu về lượng mưa là rất quan trọng để dự đoán nguồn nước đầu vào và năng suất năng lượng của hồ thủy điện.

Lượng xả vào hồ thủy điện là lượng nước được thả ra thông qua cánh cửa xả nhằm duy trì mức nước an toàn và cung cấp đủ nước cho sản xuất điện Khi mưa nhiều, hồ có khả năng chứa nước cao, từ đó tăng cường sản xuất năng lượng Biến đổi khí hậu đang ảnh hưởng đến lượng mưa và mẫu lưu lượng xả, với sự thay đổi trong mô hình mưa, gia tăng các sự kiện thời tiết cực đoan và biến động nguồn nước từ tuyết tan, gây ra những tác động đáng kể đến lượng nước đầu vào cho hồ thủy điện.

Quản lý lượng mưa và xả nước vào hồ thủy điện cần hệ thống đo lường và dự báo chính xác Công nghệ và mô hình dự báo thời tiết đang ngày càng được cải thiện, giúp dự đoán lượng mưa và lưu lượng xả một cách hiệu quả hơn Dữ liệu này là rất quan trọng để ra quyết định về quản lý nguồn nước và tối ưu hóa sản xuất năng lượng của hồ thủy điện.

1.1.1 Khái niệm dự báo kinh tế xã hội

Dự báo kinh tế là quá trình dự đoán các chỉ số quan trọng của nền kinh tế, bao gồm GDP, lạm phát, tỷ lệ thất nghiệp và thâm hụt tài chính Dự báo này có thể được thực hiện ở mức tổng hợp cao hoặc chi tiết hơn, tập trung vào các lĩnh vực cụ thể trong nền kinh tế hoặc thậm chí là các công ty cá nhân.

Nhiều tổ chức tham gia vào việc dự báo kinh tế, bao gồm chính phủ quốc gia, ngân hàng trung ương, chuyên gia tư vấn và các tổ chức khu vực tư nhân như nhà tư tưởng và công ty Các tổ chức quốc tế như Quỹ Tiền tệ Quốc tế, Ngân hàng Thế giới và OECD cũng đóng góp vào quá trình này Một số dự báo được sản xuất hàng năm, trong khi nhiều dự báo khác được cập nhật thường xuyên hơn để phản ánh tình hình kinh tế hiện tại.

Các nhà kinh tế thường phân tích các rủi ro, tức là những sự kiện hoặc điều kiện có thể làm thay đổi kết quả so với ước tính ban đầu Những rủi ro này không chỉ giúp minh họa quá trình suy luận mà còn dẫn đến các con số dự báo cuối cùng Để truyền đạt dự báo của mình, các nhà kinh tế thường kết hợp bình luận với các công cụ trực quan hóa dữ liệu như bảng và biểu đồ Trong quá trình chuẩn bị dự báo kinh tế, họ sử dụng nhiều thông tin nhằm nâng cao độ chính xác của dự báo.

Dự báo kinh tế, dựa trên kinh tế vĩ mô, vi mô, dữ liệu thị trường tương lai, mạng lưới thần kinh nhân tạo và nghiên cứu hành vi con người, đóng vai trò quan trọng trong việc xác định chiến lược và ngân sách của chính phủ và doanh nghiệp Các nhà phân tích thị trường chứng khoán cũng dựa vào dự báo để ước tính giá trị công ty và cổ phiếu của họ.

Các nhà kinh tế xác định các biến quan trọng thông qua phân tích thống kê dữ liệu lịch sử để tìm hiểu mối quan hệ giữa các biến độc lập và biến phụ thuộc Ví dụ, họ nghiên cứu ảnh hưởng của mức độ thay đổi giá nhà đất đến giá trị ròng của dân số trong quá khứ, từ đó dự đoán tác động của những thay đổi giá nhà đất trong tương lai Dự báo thường dựa trên dữ liệu mẫu, dẫn đến sự không chắc chắn Để xác định mối quan hệ chính xác giữa các biến, các nhà kinh tế thực hiện kiểm tra thống kê và phát triển các mô hình thống kê, thường sử dụng phân tích hồi quy.

Dữ liệu lịch sử và các giả định về tương lai được áp dụng cho mô hình để đưa ra dự báo cho các biến cụ thể.

Phân loại dự báo

Trong nền kinh tế thị trường, các hiện tượng kinh tế - xã hội diễn ra không chỉ trong lĩnh vực sản xuất vật chất mà còn ảnh hưởng đến mọi khía cạnh của đời sống xã hội Để vận dụng hiệu quả các phương pháp dự báo xu hướng phát triển của những hiện tượng này trong tương lai, việc phân loại dự báo theo các tiêu chí khác nhau là rất cần thiết.

1.2.1 Theo độ dài của thời gian dữ báo, dự báo

Dự báo ngắn hạn là những dự báo có thời gian dưới 3 năm, thường được sử dụng để lập kế hoạch kinh tế, văn hóa và xã hội ở cả tầm vi mô và vĩ mô Loại dự báo này nhằm mục đích phục vụ cho công tác chỉ đạo kịp thời trong các lĩnh vực quan trọng.

Dự báo ngắn hạn có thời gian không quá 1 năm và được xây dựng dựa trên dữ liệu từ các khoảng thời gian ngắn hơn như tuần, tháng, quý Loại dự báo này chủ yếu phục vụ cho công tác chỉ đạo tác nghiệp, giúp phân biệt nhanh chóng các quá trình kinh tế và hỗ trợ quyết định của người sử dụng Việc thực hiện dự báo ngắn hạn thường xuyên tạo ra nguồn thông tin phong phú, là cơ sở để so sánh giữa kết quả dự báo và thực tế Sự so sánh liên tục giữa hai nguồn thông tin này giúp hoàn thiện phương pháp dự báo.

Dự báo trung hạn là những dự báo có thời gian từ 3 đến 5 năm, phục vụ cho việc xây dựng kế hoạch kinh tế, văn hóa và xã hội ở cả tầm vi mô và vĩ mô Đặc điểm nổi bật của loại dự báo này là thường sử dụng mô hình dự báo nhân quả nhiều hơn so với dự báo ngắn hạn, có tần suất dự báo ít hơn và so với dự báo dài hạn thì ít sử dụng mô hình nhân quả hơn, nhưng lại có số lần đưa ra kết quả dự báo nhiều hơn.

Tiêu chuẩn lựa chọn phương pháp dự báo

Để dự báo một hiện tượng nào đó trong tương lai, có 4 tiêu chuẩn[2,3] để lựa chọn phương pháp dự báo thích hợp Đó là:

Độ chính xác của dự báo được đánh giá thông qua các chỉ số thống kê, phản ánh mức độ chênh lệch giữa dự báo và số liệu thực tế Do dự báo được thực hiện trước khi có dữ liệu thực tế, nên việc đánh giá độ chính xác chỉ có thể thực hiện sau khi thời gian trôi qua Nếu dự báo gần gũi với số liệu thực tế, chúng ta có thể khẳng định rằng độ chính xác của dự báo cao và tỷ lệ lỗi trong dự báo sẽ thấp.

- Chi phí dự báo: bao gồm các chi phí soạn thảo phần mềm và chi phí để tính toán dữ liệu

Tính tổng hợp và khả dụng của phương pháp dự báo là tiêu chí quan trọng, không chỉ dựa trên chi phí Phương pháp có chi phí cao khiến người không chuyên khó kiểm định và sử dụng kết quả dự báo để ra quyết định Do đó, lựa chọn phương pháp đơn giản hơn, dù có độ chính xác thấp hơn, sẽ giúp giảm bớt mâu thuẫn cho những người ra quyết định khi đối diện với các phương pháp lượng hóa.

- Thời gian dự báo (tầm xa dự báo): không nên dài quá 1/3 dãy số dùng để dự báo Cơ sở dữ liệu để dự báo:

• Các số liệu hoặc các đánh giá của chuyên gia

Độ dài của dãy thời gian trong dự báo cần phải hợp lý và phù hợp với đặc điểm của dữ liệu Nếu dãy số thời gian có quá nhiều mức độ, mô hình dự báo sẽ không phản ánh đầy đủ sự thay đổi của các yếu tố mới Ngược lại, việc chỉ sử dụng một số ít mức độ ở cuối dãy số sẽ không thể hiện được quy luật biến động trong thời gian dài.

• Hình dạng của dãy số thời gian (xu thế, dao động thời vụ)

Ba tiêu chuẩn đầu tiên của phương pháp dự báo là độ chính xác, chi phí, và tính tổng hợp, đều có mối quan hệ phụ thuộc lẫn nhau Chi phí dự báo có xu hướng tăng lên khi áp dụng các phương pháp phức tạp hơn, trong khi độ chính xác cũng được cải thiện Tuy nhiên, khi chọn phương pháp dự báo, cần cân nhắc rằng chi phí bổ sung cho các phương pháp phức tạp chưa chắc đã mang lại độ chính xác cao hơn đáng kể Điều này phụ thuộc vào mức độ quan trọng của dự báo trong việc ra quyết định và trình độ của người sử dụng kết quả dự báo.

Khi tiêu chuẩn độ chính xác, chi phí, tính tổng hợp và tính khả dụng không quan trọng trong việc dự báo, thì thời gian dự báo và cơ sở dữ liệu sẽ quyết định phương pháp dự báo được lựa chọn.

Tìm hiểu chung về bài toán

Phân tích dự báo lưu lượng xả hồ thủy điện bằng mô hình hồi quy tuyến tính là một vấn đề quan trọng trong lĩnh vực thủy văn và quản lý tài nguyên nước Bài toán này nhằm dự đoán lưu lượng nước mà một đập thủy điện sẽ xả dựa trên các yếu tố thời tiết như lượng mưa và các biến số khác Đầu vào của mô hình bao gồm các dữ liệu liên quan đến thời tiết và điều kiện môi trường.

Lượng mưa (Precipitation) là chỉ số ghi lại lượng nước mưa tại một vị trí cụ thể, thường là trên lưu vực sông, trong khoảng thời gian xác định như ngày hay giờ Thông thường, lượng mưa được đo bằng đơn vị milimet (mm).

Dữ liệu lịch sử lưu lượng (Historical Flow Data) là thông tin về lưu lượng xả nước đã được ghi nhận trong quá khứ, bao gồm cả lưu lượng xả hàng ngày và hàng giờ tại các đập thủy điện cụ thể.

Ngoài lượng mưa, các biến số thời tiết khác như nhiệt độ, độ ẩm, áp suất không khí và gió cũng cần được xem xét để làm rõ mối tương quan giữa chúng và lưu lượng xả.

Các biến số đặc thù của đập thủy điện, bao gồm diện tích lưu vực, dung tích chứa nước và phương pháp quản lý đập, đóng vai trò quan trọng trong việc ảnh hưởng đến lưu lượng xả.

Lưu lượng xả là yếu tố quan trọng trong việc dự đoán hoặc ước tính lượng nước mà đập thủy điện sẽ xả trong tương lai Thông thường, lưu lượng này được thể hiện dưới dạng lưu lượng hàng ngày hoặc hàng giờ, và được đo bằng mét khối trên giây (m³/s).

Mục tiêu của bài toán là xây dựng mô hình dự báo lưu lượng xả dựa trên các yếu tố như thời tiết, lịch sử lưu lượng và các biến số đặc thù của đập Mô hình hồi quy tuyến tính được áp dụng để xác định mối quan hệ giữa các yếu tố đầu vào và lưu lượng xả, từ đó cho phép dự đoán lưu lượng xả trong tương lai dựa trên dữ liệu hiện tại và lịch sử.

1.4.2 Khó khăn và thách thức

Phân tích dự báo lưu lượng xả hồ thủy điện bằng mô hình hồi quy tuyến tính gặp nhiều khó khăn và thách thức cần được chú ý.

Lượng mưa có tính biến động tự nhiên cao, khiến việc dự đoán trở nên khó khăn và không chính xác Sự biến động này có thể làm ảnh hưởng đến độ tin cậy của các mô hình dự báo thời tiết.

Dữ liệu hạn chế có thể ảnh hưởng đến khả năng thu thập và lưu trữ thông tin về lưu lượng xả và lượng mưa Việc thiếu dữ liệu lịch sử và dữ liệu thời gian thực không đầy đủ có thể gây khó khăn trong việc xây dựng mô hình chính xác.

Dự báo thời tiết thường không chính xác, gây khó khăn trong việc dự đoán lượng mưa và lưu lượng xả Để khắc phục điều này, các nghiên cứu thủy văn áp dụng mô hình phức tạp như hồi quy phi tuyến tính và mô hình dự báo thời tiết Sự hợp tác giữa các chuyên gia thủy văn, thời tiết và kỹ thuật đập thủy điện là cần thiết để đảm bảo tính chính xác và độ tin cậy trong dự báo lưu lượng xả.

CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ

Phương hướng tiếp cận bài toán

Quá trình giải quyết bài toán bắt đầu bằng việc thu thập và tiền xử lý dữ liệu thực nghiệm liên quan đến mực nước, với trọng tâm là lượng xả và sự biến đổi lượng nước hàng ngày Điều này gây ra nhiều khó khăn trong việc kiểm soát mực nước lưu trữ tại hồ thủy điện Để khắc phục, cần nghiên cứu và áp dụng các kỹ thuật dự đoán lưu lượng xả hồ thủy, nhằm đảm bảo mực nước trong hồ luôn duy trì ở mức an toàn và lượng xả diễn ra đều đặn.

Một số kỹ thuật giải quyết bài toán

Phần lớn các kỹ thuật giải quyết bài toán dự đoán lượng xả thường sử dụng Machine Learning (Học Máy) Các kỹ thuật này có thể chia thành

3 phương pháp dựa trên tính khả dụng cho các nhãn là:

Predicting discharge using supervised learning techniques involves algorithms that utilize known data pairs, consisting of input data and labels These algorithms learn from these pairs to forecast outputs for previously unseen data Common algorithms in supervised learning include Linear Regression, Decision Trees, Random Forests, Neural Networks (Deep Learning), and Support Vector Machines (SVM).

Các phương pháp dự đoán lượng xả hồ thủy điện được áp dụng rộng rãi dựa trên dữ liệu thủy văn và thông tin liên quan Việc chọn lựa phương pháp cụ thể thường phụ thuộc vào tính chất dữ liệu và mục tiêu của từng bài toán.

Support Vector Machine (SVM) là một mô hình phân loại hiệu quả, xây dựng siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của dữ liệu để phân loại các lớp một cách tối ưu Thuật toán SVM sử dụng dữ liệu học có nhãn (học có giám sát) để tạo ra siêu phẳng tối ưu, từ đó phân loại dữ liệu mới Trong không gian 2 chiều, siêu phẳng này trở thành một đường thẳng, chia mặt phẳng thành hai phần tương ứng với hai lớp, mỗi lớp nằm ở một phía của đường thẳng.

Ta có các điểm dữ liệu như hình dưới đây với mỗi điểm thuộc 1 trong 2 lớp cho trước:

Hình 2 1 Ví dụ mô hình SVM (Nguồn: Hình ảnh được trích trong tài liệu tham khảo [7])

Một đường thẳng phân cách có thể được vẽ như sau:

Mô hình SVM (Support Vector Machine) được sử dụng để phân loại dữ liệu bằng cách tìm ra đường thẳng hoặc siêu phẳng tối ưu, nhằm tách biệt hai lớp dữ liệu trên mặt phẳng Trong ví dụ, các điểm dữ liệu bên trái đường thẳng thuộc về lớp hình tròn, trong khi các điểm bên phải thuộc về lớp hình vuông SVM có nhiệm vụ xác định đường phân cách sao cho việc phân loại dữ liệu đạt hiệu quả cao nhất Tuy nhiên, phương pháp này cũng có những ưu và nhược điểm trong bài toán phân lớp ảnh.

SVM là một công cụ tính toán hiệu quả trong không gian chiều cao, đặc biệt hữu ích cho các bài toán phân loại văn bản và phân tích quan điểm, nơi mà số chiều có thể rất lớn.

Tiết kiệm bộ nhớ là một lợi ích quan trọng, vì chỉ những điểm dữ liệu cần thiết được sử dụng trong quá trình huấn luyện và ra quyết định cho các điểm dữ liệu mới sẽ được lưu trữ Điều này giúp tối ưu hóa không gian lưu trữ và cải thiện hiệu suất xử lý.

Tính linh hoạt trong phân lớp thường không phải là tuyến tính Việc áp dụng Kernel mới mang lại khả năng linh động giữa các phương pháp tuyến tính và phi tuyến tính, từ đó nâng cao hiệu suất phân loại.

Khi số lượng thuộc tính (p) trong tập dữ liệu vượt quá đáng kể so với số lượng dữ liệu (n), hiệu suất của SVM thường không đạt yêu cầu.

SVM chỉ cố gắng tách các đối tượng thành hai lớp bằng siêu phẳng, nhưng chưa rõ ràng về xác suất xuất hiện của một thành viên trong nhóm Tuy nhiên, hiệu quả phân lớp có thể được đánh giá thông qua khái niệm margin từ điểm dữ liệu mới đến siêu phẳng phân lớp.

2.2.2 Thuật toán di truyền (GA)

Giải thuật di truyền (GA) là một kỹ thuật tối ưu hóa dựa trên quá trình tiến hóa tự nhiên của các quần thể sinh học theo học thuyết Darwin GA hoạt động như một phương pháp tìm kiếm ngẫu nhiên, mô phỏng sự tiến hóa của con người và sinh vật Tư tưởng chính của thuật toán di truyền là phản ánh các hiện tượng tự nhiên, bao gồm sự kế thừa và đấu tranh sinh tồn.

Giải thuật di truyền (GA) là một trong những phương pháp tối ưu hóa xuất sắc, nổi bật với sự kết hợp giữa tìm kiếm trực tiếp và ngẫu nhiên Điểm khác biệt quan trọng của GA so với các phương pháp tìm kiếm khác nằm ở cách thức kết hợp này, giúp nâng cao hiệu quả tìm kiếm và tối ưu hóa giải pháp.

GA duy trì và xử lý một tập các lời giải, gọi là một quần thể (population) Trong

GA, hay Thuật toán di truyền, bắt đầu bằng việc xác định một quần thể giả thuyết ban đầu Các cá thể trong quần thể này sẽ tạo ra thế hệ kế tiếp thông

Thuật toán di truyền (GA) là một phương pháp tối ưu hóa mạnh mẽ, hoạt động dựa trên các phép toán di truyền như lai ghép, đột biến và chọn lọc GA áp dụng các thao tác này lên một quần thể cá thể để tìm kiếm và tối ưu hóa các giải pháp hiệu quả.

- Khởi tạo quần thể ban đầu:

Bắt đầu quá trình bằng cách tạo ra một quần thể ban đầu với một số lượng cá thể nhất định Các cá thể này có thể được hình thành hoàn toàn ngẫu nhiên hoặc thông qua một phương pháp khởi tạo thông minh, dựa trên kiến thức về bài toán cụ thể.

Để đánh giá mức độ tốt của từng cá thể trong quần thể, chúng ta sử dụng hàm fitness Hàm này cần được thiết kế sao cho giá trị fitness cao hơn sẽ phản ánh mức độ tốt hơn của cá thể đó.

THỰC NGHIỆM

Tổng quan về bộ dữ liệu

3.1.1 Thông tin bộ dữ liệu

- Tên Dataset: Amount of hydroelectric water.csv

- Nguồn: Mục [6] tài liệu tham khảo

The "Amount of Hydroelectric Water" dataset from the University of California, Irvine (UCI) is a popular resource in data analysis It provides daily income information related to water levels, including fluctuations, inflow, and outflow rates at a hydroelectric reservoir Various factors influence this dataset, such as measurement date, upstream water level, downstream water level, inflow rate, and outflow rate.

Một số thông tin về bộ dữ liệu “Amount of hydroelectric water”

- Tổng số record: Bộ dữ liệu chứa khoảng 3677 record Mỗi dữ liệu dữ liệu tương đương với một ngày, tương đương bộ dữ liệu thu thập là

10 năm, đảm bảo độ dự đoán chính xác là khách quan nhất

- Minh họa bộ dữ liệu:

Dữ liệu bao gồm: measurement_data, upstream_water_level, downstream_level, inlow_rate, outflow_rate

Dưới đây là ví dụ về 27 dữ liệu đầu tiên:

Bộ dữ liệu thu thập từ hồ thủy điện cho thấy sự biến động lượng nước, tuy nhiên, có một số dữ liệu bị khuyết Để đảm bảo độ chính xác của mô hình, việc tiền xử lý dữ liệu là cần thiết trước khi tiến hành phân tích.

3.1.2 Tiền xử lý dữ liệu

To begin, import the necessary libraries: NumPy, Pandas, Matplotlib, and Scikit-learn for data manipulation and visualization Utilize the train_test_split function for splitting the dataset, and apply Linear Regression for predictive modeling StandardScaler should be used for feature scaling, while various metrics such as accuracy score, mean squared error, and classification report will help evaluate model performance Finally, read the data into a DataFrame and display the loaded data for analysis.

# đọc dữ liệu df = pd.read_csv('/content/dataset.csv')

# hiển thị dữ liệu print(df)

Cột “measurement_date” là cột ngày tháng không ảnh hưởng đến bộ dữ liệu, vì vậy chúng ta sẽ loại bỏ cột này và sau đó in ra các thông tin còn lại của bộ dữ liệu.

# Loại bỏ cột ngày tháng df = df.select_dtypes(include=['number'])

# hiển thị thông tin của bộ dữ liệu print(df.info())

Hình 3 2 Thông tin bộ dữ liệu ban đầu

Ta thấy dữ liệu của cột “downstream_water_level” có chứa dữ liệu null nên ta sẽ xử lý như sau:

# Loại bỏ dữ liệu null, sau đó hiển thị df = df.dropna() print(df.info())

Sau khi có một bộ dữ liệu chuẩn, ta tách nhãn “outflow_rate” ra khỏi bộ dữ liệu:

X = df.drop("outflow_rate", axis = 1) y = df['outflow_rate']

Ta chuẩn hóa dữ liệu trước khi huấn luyện mô hình:

Hình 3 3 Thông tin bộ dữ liệu sau khi loại bỏ

Hình 3 4 Dữ liệu sau khi chuẩn hóa

XÂY DỰNG SẢN PHẨM DEMO

Giới thiệu bộ công nghệ được sử dụng

Ngôn ngữ lập trình: Python

Python là ngôn ngữ lập trình đa mục đích nổi bật với cú pháp rõ ràng và đơn giản, lý tưởng cho phát triển nhanh cũng như xây dựng các dự án phức tạp Ngôn ngữ này hỗ trợ cả lập trình hướng thủ tục và lập trình hướng đối tượng, mang lại sự linh hoạt lớn trong thiết kế và triển khai giải pháp phần mềm.

Môi trường phát triển tích hợp (IDE): PyCharm

PyCharm là một IDE chuyên nghiệp dành cho Python, mang đến nhiều công cụ phát triển mạnh mẽ và tích hợp Lập trình viên có thể tận hưởng tính năng tự động hoàn thành mã, phân tích mã tĩnh, và hệ thống kiểm thử tích hợp Ngoài ra, PyCharm hỗ trợ quản lý yêu cầu thư viện và phát triển web, đồng thời tương thích tốt với các hệ thống kiểm soát phiên bản như Git, tạo ra một môi trường làm việc toàn diện cho các nhà phát triển.

- Tkinter: Thư viện giao diện người dùng đồ họa (GUI) tiêu chuẩn của

Python là ngôn ngữ lập trình lý tưởng để xây dựng và triển khai giao diện người dùng trực quan Tkinter cung cấp nhiều widget phong phú như nút bấm, hộp văn bản, nhãn và hình ảnh, giúp tạo ra giao diện người dùng đa dạng và thân thiện.

- TkinterDnD2: Một thư viện mở rộng cho Tkinter, cho phép kéo và thả trong ứng dụng GUI, làm tăng khả năng tương tác của người dùng

Pickle là một module có sẵn trong Python, cho phép tuần tự hóa các cấu trúc dữ liệu để lưu trữ hoặc truyền tải Nhờ vào Pickle, việc lưu trữ đối tượng và trạng thái của chương trình trở nên dễ dàng hơn.

Pandas là một thư viện mạnh mẽ trong Python, chuyên dùng để quản lý và phân tích dữ liệu Thư viện này cung cấp các cấu trúc dữ liệu như DataFrame và Series, cùng với nhiều công cụ hữu ích cho việc thao tác và trực quan hóa dữ liệu một cách hiệu quả.

Scikit-learn (Sklearn) là một thư viện học máy mạnh mẽ cho Python, mang đến các công cụ đơn giản và hiệu quả cho phân tích dữ liệu và xây dựng mô hình học máy Thư viện này hỗ trợ đa dạng các thuật toán như phân loại, hồi quy, phân cụm và giảm chiều, giúp người dùng dễ dàng áp dụng vào các bài toán khác nhau trong lĩnh vực học máy.

Giao diện hệ thống

Giao diện được thiết kế với tông màu sáng và thao tác đơn giản, dễ sử dụng Hiện tại, hệ thống chỉ hỗ trợ ngôn ngữ Tiếng Anh do tính phổ biến của ngôn ngữ này.

Chi tiết giao diện được trình bày qua các hình bên dưới

Hình 4 2 Giao diện khi chạy chương trình

Hình 4 3 Giao diện sau khi kéo file dữ liệu vào

Hình 4 4 Giao diện khi khởi tạo xong model

Hình 4 5 Giao diện khi dự đoán

Các chức năng của hệ thống

Hệ thống có chức năng chính là dự đoán lưu lượng xả của hồ thủy điện thông qua dữ liệu được người dùng traning cho hệ thống

4.2.1 Xây dựng và Huấn luyện Mô hình (model.py) Đọc Dữ liệu: Lớp Model bắt đầu bằng việc đọc dữ liệu từ một tệp

CSV Dữ liệu được lọc để chỉ bao gồm các cột số và loại bỏ các hàng chứa giá trị khuyết thiếu

Tiền xử lý dữ liệu là bước quan trọng để chuẩn hóa dữ liệu bằng cách sử dụng StandardScaler, giúp đảm bảo rằng mô hình không bị ảnh hưởng bởi sự chênh lệch quy mô giữa các đặc trưng khác nhau.

Hình 4.6 Xử lý đọc file và tiền xử lý dữ liệu

Quá trình huấn luyện mô hình hồi quy tuyến tính sử dụng dữ liệu đã được chuẩn bị để học mối quan hệ giữa các đặc trưng và biến đầu ra.

Hình 4.7 Xử lý training và khởi tạo model

Sau khi hoàn thành quá trình huấn luyện, mô hình sẽ được lưu trữ trên ổ cứng bằng thư viện pickle, giúp dễ dàng tái sử dụng mà không cần phải huấn luyện lại.

Hình 4 8 Xử lý lưu model

4.2.2 Tải và Sử dụng Mô hình (run_model.py)

Tải Mô hình: Lớp RunModel định nghĩa phương thức load_model để tải mô hình đã được lưu trữ từ ổ cứng vào bộ nhớ

Hình 4 9 Xử lý đọc dữ liệu từ model đã lưu

Phương thức dự đoán được áp dụng để thực hiện dự đoán trên dữ liệu mới Trước khi đưa vào mô hình, dữ liệu đầu vào cần được chuẩn hóa để đảm bảo tính tương thích với quy mô dữ liệu mà mô hình đã được huấn luyện.

Hình 4 10 Xử lý dự đoán

4.2.3 Giao Diện Người Dùng và Tương Tác (main.py)

Thiết lập Giao Diện Người Dùng (GUI) bằng thư viện tkinter và tkinterdnd2 giúp tạo ra một giao diện đơn giản, cho phép người dùng dễ dàng kéo và thả tệp dữ liệu, nhập các thông số đầu vào và nhận được kết quả dự đoán một cách nhanh chóng.

Hình 4 11 Khởi tạo khung hình

Chọn File Dữ liệu: Người dùng có thể kéo và thả một file vào giao diện để sử dụng dữ liệu đó cho việc huấn luyện hoặc dự đoán

Hình 4 12 Khởi tạo giao diện kéo thả

Hình 4 13 Xử lý dữ liệu kéo vào

Tạo Mô hình: Người dùng có thể tạo một mô hình mới từ dữ liệu đã chọn bằng cách nhấn nút "Create Model"

Hình 4 14 Khởi tạo button Create Model

Hình 4 15 Xử lý sự kiện khởi tạo

Người dùng có thể thực hiện dự đoán bằng cách nhập các giá trị đầu vào như mực nước hồ và lưu lượng vào, sau đó nhấn nút "Dự đoán" để nhận thông tin về lưu lượng xả.

Hình 4 16 Khởi tạo các ô nhập liệu

Hình 4 17Xử lý dự kiện dự đoán

Hình 4 18 Khởi tạo vị trí hiện thị kết quả

Ngày đăng: 12/01/2024, 21:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w