1. Trang chủ
  2. » Luận Văn - Báo Cáo

áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện

101 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Tác giả Nguyễn Đức Trọng
Người hướng dẫn TS. Trần Thanh Ngọc
Trường học Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Điện
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 101
Dung lượng 7,41 MB

Cấu trúc

  • 1. Đặt vấn đề (15)
  • 2. Mục tiêu nghiên cứu (15)
  • 3. Đối tượng và phạm vi nghiên cứu (15)
  • 4. Cách tiếp cận và phương pháp nghiên cứu (15)
  • 5. Y nghĩa thực tiễn của đề tài (0)
  • CHƯƠNG 1 TỔNG QUAN VỀ Dự BÁO PHỤ TẢI ĐIỆN (17)
    • 1.1 Tổng quan về dự báo phụ tải (17)
      • 1.1.1 Khái niệm (17)
      • 1.1.2 Đặc điểm (17)
      • 1.1.3 Phân loại dự báo phụ tải (18)
    • 1.2 Các phương pháp dự báo (20)
      • 1.2.1 Phương pháp ngoại suy (20)
      • 1.2.2 Phương pháp hồi quy (0)
      • 1.2.3 Phương pháp mạng nơron nhân tạo (22)
      • 1.2.4 Phương pháp Prophet (24)
      • 1.2.5 Phương pháp Gradient Boost (25)
    • 1.3 Sai số trong dự báo phụ tải (26)
      • 1.3.1 Sai số tuyệt đối trung bình MAE (Mean Absolute Error) (0)
      • 1.3.2 Sai số bình phương trung bình MSE (Mean Squared Error) (0)
    • 1.4 Giới thiệu về Python và Google Colaboratory (0)
      • 1.4.1 Python (28)
      • 1.4.2 Google Colaboratory (29)
  • CHƯƠNG 2 GIẢI THUẬT HỌC KẾT HỢP TRONG HỌC MÁY (31)
    • 2.1 Giói thiệu về Ensemble learning (0)
    • 2.2 Mô hình XGBoost, LightGBM, và CatBoost (35)
      • 2.2.1 Mô hình XGBoost (35)
      • 2.2.2 Mô hình LightGBM (0)
      • 2.2.3 Mô hình CatBoost (47)
    • 2.3 Mô hình học máy đối sánh (53)
      • 2.3.1 Mô hình Multilayer Perceptron (53)
      • 2.3.2 Mô hình Convolutional Neural Network (55)
  • CHƯƠNG 3 ÁP dụng giải thuật học kết hợp cho Dự BÁO PHỤ TẢI (57)
    • 3.1 Mục tiêu thực hiện (57)
    • 3.2 Dữ liệu dùng trong dự báo (57)
    • 3.3 Xây dựng mô hình dự báo trên Google Colaboratory (59)
      • 3.3.1 Xử lý dữ liệu (59)
      • 3.3.2 Xây dựng mô hình (61)
      • 3.3.3 Dự báo và kiểm tra sai số (62)
  • CHƯƠNG 4 KẾT QUẢ Dự BÁO PHỤ TẢI (63)
    • 4.1 Kết quả dự báo một ngày (63)
    • 4.2 Kết quả dự báo một tuần (74)
    • 4.3 Kết quả dự báo một tháng (86)
    • 4.4 Kết luận (98)
  • TÀI LIỆU THAM KHẢO (100)
  • PHỤ LỤC (0)

Nội dung

Nghiên cứu này khảo sát về các mô hình của giải thuật học kết hợp trong máy học để phân tích hiệu suất củachúng cho dự báo phụ tải.. Tập dữ liệu về lượng điện tiêu thụ từ các bang New So

Mục tiêu nghiên cứu

- Tìm hiểu giải thuật học kết hợptrong học máy.

- Xây dựng mô hình dự báo phụ tải cho 5 bang: New South Wales, Queensland,South Australia, Tasmania và Victoria của nước ứcbằng giải thuậthọc kết hợp.

Cách tiếp cận và phương pháp nghiên cứu

- Tham khảo, nghiên cứucác bài báo ứng dụng giải thuậthọc kếthợptronghọc máy để giảibài toán dự báo phụ tải.

- Sử dụng phần mềm để thiết kế chương trình dự báo phụ tải.

- Phân tích và tổng hợp thuyếtvề ngôn ngữ lập trình python, giải thuậthọc kết hợp trong học máy cho dự báo phụ tải điện.

- Thu thập dữ liệu phụ tải điện tại khu vực 5 bang: New South Wales, Queensland, South Australia, Tasmania và Victoria của nước úc.

- Xây dựng các mô hình để dự báo phụ tải.

- Thống kê phân tích các kết quả và đưarakết luận.

5 Ý nghĩa thực tiễn của đề tài

Kết quả nghiêncứu giúpphân tích và sosánh ưu điểm, nhược điểm, độ chính xáccủa các giải thuật học kết hợp (XGBoost, Catboost và LightGBM) ứngdụng chúng vào dự báo phụ tải điện.

CHƯƠNG 1 TỔNG QUAN VỀ DựBÁO PHỤ TÁI ĐIỆN

1.1 Tổng quan về dự báo phụ tải

Dự báo là một khoa học và nghệ thuậtdự đoán các sự việc sẽ diễn ra trong tương lai dựa trên cơ sở nghiên cứu khoa học hoặc những dữ liệu đã thu được Khi tiến hành dự báo cần dựa trên việcphằn tích vàxử lý số liệu trong quá khứ và hiện tại nhằm dự đoán xu hướng biến động của sự vật hiện tượng trongtương lai dựa vào một số mô hìnhtoán học.

"Dự báo phụ tải điện" là quá trìnhướclượng hoặcdự đoán về lượng điện cần thiết để phục vụ một hệthốngđiện trongtươnglai Việc này rất quan trọng để quảnlývà điều phối nguồn cung cấpđiện, đảm bảo rằnghệthống có đủ năng lực để đáp ứng nhu cầu người tiêu dùng mà không gây ra tìnhtrạng quá tải hoặc lãng phí tài nguyên.

Dự báo tải điện là quá trình rất quan trọng trong quản lý vận hành hệ thống điện Thông qua việc dự báo tải, các nhà quản lý có thể ước lượng được lượng điện năng mà người dân sẽ sử dụng trong tương lai, từ đó phát điện phù hợp để đáp ứng đủ nhu cầu sử dụng.

- Thiên hướng thời gian: dự báo phụ tải thường liên quan đến việc dự đoán lượng điện tiêu thụ trong tương lai theo các khoảng thời gian như giờ, ngày, tháng hoặc năm Cácmô hình dự báo thường phải xácđịnh được xu hướng và biến động theo thời gian.

Các yếu tố ảnh hưởng đến dự báo phụ tải rất phong phú, bao gồm các điều kiện thời tiết như nhiệt độ, độ ẩm và gió; các sự kiện đặc biệt như ngày lễ và sự kiện thể thao; kế hoạch công nghiệp và cả các sự kiện dự báo như sự cố về năng lượng.

- Tính mùa vụ: phụ tải điện thường biến động theo mùa, với mức tiêu thụ thường tăng cao vào mùa hè hoặcmùa đông tùy thuộc vào vùng địa lý.

- Tính đối xứng: dựbáo phảixem xét tính đối xứngcủa phụ tải, tức là sự biến động giữa các khu vực hoặc đối tượng khác nhau, như hộ gia đình, doanh nghiệp và công nghiệp.

- Tính biến động cao: phụ tải có thể có biến động lớn theo thời gian Các mô hình dự báo cần phải cókhảnăng ứng phó với sự không chắc chắn và biến động.

- Sử dụng dữ liệu lịch sử: mô hình dự báo thường dựa trên dữ liệu lịch sử về phụ tải để hiểu và dự đoán xu hướng và biến động tư ong lai.

- Sử dụng mô hình học máy: các mô hình học máy, như mạngnơ-ron, máy vector hỗtrợ (SVM), và cây quyếtđịnh, thường được sử dụng để dự báo phụ tải, đặc biệt là khi có sự phức tạp và không gian đặctrưng lớn.

- Đánh giá độ chính xác: các mô hìnhdự báothường đượcđánh giá dựa trên các chỉ số đánh giá như sai số tuyệt đối trung bình (MAE), sai số tuyệt đối trọng số (WMAE), hoặc Root Mean Squared Error (RMSE).

Dự báo phụ tải điện có vai trò quan trọng để giúp quản lý và lên kế hoạch sử dụng nguồn năng lượng một cách hiệu quả và đảmbảo rằng hệthốngđiện có thể đáp ứng đúng nhu cầu của người tiêu dùng.

Dự báo phụ tải điện được chiathành bốn loại, liên quan đến miền thời gian dự báo

Dự báo phụ tải dài hạn (LTLF), dự báo phụ tải trung hạn (MTLF), dự báo phụ tải ngắn hạn (STLF) và dự báo phụ tải rất ngắn hạn (VSTLF)[1], được thể hiện trongHình 1.1.

Các loại dự báo phụ tảiđiện

•— Lập kếhoạch truyền tải vàphân phối —•

•— Vận hành và bảo trì —•

Hình 1.1 Các loại dự báo phụ tải điện liên quan đến cáckhoảng thời gian khác nhau và cáclĩnh vực hoạt động tươngứng.

- Dự báo phụ tải dài hạn: nhắm mục tiêu dự đoán xu hướng và mức độ tăng trưởng của lượng tiêu thụ điện năng trong thời gian dài, thường lớn hơn một năm Mục tiêu chính của dự báo phụ tải dài hạn là cung cấp thông tin chiến lược và chiến thuật cho quản lý hệ thống điện, giúp các tổ chức năng và doanh nghiệp lập kế hoạch đầu tư, xây dựng,và vận hành cơ sở hạ tầng điện.

- Dự báo phụ tải trung hạn: đề cập đến các khoảngthời gian từ mộttháng đến một năm, thường bao gồm việc lập kế hoạch bảo trì lưới điện, xem xét giáđiện cũng như lậplịch trình sử dụng nhiên liệu.

TỔNG QUAN VỀ Dự BÁO PHỤ TẢI ĐIỆN

Tổng quan về dự báo phụ tải

Dự báo là một khoa học và nghệ thuậtdự đoán các sự việc sẽ diễn ra trong tương lai dựa trên cơ sở nghiên cứu khoa học hoặc những dữ liệu đã thu được Khi tiến hành dự báo cần dựa trên việcphằn tích vàxử lý số liệu trong quá khứ và hiện tại nhằm dự đoán xu hướng biến động của sự vật hiện tượng trongtương lai dựa vào một số mô hìnhtoán học.

"Dự báo phụ tải điện" là quá trìnhướclượng hoặcdự đoán về lượng điện cần thiết để phục vụ một hệthốngđiện trongtươnglai Việc này rất quan trọng để quảnlývà điều phối nguồn cung cấpđiện, đảm bảo rằnghệthống có đủ năng lực để đáp ứng nhu cầu người tiêu dùng mà không gây ra tìnhtrạng quá tải hoặc lãng phí tài nguyên.

Dự báo phụ tải điện là quá trình dự đoán lượng điện năng mà mộthệ thống điện cần cung cấp để đáp ứng nhu cầu sử dụng của người tiêu dùng trong tương lai Sau đây làmột số đặc điểm quan trọngcủa việc dự báo phụ tải điện:

- Thiên hướng thời gian: dự báo phụ tải thường liên quan đến việc dự đoán lượng điện tiêu thụ trong tương lai theo các khoảng thời gian như giờ, ngày, tháng hoặc năm Cácmô hình dự báo thường phải xácđịnh được xu hướng và biến động theo thời gian.

- Yeu tố ảnh hưởng: dự báo phụ tải phải xem xét nhiềuyếu tố ảnh hưởng, bao gồm các yếu tố thời tiết (nhiệt độ, độ ẩm, gió), các sự kiện đặc biệt (ngày lễ, sự kiệnthể thao), kế hoạch công nghiệp và thậm chí làsự kiện dựbáo (như các sự cố về năng lượng).

- Tính mùa vụ: phụ tải điện thường biến động theo mùa, với mức tiêu thụ thường tăng cao vào mùa hè hoặcmùa đông tùy thuộc vào vùng địa lý.

Tính đối xứng là yếu tố quan trọng trong dự báo nhu cầu điện, đề cập đến sự biến động của phụ tải giữa các khu vực hoặc đối tượng khác nhau như hộ gia đình, doanh nghiệp và công nghiệp Yếu tố này cần được xem xét cẩn thận để đảm bảo dự báo chính xác, phản ánh thực tế về nhu cầu điện năng.

- Tính biến động cao: phụ tải có thể có biến động lớn theo thời gian Các mô hình dự báo cần phải cókhảnăng ứng phó với sự không chắc chắn và biến động.

- Sử dụng dữ liệu lịch sử: mô hình dự báo thường dựa trên dữ liệu lịch sử về phụ tải để hiểu và dự đoán xu hướng và biến động tư ong lai.

- Sử dụng mô hình học máy: các mô hình học máy, như mạngnơ-ron, máy vector hỗtrợ (SVM), và cây quyếtđịnh, thường được sử dụng để dự báo phụ tải, đặc biệt là khi có sự phức tạp và không gian đặctrưng lớn.

- Đánh giá độ chính xác: các mô hìnhdự báothường đượcđánh giá dựa trên các chỉ số đánh giá như sai số tuyệt đối trung bình (MAE), sai số tuyệt đối trọng số (WMAE), hoặc Root Mean Squared Error (RMSE).

Dự báo phụ tải điện có vai trò quan trọng để giúp quản lý và lên kế hoạch sử dụng nguồn năng lượng một cách hiệu quả và đảmbảo rằng hệthốngđiện có thể đáp ứng đúng nhu cầu của người tiêu dùng.

Dự báo phụ tải điện được chiathành bốn loại, liên quan đến miền thời gian dự báo

Dự báo phụ tải dài hạn (LTLF) được sử dụng để dự báo nhu cầu phụ tải điện trong vòng 5-10 năm, dựa trên các yếu tố kinh tế vĩ mô, xã hội và công nghệ dài hạn Dự báo phụ tải trung hạn (MTLF) dự báo nhu cầu phụ tải điện trong vòng 1-5 năm, tính đến các yếu tố tăng trưởng kinh tế, công nghiệp và dân số Dự báo phụ tải ngắn hạn (STLF) dự báo nhu cầu phụ tải điện trong vòng một tuần đến một năm, xem xét các yếu tố thời tiết, sự kiện và ngày lễ Dự báo phụ tải rất ngắn hạn (VSTLF) dự báo nhu cầu điện trong vòng một giờ đến một ngày, dựa trên thông tin vận hành hệ thống điện.

Các loại dự báo phụ tảiđiện

•— Lập kếhoạch truyền tải vàphân phối —•

•— Vận hành và bảo trì —•

Hình 1.1 Các loại dự báo phụ tải điện liên quan đến cáckhoảng thời gian khác nhau và cáclĩnh vực hoạt động tươngứng.

- Dự báo phụ tải dài hạn: nhắm mục tiêu dự đoán xu hướng và mức độ tăng trưởng của lượng tiêu thụ điện năng trong thời gian dài, thường lớn hơn một năm Mục tiêu chính của dự báo phụ tải dài hạn là cung cấp thông tin chiến lược và chiến thuật cho quản lý hệ thống điện, giúp các tổ chức năng và doanh nghiệp lập kế hoạch đầu tư, xây dựng,và vận hành cơ sở hạ tầng điện.

- Dự báo phụ tải trung hạn: đề cập đến các khoảngthời gian từ mộttháng đến một năm, thường bao gồm việc lập kế hoạch bảo trì lưới điện, xem xét giáđiện cũng như lậplịch trình sử dụng nhiên liệu.

- Dự báo phụ tải ngắn hạn: dự báo trong các khung thời gian từ vài phút, giờ hoặc ngày, là một yếutốquan trọng trong hoạt động hàng ngày vàlậpkế hoạch của một công ty điện lực và thành phần quan trọng của hệ thống quản lý năng lượng Có hiệu quả trong việc giảm chi phí tài chính và rủi ro hoạt động, tác động trực tiếp đến tiết kiệm.

Các phương pháp dự báo

Một số phương pháp dựbáo phụ tải điện:

- Phương pháp mạng nơron nhântạo;

Ngoại suy làphương pháptận dụng kiến thức hiện có để suy đoán thông tin chưabiết thông qua việc áp dụng mô hình toán học hoặc phân tích thống kê Đây là phương pháp thường được áp dụng rộng rãi trong các lĩnh vực như khoa học, kinh tế học, thống kê và nghiên cứu xã hội để mởrộngkiến thức và dự đoán các giátrị mới.

Các đặc điểm của phương phápngoại suy bao gồm:

- Dựa trên dữ liệu đã biết: Phương pháp ngoại suy sử dụng thông tin từ các dữ liệu đã biết để suy ragiátrị của dữliệu chưa biết.

- Sử dụng mô hình toán học hoặc thống kê: Phương pháp này sử dụng các phương pháp toán học hoặc phương pháp thống kê để suy ragiátrị của dữ liệu chưa biết.

Độ chính xác của phương pháp ngoại suy phụ thuộc rất nhiều vào chất lượng của dữ liệu đã biết Nếu dữ liệu này không chính xác hoặc không đầy đủ, thì phương pháp ngoại suy cũng không thể cho ra kết quả chính xác.

Phương pháp ngoại suy là kỹ thuật dự báo giá trị dữ liệu chưa biết khi không đủ dữ liệu chính xác hoặc đầy đủ Khi đó, phương pháp này dựa vào số liệu lịch sử để thiết lập một hàm số f(t) phản ánh quy luật biến động của dữ liệu Hàm số này sau đó được sử dụng để dự báo giá trị tương lai dựa trên dữ liệu quá khứ.

- YDB là dự báo điện năng, công suất của năm tới (tháng,tuần,ngày, giờ);

- t là năm (tháng, tuần, ngày, giờ) hiện tại;

- f(t+l) là hàm số được xây dựngtừ số liệu quá khứ củađiện năng, công suất.

Số liệu phụ tải điện quá khứ sử dụng cho phương phápngoại suy:

- Đối với dự báo nhu cầu phụ tải điện năm: Các số liệu thống kê về công suất, điện năng tiêu thụ trong ít nhất05 năm trước gần nhất;

- Đối với dựbáonhu cầu phụ tải điện tháng: Cácsố liệu thốngkê về công suất, điện năng tiêu thụ của tháng cùng kỳ năm trước và ítnhất03 tháng trước gần nhất;

- Đối với dự báonhu cầu phụ tải điện tuần: Các số liệu thống kê về công suất, điện năng tiêu thụ trong ít nhất04 tuần trước gần nhất;

Để dự báo nhu cầu phụ tải điện ngày, cần sử dụng các số liệu thống kê về công suất và điện năng tiêu thụ trong tối thiểu 7 ngày trước Đặc biệt lưu ý, đối với các ngày lễ, tết thì phải sử dụng các số liệu của các ngày lễ, tết năm trước để đảm bảo tính chính xác hơn.

- Đối với dự báo nhu cầu phụ tải điện giờ: Các số liệu thống kê về công suất, điện năng tiêu thụ trong ít nhất 48 giờcùng kỳ tuần trước.

Phương pháp này nhằm xác định mối tương quan giữanhu cầu tiêu thụ điện (bao gồm công suất và điện năng) của phụ tải với các yếu tố ảnh hưởng quan trọng như tăng trưởng kinh tế, giá điện, thời tiết, tỷ giá, vàcác yếu tốkhác[3] Mối tương quan này được thể hiện thông qua hai loại phương trình như sau:

- n làsố thống kê quá khứ (số năm,tháng, tuần, ngày);

- ao, ai là các hệ số;

- Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, );

- Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ).

• Phương trình dạng phi tuyến:

- n làsố thống kê quá khứ (số năm,tháng, tuần, ngày);

- ao, ai là các hệ số;

- Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, );

- Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ).

Dạng phương trình 2 có thể chuyển đổi thành dạng phương trình 1 bằng cách lấy logarit ở cả hai bên Quá trình lựa chọn hàm hồi quy được thực hiện dựa trên so sánh các hệ số tương quan Neu hệ số tương quan củamột dạng phươngtrình lớn hơn, thì dạng phương trình đó sẽ được chọn làm hàm hồi quy Việcnày giúp đưa ra một mô hình hồi quy phù hợp với dữ liệu và mối quan hệ giữa các biến.

Mạngnơ-ron nhân tạo (ANN), hay còn được gọi là mạng nơ-ron mô phỏng, là một lĩnhvựcquantrọng của học máyvà trung tâm của thuật toán học sâu.Tên và cấu trúc của mạng nơ-ron nhân tạo lấy cảm hứng từ cách bộ não con người hoạt động, mô phỏngcáchcác tếbào thần kinh sinh học truyền tín hiệu cho nhau.[4]

Mạng nơ-ron nhân tạo có cấu tạo nhiều lópnút, baogồm lóp đầuvào, một hoặcnhiều lớp ẩn và lóp đầu ra Mỗi nút, hoặc nơ-ron nhân tạo, kết nối với các nút khác có trọng sốcùng ngưỡng liên quan Chúng phối hợp, gửitínhiệuđen nhau để cùnggiải quyết vấn đề.

Một mạng nơ ron nhântạo cơ bản thường có cấu trúc 3 lớp nhưsau:

- Lóp đầu vào: thông tin cần xử lýđược đưa vào mạng nơ-ronnhân tạo qua lóp đầu vào Nút đầuvào tiếp nhận, phânloại, phân tích dữ liệu và sau đó chuyển dữ liệu sang lóp tiếp theo.

- Lópẩn: dữ liệuchuyểntừ lóp đầu vào sang lớp ẩn, hoặc từ lóp ẩn nàysang lóp ẩn khác Mạng nơ-ron nhântạo có thể cómột hoặc nhiều lóp ẩn Mỗi lóp ẩn phântích dữ liệu đầura từ lóp trước, xử lý dữliệu đó sâu hơn và chuyển dữ liệu sang lớp tiếp theo.

- Lóp đầu ra: lóp đầu ra trảkết quả cuối cùng của tất cả dữ liệu được xửlý trước đó bởi mạng nơ-ron nhântạo Lóp này có thể có mộthoặc nhiều nút.

Hình 1.2 Cấutạo củamạng nơ rơnnhântạo

1.2.4 Ph ương ph áp Prophet

Prophet làmột mô hình dự báo, được thiết kế đặc biệt để dự đoán các chuỗithời gian có đặc điểm mô hình mùa vụ mạnh và chịu ảnh hưởng từ cácngày lễ hoặc sự kiện đặc biệt [5]

Mô hình dự báo của Prophet bao gồm ba thành phần chính:

- Xu hướng: môhình xu hướng để theo dõi sự biến động không chu kỳ của dữ liệu theothời gian.

- Mùa vụ: mô hình mùa vụ đểxác định vàdự đoán các biến độngcó chu kỳ, chẳng hạn như các mô hình hàngngày hoặc hàngtuần.

- Ngày lễ: mô hình ngày lễ để xử lý các biến động liên quan đến ngày lễ hoặc sự kiện đặc biệt.

Prophet mô tảdữ liệu thời gian bằng công thức sau: yW=gW+sỢ)+hụ)+el (1-4)

- y(t) làgiátrị của chuỗi thời gian tại thời điểm t.

- s(t) là thành phần mùa vụ.

- et là thành phần lỗi ngẫu nhiên.

Prophet cho phép phân tách chuỗi thời gian thành các thành phần riêng lẻ, giúp nắm bắt rõ hơn về xu hướng theo thời gian dài, tính mùa vụ và ảnh hưởng của sự kiện theo mùa Ứng dụng hữu ích trong dự báo doanh số bán hàng, lưu lượng truy cập trang web, nhu cầu nguồn nhân lực, có ứng dụng rộng rãi trong kinh tế, y tế, quảng cáo và nhiều lĩnh vực khác.

Sai số trong dự báo phụ tải

Trong lĩnh vực dự báo tải điện, độ lệch hay sai số là chênh lệch giữa giá trị dự đoán và thực tế của tải điện Có nhiều loại sai số khác nhau tùy vào mục đích đánh giá chất lượng mô hình dự báo.

1.3.1 Sai số tuyệtđổitrungbình MAE (Mean AbsoluteError).

Sai số tuyệt đối trung bình là mộtđộ đo đánh giá sự chênh lệch giữa giátrị dự đoán vàgiátrị thựctế trong dựbáo MAEđược tính bằng cách lấy trung bình cộng của các giátrị tuyệt đối của các sai số [6]

Công thức tính MAE như sau:

- MAE làsai số tuyệt đối trung bình.

- Pf là giátrị dự báo.

- n làsố lượng mẫu tính toán.

MAE đo lường sự trung bình của tất cả các sai số tuyệt đối và không bị ảnh hưởng bởi việc sai số cóxu hướng lớn hơn ởmột số điểm dữliệu cụ thể Nên MAE thường được sử dụng nhiều trong trườnghợp cần xử lý cácgiátrị ngoại lệ Giá trị MAE càng nhỏ, mô hình dự báo càng chính xác.

MAE có một nhược điểm là khi đánh sai số trên những khoảng thời gian khác nhau có mức chênh lệch phụ tải lớn MAE sẽ không thể hiện rõ mức độ chính xác củadự báo.

1.3.2 Sai sổ bìnhphương trung bình MSE(Mean SquaredError).

Sai số bình phươngtrung bình (MSE - Mean Squared Error)là một phươngphápphổ biến được sử dụng để đánh giá hiệu suất của mô hình hồi quy trong dự đoán MSE đượctính bằng cách lấy trungbình của bình phương của tất cả các sai số giữa giátrị dự đoán và giátrị thực tế trên tất cả cácmẫu dữ liệu.[6]

Công thức tính MSE như sau:

- MSE làsai số bình phương trung bình.

- Pf là giátrị dự báo.

- n làsố lượng mẫu tính toán.

MSE đo lường sự chênh lệch giữa giá trị dự đoán và giátrị thực tế Bằng cáchbình phương sai số, MSE tăng cường ảnh hưởng của các sai số lớn,nghĩalà nó tăngtrọng lượng đối với những sai số có độ lớn cao hơn.

MSE có thể nhạy cảm với các giátrị ngoại lệ hoặc sai số lớn, vì bình phương là một hàm tăng cường độ lớn Nếu cóngoại lệ trong dữ liệu, sai số MSE có thể bị lệch và không phản ánh đúng chấtlượng của mô hình.

Giới thiệu về Python và Google Colaboratory

Sai số phần trăm tuyệt đối trung bình (MAPE) là thước đo hiệu suất của mô hình dự đoán bằng cách tính tỷ lệ chênh lệch tuyệt đối giữa giá trị dự đoán và giá trị thực tế, thể hiện dưới dạng phần trăm Công thức của MAPE là: (Tổng tuyệt đối chênh lệch giữa giá trị dự đoán và thực tế / Tổng giá trị thực tế) * 100%.

Công thức tính MAPE như sau: xioo (1-7)

- MAPE là sai số phầntrăm tuyệt đối trung bình.

- Pf là giátrị dự báo.

- 7? làsố lượng mẫu tính toán.

MAPE có thể gặp vấn đề khi giá trị thực tế gần bằng 0, vì khi đó mẫu số có thể trở nên vô hạn Để tránh vấn đề này, một số biến thể của MAPE, chẳng hạn như Symmetric Mean Absolute Percentage Error (SMAPE), cóthể được sửdụng. Ưu điểm củaMAPE bao gồm việc biểu thị sai số dưới dạng phần trăm, giúp hiểu rõ hơn về độ lớn của sai số đối với giá trị thực tế Tuy nhiên, nhược điểm của MAPE bao gồm độ nhạy cảm đối với giátrị thực tế gần bằng0 và không phản ánhtốt khi giá trị thực tế cóbiên độ lớn.

1.4 Giói thiệu về Pythonvà Google Colaboratory

Python làmột ngôn ngữ lậptrình rấtđanăng và phổ biến, được thiết kế với mục đích giảm bớt sự phức tạp Mã nguồn Python được biết đến với đặc điểm dễ đọc và dễ viết, cú pháp ngắn gọn, khôngyêu cầu nhiều dấu ngoặc, giúp hạn chế nhầm lẫn và tăng khả năng hiểu mã nguồn của người đọc Ngôn ngữnày không chỉ hỗ trợ những người mới học lập trình mà còn là lựa chọn phổ biến cho các lập trình viên chuyên nghiệp Do đó, Python trỏ thành một lựa chọn lý tưởng cho nhiều mục đích khác nhau, bao gồm phân tích dữ liệu, trítuệ nhân tạo, pháttriển web, vànhiều lĩnh vực khác.

Mộttrong những yếu tố làm nổi bật Python là sự hỗ trợ từ cộng đồng lớn, cộng đồng này không chỉ cung cấp sự giúp đỡ thông quacác diễn đàn và tài liệu, mà còn đóng góp vào sự pháttriển của ngôn ngữ bằng cách tham gia vào việc xây dựng thư viện và framework.

Python cũng nổi tiếng với hệ sinh thái thư viện lớn, đa dạng, có nhiều thư viện cho mọi lĩnh vực, từ khoa học dữ liệu (như NumPy, pandas) đến phát triển web (như Django, Flask), và từ trí tuệ nhân tạo (như TensorFlow, PyTorch)đến xử lý ngôn ngữ tự nhiên và nhiều lĩnh vựckhác.

Khả năng tương thích đa nền tảng là ưu điểm vượt trội của Python Mã nguồn Python có khả năng chạy mượt mà trên nhiều hệ điều hành phổ biến như Windows, macOS và Linux mà không cần thay đổi nhiều, mang đến tính di động và linh hoạt cao.

Trongthựctế, Python đãtrởthànhmộttrong những ngônngữlập trình phổ biếnnhất và được sử dụng rộng rãi trên toàn thế giới nhờ việc dễ học, đa nhiệm, và khả năng tích hợp caocủa nó.

Google Colaboratory, thườngđượcgọi là Colab, làmộtdịch vụ cung cấp môitrường làm việc trực tuyến để thực hiện các dự án học máy và khoa học dữ liệu, được phát triển bỏi Google Colab cung cấp mộtkhông gian tiện lợi để chia sẻ và làm việc với mãnguồn mỏ Python.

Một số điểm quan trọng về Google Colab:

- Miễn phí và sử dụng trực tuyến: Colab là dịch vụ miễn phí và đượctích hợp trực tuyến với Google Drive Người dùng có thể truy cập Colab thông qua trình duyệt web và thực hiện công việc mà không cần cài đặt bất kỳ phần mềm nào.

- Hỗ trợ phần cứng: được cung cấp CPU tốc độ cao, GPU và TPƯ miễn phí, giúp tăngtốc quá trình huấn luyện mô hình học máy.

- Sử dụng Notebooks: Colab sử dụng định dạng tệp gọi là "notebooks", trong đó người dùng có thể viết và thực thi mã Python theo từng khối, giúp tạo ra một quy trình làm việc tương tự như Jupyter Notebooks.

- Chiasẻ trực tuyến: người dùng cóthể chia sẻ notebooks của mình với người khác thông qua qua liên kết, họ có thể xem hoặc chỉnh sửa (nếu người dùng chia sẻ quyền) trongtrình duyệt của họ.

- Lưu trữ trên Google Drive: Colab notebooks được lưu trữ trực tiếp trong Google Drive, giúp dễ dàng duyệt, quản lý vàchia sẻ.

- Hỗ trợ nhiều thư viện và framework: Colab hỗ trợ nhiều thư viện và framework phổ biến trong cộng đồng học máy nhưTensorFlow, PyTorch, OpenCV, và nhiều thư viện khác.

Những đặc điểm trên giúp Colab trở thành một công cụ linh hoạt, tiện ích và dễ sử dụng cho nhiều mục đích, từ họctập đến nghiên cứu và triển khai dự án học máy. Để có thể chạy cácmôhình trongbài luận văn, cần cài đặt các thư viện cầnthiết trên Google Colab: from xgboost import XGBRegressor from lightgbm import LGBMRegressor

!pip install catboost from catboost import CatBoostRegressor

GIẢI THUẬT HỌC KẾT HỢP TRONG HỌC MÁY

Mô hình XGBoost, LightGBM, và CatBoost

XGBoost là một thuật toán học máy thuộc họ thuật toán tăng cường, được phát triển bởi Tianqi Chen XGBoost được công nhận rộng rãi trong cộng đồng học máy và thường được sử dụng trong các cuộc thi dữ liệu vì sức mạnh và hiệu quả của nó trong xử lý nhiều loại dữ liệu.

Boosting làmộtkỹ thuậthọc máy mà mô hình được xây dựngtừ nhiều mô hìnhyếu, và mỗi mô hình yếu đều tậptrung vào việc sửa nhữnglỗi của mô hình trước đó Kết quả là,mỗi mô hình mói cố gắngcải thiện sai sốcủa mô hình kết hợp.

Lý thuyết của thuật toán như sau, giả sửrằng có mộttập huấn luyện có N mẫu:

Với thông số đầu raxác định là: yq^.F,, ^} (2-2)

Nhưvậy trong thuật toán XGBoost, ở vòng lặp đầu tiên, mộtcây học tập đượctạo ra đểước lượng các giátrị đầu rafi(X) Sự khác biệt giữa cácước lượng này và giá trị chính xác y được gọi là phần dư, biểu thị cho sai số củamô hình Đẻ giảm phần dư, cây học tập thứ hai đượcxác định để ước lượng phần dư đó (không phải giá trị y). Tiếp tục quy trình này, cây học tập thứ hai ước lượng phần dư G1(X), từ đó cây học tập thứ ba ước lượng phần dư G2(X), và tiếp tục như vậy Kết quả cuối cùng là tổng của các ước lượng Vfn(X) Để cải thiện hiệu suất của mô hình XGBoost, một hàm mất mát được thêm vào vói dạng sau đây:

Trong đó các tham số của mô hình được huấn luyện ký hiệu là £, L là hàm mấtmát;

Qlà thành phần được thêm vào thườngđược gọilà regularizationnhằm đánh giá mức độ phức tạp của mô hình Việc thêm vào thành phần regularization giúp điều chỉnh các tham số của mô hình học máy và ngăn chặn hiện tượng quá mức đào tạo Kinh nghiệm cho thấy việcsử dụng hàm mục tiêu được chuẩn hóa như trong công thức (2- 3) sẽ thúc đẩy việc chọn mô hình cóxu hướng sử dụng các hàm đon giản và dễ dự đoán Môhình đon giản hơn cóthể giúptránh hiệntượng quá khớp hiệu quả hơn Do dựa vào môhình học tập dạng cây, giá trị dự đoán cuối cùng sẽ là:

Hàm mấtmátởvòng lặpthứ t có dạng:

Giátrị ước lượng đầu ra yi ở vòng lặp thứ t, y? được tínhnhư sau: n y,° = gf„ (Xi) = yỉ-1 + ft (X;) (2-6)

Giá trị regularization Q(fn) cóthể sử dụng công thức sau đểxác định:

Trong thuật toán XGBoost, hàm mất mát sử dụng phân tích bậc 2 Taylor, thay thế cho phân tích bậc nhất của Gradient Tree Boosting Độ phức tạp của các lá quyết định (Ỵ), số lá trong cây quyết định (T), hệ số phóng đại hàm phạt (p) và vectơ điểm số cho các lá (w) là các yếu tố ảnh hưởng đến hàm mất mát này.

Neu giả sử hàm tối ưu cho quá trình học là hàm MSE, thì hàm mục tiêu cóthể được viết thành:

Trong công thức (2-8),các hằng số đã được loạibỏ q() là hàm số dùng để gán dữ liệu cho là tương ứng; gi và hi là đạo hàm bậcnhất và bậc hai của hàm mấtmátMSE Hàm mất mát có thể được xác định bằng tổng củacác giá trị mất mát chotừng lá, vì mỗi mẫu chỉ tương ứng với một lácho nên hàm mất mátcó thể được xác định bằng tổng các giátrị mấtmát của từnglá Do đó, công thức (2-8) được viết lại như sau: i=l

Khi phân chia một nút trong cây quyết định, sự thay đổi hiệu suất mô hình được đánh giá bằng hàm mất mát Nếu hiệu suất được cải thiện, sự phân chia nút sẽ được chấp nhận Ngược lại, quá trình phân chia sẽ dừng.

XGBoost sử dụng cây quyếtđịnh làm mô hình yếu cơbản Quy trình hoạt động của XGBoost có thể được tóm tắtqua các bước như sau:

1 Khởi tạo mô hình: bắtđầu với mộtcây quyết định đơn giản.

2 Tính toán giá trị dự đoán: tính toán giá trị dự đoán của mỗi điểm dữ liệu bằng cách thêm dự đoán của cây quyếtđịnh hiệntại vào dự đoán của các câytrước đó.

3 Tính toán độ lỗi (residuals): tính toán độ lỗi giữa giá trị dự đoán và giá trị thực tế.

4 Xây dựng cây mới: xây dựng một cằy quyết định mới để dự đoán độ lỗi, được gọi làcây học Cây này được thêm vào cây quyết định trước đó.

5 Tính toán trọng số: mỗi cây có mộttrọng số để kiểm soát đóng góp của nó vào giá trị dự đoán cuối cùng Trọng số này được nhân với giá trị dự đoán của cây trước khi thêm vào giátrị tổng của mô hình.

6 Lặp lại: quá trìnhtừ bước2 đến bước 5 đượclặp lại nhiều lần đểtạo ramộtchuỗi các cây quyết định.

2.2.ỉ 2 Một số siêu tham sổ quan trọngcủamô hình XGBoost

Việc điều chỉnh các siêu tham số làquá trìnhtối ưu hóa các siêu tham số của mô hình họcmáy để đạt được hiệu suất tốtnhất trong quá trình huấn luyện Mục tiêu là tìm ra các giá trị siêu tham số mà khi áp dụng cho mô hình, nó sẽ cho ra kết quả dự đoán chính xác và tổng quát nhất.

Một số siêu tham số quan trọng của mô hình XGBoost:

- Learning_rate (eta): siêu tham số này kiểm soát độ lớn củabướcdi chuyển khi cập nhật trọng số Giúp giảm nguy co quá mức đào tạo, nhưng yêu cầu số lượng cây (n estimators) cao hon.

- N_estimators: số lượng cây quyết định đượctạo trong quá trình đào tạo Tăng giá trị này để mô hình học mạnh hon, nhưng cũng làm tăng thời gian đàotạo.

- Max_depth: số lượng tối đa các nútmà mỗi cây con cóthểcó Giảm nguyco quá mứcđàotạo, nhưng làm tăng thời gian đàotạo.

- Min_child_weight: đặtgiới hạn tối thiểu cho tổng trọngsố của tất cả các mẫu trong một nút lá, giúp giảm quá mức đàotạo.

- Subsample: phần trăm mẫu được sử dụng để đàotạo mỗi cây.

- Colsample_bytree: phầntrămcác tính năng được sử dụng để đào tạo mỗicây, giúp giảm quá mức đàotạo và làm tăng tính đa dạng.

Bảng 2.1 bên dưới trình bày giá trị mặc định và khoảng giátrị cài đặtcác siêu tham sốcủa mô hìnhXGBoost.

Bảng 2.1 Bảng giátrị mặc định và khoảng giátrị cài đặt các siêu tham số của mô hìnhXGBoost

Siêu tham số Giá trị mặc định Khoảng giá trị

Quá trình tinh chỉnh siêu tham số mang tính phụ thuộc vào dữ liệu cụ thể và đòi hỏi giai đoạn thử nghiệm nhiều lần để xác định được các giá trị tối ưu cho từng trường hợp.

Hiệu suất cao: XGBoost thường đạt đượchiệu suất tốt trên nhiều bài toán học máy.

Chính quy hóa mạnh mẽ: có thể kiểm soát độ phức tạp của mô hình để tránh tình trạng quá mức đàotạo.

Hỗ trợđặc trưng phân loại: cókhảnăngxử lýtrựctiếp đặc trưngphân loại màkhông cần chuyển đổi chúng.

Xử lý tốt các bộ dữ liệu lớn: cóthể xử lý các tập dữ liệu lớn và hiệu quảtrong việc tối ưu hóa.

Mặc dù XGBoost là một thuật toán mạnh mẽ và linh hoạt, nhưng cũng có một số nhược điểm:

- Dễ quá mức đào tạo (overfitting): XGBoost có thể dễ dàng quá mức đào tạo, khi có nhiều cây và các siêu tham số không được điều chỉnh đúng.

- Đòi hỏi nhiều thời gian đào tạo: với số lượng cây lớn vàcác siêu tham số đầy đủ, XGBoost có thể cần nhiều thời gian để đào tạo trên các tậpdữ liệu lớn.

- Khódiễn giải: do sự phứctạpcủa mô hình và số lượng cây,việc diễn giải mô hình XGBoost có thể trở nên khá khó khăn so với cácmô hình đơn giản hơn như hồi quy tuyến tính.

Mô hình học máy đối sánh

Nhằm có cơ sở để đánh giá hiệu quả của các mô hình học máy, trong luận văn này tácgiả đề xuất đối sánh với mô hình MLP đại diện cho mạng nơ-ron nhân tạo, và mô hìnhCNN đại diện chomạng học sâu.

Phương pháp MLP (Multilayer Perceptron) là một loại mạng nơ-ron nhân tạo (ArtificialNeural Network - ANN) trong lĩnhvực học sâu MLP thường được sửdụng chocác bài toán học có giám sát, bao gồm phân loại và dự đoán.

MLP baogồm mộthệthống các nơ-ron đơn giản được kết nối vớinhau,hoặc các nút, như minh họatrong Hình 2.7, đó là một mô hình đại diện cho một ánh xạphi tuyến giữa một vector đầu vào và một vector đầu ra Các nút được kết nối bằng các trọng số và tín hiệu đầu ra, là hàm của tổng của các đầu vào vào nút được sửa đổi bởi một hàm chuyển đổi phi tuyến đơn giản, hoặc hàm kích hoạt Đầu ra của một nút được tỉ lệ bởi trọng số kếtnối vàđược truyền tiếp để làm đầu vào cho các nút trong tầng tiếp theocủamạng Việc này ngụ ý mộthướng xử lý thông tin, do đó MLP được biết đến như một mạng nơ-ron truyền thẳng Kiến trúc của một MLP là biến đổi nhưng nói chung sẽ bao gồm một số tầng nơ-ron Tầng đầu vào không có vai trò tính toán mà chỉ đơn giản làchuyển tiếp vector đầu vào cho mạng Các thuật ngữ vector đầu vào vàđầu rachỉ đến các đầu vào vàđầu ra của MLP và cóthể được biểu diễn dưới dạng các vector duy nhất, như minhhọatrong Hình 2.7.

Lớp đầu vào Lớp ẩn Lớp đầu ra

Hình 2.7 Một mạng MLP với 2 lớp ẩn

Một MLP có thể có một hoặc nhiều tầng ẩn và cuối cùng là một tầng đầu ra MLP đượcmô tả là hoàn toàn kếtnối, với mỗinút kếtnối với mỗi nút trongtầngtiếp theo vàtrước đó.

Mạng MLP có khảnăng học thông qua quátrình huấn luyện Huấn luyện đòi hỏi một tậpdữ liệu huấn luyện, gồm một chuỗicác vector đầu vào và đầu raliên quan Trong quá trìnhhuấn luyện, MLP liên tụcđượctrình bàyvới dữ liệuhuấnluyện và các trọng số trong mạng được điều chỉnh cho đến khi ánh xạ đầu vào - đầu ra mongmuốn xảy ra,MLP học theo cách giám sát Trongquá trình huấn luyện, đầu ratừ MLP, cho một vector đầu vào nhất định,cóthể không bằngvới đầu ra mong muốn Tín hiệu lỗi được xác định là sự khác biệt giữa đầu ra mong muốn và thực tế Quá trình huấn luyện sử dụng độ lón của tín hiệu lỗi này đểxác định mức độ mà các trọng số trongmạng cần được điều chỉnh để giảm tổng lỗi của MLP Cónhiều thuật toán có thể được sử dụng để huấn luyện một mạng MLP Một khi đã được huấn luyện với dữ liệu huấn luyện đại diện phù hợp, MLP có thể tổng quát hóa cho dữ liệu đầu vào mới, chưa nhìn thấy trước đó.

2.3.2 Mô h ình Convolution al Neural Network

Mạng nơron tích chập (CNN) là một kỹ thuật học máy mạnh mẽ được sử dụng rộng rãi cho phân tích hình ảnh dựa trên nguyên lý đại số tuyến tính, đặc biệt là phép toán tích chập, CNN trích xuất các đặc điểm và nhận diện các mẫu trong hình ảnh Mặc dù thường được sử dụng cho hình ảnh, CNN cũng có thể được áp dụng cho âm thanh và các loại tín hiệu khác.

Kiến trúc CNN được lấy cảm hứng từ các mô hình kết nối của não người, đó là vỏ não thị giác,xửlý thông tin hình ảnh cấu trúc này đóng vai trò quan trọng trong việc nhận biếtvà xử lý các kích thích thị giác Các no-ron nhân tạo trong CNN được tổ chức một cách hiệu quả để diễn giải thông tin hình ảnh, cho phép mô hình nàyxử lý toàn bộ hình ảnh một cách tự nhiên Vì CNN có khả năng xác định đối tượng một cách hiệu quả, nó thường được áp dụng trong các tác vụ thị giác máy tính như nhận dạng hình ảnh vàphát hiện đốitượng Các ứng dụng phổ biến của CNN baogồm ứng dụng trongô tô tự lái, nhận dạng khuôn mặt và phân tích hình ảnh ytế.

CNN sử dụng một chuỗi các lóp, mỗi lóp đóng vai trò trong việc phát hiện các đặc điểm khác nhau của hình ảnh đầu vào Tùy thuộc vào mức độ phức tạp của mục tiêu, mộtCNN có thể chứa hàngchục, hàng trăm hoặc thậm chí hàng nghìn lớp Mỗi lớp được xây dựng dựa trên kết quả đầu ra của các lớp trước đó, nhằm nhận dạng các mẫu chi tiết và tăng cường khảnăng trích xuất đặc trưng của mạng.

Cấu trúc mạng CNN thường bao gồm một số lớp chính, bao gồm: lớptích chập, lớp kích hoạt, lóp gộp và lớp kếtnối đầy đủ Khi dữliệu đi qua các lớpnày, độ phức tạp của CNN tăng lên, cho phép mạngliên tục xác định các đặc điểm lớn hon của hình ảnh và các đặc trưngtrừu tượng hơn, giúp CNN hiểu được thông tin hình ảnh ở mức độ sâu hơn và phát hiệncácmẫu phức tạp trongdữ liệu đầu vào:

- Lớp tích chập(Convolutional Layers): lớp này sửdụngcác bộ lọc đểtríchxuấtcác đặctrưngtừ dữ liệu đầu vào Mỗi lớp convolutional thường sẽ có nhiều bộ lọc, và kích thước của mỗi bộ lọc có thể được điều chỉnh tùy thuộc vào cấu trúc dữ liệu đầu vào và yêu cầu củabài toán.

- Lớp kích hoạt (Activation Layers): sau mỗi lớptích chập, một hàm kích hoạtnhư ReLUthường đượcáp dụng đểtạo raphituyến tính và kích hoạt các đặc trưng.

- Lớp gộp (Pooling Layers): lớp gộp thường được sử dụng để giảm kích thước của các bảng đồ đặc trưng và giảm độ phức tạp của mô hình Phổ biến nhất là max poolingvà averagepooling.

- Lớp kếtnối đầy đủ (Fully Connected Layers): Sau khi thông qua các lớp tích chập và lớp gộp, các đặc trưng được duỗi và đưa vào các lớp kết nối đầy đủ Lớp này được sử dụng để kếthợp các đặc trưng đã học và dự đoán đầu racuối cùng.

Tùy vào bài toán cụ thể, lớp đầu ra có thể là một lớp kết nối đầy đủ cho bài toán phân loại hoặc chỉ là một nút đơn cho bài toán hồi quy.

Hình 2.8 Cấu trúc của một mạng CNNTùy thuộc vàoyêu cầu cụ thểcủa bài toán và dữ liệu, cóthể điều chỉnh cấutrúc mạngCNN bằng cách thêm hoặc loại bỏ các tầng và điều chỉnh các siêu siêu tham số như

ÁP dụng giải thuật học kết hợp cho Dự BÁO PHỤ TẢI

Mục tiêu thực hiện

Mục tiêuchính củanghiên cứu làxây dựng mô hình dựbáophụ tải điện cho các ngày, tuần và tháng tiếp theo bằng cách áp dụng các mô hình học kết hợp (XGBoost, LightGBM, CatBoost), đồng thời với mô hình MLP và CNN dùng để đối sánh. Nghiên cứu tiếp tục với mục tiêu so sánh và đánh giá hiệu suất của các mô hìnhnày. Đe định lượng và so sánh khảnăng dự báocủa các mô hình, tác giả sẽ sử dụng các tiêu chí sau:

- Thời gian dự báo: đánh giá thời gian mà mỗi mô hình cần để hoànthành dự báo.

- Sai số dự báo: được đo bằng các chỉ số như Mean Absolute Percentage Error (MAPE), Mean Squared Error (MSE), Mean Absolute Error (MAE) Các chỉ số này được sử dụng để đánh giá độ chínhxác và hiệu suất của mô hình.

Dữ liệu dùng trong dự báo

Úc là liên bang gồm 6 tiểu bang và 10 vùng lãnh thổ, trong đó có 3 vùng lãnh thổ lục địa và 7 vùng lãnh thổ hải ngoại Các tiểu bang bao gồm: New South Wales, Victoria, Queensland, South Australia (Nam Úc), Western Australia (Tây Úc) và Tasmania Trong số 10 vùng lãnh thổ có 2 vùng lãnh thổ tự quản là Northern Territory (Lãnh thổ Bắc Úc) và Australian Capital Territory (Lãnh thổ Thủ đô Úc).

Hình 3.1 Các bang và vùng lãnh thổ của nước úc

Bàiluậnvăn này dùng dữ liệu phụ tải điện của 5 bangcủanướcúc: New SouthWales (NSW), Queensland (QLD), South Australia (SA), Tasmania (TAS) và Victoria (VIC).

Dữ ỉiệu phụ tải điện của mỗi bangđược lưu trữ dưới dạng file Excel,bao gồm thông tinvề thời gian và lượng điện tiêuthụ trong khoảng thời gian 5 năm, từ 00:00 ngày 01/05/2009đến 23:30 ngày 31/05/2014 Dữliệuđược thu thậpmỗi30 phút, bao gồm tổng cộng 89.136 điểm dữ liệu.

Bảng 3.1 Bảng tóm tắt dữ liệuphụ tải 5bang của nước úc (MW)

Ngày, giờ NSW' QLD SA TAS VIC

Xây dựng mô hình dự báo trên Google Colaboratory

Hình 3.2 mô tả lưu đồgiải thuậtcơ bản của ba mô hình dựbáophụ tải điện: XGBoost, LightGBM và CatBoost, màbài luận văn này sử dụng.

Hình 3.2 Lưu đồ giải thuậtchung của 3 mô hình XGBoost, LightGBM và

Trước tiên chương trình sẽ tải các dữ liệu phụ tải điện của 5 bang của nước úc Dữ liệu đầu vào là matrận 2D, bao gồm cột ngày giờ lấy mẫu và cột giá trị lượng điện tiêu thụ tại thời điểm đó Dữliệu được biến đổi từ ma trận 2Dthành ma trận 1D (chỉ lấy giátrị lượng điện tiêu thụ) đểthuận tiện cho việc quản lý và xử lý tiếp theo Sau đó, hàm‘convertSeriesToMatrix’ chuyển đổi dữliệu chuỗi thời gian (ma trận 1D) thành ma trận 2D, trong đó mỗi hàng đại diện cho một chuỗi thời gian và mỗi cột chứa các giá trị đặc trưng trong chuỗi đó Điều nàygiúp chuẩn bị dữ liệu đầu vào cho mô hình, bằng cách sử dụng giátrị đặc trưng trong các chuỗi thời gian trước đó để dự đoán giá trị tiếp theo Độ dài chuỗi được xác định bằng ‘sequencẹ_iength 1 *48+1 Kết quả làmộtma trận (matrix_load) mà mỗi hàngđại diện cho mộtchuỗi thời gian có độ dài ‘sequence_length’.

Phânchiadữ liệu thànhhai phần: tậphuấn luyện (dữ liệu được sử dụng để huấn luyện mô hình) và tập kiểm tra(dữ liệu dùng để kiểm trađộ chính xác của môhình) Thông thường, tập huấn luyện chiếm một tỷ lệ lớn, từ 70% đến 95% tổng số dữ liệu, tập kiểm tra thường đượcchọn ngẫunhiên hoặc lấy tập dữ liệu gần nhất để đánh giátính chính xác của mô hình dự báo.

Bảng3.2 Kích thước dữ liệu dùng cho quá trình huấn luyện và kiểm tra mô hình trongcác trường hợp dự báo

Số ngày huấn luyện Số ngày kiểm tra

Từ dữ liệu huấn luyện (train_set) tác giảchiathành ‘x_train’, ‘y_train’:

• x_train: là ma trận đầu vào cho quá trình huấn luyện, được tạo bằng cách lấy tất cả cột của ‘train_set’ trừ đi cột cuối cùng (:-l) Mỗi hàng của ‘x_train’ đại diện cho một chuỗi thời gian.

• y_train: là vector đầu ra, được tạobằng cách lấycộtcuối cùng của‘train_set’.

# Tạo dữ liệu huấn luyện train_set = matrix_load [:train_row, :] x_train = train_set [:, :-l] y_train = train_set [:, -1]

Tạodữ liệu kiểmtra sai số từ tập kiểm tra: xác địnhbiến ‘x_test’ và ‘ỵ_test’:

• x_test: là ma trận đầu vào cho tập kiểm tra sai số Đượctạobằng cách lấy các cột từ ma trận ‘matrix_load từ ‘train_row’ đến ‘test_row - 1’, loại bỏ cộtcuối cùng (:-l).

• y_test: là vector đầu ra cho tập kiểm tra sai số Được tạo bằng cách lấy cộtcuối cùng của ma trận ‘matrix_load’ từ ‘train_row’ đến ‘test_row - 1’.

# Tạo dữ liệu kiểm tra sai số x_test = matrix_load[ train_row:test_row, :-l] y_test = matrix_load [train_row:test_row, -1]

Tác giả tiến hành xây dựng mô hình của các thuật toán XGBoost, LightGBM, CatBoost, MLP vàCNN Trong luận văn này, tác giả sử dụng các siêu tham số mặc định được xây dựng sẵn trong thư viện.

Tác giả thực hiện việc huấn luyện các mô hình trên dữ liệu huấn luyện (x_train, y_train) và sau đó dự đoán giá trị trên tập kiểm tra (x_test):

# Mô hình XGBoost mdl = XGBRegressor () mdl fit(X_train , y_train)

# Dự báo trên tập kiểm tra y_pred = mdl predict(X_test )

• mdi: là một đối tượng mô hình, ở đây là XGBRegressor, LGBMRegressor, CatBoostRegressor.

• mdi.fit(X_train, y_train): là bước huấn luyện mô hình với dữ liệu huấn luyện (x_train làđầu vào, y_train là đầu ra).

• y_pred: là biến để lưu trữ giá trị dự đoán của mô hìnhtrên tập kiểm tra (x_test).

3.3 3 Dự báo và kiểmtrasai số

Tác giả thực hiện các bước để tính toán và in ra màn hình các chỉ số sai số giữa giá trị thực tế (y_test) và giátrị dự đoán (y_pred). maps = mean_absolute_percentage_error(y_test,y_pred)*100 mse = mean_squared_error(y_test fy_pred) mae = mean_absolute_error(y_test ,y_pred)

Phần đoạn code hoànchỉnh (trường hợpdựbáophụtải một ngày của bang New South Wales) các mô hình XGBoost, LightGBM, CatBoost, MLP và CNN được tác giải trình bày trong phần phụ lục, từ Phụ lục 1 đến Phụ lục 5.

KẾT QUẢ Dự BÁO PHỤ TẢI

Kết quả dự báo một ngày

- Dữ liệu bang New South Wales (NSW): a) Mô hình XGBoost b) Mô hình LightGBM c) Mô hình CatBoost d) Mô hình MLP e) Mô hình CNNHình 4.1 Kết quả dự báo phụ tải mộtngày bang New South Wales

Hình 4.1 bêntrêntrình bày kết quả của các mô hìnhdự báophụ tải trongkhoảng thời gian một ngày của bangNew SouthWales:

Bảng 4.1 Kết quả đánh giá sai số và thời gian dự báo các môhình bangNew

Sai số Thòi gian dự báo (s)

Bảng 4.1 trình bày kết quả đánh giá sai số dự báo phụ tải một ngày bang New South Wales của các mô hình, sai số MAPE của 03 mô hình học kết hợp là XGBoost 0,761 (%), LightGBM = 0,639 (%), và Catboost = 0,649 (%) nhỏ hon so vói sai số của mô hình đối sánh MLP = 1,456 (%), CNN= 1,09 (%) Đồng thời sai số MSE và MAE của 03 mô hìnhhọc kếthợp cũng nhỏhon sai số của mô hình MLP,CNN Thời gian chạy của 02 mô XGBoost = 1,327 (s), LightGBM = 0,748 (s) nhỏ hơn nhiều so với thời gian chạy của môhình đối sánh MLP = 11,242 (s), CNN = 14,655 (s).

- Dữ liệu bang Queensland (QLD):

Hình4.2 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một ngày của bang Queensland: Đ iệ n n ă n g ti ê u th ụ (M W ) ® '^ n ă ^ẵ h ê 1 1 ^ '^ (M W ) a) Mô hình XGBoost b) Mô hình LightGBM e) Mô hình CNNHình4.2 Kết quả dự báo phụ tải một ngày bang Queensland

Bảng 4.2 Kết quảđánh giá sai số và thời gian dựbáo các môhìnhbang

Sai sổ Thòi gian dự báo (s)

Bảng 4.2 trình bày kết quảđánh giá sai số dự báo phụ tải mộtngàybang Queensland của các mô hình, cho thấy mô hình CatBoost có sai số đánh giá MAPE= 0,558 (%), MSE= 2.041,08 (MW2), MAE = 32,852 (MW) thấpnhất so với 04 mô hình còn lại Thời gian dự báo của mô hình LightGBM=0,409 (s), là mô hìnhcó thời giandự báo nhanh nhất 03 mô hình học kết hợp làXGBoost, LightGBM, và Catboost có sai số MAPE, MSE, MAE nhỏ hon so với sai số của mô hình đối sánh MLP, CNN.

- Dữ liệu bang SouthAustralia (SA):

Hình 4.3 trình bày kết quả dự báo phụ tải trong khoảng thời gian một ngày của bang South Australia được thực hiện bởi các mô hình XGBoost, LightGBM và CNN.

Bảng 4.3 Kết quả đánh giá sai sốvà thời gian dự báocácmô hình bang South

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.3 trình bày kết quả đánh giá sai số dự báo phụ tải một ngày bang South Australia củacác mô hình, chothấy mô hình CatBoost có sai số đánh giá MAPE 1,257 (%), MSE F3,28 (MW2), MAE= 17,403 (MW)nhỏ hơn so với 04 mô hình còn lại Thời gian dự báo của mô hình LightGBM = 0,725 (s), là mô hình có kết quả dự báonhanh nhất Cả03 mô hình học kết hợp là XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai số của mô hình đối sánh MLP, CNN.

- Dữ liệu bang Tasmania (TAS):

Hình4.4 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một ngày của bang Tasmania: Đ iệ n n ă n g ti ê u t h ụ (M W ) Đ iệ n n ă n g t iê u t h ụ (M W ) a) Mô hình XGBoost b) Mô hình LightGBM c) Mô hình CatBoost d) Mô hình MLP e) Mô hình CNNHình4.4 Kết quả dự báo phụ tải một ngày bang Tasmania

Bảng 4.4 Kết quảđánh giá sai số và thời gian dự báo các mô hình bang Tasmania

Môhình Sai số Thòi gian dự báo (s)

Bảng 4.4 trình bày kết quả đánh giá sai số dự báo phụ tải một ngày bang Tasmania của các mô hình, mô hình CatBoostcó sai số đánh giá MAPE = 1,034 (%), MSE 286,61 (MW2), MAE = 12,981 (MW) nhỏ hon so vói 04 mô hình còn lại Mô hình XGBoostcó sai số đánhgiá MAPE =1,12 (%), MSE = 287,36(MW2), MAE = 13,549 (MW) nhỏ hon mô hình LightGBM có sai số đánh giá MAPE = 1,139 (%), MSE 296,46 (MW2), MAE = 13,916 (MW) Thời gian dự báo của mô hình LightGBM 0,713 (s), là mô hình có kết quả dự báo nhanh nhất Cả 03 mô hình học kết hợp là XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏhon so với sai sốcủa mô hìnhđối sánh MLP,CNN.

Hình 4.5 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một ngày của bang Victoria: Đ iệ n n ă n g ti ê u t h ụ (M W ) Đ iệ n n ă n g t iê u t h ụ (M W ) a) Mô hình XGBoost b) Mô hình LightGBM e) Mô hình CNNHình 4.5 Kết quả dự báo phụ tải một ngày bangVictoria

Bảng 4.5 Kết quảđánh giá sai sốvà thời gian dự báo các mô hình bang Victoria

Môhình Sai số Thòi gian dự báo (s)

Bảng 4.5 trình bày kết quả đánh giá sai số dự báophụ tải một ngày bangVictoriacủa các mô hình, mô hình LightGBM có sai số đánh giá MAPE = 0,793 (%), MSE 3.845,95 (MW2), MAE = 46,661 (MW)nhỏ hơn so với 04 mô hình còn lại Mô hình CatBoost có sai số đánh giá MAPE, MSE, MAE nhỏ hơn mô hình XGBoost, nhưng mô hình này lại có thời gian dự báo chậm hơn Thời gian dự báo của mô hình LightGBM = 0,791 (s), là mô hình cókết quả dự báonhanh nhất Cả03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai sốcủa mô hình đối sánh MLP, CNN.

Bảng tông hợp kêt quả sai sô đánh giá và thời gian dựbáo của các mô hình:

Bảng 4.6 Bảng tổng hợp kết quả sai sốMAPE của cácmô hình (dựbáo một ngày)

NSW QLD SA TAS VIC

Bảng 4.7Bảng tông hợp kêt quảsai sôMSEcủa cácmô hình (dựbáo một ngày)

NSW QLD SA TAS VIC

Bảng 4.8 Bảng tổng hợp kết quảsai số MAE của các môhình (dựbáo mộtngày)

NSW QLD SA TAS VIC

Bảng 4.9 Bảng tổng hợp thời gian dự báo củacác môhình(dự báo mộtngày)

NSW QLD SA TAS VIC

Từ bảng4.6 đến bảng 4.9 cho thấy trong khoảng thời gian dự báo một ngày:

- Mô hình CatBoost có kết quả sai số đánh giá MAPE, MSE và MAEtốtnhất ỏ 03 bang Queensland, South Australia, Tasmania nhưng thời gian dự báo chậm nhất (hon 13,336 giây ởcảdữ liệu 5 bang).

- Mô hình XGBoost có kết quả sai số đánh giá lớn hơn LightGBM và CatBoost ở dữ liệu bang New South Wales, Queensland, Victoria, nhưng thời gian chạy dự báonhanh hơn mô hìnhCatBoost, MLP và CNN.

- Mô hình LightGBM có sai số đánh giá nằm giữa XGBoost và CatBoost Nhưng môhìnhnàycó thời gian dự báonhanh nhất (dưới 0,791 giây).

- Cả 03 mô hình XGBoost, LightGBM, CatBoost đều có sai số đánh giá MAPE,MSEvà MAE nhỏ hơn hai môhình MLP và CNN.

Kết quả dự báo một tuần

- Dữ liệu bang New South Wales(NSW):

Hình4.6 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một tuần của bang New South Wales: Đ iệ n n ă n g ti ê u t h ụ (M W ) Đ iệ n n ă n g t iê u th ụ (M W ) a) Mô hình XGBoost b) Mô hình LightGBM

Thời gian (ngày) e) Mô hình CNNHình4.6 Kết quả dự báo phụ tải một tuần bang New SouthWales

Bảng 4.10 Kết quả đánh giá sai số và thời gian dự báo các mô hình bang New

Mô hình Sai số Thòi gian dự báo (s)

Mô hình LightGBM thể hiện hiệu suất vượt trội so với các mô hình khác trong đánh giá sai số dự báo phụ tải một tuần của New South Wales, với MAPE 0,737%, MSE 5.803,79 (MW2) và MAE 57,749 (MW) Tuy nhiên, mô hình CatBoost cũng có sai số đánh giá nhỏ hơn XGBoost, mặc dù thời gian dự báo của nó lâu hơn đáng kể (15,521 giây) Trong khi đó, các mô hình XGBoost (1,506 giây), LightGBM (0,973 giây) và CatBoost có thời gian dự báo nhanh hơn MLP (22,353 giây) và CNN (42,084 giây) Nhìn chung, các mô hình học kết hợp XGBoost, LightGBM và CatBoost đều có sai số dự báo nhỏ hơn so với các mô hình so sánh MLP và CNN.

- Dữ liệu bang Queensland (QLD):

Hình4.7 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một tuần của bang Queensland: Đ iệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u t h ụ (M W ) e) Mô hình CNNHình 4.7 Kết quả dự báo phụ tải một tuần bang Queensland

Bảng 4.11 Kết quả đánh giá sai số và thời gian dựbáo cácmô hìnhbang

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.11 trình bày kết quả đánh giá sai số dự báophụ tải một tuần bangQueensland của các mô hình, mô hình CatBoost có sai số đánh giá MAPE = 0,716 (%), MSE 2.924,91 (MW2), MAE @,236 (MW)nhỏ hon so vói 04 mô hình còn lại Mô hình LightGBM có sai số đánh giá MAPE, MSE, MAE nhỏ hon mô hình XGBoost Thời gian dự báo của 03 mô hình XGBoost = 1,540 (s), LightGBM = 1,039 (s), CatBoost

= 17,26 (s) nhanh hơn 02 mô hình MLP = 20,124 (s), CNN = 39,959 (s) Cả 03 mô hình học kếthợpXGBoost, LightGBM,và Catboost đều cósai số MAPE, MSE,MAE nhỏ hơn so với sai sốcủa mô hình đối sánh MLP, CNN.

- Dữ liệu bang SouthAustralia (SA):

Hình4.8 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một tuần của bang South Australia: Đ iệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W )

Thòi gian (ngày) a) Mô hình XGBoost

Thòi gian (ngày) b) Mô hình LightGBM

Thòi gian (ngày) c) Mô hình CatBoost d) Mô hình MLP

Thòi gian (ngày) e) Mô hình CNNHình 4.8 Kết quả dự báo phụ tải một tuần bang South Australia

Bảng 4.12Kết quả đánh giá sai số và thời gian dự báo các môhình bang South

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.12 trình bày kết quả đánh giá sai số dự báo phụ tải một tuần bang South Australia của các mô hình, mô hình CatBoost có sai số đánh giá MAPE = 1,384(%), MSE = 672,85 (MW2), MAE= 19,505 (MW) nhỏ hơnso với 04 mô hình còn lại Mô hình XGBoostcó sai số đánh giá MAPE, MAE nhỏ hơn mô hình LightGBM Thời gian dự báo của 03 mô hình XGBoost = 2,003 (s), LightGBM = 1,255 (s), CatBoost

= 13,9 (s) nhanh hơn 02 mô hình MLP = 18,555 (s), CNN = 42,296 (s) Cả 03 mô hình học kếthợpXGBoost, LightGBM,và Catboost đều cósai số MAPE, MSE,MAE nhỏ hơn so với sai sốcủa mô hình đối sánh MLP, CNN.

- Dữ liệu bang Tasmania (TAS):

Hình 4.9 trình bày kết quả của các mô hình dựbáophụ tải trong khoảng thời gian một tuần của bang Tasmania: Đ iệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W ) bì 2 3 4 5 6 7

Thòi gian (ngã') a) Mô hình XGBoost b) Mô hình LightGBM

Thòi gian (ngày) Thời gian (ngày) c) MÔ hình CatBoost d) Mô hình MLP

Thòi gian (ngày) e) Mô hình CNNHình 4.9 Kết quả dự báo phụ tải một tuần bang Tasmania

Bảng 4.13 Kết quả đánh giá sai số và thời gian dựbáo cácmô hìnhbang

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.13 trình bày kết quảđánh giá sai số dự báo phụ tải mộtthángbang Tasmania của các mô hình, mô hình LightGBM có sai số đánh giá MAPE= 1,383 (%), MSE 441,31 (MW2), MAE = 16,167 (MW) nhỏ hơn so với 04 mô hình còn lại Mô hình CatBoost có sai số đánh giá MAPE, MSE, MAE nhỏ hơn mô hình XGBoost, nhưng mô hình này có thời gian dự báo chậm hơn Thời gian dự báo của 03 mô hình XGBoost = 1,958 (s),LightGBM = 0,946 (s), CatBoost = 15,91 (s) nhanh hơn 02 mô hình MLP = 27,611 (s), CNN = 42,444 (s) Cả 03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai so MAPE, MSE, MAE nhỏ hơn so với sai số của môhình đối sánh MLP, CNN.

Hình 4.10 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tuần của bang Victoria: Đ i ệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W )

Thòi gian (ngậy) a) Mô hình XGBoost

Thời gian (ngày) b) Mô hình LightGBM

Thòi gian (ngày) e) Mô hình CNNHình 4.10 Kết quả dự báo phụ tải một tuần bang Victoria

Bảng 4.14 Kết quả đánh giá sai số và thời gian dự báo cácmô hình bangVictoria

Môhình Sai số Thòi gian dự báo (s)

Bảng4.14 trình bày kết quả đánh giá sai số dự báo phụ tải mộttháng bang Victoria của các môhình, cho thấy mô hình LightGBM có sai số đánh giá MAPE=0,92 (%), MAE= 49,453 (MW) nhỏ hon so với 04 mô hình còn lại Mô hình CatBoost có sai số đánh giá MAPE, MSE, MAE nhỏ hon mô hình XGBoost, nhưng mô hìnhnày có thời gian dự báo chậm hon Thời gian dự báo của03 mô hình XGBoost = 1,805 (s), LightGBM =0,93 5 (s), CatBoost = 18,642 (s) nhanh hon 02 môhình MLP = 22,004 (s), CNN = 42,116 (s).Cả03 mô hình họckếthợpXGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai số của mô hình đối sánh MLP, CNN.

Bảng tổng hợp kết quả sai số đánh giá và thời gian dự báo của các mô hình:

Bảng 4.15 Bảng tông hợp kêt quả sai sô MAPE của các mô hình (dự báo mộttuân)

Mô hình Sai số AL4PE

NSW QLD SA TAS VIC

Bảng 4.16Bảng tông hợp kêt quả sai sô MSE của các mô hình (dựbáo mộttuân)

Mô hình Sai số MSE

NSW QLD SA TAS VIC

Bảng 4.17 Bảng tổng hợp kết quả sai số MAEcủa các môhình (dựbáo một tuần)

NSW QLD SA TAS VIC

Bảng 4.18 Bảng tông hợp thời gian dự báo của các môhình (dự báo mộttuân)

Mô hình Thòi gian dựbáo (s)

NSW QLD SA TAS VIC

Từ bảng 4.15 đến bảng 4.18 cho thấy trong khoảng thời gian dự báo mộttuần:

- Mô hình LightGBM có kết quả sai số đánh giá MAPE, MSE và MAE tốtnhấtở2 bang New South Wales và Tasmania, đồng thời mô hình này có thời gian dự báo nhanh nhất (dưới 1,255 giây).

- Mô hình CatBoost có kết quả sai số đánh giá MAPE, MSE và MAE tốt nhất ỏ 2 Queensland và South Australia, nhưng cóthời gian dự báo hon 13,9 giây ở cả dữ liệu 5 bang.

- Mô hình XGBoost có kết quả sai số đánh giá lớn hon LightGBM và CatBoost, nhưng thời gian chạy dự báonhanh hơn môhình CatBoost.

- Cả 03 mô hình XGBoost, LightGBM, CatBoost đều có sai số đánh giá MAPE,MSEvà MAE nhỏ hơn hai môhình MLP và CNN.

Kết quả dự báo một tháng

- Dữ liệu bang New South Wales (NSW):

Hình 4.11 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tháng của bangNew South Wales: Đ iệ n n ă n g t iê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W ) a) Mô hình XGBoost

Thòi gian (ngày) c) MÔ hình CatBoost

Thòi gian (ngậy) b) Mô hình LightGBM

Thòi gian (ngày) d) Mô hình MLP

Thòi gian (ngày) e) Mô hình CNNHình4.11 Kết quả dự báo phụ tải mộttháng bangNew South Wales

Bảng 4.19 Kết quảđánh giá sai sốvà thời gian dựbáo các mô hình bang New

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.19 trình bày kết quả đánh giá sai số dựbáophụ tải mộtthángbang New South Wales của cácmô hình, cho thấymô hình CatBoost có sai số đánh giá MAPE = 0,72 (%), MSE = 5.481,4(MW2), MAE = 52,86 (MW)nhỏhơn so với 04 mô hình còn lại

Mô hình LightGBM có sai số đánh giá MAPE, MSE, MAE nhỏ hơn mô hình XGBoost Thời gian dự báo của 03 mô hình XGBoost = 2,07 (s), LightGBM =1,5 (s), CatBoost = 22,81 (s) nhỏ hơn nhiều so với thời gian dự báo của 02 mô hình MLP

= 83,4 (s), CNN = 203,41 (s) Cả 03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai số của mô hình đối sánh MLP,CNN.

- Dữ liệu bang Queensland (QLD):

Hình 4.12 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tháng của bang Queensland: Đ iệ n n ă n g t iê u th ụ (M W ) Đ iệ n n ă n g ti ê u t h ụ (M W )

Thời gian (ngày) a) Mô hỉnh XGBoost

Thòi gian (ngậy) c) MÔ hình CatBoost

Thòi gian (ngày) b) Mô hỉnh LightGBM

Thời gian (ngày) d) Mô hình MLP

Thòi gian (ngày) e) Mô hỉnh CNNHình 4.12 Kêt quả dự báo phụtải một tháng bang Queensland

Bảng 4.20 Kết quả đánh giá sai số và thời gian dự báo cácmô hìnhbang

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.20 trình bày kết quả đánh giá sai số dự báophụtảimột tháng bangQueensland của các mô hình, cho thấy mô hình CatBoost có sai số đánh giá MAPE = 0,7 (%), MSE= 3.038,8 (MW2), MAE = 39,45 (MW)nhỏ hơn so với 04 mô hình còn lại Mô hìnhXGBoost có sai số đánh giá MAPE, MSE, MAE nhỏ hơn mô hình LightGBM. Thời gian dựbáo của 03 mô hình XGBoost = 2,1 (s), LightGBM= 1,48 (s), CatBoost

= 20,83 (s) nhỏ hơn nhiều sovới thời gian dự báo của 02 mô hình MLP = 77,39 (s), CNN = 143,54 (s) Cả 03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai số của mô hình đối sánh MLP, CNN.

- Dữ liệu bang SouthAustralia (SA):

Hình 4.13 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tháng của bang South Australia: Đ iệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W )

Thời gian (ngày) a) Mô hình XGBoost

Thời gian (ngày) c) Mô hình CatBoost

Thời gian (ngày) b) Mô hình LightGBM

Thời gian (ngày) d) Mô hình MLP e) Mô hình CNNHình 4.13 Kết quả dự báo phụ tải mộttháng bang South Australia

Bảng 4.21 Kết quả đánh giá sai số và thời gian dự báo các mô hình bang South

Mô hình Sai số Thòi gian dự báo (s)

Bảng 4.21 trình bày kết quả đánh giá sai số dự báo phụ tải một tháng bang South Australia củacác mô hình, chothấy mô hình CatBoost có sai số đánh giá MAPE 2,07 (%), MSE = 1.368,6 (MW2), MAE = 27,18 (MW) nhỏ hơn so với 04 mô hình còn lại Mô hình LightGBM có sai số đánh giá MAPE, MSE, MAE nhỏ hơn mô hình XGBoost Thời gian dự báo của 03 mô hình XGBoost = 2,13 (s), LightGBM = 1,34 (s), CatBoost = 20,12 (s) nhỏ hơn nhiều so với thời gian dựbáo của 02 mô hình MLP

= 88,59 (s), CNN 3,13 (s) Trongđó02mô hình học kết hợp LightGBM, Catboost có sai số MAPE, MSE, MAE nhỏhơn so với sai số của mô hình đối sánhMLP, CNN.

- Dữ liệu bang Tasmania (TAS):

Hình4.14 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tháng của bang Tasmania: Đ iệ n n ă n g ti ê u th ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W )

Thời gian (ngày) a) Mô hình XGBoost

Thời gian (ngày) c) MÔ hình CatBoost

Thời gian (ngày) b) Mô hình LightGBM

Thời gian (ngày) d) Mô hình MLP

Thòi gian (ngày) e) Mô hình CNNHình 4.14 Kết quả dự báo phụ tải một tháng bang Tasmania

Bảng 4.22Kết quả đánh giá sai số và thời gian dự báo cácmô hình bang Tasmania

Môhình Sai số Thòi gian dự báo (s)

Bảng 4.22 trình bày kết quảđánh giá sai số dự báo phụ tải mộtthángbang Tasmania của các mô hình, chothấy mô hình CatBoost có sai số đánh giá MAPE =1,79 (%), MSE = 764 (MW2), MAE ,28 (MW)nhỏhơn so với 04 mô hìnhcòn lại Mô hình LightGBM có sai số đánh giáMAPE, MSE, MAEnhỏ hơn mô hình XGBoost Thời gian dự báo của 03 mô hình XGBoost = 2,36 (s), LightGBM = 1,34 (s), CatBoost 21,38 (s) nhỏ hơn nhiều so với thời gian dự báo của 02 mô hình MLP = 80,91 (s), CNN = 162,55 (s) Cả 03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hơn so với sai số của mô hình đối sánh MLP, CNN.

Hình4.15 trình bày kết quả của các mô hình dự báo phụ tải trong khoảngthời gian một tháng của bang Victoria: Đ iệ n n ă n g ti ê u t h ụ (M W ) Đ iệ n n ă n g ti ê u th ụ (M W )

Thời gian (ngày) a) Mô hình XGBoost

Thời gian (ngày) c) MÔ hình CatBoost

Thời gian (ngày) b) Mô hình LightGBM d) Mô hình MLP

Thòi gian (ngày) e) Mô hình CNNHình 4.15 Kết quả dự báo phụ tải một tháng bang Victoria

Bảng 4.23 Kết quảđánh giá sai số và thời gian dựbáo các mô hình bangVictoria

Môhình Sai số Thòi gian dự báo (s)

Bảng 4.23 trình bày kết quả đánh giá sai số dự báo phụ tải mộttháng bang Victoria của các mô hình, chothấy mô hình CatBoost có sai số đánh giá MAPE = 0,93 (%), MSE= 3.73 8,8 (MW2), MAE = 46,76 (MW)nhỏ hon so với 04 mô hình còn lại Mô hìnhXGBoost có sai số đánh giá MAPE, MSE, MAE nhỏ hon mô hình LightGBM. Thời gian dựbáocủa03 mô hình XGBoost= 1,99 (s), LightGBM = 1,37 (s), CatBoost

= 20,31 (s) nhỏ hon nhiều sovới thời gian dự báo của 02 mô hình MLP = 84,85 (s), CNN = 155,38 (s) Cả 03 mô hình học kết hợp XGBoost, LightGBM, và Catboost đều có sai số MAPE, MSE, MAE nhỏ hon so với sai số của mô hình đối sánh MLP, CNN.

Bảng tổng hợp kết quả sai số đánh giá và thời gian dự báo của các mô hình:

Bảng 4.24 Bảng tổng hợp kết quả sai số MAPE của các mô hình (dự báo mộttháng)

NSW QLD SA TAS VIC

Bảng 4.25 Bảng tông hợp kêt quả sai sô MSE của cácmôhình (dựbáo mộttháng)

NSW QLD SA TAS VIC

Bảng 4.26Bảng tổng hợp kết quả sai số MAEcủa các mô hình (dựbáo mộttháng)

NSW QLD SA TAS VIC

Bảng 4.27 Bảng tông hợp thòi gian dự báo của các môhình (dự báo mộttháng)

Mô hình Thời gian dựbáo (s)

NSW QLD SA TAS VIC

Từ bảng 4.24 đến bảng 4.27 cho thấytrong khoảng thời gian dự báo mộttháng:

- Mô hình CatBoostcókết quả sai số đánhgiá MAPE, MSE và MAE tốt nhất, nhưng thời gian dự báo hơn 20 giây ở cảdữ liệu 5 bang.

- Mô hình XGBoost có kết quả sai số đánh giá lớn hơn mô hình CatBoost và LightGBM,nhưng thời gian chạydự báonhanh hơn môhình CatBoost.

- Mô hình LightGBM có sai số đánh giá nằm giữa XGBoost và CatBoost Nhưng môhìnhnàycó thời gian dự báonhanh nhất (dưới 1,5 giây).

- Mô hìnhCNN có thời gian dự báo chậm nhất ởcả 5 bang.

- Cả 03 mô hình XGBoost, LightGBM, CatBoost đều có sai số đánh giá MAPE,MSE, MAE và thời gian dự báo nhỏ hơn hai mô hình MLP và CNN.

Kết luận

Đối với trường hợp dự báo trong khoảng thời gian một ngày, một tuần thì mô hình LightGBM và CatBoostcó độ chính xác gầnnhư nhau Trongtrườnghợp dự báo một tháng thì mô hình CatBoost lại có sai số nhỏ hơn tất cả các mô hình còn lại ở tất cả các bang.

Sai số dự báo sẽ giảm dần qua các mô hình: CatBoost < LightGBM < XGBoost

Ngày đăng: 06/05/2024, 17:23

HÌNH ẢNH LIÊN QUAN

Hình 1.2  Cấu tạo của mạng  nơ  rơn nhân tạo - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 1.2 Cấu tạo của mạng nơ rơn nhân tạo (Trang 23)
Hình  2.2 Mô hình  phương pháp Stacking - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 2.2 Mô hình phương pháp Stacking (Trang 32)
Hình 2.3 Mô  hình phương  pháp  Blending - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 2.3 Mô hình phương pháp Blending (Trang 33)
Hình  2.4  Mô  hình phương  pháp  Bagging - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 2.4 Mô hình phương pháp Bagging (Trang 34)
Hình 2.5  Mô hình  phương pháp  Boosting - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 2.5 Mô hình phương pháp Boosting (Trang 34)
Hình 2.6  Minh họa sự khác nhau  giữa  2  cơ chế  level-wise và  leaf-wise - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 2.6 Minh họa sự khác nhau giữa 2 cơ chế level-wise và leaf-wise (Trang 42)
Bảng 2.2 Bảng  giá trị mặc định  và khoảng  giá trị cài  đặt  các siêu tham  số của  mô hình LightGBM - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Bảng 2.2 Bảng giá trị mặc định và khoảng giá trị cài đặt các siêu tham số của mô hình LightGBM (Trang 45)
Hình  2.7  Một  mạng  MLP  với  2 lớp ẩn - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 2.7 Một mạng MLP với 2 lớp ẩn (Trang 54)
Hình  3.1 Các  bang  và  vùng  lãnh thổ  của  nước  úc - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 3.1 Các bang và vùng lãnh thổ của nước úc (Trang 58)
Hình  4.1  Kết  quả dự  báo phụ  tải  một ngày bang  New South  Wales - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 4.1 Kết quả dự báo phụ tải một ngày bang New South Wales (Trang 63)
Hình 4.2 Kết  quả dự  báo phụ  tải  một  ngày  bang Queensland - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.2 Kết quả dự báo phụ tải một ngày bang Queensland (Trang 65)
Bảng  4.2 Kết  quả đánh  giá  sai số  và  thời  gian dự báo  các mô hình bang  Queensland - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
ng 4.2 Kết quả đánh giá sai số và thời gian dự báo các mô hình bang Queensland (Trang 66)
Hình  4.3  Kết  quả  dự báo phụ  tải  một  ngày  bang South Australia - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 4.3 Kết quả dự báo phụ tải một ngày bang South Australia (Trang 67)
Hình 4.4 Kết  quả dự  báo phụ  tải  một  ngày  bang  Tasmania - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.4 Kết quả dự báo phụ tải một ngày bang Tasmania (Trang 69)
Bảng  4.9  Bảng  tổng hợp  thời  gian dự báo  của các mô hình (dự  báo một ngày) - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
ng 4.9 Bảng tổng hợp thời gian dự báo của các mô hình (dự báo một ngày) (Trang 73)
Hình 4.6 Kết  quả  dự báo phụ  tải  một  tuần  bang  New South Wales - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.6 Kết quả dự báo phụ tải một tuần bang New South Wales (Trang 75)
Hình  4.7  Kết  quả  dự báo phụ  tải  một  tuần  bang Queensland - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
nh 4.7 Kết quả dự báo phụ tải một tuần bang Queensland (Trang 77)
Hình 4.9 Kết quả dự báo phụ tải một tuần bang Tasmania - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.9 Kết quả dự báo phụ tải một tuần bang Tasmania (Trang 81)
Bảng 4.16 Bảng  tông hợp kêt  quả  sai  sô MSE của các mô hình  (dự báo một tuân) - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Bảng 4.16 Bảng tông hợp kêt quả sai sô MSE của các mô hình (dự báo một tuân) (Trang 85)
Hình 4.11 Kết  quả dự  báo phụ  tải  một tháng bang New South Wales - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.11 Kết quả dự báo phụ tải một tháng bang New South Wales (Trang 87)
Hình 4.14 Kết quả dự báo phụ tải một tháng bang Tasmania - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Hình 4.14 Kết quả dự báo phụ tải một tháng bang Tasmania (Trang 93)
Bảng 4.23  Kết  quả đánh  giá  sai số  và  thời  gian dự báo  các  mô  hình  bang Victoria - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Bảng 4.23 Kết quả đánh giá sai số và thời gian dự báo các mô hình bang Victoria (Trang 96)
Bảng 4.26 Bảng  tổng hợp kết  quả  sai  số MAE của các mô hình  (dự báo một tháng) - áp dụng giải thuật học kết hợp trong học máy cho dự báo phụ tải điện
Bảng 4.26 Bảng tổng hợp kết quả sai số MAE của các mô hình (dự báo một tháng) (Trang 97)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w