1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt: Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

26 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải Tiến Phương Pháp Học Máy Trong Chuỗi Thời Gian Và Ứng Dụng
Tác giả Nguyễn Quang Đạt
Người hướng dẫn TS. Nguyễn Thị Ngọc Anh, PGS.TS. Nguyễn Ngọc Doanh
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Toán học
Thể loại Luận án
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 26
Dung lượng 1,33 MB

Nội dung

Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng.

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Quang Đạt CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY TRONG CHUỖI THỜI GIAN VÀ ỨNG DỤNG Ngành: Toán học Mã số: 9460101 Hà Nội - 2023 Cơng trình hồn thành tại: Đại học Bách khoa Hà Nội Tập thể hướng dẫn: TS Nguyễn Thị Ngọc Anh PGS.TS Nguyễn Ngọc Doanh Phản biện 1: PGS TS Lê Hoàng Sơn Phản biện 2: PGS TS Nguyễn Mạnh Hùng Phản biện 3: PGS TS Lê Văn Hiện Luận án bảo vệ trước Hội đồng đánh giá Luận án Tiến sĩ cấp Đại học Bách Khoa Hà Nội, họp Đại học Bách Khoa Hà Nội Vào hồi 14 00, ngày 30 tháng 10 năm 2023 Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu – Đại học Bách khoa Hà Nội Thư viện Quốc gia Việt Nam Mở đầu Đặt vấn đề Dữ liệu dự báo chuỗi thời gian quan trọng cho việc dự báo tương lai nói tới bên Các liệu dự báo này, kết hợp với số hệ thống khác (ví dụ dự báo thời tiết gồm có hệ thống ảnh vệ tinh, liệu quan trắc từ điểm đo, v.v ) đưa kết xác cho hệ thống nhằm mục tiêu vận hành hệ thống cách hợp lý Động nghiên cứu toán Một vấn đề Big-data nghiên cứu chuỗi thời gian time series Một mục tiếu quan trọng xử lý chuỗi thời gian dự báo (prediction forecasting) Mục tiêu Luận án Trong Luận án tập trung nghiên cứu đưa số mơ hình máy học áp dụng cho dự báo chuỗi thời gian: (1) Phân tích một vài chuỗi thời gian; (2) Đưa mơ hình phù hợp để tính giá trị dự báo tương lai chuỗi thời gian chọn thời điểm chọn; (3) Tối ưu hóa kết cho dự báo ngắn hạn dự báo dài hạn (có thể thêm dự báo trung hạn) Phạm vi nghiên cứu Với mục tiêu đặt bên trên, tập trung vào nghiên cứu số vấn đề sau đây: (1) Phân tích ưu nhược điểm số mơ hình máy học truyền thống; (2) Áp dụng máy học trực tuyến (online learning) số chuỗi thời gian; (3) Phân tích, cài đặt chạy số mơ hình lai; (4) Một số vấn đề tương lai cần giải Phương pháp nghiên cứu Hướng nghiên cứu mà làm gồm số phương pháp sau: (1) Áp dụng phương pháp truyền thống; (2) Phân tích ưu nhược điểm phương pháp truyền thống, từ nghiên cứu đưa mơ hình lai phù hợp; (3) Khi có mơ hình đề xuất, áp dụng vào liệu phù hợp để kiểm tra kết quả; (4) Phân tích, cài đặt áp dụng chạy chương trình số liệu số phương pháp máy học Online (trực tuyến); (5) Tổng hợp vấn đề đưa số mơ hình tốt Chương 1: Một số mơ hình truyền thống chuỗi thời gian Chương giới thiệu số mô hình truyền thống sử dụng rộng rãi nay, gồm số mơ hình tuyến tính ARIMA, SARIMA, số mơ hình mạng thần kinh nhân tạo ANN, RNN áp dụng mơ hình Wavelet lọc nhiễu xử lý liệu 1.1 Autoregressive Integrated Moving Average Model - ARIMA ARIMA, cụm từ viết tắt thông dụng Autoregressive Integrated Moving Average tác giả Box Jenkin đưa năm 1971 [1], ứng dụng vào mơ hình tính tốn cho chuỗi thời gian Tới năm 1991, Brock David [2] đưa mơ tả chi tiết mơ hình ARIMA Hiện nay, mơ hình ARIMA mơ hình sử dụng rộng rãi vào dự báo chuỗi thời gian Mơ hình ARIMA kết hợp mơ hình thành phần: AR: tự hồi quy; I: sai phân; MA: trung bình trượt Trong ARIMA, giá trị d thể hiên cho phần "I", Integrated Tiếp theo, xem xét giá trị p q mô hình (chúng ta gọi chúng tham số mơ hình ARIMA) Ở đây, p tham số phần tự hồi quy mơ hình (phần AR mơ hình ARIMA) (tiếng Anh "order of the ‘Auto Regressive’ (AR) term") Còn giá trị q tham số tương ứng phần trung bình trượt mơ hình (phần MA mơ hình ARIMA) yt    1 yt 1  2 yt 2    p yt  p    1 t 1   2 t 1    q  t q Do đó, mục tiêu mơ hình ARIMA xác định giá trị p, d, q Cơ xây dựng mơ hình ARIMA theo bước sau: (1) Xác định tính dừng chuỗi thời gian; (2) Ước lượng tham số mơ hình Ở tham số p q; (3) Tính toán giá trị chuỗi thời gian để xác định độ xác mơ hình Hiệu chỉnh tham số p, d, q, đưa ước lượng tốt tham số này; (4) Dự đoán chuỗi thời gian (với khoảng tin cậy) 1.2 Seasonal Autoregressive Integrated Moving Average – SARIMA Seasonal Autoregressive Integrated Moving Average, SARIMA hay Seasonal ARIMA, mở rộng mơ hình ARIMA với việc phân tích thêm tính mùa (thành phần theo mùa - seasonal) liệu Phần theo mùa mơ hình bao gồm tham số giống với thành phần không theo mùa mơ hình ARIMA Khi đó, mơ hình SARIMA cần phải chọn parameters hyperparameters cho thành phần liệu: thành phần xu hướng (trend) thành phần mùa (seasonal): Thành phần xu hướng - Trend: có tham số giống mơ hình ARIMA Chúng tham số sau đây: p: bậc hồi quy tự động xu hướng; d: bậc sai phân xu hướng ; q: bậc trung bình trượt xu hướng Thành phần mùa - Seasonal: có tham số mới, có siêu tham số (hyperparameters) giống với mơ hình ARIMA tham số để thời gian lặp tính mùa: P: bậc hồi quy tự động mùa; D: bậc sai phân mùa; Q: bậc trung bình trượt mùa; m: số giá trị chu kỳ thành phần mùa liệu Khi đó, ta viết mơ hình SARIMA thành cơng thức sau: ( )( ) ( )( ) ( ) ( ) 1.3 Artificial neutral network – ANN Mơ hình dự đốn mạng thần kinh nhân tạo dạng mơ hình sử dụng rộng rãi để lập mơ hình dự báo chuỗi thời gian, thực tế thực ánh xạ hàm phi tuyến tính từ quan sát khứ thành giá trị dự đoán : ( ) vector tham số, f hàm xác định (được xác định theo cấu trúc mạng tất tham số từ mơ hình) Một dạng sử dụng rộng rãi "Single hidden layer feed– forward network model" sử dụng rộng rãi để dự báo Mơ hình đặc trưng mạng lưới gồm ba lớp units (noron) kết nối với liên kết Đầu nhận từ đầu vào với biểu thức toán học: ∑ ( ∑ ) (j = 0, 1, 2, , q) (i = 0, 1, 2, , p; j = 1, 2, , q) tham số mơ hình, gọi trọng số kết nối, p số units đầu vào, q số units ẩn Hàm logistic sử dụng làm hàm lớp ẩn g(x), sử dụng hàm sigmoid Việc lựa chọn hàm phụ thuộc vào kiểu mơ hình mà ta chọn 1.4 Recurrent neural network – RNN RNN đời với ý tưởng sử dụng nhớ để lưu lại thông tin giá trị từ bước tính tốn xử lý trước để dựa vào đưa dự đốn xác cho bước dự đoán Trong RNN, input kết hợp với hidden layer hàm để tính toán hidden layer output tính từ , W tập trọng số tất cụm, hàm mát Như kết từ q trình tính tốn trước "nhớ" cách kết hợp thêm tính để tăng độ xác cho dự đoán thời điểm tại: ( ) hàm sư dụng hàm sigmoid Như ta viết lại công thức dạng sau: ( ) Khi ta có: Đối với mạng ANN sử dụng ma trận trọng số W với RNN, sử dụng ma trận trọng số cho q trình tính tốn: $W_{hh}$ kết hợp với "bộ nhớ trước" kết hợp với $x_t$ để tính "bộ nhớ bước tại" từ kết hợp với để tính Hay định nghĩa ma trận sau: : Ma trận trọng số (weights) cho vector trạng thái ẩn : Ma trận trọng số cho vector đầu vào x : Ma trận trọng số dùng để tính vector đầu y RNN có xu hướng gặp phải hai vấn đề, exploding gradient vanishing gradient Những vấn đề xác định kích thước gradient, độ dốc đồ thị hàm loss function Trong trường hợp vanishing gradient, gradient nhỏ, tiếp tục trở nên nhỏ Từ dẫn tới việc cập nhật trọng số (hoặc tham số) (weigth parameters) chúng trở nên q nhỏ, khơng cịn tác động đáng kể tới mơ hình — tức sấp xỉ Khi điều xảy ra, thuật tốn khơng cịn học tiếp Ngược lại, exploding gradient xảy gradient lớn, tạo mô hình khơng ổn định Trong trường hợp này, trọng số weigth parameters mơ hình phát triển q lớn cuối chúng biểu diễn dạng NaN (hoặc dạng Null), dạng khơng có giá trị Một số biến thể mơ hình RNN Bi-directional recurrent neural networks} hay mạng nơ-ron RNN hai chiều (BRNN Bi-RNN) Long short-term memory (LSTM): Đây phát triển tiếng mạng nơ-ron RNN, giới thiệu Sepp Hochreiter Juergen Schmidhuber vào năm 1997 [4,8,9] giải pháp cho vấn đề vanishing gradient Gated recurrent units (GRU): biến thể RNN Mô hình tương tự LSTM hoạt động để giải vấn đề nhớ ngắn hạn-dài hạn gặp phải mơ hình RNN Chương 2: Mơ hình học trực tuyến Khi mạng internet phát triển mạnh mẽ mơ hình máy học trực tuyến (online learning) đề cập tới phát triển Nó có tính quan trọng máy học thực theo thời gian thực, giúp cho mơ hình có tính thời cao Các siêu tham số tham số không không thay đổi mơ hình dù có cập nhật thêm liệu tính tốn lại mơ hình Theo q trình từ khởi tạo tham số tới tính tốn tham số cho mơ hình siêu tham số khơng thay đổi Còn tham số giá trị thay đổi liên tục q trình tính tốn mơ hình Chúng ta xem xét việc cập nhật liên tục tham số mơ hình Với việc sử dụng mơ hình truyền thống, tất tham số tính lần, mơ hình cuối giữ lại tham số tính tốn cuối Sau khoảng thời gian, có liệu (thực tế liệu dùng, cập nhật thêm số lượng liệu), chạy lại mơ hình truyền thống với liệu Trong mơ hình trực tuyến, việc khởi tạo tham số mơ hình việc tối ưu tham số thực giống mơ hình truyền thống, bước tính tốn lưu lại Mỗi có liệu cập nhật theo thời gian thực vào liệu đầu vào, mơ hình tiếp tục chạy tiếp tục dựa vào bước tính tốn lưu lại trước Việc cập nhật mơ hình liên tục, thực mà liệu đầu vào cập nhật, dù giá trị Ở đây, việc tính lại tham số siêu tham số mơ hình siêu tham số mơ hình khơng thay đổi, có tham số tính tốn lại cách tiếp tục tính tốn theo bước tính tốn lưu lại từ bước tính tốn trước 2.1 Phương pháp giảm gradient trực tuyến Giảm gradient (Gradient Descent - GD) phương pháp tối ưu cực tiểu hóa Phương pháp giảm gradient phương pháp tối ưu tổng quát để giải toán: ( ) Việc tìm giá trị $min$ nhằm ước lượng tham số θ mơ hình mà hàm L(θ) hàm khả vi Phương pháp giảm gradient - Gradient Descent  Là thuật toán tối ưu bậc để tìm giá trị nhỏ (cục bộ) hàm khả vi f(x)  Tại x, f(x) giảm nhanh ta từ x theo hướng âm gradient f(x), tức − ∇f(x)  Nếu x'=x-α∇ f(x), với α>0 đủ bé f(x')≤ f(x) Từ đó, để tìm cực tiểu hàm f(x), ta dự đốn giá trị cực tiểu ban đầu xét chuỗi , , , , cho: ∇ ( ) với i ≥ Khi ta có: ( ) ( ) ( ) Chuỗi { } hội tụ giá trị cực tiểu Giảm gradient trực tuyến Thuật toán giảm gradient trực tuyến (Online Grdient Descent - OGD) dạng online thuật toán giảm gradient truyền thống, Zinkevich đề xuất vào năm 2003 Đây thuật tốn áp dụng để tìm giá trị cực trị mơi trường tính tốn trực tuyến Mã giả thuật toán cho bên dưới: Input: T < N, liệu {( ) , tập {αt} For t = to T Calculate ft(xt) Calculate yt+1 = xt − αt∇fi(xt) Find xt+1 ← yt+1 2.2 Phương pháp trực tuyến Newton step Hàm Exp-concave Định nghĩa: hàm lồi f : gọi α-exp-concave tập định hàm g sau hàm lõm (concave function), với g: thỏa mãn: g(x) = exp (-αf(x)) Tính chất: cho f : α-exp-concave, với { ( ) } ( ) ∇ ( ) ( thì: ) ( ) ∇ ( )∇ ( ) ( ) với D đường kính tập định L số Lipschitz hàm f Định lý: Online Newton Step với α-exp-concave hàm loss functions ( tham số ( ) ), , T > guarantees: ∑( ( ) ( )) ( ) ( ) 2.3 Các mơ hình trực tuyến cho ARIMA SARIMA 2.3.1 Mơ hình ARIMA trực tuyến Newton step Đặt mơ hình ARIMA tốn online, ta tính giá trị tương lai { } mơ sau:  Chọn tham số mơ hình (i=0, ,p-1) { } (j=0, ,q-1) theo toán  Trong bước lặp thứ t (bước lặp thứ I tính giá trị ), mơ hình nhận giá trị ồn trắng , sau mơ hình tính cho giá trị ̂ dựa công thức bên  Trong lần lặp thứ t sau tính tốn giá trị ước lượng tương lai ̂ giá trị thực tế đưa để tính giá trị mât mát (loss) Chúng ta tính hàm mát theo cơng thức sau: ( ) ( ( ̂( ∑ ∇ )) ( ∇̂ ∑ ∑∇ ∑∇ ) ) Cụ thể, tính giá trị theo cơng thức sau: ∑ ( ̂) ∑ ( ̂( )) Mô hình xấp xỉ thay có dạng bình thường ARIMA (p,d,q) có dạng ARIMA (p+m,d,0) với số đủ lớn Dữ liệu Siêu tham số Tham số Offline Online Có từ ban đầu p, d q cố định φ, θ tính lần Cập nhật liên tục d,p m cố định γt tính lại liên tục Bảng 2.2: So sánh đặc điểm khác mơ hình SARIMA mơ hình máy học truyền thống mơ hình máy học trực tuyến 2.4 Mơ hình mạng thần kinh nhân tạo trực tuyến Trong mơ hình học online RNN, liệu giả định có sẵn tính "sequentially", hay tính mùa Và quy trình học trực tuyến tiếp tục thông qua việc cập nhật mô hình liệu cập nhật Việc có tính mùa liệu coi quan trọng chia liệu gốc thành batch Quy trình máy học mơ hình hóa trò chơi người học (ở thuật tốn máy học) mơi trường (có thể đối nghịch), nơi thuật tốn có nhiệm vụ dự đốn tham số mơ hình từ tập lồi Trong hồn cảnh này:  Đầu tiên, thuật tốn máy học đưa dự đốn tham số mơ hình  Sau đó, mơi trường (có thể đối nghịch) chọn hàm mát  Cuối cùng, thuật toán máy học quan sát mát thực hành động (tức cập nhật thơng số mơ hình) để giảm thiểu tổn thất tích lũy Quy trình lặp lại vòng lặp t tất giá trị liệu sử dụng Bây giờ, xem xét phương trình mạng thần kinh nhân tạo hồi quy RNN Mơ hình RNN xử lý phương trình sau (khi dùng phương trình gọi chuẩn Elman): ( ) ( ) ̂ 2.4.1 Xây dựng sở thuật toán định nghĩa Cài đặt thuật toán giống bên trình bày (sơ bộ), trình bày rõ ràng hơn: Tại vịng lặp thứ t (chúng ta gọi thời điểm t) thuật tốn đưa tham số ước lượng mơ hình, tức vector 10 Môi trường trả lại giá trị [ √ ], giá trị đầu vào √ vector trọng số tương ứng với (với‖ Thuật tốn tính giá trị mát dựa theo công thức sau: [ ] ( ) ( ̂) ( ( ⏟ ‖ ) )) ̂ Local regret định nghĩa sau: ( ) ( ∑ (‖ ) ‖ ) 2.4.2 Tính chất Lipschitz Smoothness Theo định nghĩa ( ) trung bình giá trị mát batch chọn, giá trị mát hàm số phụ thuộc vào ( ) Đây hàm đệ quy, học online, lớn, dẫn tới đạo hàm lớn tới vơ hạn, thuật tốn máy học online cần có hàm mát với gradient hữu hạn để đảm bảo tính hội tụ tính tốn ) Đầu tiên, cần xem xét tính chất Lipschitz ( với xem xét ảnh hưởng đệ quy dài vô hạn lên ( ) Định lý 5.1: cho ( ) ( ), W U thỏa mãn ‖ ‖ ‖ ‖ với [ ) Khi ( ) có Lipschitz smoothness: (1) ‖ (2) ‖ (3) ‖ ( ( ( ) ) ) ‖ với ‖ với ‖ với 2.4.3 Mơ tả thuật tốn Tham số Learning rate [ batch-size [ ] [ ) √ ( ) √ ( ) √ ( ) ) 11 ( Khởi tạo ) ( ) cho ‖ ‖ ( ) cho ‖ ‖ Lấy { } cho ‖ For i=1 to N Tính ( ‖ ) Nhận giá trị tính ̂ Nhận giá trị thực tế tính mát Cập nhật ( ( ) ) ) ( ; ( ) [( ( ( ) ) ) ] Endfor; Định lý 5.2: lấy β maximum giá trị số smoothness √ ( ) , √ ( ) √ ( ) Chọn learning rate η thỏa mãn ta có: ( ) Dữ liệu Tham số Tính tham số √ √ Offline Online có từ ban đầu cập nhật liên tục ( ) ( ) ( ) tính lại liên tục tính lần Bảng 2.3: So sánh đặc điểm khác mơ hình RNN mơ hình máy học truyền thống mơ hình máy học trực tuyến 2.5 Thực nghiệm mơ hình SARIMA online với liệu thực tế Trong thực nghiệm này, xem xét mơ hình SARIMA online, ứng dụng liệu thực tế liệu phụ tải điện Để so sánh mơ hình SARIMA online đề xuất với mơ hình khác, sử dụng liệu phụ tải điện (hiện sử dụng cho mơ hình dự báo theo mùa) Kết thử nghiệm mơ hình so sánh khác 12 cho thấy hiệu suất mơ hình đề xuất tốt mà mơ hình sử dụng liệu Lý cho kết tốt mơ hình máy học trực tuyến cập nhật mơ hình thích ứng cách thêm liệu liên tục trình học Các mơ hình sử dụng liệu Úc (về phụ tải điện) để so sánh Dữ liệu có sẵn website https://www.aemo.com.au/ Tập liệu chứa giá trị đo hàng ngày giá trị phụ tải điện thu thập từ ngày 21 tháng năm 2019, lúc 1:01 sáng ngày Tập liệu thực tế thứ chứa giá trị đo phụ tải điện vào ngày làm việc (thứ Hai đến thứ Sáu) từ ngày tháng năm 2015 đến ngày 30 tháng năm 2019 Mỗi giá trị liệu thu thập cách giờ, bao gồm 29208 giá trị Tập liệu biểu diễn dạng bảng Mỗi mục nhập tương ứng với ngày cột biểu thị cụ thể Trong nghiên cứu này, coi 24 cột 24 chuỗi thời gian riêng biệt chạy mơ hình với 24 chuỗi thời gian 24 kiểm nghiệm độc lập Các kết đánh giá riêng lẻ 2.5.1 Dữ liệu so sánh: liệu Australia Trong mục hiển thị kết dự báo bảng 2.4 Trong thực nghiệm này, tiêu chí dùng để so sánh sử dụng tiêu chí MAPE, MSE (hoặc RMSE), số mơ hình thêm tiêu chí MAE Trong so sánh này, sử dụng liệu Australia so sánh kết mơ hình đề xuất với mơ hình đề xuất Ruiz đồng nghiệp [11] (xây dựng lại) mơ hình Xu đồng nghiệp đề xuất [10] (xây dựng lại) MAPE RMSE MAE SARIMA SARIMA-ANN SARIMA-SVR Mơ hình đề xuất 3.1502% 0.5143% 0.6100% 0.4404% 136.0000 [11] [10] 73.7299 3635.8832 Bảng 2.4: Kết SARIMA online, so sánh với số mơ hình khác liệu Australia Chúng ta chạy mơ hình 30 lần lấy giá trị trung bình Kết trình bày bảng 13 Mơ hình mang lại kết tốt so với số mơ hình truyền thống số mơ hình giới thiệu năm gần Trong bảng 2.4, tiêu chí MAPE, kết mơ hình đề xuất 0,6696%, nhỏ tất mơ hình dùng để so sánh khác Điều cho thấy kết tuyệt vời mơ hình đề xuất dự báo cho chuỗi thời gian Kết mơ hình đề xuất tốt 713% so với mơ hình SARIMA (3,1502%), tốt 16% so với mơ hình Ruiz đồng nghiệp [11] (0,5143%), tốt 38% so với mơ hình tốt Xu đồng nghiệp [10] 2.5.2 Dữ liệu phụ tải điện miền bắc Việt Nam Thời điểm (giờ) Mơ hình MAPE (4, 1, 0) × (2, 0, 0)250 5.71 (0, 1, 0) × (2, 0, 0)250 5.49 (0, 1, 0) × (2, 0, 0)250 5.27 (5, 1, 0) × (0, 0, 0)250 5.44 (1, 1, 0) × (2, 0, 0) 250 4.68 (2, 1, 0) × (2, 0, 0) 250 3.94 (2, 1, 0) × (1, 0, 0) 250 3.51 (2, 1, 0) × (1, 0, 0) 250 3.64 (2, 1, 0) × (0, 0, 0) 250 4.03 (2, 1, 0) × (0, 0, 0)250 10 4.35 (2, 1, 0) × (0, 0, 0)250 11 4.71 (2, 1, 0) × (0, 0, 0)250 12 5.28 (5, 1, 0) × (0, 0, 0)250 13 5.62 (2, 1, 0) × (0, 0, 0)250 14 5.45 (2, 1, 0) × (0, 0, 0)250 15 4.87 (1, 1, 0) × (0, 0, 0)250 16 3.99 (2, 1, 0) × (1, 0, 0) 250 17 3.32 (3, 1, 0) × (0, 0, 0) 250 18 2.84 (3, 1, 0) × (0, 0, 0) 250 19 3.39 (3, 1, 0) × (0, 0, 0) 250 20 3.73 (2, 1, 0) × (0, 0, 0) 250 21 4.40 (3, 1, 0) × (1, 0, 0) 250 22 5.14 (2, 1, 0) × (0, 0, 0)250 23 5.40 14 24 Trung bình (5, 1, 0) × (0, 0, 0)250 5.41 4.57 Table 2.5: Kết mơ hình SARIMA online liệu phụ tải điện bắc Việt Nam Đối với liệu phụ tải điện miền Bắc Việt Nam, rõ ràng có thành phần có tính mùa năm Vì có khoảng 250 ngày làm việc năm nên chọn s = 250 Đối với chuỗi thời gian, 80% sử dụng làm liệu huấn luyện 20% sử dụng để kiểm tra Mỗi chuỗi thời gian chia theo thứ tự thời gian Đối với lựa chọn siêu tham số, thực tìm kiếm dạng lưới với và mơ hình chọn so sánh với mơ hình ( ) ( ) Các mơ hình đào tạo Google Colab thời gian chạy trung bình 1,95 giây cho chuỗi thời gian Chúng ta tóm tắt kết bảng Phụ tải điện phụ thuộc nhiều vào ngày Đối với kết thực nghiệm, chạy 24 mơ hình cho giờ, xây dựng 24 mơ hình cho 24 liệu độc lập, để dự báo Hai mươi bốn mơ hình chia thành ba loại, gồm tiêu thụ điện thấp, trung bình cao Ba thời điểm đại diện sáng, 13 21 tính mức thấp, cao trung bình Chương 3: Mơ hình lai Mơ hình lai mơ hình tổng hợp, xây dựng từ nhiều mơ hình đơn lẻ Phương pháp sử dụng mơ hình lai có ưu điểm phương pháp đơn lẻ, đồng thời loại bỏ hạn chế phương pháp đơn lẻ Bằng cách kết hợp mơ hình khác nhau, lợi mơ hình đơn lẻ nắm bắt Một nghiên cứu mơ hình lai tác giả Zhang vào năm 2003 [3] Bằng cách chia liệu gốc thành thành phần tuyến tính cho ARIMA phi tuyến cho ANN, nghiên cứu ưu điểm mơ hình lai so với mơ hình đơn: mơ hình kết hợp ARIMA-ANN cho kết tốt hẳn so với chạy tồn liệu mơ hình đơn (riêng cho ARIMA riêng cho ANN) 3.1 Mơ hình lai ARIMA-ANN lọc nhiễu Wavelets Dữ liệu thực tế thường thường có nhiễu lẫn liệu gốc Việc thành phần nhiễu thành phần khơng thể dự đốn, có ảnh hưởng tiêu cực tới 15 kết cuối cùng, lọc nhiễu bước đưa tới việc tăng độ xác kết dự báo cuối Với việc xử lý liệu Wavelet thành phần liệu phi tuyến, thực việc lọc nhiễu khỏi liệu, sau chạy mơ hình ANN cho thành phần Từ đó, kỳ vọng việc tăng thêm độ xác dự báo Trong mơ hình này, cải tiến mơ hình Zhang [3], thêm vào q trình lọc nhiễu Wavelet liệu phi tuyến (thành phần liệu xử lý ANN) Sử dụng tất mơ hình cho liệu Sunspot (Vết đen Mặt trời) Mơ hình ARIMA sử dụng tham số (p, d, q) = (3, 1, 2) [3] Cịn mơ hình ANN sử dụng mạng lưới × × [3] Mơ hình đề xuất sử dụng để dự báo mực nước sông Hồng trạm đo Hà Nội Dữ liệu lấy mùa mưa năm 2015, 2016, 2017 2018 Kết Sunspot MSE ARIMA ANN RNN LSTM GRU ARIMA-ANN Đề xuất MSE MAD Mực nước MAD 14941.0501 3108.7643 12851.1010 2453.5100 10980.0930 - 10518.2900 2445.3600 12233.6360 2403.9500 9283.1192 61.4415 2490.4600 5.5670 8276.6030 51.4220 1397.6552 3.6196 16 Bảng 3.9: Mơ hình lai ARIMA-WA-ANN: So sánh kết dự báo: Sunspot (dự báo 25 bước), mực nước (dự báo bước) 3.2 Mơ hình lai ARIMA - LSTM lọc qua lọc MA Dữ liệu Sunspot Mực nước Kích thước 288 3400 Huấn luyện 263 3040 Kiểm tra 25 360 Hình 3.17: Thực nghiệm mơ hình lai: Mơ hình lai ARIMA-WA-ANN - So sánh kết mơ hình 17 Kết MSE MAD ARIMA 306.094509 14.618295 Mơ hình Babu 303.910569 14.614859 LSTM 316.768000 14.643719 Mơ hình đề xuất 240.681072 12.429937 Bảng 3.4: So sánh kết dự báo với liệu Sunspot Giá trị in đậm giá trị tốt mơ hình so sánh Trong phần này, mơ hình kết hợp đề xuất kết hợp mơ hình ARIMA LSTM, kết hợp lại Việc chia liệu thành thành phần tuyến tính phi tuyến thực MA Chúng ta dùng mơ hình Babu [5] để so sánh kết liệu Sunspot để so sánh Dữ liệu mực nước áp dụng thực tế Bảng 3.4 bên cho ta thấy kết dự báo 1-step-ahead (trước bước) tập liệu Sunspot Neural Network sử dụng kiến trúc đơn giản với hidden layer, units, độ dài đầu vào Trên tập liệu mực nước, kết bảng 5, mơ hình Neural Network sử dụng hidden layer, units, độ dài đầu vào bước MSE ARIMA 7.4990 LSTM 8.0015 MAD 2.7380 2.9971 12 bước MSE 170.0680 151.7240 MAD 13.0410 10.4501 18 24 bước MSE 226.0590 222.5924 MAD 15.0350 16.0801 Đề xuất 6.5193 2.8945 150.1205 11.0039 195.0275 13.6826 Bảng 3.5: So sánh kết với liệu mực nước Giá trị in đậm giá trị tốt mơ hình so sánh Chương 4: Mơ hình lai máy học trực tuyến 4.1 Mơ hình lai máy học trực tuyến Multi-seasonal - ARIMA online RNN online Với mô hình này, sửa đổi chút mơ hình phần bên Các bước thay đổi sau:  Thay sử dụng thuộc tính mùa Seasonal, sử dụng tách Fourier để tách nhiều chuỗi mang tính Seasonal, tận dụng hết tất tính chất mùa có từ liệu  Áp dụng mơ hình online learning để tăng cao độ xác mơ hình dự báo Ở đồng thời thay mơ hình ARIMA thành online ARIMA thay mơ hình ANN/RNN thành mơ hình online RNN Chúng ta xem xét liệu web dùng để so sánh với mơ hình đề xuất Bộ liệu thực tế liệu phụ tải điện miền Bắc chứa phép đo phụ tải điện vào ngày làm việc (từ thứ Hai đến thứ Sáu) từ ngày tháng năm 2015 đến ngày 30 tháng năm 2019 Dữ liệu thu thập theo chu kỳ Hình 3.9: kết mơ hình ARIMA-LSTM-MA (trên xuống ARIMA, LSTM, mơ hình đề xuất) 19 Kết Với liệu Úc, ARIMA cho kết nhất, 3% so với RNN Trong đó, ARIMA online cho kết tốt chút so với ARIMA (tốt 5,9% MSE), so với kết RNN (kém 19,1% MSE) Trong mơ hình riêng lẻ, RNN online cho kết tốt Nếu sử dụng tiêu chí đánh giá MAPE, RNN online tốt ARIMA 292,8%, tốt 112,3% so với ARIMA online 50 % RNN đơn lẻ Trong liệu Việt Nam, kết mơ hình đề xuất tốt tất mơ hình trình bày Với tiêu chí MAPE, giá trị lỗi thu thấp giá trị mơ hình RNN online - tốt số mơ hình đơn lẻ (thấp 5,5%) Với tiêu chí MSE, mơ hình đề xuất cho kết tốt nhất, tốt 29,2% so với kết mơ hình ARIMA đơn lẻ MSE MAPE 52054161.01 0.744251 ARIMA(4,1,4) 57667888.03 0.770737 RNN 38539636.48 0.579787 ARIMA online 40149103.00 0.672100 RNN online 37653594.10 0.569104 Mơ hình đề xuất Bảng 4.3: Kết mơ hình cho liệu Australia MSE MAPE 20 1398659.72 12.532267 ARIMA 1063311.72 6.357248 RNN 1315265.94 7.093431 ARIMA online 998594.00 3.190338 RNN online 990192.91 3.023862 Mơ hình đề xuất Bảng 4.4: Kết dự báo cho liệu miền bắc Việt Nam Kết mơ hình đề xuất tốt tất mơ hình Hình 4.8: Kết mơ hình (trái sang phải, xuống): RNN, ARIMA, RNN online, ARIMA online, mơ hình đề xuất 21 Kết luận Luận án nghiên cứu lại số vấn đề tồn mơ hình truyền thống SARIMA RNN Từ đưa số đề xuất để cải thiện độ xác mơ hình Các đề xuất gồm có mơ hình lai mơ hình học trực tuyến Đồng thời với việc đề xuất, Luận án có chứng minh khoa học chặt chẽ đề xuất đưa Tất mơ hình đề xuất áp dụng vào thực nghiệm với liệu thực tế, đưa so sánh nhận xét tính ưu việt chúng so với mơ hình truyền thống so với vài nghiên cứu công bố gần Những đóng góp Luận án:  Đề xuất mơ hình lai, kết hợp mơ hình đơn lẻ, tận dụng ưu điểm hạn chế nhược điểm mơ hình đơn Kết thực nghiệm cho thấy mơ hình lai có độ xác cao  Đề xuất mơ hình học trực tuyến, mơ hình nâng cấp mơ hình truyền thống SARIMA RNN Từ việc liệu đầu vào mơ hình liệu cập nhật liên tục, mơ hình tính lại tham số liên tục dựa bước tính tốn trước Mơ hình học trực tuyến khơng phải huấn luyện lại mơ hình từ đầu, từ giảm tài ngun tiêu tốn  Chứng minh toán học định lý đưa độ hội tụ mơ hình đề xuất  Thực nghiệm mô hình học trực tuyến tốt so với mơ hình truyền thống tương ứng  Đề xuất mơ hình kết hợp loại đề xuất trên, tạo thành mơ hình lai học trực tuyến Mơ hình đề xuất cuối Luận án dựa lý thuyết thành phần cấu tạo nên nó, áp dụng vào liệu thực tế, cho kết tốt đem so sánh với mô hình đơn thành phần tốt so sánh với số mơ hình cơng bố gần Kiến nghị hướng nghiên cứu tiếp theo:  Về học thuật: tiếp tục nghiên cứu mơ hình mạnh mơ hình nêu Luận án, chứng minh công thức định lý cần thiết  Về thực tiễn: tiếp tục xây dựng mơ hình ứng dụng thực tế liệu vấn đề có tính thời quan trọng Từ phát triển ứng dụng để áp dụng vào sử dụng thực tế 22 DANH MỤC TÀI LIỆU THAM KHẢO [1] G.E.P Box, G Jenkins, “Time Series Analysis, Forecasting and Control,” Holden-Day, San Francisco, CA., 1970 [2] Brockwell Peter J., Davis Richard A., “Time Series: Theory and Methods,” International Conference on Machine Learning, 1991 [3] G.P Zhang, “Time series forecasting using a hybrid ARIMA and neural network model'', Neurocomputing, vol 50, pp 159-175, 2003 [4] H Sepp and S Jürgen, “Long Short-Term Memory,” Neural Computation, vol 9, no 8, pp 1735-1780, 1997 [5] C N Babu and E Reddy, “A moving-average filter based hybrid ARIMA–ANN model for forecasting time series data,” Applied Soft Computingt, vol 23, p 27-28, 2014 [6] Thi Thu Hong Phan and Xuan Hoai Nguyen, “Combining statistical machine learning models with ARIMA for water level forecasting: The case of the Red river”, Advances in Water Resources, vol 142, 2020 [7] Rahim Barzegar, Mohammad Taghi Aalami and Jan Adamowski, “Coupling a hybrid CNN-LSTM deep learning model with a Boundary Corrected Maximal Overlap Discrete Wavelet Transform for multiscale Lake water level forecasting”, Journal of Hydrology, vol 598, 2021 [8] Steven C.H Hoi, Doyen Sahoo, Jing Lu and Peilin Zhao, “Online learning: A comprehensive survey”, Neurocomputing, vol 459, pp 249-289, 2021 [9] Shao, Weijia, Lukas Friedemann Radke, Fikret Sivrikaya, and Sahin Albayrak, “Adaptive Online Learning for the Autoregressive Integrated Moving Average Models” Mathematics, vol 9, no 13, 2021 [10] Kozitsin, Viacheslav, Iurii Katser and Dmitry Lakontsev, “Online Forecasting and Anomaly Detection Based on the ARIMA Model”, Applied Sciences, vol 11, no 7, 2022 23 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Dat N.Q., Anh N.T.N., Vijender K.S and An N.L, "Prediction of Water Level Using Time Series, Wavelet and Neural Network Approaches", International Journal of Information Retrieval Research, vol 10, iss 3, pp 19, 2020 (ESCI-Q4) Dat N.Q., Anh N.T.N., Anh N.N., Vijender K.S., "Hybrid online model based multi seasonal decompose for short-term electricity load forecasting using ARIMA and online RNN", Journal of Intelligent & Fuzzy Systems, vol 41, iss 5, pp 5639-5652, 2021 (SCI-Q2) Van D.T., Lan L.H., Dat N.Q., Nhat D.D., Vijender K.S., "Using Data Mining to Preprocess Data for the Neural Network Model to Predict Water Level Applied for Northern Vietnam’s Agriculture", IEEE International Conference on Machine Learning and Applied Network Technologies, 2021, Book chapter in: Kumar, A., Zurada, J.M., Gunjan, V.K., Balasubramanian, R (eds) Computational Intelligence in Machine Learning Lecture Notes in Electrical Engineering, vol 834 Springer, 2022 (SCOPUS-Q4) An, N.X., Minh, N.N., Dat, N.Q., Solanki, V.K., "Hybrid Model Seasonal ARIMA-LSTM for Prediction Water Level in Black River on the Border Vietnam-China", Book chapter in: Kumar A., Zurada J.M., Gunjan V.K., Balasubramanian, R (eds) Computational Intelligence in Machine Learning Lecture Notes in Electrical Engineering, vol 834 Springer, Singapore, 2022 (SCOPUS-Q4) Quan P.D., Anh V.H., Dat N.Q., Vijender K.S "Hybrid SARIMA—GRU Model Based on STL for Forecasting Water Level in Red River North Vietnam", Book chapter in: Nguyen T.D.L., Lu J (eds) Machine Learning and Mechanics Based Soft Computing Applications Studies in Computational Intelligence, vol 1068 Springer, Singapore, 2023 (SCOPUS-Q4) 24

Ngày đăng: 16/11/2023, 15:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w