NỘI DUNG
ARIMA (viết tắt của Auto Regression Integrated Moving Average) là một mô hình phân tích chuỗi thời gian, sử dụng các giá trị quá khứ và độ trễ của chúng để dự đoán các giá trị tương lai Mô hình này dựa vào sự tương quan giữa các dữ liệu, với mức độ tương quan tăng lên khi gần thời điểm hiện tại.
Bất kỳ chuỗi thời gian nào không mang tính mùa vụ và thể hiện các mẫu rõ ràng, không phải là nhiễm trắng ngẫu nhiên, đều có thể được mô hình hóa bằng mô hình ARIMA.
Mô hình ARIMA được phát triển từ các mô hình AR, MA, ARMA
- p là thứ tự của biến Auto regression (AR)
- q là thứ tự của thuật ngữ Moving average (MA)
- d là số chênh lệch cần thiết để làm cho chuỗi thời gian đứng yên
Nếu chuỗi thời gian có mẫu theo mùa, bạn cần sử dụng mô hình SARIMA (Seasonal ARIMA) Để xác định mô hình phù hợp cho dữ liệu chuỗi thời gian, cần thực hiện phân tích ACF và PACF, phản ánh mối liên hệ giữa các quan sát Việc vẽ đồ thị ACF và PACF giúp xác định thứ tự của các thuật ngữ AR và MA ACF phụ thuộc vào tính tuyến tính giữa hai cặp quan sát, trong khi PACF thể hiện tính tuyến tính từng phần Sự khác biệt giữa ACF và PACF là cơ sở để xác định cấu trúc mô hình ARIMA PACF thường có xu hướng giảm đột ngột với độ trễ 1 hoặc 2, và cả ACF lẫn PACF đều có dạng hình sin hoặc phân phối mũ.
MÔ HÌNH ARIMA
Khái niệm về ARIMA
ARIMA (viết tắt của Auto Regression Integrated Moving Average) là một mô hình dự báo chuỗi thời gian dựa trên các giá trị quá khứ và lỗi dự báo Mô hình này sử dụng độ trễ của dữ liệu để phân tích và dự đoán các giá trị tương lai, với mức độ tương quan cao hơn khi gần thời điểm hiện tại.
Mô hình ARIMA có thể được áp dụng cho bất kỳ chuỗi thời gian nào không mang tính mùa vụ, miễn là chuỗi đó thể hiện các mẫu và không bị nhiễu trắng ngẫu nhiên.
Mô hình ARIMA được phát triển từ các mô hình AR, MA, ARMA
- p là thứ tự của biến Auto regression (AR)
- q là thứ tự của thuật ngữ Moving average (MA)
- d là số chênh lệch cần thiết để làm cho chuỗi thời gian đứng yên
Nếu chuỗi thời gian có các mẫu theo mùa, bạn cần sử dụng mô hình SARIMA (Seasonal ARIMA) Để xác định mô hình phù hợp, cần thực hiện phân tích ACF và PACF, giúp phản ánh mối quan hệ giữa các quan sát trong chuỗi thời gian Việc vẽ đồ thị ACF và PACF theo độ trễ thời gian là rất hữu ích để xác định thứ tự của các thuật ngữ AR và MA ACF phụ thuộc vào tính tuyến tính giữa các cặp quan sát, trong khi PACF thể hiện tính tuyến tính từng phần Sự khác biệt giữa ACF và PACF giúp ARIMA xác định cấu trúc mô hình cho chuỗi thời gian, với PACF có xu hướng giảm đột ngột tại độ trễ 1 hoặc 2 Cả ACF và PACF đều có dạng hình sin, phân phối mũ và có thể có hai dạng khác nhau.
Mô hình tự hồi quy AR(p)
Mô hình AR(p) là mô hình tự hồi quy của số liệu quá khứ ở những chu kì trước ( ) = + ( − 1) + ( − 2) + ⋯ + ( − ) + ( ) [1]
- ( ): quan sát dừng hiện tại
- ( − 1), ( − 2),…: quan sát dừng quá khứ (thường sử dụng không quá 2 biến này)
- , , … : các tham số phân tích hồi quy
- : sai số dự đoán ngẫu nhiên của gia đoạn hiện tại Giá trị trung bình được mong đợi bằng 0
- ( ) là một hàm tuyến tính của những quan sát dừng quá khứ ( − 1), ( − 2),…
Khi dùng phân tích hồi quy ( ) theo các giá trị chuỗi thời gian dừng với độ trễ sẽ được mô hình AR
Mô hình AR sử dụng m quan sát dừng quá khứ để xác định độ tự tương quan bậc p Số lần quan sát m sẽ tương ứng với bậc của mô hình tương quan Để đảm bảo tính hợp lệ của mô hình, tổng các tham số hồi quy cần phải nhỏ hơn 1.
Mô hình trung bình trượt MA(q)
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại
- ( ): quan sát dừng hiện tại
- ( ): sai số dự báo ngẫu nhiên, giá trị của nó không được biết và giá trị trung bình của nó là 0
- ( − 1), ( − 2), : sai số dự báo quá khứ (thông thường mô hình sẽ sử dụng không quá 2 biến này)
Giá trị trung bình của các sai số quá khứ được sử dụng trong mô hình MA, với m là số lượng sai số quá khứ, tạo thành mô hình bình quân bậc m, ký hiệu là MA(m) Để mô hình hoạt động hiệu quả, điều kiện cần là tổng các hệ số bình quân phải nhỏ hơn 1.
Sai phân I(d)
Một chuỗi dừng là dữ liệu dao động quanh một giá trị trung bình không đổi trong thời gian dài, với phương sai ổn định theo thời gian Giá trị này phụ thuộc vào khoảng cách và độ trễ thời gian Dữ liệu này sẽ tạo ra một biểu đồ tự tương quan, trong đó các hệ số tự tương quan sẽ giảm dần khi độ trễ tăng lên.
Sai phân là sự khác biệt giữa giá trị hiện tại và giá trị quá khứ Việc phân tích sai phân giúp cân bằng giá trị trung bình của chuỗi dữ liệu, chuyển đổi chuỗi này thành một chuỗi dừng.
Mô hình ARMA
Mô hình ARMA(p,q) là sự kết hợp giữa mô hình tự hồi quy (AR) và mô hình trung bình trượt (MA), tạo ra một hàm tuyến tính bao gồm cả các quan sát dừng trong quá khứ cùng với những sai số dự báo từ quá khứ và hiện tại.
( ): quan sát dừng hiện tại
( − ) và ( − ): quan sát dừng và sai số dự báo quá khứ
, , … , , …: các hệ số phân tích hồi quy
Mô hình ARIMA
Mô hình ARIMA(p,d,q) là những chuỗi dữ liệu lặp đi lặp lại không dừng và đã được sai phân(d là mức độ sai phân)
Nếu ( ) tuân theo mô hình ARMA(p,q), chúng ta nói rằng ( ) là một quá trình ARIMA Có thể lấy d=1 thì ta có một quá trình ARIMA(p,1,q) với ( ) ( ) − ( − 1)ta có:
Mô hình ARIMA(1,1,1): ( ) = + ( − 1) + ( ) + ( − 1) với ( ) = ( ) − ( − 1) ở sai phân d=1 thì ta có:
Quy trình chọn mô hình ARIMA
- Kiểm tra dữ liệu có giá trị đột biến hay không bằng việc thống kê và mô tả?
Để xác định xem dữ liệu có dừng hay không, cần sử dụng biểu đồ tự tương quan Nếu dữ liệu không dừng, tiến hành sai phân bậc 1, bậc 2, và tiếp tục cho đến khi có chuỗi dừng Nếu chuỗi dừng được xác định ở sai phân bậc p, điều này cho thấy dữ liệu đã đạt trạng thái dừng cần thiết.
- Lựa chọn mô hình AR(p) và MA(q);
- Lựa chọn mô hình theo các tiêu là các chỉ số AIC, BIC… các sai số dự báo;
- Phân tích đồ thị phần dư;
- Ước lượng mô hình đã được lựa chọn và dự báo tương lai các giá trị mà mình muốn.
Các bước mô hình ARIMA
Theo phương pháp Box- jenkins ta có các bước:
- Kiểm định độ chính xác;
Hình 1.1 Sơ đồ khối phương pháp Box-jenkins
Đánh giá độ chính xác mô hình ARIMA
Đánh giá mô hình là yếu tố quan trọng để xác định độ chính xác và chất lượng của nó Việc lựa chọn các chỉ số đo lường phù hợp phụ thuộc vào từng loại mô hình, do đó, hiểu rõ về các chỉ số này là cần thiết.
Mean Squared Error (MSE) là một chỉ số quan trọng trong các bài toán hồi quy, giúp xác định sai số bình quân giữa giá trị dự đoán và giá trị thực tế Giá trị MSE gần 0 cho thấy mô hình dự đoán có độ chính xác cao, đồng thời MSE luôn có giá trị không âm.
Trong đó với n là số điểm dữ liệu, yᵢ là giá trị quan sát và ŷ ᵢ là giá trị dự đoán
- Nó là thước đo độ lệch bình phương trung bình của các giá trị dự báo;
- Vì ở đây các lỗi ký ngược lại không bù trừ cho nhau, MSE đưa ra một ý tưởng tổng thể của lỗi xảy ra trong quá trình dự đoán;
- Nó liệt kê các lỗi nghiêm trọng xảy ra trong khi dự báo;
MSE nhấn mạnh rằng tổng sai số dự báo thực tế chịu ảnh hưởng lớn từ các lỗi riêng lẻ, trong đó lỗi lớn có tác động tiêu cực nhiều hơn so với lỗi nhỏ.
- MSE không cung cấp bất kỳ ý tưởng nào về hướng của lỗi tổng thể;
- MSE nhạy cảm với sự thay đổi quy mô và biến đổi dữ liệu;
Mặc dù MSE là một chỉ số hiệu quả để đánh giá sai số dự báo tổng thể, nhưng nó không dễ hiểu và trực quan như các phương pháp khác đã được thảo luận trước đó.
Muốn mô hình gần với dữ liệu thực hơn, mình cần giảm thiểu MSE để mô hình chính xác hơn
MSE càng thấp thì dự báo được đánh giá càng tốt
The Mean Squared Error (MSE) is also known as the Root Mean Square Error (RMSE) or Root Mean Square Deviation (RMSD) RMSE represents the standard deviation of the residuals, which are the prediction errors.
Tất cả các thuộc tính của MSE cũng giữ cho RMSE
Mean Absolute Error (MAE) là một chỉ số quan trọng dùng để đo lường độ lớn trung bình của các sai số trong tập hợp dự đoán Chỉ số này không yêu cầu xem xét hướng của các sai số, giúp đánh giá độ chính xác của mô hình một cách hiệu quả.
# trong đó với n là số điểm dữ liệu, với xᵢ là giá trị thực và với yᵢ là giá trị dự đoán
- Nó đo độ lệch tuyệt đối trung bình của các giá trị dự báo so với giá trị ban đầu;
- Nó còn được gọi là Độ lệch Tuyệt đối Trung bình (MAD);
- Nó cho thấy mức độ của lỗi tổng thể, xảy ra do dự báo;
- Trong MAE, ảnh hưởng của lỗi tích cực và tiêu cực không bị loại bỏ;
- Không giống như MFE, MAE không cung cấp bất kỳ ý tưởng nào về hướng xảy ra lỗi;
- Để có một dự báo tốt, MAE thu được phải càng nhỏ càng tốt;
- Giống như MFE, MAE cũng phụ thuộc vào quy mô đo lường và chuyển đổi dữ liệu;
- Các lỗi dự báo cực đoan không được điều chỉnh bởi MAE
MAE là tổng hợp của hai phần chính là bất đồng về phân bổ và bất đồng về số lượng
MAE được biết đến sẽ chính xác hơn đối với các yếu tố ngoại lai so với MSE
Trong MSE, việc bình phương các sai số khiến cho các giá trị ngoại lai trở nên quan trọng hơn, chiếm ưu thế trong tổng sai số cuối cùng và ảnh hưởng lớn đến các tham số của mô hình.
1.10.4 The Mean Absolute Percentage Error
Mean Absolute Percentage Error (MAPE) là một chỉ số quan trọng để đánh giá độ chính xác của hệ thống dự báo Chỉ số này thể hiện độ chính xác dưới dạng phần trăm, được tính bằng cách lấy trung bình phần trăm của lỗi tuyệt đối cho mỗi khoảng thời gian, sau đó chia cho các giá trị thực tế.
Trong đó: n là số điểm trang bị với xᵢ là giá trị thực và với yᵢ là giá trị dự đoán
- Biện pháp này đại diện cho tỷ lệ phần trăm lỗi tuyệt đối trung bình xảy ra;
- Nó không phụ thuộc vào thang đo, nhưng bị ảnh hưởng bởi việc chuyển đổi dữ liệu;
- Nó không hiển thị hướng lỗi;
- MAPE không phân loại các độ lệch cực lớn
Trong biện pháp này, các lỗi được ký ngược lại không bù đắp cho nhau
MÔ HÌNH HỌC SÂU RNN
Khái niệm về RNN
Mạng thần kinh hồi tiếp (RNN) là một loại mạng thần kinh đặc biệt, có khả năng xử lý dữ liệu tuần tự và đệ quy RNN có thể nhận diện các mẫu trong dữ liệu và dự đoán đầu ra cuối cùng một cách hiệu quả.
Mạng thần kinh tái phát (RNN) hoạt động dựa trên sự lặp lại và đầu vào là kết thúc, cho phép nó xử lý dữ liệu tuần tự như chuỗi thời gian một cách hiệu quả Điều này không thể đạt được với mạng thần kinh tích chập (CNN) hoặc mạng thần kinh chuyển tiếp, vì chúng không thể sắp xếp mối quan hệ giữa các đầu vào trước và sau.
Phân loại RNN
Hình 2.1 Các loại mô hình RNN
One to one: mẫu bài toán cho Neural Network (NN) và Convolutional Neural
Network (CNN), 1 input và 1 output.[4]
Ví dụ: Chương trình ngôn ngữ dịch từ tiếng Anh sang tiếng Việt, một từ tiếng Anh đầu vào sẽ cho ra output 1 từ tiếng Việt
One to many: bài toán có 1 input nhưng nhiều output
Ví dụ: Với 1 ảnh, RNN sẽ tạo ra 1 đoạn caption mô tả nội dung ảnh
Bài toán nhiều đầu vào và một đầu ra, chẳng hạn như phân loại hành động trong video, bao gồm việc sử dụng nhiều khung hình (frame) tách ra từ video làm đầu vào, và kết quả đầu ra là hành động được xác định trong video.
Many to many: bài toán có nhiều input và nhiều output
Ví dụ: Với dữ liệu chứng khoán trong quá khứ, RNN dự đoán xu hướng và giá trị tương lai của chuỗi
Công thức thuật toán RNN
6 : Trạng thái ẩn tại thời điểm − 1
ℎ : Trạng thái ẩn tại thời điểm
4 3 : Ma trận trọng số cho các kết nối input-to-hidden
5 3 : Ma trận trọng số cho các kết nối hidden-to-hidden
3 : Biaes của trạng thái ẩn
2 3 : Hàm kích hoạt của trạng thái ẩn, thường dùng hàm #ℎ
Tùy thuộc vào mục đích bài toán và thiết kế mô hình đầu ra của bài toán mà bước tính vecto đầu ra có thể khác nhau
4, 5, : Ma trận tham số và vectơ
Nguyên lý hoạt động của RNN
Cách hoạt động của RNN được mô tả như sau:
Mỗi phần tử trong chuỗi đầu vào được biểu diễn bằng vector và được đưa vào RNN tại mỗi thời điểm Tại mỗi bước, RNN tính toán đầu ra và trạng thái ẩn, trong đó trạng thái ẩn chứa thông tin từ các phần tử trước đó Trạng thái ẩn được cập nhật qua việc tính toán trọng số giữa trạng thái ẩn và đầu vào hiện tại, sau đó áp dụng hàm kích hoạt phi tuyến tính để tạo ra trạng thái ẩn mới Đầu ra tại mỗi thời điểm được tính bằng hàm kích hoạt phi tuyến tính trên trạng thái ẩn Nếu cần đầu ra là chuỗi, đầu ra tại thời điểm đó có thể được đưa vào lại RNN như đầu vào cho thời điểm tiếp theo Cuối cùng, RNN tính toán đầu ra cuối cùng dựa trên trạng thái ẩn của phần tử cuối cùng trong chuỗi đầu vào.
Ví dụ: Ta có chuỗi đầu vào là {1,2,1} cho vào RNN để dự đoán con số tiếp theo của chuỗi ?
Hình 2.2 Ví dụ về nguyên lý hoạt động RNN
Dữ liệu đầu vào là {1,2,1}, tương ứng với 3 input là {1}, {2} và {1}, được lưu trữ lần lượt vào /6, / và /: Input đầu tiên /6 {1} sẽ truyền vào trong ℎ6 để lưu trữ, và ℎ6 cũng sẽ nhận thông tin từ ℎ (vì là phần tử đầu tiên, ℎ không chứa dữ liệu, chỉ được thêm vào để đảm bảo quy trình tuần tự) Do đó, ℎ6 sẽ lưu trữ {1} Tiếp theo, 6 sẽ xác định xác suất số xuất hiện nhiều nhất sau số 1, và số có xác suất xuất hiện nhiều nhất sau số 1 là số 2.
Input thứ hai, {2}, sẽ được ℎ6 lưu trữ, đồng thời ℎ cũng sẽ lưu trữ toàn bộ thông tin của ℎ6 Do đó, ℎ sẽ lưu trữ giá trị là {1,2}.
ℎ : sẽ lấy thông tin của ℎ và input / : vì vậy nó sẽ nhận giá trị {1,2,1}
Chúng ta đã hoàn thành xong quá trình học cho chuỗi dữ liệu đầu vào và giờ đây thực hiện dự báo output đầu ra
Số cuối cùng trong chuỗi là {1}, và trong quá trình học, nó nhận ra rằng cũng có {1} tương tự Sau {1}, sẽ xuất hiện {2}, do đó dự báo sẽ cho ra kết quả là {2}.
So sánh CNN, RNN và LSTM
2.5.1 Về nguyên lý hoạt động
Nguyên lý hoạt động của CNN
Hình 2.3 Nguyên lý hoạt động CNN
Ví dụ, một công ty có thể thu thập dữ liệu giá cổ phiếu hàng ngày trong vòng
10 năm qua và sử dụng chúng để huấn luyện một mô hình CNN
Thông tin về giá cổ phiếu thường được trình bày qua các đồ thị đơn giản, trong đó trục x đại diện cho thời gian và trục y biểu thị giá cổ phiếu Mỗi giá trị cổ phiếu trong một ngày cụ thể được thể hiện dưới dạng các điểm trên đồ thị này.
Các bức ảnh được sử dụng để huấn luyện mô hình CNN, giúp mô hình học cách trích xuất đặc trưng từ đồ thị giá cổ phiếu nhằm dự đoán giá trong tương lai.
Sau khi hoàn tất quá trình huấn luyện, mô hình CNN có khả năng dự đoán giá cổ phiếu trong tương lai Để thực hiện điều này, thông tin mới nhất về giá cổ phiếu của công ty được chuyển đổi thành hình ảnh và nhập vào mô hình CNN nhằm đưa ra dự đoán về giá cổ phiếu sắp tới.
Nguyên lý hoạt động của LSTM
Hình 2.4 Nguyên lý hoạt động LSTM Giả sử chúng ta có chuỗi số [1,2,3,4,5,3] dự đoán số tiếp theo ?
Chúng ta chia thành các chuỗi con có độ dài bằng nhau [1,2,3], [3,4,5], [4,5,3] thành input
Mỗi chuỗi con được đưa vào các ô nhớ và cổng trong LSTM để xác định thông tin cần lưu trữ và thông tin cần bỏ qua Đầu tiên, input gate sẽ chọn thông tin cần lưu trữ từ chuỗi con Tiếp theo, forget gate sẽ quyết định thông tin nào cần bị loại bỏ Cuối cùng, output gate sẽ xác định giá trị mới của ô nhớ và đưa ra dự đoán cho số tiếp theo trong chuỗi.
- CNN không phân biệt thứ tự đầu vào kết quả vẫn giữ nguyên
- RNN, LSTM thứ tự đầu vào ảnh hưởng đến kết quả đầu ra
2.5.2 So sánh RNN và LSTM
RNN (Mạng Nơ-ron Tái Kết nối) và LSTM (Bộ Nhớ Dài Ngắn) là hai loại mạng nơ-ron phổ biến trong xử lý ngôn ngữ tự nhiên và các tác vụ liên quan đến chuỗi dữ liệu Sự khác biệt chính giữa RNN và LSTM nằm ở khả năng ghi nhớ thông tin lâu dài, với LSTM vượt trội hơn trong việc xử lý các chuỗi dữ liệu phức tạp và dài hạn.
RNN có cấu trúc đơn giản với chỉ một lớp trạng thái ẩn, trong khi LSTM có cấu trúc phức tạp hơn với cặp lớp trạng thái ẩn và cổng quên.
- Xử lý thông tin dài hạn: RNN không hiệu quả trong việc xử lý thông tin dài
LSTM có khả năng xử lý thông tin dài hạn trong chuỗi dữ liệu nhờ vào cổng quên, giúp loại bỏ thông tin không cần thiết, và lớp trạng thái ẩn, lưu trữ thông tin quan trọng.
Trong mạng nơ-ron hồi tiếp (RNN), trạng thái ẩn được cập nhật liên tục tại mỗi bước thời gian thông qua việc tính toán trọng số giữa trạng thái ẩn và đầu vào hiện tại Mạng LSTM (Long Short-Term Memory) cải thiện khả năng này bằng cách sử dụng các cổng như cổng đầu vào, cổng quên và cổng đầu ra, cho phép điều chỉnh hiệu quả thông tin được truyền qua các lớp trạng thái, từ đó kiểm soát quá trình cập nhật trạng thái ẩn.
- Khả năng tránh vấn đề gradient vanishing/exploding:
Vấn đề gradient vanishing và exploding xảy ra khi gradient truyền qua các lớp trong mạng nơ-ron diễn ra quá nhanh hoặc quá chậm, gây ra sự không hiệu quả trong quá trình huấn luyện.
LSTM giải quyết vấn đề gradient vanishing và exploding bằng cách sử dụng các cổng để kiểm soát thông tin được truyền qua các lớp, từ đó cải thiện khả năng học tập của mạng nơ-ron.
Ưu nhược điểm của RNN
- RNN có thể xử lý đầu vào có độ dài bất kỳ
Mô hình RNN được thiết kế để ghi nhớ thông tin qua thời gian, điều này mang lại lợi ích lớn cho các công cụ dự đoán chuỗi thời gian.
- Ngay cả khi kích thước đầu vào lớn hơn, kích thước mô hình không tăng
- Các trọng số có thể được chia sẻ qua các bước thời gian
- RNN có thể sử dụng bộ nhớ trong của chúng để xử lý chuỗi đầu vào tùy ý, điều này không xảy ra với các mạng thần kinh chuyển tiếp
- Do tính chất lặp lại của nó, tính toán chậm
- Đào tạo các mô hình RNN có thể khó khăn
- Nếu chúng ta đang sử dụng relu hoặc tanh làm chức năng kích hoạt, sẽ rất khó xử lý các chuỗi rất dài
- Dễ gặp các vấn đề như phát nổ và biến mất độ dốc.
Các phương pháp tránh overfitting và underfitting
Overfitting không phải là thuật toán trong Machine Learning, mà là hiện tượng không mong muốn thường gặp Những người xây dựng mô hình Machine Learning cần hiểu và áp dụng các kỹ thuật phòng ngừa để tránh tình trạng này.
Overfitting là hiện tượng khi mô hình học quá mức từ dữ liệu huấn luyện, dẫn đến dự đoán kém trên tập kiểm tra Nguyên nhân của hiện tượng này có thể là do thiếu dữ liệu để đánh giá chính xác hoặc do dữ liệu quá phức tạp, gây khó khăn cho mô hình trong việc tổng quát hóa.
Chú ý: Khi lựa chọn tập dữ liệu train cần chú ý đến việc loại trừ trường hợp tốt hết hoặc xấu hết
Underfitting là hiện tượng xảy ra khi mô hình không đạt độ chính xác cao trong cả tập dữ liệu huấn luyện và khả năng tổng quát hóa với dữ liệu tổng thể Khi underfitting xuất hiện, mô hình sẽ không hoạt động hiệu quả với bất kỳ bộ dữ liệu nào liên quan đến vấn đề đang phân tích Tình trạng này thường ít gặp trong các bài toán phân tích dữ liệu.
Khi bài chúng chúng ta xảy ra tình trạng chưa khớp chúng ta có thể khắc phục bằng các phương pháp sau:
Khi tập dữ liệu quá phức tạp mà mô hình quá đơn giản, sẽ xảy ra tình trạng chưa khớp Do đó, cần điều chỉnh độ phức tạp của thuật toán để phù hợp hơn với tập dữ liệu.
- Nếu tập dữ liệu quá ít chúng ta cần thêm dữ liệu đầu vào để bổ sung thêm nhiều trường hợp cho tập dữ liệu
Thu thập thêm dữ liệu
Dữ liệu ít là một trong những nguyên nhân chính gây ra hiện tượng overfitting trong mô hình Để khắc phục vấn đề này, việc thu thập thêm dữ liệu là cần thiết nhằm giảm độ biến thiên (variance) và cải thiện hiệu suất của mô hình.
Phương pháp thu thập dữ liệu bổ sung:
Việc thu thập dữ liệu bổ sung hoặc thực hiện khảo sát thực tế để ghi hình và chụp ảnh là cần thiết Tuy nhiên, trong nhiều trường hợp, việc thu thập dữ liệu vượt quá mức này là không khả thi, do đó phương pháp này không được khuyến khích.
Tăng cường dữ liệu là phương pháp cải thiện dữ liệu hiện có thông qua các kỹ thuật như xoay, phản chiếu, chia tỷ lệ và nghiêng hình ảnh Phương pháp này được ứng dụng rộng rãi trong lĩnh vực xử lý hình ảnh học sâu.
Một nguyên nhân dẫn đến việc mô hình trở nên quá khớp là do cấu trúc của nó quá sâu và phức tạp, với nhiều lớp và nút, trong khi dữ liệu lại hạn chế Ví dụ, nếu bạn chỉ có dưới 100 triệu đồng để mua xe ô tô, giải pháp là bạn cần kiếm thêm tiền trước khi quay lại lựa chọn chiếc xe mình yêu thích.
MÔ HÌNH LAI GHÉP KẾT HỢP ARIMA VÀ RNN
Mô hình lai ghép kết hợp tuần tự mô hình ARIMA và RNN trong dự đoán chuỗi thời gian
Mô hình lai ghép giữa ARIMA và RNN trong dự báo chuỗi thời gian có hai phương pháp kết hợp: tuần tự và song song Trong đó, kiểu kết hợp tuần tự giữa hai mô hình được áp dụng để tối ưu hóa khả năng dự báo.
Mô hình lai ghép tuần tự kết hợp kết quả dự báo từ ARIMA và đầu ra từ RNN Cụ thể, kết quả dự báo tổng thể được hình thành từ dự báo đầu tiên của ARIMA và đầu ra của RNN, thể hiện qua công thức liên kết giữa chúng.
Dự đoán chuỗi thời gian bằng mô hình lai ARIMA và RNN như sau:
Mô hình ARIMA được áp dụng để dự đoán giá trị yt, với kết quả dự đoán được biểu thị bằng ký hiệu ?
+ Hai mô hình được kết hợp để dự báo và kết quả dự đoán từ các mô hình lai ARIMA RNN được biểu thị như sau:
3.2 Mô hình lai ghép kết hợp song song mô hình ARIMA và RNN trong dự đoán chuỗi thời gian
Ngày nay, có nhiều phương pháp để đánh giá mô hình dự đoán, trong đó bao gồm việc kết hợp song song hai mô hình ARIMA và RNN Đầu tiên, chúng ta cần thực hiện dự đoán riêng lẻ cho từng mô hình, sau đó gộp kết quả dự đoán lại để có cái nhìn tổng thể hơn về hiệu quả của chúng.
Mô hình lai ghép song song kết hợp giá trị dự báo từ mô hình ARIMA (ký hiệu là