Biểu đồ thành phần sai số của mơ hình SVM- 123docz.net

 Thuật toán 3

Giả sử phân rã 𝑦𝑡 = 𝑓𝑡1+ 𝑓𝑡2+ 𝑒𝑡 = 𝑓𝑡12+ 𝑒𝑡

 Học 𝑓𝑡2 = 𝑆𝑡 bằng phương pháp STL, ETS hoặc X-12-ARIMA, và luận văn sử thuật toán STL để minh họa trong ví dụ sau.

Nên 𝑦𝑡− 𝑓𝑡2 = 𝑓𝑡1+ 𝑒𝑡

 Học 𝑓𝑡1 bằng thuật toán Alg 1.1/ Alg 1.2 Ký hiệu:

 Nếu 𝑓𝑡1 học bằng Alg 1.1 thì ký hiệu STL-SVM.

Ví dụ:

Kết quả của thuật tốn 3 thể hiện qua Hình 3.5 cho thấy mơ hình thuật tốn này bám sát dữ liệu. So sánh Bảng 3.5 và Bảng 3.4, cho thấy sai số của thuật toán 3 đối với RVM xấp xỉ thuật tốn 2 có độ lệch chuẩn là 2.4254 và 2.4602, đối với SVM thì thuật tốn 2 tốt hơn cụ thể độ lệch chuẩn của 1.0886 và 2.4543. Ta thấy được biểu đồ sai số 𝑒𝑡 của thuật tốn 3 (Hình 3.6) là nhiễu trắng.

Sai số SVM RVM

Trung bình -0.0823 0.0099

Độ lệch chuẩn 2.4543 2.4602

Bảng 3.5. Sai số của thuật tốn 3

Hình 3.6. Biểu đồ thành phần sai số của mơ hình SVM

Như vậy thuật tốn 3 cho kết quả khá tốt như thuật toán 2, nhưng thuật toán 3 phải sử dụng thuật toán phân rã trước và đây là điểm khơng thuận lợi khi dùng thuật tốn 3.

 Thuật toán 4

Theo thuật toán 2 phân rã 𝑦𝑡 = 𝑓𝑡1+ 𝑓𝑡2+ 𝑒𝑡2

= 𝑓𝑡1+ 𝑓𝑡2+ 𝑒𝑡3+ 𝑜 = 𝑓𝑡 + 𝑒𝑡3 Với 𝑓𝑡 = 𝑓𝑡1+ 𝑓𝑡2+ 𝑜, 𝑜 là thành phần bất thường (outline).

Điều chỉnh 𝑒𝑡2 = 𝑒𝑡3+ 𝑜 áp dụng cách điều chỉnh mùa của phương pháp phân rã X-12-ARIMA và chỉ sử dụng mơ hình SVM.

 Alg 4.1 : sử dụng mơ hình SVM thay các bước tính trung bình, được ký hiệu X12-SVM.

 Alg 4.2 : sử dụng mơ hình RVM để thay các bước tính trung bình, trong đó áp dụng mơ hình SVM thay các bước tính trung bình theo tháng, được ký hiệu X12-RVM.

Chi tiết các bước thực hiện trong Alg 4.1/Alg 4.2: Điều chỉnh các bước có tính trung bình di động ở trong mục 2.3.5 và nội dung (2) mục 3.1.2:

 Bước 1: Điều chỉnh 𝑒𝑡2

o Tính độ lệch chuẩn theo năm, sau đó áp dụng SVM cho cả Alg 4.1 và Alg 4.2.

o Tính lại trọng số cho 𝑒𝑡2

 Bước 2: Nhân 𝑒𝑡2 đã điều chỉnh với 𝑓𝑡2

 Bước 3: Điều chỉnh 𝑓𝑡2, áp dụng SVM cho kết quả bước 2 cho cả Alg 4.1 và Alg 4.2.

 Bước 4: Tính 𝑦𝑡 trừ cho 𝑓𝑡2 đã điều chỉnh

 Bước 5: Điều chỉnh 𝑓𝑡1,

o Alg 4.1: Áp dụng SVM cho kết quả kết quả bước 4.

o Alg 4.2: Áp dụng RVM cho kết quả kết quả bước 4.

 Bước 6: Lấy 𝑦𝑡 trừ cho 𝑓𝑡1 đã điều chỉnh

 Bước 7: Ước lượng lại 𝑓𝑡2, áp dụng SVM cho kết quả bước 6 cho cả Alg 4.1 và Alg 4.2.

 Bước 8: Lấy kết quả bước 6 trừ bước 7, thu được 𝑒𝑡3.

Kết quả: Sau khi thực hiện thuật toán 4 như sau:

 Thành phần sai số 𝑒𝑡3.

 Thành phần 𝑓𝑡1 điều chỉnh ở bước 5.

 Thành phần 𝑓𝑡2 điều chỉnh ở bước 7. Thuật toán 4 đã phân rã 𝑦𝑡 = 𝑓𝑡1

Đ𝐶 + 𝑓𝑡2

Đ𝐶 + 𝑒𝑡3,

trong đó 𝑓𝑡 = 𝑓𝑡1+ 𝑓𝑡2+ 𝑜 = 𝑓𝑡1Đ𝐶 + 𝑓𝑡2Đ𝐶.

Ví dụ:

Thuật tốn 4 điều chỉnh sai số của thuật toán 2, rút thêm những bất thường trong thành phần sai số của thuật toán 2, nên kết quả đạt được theo Bảng 3.6 và so với Bảng 3.4 thì độ lệch chuẩn của SVM thuật toán 4 tăng lên so với thuật toán 2 từ 1.0886 lên 1.2920, trong khi đó độ lệch chuẩn của RVM thuật tốn 4 giảm

Hình 3.7. Biểu đồ của thuật toán 4

Sai số SVM RVM

Trung bình 0.1180 -0.3564

Độ lệch chuẩn 1.2920 1.8043

Bảng 3.6. Sai số của thuật toán 4

Chương 4. THỰC NGHIỆM

Chương 4 sẽ đánh giá bốn thuật toán được đề xuất ở chương 3. Chương này sẽ trình bày một số kết quả thực nghiệm của phương pháp đề xuất trên một số tập dữ liệu khi so sánh với một vài phương pháp phân rã cơ sở tiêu biểu cho bài toán chuỗi thời gian.

4.1. Quy trình thực nghiệm

Quy trình chuẩn bị cho thực nghiệm trong luận văn gồm có: tiền xử lý bộ dữ liệu, phương pháp thực hiện, chọn các thuật toán phân rã chuỗi thời gian để so sánh cùng với thuật toán luận văn đã đề xuất để đánh giá tính hiệu quả của các thuật tốn.

4.1.1. Dữ liệu

Các thực nghiệm trong luận văn đã thực hiện trên sáu bộ dữ liệu như sau:

- Bộ dữ liệu thứ nhất (Series 1): bộ dữ liệu gồm có 114 dữ liệu có tính mùa theo tháng từ tháng 10 năm 1985 đến tháng 3 năm 1995. Đây là bộ dữ liệu được nghiên cứu phương pháp phân rã X-11-ARIMA và X-12-ARIMA trong cơng trình [6].

- Bộ dữ liệu thứ hai (Series 2): Bộ dữ liệu The Electrical Equipment Orders (thư viện fpp của ngơn ngữ R), gồm có 191 dữ liệu mùa theo tháng, từ tháng 01 năm 1996 đến tháng 11 năm 2011.

- Bộ dữ liệu thứ ba (Series 3): Bộ dữ liệu Visitors (thư viện fpp của ngơn ngữ R), gồm có 240 dữ liệu tính mùa theo tháng, từ tháng 5 năm 1985 đến tháng 4 năm 2005.

- Bộ dữ liệu thứ tư (Series 4): Bộ dữ liệu Enplanements (thư viện fpp của ngơn ngữ R), gồm có 282 dữ liệu tính mùa theo tháng, từ tháng 01 năm 1979 đến tháng 6 năm 2002.

- Bộ dữ liệu thứ năm (Series 5): Bộ dữ liệu Electricity [23], gồm có 486 dữ liệu có tính mùa theo tháng, từ tháng 01 năm 1973 đến tháng 6 năm 2013.

- Bộ dữ liệu thứ sáu (Series 6): Bộ dữ liệu a10 (thư viện fpp của ngơn ngữ R), gồm có 204 dữ liệu tính mùa theo tháng, từ tháng 07 năm 1991 đến tháng 06 năm 2008.

Luận văn đã chia sáu bộ dữ liệu trên thành hai phần: dữ liệu huấn luyện (training) và kiểm tra (testing) hay dự báo (forecasting), chi tiết theo Bảng 4.1.

STT Dữ liệu Ký hiệu Tổng

mẫu

Huấn

luyện Dự báo

1 S1 Series 1 114 108 6

2 Electrical Equipment Orders Series 2 191 180 11

3 Visitors Series 3 240 228 12

4 Enplanements Series 4 282 276 6

5 Electricity Series 5 486 480 6

6 a10 Series 6 204 192 12

Bảng 4.1. Số lượng mẫu của dữ liệu

4.1.2. Phương pháp thực hiện

Về phần chọn các thuật toán để so sánh với các tiếp cận của luận văn đề xuất, luận văn chọn ba thuật toán phân rã cơ sở tiêu biểu gồm: thứ nhất là X-12-ARIMA (xem phần 2.3.6 ), thứ hai là STL (xem phần 2.3.7) và thuật toán cuối cùng mà luận văn đã chọn để so sánh là ETS (ExponenTial Smoothing) [24].

Tất cả các mã nguồn của các phương pháp đề xuất được viết trên ngơn ngữ lập trình R. Các thuật tốn X-12-ARIMA, STL, ETS sử dụng thư viện x12 và forecast của ngôn ngữ R.

Luận văn chạy lần lượt ba thuật toán phân rã cơ sở tiêu biểu và bốn thuật toán luận văn đề xuất (theo hai mơ hình RVM/SVM nên thành tám thuật tốn đề xuất) khảo sát trên sáu bộ dữ liệu Bảng 4.1 và báo cáo kết quả.

Các thực nghiệm được tiến hành trên laptop Toshiba với cấu hình như sau: CPU core I5 – M430 2.27 GHz, 4GB RAM, hệ điều hành Windows 10 Pro 64 bit.

4.1.3. Độ đo sử dụng để so sánh tính hiệu quả của thuật tốn

Để đánh giá tính hiệu quả của các thuật tốn, độ đo đầu tiên luận văn sử dụng là trung bình và độ lệch chuẩn. Mặc dù trung bình (mean) và độ lệch chuẩn (sd - standard deviation) không phải là mục tiêu duy nhất nhưng chính là hai độ đo quan trọng trong việc đánh giá tính hiệu quả của thuật tốn phân rã chuỗi thời gian. Sai số {𝑒𝑡} của chuỗi thời gian có phân phối chuẩn 𝒩(0, 𝜎2):

𝜇 = 1 𝑁 ∑ 𝑒𝑡 𝑁 𝑡=1 (4.1) 𝜎 = √1 𝑁∑(𝑒𝑡 − 𝜇)2 𝑁 𝑡=1 (4.2) Bên cạnh đó, độ đo độ chính xác được sử dụng để đánh giá mơ hình huấn luyện và dự báo. Luận văn sử dụng độ đo chính xác thơng dụng hiện nay là Root Mean Square Error (RMSE).

Nếu 𝑦𝑡 dữ liệu quan sát tại thời điểm 𝑡 và 𝑓𝑡 là giá trị dự báo cùng thời điểm thế thì sai số được định nghĩa:

𝑒𝑡 = 𝑦𝑡 − 𝑓𝑡 (4.3) RMSE = √1 𝑁∑ 𝑒𝑡 2 𝑁 𝑡=1 (4.4)

4.2. Kết quả thực nghiệm và đánh giá

Luận văn đã tiến hành các thực nghiệm và phần 4.2 sẽ trình bày những kết quả đạt được cùng với những đánh giá liên quan.

Luận văn trình bày phần này với hai nội dung chính: Thứ nhất luận văn trình bày kết quả và đánh giá các thuật toán phân rã dựa trên độ đo trung bình và độ lệch chuẩn. Thứ hai, luận văn trình bày kết quả và đánh giá khả năng dự báo của thuật toán phân rã trên dựa trên độ đo RMSE.

4.2.1. Thuật toán phân rã chuỗi thời gian

Thực nghiệm trên sáu bộ dữ liệu theo Bảng 4.1 kết quả sai số của các thuật toán phân rã chuỗi thời gian được trình bày trong Bảng 4.2 và Bảng 4.3 bên dưới:

Series 1 Series 2 Series 3

mean sd mean sd mean sd

X-12-ARIMA -0.21 2.28 0.14 1.82 -0.26 9.14 STL -0.03 2.35 -0.02 2.55 -0.16 17.18 ETS 0.13 2.73 0.05 3.22 -0.36 17.26 SVM -1.75 7.58 0.24 8.30 5.39 31.22 S-SVM 0.02 1.09 0.05 2.42 -0.13 11.42 STL-SVM -0.08 2.45 0.10 2.28 0.50 15.47 X12-SVM 0.12 1.29 0.22 1.79 -0.15 9.45 RVM 0.08 11.57 1.53 13.86 0.38 40.30 S-RVM -0.25 2.43 0.98 10.51 -0.68 13.59 STL-RVM 0.01 2.46 0.00 2.83 0.07 18.42 X12-RVM -0.36 1.80 -0.14 3.46 -0.40 12.48

Bảng 4.2. Kết quả sai số của thuật toán phân rã 03 dữ liệu đầu

Trong các thuật toán phân rã đều là phân rã theo dạng tổng, do đó trung bình sai số phải hội tụ về khơng. Trong Bảng 4.2 và Bảng 4.3 thì thuật tốn SVM và RVM của Series 1, 2 và 3 không hội tụ về khơng, lý do hai thuật tốn khơng bám sát được mơ hình dữ liệu.

Series 4 Series 5 Series 6

mean sd mean sd mean sd

X-12-ARIMA -0.02 0.93 0.07 4.77 -0.04 0.40 STL 0.02 1.39 0.00 10.15 -0.01 0.88 ETS 0.11 1.55 -0.08 8.13 0.09 0.76 SVM 0.05 1.95 0.30 8.74 0.22 1.77 S-SVM -0.04 1.00 0.05 4.30 0.04 0.66 STL-SVM 0.01 1.15 0.09 8.20 0.01 0.91 X12-SVM -0.03 0.96 0.55 4.69 -0.02 0.53 RVM 0.01 2.87 0.03 22.66 0.02 1.73 S-RVM 0.00 1.12 0.27 8.12 -0.04 0.60 STL-RVM 0.00 1.47 0.02 10.73 0.00 0.90 X12-RVM 0.02 1.18 -0.05 6.19 -0.03 0.53

Bảng 4.3. Kết quả sai số của thuật toán phân rã 03 dữ liệu sau

Khả năng phân rã của các thuật toán, để dễ đánh giá thì luận văn vẽ Hình 4.1, Hình 4.2 và Hình 4.3 bên dưới. Đường gạch trên (đường max) và gạch dưới (đường min) của mỗi cột dữ liệu là độ lệch chuẩn lớn nhất và nhỏ nhất của ba thuật toán cơ sở: X-12-ARIMA, STL và ETS, từ đây về sau luận văn gọi là đường max và đường min.

Qua đó ba hình vẽ trên, cho ta thấy độ lệch chuẩn sai số của các thuật toán phân rã chuỗi thời gian của luận văn đề nghị đều nằm trong khoảng đường max và đường min, thậm chí cịn ở dưới đường min. Tuy nhiên, cũng có thuật tốn mà độ lệch chuẩn sai số nằm trên đường max cụ thể:

- Thuật tốn RVM có sáu bộ dữ liệu nằm trên đường max , trong đó bộ dữ liệu 3 và 5 nằm xa đường max; Thuật tốn SVM có năm bộ dữ liệu nằm trên đường max, trong đó có bộ dữ liệu 3 nằm xa đường max, chỉ có bộ dữ liệu năm ở dưới đường max. Điều này cho thấy thuật toán SVM/RVM phân rã chuỗi dữ liệu thời gian chưa tốt (Hình 4.1,

Hình 4.1. Độ lệch chuẩn của các thuật tốn phân rã bộ dữ liệu 1 và 2

- Các thuật tốn cịn lại đều có độ lệch chuẩn của sai số xấp xỉ trong đường max và min, trong đó thuật tốn X12-SVM có sáu bộ đưới đường min, X12-RVM và S-SVM có hai bộ dưới đường min, STL-SVM có một bộ nằm dưới đường min. Như vậy, kết quả các thuật tốn cịn lại khá tốt đặc biệt là X12-SVM tốt hơn các thuật toán cơ sở.

Nhận xét: Trên sáu bộ dữ liệu thực nghiệm thì các thuật tốn phân rã RVM/SVM

chưa tốt, chúng tôi đặt ra giả thiết là chuỗi thời gian kinh tế có phân phối phức tạp nên RVM/SVM khả năng học phi tuyến tốt vẫn chưa bám sát được mơ hình dữ liệu 1; Các thuật tốn cịn lại kết quả xấp xỉ các thuật toán cơ sở; Đặc biệt, thuật toán X12-SVM vượt trội hơn các thuật tốn cơ sở.

Hình 4.3. Độ lệch chuẩn của các thuật toán phân rã bộ dữ liệu 4 và 6

4.2.2. Dự báo của thuật tốn phân rã

Tiếp theo, các mơ hình phân rã được trình bày trong phần 4.2.1, luận văn trình bày kết quả dự báo của các mơ hình trên dựa theo sai số RMSE của tập huấn luyện và tập dự báo theo Bảng 4.4 và Bảng 4.5 ở dưới.

Để thuận lợi cho việc đánh giá kết quả, luận văn biểu diễn hai bảng số liệu trên đây dưới dạng biểu đồ: Biểu đồ thứ nhất Hình 4.4 và Hình 4.5 biểu diễn sai số (RMSE) huấn luyện và dự báo cho chuỗi dữ liệu 1, 2, 4, 6 và chuỗi dữ liệu 3, 5 cùng với các thuật toán SVM/RVM, S-SVM/RVM, STL-SVM/RVM so sánh với ba thuật toán cơ sở; Biểu đồ thứ hai Hình 4.6 và Hình 4.7 biểu diễn sai số RMSE huấn luyện và dự báo cho chuỗi dữ liệu 1, 2, 4, 6 và chuỗi dữ liệu 3, 5 cùng với các thuật toán X12-SVM, X12-RVM so sánh với ba thuật toán cơ sở.

Series 1 Series 2 Series 3

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

X-12-ARIMA 2.27 1.22 1.82 4.17 9.12 23.77 STL 2.34 2.37 2.54 3.77 17.15 40.75 ETS 2.72 3.62 3.21 3.81 17.23 23.43 SVM 7.75 10.88 8.28 9.36 31.62 175.30 S-SVM 1.08 9.80 2.41 5.73 11.40 155.25 STL-SVM 2.44 3.82 2.28 4.45 15.44 140.69 X12-SVM 1.29 9.68 1.79 2.93 9.43 146.13 RVM 11.52 32.08 13.91 8.34 40.21 163.44 S-RVM 2.43 27.51 10.53 5.19 13.57 141.95 STL-RVM 2.45 18.00 2.82 9.75 18.38 71.44 X12-RVM 1.83 13.55 3.45 2.71 12.46 40.00

Series 4 Series 5 Series 6 Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

X-12-ARIMA 0.92 1.28 4.77 6.20 0.40 2.69 STL 1.38 3.58 10.14 6.40 0.88 2.28 ETS 1.55 2.31 8.12 6.62 0.77 2.22 SVM 1.95 8.88 8.74 58.27 1.78 4.90 S-SVM 1.00 8.20 4.30 54.93 0.66 3.75 STL-SVM 1.14 7.21 8.19 44.99 0.91 4.11 X12-SVM 0.96 8.38 4.72 52.15 0.53 5.55 RVM 2.86 12.73 22.64 32.65 1.73 6.48 S-RVM 1.12 11.16 8.11 18.52 0.60 6.11 STL-RVM 1.46 7.75 10.72 15.53 0.90 3.85 X12-RVM 1.18 6.69 6.18 6.84 0.53 2.07

Bảng 4.5. Sai số (RMSE) huấn luyện và sai số (RMSE) dự báo 3 dữ liệu sau

- Thuật tốn SVM/RVM: Sai số huấn luyện có bộ 4 và 6 xấp xỉ trên so với các thuật tốn cơ sở, SVM có thêm bộ 5; các bộ cịn lại thì sai số huấn luyện cao hơn đường max. Sai số dự báo, chỉ có bộ dữ liệu 6 là xấp xỉ trên so với thuật toán cơ sở (đường max là 2.69 đối với SVM 4.90 và RVM 6.48), các bộ cịn lại thì ở trên xa đường max của (ví dụ như bộ dữ liệu 3 đường max là 40.75 đối với SVM là 175.30, với RVM là 163.44).

- Thuật toán S-SVM/S-RVM: Sai số huấn luyện và dự báo cải thiện tốt hơn so với thuật tốn SVM/RVM. Ví dụ bộ dữ liệu 2 kết quả dự báo khá tốt, sai số huấn luyện S-SVM là 2.41 nhỏ hơn SVM là 8.28 (dưới đường max là 2.54), sai số dự báo S-SVM là 5.73 nhỏ hơn SVM là 9.36 (xấp xỉ trên đường max là 4.17). Trong khi đó với bộ dữ

Biểu đồ thành phần sai số của mơ hình SVM

RVM đối với bài toán hồi quy

RVM đối với bài toán phân loại