3.4. Mơ hình dự báo chuỗi thời gian ngơn ngữ bậc cao 87 !
3.4.3. Một số kết quả và thảo luận 89!
Phần này trình bày một số kết quả thực nghiệm của mơ hình dự báo chuỗi thời gian ngơn ngữ bậc cao HO-LTS và thảo luận về hiệu năng của mơ hình khi
Xác định khơng gian nền và cấu trúc ĐSGT
Ngơn ngữ hóa dữ liệu lịch sử
Thiết lập các nhóm quan hệ lơ-gic ngơn ngữ bậc cao
so sánh với một số mơ hình trước đây. Ở đây, kết quả dự báo của mơ hình đề xuất được so sánh với mơ hình của Chen [10] và Singh [22]. Việc thực nghiệm mơ hình sử dụng dữ liệu lịch sử về số liệu sinh viên EUA và dữ liệu về sản lượng nông sản Lahi của Ấn Độ từ năm 1981 đến năm 2003.
Thực nghiệm dưới đây được tiến hành nhằm chỉ ra các giả thuyết sau: -! Mô hình dự báo HO-LTS làm tốt hơn các mơ hình bậc cao tương tự theo
cách tiếp cận mờ.
-! Trong mơ hình đề xuất, biến ngơn ngữ dự báo )V được xem xét như là thành phần ngôn ngữ của số liệu dự báo của biến số );. Do đó, khơng có một giới hạn về lực lượng của các giá trị ngơn ngữ nên độ chính xác của kết quả dự báo có thể được cải thiện nếu gia tăng lực lượng của các từ ngôn ngữ.
3.4.3.1. Áp dụng mơ hình dự báo HO-LTS vào bộ dữ liệu EUA
1) So sánh kết quả dự báo với các nghiên cứu của Chen và Singh
Để chỉ ra tính hiệu quả của mơ hình đề xuất, mơ hình dự báo HO-LTS sẽ được áp dụng vào bộ dữ liệu EUA, chi tiết dữ liệu đã được trình bày trong Bảng
2.1. Để thuận tiện, thực nghiệm được tiến hành như sau:
Bước 1: Xác lập khơng gian bài tốn, các giá trị ngơn ngữ đại diện và cấu
trúc ĐSGT, ngữ nghĩa định tính và định lượng của biến ngôn ngữ )V.
Cấu trúc ngôn ngữ được thiết lập bằng cách khai báo hai phần tử sinh là 5– = *(tjj(*), 55 = jtâ,i(j) và các gia tử. Trong nghiên cứu này, hai gia tử sẽ là ℎ# = 0+SSji(0) và ℎ5 = hiâÜ(h). Để so sánh với các mơ hình đã được đề cập, mơ hình dự báo sử dụng tập giá trị ngữ nghĩa của )V bao gồm 9 từ (độ dài tối đa là 2). Bộ từ đó là:
C),+ = 4($) = {6, 8!, !, 9!, :, 9;, ;, 8;, <}
trong đó ¿, ¡ tương ứng là giá trị tuyệt đối bé (Absolutely small) và tuyệt đối lớn (Absolutely large).
Ngữ nghĩa định tính của )V được đặc tả bởi dấu của các gia tử và quan hệ dấu giữa chúng:
*+,-(0) = *+,-(0, 0) = *+,-(0, h) =– 1.
Ngữ nghĩa định tính được đặc tả bằng các tham số mờ của )V. Trong thực nghiệm này, phương pháp thử-sai đã được sử dụng để chọn ra các tham số !(0) = 0,511; ((5–) = 0,437.
Bước 2: Tính tốn giá trị ngữ nghĩa thực của các giá trị ngôn ngữ đại diện
trong )V.
Biến đổi giá trị ngữ nghĩa được chuẩn hóa trong đoạn [0,1] vào không gian nền của bài tốn. Với dữ liệu tuyển sinh, khơng gian nền là đoạn [13000,20000]. Công thức dùng để biến đổi như sau:
2@(j$) = ?Gcde+ (?Gcfg− ?Gcde) × 2(j$)
trong đó j$ ∈ 9()), 2(j$) là giá trị ngữ nghĩa thực của j$, ?Gcde, ?Gcfg tương ứng là giá trị cận dưới và giá trị cận trên của ?G. Xét trường hợp !(0), ((5–) được xác định như trên, giá trị ngữ nghĩa trên không gian nền của các từ ngôn ngữ được xác định như sau: ?G,@ = {13000, 13731, 14496, 15295, 16059, 17044, 18073, 19058, 20000}.
Bảng 3.8. Chuỗi thời gian ngôn ngữ của dữ liệu EUA sử dụng 9 hạng từ
Năm Số lượng LTS Năm Số lượng LTS
1971 13055 0 1982 15433 Ls 1972 13563 Vs 1983 1497 Ls 1973 13867 Vs 1984 15145 Ls 1974 14696 s 1985 15163 Ls 1975 15460 Ls 1986 15984 m 1976 15311 Ls 1987 16859 Ll 1977 15603 Ls 1988 18150 l 1978 15861 m 1989 18970 Vl 1979 16807 Ll 1990 19328 Vl 1980 16919 Ll 1991 19337 Vl 1981 16388 m 1992 18876 Vl
Bước 3: Sinh chuỗi thời gian ngôn ngữ từ chuỗi thời gian dạng số. Dựa trên
trong )V cho từng điểm dữ liệu dựa trên khoảng cách của chúng với các giá trị của ?G,@. Ví dụ, số liệu tuyển sinh 15460 của năm 1975 gần nhất với giá trị giá trị ngữ nghĩa thực 15395 của giá trị ngôn ngữ Ls (Little small) của ?G,V. Do đó, giá trị tương ứng của chuỗi thời gian ngôn ngữ năm 1975 là Ls. Theo cách thực hiện tương tự, ta thu được chuỗi thời gian ngôn ngữ tương ứng với số liệu EUA trong cột “LTS” của Bảng 3.8.
Sau khi có được chuỗi thời gian ngơn ngữ, thiết lập các quan hệ lô-gic ngôn ngữ LLR và nhóm quan hệ lô-gic ngôn ngữ LLRG bậc cao. Để minh họa cho trường hợp độ dài tử ngôn ngữ tối đa là 2 (9 hạng từ), các nhóm quan hệ lơ-gic ngơn ngữ bậc hai và bậc ba sẽ được trình bày tương ứng như trong Bảng 3.9 và
Bảng 3.10.
Bảng 3.9. Nhóm quan hệ lơ-gic ngơn ngữ bậc hai sử dụng 9 hạng từ
Nhóm LLRG bậc 2 1 0, Vs ⟶ Vs 2 Vs, Vs ⟶ s 3 Vs, s ⟶ Ls 4 S, Ls ⟶ Ls 5 Ls, Ls ⟶ Ls, m 6 Ls, m ⟶ Ll 7 Ll, m ⟶ Ll, l 8 Ll, Ll ⟶ m 9 m, Ll ⟶ Ls 10 Ls, m ⟶ Ls 11 l, Ll ⟶ Vl 12 Vl, l ⟶ Vl 13 Vl, Vl ⟶ Vl
Bảng 3.10. Nhóm quan hệ lơ-gic ngơn ngữ bậc ba sử dụng 9 hạng từ
Nhóm LLRG bậc 3
1 0, Vs, Vs ⟶ s
2 Vs, Vs, s ⟶ Ls
Nhóm LLRG bậc 3 4 s, Ls, Ls ⟶ Ls 5 Ls, Ls, Ls ⟶ m, Ls 6 m, Ls, Ls ⟶ Ll 7 Ll, m, Ls ⟶ Ll, l 8 Ll, Ll, m ⟶ m 9 m, Ll, Ll ⟶ Ls 10 Ls, m, Ll ⟶ Ls 11 Ls, Ls, m ⟶ Ls 12 l, Ll, m ⟶ Vl 13 Vl, l, Ll ⟶ Vl 14 Vl, Vl, l ⟶ Vl 15 Vl, Vl, Vl ⟶ Vl
Bước 4: Tính tốn giá trị dự báo. Việc tính tốn giá trị dự báo được thực hiện
dựa theo hai nguyên tắc sau:
(1) Nếu tồn tại nhóm quan hệ LLRG j$', j$), … , ja ⟶ j,', j,), … , j,( (ø, ò ≥ 1), trong đó j$', j$), … , ja là trạng thái tuyển sinh của một năm dưới dạng chuỗi giá trị ngữ nghĩa; cho 2@Jj,'K, 2@Jj,)K, … , 2@Jj,(K là giá trị ngữ nghĩa định lượng dạng số tương ứng của j,', j,), … , j,(, thì số liệu dự báo tuyển sinh cho năm Ö + 1 là °2@Jj,'K + 2@Jj,)K + ⋯ + 2@Jj,(K¢ /ị.
(2) Nếu trạng thái tuyển sinh năm Ö là chuỗi giá trị ngữ nghĩa j$', j$), … , ja và khơng tồn tại nhóm quan hệ lơ-gic ngơn ngữ nào có j$', j$), … , ja nằm ở vế trái, khi đó giá trị dự báo tuyển sinh của năm thứ Ö + 1 là J2@(j$') + 2@(j$)) + ⋯ + 2@(ja)K/ø.
Độ đo được sử dụng ở đây là sai số trung bình bình phương MSE và sai số dự báo trung bình phần trăm tuyệt đối MAPE.
So sánh kết quả dự báo số liệu EUA bằng mơ hình HO-LTS từ bậc 2 đến bậc 9 sử dụng bộ 9 và 17 từ ngôn ngữ của )V tương ứng được trình bày trong Bảng
Bảng 3.11. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HO-LTS với
bộ 9 từ được chọn
Sai số \ Bậc 2 3 4 5 6 7 8 9
MSE 98783 94001 78665 81691 40704 37093 36943 35464 MAPE 1,60% 1,58% 1,37% 1,39% 1,11% 1,05% 1,03% 1,0%
Bảng 3.12. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HO-LTS với
bộ 17 từ được chọn
Sai số \ Bậc 2 3 4 5 6 7 8 9
MSE 17996 13264 13851 14313 13951 14591 15322 15429 MAPE 0,69% 0,56% 0,57% 0,57% 0,55% 0,56% 0,57% 0,56%
Về cơ bản, khi tăng số bậc trong mơ hình HO-LTS thì số lượng thơng tin được sử dụng trong mơ hình sẽ nhiều hơn. Điều đó có thể sẽ cải thiện được độ chính xác dự báo tuy nhiên điều này khơng phải lúc nào cũng đúng. Ví dụ trong
Bảng 3.12, sai số MAPE đối với bậc 8 là 0,57% trong khi của bậc 6 là 0,56%, bậc
5 là 0,55% thậm chí bậc 3 sai số này là 0,56% cũng thấp hơn bậc 8. Như vậy, tùy vào từng trường hợp thực nghiệm có thể lựa chọn bậc của chuỗi thời gian ngơn ngữ cho phù hợp với thực tế.
So sánh về giá trị MSE với ba nghiên cứu về chuỗi thời gian mờ bậc cao khác được chỉ ra trong Bảng 3.13. Trong bảng này, có thể thấy sai số dự báo của phương pháp đề xuất thấp hơn nhiều so với thực nghiệm trong các nghiên cứu của Chen [10], Hwang cùng cộng sự [9] và Singh [22] với các chuỗi thời gian từ bậc 4 đến bậc 9.
Bảng 3.13. So sánh MSE kết quả dự báo số liệu EUA
Phương pháp\Bậc 2 3 4 5 6 7 8 9
Chen [10] 89093 86694 89376 94539 98215 104056 102179 102789 Hwang et al. [9] 333171 299634 315489 278919 296950 316720 301228 306485 Singh [22] 119189 97180 126676 113.421 163137 148618 169149 123964
LTS bậc cao (9 từ) 98783 94001 78665 81691 40704 37093 36943 35464
Việc đánh giá sai số theo độ đo MAPE được trình bày trong Bảng 3.14. Theo đó, tất cả các bậc của mơ hình dự báo HO-LTS đều cho kết quả tốt hơn so với phương pháp của Song & Chissom [3], Hwang cùng cộng sự [9] và Singh [22].
Bảng 3.14. So sánh MAPE kết quả dự báo số liệu EUA
Phương pháp\Bậc 2 3 4 5 6 7 8 9
Song & Chissom [3] 3,15% 3,89% 4,37% 4,41% 4,49% 4,35% 4,45% 4,23%
Hwang et al. [9] 2,99% 2,94% 3,12% 2,92% 3,01% 3,08% 2,89% 2,79%
Singh [22] 1,80% 1,56% 1,74% 1,68% 2,07% 1,89% 1,98% 1,65%
LTS bậc cao (9 từ) 1,60% 1,58% 1,37% 1,39% 1,11% 1,05% 1,03% 1,0%
2) Sự chính xác dự báo khi tăng lực lượng từ ngơn ngữ
Một tính năng đặc biệt của mơ hình dự báo chuỗi thời gian ngôn ngữ là xem xét biến dự báo ngôn ngữ như thành phần ngôn ngữ )V của biến dự báo dạng số. Do đó, về cơ bản khơng có giới hạn nào về lực lượng của bộ từ ngôn ngữ được sử dụng. Thực nghiệm đã chỉ ra rằng độ chính xác dự báo sẽ tăng nếu như gia tăng số lượng từ ngôn ngữ của biến ngôn ngữ )V. Trong ĐSGT, bộ từ của )Vđược sinh tự động bằng cách tác động các gia tử lên các phần tử sinh [108], [109]. Độ dài của từ ngơn ngữ được kí hiệu là Ư, cịn được gọi là độ phân biệt. Trong bước 1 của mô hình dự báo, tương ứng với độ dài từ ngơn ngữ là Ö = 1, 2, 3, 4, 5 ta có số từ được sinh ra là 5, 9, 17, 33, 65. Tổng quát, khi sử dụng 2 gia tử thì số từ ngơn ngữ trong bộ từ của ĐSGT là 2/5' + 1 với Ö > 1. Với từng bộ từ ngơn ngữ có lực lượng khác nhau, tham số tính mờ của cấu trúc ĐSGT được sử dụng được điều chỉnh dựa trên kinh nghiệm như trọng Bảng 3.15. Ví dụ, trường hợp sử dụng bộ 17 từ ngơn ngữ thì .(5#) là 0,527 và !(0) là 0,412.
Bảng 3.15. Giá trị tham số tính mờ tương ứng với các bộ từ
Số từ ¬(√#) ƒ(≈)
17 từ 0,527 0,412
33 từ 0,65 0,35
65 từ 0,65 0,35
Bằng trực giác quan sát từ Bảng 3.16 và Bảng 3.17, ta có thể thấy nếu gia
tăng độ dài từ ngơn ngữ có thể giảm giá trị MSE và MAPE, tức là tăng độ chính xác dự báo. Đặc biệt, trường hợp mơ hình dự báo LTS-FM bậc 9 sử dụng 65 từ có MSE là 283 và MAPE là 0,07% tốt hơn nhiều so với cùng bậc 9 sử dụng 33,
17 và 9 từ với các giá trị tương ứng là các cặp số {MSE, MAPE} = {1.023; 0,14%}, {15.429; 0,56%}, {35.464; 1,0%}. Tương tự, đối với mơ hình dự báo bậc 2 đến 8 khi gia tăng độ dài từ cũng sẽ cải thiện đáng kể độ chính xác dự báo. Kết quả thực nghiệm đã chỉ ra rằng có thể tăng độ chính xác dự báo của mơ hình dự báo LTS-FM nếu gia tăng độ dài từ, hay tăng lực lượng các giá trị ngôn ngữ của biến ngôn ngữ )V và thực hiện các điều chỉnh tham số tính mờ. Đây cũng chính chính là điểm mạnh, sự linh hoạt của mơ hình dự báo HO-LTS.
Bảng 3.16. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HO-LTS với
bộ 33 từ được chọn
Năm Số liệu
tuyển sinh 2 3 4 5 6 7 8 9
MSE 4234 4297 2062 1972 2053 1731 1182 1023 MAPE 0,28% 0,28% 0,21% 0,20% 0,20% 0,18% 0,15% 0,14%
Bảng 3.17. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HO-LTS với
bộ 65 từ được chọn
Năm Số liệu
tuyển sinh 2 3 4 5 6 7 8 9
MSE 1284 1192 1078 1106 1133 882 273 283 MAPE 0,16% 0,15% 0,13% 0,13% 0,13% 0,11% 0,07% 0,07%
3.4.3.2. Dự báo năng suất nông sản Lahi của Ấn Độ
Trong phần này, mơ hình dự báo HO-LTS sẽ được áp dụng cho dữ liệu năng suất nông sản Lahi của Ấn Độ để chứng minh độ chính xác của mơ hình dự báo cao hơn so với mơ hình của Singh [22]. Dữ liệu năng suất nông sản Lahi được tính theo kg/ha được thu từ trang trại của G.B. Pant University, Pantnagar, Ấn Độ từ năm 1981 tới năm 2003 [22].
Với dữ liệu quan sát từ 440 đến 1067, chọn không gian nền của )V là ?G = [400,1100], tương tự nghiên cứu của Singh [22]. Hai phần từ sinh được chọn là 5# = j'`(j) và 55 = ℎ+,ℎ(ℎ). Hai gia tử được chọn là 0+SSji (0) ∈ {# và hiâÜ(h) ∈ {5. Để minh họa, bộ từ ngơn ngữ có độ phân biệt mức độ 2 là ?G,V = 9())= {0, V_low, low, L_low, medium, L_high, high, V_high, 1}. Các
tham số tính mờ được chọn theo kinh nghiệm, .(5#) = 0.5 and µ(0) = 0.51, áp dụng cho tất cả các bậc của mơ hình dự báo được áp dụng.
Bảng 3.18. Chuỗi thời gian ngôn ngữ năng suất nông sản Lahi
Năm Năng suất thực tế LTS
1981 1025 V_high 1982 512 V_low 1983 1005 V_high 1984 852 L_high 1985 440 A_low 1986 502 V_low 1987 775 Medium 1988 465 V_low 1989 795 L_high 1990 970 high 1991 742 medium 1992 635 L_low 1993 994 V_high 1994 759 medium 1995 883 high 1996 599 low 1997 499 V_low 1998 590 low 1999 911 high 2000 862 L_high 2001 801 L_high 2002 1067 A_high 2003 917 high
Trên cơ sở các tham số được chọn, các giá trị ngữ nghĩa thực được xác định như sau: ?G,@ = {400; 484; 571,5; 662.5; 750; 837,5; 928,5; 1016; 1100}. Trong
Bảng 3.18, dữ liệu quan sát thực được đặt trong cột “Năng suất thực tế”, nhãn
ngôn ngữ tương ứng được đặt trong cột “LTS”. Thực hiện tính tốn dự báo tương tự với phương thức trong mục 4.3.1, ta thu được kết quả dự báo năng suất nông sản Lahi với các sai số dự báo như trong Bảng 3.19.
Bảng 3.19. So sánh sai số dự báo nông sản Lahi của các mơ hình dự báo
Sai số Mơ hình dự báo 2 3 4 5 6 7 8 9 MSE Singh [22] 1089,7 908,9 1191,5 1311,6 1597,0 1207,2 1259,9 1425,8 HO-LTS 713,6 743,3 770,5 724,4 748 755,7 782 711,9 MAPE (%) Singh [22] 4,1359 3,8137 4,3566 4,4677 4,8753 3,9747 4,1337 4,5543 HO-LTS 3,3707 3,4846 3,5753 3,2689 3,2502 3,2518 3,1961 3,0471
Quan sát giá trị sai số dự báo MSE và MAPE của mơ hình dự báo HO-LTS so với mơ hình dự báo của Singh trong Bảng 3.19, ta thấy rõ ràng phương pháp dự báo HO-LTS sử dụng ĐSGT cho độ chính xác cao hơn.
Như vậy, mơ hình dự báo HO-LTS đã cho kết quả dự báo về dữ liệu EUA và năng suất nông sản Lahi của Ấn Độ có độ chính xác khá tốt. Mơ hình dự báo HO-LTS có nhiều tiềm năng có thể khai thác nếu kết hợp với các kỹ thuật tính tốn tiên tiến khác như phân cụm, mạng nơ-ron hay các tính tốn tối ưu…
KẾT LUẬN CHƯƠNG 3
Nhu cầu nghiên cứu mở rộng mơ hình dự báo LTS-FM là thiết yếu để có thể nâng cao tính ứng dụng của mơ hình vào các dữ liệu thực tế. Trong chương này, một số nghiên cứu mở rộng cho mơ hình đã được đề xuất:
-! Đề xuất mơ hình dự báo WLTS-FM có tính tới trọng số của các quan hệ lô-gic ngôn ngữ.
-! Đề xuất việc mở rộng khơng gian ngơn ngữ cho mơ hình dự báo. Việc mở rộng không gian ngôn ngữ đã được bàn luận trong [CT7].
-! Đề xuất việc tối ưu mơ hình dự báo. Việc tối ưu mơ hình có thể là tối ưu