2.2. Mơ hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM) 45 !
2.2.4. Một số kết quả thử nghiệm và thảo luận 52 !
Trong phần này, mơ hình được đề xuất trong Phần 2.2.3 sẽ được thử nghiệm vào dữ liệu lịch sử EUA (xem Bảng 2.1). Đây là bộ dữ liệu được Song & Chissom [2], [3], Chen [4] và nhiều nghiên cứu về FTS sử dụng xem xét hiệu quả của mơ hình đề xuất.
2.2.4.1. Thực nghiệm mơ hình LTS-FM vào bộ dữ liệu EUA
Trong phần này, thực nghiệm được tiến hành để minh họa phương pháp tính tốn của mơ hình dự báo LTS-FM bằng cách áp dụng mơ hình đề xuất một cách trực tiếp lên bộ dữ liệu EUA. Các kết quả dự báo cũng sẽ được so sánh với kết quả dự báo trong các nghiên cứu của Song & Chissom [2], [3] và Chen [4].
Dựa vào mơ hình đề xuất, thủ tục dự báo trên chuỗi thời gian EUA được thực hiện như sau:
Bước 1: Gọi &0$* và &06: tương ứng là giá trị bé nhất và giá trị lớn nhất của chuỗi thời gian lịch sử. Ta có: &0$* = 13055 và &06: = 19337.
Việc xác định không gian nền phải được thực hiện sao cho đủ bao phủ các giá trị lịch sử, tức không gian nền là [&V, &@] trong đó &V = &0$* − uV, &@ = &06: + u@ với uV, u@ ≥ 0. Trong trường hợp dữ liệu tuyển sinh, khơng gian nền của bài tốn là [13000,20000].
Quan sát số lượng sinh viên nhập học, về cơ bản có hai trạng thái là ít và nhiều. Do đó, hai phần tử sinh sẽ là 5# = *(*(tjj), 55 = j(jtâ,i). Ngoài hai trạng thái trên, cũng có trạng thái trung gian ở giữa là (((+qqji). Hai gia tử ℎ# = [ ([tSℎiâ), ℎ5 = h(hiâÜ) tương ứng là gia tử âm và gia tử dương trong mơ hình ĐSGT sẽ được sử dụng. Khi đem [ và h tác động lên hai phần tử sinh * và j, miền ngôn ngữ được xác định như sau:
Dom(Enrollments)={Vs, s, Rs, m, Rl, l, Vl}
Các từ ngôn ngữ được sử dụng trong miền ngôn ngữ trên tương ứng là: Vs (Very small), s (small), Rs (Rather small), m (middle), Rl (Rather large), l (large),
Vl (Very large). Chú ý rằng, trong cấu trúc ĐSGT thì giữa các từ ngơn ngữ đều
có quan hệ thứ tự và trong trường hợp trên thứ tự như đã trình bày.
Sử dụng các cơng thức tính tốn trong Phần 1.2.3.5, các giá trị ngữ nghĩa định lượng được xác định như sau:
§! ù(hj) = 3 + 26 − 6)− 236 + 36); §! ù(j) = 3 − 36 + 6; §! ù([j) = 3 + 6) − 36); §! ù(() = 3; §! ù([*) = 3 − 36); §! ù(*) = 3 − 36; §! ù(h*) = 3 − 236 + 36).
Giá trị trung bình của các tham số 3 = 0,5 và 6 = 0,5. Tuy nhiên, để nhấn mạnh ý nghĩa về ngữ nghĩa của các từ ngôn ngữ, hai tham số này sẽ được chọn bằng phương pháp thử-sai. Phương pháp thử-sai được sử dụng để tìm kiếm giá trị tham số tốt nhất sau một vài lần thử khi phương pháp tối ưu chưa được áp dụng. Trong cấu trúc ĐSGT, khi thay đổi giá trị hai tham số 3 và 6 sẽ làm thay đổi giá trị ngữ nghĩa định lượng của các từ ngơn ngữ. Điều đó sẽ làm thay đổi các quan hệ trong mơ hình dự báo và do đó thay đổi kết quả dự báo. Tăng hoặc giảm giá trị của hai tham số quanh giá trị trung bình với dung sai ∂ = 0,01, giá trị của hai tham số này là 3 = 0,57; 6 = 0,49 sẽ được lựa chọn và sử dụng.
Áp dụng các cơng thức tính tốn giá trị ngữ nghĩa định lượng của các từ ngôn ngữ trong mơ hình ta nhận được ù(h*) = 0,1483; ù(*) = 0,2907; ù([*) = 0,4331; ù(() = 0,57; ù([j) = 0,6732; ù(j) = 0,7807; ù(hj) = 0,8882. Chú ý rằng các giá trị ù(+), + = 1 … 7 sẽ thay đổi khi điều chỉnh giá trị 3 và 6.
Bước 3: Ánh xạ giá trị ngữ nghĩa định lượng ù(+), + = 1 … 7 về không gian nền ta được tập các điểm ngữ nghĩa thực. Công thức dùng để ánh xạ như sau:
ù@(+) = &V + (&@ − &V) ∗ ù(+)
Đối với dữ liệu tuyển sinh, &V = 13000, &@ = 20000, các điểm ngữ nghĩa thực là:
{14038,15035,16032,16990,17713,18465,19217}
Bảy điểm ngữ nghĩa thực trên tương ứng với bảy từ ngôn ngữ được lựa chọn sử dụng trong mơ hình dự báo LTS-FM.
Bước 4: Ngơn ngữ hố chuỗi thời gian số bằng cách chọn các điểm ngữ nghĩa
gần nhất trong không gian nền đối với từng điểm dữ liệu.
Đối với mỗi điểm dữ liệu bất kỳ, lựa chọn một nhãn ngôn ngữ để gán theo nguyên tắc tìm điểm ngữ nghĩa thực sát nhất với dữ liệu thực tế.
Bảng 2.4. Số liệu sinh viên nhập học EUA và chuỗi thời gian ngôn ngữ tương ứng
Năm Số liệu Chuỗi thời gian
ngôn ngữ (LTS) Năm Số liệu
Chuỗi thời gian ngôn ngữ (LTS) 1971 13055 Vs 1982 15433 s 1972 13563 Vs 1983 15497 s 1973 13867 Vs 1984 15145 s 1974 14696 s 1985 15163 s 1975 15460 s 1986 15984 Rs 1976 15311 s 1987 16859 m 1977 15603 s 1988 18150 l 1978 15861 Rs 1989 18970 Vl 1979 16807 m 1990 19328 Vl 1980 16919 m 1991 19337 Vl 1981 16388 Rs 1992 18876 Vl
Ví dụ, số liệu tuyển sinh năm 1971 là 13055 thì nhãn ngơn ngữ tương ứng với năm 1971 là 9' (Vs) vì giá trị ngữ nghĩa thực của 9' là 14038, gần nhất với số liệu tuyển sinh đang xét. Tương tực, nhãn ngôn ngữ tương ứng với năm 1992 là 9T (Vl) vì giá trị ngữ nghĩa thực 19217 là gần nhất với số liệu tuyển sinh năm 1992 là 18876. Tương tự, ta có bảng số liệu tuyển sinh với chuỗi thời gian ngôn ngữ tương ứng như trong Bảng 2.4.
Trong bảng trên, cột chuỗi thời gian ngơn ngữ chính là kết quả của việc ngữ nghĩa hóa chuỗi thời gian dạng số theo trình tự thời gian. Chính quan hệ theo thời gian này sẽ dùng để thiết lập các quan hệ lô-gic ngôn ngữ ở bước tiếp theo.
Bước 5: Thiết lập các quan hệ lơ-gic ngơn ngữ (LLR) và nhóm chúng vào
các nhóm quan hệ lơ-gic ngơn ngữ (LLRG).
Quan sát và ghi nhận quan hệ thời gian từ đầu tới cuối chuỗi dữ liệu lịch sử ta sẽ thu được các LLR tương ứng. Nếu nhãn ngơn ngữ của năm Ư là 9$ và nhãn
ngơn ngữ của năm thứ Ư + 1 là 9, thì thu được quan hệ LLR 9$ → 9,. Xét dữ liệu EUA, ta có các quan hệ LLR sau:
h* ⟶ h*; h* ⟶ *; * ⟶ *; * ⟶ [*; [* ⟶ *; [* ⟶ [* [* ⟶ (; ( ⟶ [*; ( ⟶ (; ( ⟶ j; j ⟶ hj; hj ⟶ hj
Từ các quan hệ lô-gic ngơn ngữ (LLR) ở trên, nhóm các quan hệ có cùng vế trái thành một nhóm quan hệ lơ-gic ngơn ngữ (LLRG). Từ đó, ta thu được các nhóm quan hệ như trong bảng dưới đây.
Bảng 2.5. Các nhóm quan hệ lô-gic ngôn ngữ của chuỗi thời gian tuyển sinh
Nhóm LLRG Viết tắt Nhóm 1 h* ⟶ h*, h* ⟶ * h* ⟶ h*, * Nhóm 2 * ⟶ *, * ⟶ [* * ⟶ *, [* Nhóm 3 [* ⟶ *, [* ⟶ [*, [* ⟶ ( [* ⟶ *, [*, ( Nhóm 4 ( ⟶ [*, ( ⟶ (, ( ⟶ hj ( ⟶ [*, (, j Nhóm 5 j ⟶ hj j ⟶ hj Nhóm 6 hj ⟶ hj hj ⟶ hj
Chú ý rằng, nếu trong hai bảng trên ta thay các giá trị ngơn ngữ vào thì các quan hệ lơ-gic ngơn ngữ sẽ có dạng 9$ → 9, trong đó 9$, 9, là các nhãn ngôn ngữ trong {Vs, s, Rs, m, Rl, l, Vl}.
Bước 6: Tính tốn các giá trị dự báo dựa trên các nhóm quan hệ lơ-gic ngơn
ngữ LLRG và các nguyên tắc dự báo.
Sử dụng các nhóm quan hệ LLRG ở Bảng 2.5 các nguyên tắc tính tốn dự báo ở Phần 2.3 kết quả dự báo cho các điểm dữ liệu lịch sử sẽ được tính tốn. Chú ý rằng điểm dữ liệu đầu tiên khơng thể dự báo trong mơ hình bậc nhất. Có nghĩa là điểm dữ liệu dự báo bắt đầu từ điểm thứ hai trong mơ hình bậc nhất. Một cách tổng qt, đối với mơ hình dự báo chuỗi thời gian ngữ nghĩa bậc - thì điểm dự báo bắt đầu từ vị trí - + 1.
Kết quả dự báo dựa theo mơ hình đề xuất so sánh với các mơ hình của Song & Chissom [2] và Chen [4] như ở Bảng 2.6.
Bảng 2.6. So sánh kết quả dự báo tuyển sinh Alabama
Năm Số liệu thực Song &
Chissom Chen Phương pháp đề xuất 1971 13055 1972 13563 14000 14000 14537 1973 13867 14000 14000 14537 1974 14696 14000 14000 14537 1975 15460 15500 15500 15534 1976 15311 16000 16000 15534 1977 15603 16000 16000 15534 1978 15861 16000 16000 16019 1979 16807 16000 16000 16019 1980 16919 16813 16833 17162 1981 16388 16813 16833 17162 1982 15433 16709 16833 16019 1983 15497 16000 16000 15534 1984 15145 16000 16000 15534 1985 15163 16000 16000 15534 1986 15984 16000 16000 15514 1987 16859 16000 16000 16019 1988 18150 16813 16833 17162 1989 18970 19000 19000 19217 1990 19328 19000 19000 19217 1991 19337 19000 19000 19217 1992 18876 - 19000 19217 MSE 412499 407507 262326
Quan sát đồ thị minh họa kết quả dự báo trong Hình 2.3 sẽ thấy được phương pháp dự báo đề xuất có độ chính xác của kết quả dự báo tốt hơn. Theo đó, hai phương pháp dự báo do Song & Chissom và Chen đề xuất cho kết quả dự báo khá tương đồng trong khi đó kết quả dự báo bởi mơ hình dự báo LTS-FM có xu thế bám sát số liệu thực tế hơn.
Hình 2.3. Đồ thị so sánh kết quả dự báo giữa các phương pháp
Từ kết quả dự báo, cũng có thể xác định sai số dự báo bằng độ đo MSE trong công thức (1.1). Minh họa so sánh MSE giữa các phương pháp như hình dưới.
Hình 2.4. So sánh độ chính xác dự báo bằng MSE giữa các phương pháp
Rõ ràng, MSE của mơ hình đề xuất là 262326 là tốt hơn nhiều so với mơ hình của Song & Chissom và Chen, tương ứng là 412499 và 407507. Đây là kết quả đầu tiên ứng dụng LTS vào số liệu sinh viên nhập học EUA. Kết quả dự báo được so sánh với các nghiên cứu đầu tiên về mơ hình dự báo FTS với số từ ngơn ngữ được sử dụng trong mơ hình dự báo LTS tương ứng với số khoảng trong các phương pháp của Song & Chissom và Chen. Có thể thấy, do sử dụng phương pháp
13000 14000 15000 16000 17000 18000 19000 20000 1972 1975 1978 1981 1984 1987 1990 S ố l ư ợ n g Năm
Số liệu thực Song & Chissom Chen Phương pháp đề xuất
412499 407507 262326 0 100000 200000 300000 400000 500000
tính tốn trực tiếp trên giá trị ngữ nghĩa định lượng nên phương pháp dự báo đề xuất linh hoạt hơn và cho kết quả dự báo tốt hơn.
2.2.4.2. Áp dụng mơ hình dự báo LTS-FM vào độ biến thiên của dữ liệu tuyển sinh
Trong tính tốn dự báo, các nhà nghiên cứu không chỉ quan tâm tới số liệu thực tế mà còn quan sát xu hướng biến động của dữ liệu. Khi đó, độ chênh lệch giữa hai điểm dữ liệu sát nhau cho thấy xu hướng thay đổi của dữ liệu. Chênh lệch đó có thể được gọi là độ biến thiên (variation) hay sai phân dữ liệu (differencing) của dữ liệu chuỗi thời gian. Đối với chuỗi thời gian mờ, Hwang và cộng sự [9] đã đề xuất mơ hình dự báo FTS-FM cải tiến bằng việc tính tốn trên độ biến thiên của chuỗi dữ liệu. Xét chuỗi dữ liệu Alabama thì độ biến thiên dữ liệu tuyển sinh như bảng sau:
Bảng 2.7. Độ biến thiên của dữ liệu EUA
Năm Số liệu tuyển sinh Độ biến thiên Năm Số liệu tuyển sinh Độ biến thiên 1971 13055 1982 15433 – 955 1972 13563 + 508 1983 15497 + 64 1973 13867 + 304 1984 15145 – 352 1974 14696 + 829 1985 15163 + 18 1975 15460 + 764 1986 15984 + 821 1976 15311 – 149 1987 16859 + 875 1977 15603 + 292 1988 18150 + 1.291 1978 15861 + 258 1989 18970 + 820 1979 16807 + 946 1990 19328 + 358 1980 16919 + 112 1991 19337 + 9 1981 16388 – 531 1992 18876 – 461
Theo Bảng 2.7, ta dễ dàng quan sát qua các năm từ 1972 đến 1992 số lượng tuyển sinh tăng-giảm trong miền xác định [−1000, +1400]. Áp dụng mơ hình dự báo LTS-FM được đề xuất trong Phần 2.3, các tham số của mơ hình được xác
định như sau:
Gọi p là tập các phần tử sinh, p = {5#, 55} trong đó 5# = q(qi5âit*i) và 55 = +(+-5âit*i). Tập các gia tử { = {ℎ# = [([tSℎiâ), ℎ5 = h(hiâÜ)}. Khi đó xét miền ngơn ngữ độ dài 2 trở xuống ta có:
Dom(htâ+tS+'-*) = {hq, q, [q, (, [+, +, h+}
Trong đó, giá trị biến thiên của dữ liệu tuyển sinh được diễn tả bằng các từ ngôn ngữ X1 = Very decrease (Vd), X2 = decrease (d), X3 = Rather decrease (Rd),
X4 = middle hoặc no change (m), X5 = Rather increase (Ri), X6 = increase (i), X7 = Very increase (Vi).
Bằng phương pháp thử-sai xác định được 3 = .(5#) = 0,55; 6 = !(ℎ#) = 0,52. Sau đó, các giá trị ngữ nghĩa của các từ ngơn ngữ được lựa chọn sử dụng được tính tốn như sau:
ù(9$) = {0,1267; 0,264; 0,4013; 0,55; 0,6717; 0,784; 0,8963}. Ánh xạ các giá trị ù(+) về miền xác định, các giá trị ngữ nghĩa thực của các từ ngôn ngữ tương ứng như sau:
{−696; −366; −37; +320; +612; +882; +1.151}.
Ngữ nghĩa hoá chuỗi dữ liệu lịch sử và thành lập các quan hệ lô-gic LLR giữa các từ ngôn ngữ, các quan hệ LLR như sau:
Vd ⟶ Vd; Vd ⟶ [q; d ⟶ [q; [q ⟶ Vd; [q ⟶ d; [q ⟶ ( [q ⟶ +; ( ⟶ [q; ( ⟶ (; ( ⟶ +; [+ ⟶ (; + ⟶ [q
+ ⟶ (; + ⟶ +; + ⟶ h+; h+ ⟶ +.
Bảng 2.8. Các LLRG của chuỗi thời gian độ biến thiên tuyển sinh
Nhóm LLRG Viết tắt Nhóm 1 Vd ⟶ Vd, Vd ⟶ [q Vd ⟶ Vd, [q Nhóm 2 d ⟶ [q d ⟶ [q Nhóm 3 [q ⟶ Vd, [q ⟶ [q, [q ⟶ (, [q ⟶ + [q ⟶ Vd, [q, (, + Nhóm 4 ( ⟶ [q, ( ⟶ (, ( ⟶ + ( ⟶ [q, (, + Nhóm 5 [+ ⟶ ( [+ ⟶ ( Nhóm 6 + ⟶ [q, + ⟶ (, + ⟶ +, + ⟶ h+ + ⟶ [q, (, +, h+ Nhóm 7 h+ ⟶ + h+ ⟶ +
Nhóm các quan hệ LLR ở bảng trên, các nhóm quan hệ lơ-gic ngơn ngữ LLRG được xác định như trong Bảng 2.8.
Sử dụng phương pháp tính tốn dự báo LTS được đề xuất một cách tương tự số liệu tuyển sinh trong Phần 2.2.4.1 các kết quả dự báo thu được như trong Bảng
2.9.
Bảng 2.9. Kết quả dự báo EUA dựa trên số liệu biến thiên.
Năm Số liệu tuyển sinh Dự báo biên thiên Kết quả dự báo Sai số 1971 13055 1972 13563 + 508 13375 1,39% 1973 13867 + 304 13951 0,61% 1974 14696 + 829 14446 1,70% 1975 15460 + 764 15275 1,20% 1976 1.311 – 149 15495 1,20% 1977 15603 + 292 15699 0,62% 1978 15861 + 258 15991 0,82% 1979 16807 + 946 16440 2,18% 1980 16919 + 112 16842 0,46% 1981 16388 – 531 16552 1,00% 1982 15433 – 955 16021 3,81% 1983 15497 + 64 15468 0,19% 1984 15145 – 352 15460 2,08% 1985 15163 + 18 15180 0,11% 1986 15984 + 821 15742 1,51% 1987 16859 + 875 16563 1,76% 1988 18150 + 1291 17741 2,25% 1989 18970 + 820 18729 1,27% 1990 19328 + 358 19358 0,16% 1991 19337 + 9 19363 0,13% 1992 18876 – 461 19300 2,25% MSE và MAPE 65029 1,27%
Trong bảng trên, độ chính xác của kết quả dự báo được đánh giá theo MSE theo công thức (1.1) và MAPE theo công thức (1.4).
Quan sát bảng kết quả dự báo dựa trên số liệu biến thiên của dữ liệu EUA, ta thấy sai số dao động từ 0,11% đến 3,81% với trung bình là 1,27%. Kết quả dự báo này tốt hơn so với nghiên cứu của Hwang [9] với sai số dao động từ 2,79% tới 3,08%. Kết quả dự báo này cũng tốt hơn so với việc tính tốn dự báo trực tiếp trên số liệu tuyển sinh ở Phần 2.2.4.1 với MSE = 65029 so với MSE = 262326.
Hình 2.5 so sánh giá trị MAPE kết quả dự báo của một số phương pháp so
với phương pháp tính tốn dự báo dựa trên mơ hình dự báo LTS-FM với độ biến thiên dữ liệu. Dễ dàng nhận thấy sai số MAPE của phương pháp đề xuất không những tốt hơn so với phương pháp trong Phần 2.2.4.1 mà còn tốt hơn so với các nghiên cứu của các tác giả khác đã được trích dẫn về chuỗi thời gian mờ.
Hình 2.5. So sánh độ chính xác dự báo bằng MAPE giữa các phương pháp
2.2.4.3. Dự báo nhiệt độ sử dụng mơ hình dự báo LTS-FM
Mơ hình đề xuất sẽ được thực nghiệm trên dữ liệu về nhiệt độ trung bình theo ngày tại thành phố Đài Bắc (Đài Loan) thu thập từ tháng 6 năm 1996 đến