Mục này trình bày hai mô hình dự báo FTS cải tiến, được xem như là các mô hình nâng cao từ hai mô hình dự báo đã được đề xuất trong Chương 2. Các mô hình cải tiến được xây dựng bằng cách kết hợp giữa chuỗi thời gian mờ với các kỹ thuật tính toán mềm như phân cụm mờ FCM, tối ưu PSO cùng với các kỹ thuật giải mờ mới. Chi tiết của các mô hình cải tiến này được trình bày tương ứng trong các Mục 3.1.1 và Mục 3.1.2 dưới đây.
3.1.1. Mô hình chuỗi thời gian mờ một nhân tố (FTS-1NT) kết hợp giữa FCM và PSO
Tiểu mục này cải tiến mô hình dự báo FTS-1NT đã được đề cập trong Chương 2 của Luận án bằng việc kết hợp phân cụm mờ (FCM) với tối ưu bày đàn (PSO) nhằm nâng cao độ chính xác dự báo. Mô hình kết hợp này được đặt tên là FTS1NT- CMPSO. Cấu trúc của mô hình FTS1NT-CMPSO được trình bày trong Hình 3.1, bao gồm ba giai đoạn: giai đoạn đầu tiên là phân chia dữ liệu chuỗi thời gian thành các khoảng dựa trên thuật toán FCM; giai đoạn thứ hai là thiết lập và cải tiến mô hình FTS-1NT đã được trình bày trong Chương 2. Giai đoạn cuối cùng sử dụng PSO để hiệu chỉnh khoảng ban đầu đạt được từ FCM và chọn ra các khoảng với độ dài tối ưu. Để xử lý các giai đoạn này, tất cả dữ liệu về số lượng sinh viên nhập học của đại học Alabama [8] được sử dụng để minh họa cho quá trình dự báo. Ba giai đoạn của mô hình dự báo FTS1NT-CMPSO được trình bày thành các bước như sau:
Hình 3.1: Cấu trúc và các giai đoạn của mô hình dự báo đề xuất (FTS1NT-
CMPSO)
Trong giai đoạn này, FCM được áp dụng để phân tập dữ liệu gốc �(�) có n quan sát thành k cụm. Sau đó điều chỉnh các cụm đạt được thành k
khoảng tương ứng có độ dài khác nhau thay vì cách chia khoảng có độ dài bằng nhau như trong mô hình FTS-1NT ở Mục 2.2.1. Giai đoạn này gồm hai bước chính như sau:
Bước 1- Áp dụng FCM để phân tập dữ liệu lịch sử thành c cụm (2 ≤ ≤ − 1) � �
Không mất tính tổng quát và tiện cho việc minh họa mô hình dự báo, số cụm ban đầu được chọn k = 7. Áp dụng thuật toán FCM trên tập dữ liệu tuyển sinh, ta thu được giá trị của 7 cụm như được chỉ ra trong Bảng 3.1. Bảng 3.1: Các cụm và tâm của nó đạt được trên tập dữ liệu tuyển sinh [8] STT Các phần tử dữ liệu trong cụm Tâm cụm
1 {13055, 13563} 13309 2 {13867} 13867 3 {14696} 14696 4 {15145, 15163, 15311, 15433, 15460, 15497, 15603} 15373.14 5 {15861, 1680, 16388, 15984} 16260 6 {16919, 16859} 16889 7 {18150, 18970, 19328, 19337, 18876} 18932.2
Bước 2- Điều chỉnh các cụm thành các khoảng
Dựa vào tâm cụm đưa ra trong Bảng 3.1, điều chỉnh c cụm thành các khoảng dựa vào các công thức từ (2.10) đến (2.13) ở Tiểu mục 2.3.3.1 trong Chương 2 của Luận án. Với 7 cụm trong Bảng 3.1, ta thu được 7 khoảng và điểm giữa của chúng trong Bảng 3.2.
Bảng 3.2: Các khoảng và điểm giữa của mỗi khoảng
Số khoảng Các khoảng Điểm giữa của khoảng
1 u1= [13030, 13588) 13309 2 u2= [13588, 14281.5) 13934.75 3 u3= [14281.5, 15034.57) 14658.04 4 u4= [15034.57, 15816.57) 15425.57 5 u5= [15816.57, 16574.5) 16195.54 6 u6= [16574.5, 17910.6) 17242.55 7 u7= [17910.6, 19953.8) 18932.2 Giai đoạn 2: Thiết lập và cải tiến mô hình dự báo FTS -1NT
Sau khi thu được các khoảng ở Giai đoạn 1, các bước tiếp theo của mô hình được đề xuất là: xác định các tập mờ trên mỗi khoảng, mờ hóa dữ liệu chuỗi thời gian, thiết lập quan hệ mờ và nhóm quan hệ mờ từ các tập mờ đã được xác định, tính
toán và giải mờ đầu ra dựa trên các nhóm quan hệ mờ thu được. Giai đoạn này, luận án cải tiến Bước 7 của mô hình FTS -1NT đã trình bày ở Mục 2.2.1 trong Chương 2. Bước 3- Xác định các tập mờ trên mỗi khoảng thu được ở Bước 2
Dựa vào k khoảng đạt được ở Bước 2, ta xác định được k hạng từ ngôn ngữ được biểu diễn bởi các tập mờ là {�1, �2, ��−1 , ��}. Các tập mờ �� được xác định bởi công thức (3.1) sau:
�
= ��1+ ��2+ ⋯ + ���+ ⋯ + ���
� �
1 �2 �� �� (3.1)
Trong đó, aij ∈[0,1], (1 ≤ ≤ , 1 ≤ ≤ ) � � � � là cấp độ thuộc của khoảng rõ ��
vào tập mờ ��được xác định bởi hàm thuộc tam giác nhận ba giá trị 0, 0.5, 1 theo công thức sau:
1 � = �
��� = { 0.5 = − 1, + � � � 1
0 Trường hợp còn lại (3.2)
Bước 4- Mờ hóa chuỗi dữ liệu lịch sử
Để chuyển đổi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ đã xác định trong Bước 3 vào mỗi khoảng tương ứng. Dựa vào các công thức (3.1) và (3.2), dễ dàng có thể nhận thấy nếu giá trị lịch sử rơi vào khoảng �� với cấp độ thuộc cao nhất của khoảng này xảy ra tại ��, thì giá trị mờ hóa của nó là ��.
Ví dụ 3.1: Giá trị lịch sử của năm 1972, Y(1972) là 13563 thuộc vào khoảng
�1= (13000, 14029.68] mà cấp độ thuộc lớn nhất của khoảng này xảy ra tại �1 là 1. Vậy giá trị mờ hóa tại thời điểm t =1972, �(�) =F(1972) là �1 . Bằng cách tương tự có thể mờ hóa các giá trị lịch sử khác trong chuỗi thời gian. Kết quả mờ hóa dữ liệu tuyển sinh được chỉ ra trong Bảng 3.3.
Bảng 3.3: Kết quả mờ hóa chuỗi dữ liệu tuyển sinh với 7 khoảng chia tập nền
Năm Dữ liệu thực Tập mờ Cấp độ tuộc
19 71 13055 �1 [1 0.5 0 0 0 0 0] 19 72 13563 �1 [1 0.5 0 0 0 0 0] 19 73 13867 �2 [0.5 1 0.5 0 0 0 0] 19 74 14696 �3 [0 05 1 0.5 0 0 0] 19 90 19328 �7 [0 0 0 0 0 0.5 1] 19 91 19337 �7 [0 0 0 0 0 0.5 1] 19 18876 �7 [0 0 0 0 0 0.5 1]
92
QHM được hình thành bởi hai hay nhiều tập mờ liên tiếp trong chuỗi thời gian. Dựa vào Định nghĩa 1.5 về quan hệ mờ bậc m, ta xác định được các QHM với số bậc m khác nhau có dạng �(� − �), �(� − � + 1), . . . , �(� − 1) →
)
�(� , trong đó
�( � − �), �( � − � + 1), . . . , �( � − 1) và �(�) được gọi lại trạng thái hiện tại (vế trái) và trạng thái tương lai (vế phải) của quan hệ mờ tương ứng. Sau đó, các quan hệ này được thay thế bởi quan hệ giữa các tập mờ là ���, ��(�−1), … , ��2,
��1 → ��.
Dưới đây là hai thí dụ minh họa cho quan hệ mờ với số bậc m = 1 và m = 2:
Ví dụ 3.2: Trong trường (m =1) có quan hệ mờ bậc 1
Quan hệ này được cấu trúc bởi hai tập mờ liên tiếp. Trong Bước 4, dữ liệu tại năm F(1972) được mờ hóa là �1 và dữ liệu tại năm �(1973) được mờ hóa là �2. Khi đó quan hệ giữa thời điểm �(1972) với �(1973) là �(1972) → (1973) �
và được thay bởi quan hệ mờ là �1 → �2. Hoàn toàn tương tự có thể thiết lập được cho các quan hệ mờ bậc 1 khác;
Ví dụ 3.3: Trong trường hợp QHM bậc cao (m = 2)
Quan hệ này được xác định từ ba tập mờ liên tiếp theo thứ tự thời gian. Từ Bảng 3.3, giả sử ba năm liên tiếp F(1972), F(1973), F(1974) được mờ hóa tương
ứng với các tập mờ là �1, �2, �3. Khi đó quan hệ mờ bậc hai tại thời điểm t =1974 được biểu diễn là: �1, �2 →�3. Một cách tương tự để xác định các QHM bậc hai khác tại thời điểm t khác nhau.
Bảng 3.4 đưa ra tất cả các mối quan hệ mờ bậc 1 và bậc 2 trên tập dữ liệu tuyển sinh, trong đó dấu thăng (#) xuất hiện bên vế phải ở quan hệ cuối cùng được sử dụng để biểu diễn giá trị chưa biết hay giá trị cần dự báo.
Bảng 3.4: Kết quả biểu thị quan hệ mờ bậc 1 và bậc 2 Nă m Tập mờ QHM bâc 1 QHM bậc 2 197 1 �1 197 2 �1 �1 → �1 197 3 �2 �1 → �2 �1, �1 → �2 197 4 �3 �2 → �3 �1, �2 → �3 199 1 �7 �7 → �7 �7, �7 → �7 199 2 �7 �7 → �7 A7, �7 → �7 199 N/A �7→ # �7, �7→ #
3
Bước 6- Thiết lập nhóm quan hệ mờ phụ thuộc thời gian (NQHM-PTTG)
Bước này, mô hình tiếp tục áp dụng khái niệm NQHM-PPTG đã đề xuất trong Chương 2 của luận án để thiết lập nhóm quan hệ mờ. Trong cách tiếp cần này, nhóm quan hệ mờ phụ thuộc thời gian được thiết lập khi các quan hệ mờ có vế phải gồm các thành phần xuất hiện trước hoặc tại thời điểm dự báo t.
Hai ví dụ sau đây minh họa NQHM-PPTG bậc 1và bậc 2.
Ví du 3.4: Xem xét ba quan hệ mờ bậc 1 xuất hiện ở các thời điểm khác nhau trong
Bảng 3.4 như sau:
F(�1=1976) có quan hệ là: �4 → �4; F(�2=1977) có quan hệ là: A4 → A4;
F(�3=1978) có quan hệ là: �4 → �5; với �1<�2<�3.
Khi đó tại các thời điểm dự báo tương ứng là �1, �2, �3, thì các quan hệ này được gộp thành các nhóm theo thứ tự thời gian là �4 → �4; �4 → �4, �4 và �4 →
�4, �4, �5. Bằng cách tương tự cho các quan hệ khác trong Bảng 3.4. Ta nhận được kết quả về NQHM-PTTG bậc 1 và ghi chúng trong cột 3 của Bảng 3.5.
Ví dụ 3.5: Với cách giải thích tương tự, giả sử từ Bảng 3.4 có ba quan hệ mờ bậc 2
xuất hiện ở các thời điểm khác nhau sau đây:
F(�1=1976) có quan hệ là: (�3, �4) → �4.
F(�2=1977) có quan hệ là: (�4, �4) → �4;
F(�3=1978) có quan hệ là: (�4, �4) → �5; với �1<�2<�3.
Xét thời điểm dự báo là �1=1976, mà trước đó không có quan hệ nào có cùng vế trái (�3, �4) thì chúng hình thành một nhóm độc lập là (�3, �4) → �4. Cũng thấy tại thời điểm �2=1977 không có quan hệ nào cùng vế trái là (�4, �4), nên tại thời điểm này cũng đạt được một nhóm là (�4, �4) → �4. Cuối cùng tại thời điểm
�3=1978, thấy rằng có một quan hệ có chung vế trái với quan hệ hiện tại vậy chúng được gộp thành một nhóm mới là (�4, �4) → �4, �5. Bằng cách tương tự cho các quan hệ mờ khác, ta nhận được tất cả các NQHM-PTTG bậc 2 trong cột 5 của Bảng 3.5.
Bảng 3.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 2 Năm Ký hiệu nhóm NQHM_PTTG bậc 1 Ký hiệu nhóm NQHM_PTTG bậc 2 1971 1972 G1 �1→�1 1973 G2 �1→�1, �2 G1 �1, �1→ �2 1974 G3 �2→ �3 G2 �1, �2→�3 1975 G4 �3→�4 G3 �2, �3→�4 1976 G5 �4→�4 G4 �3, �4→�4 1977 G6 �4→�4, �4 G5 �4, �4→�4 1978 G7 �4→�4, �4, �5 G6 �4, �4→�4,�5 1991 G20 �7 →�7, �7, �7 G19 �7, �7→�7, �7 1992 G21 �7→�7, �7, �7, �7 G20 �7, �7→�7, �7, �7 1993 G22 �7→ # G21 �7, �7→ #
Giải mờ là bước quan trọng trong giai đoạn cuối cùng của mô hình dự báo để thu được các giá trị đầu ra rõ. Bước này đưa ra các quy tắc giải mờ mới để tính giá trị cho tất cả các NQHM_PTTG bậc 1 và bậc cao trong giai đoạn huấn luyện (giai đoạn kiểm chứng mô hình). Đồng thời sử dụng lược đồ (MV) [18] để tính giá trị dự báo cho các nhóm quan hệ mờ có mẫu chưa được kiểm soát trong giai đoạn kiểm thử (giai đoạn dự báo). Các quy tắc dự báo đề xuất được trình bày dưới đây:
Quy tắc dự báo 1: Sử dụng để tính giá trị cho các NQHM_PTTG bậc 1
Đối với các nhóm quan hệ mờ phụ thuộc thời gian bậc 1, thì giá trị đầu ra được tính bằng việc kết hợp các thông tin toàn cục xuất hiện bên vế phải của nhóm quan hệ mờ và thông tin gần nhất về tương lai lấy được bên vế trái của nhóm.
Giả sử nhóm quan hệ mờ bậc 1 có dạng ��−1 → ��1, ��2, … , ���. Khi đó, giá trị dự báo tại thời điểm t được tính theo công thức (3.3) như sau:
Giá trị_DB = 0.5*(Global_inf + Local_inf) (3.3) Trong đó, Global_inf gọi là thông tin toàn cục được xác định dựa vào tất cả các tập mờ bên vế phải của nhóm quan hệ. Khi đó giá trị dự báo của Global_inf sẽ là
��1, ��2, … , ���và giải mờ đầu ra được tính là:
1∗��1+ 2∗��2+⋯+�∗��� =
������_���
1+2+⋯+� (3.4)
Trong đó, ��1, ��2, … , ��� là giá trị điểm giữa của các khoảng �1, �2, … , ��tương ứng với p tập mờ bên vế phải của nhóm.
Local_inf gọi là thông tin cục bộ được xác định dựa vào tập mờ xuất hiện tại thời điểm dự báo bên vế phải và tập mờ xuất hiện gần nhất về tương lai bên vế trái của nhóm quan hệ. Khi đó giải mờ đầu ra cho Local_inf được tính bởi công thức (3.5) sau đây:
�����
_��� = ���� + ���−���� × ���−��−1
2 ���+��−1 (3.5)
Trong đó, ����, ����và ���là giá trị cận dưới, cận trên và giá trị điểm giữa của khoảng ���= [����, ����] liên quan đến tập mờ thứ i (1 ≤ ≤ � � ) bên vế phải của nhóm quan hệ;
��−1 là giá trị điểm giữa của khoảng ��−1 liên quan đến tập mờ xuất hiện bên vế trái của nhóm quan hệ; t là thời điểm dự báo liên quan đến tập mờ thứ i bên vế phải của nhóm quan hệ mờ bậc 1.
Ví dụ 3.6: Giả sử muốn dự báo số lượng sinh viên nhập học vào năm 1973 của
trường đại học Alabama [8]. Từ cột 3 của Bảng 3.5, nhóm quan hệ bậc 1 (�1→�1,
�2) xuất hiện vào năm 1973 được thiết lập từ hai quan hệ là �1→ �1và A1→ A2. Trong đó cấp độ thuộc cao nhất của các tập mờ �1 xảy ra tại khoảng �1 và của tập mờ �2 xảy ra tại
�1 và �2 tương ứng là �1= [���1, ���1] = [13030, 13588] và �2= [���2, ���2] = [13588, 14281.5]. Các điểm giữa của các khoảng này là �t1 = 13309 và ��2 = 13934.75. Theo công thức (3.4) thì giá trị của Global_inf được tính là:
=
������_��� 1∗��11+2+ 2∗��2= 13309+ 2∗13934.75 3 = 13726.2 Tiếp theo, giá trị �����_��� được tính theo công thức (3.5) là:
�����_��� =_ ��2 � 13934.75−13309 = 13595.97 13934.75+13309 + ��2−���2 2 ×��2−�1 ��2+� 1 = 13588 + × 14281.5−13588 2
Thay các giá trị này vào công thức (3.3), khi đó có giá trị dự báo cuối cùng cho năm t = 1973 là:
Giá trị_DB (1973) = 0.5*(Global_inf + Local_inf) = 0.5*(13726.2 +
13595.97) = 13661.09.
Quy tắc 2: Tính giá trị cho các NQHM-PTTG bậc cao m (m ≥ 2 )
Để tính giá trị dự báo cho năm t chứa nhóm quan hệ mờ bậc cao, bước này cải tiến quy tắc dự báo của mô hình FTS-1NT đã được trình bày ở công thức (2.4) trong Mục 2.2.1. Ngoài việc chia các khoảng liên quan đến tập mờ bên vế phải của nhóm thành q khoảng con (Giả sử q = 4), quy tắc này thêm thành phần hiệu chỉnh
���_����tùy thuộc vào xu hướng biến đổi của dữ liệu tại thời điểm dự báo. Khi đó giá trị dự báo cho mỗi nhóm quan hệ mờ trong giai đoạn huấn luyện được tính theo công thức (3.6) như sau:
Giá trị_DB = 1 ∑� (���� + ���_�� )
2∗� �=1 �� ��
(3.6) Trong đó, p là tổng số tập mờ bên vế phải của nhóm;
������là điểm giữa của một trong q khoảng con (điểm giữa của khoảng con thứ k (1 ≤ ≤ � �) liên quan đến tập mờ thứ i bên vế phải của NQHM- PTTG mà có dữ liệu lịch sử tại thời điểm dự báo thuộc vào khoảng con này); ���_����nhận một trong hai giá trị thuộc về cận dưới hoặc cận trên của một
trong bốn khoảng con mà có dữ liệu thực tế tại thời điểm dự báo nằm trong khoảng con này (thí dụ khoảng con là �ik= [����, ����]). Một trong hai giá trị của ���_����được xác định theo tiêu chí sau:
- Nếu dữ liệu thực tế tại thời điểm dự báo nhỏ hơn giá trị trung bình của khoảng con �ik thì ���_���� nhận giá trị cận dưới ���� của khoảng con
�ik;
- Nếu dữ liệu thực tế tại thời điểm dự báo lớn hơn giá trị trung bình của khoảng con �ik thì ���_���� nhận giá trị cận trên ���� của khoảng con
�ik; Ví dụ 3.7: Giả sử muốn dự báo số lượng tuyển sinh nhập học của năm 1973. Từ cột 5 của Bảng 3.5 thấy rằng nhóm QHM bậc 2 (�1, �1→ �2) có trạng thái tương lai là
�2, mà cấp độ thuộc cao nhất của tập mờ �2 xảy ra tại khoảng �2 = [13588, 14281.5).
Do đó, chúng ta chia �2 thành 4 khoảng con với độ dài bằng nhau là �2,1 = [13588, 13761.38), �2.2 = [13761.38, 13934.75), �2.3 = [13934.75, 14108.13)
và �2.4 = [14108.13, 14281.5). Trong các khoảng con này, khoảng chứa dữ liệu
lịch sử của năm 1973 (Y(1973) =13867) là khoảng con �2.2 =