Trong mô hình dự báo FTS-1NT được đề xuất, có hai vấn đề mới được đề
cập có thể xem là các yếu tố quan trọng ảnh hưởng lớn đến độ chính xác dự báo, đó là: thiết lập nhóm mối quan hệ mờ phụ thuộc thời gian và xây dựng quy tắc dự báo đầu ra. Mô hình dự báo FTS-1NT bao gồm 7 bước như trong Hình 2.2
Hình 2.2: Các bước của mô hình dự báo
Tập dữ liệu kinh điển về số lượng sinh viên nhập học của trường đại học Alabam [8] đưa ra trong Bảng 2.2 làm minh họa cho từng bước của mô hình dự báo được đề xuất.
Bảng 2.2: Dữ liệu tuyển sinh thực tế của trường đại học Alabama
Năm DL thực Năm DL thực 1971 13055 1982 15433 1972 13563 1983 15497 1973 13867 1084 15145 1974 14696 1985 15163 1975 15460 1986 15984 1976 15311 1987 16859 1977 15603 1988 18150 1978 15861 1989 18970 1979 16807 1990 19328 1980 16919 1991 19337 1981 16388 1992 18876
Chi tiết các bước của mô hình dự báo FTS-1NT được trình bày như sau:
Giả sử tập nền U = [����, ����] = [����− � �1, ���+ �2], trong đó
����, ����là giá trị nhỏ nhất và lớn nhất của chuỗi dữ liệu lịch sử và � �1, 2 là hai số dương được chọn sao cho tập nền U bao vẹn chuỗi dữ liệu lịch sử và đảm bảo giá trị dự báo thuộc vào tập nền đã xác định. Từ Bảng 2.2 ta xác định giá trị lớn nhất và nhỏ nhất của chuỗi thời gian là ����= 13055 và ����= 19337. Từ đây tập nền
U được xác định là U= [13000, 20000] với hai số dương được chọn giống như trong công trình [8-10, 18] là �1= 55 và �2= 663.
Bước 2- Phân chia tập nền U thành các khoảng có độ dài bằng nhau.
Tập nền U được chia thành k khoảng với độ dài khoảng � = ����−����. Khi �
đó, các khoảng chia có thể được tính là ��= (����+ − 1) ∗ (� � �, ���+ ∗ �
],
� với (1 ≤ � ≤ )� . Để tiện theo dõi và so sánh với các công trình trước đây, ban đầu k được chọn giống như trong công trình [8-10] là k =7. Từ đó nhận được 7 khoảng tương ứng như sau: �1 = (13000, 14000], �2 = (14000,15000],…, �6 = (18000,19000], �7 = (19000, 20000].
Bước 3- Xác định các tập mờ cho các quan sát trong chuỗi thời gian.
Mỗi một khoảng được xác định trong Bước 2 biểu diễn một giá trị ngôn ngữ của biến ngôn ngữ tuyển sinh “enrolments”. Dựa vào k khoảng chia, ta xác định được k giá trị ngôn ngữ. Mỗi nhãn ngôn ngữ là một tập mờ �� được xác định theo công thức (2.1). � = ��1+ ��2+ ⋯ + ���+ ⋯ + ��� � � 1 �2 �� �� (2.1) 1 � = � ��� = { 0.5 = − 1, = + � � � � 1 0 trường hợp còn lại (2.2)
Trong đó, ��� ∈[0,1], (1 ≤ i ≤ �, 1 ≤ j ≤ k) chỉ cấp độ của uj vào tập mờ Ai, uj là khoảng thứ j của tập nền. Để đơn giản, mỗi giá trị độ thuộc của tập mờ Ai được lựa chọn theo công thức (2.2), có dạng hàm thuộc tam giác với cấp độ thuộc tương ứng là 1, 0.5 và 0.
Ví dụ 2.1: Với số khoảng k = 7 ta có được 7 giá trị ngôn ngữ được xác định giống như công trình [10] là: �1 = “not many”, �2= “not too many”, �3= “many”, �4 = “many many”, �5 = “very many”, �6 = “too many”, and �7= “too many many”.
Bước 4- Mờ hóa tất cả dữ liệu lịch sử của chuỗi thời gian.
Mờ hóa là quá trình ánh xạ các giá trị rõ sang một dạng đại diện cho giá trị mờ, bằng cách xác định mối liên hệ giữa các giá trị lịch sử trong tập dữ liệu với các tập mờ được xác định ở Bước 3. Như vậy để mờ hóa chuỗi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ cho mỗi khoảng chia tương ứng.
Nếu giá trị lịch sử của biến chuỗi thời gian tại thời điểm t thuộc vào khoảng
��(�(�) ∈ ��) với cấp độ thuộc cao nhất của tập mờ Ai xảy ra tại khoảng này, khi đó dữ liệu của biến chuỗi thời gian được mờ hóa là ��.
Ví dụ 2.3: Giá trị lịch sử của năm 1972, �(1972) là 13563 thuộc vào khoảng �1= (13000, 14000] mà cấp độ thuộc lớn nhất của �1 xảy ra tại khoảng 1, vậy giá trị mờ hóa tại thời điểm t =1972, �(�) = (1972 � ) là A1 có nhãn ngôn ngữ là “not many”. Bằng cách tương tự ta có kết quả mờ hóa cho tất cả dữ liệu tuyển sinh được đưa ra trong Bảng 2.3 và hiển thị trực quan trên Hình 2.3 dưới đây.
Bảng 2.3: Kết quả mờ hóa dữ liệu tuyển sinh thành các tập mờ Năm SVNH Tập mờ Giá trị độ thuộc Khoảng 1971 13055 �1 [1 0.5 0 0 0 0 0] “not many” 1972 13563 �1 [1 0.5 0 0 0 0 0] “not many” 1973 13867 �1 [1 0.5 0 0 0 0 0] “not many” 1974 14696 �2 [0.5 1 0.5 0 0 0 0] “not too many” 1975 15460 �3 [0 0.5 1 0.5 0 0 0] “many”
1990 19328 �7 [0 0 0 0 0 0.5 1] “too many many” 1991 19337 �7 [0 0 0 0 0 0.5 1] “too many many” 1992 18876 �6 [0 0 0 0 0 0 1 0.5] “too many”
Hình 2.3: Biểu diễn dữ liệu tuyển sinh được mờ hóa bởi các tập mờ ��
Bước 5- Xác định tất cả các quan hệ mờ bậc m (m≥ 1)
Dựa trên các Định nghĩa 1.2 và 1.5 về khái niệm QHM bậc 1 và bậc cao, một quan hệ mờ được xác định bởi một hay nhiều tập mờ liên tiếp trong chuỗi thời gian. Để xác định các QHM với bậc khác nhau, ta cần tìm ra các quan hệ có dạng:
�( � − �), �( � − � + 1), . . . , �( � − 1) → �(�); trong đó, �( � − �), �(�
− � + 1), . . . , �( � − 1) và �(�) được gọi là trạng thái hiện tại và trạng thái tương lai của quan hệ mờ. Sau đó quan hệ này được thay thế bởi quan hệ mờ với các nhãn ngôn ngữ là ���, ��(�−1), … , ��2, ��1 → ��. Hai thí dụ minh họa cho QHM bậc 1 và bậc
3 được trình bày như sau:
Trong trường hợp QHM bậc 1(m=1), hai tập mờ liên tiếp được sử dụng để thành lập quan hệ mờ bậc 1. Dựa trên Bảng 2.3, quan hệ giữa 2 tập mờ �1và �2 được tạo bởi quan hệ giữa thời điểm F(1993) với F(1994) là �(1973) → (1974)�
và được biểu diễn là �1 → �2. Bằng cách tương tự cho các năm khác, bước này hoàn thành tất cả các QHM bậc 1 từ giai đoạn 1972 đến 1992 được thể hiện trong cột 3 của Bảng 2.4.
Trong trường hợp QHM bậc 3(m = 3), bốn tập mờ liên tiếp theo thứ tự thời gian được sử dụng để tạo thành quan hệ mờ bậc 3. Từ Bảng 2.3 quan hệ giữa tập mờ
�2 được suy ra từ các tập mờ �1, �1, �1 là: �1, �1, �1 → �2 và được thay thế từ quan hệ �(1971), �(1972), (1973) → (1974) � � . Dựa trên cách thức này, tất cả các QHM bậc 3 được thiết lập và chỉ ra trong cột 4 của Bảng 2.4. Trong Bảng
2.4 có quan hệ mờ mà vế phải không có dữ liệu được mờ hóa, dấu được sử dụng để biểu diễn nhãn ngôn ngữ chưa biết này. Với QHM không có tập mờ bên vế phải này được sử dụng để dự báo cho tương lai (trong pha kiểm thử). Ví dụ: QHM bậc 1 trong cột 3 của Bảng 2.4, �(1992) → (1993� ) có nhãn ngôn ngữ trong vế phải F(1993) chưa biết, thì quan hệ mờ này được biểu diễn là �6 → #. Tương tự cho quan hệ mờ bậc 3 được biểu diễn trong cột 4 của Bảng 2.4 là �7,
�7, �6 → #.
Bảng 2.4: Biểu diễn mối quan hệ mờ bậc 1 và bậc 3 trên tập dữ liệu tuyển sinh Năm Tập mờ Quan hệ mờ bậc 1 Quan hệ mờ bậc 3 1971 �1 1972 �1 �1 → �1 1973 �1 �1 → �1 1974 �2 �1 → �2 �1, �1, �1 → �2 1975 �3 �2 → �3 �1, �1, �2 → �3 1976 �3 �3 → �3 A1, �2, �3 → �3 1977 �3 �3 → �3 �2, �3,�3 → �3 1978 �3 �3 → �3 �3, �3, �3→ �3 1979 �4 �3 → �4 �3, �3, �3→ �3, �4 1990 �7 �6 →�7 �4, �6, �6 →�7 1991 �7 �7 →�7 �6, �6, �7 →�7 1992 �6 �7 →�6 �6, �7, �7 →�6 1993 # �6→ # A7, A7, A6 → # Bước 6- Thiết lập NQHM-PTTG bậc m
được thiết lập bằng việc xem xét đến lịch sử xuất hiện của các quan hệ mờ. Tức là, chỉ có quan hệ mờ xuất hiện trước và tại thời điểm dự báo mà chúng có cùng các thành phần bên vế trái, thì được gộp thành một nhóm quan hệ mờ. Dựa trên các quan hệ mờ bậc 1 trong cột 3 của Bảng 2.4 có thể giải thích việc hình thành NQHM-PTTG như sau. Giả sử xét các quan hệ tại các năm �1= 1972; �2= 1973, �3= 1974, �4= 1975.
Xét thời điểm dự báo t = �1, chỉ có 1 quan hệ, do đó nhóm quan hệ được hình thành là Nhóm 1: �1 → �1
Xét thời điểm dự báo t = �2, có 2 quan hệ mờ xảy ra trước và tại thời điểm �2 có cùng vế trái là �1 → �1; �1 → �1, do đó NQHM_PTTG được hình thành là Nhóm 2: �1→ �1, �1
Xét thời điểm dự báo t = �3, có 3 quan hệ mờ xảy ra trước và tại thời điểm �3 có cùng vế trái là �1 → �1; �1→ �1; �1 → �2, do đó NQHM_PTTG được hình thành là Nhóm 3: �1 → �1, �1, �2
Xét thời điểm dự báo t = �4, chỉ có 1 quan hệ mờ xảy ra trước và tại thời điểm �3
có cùng vế trái là �2 → �3, do đó NQHM_PTTG được hình thành là Nhóm 4:
�2 → �3
Một cách giải thích tương tự cho nhóm quan hệ mờ bậc cao. Dựa vào các Định nghĩa 2.1 và Định nghĩa 2.2 về NQHM-PTTG bậc 1 và bậc cao, bước này đưa ra tất cả các NQHM-PTTG bậc 1 và bậc 3 trong cột 4 và cột 5 của Bảng 2.5.
Bảng 2.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 3 Năm Số nhóm Tập mờ NQHM_PTTG bậc 1 NQHM_PTTG bậc 3 1971 �1 1972 1 �1 �1 → �1 1973 2 �1 �1→ �1, �1 1974 3 �2 �1 → �1, �1, �2 �1, �1, �1 → �2 1975 4 �3 �2 → �3 �1, �1, �2 → �3 1976 5 �3 �3 → �3 A1, �2, �3 → �3 1977 6 �3 �3 → �3, �3 �2, �3,�3 → �3 1978 7 �3 �3 → �3, �3, �3 �3, �3, �3→ �3 1979 8 �4 �3 → �3, �3, �3, �4 �3, �3, �3→ �3, �4 ---- - - - --- --- --- 1991 2 0 �7 �7 →�7 �6, �6, �7 →�7 1992 2 1 �6 �7 →�7,�6 �6, �7, �7 →�6 1993 2 2 # �6 → # �7, �7, �6 → #
Bước 7- Giải mờ và tính toán giá trị đầu ra dự báo.
các nhóm quan hệ mờ với các bậc khác nhau trong giai đoạn huấn luyện. Tiếp theo, sử dụng quy tắc giải mờ được đề xuất trong [18] để tính toán giá trị dự báo cho các nhóm quan hệ mờ trong giai đoạn kiểm thử. Các giá trị dự báo cho các nhóm quan hệ mờ dựa vào chuỗi thời gian mờ bậc 1 và bậc cao được tính theo các quy tắc sau:
Quy tắc 1: Trong trường hợp nhóm quan hệ mờ bậc 1(bậc m =1)
Để tính toán giá trị dự báo cho tất cả các nhóm quan hệ mờ bậc 1 được chỉ ra trong cột 4 của Bảng 2.5, trong mô hình dự báo được đề xuất, tác giả xét đến thứ tự xuất hiện của các tập mờ bên vế phải trong cùng nhóm quan hệ kể cả các tập mờ lặp lại, sau đó gán các trọng số có tầm quan trọng khác nhau cho các tập mờ này theo thứ tự xuất hiện. Tức là các quan hệ xuất hiện gần tương lai hơn thì được gán với trọng số cao hơn. Giả sử có nhóm QHM bậc 1 xuất hiện cùng vế trái là ��
như sau:
��( − 1� ) → ��1( 1� ), ��2( 2� ), … , ���(��); Khi đó, giá trị dự báo cho năm t có nhóm này được tính theo công thức sau:
1 ∗ ��1 + 2 ∗ ��2 + ⋯ + ∗ � ���
á ị =
�� �� _��
1 + 2 + ⋯ + � (2.3)
Trong đó:
��1, ��2 và ���là điểm giữ của các khoảng ��1, ��2 và ���tương ứng, mà cấp độ thuộc cao nhất của các tập mờ ��1, ��2 , . . . , ��� xảy ra tại các khoảng này.
k (1 ≤ ≤ ) � � là các trọng số được xác định theo vị trí xuất hiện của các tập mờ bên vế phải của nhóm quan hệ mờ
Ví dụ 2.3: Để tính giá trị dự báo cho NQHM-PPTG bậc 1, có số Nhóm 2 trong Bảng
2.5 là: �1→ �1, �1. Thấy rằng vế phải của nhóm xuất hiện 2 tập mờ
�1 tại thời điểm t = 1972 và 1973. Như vậy giá trị dự báo cho năm 1972 và năm 1973 có cùng giá trị với giá trị của Nhóm 2. Dựa vào công thức (2.3), ta tính được giá trị dự báo cho Nhóm 2 là:
�� á ị = _ �� _�� 1∗ �1+2∗�1 1+2 = 13500;
Trong đó, �1 là điểm giữa của khoảng �1.
Quy tắc 2: Trường hợp nhóm quan hệ mờ bậc cao (� ≥ 2)
Để thiết lập giá trị dự báo cho các NQHM-PPTG bậc cao, trong mô hình dự báo được đề xuất, tác giả xem xét chi tiết thông tin của các tập mờ xuất hiện bên vế phải của các quan hệ mờ trong cùng nhóm quan hệ. Nội dung quy tắc này đã được công bố trong công trình [P3]. Cụ thể quy tắc đề xuất được trình bày như sau:
Đối với mỗi nhóm quan hệ mờ bậc cao trong cột 5 của Bảng 2.5, tác giả chia mỗi khoảng tương ứng với các tập mờ bên vế phải trong cùng nhóm thành q khoảng
trong q khoảng con này (giá trị quan sát tại thời điểm có nhãn ���thuộc vào khoảng con này). Khi đó, giá trị dự báo cho mỗi nhóm trong giai đoạn huấn luyện được tính bằng tổng trung bình giá trị điểm giữa của các khoảng con thứ k tương ứng với tập mờ thứ i bên vế phải của nhóm quan hệ mờ theo công thức (2.4):
� 1 ��á ị�� _������ = = ∑ �� � i=1 (2.4) Trong đó, (1≤ ≤ � p, 1≤ ≤ � �)
p là tổng số tập mờ bên vế phải của nhóm;
������ là điểm giữa của một trong q khoảng con (điểm giữa của khoảng con thứ k, tương ứng với tập mờ thứ i bên vế phải của nhóm quan hệ).
Quy tắc 3: Trường hợp nhóm quan hệ rỗng (nhóm quan hệ mờ có vế phải chưa xác định tập mờ được ký hiệu bởi dấu # ).
Để tính toán giá trị dự báo cho nhóm quan hệ trong giai đoạn kiểm thử, mô hình FTS_1NT sử dụng quy tắc trong công trình [18]. Ý tưởng của quy tắc này được trình bày lại như sau:
Giả sử xét nhóm quan hệ mờ bậc m có dạng: ���, ��(�−1), ��1 → # (ví dụ
như nhóm số 22, nhóm quan hệ mờ bậc 3 trong cột 5 của Bảng 2.5). Quy tắc này,
gán một trọng số ưu tiên có giá trị cao nhất �ℎ đối với tập mờ xuất hiện gần nhất về tương lai và trọng số bằng 1 cho các tập xuất hiện trước đó nằm bên vế trái của nhóm quan hệ mờ. Sau đó giải mờ dự báo được tính theo công thức (2.5) như sau:
áị #) = ( _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _(ấ _ (ấ (��1∗�ℎ)+��2+⋯+���+⋯+��� �ℎ+( −1� ) (2.5)
Trong đó, �ℎ là phiếu bầu cử cao nhất (trọng số lớn nhất) được chọn trước bởi người dùng tùy thuộc vào từng dữ liệu chuỗi thời gian. Trong chuỗi dữ liệu về tuyển sinh đưa ra làm minh họa này, chọn �ℎ=15 giống như công trình [18].
��1 và ��� là giá trị điểm giữa của các khoảng ��1và ��i tương ứng với tập mờ xuất hiện gần nhất về tương lai và các tập mờ xuất hiện trước đó hơn; với (1 ≤ ≤ � � và
m là bậc của quan hệ mờ).
Dựa vào các quy tắc 1, 2, 3 ở trên, bước này hoàn thành kết quả dự báo đầu ra cho số lượng sinh viên nhập học vào trường Đại học Alabama từ năm 1971 đến 1992 dựa trên QHM bậc 1 và bâc 3 với 7 khoảng chia được hiển thị trong Bảng 2.6 như sau:
Bảng 2.6: Kết quả dự báo tuyển sinh dựa trên quan hệ mờ bậc 1 và bậc 3