Mục này trình bày hai mô hình dự báo FTS cải tiến, được xem như là các mô hình nâng cao từ hai mô hình dự báo đã được đề xuất trong Chương 2. Các mô hình cải tiến được xây dựng bằng cách kết hợp giữa chuỗi thời gian mờ với các kỹ thuật tính toán mềm như phân cụm mờ FCM, tối ưu PSO cùng với các kỹ thuật giải mờ mới. Chi tiết của các mô hình cải tiến này được trình bày tương ứng trong các Mục 3.1.1 và Mục 3.1.2 dưới đây.
3.1.1. Mô hình chuỗi thời gian mờ một nhân tố (FTS-1NT) kết hợp giữa FCM và PSO
Tiểu mục này cải tiến mô hình dự báo FTS-1NT đã được đề cập trong Chương 2 của Luận án bằng việc kết hợp phân cụm mờ (FCM) với tối ưu bày đàn (PSO) nhằm nâng cao độ chính xác dự báo. Mô hình kết hợp này được đặt tên là FTS1NT- CMPSO. Cấu trúc của mô hình FTS1NT-CMPSO được trình bày trong Hình 3.1, bao gồm ba giai đoạn: giai đoạn đầu tiên là phân chia dữ liệu chuỗi thời gian thành các khoảng dựa trên thuật toán FCM; giai đoạn thứ hai là thiết lập và cải tiến mô hình
FTS-1NT đã được trình bày trong Chương 2. Giai đoạn cuối cùng sử dụng PSO để hiệu chỉnh khoảng ban đầu đạt được từ FCM và chọn ra các khoảng với độ dài tối ưu. Để xử lý các giai đoạn này, tất cả dữ liệu về số lượng sinh viên nhập học của đại học Alabama [8] được sử dụng để minh họa cho quá trình dự báo. Ba giai đoạn của mô hình dự báo FTS1NT-CMPSO được trình bày thành các bước như sau:
Hình 3.1: Cấu trúc và các giai đoạn của mô hình dự báo đề xuất (FTS1NT- CMPSO)
Trong giai đoạn này, FCM được áp dụng để phân tập dữ liệu gốc 𝑋(𝑡) có n
quan sát thành k cụm. Sau đó điều chỉnh cáccụm đạt được thành k khoảng tương ứng có độ dài khác nhau thay vì cách chia khoảng có độ dài bằng nhau như trong mô hình
FTS-1NT ở Mục 2.2.1. Giai đoạn này gồm hai bước chính như sau:
Bước 1- Áp dụng FCM để phân tập dữ liệu lịch sử thành c cụm (2 ≤ 𝑘 ≤ 𝑛 − 1) Không mất tính tổng quát và tiện cho việc minh họa mô hình dự báo, số cụm ban đầu được chọn k = 7. Áp dụng thuật toán FCM trên tập dữ liệu tuyển sinh, ta thu được giá trị của 7 cụm như được chỉ ra trong Bảng 3.1.
Bảng 3.1: Các cụm và tâm của nó đạt được trên tập dữ liệu tuyển sinh [8]
STT Các phần tử dữ liệu trong cụm Tâm cụm
1 {13055, 13563} 13309 2 {13867} 13867 3 {14696} 14696 4 {15145, 15163, 15311, 15433, 15460, 15497, 15603} 15373.14 5 {15861, 1680, 16388, 15984} 16260 6 {16919, 16859} 16889 7 {18150, 18970, 19328, 19337, 18876} 18932.2
Bước 2- Điều chỉnh các cụm thành các khoảng
Dựa vào tâm cụm đưa ra trong Bảng 3.1, điều chỉnh c cụm thành các khoảng dựa vào các công thức từ (2.10) đến (2.13) ở Tiểu mục 2.3.3.1 trong Chương 2 của Luận án. Với 7 cụm trong Bảng 3.1, ta thu được 7 khoảng và điểm giữa của chúng trong Bảng 3.2.
Bảng 3.2: Các khoảng và điểm giữa của mỗi khoảng
Số khoảng Các khoảng Điểm giữa của khoảng
1 u1= [13030, 13588) 13309 2 u2= [13588, 14281.5) 13934.75 3 u3= [14281.5, 15034.57) 14658.04 4 u4= [15034.57, 15816.57) 15425.57 5 u5= [15816.57, 16574.5) 16195.54 6 u6= [16574.5, 17910.6) 17242.55 7 u7= [17910.6, 19953.8) 18932.2
❖ Giai đoạn 2: Thiết lập và cải tiến mô hình dự báo FTS -1NT
Sau khi thu được các khoảng ở Giai đoạn 1, các bước tiếp theo của mô hình được đề xuất là: xác định các tập mờ trên mỗi khoảng, mờ hóa dữ liệu chuỗi thời gian, thiết lập quan hệ mờ và nhóm quan hệ mờ từ các tập mờ đã được xác định, tính
toán và giải mờ đầu ra dựa trên các nhóm quan hệ mờ thu được. Giai đoạn này, luận án cải tiến Bước 7 của mô hình FTS -1NT đã trình bày ở Mục 2.2.1 trong Chương 2.
Bước 3- Xác định các tập mờ trên mỗi khoảng thu được ở Bước 2
Dựa vào k khoảng đạt được ở Bước 2, ta xác định được k hạng từ ngôn ngữ được biểu diễn bởi các tập mờ là {𝐴1, 𝐴2, 𝐴𝑘−1 , 𝐴𝑘}. Các tập mờ 𝐴𝑖 được xác định bởi công thức (3.1) sau:
𝐴𝑖 =𝑎𝑖1
𝑢1 +𝑎𝑖2
𝑢2 + ⋯ +𝑎𝑖𝑗
𝑢𝑗 + ⋯ +𝑎𝑖𝑘
𝑢𝑘 (3.1)
Trong đó, aij ∈[0,1], (1 ≤ 𝑖 ≤ 𝑘, 1 ≤ 𝑗 ≤ 𝑘) là cấp độ thuộc của khoảng rõ𝑢𝑖 vào tập mờ 𝐴𝑖 được xác định bởi hàm thuộc tam giác nhận ba giá trị 0, 0.5, 1 theo công thức sau: 𝑎𝑖𝑗 = { 1 𝑗 = 𝑖 0.5 𝑗 = 𝑖 − 1, 𝑖 + 1 0 Trường hợp còn lại (3.2)
Bước 4- Mờ hóa chuỗi dữ liệu lịch sử
Để chuyển đổi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ đã xác định trong Bước 3 vào mỗi khoảng tương ứng. Dựa vào các công thức (3.1) và (3.2), dễ dàng có thể nhận thấy nếu giá trị lịch sử rơi vào khoảng 𝑢𝑖 với cấp độ thuộc cao nhất của khoảng này xảy ra tại 𝐴𝑖, thì giá trị mờ hóa của nó là 𝐴𝑖.
Ví dụ 3.1: Giá trị lịch sử của năm 1972, Y(1972) là 13563 thuộc vào khoảng 𝑢1= (13000, 14029.68] mà cấp độ thuộc lớn nhất của khoảng này xảy ra tại 𝐴1là 1. Vậy giá trị mờ hóa tại thời điểm t =1972, 𝐹(𝑡) =F(1972) là 𝐴1. Bằng cách tương tự có thể mờ hóa các giá trị lịch sử khác trong chuỗi thời gian. Kết quả mờ hóa dữ liệu tuyển sinh được chỉ ra trong Bảng 3.3.
Bảng 3.3: Kết quả mờ hóa chuỗi dữ liệu tuyển sinh với 7 khoảng chia tập nền
Năm Dữ liệu thực Tập mờ Cấp độ tuộc
1971 13055 𝐴1 [1 0.5 0 0 0 0 0] 1972 13563 𝐴1 [1 0.5 0 0 0 0 0] 1973 13867 𝐴2 [0.5 1 0.5 0 0 0 0] 1974 14696 𝐴3 [0 05 1 0.5 0 0 0] ---- ---- ---- --- 1990 19328 𝐴7 [0 0 0 0 0 0.5 1] 1991 19337 𝐴7 [0 0 0 0 0 0.5 1] 1992 18876 𝐴7 [0 0 0 0 0 0.5 1]
QHM được hình thành bởi hai hay nhiều tập mờ liên tiếp trong chuỗi thời gian. Dựa vào Định nghĩa 1.5 về quan hệ mờ bậc m, ta xác định được các QHM với số bậc
m khác nhau có dạng 𝐹(𝑡 − 𝑚), 𝐹(𝑡 − 𝑚 + 1), . . . , 𝐹(𝑡 − 1) → 𝐹(𝑡), trong đó 𝐹(𝑡 − 𝑚), 𝐹(𝑡 − 𝑚 + 1), . . . , 𝐹(𝑡 − 1) và 𝐹(𝑡) được gọi lại trạng thái hiện tại (vế trái) và trạng thái tương lai (vế phải) của quan hệ mờ tương ứng. Sau đó, các quan hệ này được thay thế bởi quan hệ giữa các tập mờ là 𝐴𝑖𝑚 , 𝐴𝑖(𝑚−1), … , 𝐴𝑖2, 𝐴𝑖1 → 𝐴𝑘.
Dưới đây là hai thí dụ minh họa cho quan hệ mờ với số bậc m = 1 và m = 2:
Ví dụ 3.2: Trong trường (m =1) có quan hệ mờ bậc 1
Quan hệ này được cấu trúc bởi hai tập mờ liên tiếp. Trong Bước 4, dữ liệu tại năm F(1972) được mờ hóa là 𝐴1 và dữ liệu tại năm 𝐹(1973) được mờ hóa là 𝐴2. Khi đó quan hệ giữa thời điểm 𝐹(1972) với 𝐹(1973) là 𝐹(1972) → 𝐹(1973) và được thay bởi quan hệ mờ là 𝐴1 → 𝐴2. Hoàn toàn tương tự có thể thiết lập được cho các quan hệ mờ bậc 1 khác;
Ví dụ 3.3: Trong trường hợp QHM bậc cao (m = 2)
Quan hệ này được xác định từ ba tập mờ liên tiếp theo thứ tự thời gian. Từ Bảng 3.3, giả sử ba năm liên tiếp F(1972), F(1973), F(1974) được mờ hóa tương ứng với các tập mờ là 𝐴1, 𝐴2, 𝐴3. Khi đó quan hệ mờ bậc hai tại thời điểm t =1974 được biểu diễn là: 𝐴1, 𝐴2 →𝐴3. Một cách tương tự để xác định các QHM bậc hai khác tại thời điểm t khác nhau.
Bảng 3.4 đưa ra tất cả các mối quan hệ mờ bậc 1 và bậc 2 trên tập dữ liệu tuyển sinh, trong đó dấu thăng (#) xuất hiện bên vế phải ở quan hệ cuối cùng được sử dụng để biểu diễn giá trị chưa biết hay giá trị cần dự báo.
Bảng 3.4: Kết quả biểu thị quan hệ mờ bậc 1 và bậc 2
Năm Tập mờ QHM bâc 1 QHM bậc 2 1971 𝐴1 1972 𝐴1 𝐴1 → 𝐴1 1973 𝐴2 𝐴1 → 𝐴2 𝐴1, 𝐴1 → 𝐴2 1974 𝐴3 𝐴2 → 𝐴3 𝐴1, 𝐴2 → 𝐴3 ---- --- --- --- 1991 𝐴7 𝐴7 → 𝐴7 𝐴7, 𝐴7 → 𝐴7 1992 𝐴7 𝐴7 → 𝐴7 A7, 𝐴7 → 𝐴7 1993 N/A 𝐴7→ # 𝐴7, 𝐴7→ #
Bước 6- Thiết lập nhóm quan hệ mờ phụ thuộc thời gian (NQHM-PTTG)
Bước này, mô hình tiếp tục áp dụng khái niệm NQHM-PPTG đã đề xuất trong Chương 2 của luận án để thiết lập nhóm quan hệ mờ. Trong cách tiếp cần này, nhóm quan hệ mờ phụ thuộc thời gian được thiết lập khi các quan hệ mờ có vế phải gồm các thành phần xuất hiện trước hoặc tại thời điểm dự báo t.
Hai ví dụ sau đây minh họa NQHM-PPTG bậc 1và bậc 2.
Ví du 3.4: Xem xét ba quan hệ mờ bậc 1 xuất hiện ở các thời điểm khác nhau trong Bảng 3.4 như sau:
F(𝑡1=1976) có quan hệ là: 𝐴4 → 𝐴4; F(𝑡2=1977) có quan hệ là: A4 → A4;
F(𝑡3=1978) có quan hệ là: 𝐴4 → 𝐴5; với𝑡1<𝑡2<𝑡3.
Khi đó tại các thời điểm dự báo tương ứng là 𝑡1, 𝑡2, 𝑡3, thì các quan hệ này được gộp thành các nhóm theo thứ tự thời gian là 𝐴4 → 𝐴4; 𝐴4 → 𝐴4, 𝐴4 và 𝐴4 →
𝐴4, 𝐴4, 𝐴5. Bằng cách tương tự cho các quan hệ khác trong Bảng 3.4. Ta nhận được kết quả về NQHM-PTTG bậc 1 và ghi chúng trong cột 3 của Bảng 3.5.
Ví dụ 3.5: Với cách giải thích tương tự, giả sử từ Bảng 3.4 có ba quan hệ mờ bậc 2 xuất hiện ở các thời điểm khác nhau sau đây:
F(𝑡1=1976) có quan hệ là: (𝐴3, 𝐴4) → 𝐴4.
F(𝑡2=1977) có quan hệ là: (𝐴4, 𝐴4) → 𝐴4;
F(𝑡3=1978) có quan hệ là: (𝐴4, 𝐴4) → 𝐴5; với 𝑡1<𝑡2<𝑡3.
Xét thời điểm dự báo là 𝑡1=1976, mà trước đó không có quan hệ nào có cùng vế trái (𝐴3, 𝐴4) thì chúng hình thành một nhóm độc lập là (𝐴3, 𝐴4) → 𝐴4. Cũng thấy tại thời điểm 𝑡2=1977 không có quan hệ nào cùng vế trái là (𝐴4, 𝐴4), nên tại thời điểm này cũng đạt được một nhóm là (𝐴4, 𝐴4) → 𝐴4. Cuối cùng tại thời điểm 𝑡3=1978, thấy rằng có một quan hệ có chung vế trái với quan hệ hiện tại vậy chúng được gộp thành một nhóm mới là (𝐴4, 𝐴4) → 𝐴4, 𝐴5. Bằng cách tương tự cho các quan hệ mờ khác, ta nhận được tất cả các NQHM-PTTG bậc 2 trong cột 5 của Bảng 3.5.
Bảng 3.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 2 Năm Ký hiệu nhóm NQHM_PTTG bậc 1 Ký hiệu nhóm NQHM_PTTG bậc 2 1971 1972 G1 𝐴1→𝐴1 1973 G2 𝐴1→𝐴1, 𝐴2 G1 𝐴1, 𝐴1→ 𝐴2 1974 G3 𝐴2→𝐴3 G2 𝐴1, 𝐴2→𝐴3 1975 G4 𝐴3→𝐴4 G3 𝐴2, 𝐴3→𝐴4 1976 G5 𝐴4→𝐴4 G4 𝐴3, 𝐴4→𝐴4 1977 G6 𝐴4→𝐴4, 𝐴4 G5 𝐴4, 𝐴4→𝐴4 1978 G7 𝐴4→𝐴4, 𝐴4, 𝐴5 G6 𝐴4, 𝐴4→𝐴4,𝐴5 ---- --- --- ---- --- 1991 G20 𝐴7→𝐴7, 𝐴7, 𝐴7 G19 𝐴7, 𝐴7→𝐴7, 𝐴7 1992 G21 𝐴7→𝐴7, 𝐴7, 𝐴7, 𝐴7 G20 𝐴7, 𝐴7→𝐴7, 𝐴7, 𝐴7 1993 G22 𝐴7 → # G21 𝐴7, 𝐴7→ #
Giải mờ là bước quan trọng trong giai đoạn cuối cùng của mô hình dự báo để thu được các giá trị đầu ra rõ. Bước này đưa ra các quy tắc giải mờ mới để tính giá trị cho tất cả các NQHM_PTTG bậc 1 và bậc cao trong giai đoạn huấn luyện (giai đoạn kiểm chứng mô hình). Đồng thời sử dụng lược đồ (MV) [18] để tính giá trị dự báo cho các nhóm quan hệ mờ có mẫu chưa được kiểm soát trong giai đoạn kiểm thử (giai đoạn dự báo). Các quy tắc dự báo đề xuất được trình bày dưới đây:
Quy tắc dự báo 1: Sử dụng để tính giá trị cho các NQHM_PTTG bậc 1
Đối với các nhóm quan hệ mờ phụ thuộc thời gian bậc 1, thì giá trị đầu ra được tính bằng việc kết hợp các thông tin toàn cục xuất hiện bên vế phải của nhóm quan hệ mờ và thông tin gần nhất về tương lai lấy được bên vế trái của nhóm.
Giả sử nhóm quan hệ mờ bậc 1 có dạng 𝐴𝑡−1 → 𝐴𝑡1, 𝐴𝑡2, … , 𝐴𝑡𝑝. Khi đó, giá trị dự báo tại thời điểm t được tính theo công thức (3.3) như sau:
Giá trị_DB = 0.5*(Global_inf + Local_inf) (3.3)
Trong đó, Global_inf gọi là thông tin toàn cục được xác định dựa vào tất cả các tập mờ bên vế phải của nhóm quan hệ. Khi đó giá trị dự báo của Global_inf sẽ là 𝐴𝑡1, 𝐴𝑡2, … , 𝐴𝑡𝑝 và giải mờ đầu ra được tính là:
𝑮𝒍𝒐𝒃𝒂𝒍_𝒊𝒏𝒇 = 1∗𝑀𝑡1+ 2∗𝑀𝑡2+⋯+𝑝∗𝑀𝑡𝑝
1+2+⋯+𝑝 (3.4)
Trong đó, 𝑀𝑡1, 𝑀𝑡2, … , 𝑀𝑡𝑝 là giá trị điểm giữa của các khoảng 𝑢1, 𝑢2, … , 𝑢𝑝 tương ứng với p tập mờ bên vế phải của nhóm.
✓ Local_inf gọi là thông tin cục bộ được xác định dựa vào tập mờ xuất hiện tại thời điểm dự báo bên vế phải và tập mờ xuất hiện gần nhất về tương lai bên vế trái của nhóm quan hệ. Khi đó giải mờ đầu ra cho Local_inf được tính bởi công thức (3.5) sau đây:
𝑳𝒐𝒄𝒂𝒍_𝒊𝒏𝒇 = 𝐿𝑏𝑡𝑖 +𝑈𝑡𝑖−𝐿𝑏𝑡𝑖
2 ×𝑚𝑡𝑖−𝑚𝑡−1
𝑚𝑡𝑖+𝑚𝑡−1
(3.5) Trong đó, 𝐿𝑏𝑡𝑖, 𝑈𝑏𝑡𝑖 và 𝑚𝑡𝑖 là giá trị cận dưới, cận trên và giá trị điểm giữa của khoảng 𝑢𝑡𝑖 = [𝐿𝑏𝑡𝑖, 𝑈𝑏𝑡𝑖] liên quan đến tập mờ thứ i (1 ≤ 𝑖 ≤ 𝑝 ) bên vế phải của nhóm quan hệ;
𝑚𝑡−1 là giá trị điểm giữa của khoảng 𝑢𝑡−1 liên quan đến tập mờ xuất hiện bên vế trái của nhóm quan hệ; t là thời điểm dự báo liên quan đến tập mờ thứ i bên vế phải của nhóm quan hệ mờ bậc 1.
Ví dụ 3.6: Giả sử muốn dự báo số lượng sinh viên nhập học vào năm 1973 của trường đại học Alabama [8]. Từ cột 3 của Bảng 3.5, nhóm quan hệ bậc 1 (𝐴1→𝐴1, 𝐴2) xuất hiện vào năm 1973 được thiết lập từ hai quan hệ là 𝐴1→ 𝐴1và A1→ A2. Trong đó cấp độ thuộc cao nhất của các tập mờ 𝐴1 xảy ra tại khoảng 𝑢1 và của tập mờ 𝐴2xảy ra tại 𝑢2. Dựa trên giá trị của các khoảng đã trình bày trong Bảng 3.2, giá trị của các khoảng
𝑢1 và 𝑢2 tương ứng là 𝑢1= [𝐿𝑏𝑡1, 𝑈𝑏𝑡1] = [13030, 13588] và 𝑢2= [𝐿𝑏𝑡2, 𝑈𝑏𝑡2] = [13588, 14281.5]. Các điểm giữa của các khoảng này là 𝑀t1= 13309 và 𝑀𝑡2 = 13934.75. Theo công thức (3.4) thì giá trị của Global_inf được tính là:
𝑮𝒍𝒐𝒃𝒂𝒍_𝒊𝒏𝒇 = 1∗𝑚𝑡1+ 2∗𝑚𝑡2
1+2 = 13309+ 2∗13934.75
3 = 13726.2 Tiếp theo, giá trị 𝑳𝒐𝒄𝒂𝒍_𝒊𝒏𝒇được tính theo công thức (3.5) là:
𝑳𝒐𝒄𝒂𝒍_𝒊𝒏𝒇 = 𝐿𝑏𝑡2+𝑈𝑡2−𝐿𝑏𝑡2 2 × 𝑚𝑡2−𝑚1 𝑚𝑡2+𝑚1 = 13588 +14281.5−13588 2 × 13934.75−13309 13934.75+13309 = 13595.97
Thay các giá trị này vào công thức (3.3), khi đó có giá trị dự báo cuối cùng cho năm t = 1973 là:
Giá trị_DB (1973) = 0.5*(Global_inf + Local_inf) = 0.5*(13726.2 + 13595.97) = 13661.09.
Quy tắc 2: Tính giá trị cho các NQHM-PTTG bậc cao m (m ≥ 2 )
Để tính giá trị dự báo cho năm t chứa nhóm quan hệ mờ bậc cao, bước này cải tiến quy tắc dự báo của mô hình FTS-1NT đã được trình bày ở công thức (2.4) trong Mục 2.2.1. Ngoài việc chia các khoảng liên quan đến tập mờ bên vế phải của nhóm thành q khoảng con (Giả sử q = 4), quy tắc này thêm thành phần hiệu chỉnh 𝑉𝑎𝑙_𝑙𝑢𝑖𝑘 tùy thuộc vào xu hướng biến đổi của dữ liệu tại thời điểm dự báo. Khi đó giá trị dự báo cho mỗi nhóm quan hệ mờ trong giai đoạn huấn luyện được tính theo công thức (3.6) như sau:
Giá trị_DB = 1
2∗𝑝∑𝑝𝑖=1(𝑠𝑢𝑏𝑚𝑖𝑘 + 𝑉𝑎𝑙_𝑙𝑢𝑖𝑘) (3.6) Trong đó, p là tổng số tập mờ bên vế phải của nhóm;
▪ 𝑠𝑢𝑏𝑚𝑖𝑘 là điểm giữa của một trong q khoảng con (điểm giữa của khoảng con thứ k (1 ≤ 𝑘 ≤ 𝑞) liên quan đến tập mờ thứ i bên vế phải của NQHM-PTTG mà có dữ liệu lịch sử tại thời điểm dự báo thuộc vào khoảng con này);
▪ 𝑉𝑎𝑙_𝑙𝑢𝑖𝑘 nhận một trong hai giá trị thuộc về cận dưới hoặc cận trên của một trong bốn khoảng con mà có dữ liệu thực tế tại thời điểm dự báo nằm trong khoảng con này (thí dụ khoảng con là 𝑢ik= [𝐿𝑏𝑖𝑘, 𝑈𝑏𝑖𝑘]). Một trong hai giá trị của 𝑉𝑎𝑙_𝑙𝑢𝑖𝑘 được xác định theo tiêu chí sau:
- Nếu dữ liệu thực tế tại thời điểm dự báo nhỏ hơn giá trị trung bình của