Trong mô hình dự báo FTS-1NT được đề xuất, có hai vấn đề mới được đề cập có thể xem là các yếu tố quan trọng ảnh hưởng lớn đến độ chính xác dự báo, đó là: thiết lập nhóm mối quan hệ mờ phụ thuộc thời gian và xây dựng quy tắc dự báo đầu ra. Mô hình dự báo FTS-1NT bao gồm 7 bước như trong Hình 2.2
Hình 2.2: Các bước của mô hình dự báo
Tập dữ liệu kinh điển về số lượng sinh viên nhập học của trường đại học Alabam [8] đưa ra trong Bảng 2.2 làm minh họa cho từng bước của mô hình dự báo được đề xuất.
Bảng 2.2: Dữ liệu tuyển sinh thực tế của trường đại học Alabama
Năm DL thực Năm DL thực 1971 13055 1982 15433 1972 13563 1983 15497 1973 13867 1084 15145 1974 14696 1985 15163 1975 15460 1986 15984 1976 15311 1987 16859 1977 15603 1988 18150 1978 15861 1989 18970 1979 16807 1990 19328 1980 16919 1991 19337 1981 16388 1992 18876
Chi tiết các bước của mô hình dự báo FTS-1NT được trình bày như sau:
Giả sử tập nền U = [𝑢𝑚𝑖𝑛 , 𝑢𝑚𝑎𝑥 ] = [𝐷𝑚𝑖𝑛 − 𝑁1, 𝐷𝑚𝑎𝑥 + 𝑁2], trong đó 𝐷𝑚𝑖𝑛, 𝐷𝑚𝑎𝑥 là giá trị nhỏ nhất và lớn nhất của chuỗi dữ liệu lịch sử và 𝑁1, 𝑁2 là hai số dương được chọn sao cho tập nền U bao vẹn chuỗi dữ liệu lịch sử và đảm bảo giá trị dự báo thuộc vào tập nền đã xác định. Từ Bảng 2.2 ta xác định giá trị lớn nhất và nhỏ nhất của chuỗi thời gian là 𝐷𝑚𝑖𝑛= 13055 và 𝐷𝑚𝑎𝑥= 19337. Từ đây tập nền U
được xác định là U= [13000, 20000] với hai số dương được chọn giống như trong công trình [8-10, 18] là 𝑁1= 55 và 𝑁2= 663.
Bước 2- Phân chia tập nền U thành các khoảng có độ dài bằng nhau.
Tập nền U được chia thành k khoảng với độ dài khoảng 𝐿 = 𝑢𝑚𝑎𝑥−𝑢𝑚𝑖𝑛
𝑘 . Khi đó, các khoảng chia có thể được tính là 𝑢𝑖 = (𝑢𝑚𝑖𝑛 + (𝑖 − 1) ∗ 𝐿, 𝑢𝑚𝑖𝑛 + 𝑖 ∗ 𝐿], với (1 ≤ 𝑖 ≤ 𝑘). Để tiện theo dõi và so sánh với các công trình trước đây, ban đầu k được chọn giống như trong công trình [8-10] là k =7. Từ đó nhận được 7 khoảng tương ứng như sau: 𝑢1 = (13000, 14000], 𝑢2 = (14000,15000],…, 𝑢6 = (18000,19000], 𝑢7 = (19000, 20000].
Bước 3- Xác định các tập mờ cho các quan sát trong chuỗi thời gian.
Mỗi một khoảng được xác định trong Bước 2 biểu diễn một giá trị ngôn ngữ của biến ngôn ngữ tuyển sinh “enrolments”. Dựa vào k khoảng chia, ta xác định được
k giá trị ngôn ngữ. Mỗi nhãn ngôn ngữ là một tập mờ 𝐴𝑖 được xác định theo công thức (2.1). 𝐴𝑖 =𝑎𝑖1 𝑢1 +𝑎𝑖2 𝑢2 + ⋯ +𝑎𝑖𝑗 𝑢𝑗 + ⋯ +𝑎𝑖𝑘 𝑢𝑘 (2.1) 𝑎𝑖𝑗 = { 1 𝑗 = 𝑖 0.5 𝑗 = 𝑖 − 1, 𝑗 = 𝑖 + 1 0 trường hợp còn lại (2.2)
Trong đó, 𝑎𝑖𝑗 ∈[0,1], (1 ≤ i ≤ 𝑘, 1 ≤ j ≤ k) chỉ cấp độ của uj vào tập mờ Ai, uj là khoảng thứ j của tập nền. Để đơn giản, mỗi giá trị độ thuộc của tập mờ Ai được lựa chọn theo công thức (2.2), có dạng hàm thuộc tam giác với cấp độ thuộc tương ứng là 1, 0.5 và 0.
Ví dụ 2.1: Với số khoảng k = 7 ta có được 7 giá trị ngôn ngữ được xác định giống như công trình [10] là: 𝐴1= “not many”, 𝐴2= “not too many”, 𝐴3= “many”, 𝐴4= “many many”, 𝐴5= “very many”, 𝐴6= “too many”, and 𝐴7= “too many many”.
Bước 4- Mờ hóa tất cả dữ liệu lịch sử của chuỗi thời gian.
Mờ hóa là quá trình ánh xạ các giá trị rõ sang một dạng đại diện cho giá trị mờ, bằng cách xác định mối liên hệ giữa các giá trị lịch sử trong tập dữ liệu với các tập mờ được xác định ở Bước 3. Như vậy để mờ hóa chuỗi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ cho mỗi khoảng chia tương ứng.
Nếu giá trị lịch sử của biến chuỗi thời gian tại thời điểm t thuộc vào khoảng 𝑢𝑖 (𝑌(𝑡)∈𝑢𝑖) với cấp độ thuộc cao nhất của tập mờ Ai xảy ra tại khoảng này, khi đó dữ liệu của biến chuỗi thời gian được mờ hóa là 𝐴𝑖.
Ví dụ 2.3: Giá trị lịch sử của năm 1972, 𝑌(1972) là 13563 thuộc vào khoảng 𝑢1= (13000, 14000] mà cấp độ thuộc lớn nhất của 𝐴1 xảy ra tại khoảng 1, vậy giá trị mờ hóa tại thời điểm t =1972, 𝐹(𝑡) = 𝐹(1972) là A1 có nhãn ngôn ngữ là “not many”. Bằng cách tương tự ta có kết quả mờ hóa cho tất cả dữ liệu tuyển sinh được đưa ra trong Bảng 2.3 và hiển thị trực quan trên Hình 2.3 dưới đây.
Bảng 2.3: Kết quả mờ hóa dữ liệu tuyển sinh thành các tập mờ
Năm SVNH Tập mờ Giá trị độ thuộc Khoảng
1971 13055 𝐴1 [1 0.5 0 0 0 0 0] “not many”
1972 13563 𝐴1 [1 0.5 0 0 0 0 0] “not many”
1973 13867 𝐴1 [1 0.5 0 0 0 0 0] “not many”
1974 14696 𝐴2 [0.5 1 0.5 0 0 0 0] “not too many”
1975 15460 𝐴3 [0 0.5 1 0.5 0 0 0] “many”
--- ---- ---- --- ---
1990 19328 𝐴7 [0 0 0 0 0 0.5 1] “too many many” 1991 19337 𝐴7 [0 0 0 0 0 0.5 1] “too many many” 1992 18876 𝐴6 [0 0 0 0 0 0 1 0.5] “too many”
Hình 2.3: Biểu diễn dữ liệu tuyển sinh được mờ hóa bởi các tập mờ 𝑨𝒊
Bước 5- Xác định tất cả các quan hệ mờ bậc m (m≥ 1)
Dựa trên các Định nghĩa 1.2 và 1.5 về khái niệm QHM bậc 1 và bậc cao, một quan hệ mờ được xác định bởi một hay nhiều tập mờ liên tiếp trong chuỗi thời gian. Để xác định các QHM với bậc khác nhau, ta cần tìm ra các quan hệ có dạng: 𝐹(𝑡 − 𝑚), 𝐹(𝑡 − 𝑚 + 1), . . . , 𝐹(𝑡 − 1) → 𝐹(𝑡); trong đó, 𝐹(𝑡 − 𝑚), 𝐹(𝑡 − 𝑚 + 1), . . . , 𝐹(𝑡 − 1) và 𝐹(𝑡) được gọi là trạng thái hiện tại và trạng thái tương lai của quan hệ mờ. Sau đó quan hệ này được thay thế bởi quan hệ mờ với các nhãn ngôn ngữ là 𝐴𝑖𝑚, 𝐴𝑖(𝑚−1), … , 𝐴𝑖2, 𝐴𝑖1 → 𝐴𝑘. Hai thí dụ minh họa cho QHM bậc 1 và bậc
3 được trình bày như sau:
❖Trong trường hợp QHM bậc 1(m=1), hai tập mờ liên tiếp được sử dụng để thành lập quan hệ mờ bậc 1. Dựa trên Bảng 2.3, quan hệ giữa 2 tập mờ 𝐴1và 𝐴2 được tạo bởi quan hệ giữa thời điểm F(1993) với F(1994) là𝐹(1973) → 𝐹(1974) và được biểu diễn là 𝐴1 → 𝐴2. Bằng cách tương tự cho các năm khác, bước này hoàn thành tất cả các QHM bậc 1 từ giai đoạn 1972 đến 1992 được thể hiện trong cột 3 của Bảng 2.4.
❖Trong trường hợp QHM bậc 3(m = 3), bốn tập mờ liên tiếp theo thứ tự thời gian được sử dụng để tạo thành quan hệ mờ bậc 3. Từ Bảng 2.3 quan hệ giữa tập mờ 𝐴2 được suy ra từ các tập mờ 𝐴1, 𝐴1, 𝐴1 là: 𝐴1, 𝐴1, 𝐴1 → 𝐴2 và được thay thế từ quan hệ 𝐹(1971), 𝐹(1972), 𝐹(1973) → 𝐹(1974). Dựa trên cách thức này, tất cả các QHM bậc 3 được thiết lập và chỉ ra trong cột 4 của Bảng 2.4. Trong Bảng 2.4 có quan hệ mờ mà vế phải không có dữ liệu được mờ hóa, dấu được sử dụng để biểu diễn nhãn ngôn ngữ chưa biết này. Với QHM không có tập mờ bên vế phải này được sử dụng để dự báo cho tương lai (trong pha kiểm thử). Ví dụ: QHM bậc 1 trong cột 3 của Bảng 2.4, 𝐹(1992) → 𝐹(1993) có nhãn ngôn ngữ trong vế phải
F(1993) chưa biết, thì quan hệ mờ này được biểu diễn là 𝐴6 → #. Tương tự cho quan hệ mờ bậc 3 được biểu diễn trong cột 4 của Bảng 2.4 là 𝐴7, 𝐴7, 𝐴6 → #.
Bảng 2.4: Biểu diễn mối quan hệ mờ bậc 1 và bậc 3 trên tập dữ liệu tuyển sinh Năm Tập mờ Quan hệ mờ bậc 1 Quan hệ mờ bậc 3
1971 𝐴1 1972 𝐴1 𝐴1 → 𝐴1 1973 𝐴1 𝐴1 → 𝐴1 1974 𝐴2 𝐴1 → 𝐴2 𝐴1, 𝐴1, 𝐴1 → 𝐴2 1975 𝐴3 𝐴2 → 𝐴3 𝐴1, 𝐴1, 𝐴2 → 𝐴3 1976 𝐴3 𝐴3 → 𝐴3 A1, 𝐴2, 𝐴3 → 𝐴3 1977 𝐴3 𝐴3 → 𝐴3 𝐴2, 𝐴3,𝐴3 → 𝐴3 1978 𝐴3 𝐴3 → 𝐴3 𝐴3, 𝐴3, 𝐴3→ 𝐴3 1979 𝐴4 𝐴3 → 𝐴4 𝐴3, 𝐴3, 𝐴3→ 𝐴3, 𝐴4 ---- ---- --- --- 1990 𝐴7 𝐴6 →𝐴7 𝐴4, 𝐴6, 𝐴6 →𝐴7 1991 𝐴7 𝐴7 →𝐴7 𝐴6, 𝐴6, 𝐴7 →𝐴7 1992 𝐴6 𝐴7 →𝐴6 𝐴6, 𝐴7, 𝐴7 →𝐴6 1993 # 𝐴6→ # A7, A7, A6 → # Bước 6- Thiết lập NQHM-PTTG bậc m
được thiết lập bằng việc xem xét đến lịch sử xuất hiện của các quan hệ mờ. Tức là, chỉ có quan hệ mờ xuất hiện trước và tại thời điểm dự báo mà chúng có cùng các thành phần bên vế trái, thì được gộp thành một nhóm quan hệ mờ. Dựa trên các quan hệ mờ bậc 1 trong cột 3 của Bảng 2.4 có thể giải thích việc hình thành NQHM-PTTG như sau. Giả sử xét các quan hệ tại các năm 𝑡1= 1972; 𝑡2= 1973, 𝑡3= 1974, 𝑡4= 1975. ▪ Xét thời điểm dự báo t = 𝑡1, chỉ có 1 quan hệ, do đó nhóm quan hệ được hình
thành là Nhóm 1: 𝐴1 → 𝐴1
▪ Xét thời điểm dự báo t = 𝑡2, có 2 quan hệ mờ xảy ra trước và tại thời điểm 𝑡2 có cùng vế trái là 𝐴1 → 𝐴1; 𝐴1 → 𝐴1, do đó NQHM_PTTG được hình thành là Nhóm
2: 𝐴1→ 𝐴1, 𝐴1
▪ Xét thời điểm dự báo t = 𝑡3, có 3 quan hệ mờ xảy ra trước và tại thời điểm 𝑡3 có cùng vế trái là 𝐴1 → 𝐴1; 𝐴1→ 𝐴1; 𝐴1 → 𝐴2, do đó NQHM_PTTGđược hình thành là Nhóm 3: 𝐴1 → 𝐴1, 𝐴1, 𝐴2
▪ Xét thời điểm dự báo t = 𝑡4, chỉ có 1 quan hệ mờ xảy ra trước và tại thời điểm 𝑡3 có cùng vế trái là 𝐴2 → 𝐴3, do đó NQHM_PTTG được hình thành là Nhóm 4:
𝐴2 → 𝐴3
Một cách giải thích tương tự cho nhóm quan hệ mờ bậc cao. Dựa vào các Định nghĩa 2.1 và Định nghĩa 2.2 về NQHM-PTTG bậc 1 và bậc cao, bước này đưa ra tất cả các NQHM-PTTG bậc 1 và bậc 3 trong cột 4 và cột 5 của Bảng 2.5.
Bảng 2.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 3
Năm Số nhóm Tập mờ NQHM_PTTG bậc 1 NQHM_PTTG bậc 3 1971 𝐴1 1972 1 𝐴1 𝐴1 → 𝐴1 1973 2 𝐴1 𝐴1→ 𝐴1, 𝐴1 1974 3 𝐴2 𝐴1 → 𝐴1, 𝐴1, 𝐴2 𝐴1, 𝐴1, 𝐴1 → 𝐴2 1975 4 𝐴3 𝐴2 → 𝐴3 𝐴1, 𝐴1, 𝐴2 → 𝐴3 1976 5 𝐴3 𝐴3 → 𝐴3 A1, 𝐴2, 𝐴3 → 𝐴3 1977 6 𝐴3 𝐴3 → 𝐴3, 𝐴3 𝐴2, 𝐴3,𝐴3 → 𝐴3 1978 7 𝐴3 𝐴3 → 𝐴3, 𝐴3, 𝐴3 𝐴3, 𝐴3, 𝐴3→ 𝐴3 1979 8 𝐴4 𝐴3 → 𝐴3, 𝐴3, 𝐴3, 𝐴4 𝐴3, 𝐴3, 𝐴3→ 𝐴3, 𝐴4 ---- --- --- --- --- 1991 20 𝐴7 𝐴7 →𝐴7 𝐴6, 𝐴6, 𝐴7 →𝐴7 1992 21 𝐴6 𝐴7 →𝐴7,𝐴6 𝐴6, 𝐴7, 𝐴7 →𝐴6 1993 22 # 𝐴6 → # 𝐴7, 𝐴7, 𝐴6 → #
Bước 7- Giải mờ và tính toán giá trị đầu ra dự báo.
Để giải mờ dữ liệu đã mờ hóa và tính giá trị cho nhóm quan hệ mờ bậc một và bậc cao. Bước này đề xuất các kỹ thuật giải mờ mới để tính toán giá trị dự báo cho
các nhóm quan hệ mờ với các bậc khác nhau trong giai đoạn huấn luyện. Tiếp theo, sử dụng quy tắc giải mờ được đề xuất trong [18] để tính toán giá trị dự báo cho các nhóm quan hệ mờ trong giai đoạn kiểm thử. Các giá trị dự báo cho các nhóm quan hệ mờ dựa vào chuỗi thời gian mờ bậc 1 và bậc cao được tính theo các quy tắc sau:
Quy tắc 1: Trong trường hợp nhóm quan hệ mờ bậc 1(bậc m =1)
Để tính toán giá trị dự báo cho tất cả các nhóm quan hệ mờ bậc 1 được chỉ ra trong cột 4 của Bảng 2.5, trong mô hình dự báo được đề xuất, tác giả xét đến thứ tự xuất hiện của các tập mờ bên vế phải trong cùng nhóm quan hệ kể cả các tập mờ lặp lại, sau đó gán các trọng số có tầm quan trọng khác nhau cho các tập mờ này theo thứ tự xuất hiện. Tức là các quan hệ xuất hiện gần tương lai hơn thì được gán với trọng số cao hơn. Giả sử có nhóm QHM bậc 1 xuất hiện cùng vế trái là 𝐴𝑗 như sau: 𝐴𝑗(𝑡 − 1) → 𝐴𝑖1(𝑡1), 𝐴𝑖2(𝑡2), … , 𝐴𝑖𝑘(𝑡𝑝); Khi đó, giá trị dự báo cho năm t có nhóm này được tính theo công thức sau:
𝑮𝒊á 𝒕𝒓ị_𝑫𝑩 = 1 ∗ 𝑀𝑖1 + 2 ∗ 𝑀𝑖2 + ⋯ + 𝑝 ∗ 𝑀𝑖𝑝
1 + 2 + ⋯ + 𝑝 (2.3)
Trong đó:
✓ 𝑀𝑖1, 𝑀𝑖2 và 𝑀𝑖𝑘 là điểm giữ của các khoảng 𝑢𝑖1, 𝑢𝑖2 và 𝑢𝑖𝑘tương ứng, mà cấp độ thuộc cao nhất của các tập mờ 𝐴𝑖1, 𝐴𝑖2 , . . . , 𝐴𝑖𝑘 xảy ra tại các khoảng này. ✓ k (1 ≤ 𝑘 ≤ 𝑝) là các trọng số được xác định theo vị trí xuất hiện của các tập
mờ bên vế phải của nhóm quan hệ mờ
Ví dụ 2.3: Để tính giá trị dự báo cho NQHM-PPTG bậc 1, có số Nhóm 2 trong Bảng 2.5 là: 𝐴1→ 𝐴1, 𝐴1. Thấy rằng vế phải của nhóm xuất hiện 2 tập mờ 𝐴1 tại thời điểm t = 1972 và 1973. Như vậy giá trị dự báo cho năm 1972 và năm 1973 có cùng giá trị với giá trị của Nhóm 2. Dựa vào công thức (2.3), ta tính được giá trị dự báo cho Nhóm 2 là:
𝑮𝒊á 𝒕𝒓ị_𝑫𝑩 = 1∗ 𝑀1+2∗𝑀1
1+2 = 13500; Trong đó, 𝑀1 là điểm giữa của khoảng 𝑢1.
Quy tắc 2: Trường hợp nhóm quan hệ mờ bậc cao (𝑚 ≥ 2)
Để thiết lập giá trị dự báo cho các NQHM-PPTG bậc cao, trong mô hình dự báo được đề xuất, tác giả xem xét chi tiết thông tin của các tập mờ xuất hiện bên vế phải của các quan hệ mờ trong cùng nhóm quan hệ. Nội dung quy tắc này đã được công bố trong công trình [P3]. Cụ thể quy tắc đề xuất được trình bày như sau:
Đối với mỗi nhóm quan hệ mờ bậc cao trong cột 5 của Bảng 2.5, tác giả chia mỗi khoảng tương ứng với các tập mờ bên vế phải trong cùng nhóm thành q khoảng con với độ dài bằng nhau, có cấp độ thuộc cao nhất của các tập mờ xảy ra tại một
trong q khoảng con này (giá trị quan sát tại thời điểm có nhãn 𝐴𝑖𝑘 thuộc vào khoảng con này). Khi đó, giá trị dự báo cho mỗi nhóm trong giai đoạn huấn luyện được tính bằng tổng trung bình giá trị điểm giữa của các khoảng con thứ k tương ứng với tập mờ thứ i bên vế phải của nhóm quan hệ mờ theo công thức (2.4):
𝑮𝒊á 𝒕𝒓ị_𝑫𝑩 = = 1 𝑝∑ 𝑠𝑢𝑏𝑚𝑖𝑘 𝑝 i=1 (2.4) Trong đó, (1≤ 𝑖 ≤p, 1≤ 𝑘 ≤ 𝑞)
✓ p là tổng số tập mờ bên vế phải của nhóm;
✓ 𝑠𝑢𝑏𝑚𝑖𝑘 là điểm giữa của một trong q khoảng con (điểm giữa của khoảng con thứ k, tương ứng với tập mờ thứ i bên vế phải của nhóm quan hệ).
Quy tắc 3: Trường hợp nhóm quan hệ rỗng (nhóm quan hệ mờ có vế phải chưa xác định tập mờ được ký hiệu bởi dấu # ).
Để tính toán giá trị dự báo cho nhóm quan hệ trong giai đoạn kiểm thử, mô hình FTS_1NT sử dụng quy tắc trong công trình [18]. Ý tưởng của quy tắc này được trình bày lại như sau:
Giả sử xét nhóm quan hệ mờ bậc m có dạng: 𝐴𝑡𝑚 , 𝐴𝑡(𝑚−1), 𝐴𝑡1 → # (ví dụ như nhóm số 22, nhóm quan hệ mờ bậc 3 trong cột 5 của Bảng 2.5). Quy tắc này, gán một trọng số ưu tiên có giá trị cao nhất 𝑤ℎ đối với tập mờ xuất hiện gần nhất về tương lai và trọng số bằng 1 cho các tập xuất hiện trước đó nằm bên vế trái của nhóm quan hệ mờ. Sau đó giải mờ dự báo được tính theo công thức (2.5) như sau:
𝑮𝒊á 𝒕𝒓ị_𝑫𝑩(𝑑ấ𝑢 #) =(𝑀𝑡1∗𝑤ℎ)+𝑀𝑡2+⋯+𝑀𝑡𝑖+⋯+𝑀𝑡𝑚
𝑤ℎ+(𝑚−1) (2.5)
Trong đó, 𝑤ℎ là phiếu bầu cử cao nhất (trọng số lớn nhất) được chọn trước bởi người dùng tùy thuộc vào từng dữ liệu chuỗi thời gian. Trong chuỗi dữ liệu về tuyển sinh đưa ra làm minh họa này, chọn 𝑤ℎ=15 giống như công trình [18].