Chương này của luận án trình bày các nghiên cứu đề xuất các mô hình dự báo chuỗi thời gian mờ mới trên cơ sở nhóm quan hệ mờ phụ thuộc thời gian (NQHM- PTTG). Cụ thể:
- Đề xuất khái niệm NQHM-PTTG với mục đích ngăn việc đưa các tập mờ xuất hiện sau thời điểm t vào vế phải của nhóm quan hệ mờ, do đó, khắc phục được các nhược điểm của các công trình trước đây theo hướng tiếp cận quan hệ mờ và nhóm quan hệ mờ. Đóng góp này được công bố trong các công trình [P1, P2].
- Xây dựng mô hình dự báo chuỗi thời gian mờ một nhân tố và hai nhân tố dựa trên các đề xuất về NQHM-PTTG bậc nhất và bậc cao kết hợp với quy tắc giải mờ mới tính toán giá trị dự báo rõ (đầu ra). Kết quả dự báo của các mô hình dự báo được đề xuất được so sánh với kết quả dự báo của các mô hình dự báo nền tảng nhằm khẳng định tính hiệu quả của các mô hình được đề xuất. Đề xuất này được công bố trong công trình [P4, P6].
- Đề xuất hai phương pháp phân khoảng mới dựa trên lý thuyết đại số gia tử và kỹ thuật phân cụm K-means. Bằng thực nghiệm trên tập dữ liệu tuyển sinh cho thấy hai phương pháp phân khoảng được đề xuất không những cho độ chính xác cao hơn mà còn linh hoạt và phù hợp với dữ liệu phân bổ không đồng nhất so với các kỹ thuật phân khoảng với độ dài bằng nhau. Các đóng góp này được công bố trong các công trình [P3, P5].
Chương này cũng trình bày các kết quả thực nghiệm và đánh giá so sánh được tiến hành đối với các mô hình dự báo chuỗi thời gian mờ bậc nhất, bậc cao và đa nhân tố được đề xuất để khẳng định tính hiệu quả của chúng. Ngoài ra, các kết quả thực nghiệm cũng khẳng định tính hiệu quả của các phương pháp phân khoảng được đề xuất đối với các dữ liệu chuỗi thời gian khác nhau. Với các kết quả dự báo của các mô hình được đề xuất tốt hơn so với các mô hình dự báo được đối sánh cho thấy những đóng góp về NQHM-PTTG và phương pháp phân khoảng là thiết thực và có giá trị trong luận án.
CHƯƠNG 3. NÂNG CAO HIỆU QUẢ CỦA MÔ HÌNH DỰ BÁO SỬ DỤNG CÁC KỸ THUẬT TÍNH TOÁN MỀM
Như phần Mở đầu và Chương 2 đã trình bày, độ dài khoảng phù hợp, nhóm quan hệ mờ và bậc của của mô hình cũng như quy tắc dự báo đầu ra được xem là các yếu tố ảnh hưởng đáng kể đến kết quả dự báo của mô hình FTS. Mặc dù các yếu tố này đã được đề cập trong các mô hình chuỗi thời gian mờ đơn lẻ, tuy nhiên chúng chưa được kết hợp một cách chặt chẽ để có được mô hình dự báo đủ mạnh nhằm đáp ứng nhu cầu dự báo trên các bài toán thực tế với độ chính xác cao. Với mục tiêu nâng cao kết quả của các mô hình dự báo đã đề cập trong Chương 2, chương này đề xuất các mô hình dự báo lai bằng việc kết hợp chuỗi thời gian mờ với các kỹ thuật tính toán mềm. Các nội dung cần trình bày bao gồm:
- Sử dụng kỹ thuật phân cụm mờ (Fuzzy C-Means – FCM) để phân tập chuỗi thời gian một nhân tố và hai nhân tố thành các cụm và hiệu chỉnh chúng thành các khoảng ban đầu trong tập nền.
- Cải tiến quy tắc giải mờ trong mô hình FTS-1NT và FTS-2NT ở Chương 2
để hiệu chỉnh các giá trị đầu ra trong giai đoạn giải mờ.
- Đề xuất kết hợp kỹ thuật FCM với thuật toán PSO trong việc xác định độ dài khoảng phù hợp của mô hình FTS- 1NT nhằm tăng độ chính xác dự báo - Cải tiến thuật toán PSO nhằm thực hiện việc tối ưu đồng thời độ dài khoảng
chia và bậc của quan hệ mờ trong mô hình dự báo chuỗi thời gian mờ bậc cao hai nhân tố (FTS-2NT).
- Chứng tỏ tính hiệu quả dự báo của các mô hình được đề xuất trên 3 tập tập dữ liệu kinh điển về tuyển sinh đại học thuộc trường đai học Alabama, số vụ tai nạn ô-tô tại Bỉ, nhiệt độ trung bình hàng ngày tại Đài Bắc Đài Loan và thị trường chứng khoán tại Đài Bắc, Đài Loan.
- Các kết quả của chương này được công bố trong các công trình [P6, P7]. 3.1. Các mô hình dự báo chuỗi thời gian mờ đề xuất
Mục này trình bày hai mô hình dự báo FTS cải tiến, được xem như là các mô hình nâng cao từ hai mô hình dự báo đã được đề xuất trong Chương 2. Các mô hình cải tiến được xây dựng bằng cách kết hợp giữa chuỗi thời gian mờ với các kỹ thuật tính toán mềm như phân cụm mờ FCM, tối ưu PSO cùng với các kỹ thuật giải mờ mới. Chi tiết của các mô hình cải tiến này được trình bày tương ứng trong các Mục 3.1.1 và Mục 3.1.2 dưới đây.
3.1.1. Mô hình chuỗi thời gian mờ một nhân tố (FTS-1NT) kết hợp giữa FCM và PSO
Tiểu mục này cải tiến mô hình dự báo FTS-1NT đã được đề cập trong Chương 2 của Luận án bằng việc kết hợp phân cụm mờ (FCM) với tối ưu bày đàn (PSO) nhằm nâng cao độ chính xác dự báo. Mô hình kết hợp này được đặt tên là
FTS1NT- CMPSO. Cấu trúc của mô hình FTS1NT-CMPSO được trình bày trong
Hình 3.1, bao gồm ba giai đoạn: giai đoạn đầu tiên là phân chia dữ liệu chuỗi thời gian thành các khoảng dựa trên thuật toán FCM; giai đoạn thứ hai là thiết lập và cải tiến mô hình FTS-1NT đã được trình bày trong Chương 2. Giai đoạn cuối cùng sử dụng PSO để hiệu chỉnh khoảng ban đầu đạt được từ FCM và chọn ra các khoảng với độ dài tối ưu. Để xử lý các giai đoạn này, tất cả dữ liệu về số lượng sinh viên nhập học của đại học Alabama [8] được sử dụng để minh họa cho quá trình dự báo. Ba giai đoạn của mô hình dự báo FTS1NT-CMPSO được trình bày thành các bước như sau:
Hình 3.1: Cấu trúc và các giai đoạn của mô hình dự báo đề xuất (FTS1NT-
CMPSO)
Trong giai đoạn này, FCM được áp dụng để phân tập dữ liệu gốc ((((((((((((((() có n quan sát thành k cụm. Sau đó điều chỉnh các cụm đạt được thành k khoảng tương
ứng có độ dài khác nhau thay vì cách chia khoảng có độ dài bằng nhau như trong mô hình FTS-1NT ở Mục 2.2.1. Giai đoạn này gồm hai bước chính như sau:
Bước 1- Áp dụng FCM để phân tập dữ liệu lịch sử thành c cụm (2 ≤ ≤ − 1)
Không mất tính tổng quát và tiện cho việc minh họa mô hình dự báo, số cụm ban đầu được chọn k = 7. Áp dụng thuật toán FCM trên tập dữ liệu tuyển sinh, ta thu được giá trị của 7 cụm như được chỉ ra trong Bảng 3.1.
Bảng 3.1: Các cụm và tâm của nó đạt được trên tập dữ liệu tuyển sinh [8]
STT Các phần tử dữ liệu trong cụm Tâm cụm
1 {13055, 13563} 13309 2 {13867} 13867 3 {14696} 14696 4 {15145, 15163, 15311, 15433, 15460, 15497, 15603} 15373.14 5 {15861, 1680, 16388, 15984} 16260 6 {16919, 16859} 16889 7 {18150, 18970, 19328, 19337, 18876} 18932.2
Bước 2- Điều chỉnh các cụm thành các khoảng
Dựa vào tâm cụm đưa ra trong Bảng 3.1, điều chỉnh c cụm thành các khoảng dựa vào các công thức từ (2.10) đến (2.13) ở Tiểu mục 2.3.3.1 trong Chương 2 của Luận án. Với 7 cụm trong Bảng 3.1, ta thu được 7 khoảng và điểm giữa của chúng trong Bảng 3.2.
Bảng 3.2: Các khoảng và điểm giữa của mỗi khoảng
Số khoảng Các khoảng Điểm giữa của khoảng
1 u1= [13030, 13588) 13309 2 u2= [13588, 14281.5) 13934.75 3 u3= [14281.5, 15034.57) 14658.04 4 u4= [15034.57, 15816.57) 15425.57 5 u5= [15816.57, 16574.5) 16195.54 6 u6= [16574.5, 17910.6) 17242.55 7 u7= [17910.6, 19953.8) 18932.2
Giai đoạn 2: Thiết lập và cải tiến mô hình dự báo FTS -1NT
Sau khi thu được các khoảng ở Giai đoạn 1, các bước tiếp theo của mô hình được đề xuất là: xác định các tập mờ trên mỗi khoảng, mờ hóa dữ liệu chuỗi thời gian, thiết lập quan hệ mờ và nhóm quan hệ mờ từ các tập mờ đã được xác định, tính
toán và giải mờ đầu ra dựa trên các nhóm quan hệ mờ thu được. Giai đoạn này, luận án cải tiến Bước 7 của mô hình FTS -1NT đã trình bày ở Mục 2.2.1 trong Chương 2. Bước 3- Xác định các tập mờ trên mỗi khoảng thu được ở Bước 2
Dựa vào k khoảng đạt được ở Bước 2, ta xác định được k hạng từ ngôn ngữ được biểu diễn bởi các tập mờ là {𝒜1, 2, 𝒜−1 , 𝒜}. Các tập mờ 𝒜𝒜 được xác định bởi công thức (3.1) sau:
𝒜 = 𝒜𝒜1 + 𝒜𝒜2 + ⋯ + 𝒜𝒜𝒜+ ⋯ + 𝒜𝒜𝒜
𝒜 𝒜
1 𝒜2 𝒜𝒜 𝒜𝒜
Trong đó, aij ∈[0,1], (1 ≤ ≤ , 1 ≤ ≤ ) là cấp độ thuộc của khoảng rõ 𝒜𝒜 vào tập mờ 𝒜𝒜 được xác định bởi hàm thuộc tam giác nhận ba giá trị 0, 0.5, 1 theo công thức sau:
1 𝒜 = 𝒜
𝒜𝒜𝒜 = { 0.5 = − 1, + 1 0 Trường hợp còn lại
Bước 4- Mờ hóa chuỗi dữ liệu lịch sử
Để chuyển đổi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ đã xác định trong Bước 3 vào mỗi khoảng tương ứng. Dựa vào các công thức (3.1) và (3.2), dễ dàng có thể nhận thấy nếu giá trị lịch sử rơi vào khoảng 𝒜𝒜 với cấp độ thuộc cao nhất của khoảng này xảy ra tại 𝒜𝒜, thì giá trị mờ hóa của nó là 𝒜𝒜.
Ví dụ 3.1: Giá trị lịch sử của năm 1972, Y(1972) là 13563 thuộc vào khoảng
𝒜1= (13000, 14029.68] mà cấp độ thuộc lớn nhất của khoảng này xảy ra tại 𝒜1 là 1. Vậy giá trị mờ hóa tại thời điểm t =1972, ((((((((((((((( ) =F(1972) là 𝒜1 . Bằng cách tương tự có thể mờ hóa các giá trị lịch sử khác trong chuỗi thời gian. Kết quả mờ hóa dữ liệu tuyển sinh được chỉ ra trong Bảng 3.3.
Bảng 3.3: Kết quả mờ hóa chuỗi dữ liệu tuyển sinh với 7 khoảng chia tập nền
Năm Dữ liệu thực Tập mờ Cấp độ tuộc
1971 13055 𝒜1 [1 0.5 0 0 0 0 0] 1972 13563 𝒜1 [1 0.5 0 0 0 0 0] 1973 13867 𝒜2 [0.5 1 0.5 0 0 0 0] 1974 14696 𝒜3 [0 05 1 0.5 0 0 0] 1990 19328 𝒜7 [0 0 0 0 0 0.5 1] 1991 19337 𝒜7 [0 0 0 0 0 0.5 1] 1992 18876 𝒜7 [0 0 0 0 0 0.5 1]
QHM được hình thành bởi hai hay nhiều tập mờ liên tiếp trong chuỗi thời gian. Dựa vào Định nghĩa 1.5 về quan hệ mờ bậc m, ta xác định được các QHM với số bậc m khác nhau có dạng 𝒜(𝒜 − 𝒜 ), 𝒜(𝒜 − 𝒜 + 1), . . . , 𝒜(𝒜 − 1) → )
((((((((((((((( , trong đó
𝒜(𝒜 − ), 𝒜(𝒜 − + 1 ), . . . , 𝒜(𝒜 − 1) và ) ((((((((((((((( được gọi lại trạng thái hiện tại (vế trái) và trạng thái tương lai (vế phải) của quan hệ mờ tương ứng. Sau đó, các quan hệ này được thay thế bởi quan hệ giữa các tập mờ là 𝒜𝒜𝒜 , 𝒜−1)(( , … , 𝒜𝒜2, 𝒜𝒜1 → 𝒜𝒜.
Dưới đây là hai thí dụ minh họa cho quan hệ mờ với số bậc m = 1 và m = 2:
Ví dụ 3.2: Trong trường (m =1) có quan hệ mờ bậc 1
Quan hệ này được cấu trúc bởi hai tập mờ liên tiếp. Trong Bước 4, dữ liệu tại năm F(1972) được mờ hóa là 𝒜1 và dữ liệu tại năm 𝒜(1973) được mờ hóa là 𝒜2. Khi đó quan hệ giữa thời điểm 𝒜(1972) với 𝒜(1973) là 𝒜(1972) → 𝒜(1973) và được thay bởi quan hệ mờ là 𝒜1 → 𝒜2. Hoàn toàn tương tự có thể thiết lập được cho các quan hệ mờ bậc 1 khác;
Ví dụ 3.3: Trong trường hợp QHM bậc cao (m = 2)
Quan hệ này được xác định từ ba tập mờ liên tiếp theo thứ tự thời gian. Từ Bảng 3.3, giả sử ba năm liên tiếp F(1972), F(1973), F(1974) được mờ hóa tương
ứng với các tập mờ là 𝒜1, 𝒜2, 𝒜3. Khi đó quan hệ mờ bậc hai tại thời điểm t =1974 được biểu diễn là: 𝒜1, 𝒜2 →𝒜3. Một cách tương tự để xác định các QHM bậc hai khác tại thời điểm t khác nhau.
Bảng 3.4 đưa ra tất cả các mối quan hệ mờ bậc 1 và bậc 2 trên tập dữ liệu tuyển sinh, trong đó dấu thăng (#) xuất hiện bên vế phải ở quan hệ cuối cùng được sử dụng để biểu diễn giá trị chưa biết hay giá trị cần dự báo.
Bảng 3.4: Kết quả biểu thị quan hệ mờ bậc 1 và bậc 2
Năm Tập mờ QHM bâc 1 QHM bậc 2 1971 𝒜1 1972 𝒜1 𝒜1 → 𝒜1 1973 𝒜2 𝒜1 → 𝒜2 𝒜1, 𝒜1 → 𝒜2 1974 𝒜3 𝒜2 → 𝒜3 𝒜1, 𝒜2 → 𝒜3 1991 𝒜7 𝒜7 → 𝒜7 𝒜7, 𝒜7 → 𝒜7 1992 𝒜7 𝒜7 → 𝒜7 A7, 𝒜7 → 𝒜7 1993 N/A 𝒜7→ # 𝒜7, 𝒜7→ #
Bước 6- Thiết lập nhóm quan hệ mờ phụ thuộc thời gian (NQHM-PTTG)
Bước này, mô hình tiếp tục áp dụng khái niệm NQHM-PPTG đã đề xuất trong Chương 2 của luận án để thiết lập nhóm quan hệ mờ. Trong cách tiếp cần này, nhóm quan hệ mờ phụ thuộc thời gian được thiết lập khi các quan hệ mờ có vế phải gồm các thành phần xuất hiện trước hoặc tại thời điểm dự báo t.
Hai ví dụ sau đây minh họa NQHM-PPTG bậc 1và bậc 2.
Ví du 3.4: Xem xét ba quan hệ mờ bậc 1 xuất hiện ở các thời điểm khác nhau trong
Bảng 3.4 như sau:
F(𝒜1=1976) có quan hệ là: 𝒜4 → 𝒜4; F(𝒜2=1977) có quan hệ là: A4 → A4;
F(𝒜3=1978) có quan hệ là: 𝒜4 → 𝒜5; với 𝒜1<𝒜2<𝒜3.
Khi đó tại các thời điểm dự báo tương ứng là 𝒜1, 𝒜2, 𝒜3, thì các quan hệ này được gộp thành các nhóm theo thứ tự thời gian là 𝒜4 → 𝒜4; 𝒜4 → 𝒜4, 𝒜4 và 𝒜4 →
𝒜4, 𝒜4, 𝒜5. Bằng cách tương tự cho các quan hệ khác trong Bảng 3.4. Ta nhận được kết quả về NQHM-PTTG bậc 1 và ghi chúng trong cột 3 của Bảng 3.5.
Ví dụ 3.5: Với cách giải thích tương tự, giả sử từ Bảng 3.4 có ba quan hệ mờ bậc 2
xuất hiện ở các thời điểm khác nhau sau đây:
F(𝒜1=1976) có quan hệ là: (((((((((((((((3, 𝒜4) → 𝒜4.
F(𝒜2=1977) có quan hệ là: (((((((((((((((4, 4) → 𝒜4;
F(𝒜3=1978) có quan hệ là: (((((((((((((((4, 4 ) → 5; với 𝒜1<𝒜2<𝒜3.
Xét thời điểm dự báo là 𝒜1=1976, mà trước đó không có quan hệ nào có cùng vế trái (𝒜3, 𝒜4) thì chúng hình thành một nhóm độc lập là (((((((((((((((3, 𝒜4) → 𝒜4. Cũng thấy tại thời điểm 𝒜2=1977 không có quan hệ nào cùng vế trái là (((((((((((((((4, 𝒜4), nên tại thời điểm này cũng đạt được một nhóm là (((((((((((((((4, 𝒜4) → 𝒜4. Cuối cùng tại thời điểm 𝒜3=1978, thấy rằng có một quan hệ có chung vế trái với quan hệ hiện tại vậy chúng được gộp thành một nhóm mới là (((((((((((((((4, 𝒜4) → 𝒜4, 𝒜5. Bằng cách tương tự cho các quan hệ mờ khác, ta nhận được tất cả các NQHM-PTTG bậc 2 trong cột 5 của Bảng 3.5.
Bảng 3.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 2
Năm Ký hiệu nhóm NQHM_PTTG bậc 1 Ký hiệu nhóm NQHM_PTTG bậc 2 1971 1972 G1 𝒜1→𝒜1 1973 G2 𝒜1→𝒜1, 𝒜2 G1 𝒜1, 𝒜1→ 𝒜2 1974 G3 𝒜2→ 𝒜3 G2 𝒜1, 𝒜2→𝒜3 1975 G4 𝒜3→𝒜4 G3 𝒜2, 𝒜3→𝒜4 1976 G5 𝒜4→𝒜4 G4 𝒜3, 𝒜4→𝒜4 1977 G6 𝒜4→𝒜4, 𝒜4 G5 𝒜4, 𝒜4→𝒜4 1978 G7 𝒜4→𝒜4, 𝒜4, 5 G6 𝒜4, 𝒜4→𝒜4,𝒜5 1991 G20 𝒜7 →𝒜7, 𝒜7, 𝒜7 G19 𝒜7, 𝒜7→𝒜7, 𝒜7 1992 G21 𝒜7→𝒜7, 𝒜7, 𝒜7, 𝒜7 G20 𝒜7, 𝒜7→𝒜7, 𝒜7, 𝒜7 1993 G22 𝒜7→ # G21 𝒜7, 𝒜7→ #
Giải mờ là bước quan trọng trong giai đoạn cuối cùng của mô hình dự báo để thu được các giá trị đầu ra rõ. Bước này đưa ra các quy tắc giải mờ mới để tính giá trị cho tất cả các NQHM_PTTG bậc 1 và bậc cao trong giai đoạn huấn luyện (giai đoạn kiểm chứng mô hình). Đồng thời sử dụng lược đồ (MV) [18] để tính giá trị dự báo cho các nhóm quan hệ mờ có mẫu chưa được kiểm soát trong giai đoạn kiểm thử (giai đoạn dự báo). Các quy tắc dự báo đề xuất được trình bày dưới đây:
Quy tắc dự báo 1: Sử dụng để tính giá trị cho các NQHM_PTTG bậc 1
Đối với các nhóm quan hệ mờ phụ thuộc thời gian bậc 1, thì giá trị đầu ra được tính bằng việc kết hợp các thông tin toàn cục xuất hiện bên vế phải của nhóm quan hệ mờ và thông tin gần nhất về tương lai lấy được bên vế trái của nhóm.
Giả sử nhóm quan hệ mờ bậc 1 có dạng 𝒜𝒜−1 → 𝒜1, 𝒜2, … , � �. Khi đó, giá trị dự báo tại thời điểm t được tính theo công thức (3.3) như sau:
Giá trị_DB = 0.5*(Global_inf + Local_inf) (3.3)
Trong đó, Global_inf gọi là thông tin toàn cục được xác định dựa vào tất cả các tập