Các mô hình dự báo chuỗi thời gian mờ đề xuất- 123docz.net

Mục này trình bày hai mô hình dự báo FTS cải tiến, được xem như là các mô hình nâng cao từ hai mô hình dự báo đã được đề xuất trong Chương 2. Các mô hình cải tiến được xây dựng bằng cách kết hợp giữa chuỗi thời gian mờ với các kỹ thuật tính toán mềm như phân cụm mờ FCM, tối ưu PSO cùng với các kỹ thuật giải mờ mới. Chi tiết của các mô hình cải tiến này được trình bày tương ứng trong các Mục 3.1.1 và Mục 3.1.2 dưới đây.

3.1.1. Mô hình chuỗi thời gian mờ một nhân tố (FTS-1NT) kết hợp giữa FCM và PSO

Tiểu mục này cải tiến mô hình dự báo FTS-1NT đã được đề cập trong Chương

2của Luận án bằng việc kết hợp phân cụm mờ (FCM) với tối ưu bày đàn (PSO) nhằm

nâng cao độ chính xác dự báo. Mô hình kết hợp này được đặt tên là FTS1NT-CMPSO.

Cấu trúc của mô hình FTS1NT-CMPSO được trình bày trong Hình 3.1, bao gồm ba

giai đoạn: giai đoạn đầu tiên là phân chia dữ liệu chuỗi thời gian thành các khoảng dựa trên thuật toán FCM; giai đoạn thứ hai là thiết lập và cải tiến mô hình FTS-1NT đã được trình bày trong Chương 2. Giai đoạn cuối cùng sử dụng PSO để hiệu chỉnh khoảng ban đầu đạt được từ FCM và chọn ra các khoảng với độ dài tối ưu. Để xử lý các giai đoạn này, tất cả dữ liệu về số lượng sinh viên nhập học của đại học Alabama [8] được sử dụng để minh họa cho quá trình dự báo. Ba giai đoạn của mô hình dự báo

FTS1NT-CMPSO được trình bày thành các bước như sau:

Hình 3.1: Cấu trúc và các giai đoạn của mô hình dự báo đề xuất (FTS1NT-

CMPSO)

❖ Giai đoạn 1: Giai đoạn phân khoảng dựa vào phân cụm FCM

Trong giai đoạn này, FCM được áp dụng để phân tập dữ liệu gốc ( ) có n quan sát thành k

cụm. Sau đó điều chỉnh các cụm đạt được thành k khoảng tương ứng có độ dài khác nhau thay vì cách chia khoảng có độ dài bằng nhau như trong mô hình FTS-1NT ở Mục 2.2.1. Giai đoạn này gồm hai bước chính như sau:

Bước 1- Áp dụng FCM để phân tập dữ liệu lịch sử thành c cụm (2 ≤≤ − 1) Không mất tính tổng quát và tiện cho việc minh họa mô hình dự báo, số cụm

ban đầu được chọn k = 7. Áp dụng thuật toán FCM trên tập dữ liệu tuyển sinh, ta thu được giá trị của 7 cụm như được chỉ ra trong Bảng 3.1.

Bảng 3.1: Các cụm và tâm của nó đạt được trên tập dữ liệu tuyển sinh [8] STT Các phần tử dữ liệu trong cụm 1 {13055, 13563} 2 {13867} 3 {14696} 4 {15145, 15163, 15311, 15433, 15460, 15497, 15603} 5 {15861, 1680, 16388, 15984} 6 {16919, 16859} 7 {18150, 18970, 19328, 19337, 18876}

Bước 2- Điều chỉnh các cụm thành các khoảng

Dựa vào tâm cụm đưa ra trong Bảng 3.1, điều chỉnh c cụm thành các khoảng dựa vào các công thức từ (2.10) đến (2.13) ở Tiểu mục 2.3.3.1 trong Chương 2 của Luận án. Với 7 cụm trong Bảng 3.1, ta thu được 7 khoảng và điểm giữa của chúng trong Bảng 3.2.

Bảng 3.2: Các khoảng và điểm giữa của mỗi khoảng

Số khoảng 1 2 3 4 5 6 7

❖ Giai đoạn 2: Thiết lập và cải tiến mô hình dự báo FTS -1NT

Sau khi thu được các khoảng ở Giai đoạn 1, các bước tiếp theo của mô hình được đề xuất là: xác định các tập mờ trên mỗi khoảng, mờ hóa dữ liệu chuỗi thời gian, thiết lập quan hệ mờ và nhóm quan hệ mờ từ các tập mờ đã được xác định, tính

toán và giải mờ đầu ra dựa trên các nhóm quan hệ mờ thu được. Giai đoạn này, luận án cải tiến Bước 7 của mô hình FTS -1NT đã trình bày ở Mục 2.2.1 trong Chương 2. Bước 3- Xác định các tập mờ trên mỗi khoảng thu được ở Bước 2

Dựa vào k khoảng đạt được ở Bước 2, ta xác định được k hạng từ ngôn ngữ được biểu diễn bởi các tập mờ là { 1, 2, −1 , }. Các tập mờ được xác định bởi công thức (3.1) sau:

Trong đó, aij ∈[0,1], (1 ≤ ≤ , 1 ≤ ≤ ) là cấp độ thuộc của khoảng rõ vào tập mờ được xác định bởi hàm thuộc tam giác nhận ba giá trị 0, 0.5, 1 theo công thức sau:

1 Trường hợp còn lại

Bước 4- Mờ hóa chuỗi dữ liệu lịch sử

Để chuyển đổi dữ liệu rõ thành dữ liệu mờ được biểu diễn bằng tập mờ, trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ đã xác định trong Bước 3 vào mỗi khoảng tương ứng. Dựa vào các công thức (3.1) và (3.2), dễ dàng có thể nhận thấy nếu giá trị lịch sử rơi vào khoảng với cấp độ thuộc cao nhất của khoảng này xảy ra tại , thì giá trị mờ hóa của nó là .

Ví dụ 3.1: Giá trị lịch sử của năm 1972, Y(1972) là 13563 thuộc vào khoảng1= (13000, 14029.68] mà cấp độ thuộc lớn nhất của khoảng này xảy ra tại1 là 1. Vậy giá trị mờ hóa tại thời điểm t =1972, ( ) =F(1972) là1 . Bằng cách tương tự có thể mờ hóa các giá trị lịch sử khác trong chuỗi thời gian. Kết quả mờ hóa dữ liệu tuyển sinh được chỉ ra trong Bảng 3.3.

Bảng 3.3: Kết quả mờ hóa chuỗi dữ liệu tuyển sinh với 7 khoảng chia tập nền

Năm 1971 1972 1973 1974 ---- 1990 1991 1992

Bước 5- Xác định các quan hệ mờ dựa trên các dữ liệu mờ hoá

QHM được hình thành bởi hai hay nhiều tập mờ liên tiếp trong chuỗi thời gian.

Dựa vào Định nghĩa 1.5 về quan hệ mờ bậc m, ta xác định được các QHM với số bậc

mkhác nhau có dạng ( − ), ( − + 1), . . . , ( − 1) → ( ), trong đó ( − ), ( − + 1), . . . , ( − 1) và ( ) được gọi lại trạng thái hiện tại (vế

trái) và trạng thái tương lai (vế phải) của quan hệ mờ tương ứng. Sau đó, các quan hệ này được thay thế bởi quan hệ giữa các tập mờ là , ( −1), … , 2, 1

→ .

Dưới đây là hai thí dụ minh họa cho quan hệ mờ với số bậc m = 1 và m = 2:

Ví dụ 3.2: Trong trường (m =1) có quan hệ mờ bậc 1

Quan hệ này được cấu trúc bởi hai tập mờ liên tiếp. Trong Bước 4, dữ liệu tại năm F(1972) được mờ hóa là1 và dữ liệu tại năm (1973) được mờ hóa là2. Khi

đó quan hệ giữa thời điểm (1972) với (1973) là (1972) → (1973) và được thay bởi quan hệ mờ là 1→ 2. Hoàn toàn tương tự có thể thiết lập được cho các quan hệ mờ bậc 1 khác;

Ví dụ 3.3: Trong trường hợp QHM bậc cao (m = 2)

Quan hệ này được xác định từ ba tập mờ liên tiếp theo thứ tự thời gian. Từ Bảng 3.3, giả sử ba năm liên tiếp F(1972), F(1973), F(1974) được mờ hóa tương ứng

với các tập mờ là 1, 2, 3. Khi đó quan hệ mờ bậc hai tại thời điểm t =1974 được biểu diễn là: 1, 2→3. Một cách tương tự để xác định các QHM bậc hai khác tại thời điểm t khác nhau.

Bảng 3.4 đưa ra tất cả các mối quan hệ mờ bậc 1 và bậc 2 trên tập dữ liệu tuyển sinh, trong đó dấu thăng (#) xuất hiện bên vế phải ở quan hệ cuối cùng được sử dụng để biểu diễn giá trị chưa biết hay giá trị cần dự báo.

Bảng 3.4: Kết quả biểu thị quan hệ mờ bậc 1 và bậc 2 Năm 1971 1972 1973 1974 ---- 1991 1992 1993

Bước 6- Thiết lập nhóm quan hệ mờ phụ thuộc thời gian (NQHM-PTTG)

Bước này, mô hình tiếp tục áp dụng khái niệm NQHM-PPTG đã đề xuất trong Chương 2 của luận án để thiết lập nhóm quan hệ mờ. Trong cách tiếp cần này, nhóm quan hệ mờ phụ thuộc thời gian được thiết lập khi các quan hệ mờ có vế phải gồm các thành phần xuất hiện trước hoặc tại thời điểm dự báo t.

Hai ví dụ sau đây minh họa NQHM-PPTG bậc 1và bậc 2.

Ví du 3.4: Xem xét ba quan hệ mờ bậc 1 xuất hiện ở các thời điểm khác nhau trong Bảng 3.4 như sau:

F(1=1976) có quan hệ là: 4→ 4; F(2=1977) có quan hệ là: A4 → A4;

F(3=1978) có quan hệ là: 4→ 5; với 1<2<3.

Khi đó tại các thời điểm dự báo tương ứng là1,2,3, thì các quan hệ này được gộp thành các nhóm theo thứ tự thời gian là 4→4;4→4,4

và4→4,4,5. Bằng cách tương tự cho các quan hệ khác trong Bảng 3.4. Ta nhận được kết quả về NQHM-PTTG bậc 1 và ghi chúng trong cột 3 của Bảng 3.5.

Ví dụ 3.5: Với cách giải thích tương tự, giả sử từ Bảng 3.4 có ba quan hệ mờ bậc 2 xuất hiện ở các thời điểm khác nhau sau đây:

F(1=1976) có quan hệ là: ( 3, 4) → 4.

F(2=1977) có quan hệ là: ( 4, 4) → 4;

F(3=1978) có quan hệ là: ( 4, 4) → 5; với 1<2<3.

Xét thời điểm dự báo là1=1976, mà trước đó không có quan hệ nào có cùng vế trái (3,4) thì chúng hình thành một nhóm độc lập là ( 3,4) →

4. Cũng thấy tại thời điểm2=1977 không có quan hệ nào cùng vế trái là ( 4,4), nên tại thời điểm này cũng đạt được một nhóm là ( 4,4) →4. Cuối cùng tại thời điểm3=1978, thấy rằng có một quan hệ có chung vế trái với quan hệ hiện tại vậy chúng được gộp thành một nhóm mới là ( 4,4) →4,5. Bằng cách tương tự cho các quan hệ mờ khác, ta nhận được tất cả các NQHM-PTTG bậc 2 trong cột 5 của Bảng 3.5.

Bảng 3.5: Kết quả nhóm quan hệ mờ phụ thuộc thời gian bậc 1 và bậc 2

Năm Ký hiệu nhóm 1971 1972 G1 1973 G2 1974 G3 1975 G4 1976 G5 1977 G6 1978 G7 ---- --- 1991 G20 1992 G21 1993 G22

Bước 7- Giải mờ và tính toán giá trị dự báo đầu ra

Giải mờ là bước quan trọng trong giai đoạn cuối cùng của mô hình dự báo để thu được các giá trị đầu ra rõ. Bước này đưa ra các quy tắc giải mờ mới để tính giá trị cho tất cả các NQHM_PTTG bậc 1 và bậc cao trong giai đoạn huấn luyện (giai đoạn kiểm chứng mô hình). Đồng thời sử dụng lược đồ (MV) [18] để tính giá trị dự báo cho các nhóm quan hệ mờ có mẫu chưa được kiểm soát trong giai đoạn kiểm thử (giai đoạn dự báo). Các quy tắc dự báo đề xuất được trình bày dưới đây:

Quy tắc dự báo 1: Sử dụng để tính giá trị cho các NQHM_PTTG bậc 1

Đối với các nhóm quan hệ mờ phụ thuộc thời gian bậc 1, thì giá trị đầu ra được tính bằng việc kết hợp các thông tin toàn cục xuất hiện bên vế phải của nhóm quan hệ mờ và thông tin gần nhất về tương lai lấy được bên vế trái của nhóm.

Giả sử nhóm quan hệ mờ bậc 1 có dạng −1 → 1, 2, … , . Khi đó, giá trị dự báo tại thời điểm t được tính theo công thức (3.3) như sau:

Giá trị_DB = 0.5*(Global_inf + Local_inf) (3.3) Trong đó, Global_inf gọi là thông tin toàn cục được xác định dựa vào tất cả các tập mờ bên vế phải của nhóm quan hệ. Khi đó giá trị dự báo của Global_inf

sẽ là 1, 2, … , và giải mờ đầu ra được tính là:

_ =

Trong đó, 1, 2, … , là giá trị điểm giữa của các khoảng1,2, … , tương ứng với p tập mờ bên vế phải của nhóm.

✓ Local_inf gọi là thông tin cục bộ được xác định dựa vào tập mờ xuất hiện tại thời điểm dự báo bên vế phải và tập mờ xuất hiện gần nhất về tương lai bên vế trái của nhóm quan hệ. Khi đó giải mờ đầu ra cho Local_inf được tính bởi công thức (3.5) sau đây:

_ =

Trong đó, , và là giá trị cận dưới, cận trên và giá trị điểm giữa của khoảng = [ , ] liên quan đến tập mờ thứ i (1 ≤ ≤ ) bên vế phải của nhóm quan hệ;

−1là giá trị điểm giữa của khoảng −1 liên quan đến tập mờ xuất hiện bên vế trái của nhóm quan hệ; t là thời điểm dự báo liên quan đến tập mờ thứ i bên vế phải của nhóm quan hệ mờ bậc 1.

Ví dụ 3.6: Giả sử muốn dự báo số lượng sinh viên nhập học vào năm 1973 của trường đại học Alabama [8]. Từ cột 3 của Bảng 3.5, nhóm quan hệ bậc 1 (1→ 1,2) xuất hiện vào năm 1973 được thiết lập từ hai quan hệ là1→ 1và A1→ A2. Trong đó cấp độ thuộc cao nhất của các tập mờ1

xảy ra tại khoảng1 và của tập mờ2 xảy ra tại2. Dựa trên giá trị của các khoảng đã trình bày trong Bảng 3.2, giá trị của các khoảng

1và2 tương ứng là 1= [ 1, 1] = [13030, 13588] và2= [ 2, 2] = [13588, 14281.5]. Các điểm giữa của các khoảng này làt1 = 13309 và

2 = 13934.75. Theo công thức (3.4) thì giá trị của Global_inf được tính là:

Tiếp theo, giá trị_ được tính theo công thức (3.5) là:

13934.75−13309= 13595.97

13934.75+13309

Thay các giá trị này vào công thức (3.3), khi đó có giá trị dự báo cuối cùng cho năm t = 1973 là:

Giá trị_DB (1973) = 0.5*(Global_inf + Local_inf) = 0.5*(13726.2 + 13595.97) = 13661.09.

Quy tắc 2: Tính giá trị cho các NQHM-PTTG bậc cao m (m ≥ 2)

Để tính giá trị dự báo cho năm t chứa nhóm quan hệ mờ bậc cao, bước này cải tiến quy tắc dự báo của mô hình FTS-1NT đã được trình bày ở công thức (2.4) trong Mục 2.2.1. Ngoài việc chia các khoảng liên quan đến tập mờ bên vế phải của nhóm thành q khoảng con (Giả sử q = 4), quy tắc này thêm thành phần hiệu chỉnh _

tùy thuộc vào xu hướng biến đổi của dữ liệu tại thời điểm dự báo. Khi đó giá trị dự báo cho mỗi nhóm quan hệ mờ trong giai đoạn huấn luyện được tính theo công thức (3.6) như sau:

Giá trị_DB =

Trong đó, p là tổng số tập mờ bên vế phải của nhóm;

▪ là điểm giữa của một trong q khoảng con (điểm giữa của khoảng con thứ k (1 ≤ ≤ ) liên quan đến tập mờ thứ i bên vế phải của NQHM-PTTG mà có dữ liệu lịch sử tại thời điểm dự báo thuộc vào khoảng con này);

▪ _ nhận một trong hai giá trị thuộc về cận dưới hoặc cận trên của một trong bốn khoảng con mà có dữ liệu thực tế tại thời điểm dự báo nằm trong khoảng con này (thí dụ khoảng con làik= [ , ]). Một trong hai giá trị của _ được xác định theo tiêu chí sau:

- Nếu dữ liệu thực tế tại thời điểm dự báo nhỏ hơn giá trị trung bình của khoảng conik thì _ nhận giá trị cận dưới của khoảng con

ik;

- Nếu dữ liệu thực tế tại thời điểm dự báo lớn hơn giá trị trung bình của

khoảng conik thì _ nhận giá trị cận trên của khoảng conik; Ví dụ 3.7: Giả sử muốn dự báo số lượng tuyển sinh nhập học của năm 1973. Từ cột

5 của Bảng 3.5 thấy rằng nhóm QHM bậc 2 (1,1→2) có trạng thái tương lai là2, mà cấp độ thuộc cao nhất của tập mờ2 xảy ra tại khoảng2 = [13588, 14281.5).

14108.13)

và2.4 = [14108.13, 14281.5). Trong các khoảng con này, khoảng chứa dữ liệu lịch sử của năm 1973 (Y(1973) =13867) là khoảng con 2.2 = [13761.38, 13934.75). Vì vậy điểm giữa của khoảng con thứ hai liên quan đến tậpmờ thứ nhất là khoảng 2.2 ( 12 =13848.06). Thêm nữa bằng việc so sánh giá trị điểm giữa của khoảng còn này với dữ liệu lịch sử của năm dự báo thấy rằng giá trị lịch sử của năm 1973 lớn hơn điểm giữa của khoảng con2.2. Do đó _ được xác định bằng cận trên của khoảng 2.2 ( _ =13934.75). Thay các giá trị thu được ở trên vào công thức (3.6), đạt được giá trị dự báo cho năm 1973 là:

Giá trị_DB (1973) =12 (13848.06 + 13934.75) = 13891.4

Quy tắc 3: Trường hợp nhóm quan hệ rỗng (nhóm quan hệ mờ có vế phải chưa xác định tập mờ).

Để tính toán giá trị dự báo cho nhóm quan hệ trong giai đoạn thử nghiệm, mô hình này sử dụng quy tắc đề xuất trong [18]. Quy tắc này đã được trình bày ở Mục 2.2.1 trong Chương 2 của Luận án.

Dựa vào các quy tắc 1, 2, 3 ở trên và các nhóm quan hệ mờ trong Bảng 3.5, bước này hoàn thành kết quả dự báo đầu ra của mô hình dự báo trên tập dữ liệu tuyển sinh của trường Đại học Alabama từ năm 1971 đến 1992 dựa trên QHM bậc 1 và bậc 2 với số lượng khoảng bằng 7, được thể hiện trong Bảng 3.6 dưới đây:

Bảng 3.6: Kết quả dự báo của mô hình đề xuất với 7 khoảng chia Năm 1971 1972 1973 1974 ---- 1991 1992 1993 MSE

❖ Giai đoạn 3: Hiệu chỉnh và tìm khoảng tối ưu trong mô hình FTS1NT-

CMPSO bằng PSO

Trong Giai đoạn 3, mô hình dự báo FTS1NT-CMPSO sử dụng thuật toán tối ưu

Các mô hình dự báo chuỗi thời gian mờ đề xuất

Một số khái niệm về tập mờ

Mô hình dự báo của Song và Chissom [8,9]