Giai đoạn kiểm thử (Giai đoạn dự báo)

Khi các giá trị ngôn ngữ (tập mờ) của biến ngôn ngữ 𝒜̃ được xác định và mô hình FTS đã được huấn luyện tốt, thì các mẫu mới 𝒜(𝒜)∈ � có thể được sử dụng để đưa ra dự báo 𝒜̂((((((((((((((( + 1). Các thành phần của quá trình này được minh họa trong Hình

1.7 và được trình bày thành các bước sau:

Hình 1.7: Các thành phần trong giai đoạn kiểm thử

Bước 1- Tiền xử lý (nếu cần): Trước tiên, một số thao tác tiền xử lý hoặc hậu xử lý

dữ liệu có thể được áp dụng cho dữ liệu đầu vào 𝒜(𝒜)∈𝒜

Bước 2- Mờ hóa dữ liệu mẫu: Giống như quá trình mờ hóa của giai đoạn huấn

luyện. Bước 3- Quá trình suy luận (đưa ra luật dự báo): Mục đích của quá trình này là sinh ra giá trị mờ hoá ((((((((((((((( + 1) dựa trên các quan hệ mờ và các thông tin bổ sung khác, như trọng số của quan hệ, trọng số theo chỉ số tập mờ, …để đưa ra các giá trị rõ 𝒜̂((((((((((((((( + 1).

Bước 4- Giải mờ dự báo: Bước này nhằm mục đích biến đổi các giá trị mờ hóa

(((((((((((((((

1) thành các giá trị rõ 𝒜̂((((((((((((((( + 1) bao gồm cả giá trị chưa biết. Việc giải mờ dựa trên nhiều phương thức khác nhau như: quy tắc suy luận như luật if .. then của Song và Chissom [8], nhóm quan hệ mờ và giải mờ trọng tâm [10], quy tắc giải mờ có trọng số [13]. Một số phương pháp giải mờ phổ biến có thể thấy trong các công trình [9, 13, 33, 62].

Bước 5 – Hậu xử lý dữ liệu: Một trong số thao tác dữ liệu sẽ được thực hiện ở đầu

ra dự báo 𝒜̂((((((((((((((( + 1) như chuẩn hóa dữ liệu, khử xu hướng, vv. 1.2.4. Một số mô hình chuỗi thời gian mờ cơ bản

Mục này cung cấp một cái nhìn tổng quan về một số công trình nghiên cứu nền tảng như mô hình của Song & Chissom [8, 9] mô hình của Chen [10] và mô

trọng số của Yu [13]. Đây là những mô hình quan trọng nhất để làm cơ sở phát triển cho những mô hình cải tiến trong luận án. Cuối cùng là một vài đánh giá ngắn gọn về những phát triển từ các công trình này.

1.2.4.1 Mô hình dự báo của Song và Chissom [8,9]

Dựa trên lý thuyết tập mờ của Zadeh [7], Song và Chissom đưa ra các mô hình chuỗi thời gian mờ để giải quyết bài toán với chuỗi dữ liệu được biểu diễn bởi các giá trị ngôn ngữ và áp dụng để dự báo số lượng sinh viên nhập học tại trường đại học Alabama. Trong các mô hình đầu tiên này, Song và Chissom sử dụng các toán tử max-min trong việc xử lý ma trận quan hệ mờ để tính toán giá trị dự báo đầu ra trong giai đoạn giải mờ. Các bước cơ bản của mô hình Song và Chissom như sau:

Bước1- Xác định tập nền U bao giá trị dữ liệu của chuỗi thời gian.

Bước 2- Chia các tập nền U thành một số khoảng có độ dài bằng nhau

Bước 3- Xác định các biến ngôn ngữ để diễn tả các tập mờ trên các khoảng đã chia Bước 4- Mờ hoá các giá trị lịch sử của chuỗi thời gian

Bước 5- Thiết lập quan hệ mờ

Các quan hệ mờ được thiết lập bởi phương trình ) ((((((((((((((( = (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( − 1) ∗ , (

− 1); trong đó ) ((((((((((((((( là giá trị cần dự báo tại thời điểm t; − 1) ((((((((((((((( là giá trị dự báo mờ tại thời điểm t -1. ,(((((((((((((((

𝒜 − 1) = ⋃𝒜𝒜 là mố

i quan hệ mờ tại thời điểm t và t-1; trong đó 𝒜𝒜 = 𝒜

𝒜 biểu diễn với k quan hệ mờ giữa 𝒜 →

𝒜

; trong đó, 𝒜 là toán tử min, T là phép chuyển vị và ∪ là phép hợp.

Bước 6- Dự báo bằng phương trình 𝒜𝒜 = 𝒜𝒜−1* R, ở đây ký hiệu * là toán tử max-

min; số chiều của ma trận R phụ thuộc vào số tập mờ hay số khoảng được chia.

Bước 7- Giải mờ và tính toán đầu ra dự báo.

Một số nghiên cứu khác cũng dựa trên nền tảng của mô hình này để trích xuất ma trận quan hệ mờ như được thấy trong các công trình [66-68].

1.2.4.2. Mô hình dự báo của Chen [10]

Chen [10] đã đề xuất mô hình FTS mới cho dự báo tuyển sinh bằng việc đưa ra các phép tính đơn giản để tính toán giá trị rõ từ nhóm quan hệ mờ nhằm khắc phục nhược điểm khi phải sử dụng nhiều phép toán max – min phức tạp trong Bước 5 và Bước 6 của Song & Chissom [ 8, 9]. Nhóm quan hệ mờ này khiến mô hình trở nên đơn giản và dễ giải thích hơn. Vì thế cấu trúc mô hình của Chen khác với mô hình của Song ở hai Bước 5 và Bước 6 trong việc thực hiện nhóm quan hệ mờ và giải mờ đầu ra dự báo: Kể từ đó, mô hình này được sử dụng như một mô hình FTS nền tảng và được xem là một cải tiến đầu tiên về nhóm quan hệ mờ. Các bước trong mô hình của Chen được minh họa thông qua tập dữ liệu về tuyển sinh đại học của trường Đại học Alabama [8] và kết quả của từng bước được tóm tắt trong Hình 1.8.

𝒜= 1 𝒜 𝒜 𝒜𝒜 𝒜 𝒜 𝒜𝒜

Mô hình dự báo của Chen bao gồm 7 bước chính sau:

Bước 1- Xác định tập nền U bao trọn các giá trị quan sát của chuỗi thời gian Giống như mô hình của Song & Chissom, Chen đã sử dụng hai số dương thích hợp và giá trị lớn nhất và nhỏ nhất của chuỗi dữ liệu để xác định tập nền như sau: Tập nền được xác định bởi U= [𝒜𝒜𝒜𝒜, 𝒜𝒜𝒜𝒜 ] = [[[[[[[[[[[[[[[ 𝒜𝒜𝒜 − 𝒜1, 𝒜𝒜𝒜𝒜 + 𝒜2], trong đó

𝒜𝒜𝒜𝒜, 𝒜𝒜𝒜𝒜 là giá trị nhỏ nhất và lớn nhất của chuỗi dữ liệu và 𝒜1, 𝒜2 là hai số dương chọn trước sao cho tập nền bao trọn vẹn chuỗi dữ liệu lịch sử. Từ tập dữ liệu tuyển sinh, tập nền được xác định là U = [13000, 20000].

Bước 2- Chia tập nền U thành các khoảng có độ dài bằng nhau.

Chia tập nền U thành 7 khoảng với độ dài bằng nhau, 𝒜 = 𝒜 𝒜𝒜𝒜−−−−−−−−−−−−−−− 𝒜 𝒜𝒜. Các

khoảng được xác định bởi ui = + − 1) ∗ ( ((((((((((((((((((((((((((((( 𝒜, 𝒜𝒜𝒜𝒜 + ∗ 𝒜], với 1 ≤ 𝒜 ≤ 7. Trong đó 𝒜1= [13000, 14000), 𝒜2= [14000, 15000), 𝒜3= [15000,

16000), 𝒜4=

[16000, 17000), 𝒜5= [17000, 18000), 𝒜6= [18000, 19000), 𝒜7= [19000, 20000]

Bước 3- Xác định các tập mờ trên mỗi khoảng

Dựa trên 7 khoảng đã chia, xác định được 7 hạng từ ngôn ngữ được biểu diễn dưới dạng các tập mờ {𝒜1, 𝒜2, 𝒜3 , 𝒜4, 𝒜5, 𝒜6, 𝒜7}. Các tập mờ được xác định bởi công thức (1.5) sau:

𝒜𝒜1 𝒜𝒜2 𝒜𝒜𝒜 𝒜𝒜7 𝒜𝒜 = 𝒜 + 𝒜 + ⋯ + 𝒜 + ⋯ + 𝒜 1 2 𝒜 7 (1.5) 1 𝒜 = 𝒜 𝒜𝒜𝒜 = { 0.5 = 𝒜 − 1, = 𝒜 + 1 0 trái lại (1.6)

Trong đó, 𝒜𝒜𝒜 ∈[0,1] (1 ≤ , ≤ 7) là cấp độ thuộc của khoảng 𝒜𝒜 vào tập mờ 𝒜𝒜 . Để đơn gian trong việc tính toán, cấp độ thuộc được xác định bởi hàm thuộc tam giác nhận ba giá trị 0; 0.5; 1 theo công thức (1.6). Với 7 khoảng chia trên tập dữ liệu tuyển sinh thu được từ Bước 2, có 7 giá trị ngôn ngữ của biến ngôn ngữ “enrolments” được biểu diễn bởi các tập mờ với cấp độ thuộc khác nhau là 𝒜1 = “not many”, 𝒜2= “not too many”, 𝒜3 = “many”, 𝒜4 = “many many”, 𝒜5 = “very many”, 𝒜6 = “too many”, and 𝒜7= “too many many”.

Bước 4- Mờ hóa dữ liệu lịch sử

Sau khi các tập mờ được xác định công việc tiếp theo là chuyển đổi dữ liệu rõ thành dữ liệu mờ. Trước tiên cần gán giá trị ngôn ngữ liên quan đến mỗi tập mờ đã xác định vào mỗi khoảng tương ứng. Cách đơn giản là tìm ra một khoảng 𝒜𝒜 mà giá trị lịch sử của biến chuỗi thời gian tại thời điểm nào đó thuộc vào khoảng này mà có cấp độ thuộc cao nhất của khoảng 𝒜𝒜 xảy ra tại tập mờ 𝒜𝒜, khi đó dữ liệu lịch được mờ hóa là 𝒜𝒜 .

Ví dụ 1.5: Giá trị lịch sử của năm 1972, Y(1972) là 13563 thuộc vào khoảng 𝒜1= (13000, 14000] mà cấp độ thuộc cao nhất của khoảng này xảy ra tại 𝒜1 là 1. Vậy giá trị mờ hóa tại thời điểm t =1972, ) =((((((((((((((( F(1972) là 𝒜1 có giá trị ngôn ngữ là “not

many”.

Bước 5- Xác định các quan hệ mờ

Mối quan hệ được xác định từ dữ liệu lịch sử đã được mờ hóa. Nếu biến chuỗi thời gian ((((((((((((((( − 1) được mờ hóa thành 𝒜𝒜 và ) ((((((((((((((( là 𝒜𝒜, thì mối quan hệ giữa 𝒜𝒜với 𝒜𝒜 được biểu diễn là 𝒜𝒜 → 𝒜𝒜, Trong đó 𝒜𝒜 là trạng thái tuyển sinh hiện tại và 𝒜𝒜 là trạng thái tuyển sinh tương lai. Các quan hệ mờ áp dụng trên tập dữ liệu tuyển sinh như sau: 𝒜1 → 1; 𝒜1 → 𝒜2; 𝒜2 → 𝒜3; 𝒜3 → 𝒜3; 𝒜3 → 𝒜4; 𝒜4 → 𝒜4; 𝒜4 → 𝒜3; 𝒜4

→

𝒜6; 𝒜6 → 6; 𝒜6 → 7; 𝒜7 → 7; 𝒜7 → 6.

Bước 6- Thiết lập nhóm quan hệ mờ

Các QHM có cùng thành phần vế trái có thể gộp các thành phần bên vế phải thành một NQHM. Chen [10] cho rằng các quan hệ giống nhau chỉ được tính một lần. Từ các quan hệ mờ được xác định ở Bước 5, Bảng 1.1 biểu diễn các nhóm quan hệ mờ từ tập dữ liệu tuyển sinh.

Bảng 1.1: Các nhóm quan hệ mờ từ tập dữ liệu tuyển sinh

Nhóm 1 𝒜1 → 1, 2 Nhóm 2 𝒜2 → 3 Nhóm 3 𝒜3 → 3, 4 Nhóm 4 𝒜4 → 4, 3, 6 Nhóm 5 𝒜6 → 6, 𝒜7 Nhóm 6 𝒜7 → 7, 𝒜6 Nhóm 7 𝒜6 → #

Bước 7- Giải mờ và tính toán giá trị đầu ra dự báo

Giả sử chuỗi dữ liệu tại thời điểm − 1) ((((((((((((((( được mờ hóa bởi các tập mờ 𝒜𝒜. Đầu ra dự báo của ((((((((((((((() được xác định bởi các quy tắc sau đây:

1) Nếu tồn tại các quan hệ một - một trong nhóm quan hệ mờ của 𝒜𝒜 có dạng là 𝒜𝒜 → 𝒜𝒜1, thì giá trị dự báo là 𝒜𝒜𝒜𝒜𝒜𝒜𝒜𝒜𝒜𝒜 = 𝒜𝒜1. Trong đó 𝒜𝒜1 là điểm giữa của khoảng 𝒜𝒜1

2) Nếu tồn tại một quan hệ rỗng trong nhóm quan hệ mờ 𝒜𝒜 có dạng là 𝒜𝒜 →

∅, và 𝒜𝒜 có mức độ thuộc cao nhất tại khoảng 𝒜𝒜, thì giá trị dự báo là điểm giữa của 𝒜𝒜.

3) Nếu tồn tại các quan hệ một - nhiều trong nhóm quan hệ mờ của 𝒜𝒜 , có

dạng là 𝒜𝒜 → 𝒜𝒜1 , 𝒜𝒜2,…, 𝒜𝒜𝒜, và mức độ thuộc cao nhất của 𝒜𝒜𝒜 xảy ra tại

khoảng các khoảng ��tương ứng, thì đầu ra dự báo được tính bằng trung

∑� ��

bình các điểm giữa �𝒜𝒜 của 𝒜𝒜𝒜 là: ��  𝒜=1 .

𝒜

Hình 1.8: Tóm tắt các bước thực hiện mô hình dự báo của Chen [10] trên tập dữ liệu tuyển sinh của trường Đại học Alabama

1.2.4.3 Mô hình dự báo của Yu [13]

Dựa trên cấu trúc mô hình của Chen [10], Yu đề xuất mô hình chuỗi thời gian mờ mới bằng việc tính đến các quan hệ lặp lại trong quá trình thiết lập nhóm quan hệ mờ. Yu cho rằng việc bỏ qua các quan hệ mờ lặp lại trong công trình [10] dẫn đến thiếu thông tin để dự báo và do đó kết quả thu được không được tốt. Ngoài ra việc coi mỗi quan hệ mờ có tầm quan trọng ngang nhau là không phù hợp. Vì vậy trong nhóm quan hệ mờ đề xuất của Yu tính cả các tập mờ trùng nhau bên vế phải của nhóm quan hệ mờ. Các tập mờ bên vế phải của nhóm sẽ được gán với trọng số khác nhau theo vị trí xuất hiện. Việc xét đến tính chất lặp lại của các quan hệ mờ được xem như là cải tiến thứ hai về NQHM trong việc xây dựng mô hình dự báo chuỗi thời gian. Dựa trên quan điểm này, Yu đã cải tiến Bước 6 và Bước 7 trong mô hình của Chen. Mô hình của Yu trong đa số các trường hợp cho độ chính xác dự báo cao hơn các mô hình của Song [8 ] và Chen [10]. Các bước trong mô hình chuỗi thời gian mờ bậc nhất của Yu đưa ra như sau.

Giả sử ((((((((((((((() là giá trị lịch sử của chuỗi thời gian ) ((((((((((((((( ở tại thời điểm t, khi đó, tập nền được xác định bởi U = [𝒜𝒜 𝒜𝒜, 𝒜𝒜𝒜𝒜 ] = [[[[[[[[[[[[[[[ 𝒜𝒜𝒜 − 1, 𝒜𝒜𝒜 + 2], trong đó, 𝒜𝒜𝒜𝒜, 𝒜𝒜𝒜𝒜, 𝒜1, 𝒜2 là các giá trị được xác định giống như mô hình của Chen.

Bước 2- Chia tập nền U thành một số khoảng có độ dài bằng nhau

Chia tập nền U thành k khoảng với độ dài bằng nhau, 𝒜 = 𝒜𝒜𝒜𝒜−−−−−−−−−−−−−−− 𝒜 𝒜𝒜. Các

𝒜

khoảng được xác định là 𝒜𝒜 = (((((((((((((( (𝒜𝒜𝒜 + − 1) ∗ (((((((((((((( ( 𝒜, 𝒜𝒜𝒜𝒜 + ∗ 𝒜], với 1 ≤ 𝒜 ≤ 𝒜. Điểm giữa 𝒜𝒜 của mỗi khoảng 𝒜𝒜 được tính như sau: 𝒜𝒜 = [[[[[[[[[[[[[[[𝒜𝒜𝒜 +

− 1) ∗ ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( + 𝒜𝒜𝒜𝒜 + ∗ ] / 2.

Bước 3- Xác định các tập mờ trên các khoảng đã chia cho các quan sát.

Mỗi một khoảng trong Bước 2 được xác định bởi một giá trị ngôn ngữ được biểu diễn thông qua tập mờ 𝒜𝒜 .

Bước 4- Mờ hoá tất cả các giá trị quan sát của chuỗi thời gian

Bước 5- Xác định các quan hệ mờ, giống như mô hình trong công trình [10] Bước 6- Thiết lập các nhóm quan hệ mờ

Để thiết lập nhóm quan hệ mờ, Yu xét đến cả các quan hệ lặp lại và nhóm chúng theo vị trí xuất hiện. Thí dụ nếu có các quan hệ mờ sau: 𝒜𝒜 →𝒜𝒜1, 𝒜𝒜 →

𝒜𝒜2

,𝒜𝒜 →𝒜𝒜1, thì các quan hệ này được nhóm thành một nhóm là 𝒜𝒜 →𝒜𝒜1, 𝒜𝒜2, 𝒜𝒜1.

Bước 7- Giải mờ và tính toán giá trị đầu ra dự báo

Trường hợp 1: Nếu tồn tại các quan hệ một - một trong nhóm quan hệ mờ của 𝒜𝒜 là 𝒜𝒜 → 𝒜𝒜1, giá trị dự báo là điểm giữa của khoảng 𝒜𝒜1: = 𝒜 𝒜1

Trường hợp 2: Nếu tồn tại một quan hệ rỗng trong nhóm quan hệ mờ 𝒜𝒜 , có dạng là 𝒜𝒜 → ∅, và 𝒜𝒜 có mức độ thuộc cao nhất tại khoảng 𝒜𝒜, thì đầu ra dự báo

là điểm giữa của uj.

Trường hợp 3: Tồn tại các quan hệ một - nhiều trong nhóm quan hệ mờ có dạng 𝒜𝒜 → 𝒜1, 𝒜2, … , 𝒜𝒜. Khi đó giá trị dự báo 𝒜𝒜 được tính theo công thức (1.7).

Forecasted = 1××××××××××××××× 𝒜1+2×××××××××××××× ×𝒜2+.+×+×+×+×+×+×+×+×+×+×+×+×+×+×+×+++++++1+2+...+++++++ 𝒜𝒜 +

Trong 𝒜𝒜1 , 𝒜𝒜2,...𝒜𝒜𝒜 là điểm giữa của các khoảng 𝒜𝒜1 , 𝒜𝒜2,...𝒜𝒜𝒜,

tương ứng với các tập mờ bên vế phải của nhóm và các trọng số được gán theo thứ tự xuất hiện của tập mờ bên vế phải của nhóm.

Ba mô hình này được xem là các mô hình nền tảng và tiên phong trong lĩnh vực dự báo chuỗi thời gian mờ dựa trên quan hệ và nhóm quan hệ mờ. Mặc dù đã khẳng định được tính vượt trội so với các mô hình dự báo truyền thống. Tuy nhiên vẫn còn tồn tại một số hạn chế như được liệt kê trong Bảng 1.2.

Bảng 1.2: Một số hạn chế của các mô hình dự báo sử dụng quan hệ mờ

Song [8]

-Dùng ma trận quan hệ, bằng các phép max- min -Dự báo tuyển sinh

- Mất nhiều thời gian tính toán, khi ma trận quan hệ mờ lớn

- Thiếu thuyết phục trong việc xác định độ dài khoảng -Độ chính xác chưa cao Chen [10] -Dùng nhóm quan hệ mờ, các phép tính số học đơn giản.

-Dự báo tuyển sinh

- Không tính đến quan hệ lặp lại dẫn đến mất mát thông tin

-Xem các quan hệ có tầm quan trọng ngang nhau trong nhóm

- Thiếu thuyết phục trong việc xác định độ dài khoảng Yu [13] - Dùng nhóm quan hệ, tính đến quan hệ lặp lại - Gán các trọng số trong quá trình giải mờ.

- Dự báo tuyển sinh và thị trường chứng khoán

- Không xem xét đến thứ tự xuất hiện của các quan hệ mờ dẫn đến không phù hợp và đáp ứng được tính thực tiễn trong quá trình dự báo. -Thiếu thuyết phục trong việc xác định độ dài khoảng

1.2.5. Tiêu chuẩn đánh giá độ chính xác của các mô hình dự báo

Đã có rất nhiều tiêu chuẩn được sử dụng trong các công trình nghiên cứu khác nhau [9 - 37] để đánh giá mức độ chính xác và hiệu quả dự báo của các mô hình chuỗi thời gian đã xây dựng. Giả sử cho chuỗi thời gian �(�) gồm n dữ liệu quan sát và

{��}, {�𝒜} là giá trị dự báo được và giá trị thực tế ở tại thời điểm t. Khi đó tiêu chuẩn đánh giá cho mô hình dự báo chuỗi thời gian mờ bậc m được xác định theo