Các phương pháp phân khoảng đề xuất

Mục này trình bày hai phương pháp phân khoảng dựa trên thuật toán K- means và HA để phân dữ liệu chuỗi thời gian thành các khoảng với độ dài khác nhau nhằm khắc phục các hạn chế của các phương pháp phân khoảng có độ dài bằng nhau. Đồng thời trong mục này cũng trình bày sự kết hợp giữa hai phương pháp phân cụm trên với mô hình dự báo một nhân tố FTS-1NT trong Mục 2.2.1 để

hình thành mô hình dự báo chuỗi thời gian mờ như Hình 2.9 dưới đây. Từ đó, luận án đưa ra các so sánh, đánh giá giữa hai phương pháp phân khoảng này với một số phương pháp phân khoảng khác được thể hiện trong Mục 2.4.4.

Hình 2.9: Các phương pháp phân khoảng khác nhau kết hợp với mô hình FTS-1NT 2.3.3.1 Phân khoảng sử dụng phân cụm K-means

Tiểu mục này thuật toán phân cụm K-means được kết hợp với mô hình dự báo FTS một nhân tố đề xuất trong Mục 2.2.1 (Đặt tên là mô hình dự báo KM-FTS-

1NT), trong đó K-Means được sử dụng để tìm các tâm cụm và từ đó xác định các

khoảng phân chia tập nền. Từ các khoảng thu được bởi K-means, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 của mô hình FTS-1NT trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây và đảm bảo số lượng khoảng không quá lớn hay quá nhỏ thì mô hình KM-FTS-1NT đưa ra số cụm ban đầu lần lượt là 7 và 14. Nội dung của đề xuất này được công bố trong công trình [P7]. Các bước phân khoảng tập nền dựa vào phân cụm K-means được thược hiện như sau:

Bước 1- Áp dụng K-means với số cụm C cho trước là 7 và 14 thu được giá trị của

các cụm như Bảng 2.16:

Bảng 2.16: Kết quả phân cụm trên tập dữ liệu tuyển sinh sử dụng K-means

C = 7 cụm C = 14 cụm 𝒜1 = {13055, 13563}; 𝒜1 = {13055}; 𝒜2 = {13563, 13867}; 𝒜2 = {13867} 𝒜3 = {14696, 15145, 15163};𝒜4 = 𝒜 = {14696, 15145, 15163}3 {15311};15497};𝒜 6= 𝒜5{15603};𝒜= {15433, 15460,7 = {15861, 𝒜4 = {15460, 15311, 15603, 15433, 15497} 15984}; 𝒜8 = {16388}; 𝒜9 = 𝒜5 = {15861, 16388, 15984} {16807};𝒜10 = {16859}; 𝒜11 𝒜6 = {16807, 16919, 16859} ={16919};𝒜12 = 𝒜7 = {18150, 18970, 19328, 19337, 18876} {18150}; 𝒜13={18970, 18876}; 𝒜14 = {19337, 19328}

Ngoài ra, số lượng cụm có thể được chọn bất kỳ sao cho không vượt quá tổng số lượng dữ liệu trong chuỗi thời gian.

Bước 2- Điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau

 Tính tâm của mỗi cụm theo công thức (2.9) 𝒜

v = ∑𝒜=1 𝒜𝒜

Trong đó, 𝒜𝒜 là dữ liệu thứ i trong cụm k.

Dựa vào các tâm cụm thu được, luận án đưa ra các quy tắc sau đây để điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau.

 Giả sử 𝒜𝒜 và 𝒜𝒜+1 (1 ≤ k ≤ C-1) là hai tâm cụm liên tiếp và mỗi cụm 𝒜 𝒜𝒜𝒜𝒜𝒜𝒜𝒜 được gán thành các khoảng 𝒜𝒜 𝒜𝒜𝒜𝒜𝒜 𝒜𝒜, sau đó cận trên và cận dưới của khoảng thứ k tương ứng là _______________ 𝒜 , _______________𝒜+1 được xác theo các công thức (2.10) và (2.11) như sau:

_______________ = vk+ vk+1

𝒜 2

_______________𝒜+1= _______________𝒜

Hai giá trị thuộc cận dưới của khoảng đầu tiên và cận trên của khoảng cuối cùng được tính theo các công thức (2.12) và (2.13) như sau:

_______________1= 𝒜1 (_ (_(_(_(_(_(_(_(_(_(_(_(_(_(_− 1 − 1) (2.12)

_______________𝒜 = 𝒜𝒜 + (((((((((((((( (𝒜 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _− 𝒜 ) (2.13) Dựa trên các quy tắc này, ta thu được các khoảng tương ứng với các cụm

trong Bảng 2.16 và được liệt kê trong Bảng 2.17. Để thấy rõ sự chênh lệch về độ dài trên mỗi khoảng có thể biểu diễn các khoảng như Hình 2.10 dưới đây:

Bảng 2.17: Giá trị của các khoảng từ tập dữ liệu tuyển sinh sử dụng K-means 7 Khoảng (𝒜1, ..., 𝒜7) 14 Khoảng (𝒜1, ..., 𝒜14) 𝒜1 = (13030, 13588] 𝒜1 = (12725, 13385] 𝒜2 = (13588, 14434] 𝒜2 = (13385, 14358] 𝒜3 = (14434, 15231] 𝒜3 = (14358, 15156] 𝒜4 = (15231, 15770] --- 𝒜5 = (15770, 16470] 𝒜12 = (17534.5, 18536.5] 𝒜6 = (16470, 17897] 𝒜13 = (18536.5, 19127.5] 𝒜7 = (17897, 19967] 𝒜14 = (19127.5, 19536.5]

Hình 2.10: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng K-means 2.3.3.2 Phân khoảng sử dụng Đại số gia tử

thích từng bước phân khoảng cũng như việc thử nghiệm cho mô hình, luận án tiếp tục sử dụng tập dữ liệu truyển sinh đại học Alabama [8]. Trước tiên, HA được áp dụng để phân tập dữ liệu tuyển sinh thành các khoảng liền kề với độ dài khác nhau bằng việc ánh xạ định lượng các hạng từ ngôn ngữ thành các khoảng mờ. Sau đó, dựa vào các khoảng thu được từ HA, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây, mô hình HA-FTS-1NT cũng đưa ra số khoảng ban đầu lần lượt là 7 và 14, tương ứng với số hạng từ ngôn ngữ trong HA. Nội dung của đóng góp này được công bố trong công trình [P5, P8]. Các bước chia khoảng tập nền dựa vào HA được thược hiện như sau:

Bước 1- Xác định tập nền của chuỗi dữ liệu quan sát

Tập nền được xác đinh giống như Bước 1 của mô hình FTS-1NT trong Mục 2.2.1 là U = [𝒜𝒜 𝒜𝒜– 𝒜1, 𝒜𝒜𝒜𝒜+ 𝒜2] = [13000, 20000]. Trong đó 𝒜𝒜𝒜𝒜=13055, 𝒜𝒜𝒜𝒜

= 19337 và 𝒜1= 55, 𝒜2 = 663.

Bước 2- Chia tập nền U thành k khoảng khác nhau

Cho cấu trúc của HA như sau: 𝒜𝒜 = (𝒜, 𝒜, 𝒜, 𝒜, ≤) với X là tập các hạng từ của biến ngôn ngữ “enrollment” {X = dom(enrollments); G = {{{{{{{{{{{{{{{ 𝒜

−, 𝒜+} = {Low, High}, Low (Lo) ≤ High (Hi) là tập các phần tử sinh; Tập các hằng C =

{0, 1, W}, hai gia tử là H = {Very, Little}. Để so sánh kết quả dự báo của mô hình đề xuất với các mô hình khác. Luận án sử dụng số khoảng chia bằng với số lượng hạng từ ngôn ngữ để định tính các giá trị quan sát. Cụ thể, xuất phát từ số lượng hạng từ ngôn ngữ cho trước là 7 và 14 trong Bảng 2.18, luận án xác định được số khoảng k tương ứng là 7 và 14 khoảng. Quá trình tính toán giá trị của mỗi khoảng chia được thực hiện bằng các Bước 2.1 đến Bước 2.3 như sau:

Bảng 2.18: Số lượng hạng từ ngôn ngữ

Số hạng từ Thứ tự của các hạng từ

7 𝒜1= Very Very Low (VVLo) < 𝒜2= Little Verry Low (LVLo) < 𝒜3= Little Little Low (LLLo) < 𝒜4=Very Little Low (VLLo) <𝒜5 =Very Little High (VLHi) < 𝒜6= Little Little High (LLHi) < 𝒜7= Very High (Vhi)

14 𝒜1 = VVLo < 𝒜2 = LLVLo < 𝒜3 = < 𝒜4 = Lo < 𝒜5 = < 𝒜6 = <𝒜7 = < 𝒜8 =

< 𝒜9 = < 𝒜10 = < 𝒜11 = < 𝒜12 = 𝒜𝒜𝒜𝒜𝒜 < 𝒜13 = < 14 =

Các bước này, sử dụng 7 khoảng chia để minh họa chi tiết cho việc xác định khoảng mờ dựa trên HA như sau:

Bước 2.1- Miền trị tham chiếu U = [13000, 20000] được ánh xạ sang miền [0, 1] Giả sử trong tập dữ liệu lịch sử chọn giá trị 16807 là giá trị trung bình khi đó khoảng tính mờ của các phần tử sinh được thiết lập là fm(low) = 16807−13000 =

20000−13000

0.544, fm(high) = 1 − 0.544 = 0.456.

Từ đây, có thể tính được khoảng mờ của các từ ngôn ngữ trên miền [0,1] là: ((((((((((((((() = 0.1471, )((((((((((((((( = 0.1358, )((((((((((((((( = 0.1253, )((((((((((((((( = 0.1358, )((((((((((((((( =

0.11138, ) ((((((((((((((( = 0.1051, ) ((((((((((((((( = 0.2371.

Bước 2.2- Ánh xạ ngược lại miền U

Giả sử gọi ) ((((((((((((((( là độ rộng của hai phần tử sinh Low và High là: ) = ) ∗ = 0.544 ∗ 7000 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( = 3808 và ℎ) c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( c ( = ℎ) ∗ = 0.456 ∗ 7000 = 3192 ( ( ( ( ( ( ( ( ( ( ( ( ( (

( , trong đó độ dài của miền U ký hiệu là

LU = 20000-13000 =7000.

Bước 2.3- Xác định khoảng mờ của nhãn ngôn ngữ

Chọn độ đo tính mờ của các gia tử âm và gia tử dương tương ứng là 𝒜(𝒜𝒜𝒜𝒜𝒜𝒜) = 0.48 và 𝒜(𝒜𝒜𝒜𝒜) = 1 − (𝒜𝒜𝒜𝒜𝒜𝒜) = 0.52.

Kết hợp Bước 2.2, có thể tính được giá trị cho các hạng từ thuộc vào các khoảng mờ như sau:

(((((((((((((((1) = µ(Verry) x µ(Very) x 𝒜𝒜𝒜𝒜𝒜 (Lo) = 0.52*0.52*3808 = 1029.683;

(((((((((((((((2) = µ(𝒜𝒜𝒜𝒜𝒜𝒜) x µ(Very) x 𝒜𝒜𝒜𝒜𝒜 (Lo) = 0.48*0.52*3808 = 950.477;

(((((((((((((((3) = µ(𝒜𝒜𝒜𝒜𝒜𝒜) x µ(𝒜𝒜𝒜𝒜𝒜𝒜) x covfm(Lo) = 0.48*0.48*3808 = 479.36; ;

(((((((((((((((7) = µ(Very) x covfm(Hi) = 0.52*3192 = 1659.84

Ánh xạ các giá trị ngôn ngữ này sang miền thực U, đạt được 7 khoảng chia trên miền thực U như sau:

𝒜1= [13000, 14029.68), 𝒜2= [14029.68, 14980) , 𝒜3= [14980, 15858), 𝒜4= [15858, 16808), 𝒜5= [16808, 17605), 𝒜6= [17605, 18340), 𝒜7= [18340, 20000]

Thực hiện tương tự các bước trên đối với số hạng từ là 14, đưa ra được 14 khoảng chia trong tập nền U như sau:

𝒜1= [13000, 13539.5), 𝒜2= [13539.5, 14079) , 𝒜3= [14079, 14438.5), 𝒜4= [14438.5, 14798), 𝒜5= [14798, 15157.5), 𝒜6= [15157.5, 15517), 𝒜7= [15517, 15756.5), 𝒜8= [15756.5, 15996), 𝒜9= [15996, 16316.5) , 𝒜10= [16316.5, 16637), 𝒜11= [16637, 17117.5), 𝒜12= [17117.5, 17598), 𝒜13= [17598, 18799), 𝒜14= [18799, 20000].

Hình 2.11: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng HA 2.4. Tổ chức thực nghiệm và so sánh đánh giá cho các mô hình FTS đề xuất và

các phương pháp phân khoảng

Mục này thảo luận về một số kết quả thực nghiệm đạt được từ tập dữ liệu huấn luyện và dữ liệu kiểm thử. Trên cơ sở so sánh và đánh giá hiệu quả dự báo của hai mô hình dự báo đề xuất đã được trình bày trong các Tiểu mục 2.2.1 và 2.2.2 với các mô hình dự báo trước đây trên cùng tập dữ liệu và cùng tiêu chí đánh giá. Tiếp theo, để chứng minh sự ảnh hưởng của các phương pháp phân khoảng đến mô hình dự báo được đề xuất. Mục này cũng đánh giá, so sánh giữa các phương pháp phân khoảng khác nhau với hai phương pháp phân khoảng được đề xuất trong Tiểu mục 2.3.3 trên cùng mô hình dự báo đề xuất. Đồng thời cũng so sánh giữa mô hình đề xuất với các mô hình dự báo khác. Để có được các kết quả này, luận án đã xây dựng thành công phần mềm mô phỏng trên các tập dữ liệu khác nhau sử dụng hệ điều hành Window 10 với ngôn ngữ C# chạy trên máy tính Intel Core i7 PC, 8GB RAM. Một số kết quả cũng được thể hiện trực quan trên các hình vẽ bằng việc sử dụng công cụ Python, Matlab 2016 và Excel.

2.4.1. Mô tả dữ liệu

Mô hình đề xuất được áp dụng để dự báo trên ba tập dữ liệu thường được sử dụng để chứng minh tính hợp lệ và hiệu quả dự báo của các mô hình FTS. Các đặc điểm thống kê của ba chuỗi thời gian này được thể hiện như sau:

 Chuỗi dữ liệu về số lượng sinh viên nhập học tại trường đại học Alabama. Chuỗi này bao gồm 22 quan sát với toàn bộ dữ liệu từ giai đoạn 1971 đến 1992 được tham chiếu trong tài liệu [8]. Chuỗi dữ liệu này đã được sử dụng để kiểm chứng bởi số lượng lớn các công trình nghiên cứu trong các bài báo [ 9-12, 51, 52]. Một số kết quả thu được trong số các công trình này được lựa chọn để so sánh với mô hình được đề xuất trong luận án.

 Chuỗi dữ liệu về thị trường chứng khoán Đài Loan TAIFEX [54] bao gồm 47 quan sát với toàn bộ dữ liệu từ giai đoạn 03/8/1998 đến 30/9/1998. Nhiều tác giả

trong các công trình [13, 32, 57] cũng áp dụng chuỗi số liệu này để thử nghiệm và so sánh với các công trình nghiên cứu khác. Trong số các kết quả đạt được từ các công trình này cũng được tham chiếu để so sánh với kết quả nhận được từ mô hình đề xuất trên cả hai giai đoạn huấn luyện và kiểm thử.

 Chuỗi dữ liệu về nhiệt độ trung bình hàng ngày tại Đài Bắc, Đài Loan

[54] bao gồm các quan sát hàng ngày theo từng tháng từ ngày 01/06/1996 tới ngày 30/09/1996. Toàn bộ dữ liệu lịch sử của chuỗi này gồm hai nhân tố về nhiệt độ trung bình và mật độ của mây. Trong đó; nhân tố “mật độ của mây” được gọi là nhân tố thứ hai dùng để dự báo cho nhân tố chính “nhiệt độ trung bình”. Chuỗi này cũng được đông đảo các nghiên cứu tham chiếu và sử dụng [34, 35, 40, 57]. Một trong số kết quả thu được từ các công trình này cũng được lựa chọn để so sánh với mô hình được đề xuất.

2.4.2. Kết quả thực nghiệm của mô hình FTS một nhân tố (FTS-1NT)

2.4.2.1 Kết quả thực nghiệm của mô hình FTS-1NT trên tập dữ liệu tuyển sinh

 So sánh đánh giá dựa trên quan hệ mờ bậc 1 (QHM bậc 1)

Để đánh giá hiệu quả của mô hình đề xuất FTS-1NT dựa trên QHM bậc 1 với số khoảng chia bằng 7, kết quả dự báo thu được trong Bảng 2.6 tại Mục 2.2.1 được đưa ra so sánh với các mô hình có tên như: Song & Chissom [8], Chen [10], Cheng và công sự [55], Sullivan và công sự [83] và Lee và cộng sự [47]. Cũng giống như mô hình được xuất, các mô hình so sánh này được xây dựng bằng cách sử dụng quan hệ mờ và chưa kết hợp với bất kỳ một kỹ thuật nào khác trong việc nâng cao hiệu quả dự báo. Kết quả so sánh về sai số dự báo MSE (1.18) giữa mô hình FTS-1NT và các mô hình so sánh được liệt kê trong Bảng 2.19.

Bảng 2.19: So sánh sai số dự báo MSE giữa mô hình FTS-1NT với các mô hình khác trên cùng 7 khoảng. Mô hình Song & Chissom [8] Cheng [55] Chen [10] Lee [47] Sullivan [83] FTS-1NT MSE 423027 446762 407507 397537 386055 267436

Từ Bảng 2.19 nhận thấy rằng, mô hình dự báo FTS-1NT đưa ra sai số dự báo nhỏ hơn các mô hình so sánh. Đặc biệt khi so sánh với hai mô hình nền tảng [8, 10] được sử dụng rộng rãi nhất cho đến nay, thì mô hình đề xuất FTS-1NT cho kết quả

dự báo vượt trội hơn.

Hơn nữa, mô hình FTS-1NT cũng được so sánh với các mô hình trong các công trình [11, 20, 21, 26] với số khoảng bằng 14. Kết quả và sai số dự báo được biểu diễn trong Bảng 2.20. Trong đó, cột thứ 2 thể hiện dữ liệu thực tế tương ứng với từng

năm, các cột còn lại là kết quả dự báo của các mô hình được lựa chọn để so sánh trong giai đoạn huấn luyện.

Bảng 2.20: Kết quả và sai số dự báo giữa mô hình FTS-1NT với các mô hình khác trên cùng 14 khoảng Năm DL thực [11] [ 26] [21] [20] FTS-1NT 1971 13055 -- - - -- 1972 13563 14000 13944 14279 14003 13750 1973 13867 14000 13944 14279 14003 13750 1991 19337 19500 18933 19257 19207 19250 1992 18876 19149 18933 19257 19207 18916.7 MSE 226611 256036 198203 150007.7 75076.7

Quan sát các kết quả dự báo trong Bảng 2.20 cho thấy, mô hình FTS-1NT

đưa ra các giá trị dự báo sát với dữ liệu thực hơn so với các mô hình so sánh. Đánh giá về sai số dự báo, thấy rằng mô hình FTS-1NT có giá trị MSE = 75076.7 nhỏ nhất trong số các mô hình so sánh dựa trên QHM bậc 1 với số khoảng chia bằng 14.

Tất cả các mô hình so sánh ở các Bảng 2.19 và Bảng 2.20 trên đều sử dụng quan hệ mờ để thiết lập các mô hình riêng của chúng. Tuy nhiên để có được kết quả và sai số dự báo tốt hơn so với các mô hình so sánh ở trên, mô hình đề xuất FTS- 1NT đã sử dụng khái niệm về NQHM-PTTG và quy tắc giải mờ có trọng để thiết

lập mô hình. Việc thiết lập NQHM-PTTG trong mô hình dự báo khiến số lượng luật và các thông tin tham gia dự báo được đầy đủ hơn. Đặc biệt, xem xét đến thứ tự xuất hiện của các tập mờ trong nhóm quan hệ mờ và phản ánh đúng tính thực tiễn hơn. Trong khi, Song & Chissom [8] sử dụng các phép toán max -min phức tạp để tính toán đầu ra dự báo, các mô hình còn lại sử dụng nhóm quan hệ mờ của Chen [10] để thiết lập và tính toán đầu ra dự báo. Các mô hình sử dụng nhóm quan hệ mờ của Chen do không xét đến các quan hệ lặp lại nên bị thiếu thông tin để dự báo. Một nhược điểm khác trong các mô hình so sánh là coi các quan hệ có tầm quan trọng như nhau, nên không đánh giá được hết xu thế biến động của dữ liệu chuỗi thời gian.

 So sánh đánh giá dựa trên quan hệ mờ bậc cao (QHM bậc cao)

Để chứng minh tính ưu việt của mô hình đề xuất FTS-1NT dựa trên QHM bậc cao, bốn mô hình chuỗi thời gian mờ bậc cao có tên là Hwang [84], C02 [48],

Giai đoạn kiểm thử (Giai đoạn dự báo)

Mô hình dự báo của Song và Chissom [8,9]