Phân khoảng sử dụng phân cụm K-means

Tiểu mục này thuật toán phân cụm K-means được kết hợp với mô hình dự báo FTS một nhân tố đề xuất trong Mục 2.2.1 (Đặt tên là mô hình dự báo KM-FTS- 1NT), trong đó K-Means được sử dụng để tìm các tâm cụm và từ đó xác định các khoảng phân chia tập nền. Từ các khoảng thu được bởi K-means, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 của mô hình FTS-1NT trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây và đảm bảo số lượng khoảng không quá lớn hay quá nhỏ thì mô hình KM-FTS-1NT đưa ra số cụm ban đầu lần lượt là 7 và 14. Nội dung của đề xuất này được công bố trong công trình [P7]. Các bước phân khoảng tập nền dựa vào phân cụm K-means được thược hiện như sau:

Bước 1- Áp dụng K-means với số cụm C cho trước là 7 và 14 thu được giá trị của các cụm như Bảng 2.16:

Bảng 2.16: Kết quả phân cụm trên tập dữ liệu tuyển sinh sử dụng K-means

C = 7 cụm = {13055, 13563}; 1 2= {13867} 3= {14696, 15145, 15163} 4= {15460, 15311, 15603, 15433, 15497} 5= {15861, 16388, 15984} 6= {16807, 16919, 16859} = {18150, 18970, 19328, 19337, 18876} 7 = {19337, 19328}

Ngoài ra, số lượng cụm có thể được chọn bất kỳ sao cho không vượt quá tổng số lượng dữ liệu trong chuỗi thời gian.

Bước 2- Điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau

✓ Tính tâm của mỗi cụm theo công thức (2.9)

69 Trong đó, là dữ liệu thứ i trong cụm k.

Dựa vào các tâm cụm thu được, luận án đưa ra các quy tắc sau đây để điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau.

✓ Giả sử và +1 (1 ≤ k ≤ C-1) là hai tâm cụm liên tiếp và mỗi cụm được gán thành các khoảng , sau đó cận trên và cận dưới của khoảng thứ k tương ứng là _ , _ +1 được xác theo các công thức (2.10) và (2.11) như sau:

_ =vk+ vk+1

_ +1= _

Hai giá trị thuộc cận dưới của khoảng đầu tiên và cận cùng được tính theo các công thức (2.12) và (2.13) như sau:

_ 1= 1 − ( _ 1− 1)

(2.10) (2.11) trên của khoảng cuối

(2.12)

_=+( −_)

Dựa trên các quy tắc này, ta thu được các khoảng tương ứng với các cụm trong Bảng 2.16 và được liệt kê trong Bảng 2.17. Để thấy rõ sự chênh lệch về độ dài trên mỗi khoảng có thể biểu diễn các khoảng như Hình 2.10 dưới đây:

Bảng 2.17: Giá trị của các khoảng từ tập dữ liệu tuyển sinh sử dụng K-means

Hình 2.10: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng K- means 2.3.3.2 Phân khoảng sử dụng Đại số gia tử

Tương tự như K-means, HA cũng được kết hợp với mô hình dự báo một nhân tố FTS-1NT để hình thành một mô hình lai được viết tắt là HA-FTS-1NT. Để giải

thích từng bước phân khoảng cũng như việc thử nghiệm cho mô hình, luận án tiếp tục sử dụng tập dữ liệu truyển sinh đại học Alabama [8]. Trước tiên, HA được áp dụng để phân tập dữ liệu tuyển sinh thành các khoảng liền kề với độ dài khác nhau bằng việc ánh xạ định lượng các hạng từ ngôn ngữ thành các khoảng mờ. Sau đó, dựa vào các khoảng thu được từ HA, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây, mô hình HA-FTS-1NT cũng đưa ra số khoảng ban đầu lần lượt là 7 và 14, tương ứng với số hạng từ ngôn ngữ trong HA. Nội dung của đóng góp này được công bố trong công trình [P5, P8]. Các bước chia khoảng tập nền dựa vào HA được thược hiện như sau: Bước 1- Xác định tập nền của chuỗi dữ liệu quan sát

Tập nền được xác đinh giống như Bước 1 của mô hình FTS-1NT trong Mục 2.2.1 là U = [ – 1, + 2] = [13000, 20000]. Trong đó =13055, = 19337 và 1= 55, 2 = 663.

Bước 2- Chia tập nền U thành k khoảng khác nhau

Cho cấu trúc của HA như sau: = ( , , , , ≤) với X là tập các hạng từ của biến ngôn ngữ

“enrollment” {X = dom(enrollments); G = { −, +} ={Low, High}, Low (Lo) ≤ High (Hi) là tập

các phần tử sinh; Tập các hằng C = {0, 1, W}, haigia tử là H ={Very, Little}. Để so sánh kết quả dự báo của mô hình đề xuất với các mô hình khác. Luận án sử dụng số khoảng chia bằng với số lượng hạng từ ngôn ngữ để định tính các giá trị quan sát. Cụ thể, xuất phát từ số lượng hạng từ ngôn ngữ cho trước là 7 và 14 trong Bảng 2.18, luận án xác định được số khoảng k tương ứng là 7

và 14 khoảng. Quá trình tính toán giá trị của mỗi khoảng chia được thực hiện bằng các Bước 2.1

đến Bước 2.3 như sau:

Số hạng từ

7 1= Very Very Low (VVLo) < 2= Little Verry Low (LVLo)

<3= Little Little Low (LLLo) < 4=Very Little Low (VLLo)

< 5=Very Little High (VLHi) < 6= Little Little High (LLHi)

<7= Very High (Vhi)

14 1= VVLo < 2= LLVLo < 3 =< 4 =Lo

<5=<6=<7=<8=

<9=<10=<11=<12= <13= <14=

Các bước này, sử dụng 7 khoảng chia để minh họa chi tiết cho việc xác định khoảng mờ dựa trên HA như sau:

Bước 2.1- Miền trị tham chiếu U = [13000, 20000] được ánh xạ sang miền [0, 1] Giả sử trong tập dữ liệu lịch sử chọn giá trị 16807 là giá trị trung bình khi đó

khoảng tính mờ của các phần tử sinh được thiết lập là fm(low) =16807−1300020000−13000 = 0.544, fm(high) = 1 − 0.544 = 0.456.

Từ đây, có thể tính được khoảng mờ của các từ ngôn ngữ trên miền [0,1] là: ( ) = 0.1471, ( ) = 0.1358, ( ) = 0.1253, ( ) = 0.1358, ( ) = 0.11138, ( ) = 0.1051, ( ) = 0.2371.

Bước 2.2- Ánh xạ ngược lại miền U

Giả sử gọi ( ) là độ rộng của hai phần tử sinh Low và High là:

( ) = ( ) ∗ = 0.544 ∗ 7000 = 3808 và c ( ℎ) = ( ℎ) ∗ = 0.456 ∗ 7000 = 3192, trong đó độ dài của miền U ký hiệu là

LU = 20000-13000 =7000.

Bước 2.3- Xác định khoảng mờ của nhãn ngôn ngữ

Chọn độ đo tính mờ của các gia tử âm và gia tử dương tương ứng là ( ) = 0.48 và ( ) = 1 − ( ) = 0.52.

Kết hợp Bước 2.2, có thể tính được giá trị cho các hạng từ thuộc vào các khoảng mờ như sau:

( 1)= µ(Verry) x µ(Very) x (Lo) = 0.52*0.52*3808 = 1029.683; ( 2)= µ( ) x µ(Very) x (Lo) = 0.48*0.52*3808 = 950.477; ( 3)= µ( ) x µ( ) x covfm(Lo) = 0.48*0.48*3808 = 479.36;

---;

( 7)= µ(Very) x covfm(Hi) = 0.52*3192 = 1659.84

Ánh xạ các giá trị ngôn ngữ này sang miền thực U, đạt được 7 khoảng chia trên miền thực U như sau:

1= [13000, 14029.68),2= [14029.68, 14980) ,3= [14980, 15858),4= [15858, 16808),5= [16808, 17605),6= [17605, 18340),7= [18340, 20000]

Thực hiện tương tự các bước trên đối với số hạng từ là 14, đưa ra được 14 khoảng chia trong tập nền U như sau:

1= [13000, 13539.5),2= [13539.5, 14079) ,3= [14079, 14438.5),4= [14438.5, 14798),5= [14798, 15157.5),6= [15157.5, 15517),7= [15517, 15756.5),8= [15756.5, 15996),9= [15996, 16316.5) ,10= [16316.5, 16637),11= [16637, 17117.5),12= [17117.5, 17598),13= [17598, 18799),14= [18799, 20000]. Một cách trực quan có thể minh hoạ các khoảng thu được như trong Hình 2.11:

Hình 2.11: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng HA

2.4. Tô chức thực nghiệm và so sánh đánh giá cho các mô hình FTS đề xuất và các phương pháp phân khoảng

Mục này thảo luận về một số kết quả thực nghiệm đạt được từ tập dữ liệu huấn luyện và dữ liệu kiểm thử. Trên cơ sở so sánh và đánh giá hiệu quả dự báo của hai mô hình dự báo đề xuất đã được trình bày trong các Tiểu mục 2.2.1 và 2.2.2 với các mô hình dự báo trước đây trên cùng tập dữ liệu và cùng tiêu chí đánh giá. Tiếp theo, để chứng minh sự ảnh hưởng của các phương pháp phân khoảng đến mô hình dự báo được đề xuất. Mục này cũng đánh giá, so sánh giữa các phương pháp phân khoảng khác nhau với hai phương pháp phân khoảng được đề xuất trong Tiểu mục 2.3.3 trên cùng mô hình dự báo đề xuất. Đồng thời cũng so sánh giữa mô hình đề xuất với các mô hình dự báo khác. Để có được các kết quả này, luận án đã xây dựng thành công phần mềm mô phỏng trên các tập dữ liệu khác nhau sử dụng hệ điều hành Window 10 với ngôn ngữ C# chạy trên máy tính Intel Core i7 PC, 8GB RAM. Một số kết quả cũng được thể hiện trực quan trên các hình vẽ bằng việc sử dụng công cụ Python, Matlab 2016 và Excel.

2.4.1. Mô tả dữ liệu

Mô hình đề xuất được áp dụng để dự báo trên ba tập dữ liệu thường được sử dụng để chứng minh tính hợp lệ và hiệu quả dự báo của các mô hình FTS. Các đặc điểm thống kê của ba chuỗi thời gian này được thể hiện như sau:

✓ Chuỗi dữ liệu về số lượng sinh viên nhập học tại trường đại học Alabama. Chuỗi này bao gồm 22 quan sát với toàn bộ dữ liệu từ giai đoạn 1971 đến 1992 được tham chiếu trong tài liệu [8]. Chuỗi dữ liệu này đã được sử dụng để kiểm chứng bởi số lượng lớn các công trình nghiên cứu trong các bài báo [ 9-12, 51, 52]. Một số kết quả thu được trong số các công trình này được lựa chọn để so sánh với mô hình được đề xuất trong luận án.

✓ Chuỗi dữ liệu về thị trường chứng khoán Đài Loan TAIFEX [54] bao gồm

47 quan sát với toàn bộ dữ liệu từ giai đoạn 03/8/1998 đến 30/9/1998. Nhiều tác giả

trong các công trình [13, 32, 57] cũng áp dụng chuỗi số liệu này để thử nghiệm và so sánh với các công trình nghiên cứu khác. Trong số các kết quả đạt được từ các công trình này cũng được tham chiếu để so sánh với kết quả nhận được từ mô hình đề xuất trên cả hai giai đoạn huấn luyện và kiểm thử.

✓ Chuỗi dữ liệu về nhiệt độ trung bình hàng ngày tại Đài Bắc, Đài Loan

[54] bao gồm các quan sát hàng ngày theo từng tháng từ ngày 01/06/1996 tới ngày 30/09/1996. Toàn bộ dữ liệu lịch sử của chuỗi này gồm hai nhân tố về nhiệt độ trung bình và mật độ của mây. Trong đó; nhân tố “mật độ của mây” được gọi là nhân tố thứ hai dùng để dự báo cho nhân tố chính “nhiệt độ trung bình”. Chuỗi này cũng được đông đảo các nghiên cứu tham chiếu và sử dụng [34, 35, 40, 57]. Một trong số kết quả thu được từ các công trình này cũng được lựa chọn để so sánh với mô hình được đề xuất.

2.4.2. Kết quả thực nghiệm của mô hình FTS một nhân tố (FTS-1NT)

2.4.2.1 Kết quả thực nghiệm của mô hình FTS-1NT trên tập dữ liệu tuyển sinh

➢ So sánh đánh giá dựa trên quan hệ mờ bậc 1 (QHM bậc 1)

Để đánh giá hiệu quả của mô hình đề xuất FTS-1NT dựa trên QHM bậc 1 với

số khoảng chia bằng 7, kết quả dự báo thu được trong Bảng 2.6 tại Mục 2.2.1 được đưa ra so sánh với các mô hình có tên như: Song & Chissom [8], Chen [10], Cheng và công sự [55], Sullivan và công sự [83] và Lee và cộng sự [47]. Cũng giống như mô hình được xuất, các mô hình so sánh này được xây dựng bằng cách sử dụng quan hệ mờ và chưa kết hợp với bất kỳ một kỹ thuật nào khác trong việc nâng cao hiệu quả dự báo. Kết quả so sánh về sai số dự báo MSE (1.18) giữa mô hình FTS- 1NT và các mô hình so sánh được liệt kê trong Bảng 2.19.

Bảng 2.19: So sánh sai số dự báo MSE giữa mô hình FTS-1NT với các mô hình khác trên cùng 7 khoảng.

Mô hình

MSE

Từ Bảng 2.19 nhận thấy rằng, mô hình dự báo FTS-1NT đưa ra sai số dự báo nhỏ hơn các mô hình so sánh. Đặc biệt khi so sánh với hai mô hình nền tảng [8, 10] được sử dụng rộng rãi nhất cho đến nay, thì mô hình đề xuất FTS-1NT cho kết quả dự báo vượt trội hơn.

Hơn nữa, mô hình FTS-1NT cũng được so sánh với các mô hình trong các công

trình [11, 20, 21, 26] với số khoảng bằng 14. Kết quả và sai số dự báo được biểu diễn trong Bảng 2.20. Trong đó, cột thứ 2 thể hiện dữ liệu thực tế tương ứng với từng

năm, các cột còn lại là kết quả dự báo của các mô hình được lựa chọn để so sánh trong giai đoạn huấn luyện.

Bảng 2.20: Kết quả và sai số dự báo giữa mô hình FTS-1NT với các mô hình khác trên cùng 14 khoảng Năm DL thực 1971 1972 1973 --- 1991 1992 MSE

Quan sát các kết quả dự báo trong Bảng 2.20 cho thấy, mô hình FTS-1NT

đưa ra các giá trị dự báo sát với dữ liệu thực hơn so với các mô hình so sánh. Đánh giá về sai số dự báo, thấy rằng mô hình FTS-1NT có giá trị MSE = 75076.7 nhỏ nhất trong số các mô hình so sánh dựa trên QHM bậc 1 với số khoảng chia bằng 14.

Tất cả các mô hình so sánh ở các Bảng 2.19 và Bảng 2.20 trên đều sử dụng quan hệ mờ để thiết lập các mô hình riêng của chúng. Tuy nhiên để có được kết quả và sai số

dự báo tốt hơn so với các mô hình so sánh ở trên, mô hình đề xuất FTS-1NT đã sử

dụng khái niệm về NQHM-PTTG và quy tắc giải mờ có trọng để thiết lập mô hình.

Việc thiết lập NQHM-PTTG trong mô hình dự báo khiến số lượng luật và các thông tin tham gia dự báo được đầy đủ hơn. Đặc biệt, xem xét đến thứ tự xuất hiện của các tập mờ trong nhóm quan hệ mờ và phản ánh đúng tính thực tiễn hơn. Trong khi, Song & Chissom [8] sử dụng các phép toán max -min phức tạp để tính toán đầu ra dự báo, các mô hình còn lại sử dụng nhóm quan hệ mờ của Chen [10] để thiết lập và tính toán đầu ra dự báo. Các mô hình sử dụng nhóm quan hệ mờ của Chen do không xét đến các quan hệ lặp lại nên bị thiếu thông tin để dự báo. Một nhược điểm khác trong các mô hình so sánh là coi các quan hệ có tầm quan trọng như nhau, nên không đánh giá được hết xu thế biến động của dữ liệu chuỗi thời gian.

➢ So sánh đánh giá dựa trên quan hệ mờ bậc cao (QHM bậc cao)

Để chứng minh tính ưu việt của mô hình đề xuất FTS-1NT dựa trên QHM bậc cao, bốn mô hình chuỗi thời gian mờ bậc cao có tên là Hwang [84], C02 [48], S07 [62], S09 [85] được lựa chọn để so sánh. Kết quả và sai số dự báo thu được từ mô hình đề xuất FTS-1NT và các mô hình so sánh được hiển thị trong Bảng 2.21.

Bảng 2.21: Kết quả và sai dự báo MSE giữa mô hình FTS -1NT với các mô hình khác dựa trên QHM bậc cao khác nhau với số khoảng chia bằng 14.

Năm DL thực Hwang [84] S07s [62] C02 [48] S09 [85] FTS-1NT

75 1971 1972 1973 1974 1975 1976 1977 ---- 1991 1992 1993 MSE

Dựa vào kết quả trong Bảng 2.21, cho thấy mô hình đề xuất FTS-1NT đưa ra sai số dự báo với giá trị MSE = 3293.2 nhỏ hơn nhiều so với các mô hình so sánh dựa trên quan hệ mờ bậc 4 với 14 khoảng chia. Hơn nữa, mô hình cũng được mô phỏng trên từng bậc để so sánh với các mô hình bậc cao khác như mô hình C02 [48], Hwang [84], S09 [85] với số lượng khoảng chia được cố định bằng 14 khoảng. Chi tiết của kết quả so sánh dựa trên sai số MSE được đưa ra trong Bảng 2.22. Kết quả này, cũng được minh họa trực quan trên Hình 2.12 nhằm thể hiện thiên hướng dự báo tuyển sinh dựa trên các bậc khác nhau của các mô hình.

Bảng 2.22: So sánh sai số dự báo MSE của mô hình đề xuất so với các mô hình khác dựa trên QHM bậc cao với số khoảng chia bằng 14.

Mô hình Bậc 2 Hwang 333171 C02 89093 S09 119189 FTS- 51259 1NT

Hình 2.12: Biểu diễn sai số dự báo MSE giữa hình FTS-1NT với các mô hình so

Một số khái niệm về tập mờ

Mô hình dự báo của Song và Chissom [8,9]