Phân khoảng sử dụng Đại số gia tử

Tương tự như K-means, HA cũng được kết hợp với mô hình dự báo một nhân tố FTS-1NT để hình thành một mô hình lai được viết tắt là HA-FTS-1NT. Để giải

thích từng bước phân khoảng cũng như việc thử nghiệm cho mô hình, luận án tiếp tục sử dụng tập dữ liệu truyển sinh đại học Alabama [8]. Trước tiên, HA được áp dụng để phân tập dữ liệu tuyển sinh thành các khoảng liền kề với độ dài khác nhau bằng việc ánh xạ định lượng các hạng từ ngôn ngữ thành các khoảng mờ. Sau đó, dựa vào các khoảng thu được từ HA, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây, mô hình HA-FTS-1NT cũng đưa ra số khoảng ban đầu lần lượt là 7 và 14, tương ứng với số hạng từ ngôn ngữ trong HA. Nội dung của đóng góp này được công bố trong công trình [P5, P8]. Các bước chia khoảng tập nền dựa vào HA được thược hiện như sau:

Bước 1- Xác định tập nền của chuỗi dữ liệu quan sát

Tập nền được xác đinh giống như Bước 1 của mô hình FTS-1NT trong Mục 2.2.1 là U = [𝐷𝑚𝑖𝑛– 𝑁1, 𝐷𝑚𝑎𝑥+ 𝑁2] = [13000, 20000]. Trong đó 𝐷𝑚𝑖𝑛=13055, 𝐷𝑚𝑎𝑥 = 19337 và 𝑁1= 55, 𝑁2 = 663.

Bước 2- Chia tập nền U thành k khoảng khác nhau

Cho cấu trúc của HA như sau: 𝒜𝒳 = (𝑋, 𝐺, 𝐶, 𝐻, ≤) với X là tập các hạng từ của biến ngôn ngữ “enrollment” {X = dom(enrollments); G = {𝑐−, 𝑐+} = {Low,

High}, Low (Lo) ≤ High (Hi) là tập các phần tử sinh; Tập các hằng C = {0, 1, W}, hai gia tử là H = {Very, Little}. Để so sánh kết quả dự báo của mô hình đề xuất với các mô hình khác. Luận án sử dụng số khoảng chia bằng với số lượng hạng từ ngôn ngữ để định tính các giá trị quan sát. Cụ thể, xuất phát từ số lượng hạng từ ngôn ngữ cho trước là 7 và 14 trong Bảng 2.18, luận án xác định được số khoảng k tương ứng là 7 và 14 khoảng. Quá trình tính toán giá trị của mỗi khoảng chia được thực hiện bằng các Bước 2.1 đến Bước2.3 như sau:

Bảng 2.18: Số lượng hạng từ ngôn ngữ

Số hạng từ Thứ tự của các hạng từ

7 𝐴1= Very Very Low (VVLo) < 𝐴2= Little Verry Low (LVLo) < 𝐴3= Little Little Low (LLLo) < 𝐴4=Very Little Low (VLLo) <𝐴5 =Very Little High (VLHi) < 𝐴6= Little Little High (LLHi) < 𝐴7= Very High (Vhi)

14 𝐴1 = VVLo < 𝐴2 = LLVLo < 𝐴3 = 𝑉𝐿𝑉𝐿𝑜 < 𝐴4 = 𝑉𝐿𝐿Lo < 𝐴5 = 𝐿𝐿𝐿𝐿𝑜 < 𝐴6 = 𝐿𝑉𝐿𝐿𝑜 <𝐴7 = 𝑉𝑉𝐿𝐿𝑜 < 𝐴8 = 𝑉𝑉𝐿𝐻𝑖

< 𝐴9 = 𝐿𝑉𝐿𝐻𝑖 < 𝐴10 = 𝐿𝐿𝐿𝐻𝑖 < 𝐴11 = 𝑉𝐿𝐿𝐻𝑖 < 𝐴12 = 𝑉𝐿𝑉𝐻𝑖 < 𝐴13 = 𝐿𝐿𝑉𝐻𝑖 < 𝐴14 = 𝑉𝑉𝐻𝑖

Các bước này, sử dụng 7 khoảng chia để minh họa chi tiết cho việc xác định khoảng mờ dựa trên HA như sau:

Bước 2.1- Miền trị tham chiếu U = [13000, 20000] được ánh xạ sang miền [0, 1] Giả sử trong tập dữ liệu lịch sử chọn giá trị 16807 là giá trị trung bình khi đó khoảng tính mờ của các phần tử sinh được thiết lập là fm(low) = 16807−13000

20000−13000 =

0.544, fm(high) = 1 − 0.544 = 0.456.

Từ đây, có thể tính được khoảng mờ của các từ ngôn ngữ trên miền [0,1] là: 𝑓𝑚(𝑉𝑉𝐿) = 0.1471, 𝑓𝑚(𝐿𝑉𝐿) = 0.1358, 𝑓𝑚(𝐿𝐿𝐿) = 0.1253, 𝑓𝑚(𝑉𝐿𝐿) = 0.1358, 𝑓𝑚(𝑉𝐿𝐻) = 0.11138, 𝑓𝑚(𝐿𝐿𝐻) = 0.1051, 𝑓𝑚(𝑉𝐻) = 0.2371.

Bước 2.2- Ánh xạ ngược lại miền U

Giả sử gọi 𝑐𝑜𝑓𝑚(𝐺) là độ rộng của hai phần tử sinh Low và High là: 𝑐𝑜𝑓𝑚(𝐿𝑜𝑤) = 𝑓𝑚(𝐿𝑜𝑤) ∗ 𝐿𝑈 = 0.544 ∗ 7000 = 3808 và c𝑜𝑓𝑚(𝐻𝑖𝑔ℎ) = 𝑓𝑚(𝐻𝑖𝑔ℎ) ∗ 𝐿𝑈 = 0.456 ∗ 7000 = 3192, trong đó độ dài của miền U ký hiệu là

LU = 20000-13000 =7000.

Bước 2.3- Xác định khoảng mờ của nhãn ngôn ngữ

Chọn độ đo tính mờ của các gia tử âm và gia tử dương tương ứng là 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 0.48 và 𝜇(𝑉𝑒𝑟𝑦) = 1 − 𝜇(𝑙𝑖𝑡𝑡𝑙𝑒) = 0.52.

Kết hợp Bước 2.2, có thể tính được giá trị cho các hạng từ thuộc vào các khoảng mờ như sau:

𝑐𝑜𝑣𝑓𝑚(𝐴1) = µ(Verry) x µ(Very) x 𝑐𝑜𝑣𝑓𝑚 (Lo) = 0.52*0.52*3808 = 1029.683; 𝑐𝑜𝑣𝑓𝑚(𝐴2) = µ(𝐿𝑖𝑡𝑡𝑙𝑒) x µ(Very) x 𝑐𝑜𝑣𝑓𝑚 (Lo) = 0.48*0.52*3808 = 950.477; 𝑐𝑜𝑣𝑓𝑚(𝐴3) = µ(𝐿𝑖𝑡𝑡𝑙𝑒) x µ(𝐿𝑖𝑡𝑡𝑙𝑒) x covfm(Lo) = 0.48*0.48*3808 = 479.36; ---; 𝑐𝑜𝑣𝑓𝑚(𝐴7) = µ(Very) x covfm(Hi) = 0.52*3192 = 1659.84

Ánh xạ các giá trị ngôn ngữ này sang miền thực U, đạt được 7 khoảng chia trên miền thực U như sau:

𝑢1= [13000, 14029.68), 𝑢2= [14029.68, 14980) , 𝑢3= [14980, 15858), 𝑢4= [15858, 16808), 𝑢5= [16808, 17605), 𝑢6= [17605, 18340), 𝑢7= [18340, 20000]

Thực hiện tương tự các bước trên đối với số hạng từ là 14, đưa ra được 14 khoảng chia trong tập nền U như sau:

𝑣1= [13000, 13539.5), 𝑣2= [13539.5, 14079) , 𝑣3= [14079, 14438.5), 𝑣4= [14438.5, 14798), 𝑣5= [14798, 15157.5), 𝑣6= [15157.5, 15517), 𝑣7= [15517, 15756.5), 𝑣8= [15756.5, 15996), 𝑣9= [15996, 16316.5) , 𝑣10= [16316.5, 16637), 𝑣11= [16637, 17117.5), 𝑣12= [17117.5, 17598), 𝑣13= [17598, 18799), 𝑣14= [18799, 20000].

Hình 2.11: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng HA

2.4. Tổ chức thực nghiệm và so sánh đánh giá cho các mô hình FTS đề xuất và các phương pháp phân khoảng

Mục này thảo luận về một số kết quả thực nghiệm đạt được từ tập dữ liệu huấn luyện và dữ liệu kiểm thử. Trên cơ sở so sánh và đánh giá hiệu quả dự báo của hai mô hình dự báo đề xuất đã được trình bày trong các Tiểu mục 2.2.1 và 2.2.2 với các mô hình dự báo trước đây trên cùng tập dữ liệu và cùng tiêu chí đánh giá. Tiếp theo, để chứng minh sự ảnh hưởng của các phương pháp phân khoảng đến mô hình dự báo được đề xuất. Mục này cũng đánh giá, so sánh giữa các phương pháp phân khoảng khác nhau với hai phương pháp phân khoảng được đề xuất trong Tiểu mục 2.3.3 trên cùng mô hình dự báo đề xuất. Đồng thời cũng so sánh giữa mô hình đề xuất với các mô hình dự báo khác. Để có được các kết quả này, luận án đã xây dựng thành công phần mềm mô phỏng trên các tập dữ liệu khác nhau sử dụng hệ điều hành Window 10 với ngôn ngữ C# chạy trên máy tính Intel Core i7 PC, 8GB RAM. Một số kết quả cũng được thể hiện trực quan trên các hình vẽ bằng việc sử dụng công cụ Python, Matlab 2016 và Excel.

2.4.1. Mô tả dữ liệu

Mô hình đề xuất được áp dụng để dự báo trên ba tập dữ liệu thường được sử dụng để chứng minh tính hợp lệ và hiệu quả dự báo của các mô hình FTS. Các đặc điểm thống kê của ba chuỗi thời gian này được thể hiện như sau:

✓ Chuỗi dữ liệu về số lượng sinh viên nhập học tại trường đại học Alabama. Chuỗi này bao gồm 22 quan sát với toàn bộ dữ liệu từ giai đoạn 1971 đến 1992 được tham chiếu trong tài liệu [8]. Chuỗi dữ liệu này đã được sử dụng để kiểm chứng bởi số lượng lớn các công trình nghiên cứu trong các bài báo [ 9-12, 51, 52]. Một số kết quả thu được trong số các công trình này được lựa chọn để so sánh với mô hình được đề xuất trong luận án.

✓ Chuỗi dữ liệu về thị trường chứng khoán Đài Loan TAIFEX [54] bao gồm 47 quan sát với toàn bộ dữ liệu từ giai đoạn 03/8/1998 đến 30/9/1998. Nhiều tác giả

trong các công trình [13, 32, 57] cũng áp dụng chuỗi số liệu này để thử nghiệm và so sánh với các công trình nghiên cứu khác. Trong số các kết quả đạt được từ các công trình này cũng được tham chiếu để so sánh với kết quả nhận được từ mô hình đề xuất trên cả hai giai đoạn huấn luyện và kiểm thử.

✓ Chuỗi dữ liệu về nhiệt độ trung bình hàng ngày tại Đài Bắc, Đài Loan [54] bao gồm các quan sát hàng ngày theo từng tháng từ ngày 01/06/1996 tới ngày 30/09/1996. Toàn bộ dữ liệu lịch sử của chuỗi này gồm hai nhân tố về nhiệt độ trung bình và mật độ của mây. Trong đó; nhân tố “mật độ của mây” được gọi là nhân tố thứ hai dùng để dự báo cho nhân tố chính “nhiệt độ trung bình”. Chuỗi này cũng được đông đảo các nghiên cứu tham chiếu và sử dụng [34, 35, 40, 57]. Một trong số kết quả thu được từ các công trình này cũng được lựa chọn để so sánh với mô hình được đề xuất.

2.4.2. Kết quả thực nghiệm của mô hình FTS một nhân tố (FTS-1NT)

2.4.2.1 Kết quả thực nghiệm của mô hình FTS-1NT trên tập dữ liệu tuyển sinh

➢ So sánh đánh giá dựa trên quan hệ mờ bậc 1 (QHM bậc 1)

Để đánh giá hiệu quả của mô hình đề xuất FTS-1NT dựa trên QHMbậc 1 với số khoảng chia bằng 7, kết quả dự báo thu được trong Bảng 2.6 tại Mục 2.2.1 được đưa ra so sánh với các mô hình có tên như: Song & Chissom [8], Chen [10], Cheng và công sự [55], Sullivan và công sự [83] và Lee và cộng sự [47]. Cũng giống như mô hình được xuất, các mô hình so sánh này được xây dựng bằng cách sử dụng quan hệ mờ và chưa kết hợp với bất kỳ một kỹ thuật nào khác trong việc nâng cao hiệu quả dự báo. Kết quả so sánh về sai số dự báo MSE (1.18) giữa mô hình FTS-1NT và các mô hình so sánhđược liệt kê trong Bảng 2.19.

Bảng 2.19: So sánh sai số dự báo MSE giữa mô hình FTS-1NT với các mô hình khác trên cùng 7 khoảng. Mô hình Song & Chissom [8] Cheng [55] Chen [10] Lee [47] Sullivan [83] FTS-1NT MSE 423027 446762 407507 397537 386055 267436

Từ Bảng 2.19 nhận thấy rằng, mô hình dự báo FTS-1NT đưa ra sai số dự báo nhỏ hơn các mô hình so sánh. Đặc biệt khi so sánh với hai mô hình nền tảng [8, 10] được sử dụng rộng rãi nhất cho đến nay, thì mô hình đề xuất FTS-1NT cho kết quả dự báo vượt trội hơn.

Hơn nữa, mô hình FTS-1NT cũng được so sánh với các mô hình trong các công trình [11, 20, 21, 26] với số khoảng bằng 14. Kết quả và sai số dự báo được biểu diễn trong Bảng 2.20. Trong đó, cột thứ 2 thể hiện dữ liệu thực tế tương ứng với từng

năm, các cột còn lại là kết quả dự báo của các mô hình được lựa chọn để so sánh trong giai đoạn huấn luyện.

Bảng 2.20: Kết quả và sai số dự báo giữa mô hình FTS-1NT với các mô hình khác trên cùng 14 khoảng Năm DL thực [11] [ 26] [21] [20] FTS-1NT 1971 13055 -- - - -- 1972 13563 14000 13944 14279 14003 13750 1973 13867 14000 13944 14279 14003 13750 --- ---- ---- ---- ---- ---- ---- 1991 19337 19500 18933 19257 19207 19250 1992 18876 19149 18933 19257 19207 18916.7 MSE 226611 256036 198203 150007.7 75076.7

Quan sát các kết quả dự báo trong Bảng 2.20 cho thấy, mô hình FTS-1NT đưa ra các giá trị dự báo sát với dữ liệu thực hơn so với các mô hình so sánh. Đánh giá về sai số dự báo, thấy rằng mô hình FTS-1NT có giá trị MSE = 75076.7 nhỏ nhất trong số các mô hình so sánh dựa trên QHM bậc 1 với số khoảng chia bằng 14.

Tất cả các mô hình so sánh ở các Bảng 2.19 và Bảng 2.20 trên đều sử dụng quan hệ mờ để thiết lập các mô hình riêng của chúng. Tuy nhiên để có được kết quả và sai số dự báo tốt hơn so với các mô hình so sánh ở trên, mô hình đề xuất FTS- 1NT đã sử dụng khái niệm về NQHM-PTTG và quy tắc giải mờ có trọng để thiết lập mô hình. Việc thiết lập NQHM-PTTG trong mô hình dự báo khiến số lượng luật và các thông tin tham gia dự báo được đầy đủ hơn. Đặc biệt, xem xét đến thứ tự xuất hiện của các tập mờ trong nhóm quan hệ mờ và phản ánh đúng tính thực tiễn hơn. Trong khi, Song & Chissom [8] sử dụng các phép toán max -min phức tạp để tính toán đầu ra dự báo, các mô hình còn lại sử dụng nhóm quan hệ mờ của Chen [10] để thiết lập và tính toán đầu ra dự báo. Các mô hình sử dụng nhóm quan hệ mờ của Chen do không xét đến các quan hệ lặp lại nên bị thiếu thông tin để dự báo. Một nhược điểm khác trong các mô hình so sánh là coi các quan hệ có tầm quan trọng như nhau, nên không đánh giá được hết xu thế biến động của dữ liệu chuỗi thời gian.

➢ So sánh đánh giá dựa trên quan hệ mờ bậc cao (QHM bậc cao)

Để chứng minh tính ưu việt của mô hình đề xuất FTS-1NT dựa trên QHM bậc cao, bốn mô hình chuỗi thời gian mờ bậc cao có tên là Hwang [84], C02 [48], S07 [62], S09 [85] được lựa chọn để so sánh. Kết quả và sai số dự báo thu được từ mô hình đề xuất FTS-1NT và các mô hình so sánh được hiển thị trong Bảng 2.21.

Bảng 2.21: Kết quả và sai dự báo MSE giữa mô hình FTS -1NT với các mô hình khác dựa trên QHM bậc cao khác nhau với số khoảng chia bằng 14. Năm DL thực Hwang [84] S07s [62] C02 [48] S09 [85] FTS-1NT

1971 13055 N/A N/A N/A N/A N/A

1972 13563 N/A N/A N/A N/A N/A

1973 13867 N/A N/A N/A N/A N/A

1974 14696 N/A N/A N/A N/A N/A

1975 15460 N/A 15500 N/A N/A 15416.7

1976 15311 16260 15468 15500 15463 15250 1977 15603 15511 15512 15500 15326 15583.3 ---- ---- ---- ---- ---- ---- --- 1991 19337 19928 19487 19500 19341 19416.7 1992 18876 19537 18744 18500 18500 18916.7 1993 18950 MSE 321418 133700 86694 113420 3293.2

Dựa vào kết quả trong Bảng 2.21, cho thấy mô hình đề xuất FTS-1NT đưa ra sai số dự báo với giá trị MSE = 3293.2 nhỏ hơn nhiều so với các mô hình so sánh dựa trên quan hệ mờ bậc 4 với 14 khoảng chia. Hơn nữa, mô hình cũng được mô phỏng trên từng bậc để so sánh với các mô hình bậc cao khác như mô hình C02 [48], Hwang [84], S09 [85] với số lượng khoảng chia được cố định bằng 14 khoảng. Chi tiết của kết quả so sánh dựa trên sai số MSE được đưa ra trong Bảng 2.22. Kết quả này, cũng được minh họa trực quan trên Hình 2.12 nhằm thể hiện thiên hướng dự báo tuyển sinh dựa trên các bậc khác nhau của các mô hình.

Bảng 2.22: So sánh sai số dự báo MSE của mô hình đề xuất so với các mô hình khác dựa trên QHM bậc cao với số khoảng chia bằng 14.

Mô hình Bậc của mô hình Bậc 2 Bậc 3 Bậc 4 Bậc 5 Bậc 6 Bậc 7 Bậc 8 Bậc 9 Hwang 333171 299634 315489 278919 296950 316720 301228 306485 C02 89093 86694 89376 94539 98215 104056 102179 102789 S09 119189 97180 126676 113421 163137 148618 169149 123964 FTS- 1NT 51259 25485.3 3293.2 3376.7 3355 3552.9 3585 3562.8

Hình 2.12: Biểu diễn sai số dự báo MSE giữa hình FTS-1NT với các mô hình so sánh dựa trên các bậc khác nhau với 14 khoảng chia

Quan sát Bảng 2.22 và Hình 2.12 thấy rằng sai số dự báo trên từng bậc của mô hình được đề xuất FTS-1NT từ bậc 2 đến bậc 9 nhỏ hơn so với tất cả các mô hình so sánh trong bảng. Đặc biệt, đưa ra sai số dự báo nhỏ nhất với giá trị MSE =3293.2 dựa trên quan hệ mờ bậc 4.

Các kết quả so sánh đề cập ở trên cho thấy, việc đề xuất NQHM-PTTG trong mô hình chuỗi thời gian mờ là khả thi và đưa ra kết quả đáng tin trên tập dữ liệu tuyển sinh. Thêm nữa việc lấy thông tin trong các khoảng nhỏ đã ảnh hưởng đáng kể đến kết quả dự báo của mô hình được đề xuất FTS-1NT.

2.4.2.2 Kết quả thực nghiệm của mô hình FTS-1NT trên tập dữ liệu thị trường chứng khoán (TAIFEX) chứng khoán (TAIFEX)

Trong tiểu mục này, luận án tiếp tục đánh giá hiệu quả của mô hình dự báo được đề xuất FTS-1NT trên tập dữ liệu về thị trường chứng khoán Đài Loan [54] với 47 giá trị quan sát từ ngày 8/3/1998 đến 9/30/1998. Với tập dữ liệu này, mô hình đề

Giai đoạn kiểm thử (Giai đoạn dự báo)

Mô hình dự báo của Song và Chissom [8,9]