22 Phân khoảng với độ dài khác nhau

Phân khoảng với độ dài khác nhau có thể chia thành hai hướng: (1) Sử dụng phương pháp toán học, (2) Sử dụng kỹ thuật tính toán mềm

(1) Phân khoảng theo phương pháp toán học

Trong cách tiếp cận này, sử dụng công thức toán học để tính các giới hạn dưới và giới hạn trên của các khoảng Một trong những phát hiện ban đầu theo hướng này là sử dụng phân khoảng dựa trên phân bố và trung bình [11] để xây dựng mô hình dự báo Một số cách tiếp cận khác theo nguyên lý entropy và mờ hình thang [55], kỹ thuật phân cụm tự động [17] đã cho độ chính xác dự báo tốt hơn Ngoài ra, khái niệm thông tin khoảng [21, 26] cũng được áp dụng để xác định các khoảng nhằm cải thiện kết quả dự báo

Để thấy được tầm quan trọng của việc phân khoảng dữ liệu theo phương pháp toán học, luận án chọn phương pháp phân khoảng của Huarng [11] làm ví dụ điển hình Các bước của hai thuật toán chọn độ dài khoảng dựa trên phân bố và độ dài trung bình của Huarng như sau:

Thuật toán 1: Thuật toán chọn độ dài khoảng dựa trên phân bố

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp |𝒜𝒜 − 𝒜𝒜−1| và tính trung bình giữa các giá trị chênh lệch𝒜𝒜𝒜 𝒜𝒜 = 𝒜−11 ∑𝒜 𝒜=1(|𝒜𝒜 − 𝒜𝒜−1|) ;

Bước 2- Dựa vào giá trị𝒜𝒜𝒜 𝒜𝒜 , tìm mức cơ sở cho độ dài khoảng theo Bảng 2 12

Bước 4- Theo mức cơ sở độ dài khoảng xác định ở Bước 2 và đồ thị phân bố,

chọn độ dài của các khoảng là độ dài lớn nhất nhưng nhỏ hơn ít nhất một nửa chênh lệch đầu tiên

Thuật toán 2: Thuật toán chọn độ dài khoảng dựa vào trung bình

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp và tính trung

bình giữa các giá trị chênh lệch đầu tiên

Bước 2- Lấy một nửa giá trị trung bình (ở Bước 1) làm độ dài

Bước 3- Dựa vào độ dài ở Bước 2, xác định cơ sở cho độ dài khoảng theo Bảng

2 12

Bước 4- Làm tròn độ dài theo cơ sở xác định là độ dài cuối cùng cho các khoảng

cần tìm Bảng 2 12: Ánh xạ cơ sở Phạm vi 0 1- 1 0 1 1 - 10 11- 100 101-1000 Cơ sở 0 1 1 10 100

Áp dụng thuật toán 1 và 2 trên tập dữ liệu tuyển sinh [8], Huarng có được kết quả như sau:

Kết quả của thuật toán 1:

1 Giá trị chênh lệch giữa các quan sát |𝒜𝒜 − 𝒜𝒜−1| là:

▪ 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

▪ Giá trị trung bình của các chênh lệch:𝒜𝒜𝒜𝒜𝒜 = 510 33 2 Dựa vào𝒜𝒜𝒜𝒜𝒜 chọn được mức cơ sở theo Bảng 2 12 là 100 3 Biểu đồ phân bố của các chênh lệch như Hình 2 8

4 Từ đồ thị phân bổ, chọn ra 400 là giá trị độ dài khoảng (số lượng chênh lệch nhỏ hơn 400 là 10, nhỏ hơn ít nhất nửa chênh lệch còn lại)

20 15 18 20 10 5 10 11 13 13 14 0 400 500 600 700 800 900 1000 Độ dài khoảng

Hình 2 8: Đồ thị phân bổ các giá trị chênh lệch của chuỗi dữ liệu tuyển sinh

Kết quả của thuật toán 2:

Số lư ợn g dữ liệ u ph ân bô

1 Giá trị chênh lệch giữa các quan sát |𝒜𝒜 − 𝒜𝒜−1| là:

▪ 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

▪ Giá trị trung bình của các chênh lệch:𝒜𝒜𝒜𝒜𝒜 = 510 33 2 Lấy một nửa giá trị𝒜𝒜𝒜𝒜𝒜 là 255 17

3 Dựa trên giá trị ở Bước 2, chọn mức độ dài cơ sở là 100 theo Bảng 2 12 4 Làm tròn độ dài 225 17 theo cơ sở 100, chọn ra 300 là giá trị độ dài khoảng Dựa vào hai thuật toán này và bằng thực nghiệm, Huarng [11] đã chứng minh rằng độ dài khoảng khác nhau cải thiện được hiệu quả dự báo của mô hình Cụ thể, áp dụng hai thuật toán trên vào mô hình của Chen [10] để dự báo tuyển sinh đại học của trường đại học Alabama Huarng đưa ra độ chính xác dự báo MSE = 124707 với độ dài khoảng dựa trên phân bố là 400 và độ chính xác dự báo MSE = 78792 với độ dài hiệu quả dựa trên trung bình là 300

(2) Phân khoảng dựa trên kỹ thuật tính toán mềm

➢ Phân khoảng sử dụng các thuật toán tối ưu

Có nhiều thuật toán tối ưu khác nhau đã được áp dụng trong các mô hình FTS và được phát triển một cách có hiệu quả bởi nhiều nhà nghiên cứu như: tối ưu đàn kiến [77], tối ưu bầy đàn [18, 42, 78, 79], giải thuật di truyền - GA [15, 16], thuật toán hòa âm [80], vv Trong số các thuật toán tối ưu, thì PSO được sử dụng rộng rãi nhất trong việc hiệu chỉnh và lựa chọn khoảng với độ dài khác nhau Thông thường các mô hình chuỗi thời gian mờ sử dụng PSO được thể hiện qua việc kết hợp với các phương pháp khác nhau hình thành mô hình dự báo lai, như được liệt kê trong Bảng 2 13

Bảng 2 13: Các mô hình FTS sử dụng PSO để phân khoảng kết hợp với các phương pháp khác

Mô hình Kuo và cộng sự [18] Chen and Phuong [42] Kumar and Susan [78] Chen and Kao [79]

Phương pháp kết hợp Dựa trên luật Dựa trên luật Dựa trên luật Học máy SVM ➢ Phân khoảng sử dụng các thuật toán phân cụm

Trong những năm gần đây, áp dụng về phân cụm dữ liệu trong mô hình chuỗi thời gian mờ ngày càng tăng Fuzzy C-means (FCM) [70] là một trong các thuật toán phân cụm nổi tiếng đã được áp dụng rộng rãi để phân khoảng dữ liệu trong mô hình FTS và đã được sử dụng trong một số công trình nghiên cứu [78, 79] Phân cụm FCM

sử dụng trong mô hình dự báo chuỗi thời gian mờ được kết hợp cùng với các kỹ thuật khác để nâng cao hiệu quả dự báo như được chỉ ra trong Bảng 2 14

Bảng 2 14: Các mô hình FTS sử dụng FCM để phân khoảng kết hợp với các phương pháp khác Mô hình Egrioglu và cộng sự [28] Li và cộng sự [81] Cheng và cộng sự [82] Phương pháp kết hợp Mạng nơron Mô hình Markov Mạng ANFIS

Trên cơ sở phân tích các công trình có sử dụng các phương pháp phân khoảng nói trên, có thể tóm tắt ưu và nhược điểm của các phương pháp phân khoảng trong Bảng 2 15 như sau:

Bảng 2 15: Ưu và nhược điểm chính của các phương pháp phân khoảng

Một số khái niệm về tập mờ

Mô hình dự báo của Chen [10]