Phân khoảng với độ dài khác nhau có thể chia thành hai hướng: (1) Sử dụng phương pháp toán học, (2) Sử dụng kỹ thuật tính toán mềm.
(1). Phân khoảng theo phương pháp toán học
Trong cách tiếp cận này, sử dụng công thức toán học để tính các giới hạn dưới và giới hạn trên của các khoảng. Một trong những phát hiện ban đầu theo hướng này là sử dụng phân khoảng dựa trên phân bố và trung bình [11] để xây dựng mô hình dự báo. Một số cách tiếp cận khác theo nguyên lý entropy và mờ hình thang [55], kỹ thuật phân cụm tự động [17] đã cho độ chính xác dự báo tốt hơn. Ngoài ra, khái niệm thông tin khoảng [21, 26] cũng được áp dụng để xác định các khoảng nhằm cải thiện kết quả dự báo.
Để thấy được tầm quan trọng của việc phân khoảng dữ liệu theo phương pháp toán học, luận án chọn phương pháp phân khoảng của Huarng [11] làm ví dụ điển hình. Các bước của hai thuật toán chọn độ dài khoảng dựa trên phân bố và độ dài trung bình của Huarng như sau:
Thuật toán 1: Thuật toán chọn độ dài khoảng dựa trên phân bố
Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp ||||||||||||||| 𝒜 − 𝒜−1| và tính trung bình giữa các giá trị chênh lệch
𝒜𝒜 = 1 ∑ (|𝒜 − 𝒜 |) ; 𝒜 𝒜𝒜 𝒜− 1 𝒜=1 𝒜 𝒜−1
Bước 2- Dựa vào giá trị 𝒜𝒜𝒜 𝒜𝒜 , tìm mức cơ sở cho độ dài khoảng theo Bảng 2.12
Bước 4- Theo mức cơ sở độ dài khoảng xác định ở Bước 2 và đồ thị phân bố,
chọn độ dài của các khoảng là độ dài lớn nhất nhưng nhỏ hơn ít nhất một nửa chênh lệch đầu tiên.
Thuật toán 2: Thuật toán chọn độ dài khoảng dựa vào trung bình
Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp và tính trung
bình giữa các giá trị chênh lệch đầu tiên.
Bước 2- Lấy một nửa giá trị trung bình (ở Bước 1) làm độ dài.
Bước 3- Dựa vào độ dài ở Bước 2, xác định cơ sở cho độ dài khoảng theo Bảng
2.12
Bước 4- Làm tròn độ dài theo cơ sở xác định là độ dài cuối cùng cho các khoảng
cần tìm. Bảng 2.12: Ánh xạ cơ sở Phạm vi Cơ sở 0.1- 1.0 0.1 1.1 - 10 1 11- 100 10 101-1000 100
Áp dụng thuật toán 1 và 2 trên tập dữ liệu tuyển sinh [8], Huarng có được kết quả như sau:
Kết quả của thuật toán 1:
1. Giá trị chênh lệch giữa các quan sát |||||||||||||||𝒜 − 𝒜𝒜−1| là:
304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461
Giá trị trung bình của các chênh lệch: 𝒜𝒜𝒜𝒜𝒜 = 510.33 2. Dựa vào 𝒜𝒜𝒜𝒜𝒜 chọn được mức cơ sở theo Bảng 2.12 là 100 3. Biểu đồ phân bố của các chênh lệch như Hình 2.8
4. Từ đồ thị phân bổ, chọn ra 400 là giá trị độ dài khoảng (số lượng chênh lệch nhỏ hơn 400 là 10, nhỏ hơn ít nhất nửa chênh lệch còn lại).
20 18
14 13 13
10 11
Hình 2.8: Đồ thị phân bổ các giá trị chênh lệch của chuỗi dữ liệu tuyển sinh
Kết quả của thuật toán 2:
Số l ư ợ n g d
1. Giá trị chênh lệch giữa các quan sát ||||||||||||||| 𝒜 − 𝒜𝒜−1| là:
304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461
Giá trị trung bình của các chênh lệch: 𝒜𝒜𝒜 𝒜𝒜 = 510.33 2. Lấy một nửa giá trị 𝒜𝒜𝒜𝒜𝒜 là 255.17
3. Dựa trên giá trị ở Bước 2, chọn mức độ dài cơ sở là 100 theo Bảng 2.12 4. Làm tròn độ dài 225.17 theo cơ sở 100, chọn ra 300 là giá trị độ dài khoảng.
Dựa vào hai thuật toán này và bằng thực nghiệm, Huarng [11] đã chứng minh rằng độ dài khoảng khác nhau cải thiện được hiệu quả dự báo của mô hình. Cụ thể, áp dụng hai thuật toán trên vào mô hình của Chen [10] để dự báo tuyển sinh đại học của trường đại học Alabama. Huarng đưa ra độ chính xác dự báo MSE = 124707 với
độ dài khoảng dựa trên phân bố là 400 và độ chính xác dự báo MSE = 78792 với độ
dài hiệu quả dựa trên trung bình là 300.
(2). Phân khoảng dựa trên kỹ thuật tính toán mềm
Phân khoảng sử dụng các thuật toán tối ưu
Có nhiều thuật toán tối ưu khác nhau đã được áp dụng trong các mô hình FTS và được phát triển một cách có hiệu quả bởi nhiều nhà nghiên cứu như: tối ưu đàn kiến [77], tối ưu bầy đàn [18, 42, 78, 79], giải thuật di truyền - GA [15, 16], thuật toán hòa âm [80], vv. Trong số các thuật toán tối ưu, thì PSO được sử dụng rộng rãi nhất trong việc hiệu chỉnh và lựa chọn khoảng với độ dài khác nhau. Thông thường các mô hình chuỗi thời gian mờ sử dụng PSO được thể hiện qua việc kết hợp với các phương pháp khác nhau hình thành mô hình dự báo lai, như được liệt kê trong Bảng 2.13.
Bảng 2.13: Các mô hình FTS sử dụng PSO để phân khoảng kết hợp với các phương pháp khác
Mô hình Phương pháp kết hợp
Kuo và cộng sự [18] Dựa trên luật
Chen and Phuong [42] Dựa trên luật
Kumar and Susan [78] Dựa trên luật
Chen and Kao [79] Học máy SVM
Phân khoảng sử dụng các thuật toán phân cụm
Trong những năm gần đây, áp dụng về phân cụm dữ liệu trong mô hình chuỗi thời gian mờ ngày càng tăng. Fuzzy C-means (FCM) [70] là một trong các thuật toán phân cụm nổi tiếng đã được áp dụng rộng rãi để phân khoảng dữ liệu trong mô hình FTS và đã được sử dụng trong một số công trình nghiên cứu [78, 79]. Phân cụm FCM
sử dụng trong mô hình dự báo chuỗi thời gian mờ được kết hợp cùng với các kỹ thuật khác để nâng cao hiệu quả dự báo như được chỉ ra trong Bảng 2.14.
Bảng 2.14: Các mô hình FTS sử dụng FCM để phân khoảng kết hợp với các phương pháp khác
Mô hình Phương pháp kết hợp
Egrioglu và cộng sự [28] Mạng nơron
Li và cộng sự [81] Mô hình Markov
Cheng và cộng sự [82] Mạng ANFIS
Trên cơ sở phân tích các công trình có sử dụng các phương pháp phân khoảng nói trên, có thể tóm tắt ưu và nhược điểm của các phương pháp phân khoảng trong Bảng 2.15 như sau:
Bảng 2.15: Ưu và nhược điểm chính của các phương pháp phân khoảng Phương pháp phân
khoảng Ưu điểm Nhược điểm
Phân khoảng có độ dài bằng nhau
- Dễ dàng thực hiện - Không tốn thời gian
Độ chính xác dự báo không cao khi dữ liệu phân bố không đồng nhất
Phân khoảng có độ dài khác nhau
Sử dụng
phân cụm - Độ chính xác tốt Mất thời gian tính toán
Sử dụng tối ưu
- Tìm được vị trí tối ưu của các điểm chia giữa hai khoảng (độ dài khoảng tối ưu)
- Độ chính xác tốt đối với dữ liệu trong mẫu
Mất thời gian tính toán