Phân khoảng với độ dài khác nhau

Phân khoảng với độ dài khác nhau có thể chia thành hai hướng: (1) Sử dụng phương pháp toán học, (2) Sử dụng kỹ thuật tính toán mềm.

(1). Phân khoảng theo phương pháp toán học

Trong cách tiếp cận này, sử dụng công thức toán học để tính các giới hạn dưới và giới hạn trên của các khoảng. Một trong những phát hiện ban đầu theo hướng này là sử dụng phân khoảng dựa trên phân bố và trung bình [11] để xây dựng mô hình dự báo. Một số cách tiếp cận khác theo nguyên lý entropy và mờ hình thang [55], kỹ thuật phân cụm tự động [17] đã cho độ chính xác dự báo tốt hơn. Ngoài ra, khái niệm thông tin khoảng [21, 26] cũng được áp dụng để xác định các khoảng nhằm cải thiện kết quả dự báo.

Để thấy được tầm quan trọng của việc phân khoảng dữ liệu theo phương pháp toán học, luận án chọn phương pháp phân khoảng của Huarng [11] làm ví dụ điển hình. Các bước của hai thuật toán chọn độ dài khoảng dựa trên phân bố và độ dài trung bình của Huarng như sau:

Thuật toán 1: Thuật toán chọn độ dài khoảng dựa trên phân bố

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp |��− ��−1| và tính trung bình giữa các giá trị chênh lệch

�� = 1 ∑� (|� − � |) ;

�� − 1

� � �−1

Bước 2- Dựa vào giá trị ��, tìm mức cơ sở cho độ dài khoảng theo Bảng 2.12

20 15 10 5 0 4005006007008009001000 Độ dài khoảng

Bước 4- Theo mức cơ sở độ dài khoảng xác định ở Bước 2 và đồ thị phân bố,

chọn độ dài của các khoảng là độ dài lớn nhất nhưng nhỏ hơn ít nhất một nửa chênh lệch đầu tiên.

Thuật toán 2: Thuật toán chọn độ dài khoảng dựa vào trung bình

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp và tính trung

bình giữa các giá trị chênh lệch đầu tiên.

Bước 2- Lấy một nửa giá trị trung bình (ở Bước 1) làm độ dài.

Bước 3- Dựa vào độ dài ở Bước 2, xác định cơ sở cho độ dài khoảng theo Bảng

2.12

Bước 4- Làm tròn độ dài theo cơ sở xác định là độ dài cuối cùng cho các khoảng

cần tìm. Bảng 2.12: Ánh xạ cơ sở Phạm vi Cơ sở 0.1- 1.0 0.1 1.1 - 10 1 11- 100 10 101-1000 100

Áp dụng thuật toán 1 và 2 trên tập dữ liệu tuyển sinh [8], Huarng có được kết quả như sau:

Kết quả của thuật toán 1:

1. Giá trị chênh lệch giữa các quan sát |��− ��−1| là:

 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

 Giá trị trung bình của các chênh lệch: ��= 510.33 2. Dựa vào ��chọn được mức cơ sở theo Bảng 2.12 là 100 3. Biểu đồ phân bố của các chênh lệch như Hình 2.8

4. Từ đồ thị phân bổ, chọn ra 400 là giá trị độ dài khoảng (số lượng chênh lệch nhỏ hơn 400 là 10, nhỏ hơn ít nhất nửa chênh lệch còn lại).

20 18

14 13 13

10 11

Hình 2.8: Đồ thị phân bổ các giá trị chênh lệch của chuỗi dữ liệu tuyển sinh

Kết quả của thuật toán 2:

S ố lư ợ n g d ữ li ệu p h ân b ô

1. Giá trị chênh lệch giữa các quan sát |��− ��−1| là:

 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

 Giá trị trung bình của các chênh lệch: ��= 510.33 2. Lấy một nửa giá trị ��là 255.17

3. Dựa trên giá trị ở Bước 2, chọn mức độ dài cơ sở là 100 theo Bảng 2.12 4. Làm tròn độ dài 225.17 theo cơ sở 100, chọn ra 300 là giá trị độ dài khoảng.

Dựa vào hai thuật toán này và bằng thực nghiệm, Huarng [11] đã chứng minh rằng độ dài khoảng khác nhau cải thiện được hiệu quả dự báo của mô hình. Cụ thể, áp dụng hai thuật toán trên vào mô hình của Chen [10] để dự báo tuyển sinh đại học của trường đại học Alabama. Huarng đưa ra độ chính xác dự báo MSE = 124707 với độ dài khoảng dựa trên phân bố là 400 và độ chính xác dự báo MSE = 78792 với độ dài hiệu quả dựa trên trung bình là 300.

(2). Phân khoảng dựa trên kỹ thuật tính toán mềm

 Phân khoảng sử dụng các thuật toán tối ưu

Có nhiều thuật toán tối ưu khác nhau đã được áp dụng trong các mô hình FTS và được phát triển một cách có hiệu quả bởi nhiều nhà nghiên cứu như: tối ưu đàn kiến [77], tối ưu bầy đàn [18, 42, 78, 79], giải thuật di truyền - GA [15, 16], thuật toán hòa âm [80], vv. Trong số các thuật toán tối ưu, thì PSO được sử dụng rộng rãi nhất trong việc hiệu chỉnh và lựa chọn khoảng với độ dài khác nhau. Thông thường các mô hình chuỗi thời gian mờ sử dụng PSO được thể hiện qua việc kết hợp với các phương pháp khác nhau hình thành mô hình dự báo lai, như được liệt kê trong Bảng 2.13.

Bảng 2.13: Các mô hình FTS sử dụng PSO để phân khoảng kết hợp với các phương pháp khác

Mô hình Phương pháp kết hợp Kuo và cộng sự [18] Dựa trên luật Chen and Phuong [42] Dựa trên luật Kumar and Susan [78] Dựa trên luật Chen and Kao [79] Học máy SVM  Phân khoảng sử dụng các thuật toán phân cụm

Trong những năm gần đây, áp dụng về phân cụm dữ liệu trong mô hình chuỗi thời gian mờ ngày càng tăng. Fuzzy C-means (FCM) [70] là một trong các thuật toán phân cụm nổi tiếng đã được áp dụng rộng rãi để phân khoảng dữ liệu trong mô hình FTS và đã được sử dụng trong một số công trình nghiên cứu [78, 79]. Phân cụm FCM

sử dụng trong mô hình dự báo chuỗi thời gian mờ được kết hợp cùng với các kỹ thuật khác để nâng cao hiệu quả dự báo như được chỉ ra trong Bảng 2.14.

Bảng 2.14: Các mô hình FTS sử dụng FCM để phân khoảng kết hợp với các phương pháp khác

Mô hình Phương pháp kết hợp Egrioglu và cộng sự [28] Mạng nơron

Li và cộng sự [81] Mô hình Markov Cheng và cộng sự [82] Mạng ANFIS

Trên cơ sở phân tích các công trình có sử dụng các phương pháp phân khoảng nói trên, có thể tóm tắt ưu và nhược điểm của các phương pháp phân khoảng trong Bảng 2.15 như sau:

Bảng 2.15: Ưu và nhược điểm chính của các phương pháp phân khoảng Phương pháp phân

khoảng Ưu điểm Nhược điểm

Phân khoảng có độ dài bằng nhau

- Dễ dàng thực hiện - Không tốn thời gian

Độ chính xác dự báo không cao khi dữ liệu phân bố không đồng nhất Phân khoảng có độ dài khác nhau Sử dụng

phân cụm - Độ chính xác tốt Mất thời gian tính toán

Sử dụng tối ưu

- Tìm được vị trí tối ưu của các điểm chia giữa hai khoảng (độ dài khoảng tối ưu)

- Độ chính xác tốt đối với dữ liệu trong mẫu

Mất thời gian tính toán

Một số khái niệm về tập mờ

Giai đoạn kiểm thử (Giai đoạn dự báo)