Phân khoảng dữ liệu

Một phần của tài liệu Một số phương pháp nâng cao độ chính xác dự báo trong mô hình chuỗi thời gian mờ. (Trang 68)

Phân khoảng nhằm phân chia dữ liệu chuỗi thời gian trong tập nền U thành k khoảng có độ dài bằng nhau hoặc khác nhau. Đây là một trong những bước quan trọng và ảnh hưởng rất lớn đến hiệu quả dự báo của mô hình chuỗi thời gian mờ. Có rất nhiều phương pháp phân khoảng khác nhau được đề xuất và sử dụng để phân tập dữ liệu chuỗi thời gian thành k khoảng ban đầu hoặc hiệu chỉnh các độ dài khoảng nhằm đạt được các khoảng tối ưu trong mô hình dự báo chuỗi thời gian mờ. Một trong các phương pháp phân khoảng đơn giản nhất là phân dữ liệu chuỗi thời gian thành k khoảng có độ dài bằng nhau, hay gọi là phân khoảng theo lưới (Grid) [8-10, 73]. Phương pháp này được sử dụng đầu tiên bởi Song và Chissom [8, 9]. Sau đó, Chen

[10] cũng sử dụng phương pháp này để chia tập nền U thành k khoảng có độ dài

bằng nhau 𝒜1, 𝒜2,…,𝒜𝒜 với trung điểm tương ứng là 𝒜1, 𝒜2,…,𝒜𝒜. Nhận thấy phương pháp phân khoảng có độ dài bằng nhau không cho kết quả dự báo tốt, nhiều tác giả đã đề xuất những phương pháp phân khoảng có độ dài khác nhau. Cheng và cộng sự

[55] sử dụng kỹ thuật entropy để xác định điểm giữa tốt nhất cho các tập mờ hình thang tương ứng với k khoảng cố định ban đầu. Các kỹ thuật phân cụm cũng được áp dụng để phân khoảng có độ dài khác nhau như Fuzzy C-Means [28], phân cụm tự động [17]. Bên cạnh đó, các phương pháp tính toán mềm cũng được thảo luận và đề xuất để tìm độ dài khoảng phù hợp như: Tối ưu bầy đàn được sử dụng trong các nghiên cứu [18, 32, 33, 74], thuật toán di truyền trong các công trình [16], kỹ thuật tôi luyện [34] và thuật toán tìm kiếm hòa âm [75]. Hình 2.5 minh họa cách phân khoảng sử dụng các phương pháp khác nhau trên cùng tập dữ liệu.

Hình 2.5: Minh hoạ các phương pháp phân khoảng khác nhau trên cùng tập mẫu. 2.3.2. Các phương pháp phân khoảng dữ liệu

Phương pháp phân khoảng tập nền có thể được chia thành hai dạng chính như trong Hình 2.6: (1) Phương pháp phân khoảng với độ dài bằng nhau hay gọi là phân khoảng theo lưới; (2) Phương pháp phân khoảng với độ dài khác nhau.

Hình 2.6: Các phương pháp phân khoảng 2.3.2.1 Phân khoảng với độ dài bằng nhau

Cách phân khoảng này thì tập nền U được chia thành một số khoảng cho trước với độ dài bằng nhau, còn gọi là phân khoảng tĩnh hay phân khoảng theo lưới. Nhiều công trình nghiên cứu đã áp dụng phương pháp phân khoảng tĩnh để giải quyết các bài toán khác nhau trong giai đoạn đầu của mô hình dự báo mà không cần nêu bất kỳ lý do gì [8-10, 48].

Ví dụ 2.7: Xét quá trình phân khoảng của Chen [10] sử dụng dữ liệu tuyển sinh của

Đại học Alabama [8]. Giá trị lớn nhất và nhỏ nhất của chuỗi dữ liệu này lần lượt là 19337 và 13055. Tập nền U được chia thành 7 khoảng bằng nhau: 𝒜𝒜, (i = 1, 2, ..., 7) với độ dài là 1000: 𝒜1 = [13000 ,140000], 𝒜2 = [14000 ,15000], 𝒜3 = [15000, 16000],

𝒜4 = [16000, 17000], 𝒜5 = [17000 ,18000], 𝒜6 = [18000, 19000], 𝒜7 = [19000, 20000].

Hình 2.7: Minh hoạ các khoảng chia liên tiếp có độ dài bằng nhau là 1000 Đối với cách phân khoảng theo lưới, các tập mờ được phân phối đều trên trên tập nền U dẫn đến việc tính toán các khoảng và biểu diễn các tập mờ trên nó một cách dễ dàng. Tuy nhiên độ chính xác dự báo của các mô hình FTS sử dụng các khoảng có độ dài bằng nhau sẽ không được tốt nếu sự phân bố các giá trị dữ liệu không đồng nhất [76, 80]. Bởi vậy không thể phủ nhận một số cách tiếp cận mềm dẻo và linh động hơn được sử dụng để phân các khoảng có độ dài khác nhau như: các phương pháp phân cụm và các kỹ thuật tối ưu. Hiện tại các kỹ thuật này được xem là các phương pháp phân khoảng hiệu quả và còn nhiều mở rộng để nâng cao độ chính xác dự báo trong mô hình chuỗi thời gian mờ.

2.3.2.2. Phân khoảng với độ dài khác nhau

Phân khoảng với độ dài khác nhau có thể chia thành hai hướng: (1) Sử dụng phương pháp toán học, (2) Sử dụng kỹ thuật tính toán mềm.

(1). Phân khoảng theo phương pháp toán học

Trong cách tiếp cận này, sử dụng công thức toán học để tính các giới hạn dưới và giới hạn trên của các khoảng. Một trong những phát hiện ban đầu theo hướng này là sử dụng phân khoảng dựa trên phân bố và trung bình [11] để xây dựng mô hình dự báo. Một số cách tiếp cận khác theo nguyên lý entropy và mờ hình thang [55], kỹ thuật phân cụm tự động [17] đã cho độ chính xác dự báo tốt hơn. Ngoài ra, khái niệm thông tin khoảng [21, 26] cũng được áp dụng để xác định các khoảng nhằm cải thiện kết quả dự báo.

Để thấy được tầm quan trọng của việc phân khoảng dữ liệu theo phương pháp toán học, luận án chọn phương pháp phân khoảng của Huarng [11] làm ví dụ điển hình. Các bước của hai thuật toán chọn độ dài khoảng dựa trên phân bố và độ dài trung bình của Huarng như sau:

Thuật toán 1: Thuật toán chọn độ dài khoảng dựa trên phân bố

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp ||||||||||||||| 𝒜 − 𝒜−1| và tính trung bình giữa các giá trị chênh lệch

𝒜𝒜 = 1 ∑ (|𝒜 − 𝒜 |) ; 𝒜 𝒜𝒜 𝒜− 1 𝒜=1 𝒜 𝒜−1

Bước 2- Dựa vào giá trị 𝒜𝒜𝒜 𝒜𝒜 , tìm mức cơ sở cho độ dài khoảng theo Bảng 2.12

Bước 4- Theo mức cơ sở độ dài khoảng xác định ở Bước 2 và đồ thị phân bố,

chọn độ dài của các khoảng là độ dài lớn nhất nhưng nhỏ hơn ít nhất một nửa chênh lệch đầu tiên.

Thuật toán 2: Thuật toán chọn độ dài khoảng dựa vào trung bình

Bước 1- Tìm giá trị chênh lệch tuyệt đối giữa hai quan sát liên tiếp và tính trung

bình giữa các giá trị chênh lệch đầu tiên.

Bước 2- Lấy một nửa giá trị trung bình (ở Bước 1) làm độ dài.

Bước 3- Dựa vào độ dài ở Bước 2, xác định cơ sở cho độ dài khoảng theo Bảng

2.12

Bước 4- Làm tròn độ dài theo cơ sở xác định là độ dài cuối cùng cho các khoảng

cần tìm. Bảng 2.12: Ánh xạ cơ sở Phạm vi Cơ sở 0.1- 1.0 0.1 1.1 - 10 1 11- 100 10 101-1000 100

Áp dụng thuật toán 1 và 2 trên tập dữ liệu tuyển sinh [8], Huarng có được kết quả như sau:

Kết quả của thuật toán 1:

1. Giá trị chênh lệch giữa các quan sát |||||||||||||||𝒜 − 𝒜𝒜−1| là:

 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

 Giá trị trung bình của các chênh lệch: 𝒜𝒜𝒜𝒜𝒜 = 510.33 2. Dựa vào 𝒜𝒜𝒜𝒜𝒜 chọn được mức cơ sở theo Bảng 2.12 là 100 3. Biểu đồ phân bố của các chênh lệch như Hình 2.8

4. Từ đồ thị phân bổ, chọn ra 400 là giá trị độ dài khoảng (số lượng chênh lệch nhỏ hơn 400 là 10, nhỏ hơn ít nhất nửa chênh lệch còn lại).

20 18

14 13 13

10 11

Hình 2.8: Đồ thị phân bổ các giá trị chênh lệch của chuỗi dữ liệu tuyển sinh

Kết quả của thuật toán 2:

Số l ư n g d

1. Giá trị chênh lệch giữa các quan sát ||||||||||||||| 𝒜 − 𝒜𝒜−1| là:

 304, 829, 764, 149, 292, 258, 946, 112, 531, 955, 64, 352, 18, 821, 875, 1291, 820, 358, 9, 461

 Giá trị trung bình của các chênh lệch: 𝒜𝒜𝒜 𝒜𝒜 = 510.33 2. Lấy một nửa giá trị 𝒜𝒜𝒜𝒜𝒜 là 255.17

3. Dựa trên giá trị ở Bước 2, chọn mức độ dài cơ sở là 100 theo Bảng 2.12 4. Làm tròn độ dài 225.17 theo cơ sở 100, chọn ra 300 là giá trị độ dài khoảng.

Dựa vào hai thuật toán này và bằng thực nghiệm, Huarng [11] đã chứng minh rằng độ dài khoảng khác nhau cải thiện được hiệu quả dự báo của mô hình. Cụ thể, áp dụng hai thuật toán trên vào mô hình của Chen [10] để dự báo tuyển sinh đại học của trường đại học Alabama. Huarng đưa ra độ chính xác dự báo MSE = 124707 với

độ dài khoảng dựa trên phân bố là 400 và độ chính xác dự báo MSE = 78792 với độ

dài hiệu quả dựa trên trung bình là 300.

(2). Phân khoảng dựa trên kỹ thuật tính toán mềm

 Phân khoảng sử dụng các thuật toán tối ưu

Có nhiều thuật toán tối ưu khác nhau đã được áp dụng trong các mô hình FTS và được phát triển một cách có hiệu quả bởi nhiều nhà nghiên cứu như: tối ưu đàn kiến [77], tối ưu bầy đàn [18, 42, 78, 79], giải thuật di truyền - GA [15, 16], thuật toán hòa âm [80], vv. Trong số các thuật toán tối ưu, thì PSO được sử dụng rộng rãi nhất trong việc hiệu chỉnh và lựa chọn khoảng với độ dài khác nhau. Thông thường các mô hình chuỗi thời gian mờ sử dụng PSO được thể hiện qua việc kết hợp với các phương pháp khác nhau hình thành mô hình dự báo lai, như được liệt kê trong Bảng 2.13.

Bảng 2.13: Các mô hình FTS sử dụng PSO để phân khoảng kết hợp với các phương pháp khác

Mô hình Phương pháp kết hợp

Kuo và cộng sự [18] Dựa trên luật

Chen and Phuong [42] Dựa trên luật

Kumar and Susan [78] Dựa trên luật

Chen and Kao [79] Học máy SVM

 Phân khoảng sử dụng các thuật toán phân cụm

Trong những năm gần đây, áp dụng về phân cụm dữ liệu trong mô hình chuỗi thời gian mờ ngày càng tăng. Fuzzy C-means (FCM) [70] là một trong các thuật toán phân cụm nổi tiếng đã được áp dụng rộng rãi để phân khoảng dữ liệu trong mô hình FTS và đã được sử dụng trong một số công trình nghiên cứu [78, 79]. Phân cụm FCM

sử dụng trong mô hình dự báo chuỗi thời gian mờ được kết hợp cùng với các kỹ thuật khác để nâng cao hiệu quả dự báo như được chỉ ra trong Bảng 2.14.

Bảng 2.14: Các mô hình FTS sử dụng FCM để phân khoảng kết hợp với các phương pháp khác

Mô hình Phương pháp kết hợp

Egrioglu và cộng sự [28] Mạng nơron

Li và cộng sự [81] Mô hình Markov

Cheng và cộng sự [82] Mạng ANFIS

Trên cơ sở phân tích các công trình có sử dụng các phương pháp phân khoảng nói trên, có thể tóm tắt ưu và nhược điểm của các phương pháp phân khoảng trong Bảng 2.15 như sau:

Bảng 2.15: Ưu và nhược điểm chính của các phương pháp phân khoảng Phương pháp phân

khoảng Ưu điểm Nhược điểm

Phân khoảng có độ dài bằng nhau

- Dễ dàng thực hiện - Không tốn thời gian

Độ chính xác dự báo không cao khi dữ liệu phân bố không đồng nhất

Phân khoảng có độ dài khác nhau

Sử dụng

phân cụm - Độ chính xác tốt Mất thời gian tính toán

Sử dụng tối ưu

- Tìm được vị trí tối ưu của các điểm chia giữa hai khoảng (độ dài khoảng tối ưu)

- Độ chính xác tốt đối với dữ liệu trong mẫu

Mất thời gian tính toán

2.3.3. Các phương pháp phân khoảng đề xuất

Mục này trình bày hai phương pháp phân khoảng dựa trên thuật toán K- means và HA để phân dữ liệu chuỗi thời gian thành các khoảng với độ dài khác nhau nhằm khắc phục các hạn chế của các phương pháp phân khoảng có độ dài bằng nhau. Đồng thời trong mục này cũng trình bày sự kết hợp giữa hai phương pháp phân cụm trên với mô hình dự báo một nhân tố FTS-1NT trong Mục 2.2.1 để

hình thành mô hình dự báo chuỗi thời gian mờ như Hình 2.9 dưới đây. Từ đó, luận án đưa ra các so sánh, đánh giá giữa hai phương pháp phân khoảng này với một số phương pháp phân khoảng khác được thể hiện trong Mục 2.4.4.

Hình 2.9: Các phương pháp phân khoảng khác nhau kết hợp với mô hình FTS-1NT 2.3.3.1 Phân khoảng sử dụng phân cụm K-means

Tiểu mục này thuật toán phân cụm K-means được kết hợp với mô hình dự báo FTS một nhân tố đề xuất trong Mục 2.2.1 (Đặt tên là mô hình dự báo KM-FTS-

1NT), trong đó K-Means được sử dụng để tìm các tâm cụm và từ đó xác định các

khoảng phân chia tập nền. Từ các khoảng thu được bởi K-means, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 của mô hình FTS-1NT trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây và đảm bảo số lượng khoảng không quá lớn hay quá nhỏ thì mô hình KM-FTS-1NT đưa ra số cụm ban đầu lần lượt là 7 và 14. Nội dung của đề xuất này được công bố trong công trình [P7]. Các bước phân khoảng tập nền dựa vào phân cụm K-means được thược hiện như sau:

Bước 1- Áp dụng K-means với số cụm C cho trước là 7 và 14 thu được giá trị của

các cụm như Bảng 2.16:

Bảng 2.16: Kết quả phân cụm trên tập dữ liệu tuyển sinh sử dụng K-means

C = 7 cụm C = 14 cụm 𝒜1 = {13055, 13563}; 𝒜1 = {13055}; 𝒜2 = {13563, 13867}; 𝒜2 = {13867} 𝒜3 = {14696, 15145, 15163};𝒜4 = 𝒜 = {14696, 15145, 15163}3 {15311};15497};𝒜 6= 𝒜5{15603};𝒜= {15433, 15460,7 = {15861, 𝒜4 = {15460, 15311, 15603, 15433, 15497} 15984}; 𝒜8 = {16388}; 𝒜9 = 𝒜5 = {15861, 16388, 15984} {16807};𝒜10 = {16859}; 𝒜11 𝒜6 = {16807, 16919, 16859} ={16919};𝒜12 = 𝒜7 = {18150, 18970, 19328, 19337, 18876} {18150}; 𝒜13={18970, 18876}; 𝒜14 = {19337, 19328}

Ngoài ra, số lượng cụm có thể được chọn bất kỳ sao cho không vượt quá tổng số lượng dữ liệu trong chuỗi thời gian.

Bước 2- Điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau

 Tính tâm của mỗi cụm theo công thức (2.9) 𝒜

v = ∑𝒜=1 𝒜𝒜

Trong đó, 𝒜𝒜 là dữ liệu thứ i trong cụm k.

Dựa vào các tâm cụm thu được, luận án đưa ra các quy tắc sau đây để điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau.

 Giả sử 𝒜𝒜 và 𝒜𝒜+1 (1 ≤ k ≤ C-1) là hai tâm cụm liên tiếp và mỗi cụm 𝒜 𝒜𝒜𝒜𝒜𝒜𝒜𝒜 được gán thành các khoảng 𝒜𝒜 𝒜𝒜𝒜𝒜𝒜 𝒜𝒜, sau đó cận trên và cận dưới của khoảng thứ k tương ứng là _______________ 𝒜 , _______________𝒜+1 được xác theo các công thức (2.10) và (2.11) như sau:

_______________ = vk+ vk+1

𝒜 2

_______________𝒜+1= _______________𝒜

Hai giá trị thuộc cận dưới của khoảng đầu tiên và cận trên của khoảng cuối cùng được tính theo các công thức (2.12) và (2.13) như sau:

_______________1= 𝒜1 (_ (_(_(_(_(_(_(_(_(_(_(_(_(_(_− 1 − 1) (2.12)

_______________𝒜 = 𝒜𝒜 + (((((((((((((( (𝒜 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _− 𝒜 ) (2.13) Dựa trên các quy tắc này, ta thu được các khoảng tương ứng với các cụm

trong Bảng 2.16 và được liệt kê trong Bảng 2.17. Để thấy rõ sự chênh lệch về độ dài trên mỗi khoảng có thể biểu diễn các khoảng như Hình 2.10 dưới đây:

Bảng 2.17: Giá trị của các khoảng từ tập dữ liệu tuyển sinh sử dụng K-means 7 Khoảng (𝒜1, ..., 𝒜7) 14 Khoảng (𝒜1, ..., 𝒜14) 𝒜1 = (13030, 13588] 𝒜1 = (12725, 13385] 𝒜2 = (13588, 14434] 𝒜2 = (13385, 14358] 𝒜3 = (14434, 15231] 𝒜3 = (14358, 15156] 𝒜4 = (15231, 15770] --- 𝒜5 = (15770, 16470] 𝒜12 = (17534.5, 18536.5] 𝒜6 = (16470, 17897] 𝒜13 = (18536.5, 19127.5] 𝒜7 = (17897, 19967] 𝒜14 = (19127.5, 19536.5]

Hình 2.10: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng K-means 2.3.3.2 Phân khoảng sử dụng Đại số gia tử

thích từng bước phân khoảng cũng như việc thử nghiệm cho mô hình, luận án tiếp tục sử dụng tập dữ liệu truyển sinh đại học Alabama [8]. Trước tiên, HA được áp dụng để phân tập dữ liệu tuyển sinh thành các khoảng liền kề với độ dài khác nhau bằng việc ánh xạ định lượng các hạng từ ngôn ngữ thành các khoảng mờ. Sau đó, dựa vào các khoảng thu được từ HA, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây, mô hình HA-FTS-1NT cũng đưa ra số khoảng ban đầu lần lượt là 7 và 14, tương ứng với số hạng từ ngôn ngữ trong HA. Nội dung của đóng góp này được công bố trong công trình [P5, P8]. Các bước chia khoảng tập nền dựa vào HA được thược hiện như sau:

Bước 1- Xác định tập nền của chuỗi dữ liệu quan sát

Một phần của tài liệu Một số phương pháp nâng cao độ chính xác dự báo trong mô hình chuỗi thời gian mờ. (Trang 68)

Tải bản đầy đủ (DOC)

(140 trang)
w