30
CHƯƠNG 2: KHÁI NIỆM VỀ CHUỖI THỜI GIAN MỜ VÀ CÁC PHƯƠNG PHÁP
2.1 Khái niệm về chuỗi thời gian mờ
2.1.1 Định nghĩa chuỗi thời gian mờ
Giả sử U là không gian nền, không gian nền này xác định một tập hợp các đối tượng cần nghiên cứu. Nếu A là một tập con rõ của U thì ta có thể xác định chính xác một hàm đặc trưng:
𝜇𝐴(𝑥) = {
0 𝑛ế𝑢 𝑥 𝑛ằ𝑚 𝑛𝑔𝑜à𝑖 𝐴 1 𝑛ế𝑢 𝑥 𝑛ằ𝑚 𝑡𝑟𝑜𝑛𝑔 𝐴
Nhưng với một tập mờ B trong không gian nền U thì phần tử x không xác định chính xác được. Khi đó ta có định nghĩa:
𝜇𝐴 : U [0.1]
𝜇𝐴 được gọi là hàm thuộc (Membership function). Còn với bất kỳ một phần tử u nào của A thì hàm 𝜇𝐴(u) được gọi là độ thuộc của u vào tập mờ A. Giả sử Y(t) là chuỗi thời gian (t = 0, 1, 2,…)
U là tập nền chứa khoảng giá trị của chuỗi thời gian từ nhỏ nhất đến lớn nhất.
Xác định hàm thuộc 𝜇𝐴: U [0.1] của tập mờ A, còn tập A trên không gian nền U được viết như sau:
A = {( 𝜇𝐴(u1) / u1, 𝜇𝐴(u2) / u2,…, 𝜇𝐴(un )/ un,: ui∊ U; i = 1, 2, …, n}
𝜇𝐴(ui) là độ thuộc của uivào tập A hay cách viết khác: 𝐴 = 𝐴𝑢1 𝑢1 + 𝐴𝑢2 𝑢2 + ⋯ 𝐴𝑢𝑛 𝑢𝑛
31
2.1.2 Một số định nghĩa liên quan đến chuỗi thời gian mờ
- Định nghĩa 1 :Y(t) (t =...0,1,2,...) là một tập con của R1. Y(t) là tập nền trên đó xác định các tập mờ fi(t). F(t) là tập chứa các tập fi(t) (i = 1,2,...). Khi đó ta gọi F(t) là chuỗi thời gian mờ xác định trên tập nền Y(t).
- Định nghĩa 2:Tại các thời điểmtvàt-1có tồn tại một mối quan hệmờ giữa
F(t) và F(t-1) sao cho F(t) = F(t-1) * R(t-1, t) trong đó * là ký hiệu của một toán tử xác định trên tập mờ. R(t-1, t) là mối quan hệ mờ. Ta cũng có thể ký hiệu mối quan hệ mờ giữa F(t) và F(t-1) bằng F(t-1)F(t).
Nếu đặt F(t-1) = Ai và F(t) = Aj thì ta ký hiệu mối quan hệ logic mờ giữa chúng như sau: Ai Aj.
- Định nghĩa 3: Nhóm các mối quan hệmờ.
Các mối quan hệ logic có thể gộp lại thành một nhóm nếu trong ký hiệu trên, cùng một vế trái sẽ có nhiều mối quan hệ tại vế phải. Thí dụ nếu ta có các mối quan hệ: Ai Ak ; Ai Am thì ta có thể gộp chúng thành nhóm các mối quanhệ logic mờ sau: Ai Ak,Am.
- Định nghĩa 4: Giả sử F(t) suy ra từ F(t-1) và F(t) = F(t-1) * R(t-1, t) với mọi t. Nếu R(t-1, t) không phụ thuộc vào t thì F(t) được gọi là chuỗi thời gian mờ dừng, còn ngược lại ta có chuỗi thời gian mờ không dừng.
- Định nghĩa 5: Giả sửF(t)suy đồng thời từ F(t-1), F(t-2),…,F(t-m) m>0 và là chuỗi thời gian mờ dừng. Khi đó mối quan hệ mờ có thể viết được F(t-1), F(t-2),…, F(t-m) F(t) và gọi đó là mô hình dựbáo bậc m của chuỗi thời gian mờ.
32
2.2 Một số thuật toán dự báo trong mô hình chuỗi thời gian mờ
2.2.1 Thuật toán của Song & Chissom
Song et. al. và Chissom đã đưa ra đề xuất mô hình thuật toán mô tả chuỗi thời gian mờ vào năm 1993 [7]:
Giả sử U là không gian nền: U = {u1, u2,…, un}. Tập A là mờ trên không gian nền U nếu A được xác định bởi hàm:
𝜇𝐴: U [0.1]
𝜇𝐴 được gọi là hàm thuộc (Membership function). Còn với bất kỳ một phần tử u nào của A thì hàm 𝜇𝐴(u) được gọi là độ thuộc của u vào tập mờ A.
Tập mờ A trên không gian nền U được viết như sau: 𝐴 = 𝜇𝐴𝑢1 𝑢1 + 𝜇𝐴𝑢 2 𝑢2 + ⋯ 𝜇𝐴𝑢 𝑛 𝑢𝑛 Thuật toán gồm các bước như sau:
Bước1:Xác định tập vũ trụ U trên đó các tập mờ được xác định.
Bước 2: Chia các tập nền U thành một số các đoạn bằng nhau.
Bước 3: Xác định các biến ngôn ngữ để diễn tả các tập mờ trên các khoảng đã chia của tập nền.
Bước 4: Mờhoá các giá trị lịch sửcủa chuỗi thời gian.
Bước 5: Chọn tham số w >1 thích hợp và tính Rw(t,t-1) và dự báo theo công thức sau: F(t) = F(t - 1)*Rw(t, t - 1)
33
Trong đó F(t) là giá trị dự báo mờ tại thời điểm t còn F(t-1) là giá trị dự báo mờ tại thời điểm t -1. Mối quan hệ mờ được tính như sau:
Rw(t, t - 1) = FT(t – 2) × F(t - 1) FT(t - 3) × F(t - 2) …FT(t - w) × F(t – w + 1)
Trong đó T là toán tử chuyển vị, dấu “×” là toán tử tích Cartesian còn w
được gọi là “tham số cơ sở” mô tả số lượng thời gian trước thời điểm t.
Bước 6: Giải mờgiá trịdựbáo mờ.
2.2.2 Thuật toán của Chen
Chen đã có một số cải tiến thay vì để tính mối quan hệ mờ bằng các phép tính min-max chỉ cần sử dụng các phép tính số học đơn giản [8]. Để thực hiện được công việc này, Chen đã đề xuất khái niệm nhóm quan hệ mờ và sử dụng khái niệm này như giá trị dự báo mờ. Công việc giải mờ thực hiện đơn giản là tính giá trị trung bình của tổng các điểm giữa của khoảng. Thuật toán của Chen bao gồm một số bước sau:
Bước 1: Xác định tập U bao gồm khoảng giá trị của chuỗi thời gian. Khoảng này xác định từ giá trị nhỏ nhất đến giá trị lớn nhất có thể của chuỗi thời gian.
Bước 2: Chia khoảng giá trị và xác định các tập mờ trên tập U.
Bước 3: Mờ hoá các dữ liệu chuỗi thời gian.
Bước 4: Thiết lập các mối quan hệ mờ và nhóm các quan hệ mờ.
Bước 5: Sử dụng các quy tắc xác định các giá trị dự báo trên nhóm các quan hệ mờ.
34
Bước 6: Dự báo và giải mờ. Trong bước dự báo chuỗi thời gian mờ được thực hiện như sau:
Trường hợp 1: Nếu Aj Ai và giá trị hàm thuộc của Aj đạt giá trị
maximum tại đoạn uivà điểm giữa của ui là mi thì dự báo của chuỗi thời gian tại thời điểm i là mi.
Trường hợp 2: Nếu ta có các mối quan hệ logic mờ hình thành nhóm quan hệ logic mờ sau:
Ai Aj1,Aj2,...Ajp
thì giá trị dự báo sẽ là Ai1,Ai2, Aj1,...Ajp
Khi đó giải mờ giá trị dự báo sẽ là: 𝑚𝑗1+ 𝑚𝑗2+ ⋯ + 𝑚𝑗𝑝
𝑝
Trong đó mj1, mj2, ... m1p là điểm giữa của các đoạn ui
Trường hợp 3: Nếu vế phải của mối quan hệ mờ là trống như trường hợp sau:
Ai∅
thì giá trị dự báo sẽ là Ai và giải mờ giá trị này sẽ là trung điểm mi của đoạn ui.
2.3 Một số phương pháp chia khoảng
Trong phần này, tôi giới thiệu hai phương pháp chia khoảng dựa trên sự phân bố giá trị và dựa trên giá trị trung bình [9].
35
2.3.1 Phương pháp độ dài dựa trên sự phân bố giá trị
Đặc trưng của phương pháp chia khoảng này là: Dựa vào độ dài bảng cơ sở cho trước và sự tích lũy của hiệu các độ dài. Chọn độ dài của khoảng có sự tích lũy lớn nhất nhưng phải nhỏ hơn nửa số lượng tích lũy của các hiệu độ dài.
Phương pháp này được thực hiện như sau:
1.Tính toàn bộ hiệu số tuyệt đối giữa các giá trị fi + 1 và fi(i = 1, …, n - 1), hiệu số bậc một và trung bình của hiệu số bậc một.
2. Dựa vào trung bình của hiệu số bậc một, xác định cơ sở độ dài của khoảng dựa vào bảng ánh xạ cơ sở (Bảng 2.1)
Phạm vi Cơ sở 0.1-1.0 0.1 1.1- 10 1 11-100 10 101-1000 100 Bảng 2.1. Cơ sở ánh xạ
3.Lập bảng ghi lại sự phân bố tích lũy của sai phân cấp một.
4. Theo cơ sở xác định ở bước 2 và kết quả bước 3, chọn độ dài của khoảng có sự tích lũy lớn nhất nhưng phải nhỏ hơn nửa số lượng tích lũy của các hiệu độ dài của sự khác biệt.
2.3.2 Phương pháp độ dài dựa trên giá trị trung bình
Đặc trưng của phương pháp chia khoảng này là: Dựa vào một nửa trung bình của hiệu số bậc một và bảng cơ sở cho trước để xác định độ dài của khoảng.
36
1.Tính toàn bộ hiệu số tuyệt đối giữa các giá trị fi + 1 và fi (i = 1, …, n - 1), hiệu số bậc một và trung bình của hiệu số bậc một.
2.Lấy một nửa giá trị trung bình của hiệu số độ dài ở bước 1.
3.Theo độ dài trong bước 2, xác định cơ sở cho độ dài của khoảng bằng cách dựa vào (Bảng 2.1).
4.Làm tròn độ dài theo bảng cơ sở để xác định độ dài của khoảng.
2.4 Thuật toán mô hình dự báo dựa trên chuỗi thời gian mờ của Jens Rúni Poulsen (hay Jens Poulsen) Rúni Poulsen (hay Jens Poulsen)
Trong 15 năm gần đây, các mô hình chuỗi thời gian mờ (FTS) khác nhau đã được đề xuất. Các mô hình chuỗi thời gian mờ đã được sử dụng để đưa ra các dự đoán về thị trường chứng khoán, tuyển sinh đại học, tai nạn xe hơi ... Song và Chissom [7] đã giới thiệu khái niệm chuỗi thời gian mờ dựa trên lý thuyết tập mờ. Song và Chissom đã đưa ra dự báo về việc tuyển sinh của Đại học Alabama sử dụng chuỗi thời gian mờ bất biến thời gian và biến thiên thời gian. Sau đó, nhiều phương pháp dự báo mờ đã được trình bày với một mục tiêu là để tìm ra một kết quả dự báo tốt hơn hoặc để tính toán nhanh hơn. Sau khi xem xét các tài liệu, người ta nhận thấy rằng, các mô hình bậc cao hơn có khả năng nhận thức chính xác hơn. Mô hình có bậc càng tăng thì càng ít sử dụng dữ liệu hơn. Nhiều tác giả đã đưa ra chi tiết về sự mờ hóa của dữ liệu, nhưng chỉ có cách tiếp cận giải mờ đúng đắn đã được trình bày bởi Jens Poulsen [6]. Jens Poulsen đã phát triển một thuật toán của mô hình dự báo dựa trên chuỗi thời gian mờ, cung cấp tỷ lệ chính xác dự báo cao hơn so với các đối tượng bậc cao khác cũng như đề xuất phương pháp cải thiện việc sử dụng dữ liệu.
37
Bước 1: Xác định tập vũ trụ (tập nền) U và phân vùng nó vào khoảng cách tương đương nhau
Tập vũ trụ U được định nghĩa là [Xmin - X1, Xmax + X2] U = [Xmin - X1, Xmax + X2]
trong đó:
Xmin và Xmax là những giá trị lịch sử nhỏ nhất và lớn nhất.
Các biến X1 và X2 là hai số dương, được lựa chọn phù hợp theo giới hạn dữ liệu.
Bước 2: Mờ hóa dữ liệu lịch sử
Thuật toán mờ hóa (FA) đề xuất bởi Jens Rúni Poulsen [6] tạo ra một loạt các tập mờ hình thang từ một tập dữ liệu được sắp xếp trước và bắt đầu mối liên hệ giữa các giá trị trong tập dữ liệu và các tập mờ được tạo ra. Thuật toán này được lấy cảm hứng từ phương pháp mờ hóa hình thang đề xuất bởi Cheng và cộng sự [4]. Các tập mờ hình thang có ranh giới chồng chéo được sử dụng ở đây thay vì khoảng thời gian rõ nét, mà được định nghĩa bởi người sử dụng ở bước đầu tiên của thời gian mờ. Sự chồng chéo này hàm ý rằng một giá trị có thể thuộc nhiều tập. Nếu một giá trị thuộc nhiều tập hợp, nó sẽ được kết hợp với tập hợp mà ở đó mức độ thành viên của nó là tối đa. Thuật toán mờ hóa (FA) tự động tính toán các khoảng / tập mờ.
Ý tưởng cơ bản của thuật toán là lặp lại thủ tục mờ hóa khi tập dữ liệu được cập nhật. Thủ tục này là một quy trình gồm sáu bước như sau:
1. Sắp xếp các giá trị theo thứ tự tăng dần.
2. Tính khoảng cách trung bình giữa hai giá trị liên tiếp trong bộ dữ liệu
được sắp xếp và độ lệch tiêu chuẩn tương ứng. Khoảng cách trung bình được cho bởi phương trình như sau:
38
Khoảng cách trung bình (𝑥1… . . 𝑥𝑛) = 1
𝑛−1∑𝑛−1𝑖−1 |𝑥𝑝(𝑖) − 𝑥𝑝(𝑖+1)|
Độ lệch tiêu chuẩn được tính là σ: 𝜎 = √1
𝑛∑ 𝑥𝑖
𝑛 𝑖−1
− 𝑘ℎ𝑜ả𝑛𝑔 𝑐á𝑐ℎ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ)
3. Loại bỏ các giá trị ngoại lai từ bộ dữ liệu được sắp xếp. Một giá trị
ngoại lai, trong ngữ cảnh này, được định nghĩa là một giá trị nhỏ hơn hoặc lớn hơn một độ lệch chuẩn so với mức trung bình.
4. Tính toán khoảng cách trung bình được sửa đổi giữa hai giá trị còn lại
tiếp theo trong tập dữ liệu được sắp xếp.
5. Tập vũ trụ được tính bằng cách lấy khoảng cách trung bình được sửa
đổi từ giá trị thấp nhất và thêm khoảng cách trung bình được sửa đổi vào giá trị cao nhất.
6. Tập dữ liệu mờ sử dụng phương pháp tiếp cận mờ hóa hình thang. Sử
dụng các hàm hình thang, mức độ thành viên, cho một hàm μA và một giá trị xác định x, được lấy theo phương trình sau đây:
𝝁𝑨 = { 𝑥 − 𝑎1 𝑎2− 𝑎1, 𝑎1 ≤ 𝑥 ≤ 𝑎2 1, 𝑎1 ≤ 𝑥 ≤ 𝑎2 𝑎4 − 𝑥 𝑎4 − 𝑎3, 𝑎3 ≤ 𝑥 ≤ 𝑎4 𝑧𝑒𝑟𝑜, 𝑛ế𝑢 𝑘ℎô𝑛𝑔 𝑡ℎì
Số lượng các tập con được xác định trên U và được tính bởi:
Ns = Ru - S / 2S
trong đó:
39
Trong phương trình này, S biểu diễn độ dài đoạn. S = Ru / 2 Ns +1. Phạm vi, Ru, được tính bởi = (Upper Bound - Lower Bound), ở đó các giới hạn trên = (Xmax + Khoảng cách trung bình đã được chỉnh sửa) và giới hạn dưới = (Xmax - Khoảng cách trung bình đã được chỉnh sửa) của U.
Độ dài đoạn, S tương đương với Khoảng cách trung bình đã được chỉnh sửa, từ đó tạo thành chiều dài của chiều dài lan truyền trái, chiều dài lõi và chiều dài lan truyền phải của hàm thành viên. Trong hàm thành viên hình thang chiều dài lan truyền trái, chiều dài lõi và chiều dài lan truyền phải là bằng với khoảng cách trung bình đã được chỉnh sửa.
Bước 3: Xác định các mối quan hệ mờ và các nhóm để dự đoán
Mối quan hệ được xác định từ các dữ liệu lịch sử đã được mờ hóa. Nếu biến chuỗi thời gian F(t-1) được mờ hóa thành Ai và F(t) thành Aj, thì Ai có liên quan đến Aj. Mối quan hệ này được gọi là Ai Aj, trong đó Ai là trạng thái hiện tại của sự kiện và Aj là trạng thái tiếp theo của sự kiện đó.
Tập hợp đầy đủ các mối quan hệ được xác định từ dữ liệu tập mờ. Tương tự mối quan hệ xảy ra nhiều hơn một lần được bỏ qua vì có thể chỉ có một sự kết hợp duy nhất. Việc thiết lập các nhóm mối quan hệ mờ được thực hiện bằng cách xác định các tập mờ với nhiều mối quan hệ tương tự và hợp nhất phía bên tay phải của mối quan hệ mờ.
Các nhóm quan hệ mờ bậc hai cũng được thiết lập bởi thuật toán này như
F(t-2), F(t-1), F(t). Tuy nhiên, nếu có hai (tập mờ) giống nhau khác tồn tại về bên trái cho một nhóm mối quan hệ mờ đặc biệt, thì quan hệ bậc ba tương ứng được thiết lập như F(t-3), F(t-2), F(t-1), F(t ).
Thuật toán lấy giá trị dự đoán từ tập số mờ dự đoán và do đó tất cả các dự đoán được thực hiện.
40
2.5 Thuật toán phân cụm mờ - Thuật toán K-means
Thuật toán phân cụm K-means do MacQueen đề xuất lĩnh vực thống kê năm 1967, K-means là thuật toán phân cụm trong đó các cụm được định nghĩa bởi trọng tâm của các phần tử. Phương pháp này dựa trên độ đo khoảng cách tới giá trị trung bình của các đối tượng dữ liệu trong cụm, nó được xem như là trung tâm của cụm. Như vậy, nó cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu, và thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần, và tính toán tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng. Quá trình lặp này dừng khi các trung tâm hội tụ.
Hình 2.15. Các thiết lập để xác định các ranh giới các cụm ban đầu
Trong phương pháp K-means, chọn một giá trị k là số cụm cần xác định và sau đó chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu. Tính toán khoảng cách giữa đối tượng dữ liệu và trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đó. Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của cụm nào đó.
Mục đích của thuật toán K-means là sinh k cụm dữ liệu {C1, C2,…,Ck} từ một tập dữ liệu ban đầu chứa n đối tượng trong không gian d chiều Xi ={Xi1,
41
Xi2,…, Xin}, i = 1,n, sao cho hàm tiêu chuẩn: