Giai đoạn huấn luyện bao gồm các thao tác như: tiền xử lý (nếu cần), phân khoảng tập nền, mờ hóa dữ liệu, xác định quan hệ mờ và nhóm quan hệ mờ. Mục đích của giai đoạn này là tạo ra các giá trị ngôn ngữ của biến ngôn ngữ 𝒜̃ được biểu diễn bởi các tập mờ và trích xuất, biểu diễn các tri thức để thiết lập mô hình chuỗi thời gian mờ và được lưu trong cơ sở kiến thức mô hình. Các thành phần chính của giai
đoạn này được minh họa trong Hình 1.5 và được trình bày thông qua các bước dưới đây:
Hình 1.5: Các thành phần trong giai đoạn huấn luyện.
Bước 1- Tiền xử lý (nếu cần): Trước tiên, một hoặc một số thao tác biến đổi dữ liệu
tiền xử lý có thể được áp dụng cho dữ liệu đầu vào 𝒜(𝒜)∈ 𝒜 như làm giảm nhiễu hoặc khử các thành phần xu hướng hay mùa hoặc thay đổi tập nền U.
Bước 2- Phân khoảng dữ liệu: Một trong những bước quan trọng trong mô hình
thành k khoảng có độ dài bằng hoặc khác nhau tùy thuộc vào từng kỹ thuật phân khoảng. Khi thực hiện phân khoảng thì các thuộc tính như độ dài hay số lượng khoảng cũng như hàm thuộc sẽ được xác định.
Một số đặc tính liên quan đến bước phân khoảng được trình bày sau đây: + Tập nền (Universe of discours - U)
Giả sử 𝒜𝒜𝒜𝒜 và 𝒜𝒜𝒜𝒜 là giới hạn dưới và giới hạn trên của tập nền U. Dựa trên 𝒜𝒜 𝒜𝒜 và 𝒜𝒜𝒜𝒜, xác định được tập nền U như sau: U=[[[[[[[[[[[[[[[ 𝒜 𝒜𝒜 , 𝒜𝒜𝒜𝒜 ]. Với 𝒜𝒜𝒜𝒜 = 𝒜𝒜 𝒜𝒜 − 𝒜1 và 𝒜𝒜𝒜𝒜 = 𝒜𝒜𝒜𝒜 + 𝒜2 ; trong đó 𝒜𝒜𝒜𝒜, 𝒜𝒜𝒜𝒜 là giá trị nhỏ nhất và lớn nhất của chuỗi dữ liệu và 𝒜1, 𝒜2 là hai số dương được chọn sao cho tập nền U bao trọn các giá trị lịch sử của chuỗi thời gian Y(t) hoặc các giá trị dự báo không nằm
ngoài tập nền được xác định. Mục đích của việc chọn hai giá 𝒜1 và 𝒜2 là đảm bảo dao động của chuỗi dữ liệu nằm trong giới hạn của tập nền và giúp cho quá trình mờ hóa có hiệu lực cũng như giúp cho mô hình dự báo đạt được độ chính xác mong muốn. Có thể chọn hai số 𝒜1 và 𝒜2 theo cách trực giác như trong các công trình [8- 10, 60 - 62] hoặc bằng cách sử dụng kỹ thuật tối ưu tiến hóa [63].
+ Hàm thuộc
Khi tập nền U được xác định thì ba đặc tính như số lượng khoảng, hàm thuộc và kỹ thuật phân khoảng được xem xét để xác định các giá trị ngôn ngữ của biến ngôn ngữ 𝒜̃: Hàm thuộc 𝒜𝒜: U → [0; 1] dùng để xác định xem có bao nhiêu giá trị rõ nằm trong khoảng [0, 1] thuộc về một tập mờ 𝒜𝒜 . Ví dụ, phân khoảng đơn giản
sử dụng các hàm thuộc tam giác, hàm thuộc hình thang và Guass được minh họa trong Hình 1.6.
+ Số lượng khoảng k
Việc lựa chọn số khoảng và độ dài khoảng là quan trọng sau khi xác định được tập nền, nó ảnh hưởng đáng kể đến độ chính xác và sự phù hợp của mô hình dự báo. Số lượng khoảng ảnh hưởng trực tiếp đến phân tích mô hình, chẳng hạn với một mô hình dạng luật thì số lượng luật tối đa là tích Decart giữa các tập mờ 𝒜𝒜 ∈ 𝒜̃ cho mỗi bậc của mô hình. Huarng [11] đã chỉ ra độ dài khoảng hay số lượng khoảng có ảnh hưởng rất lớn đến hiệu quả dự báo của mô hình. Nếu số lượng khoảng k nhỏ sẽ tạo ra
ít tập mờ để biểu diễn dữ liệu một cách chính xác, dẫn đến sai số dự báo lớn. Ngược lại số lượng khoảng chia quá lớn sẽ tạo ra nhiều tập mờ hoặc có thể tạo ra nhiều khoảng không chứa dữ liệu, dẫn đến mô hình dự báo có thể mất ý nghĩa về tính mờ của giá trị ngôn ngữ khi không còn nhóm quan hệ mờ. Số lượng khoảng chia phù hợp phải được tối ưu hóa cho từng bài toán, cân bằng độ chính xác và tính phù hợp của mô hình. Ảnh hưởng của phân khoảng tập nền U cũng có thể thấy bởi các quan điểm khác như: kinh nghiệm của con người và khả năng giải thích từ mô hình. Một biến
ngôn ngữ 𝒜̃ được đưa ra để hợp lý cho sự hiểu biết của con người hay kinh nghiệm chuyên gia phải xung quanh số lượng tập mờ hay số lượng khoảng đã cho, nhưng điều này tùy thuộc vào phạm vi của tập nền và xu hướng của dữ liệu.
Sau khi lựa chọn số khoảng hoàn tất, thì các giá trị ngôn ngữ của biến ngôn ngữ 𝒜̃ được xác định dựa trên quá trình mờ hóa.
Bước 3- Mờ hóa dữ liệu: Mục đích của bước này nhằm chuyển đổi các giá trị rõ 𝒜𝒜((((((((((((((()
∈ Y thành các giá trị mờ 𝒜𝒜 ((((((((((((((() ∈ ((((((((((((((() trên cơ sở các tập mờ đã xác định. Có nhiều cách khác nhau mà quá trình mờ hóa có thể được thực hiện như sử dụng hàm thuộc tam giác [8-10], hình thang [60] và mạng lưới thần kinh [28, 64, 65].
Khi dữ liệu rõ Y được chuyển đổi thành dữ liệu mờ F, thì quá trình trích rút
và biểu diễn tri thức được thực hiện.
Bước 4- Biểu diễn và trích rút tri thức: Mục đích của quá trình này nhằm tạo ra một
kiến thức mô hình dự báo bằng cách thực hiện nhận dạng mẫu trên dữ liệu đã được mờ hóa và huấn luyện các mẫu dữ liệu dựa trên các tham số và các kết quả tạo ra bởi các bước trước đó. Một trong các nhiệm vụ quan trọng của quá trình trích rút tri thức là tạo ra các luật dự báo phù hợp nhất có thể. Công việc này có thể được thực hiện bằng cách sử dụng một trong các phương pháp như: sử dụng ma trận quan hệ mờ, nhóm quan hệ mờ, mạng nơron, vv.
Khi thực hiện xây dựng mô hình dự báo thì các đặc tính như bậc của quan hệ và nhân tố của mô hình được xác định. Sau đó các luật mờ được huấn luyện trên mỗi bậc cụ thể. Dựa trên các luật này, các quy tắc giải mờ sẽ được khai thác để tính toán kết quả đầu ra trên một mô hình chuỗi thời gian mờ cụ thể.