1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử

119 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Dự Báo Chuỗi Thời Gian Ngôn Ngữ Dựa Trên Đại Số Gia Tử
Tác giả Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ
Trường học Trường Đại học Tây Bắc
Chuyên ngành Hệ thống thông tin
Thể loại luận án
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 119
Dung lượng 0,9 MB

Nội dung

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOVIỆN HÀN LÂM KHOA HỌCVÀ CÔNG NGHỆ VIỆT NAMHỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGUYỄN DUY HIẾU

DANH MỤC CÔNG TRÌNH CÔNG BỐ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮDỰA TRÊN ĐẠI SỐ GIA TỬ

Chuyên ngành: Hệ thống thông tinMã số: 9 48 01 04

Hà Nội, 2022

Trang 2

DANH MỤC CÔNG TRÌNH

1 Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ, “Dự báo chuỗi thời

gian mờ dựa trên ngữ nghĩa”, Kỷ yếu Hội nghị Quốc gia lần thứ 8 vềNghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), pp 232-

243, Hà Nội, 2015.

2 Nguyễn Duy Hiếu, Nghiêm Văn Tính, Vũ Như Lân, “Một phương pháp

mới dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ”, Kỷ yếuHội nghị Quốc gia lần thứ 9 về Nghiên cứu cơ bản và ứng dụng Côngnghệ thông tin (FAIR), pp 435-443, Cần Thơ, 2016.

3 Nguyễn Duy Hiếu, “Tối ưu tham số trong bài toán dự báo chuỗi thời

gian mờ sử dụng đại số gia tử”, Tạp chí Khoa học Trường Đại học TâyBắc, pp 108-119, vol.12, 2018.

4 Nguyen Duy Hieu, Nguyen Cat Ho, Vu Nhu Lan, “An efficient fuzzy

time series forecasting model based on quantifying semantics of words”,

in The 14th IEEE-RIVF International Conference on Computing andCommunication Technologies, Ho Chi Minh, 2020.

5 Nguyen Duy Hieu, Nguyen Cat Ho, Vu Nhu Lan, “Enrollment

Forecasting Based on Linguistic Time Series”, Journal of ComputerScience and Cybernetics, vol 36, no 2, pp 119–137, 2020.

6 Nguyen Duy Hieu, Pham Dinh Phong, “A Novel High-order Linguistic

Time Series Forecasting Model with the Growth of Declared Word-set”,

International Journal of Advanced Computer Science and Applications,

vol.12, no.6, pp 63-71, 2021 (ESCI, Scopus).

7 Nguyen Duy Hieu, Nguyen Cat Ho, Pham Dinh Phong, Vu Nhu Lan,

Pham Hoang Hiep, “Scalable human knowledge about numeric time series

variation and its role in improving forecasting results”, Journal ofComputer Science and Cybernetics, vol 38, no 2, pp 103–130, 2022.

8 Pham Dinh Phong, Nguyen Duy Hieu, Mai Van Linh, “A Hybrid

Linguistic Time Series Forecasting Model combined with Particle

Swarm Optimization”, in Proc of the International Conference onElectrical, Computer and Energy Technologies (ICECET 2022), Prague,

2022.

Trang 3

Kỷ yếu Hội nghị Quốc gia lần thứ 8 về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015DOI: 10.15625/vap.2015.000156

DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ NGHĨANguyễn Duy Hiếu1, Vũ Như Lân2,3 , Nguyễn Cát Hồ2,4

1Trường Đại học Tây Bắc

2Viện Công nghệ thông tin, Viên Hàn lâm Khoa học và Công nghệ Việt Nam

3Trường Đại học Thăng Long

4Trường Đại học Duy Tân

hieu3210@gmail.com, vnlan@ioit.ac.vn, ncatho@gmail.com

TÓM TẮT— Bài toán dự báo chuỗi thời gian mờ đã được nhiều tác giả quan tâm nghiên cứu như: Song, Chissom, S M.

Chen… Các nghiên cứu tập trung giải quyết việc nâng cao độ chính xác của đầu ra dự báo Có nhiều phương pháp đã được đưa ranhằm cải tiến mô hình dự báo ban đầu của Song, Chissom, Chen với trung bình sai số bình phương (MSE) ngày càng thấp Trongvài năm trở lại đây, đại số gia tử đã được ứng dụng có hiệu quả trong nhiều bài toán như điều khiển, phân lớp, tính toán trên từ …với nhiều kết quả tốt hơn so với tiếp cận mờ Điểm quan trọng và khác biệt của đại số gia tử là xem xét các biến ngôn ngữ trongquan hệ thứ tự vốn có của chính các giá trị ngữ nghĩa Bài báo này trình bày về cách tiếp cận mới dựa trên đại số gia tử theo ngữnghĩa trong bài toán dự báo chuỗi thời gian mờ Mô hình dự báo chuỗi thời gian mờ bằng đại số gia tử sẽ được kiểm định qua cáckết quả tính toán dự báo dựa trên dữ liệu sinh viên nhập học của Trường Đại học Alabama từ năm 1971 đến 1992 mà nhiều tác giảtrên thế giới sử dụng Qua đó có thể thấy được hiệu quả của mô hình dự báo đề xuất mới.

Từ khóa— Chuỗi thời gian, mô hình dự báo chuỗi thời gian mờ, chuỗi thời gian mờ, đại số gia tử, ngữ nghĩa.

I MỞ ĐẦU

Trong thực tế, chúng ta gặp rất nhiều các dữ liệu dạng chuỗi thời gian như: nhiệt độ trung bình của một vùngtheo ngày, chỉ số chứng khoán, giá vàng… Những dữ liệu ấy thường được biểu diễn dạng chuỗi giá trị biến đổi theothời gian Bài toán dự báo cho dữ liệu chuỗi thời gian luôn là vấn đề được quan tâm của các nhà khoa học trên thế giới.Q Song và B.S Chissom lần đầu tiên đưa ra khái niệm về chuỗi thời gian mờ, nghĩa là xem xét giá trị định lượng củacác giá trị trong chuỗi thời gian từ góc độ định tính Từ đó, chuyển bài toán dự báo về việc dự báo các giá trị ngôn ngữcủa các biến ngôn ngữ Khi đó có thể sử dụng các luật mờ, các suy luận mờ để có thể đưa ra kết quả dự báo Đây có thểcoi là quan niệm mới, có tính đột phá Mô hình dự báo chuỗi thời gian của Q Song và B.S Chissom [1, 2, 3] đưa rakhả năng dự báo qua quá trình dự báo lại các dữ liệu lịch sử, tuy nhiên độ chính xác chưa cao S Chen trong nhữngnghiên cứu của mình [4, 5, 6, 7] đã thay đổi các tính toán của trong [2, 3] thành các phép tính số học đơn giản hơn.Tiếp nối những nghiên cứu đó, nhiều nghiên cứu khác đã thu những kết quả quan trọng [8, 19, 20, 21] trong việc dựbáo về chuỗi thời gian mờ Bài báo số [18] là nghiên cứu đầu tiên về dự báo chuỗi thời gian mờ tại Việt Nam.

Các nghiên cứu về mô hình dự báo chuỗi thời gian tập trung giải quyết việc nâng cao độ chính xác của kết quảdự báo Trong chuỗi thời gian mờ có thể thấy hai yếu tố ảnh hưởng tới độ chính xác dự báo:

 Mờ hoá dữ liệu. Giải mờ.

Việc mờ hoá dữ liệu đòi hỏi phải có kinh nghiệm và trực giác tốt để có thể mô tả định tính các giá trị định lượngmột cách phù hợp Tham số quan trọng trong việc mờ hoá đó là số lượng khoảng chia, độ dài khoảng chia và bậc củachuỗi thời gian mờ Nếu số lượng khoảng chia quá ít, dự báo có thể có độ chính xác thấp do thiếu thông tin Nếu sốlượng khoảng chia quá lớn, dự báo có thể mất hết ý nghĩa về tính mờ của giá trị ngôn ngữ khi không còn nhóm quan hệmờ vì có thể tạo ra nhiều khoảng không chứa dữ liệu hoặc chỉ chứa một dữ liệu Việc tìm ra số lượng khoảng chia phùhợp là một vấn đề khó khăn Ngoài ra, để tăng độ chính xác người ta cũng có thể tăng bậc của chuỗi thời gian mờ Từđó xây dựng được những nhóm quan hệ mờ phù hợp có lợi cho dự báo sau này.

Giải mờ là quá trình dự báo trên cơ sở phép mờ hoá trên đây và cần hướng tới dự báo tối ưu.

Những nghiên cứu tập trung giải quyết hai vấn đề trên để nâng cao độ chính xác dự báo Vấn đề thứ nhất có thểthấy rõ trong các nghiên cứu [5, 6, 7] Theo đó, các nghiên cứu chỉ rõ rằng: số lượng khoảng, độ dài khoảng và bậccủa chuỗi thời gian mờ ảnh hưởng nhiều tới độ chính xác của dự báo Vấn đề nghiên cứu tìm ra những giá trị đó phùhợp cũng đã có nhiều kết quả Ngoài ra, các tác giả cũng đưa ra những cách tiếp cận khác như phân cụm, tham số hoámức độ thay đổi của chuỗi thời gian Vấn đề thứ hai là giải mờ để tìm ra giá trị dự báo Theo S Chen [4] thì cần dùng 3luật cơ bản để giải quyết vấn đề này Có thể coi phép giải mờ này dựa trên cơ sở trung bình hoá các trọng số có giá trịngôn ngữ trong nhóm quan hệ mờ.

Cách tiếp cận theo lý thuyết mờ cho bài toán dự báo chuỗi thời gian đã tìm ra được nhiều cách làm hay, nhiềuphương pháp tốt để có thể ngày một nâng cao kết quả dự báo Những phương pháp đó cũng ngày càng được cải tiến vàcho độ chính xác ngày càng cao.

Trang 4

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

Năm 1990, N Cat Ho và W Wechler đã giới thiệu đại số gia tử (ĐSGT) [10] và từ đó cho đến nay, nhiều côngtrình nghiên cứu đã cho những kết quả tốt đẹp [12, 13, 14, 15, 16, 17, 18] Có thể kể tới ứng dụng của ĐSGT trongđiều khiển học, trích rút tri thức hay gần đây là tính toán trên từ đều cho những kết quả tốt hơn so với cách tiếp cận mờ.Những kết quả ứng dụng mang tính ưu việt hơn trong một số lĩnh vực công nghệ khác nhau của tiếp cận ĐSGT so vớitiếp cận mờ là minh chứng quan trọng cho tính đúng đắn của tiếp cận có xuất phát điểm khoa học dựa trên hệ tiên đềchặt chẽ làm cơ sở cho việc xây dựng ĐSGT- một cấu trúc toán học được nhúng vào tập các giá trị ngôn ngữ để biểudiễn các khái niệm mờ một cách tổng quát dựa trên ngữ nghĩa Có thể thấy rằng: tính chất tự nhiên của ngữ nghĩa cácgiá trị ngôn ngữ của một miền giá trị biến ngôn ngữ là ngữ nghĩa vốn có tính so sánh được, nghĩa là giữa các giá trịngôn ngữ có tồn tại khách quan một quan hệ thứ tự phản ánh thứ tự vốn có trên tập nền của biến ngôn ngữ Trong khingữ nghĩa ngôn ngữ dựa trên tập mờ bỏ qua quan hệ thứ tự này Như vậy, ĐSGT mô hình hóa ngữ nghĩa các giá trịngôn ngữ đúng bản chất hơn, hay nói khác đi, nó cố gắng phát hiện các tính chất tự nhiên của các giá trị ngôn ngữ vốntồn tại trong cấu trúc thứ tự đó.

Bài báo này là một trong những nghiên cứu để sử dụng lý thuyết của đại số gia tử trong bài toán dự báo chuỗithời gian Từ đó, tìm ra những cách tiếp cận mới và tìm cách nâng cao độ chính xác của đầu ra dự báo.

Bài báo được trình bày theo thứ tự: Sau phần MỞ ĐẦU ở mục I sẽ trình bày mục II về MÔ HÌNH DỰ BÁOCHUỖI THỜI GIAN MỜ theo cách tiếp cận của Q Song, B S Chissom [2, 3] và S Chen [4] Mục III sẽ nêu TÓMTẮT MÔ HÌNH TÍNH TOÁN CỦA ĐẠI SỐ GIA TỬ trong bài toán dự báo chuỗi thời gian mờ Phương pháp dự báotheo lý thuyết của ĐSGT, cách tính toán, kết quả dự báo sẽ được đưa ra Vấn đề tối ưu các tham số cũng sẽ được trìnhbày Số liệu phục vụ cho tính toán là số liệu về sinh viên nhập học của trường đại học Alabama từ năm 1971 tới 1992mà nhiều nghiên cứu dùng để so sánh kết quả dự báo thông qua việc đánh giá sai số trung bình bình phương MSE(Mean Square Error) để có thể thấy rõ tính ưu việt của cách tiếp cận ĐSGT so với tiếp cận mờ.

II MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN MỜ2.1 Một số khái niệm cơ bản của mô hình dự báo chuỗi thời gian mờ

Mô hình chuỗi thời gian mờ lần đầu tiên được Song và Chissom đưa ra [1, 2, 3 ] và được Chen cải tiến [4, 5, 6 ]để có thể xử lý bằng các phép tính số học đơn giản hơn nhưng chính xác hơn phù hợp với các ứng dụng dự báo chuỗithời gian mờ Có thể tóm lược qua một số khái niệm cơ bản sau đây:

Định nghĩa 2.1: Chuỗi thời gian mờ

Giả sử Y(t), (t= , 0,1,2, ), là tập các số thực và cũng là tập nền trên đó xác định các tập mờ f i (t), (i=1,2 , ).Biến t là thời gian Nếu F(t) là một chuỗi các tập mờ của f i (t), (i=1,2, ), thì F(t) được gọi là chuỗi thời gian mờ trênY(t), (t= , 0,1,2, ).

Định nghĩa 2.4: Chuỗi thời gian mờ dừng

Giả sử F(t) được suy ra từ F(t−1) và được ký hiệu bằng F(t−1)  F(t), khi đó quan hệ mờ giữa F(t) và F(t−1) được mô tả bằng phương trình:

Quan hệ mờ R thể hiện mô hình bậc nhất của F(t) Nếu R(t−1, t) không phụ thuộc t, sao cho với mọi t1 và t2 khácnhau, R(t1 , t1−1)=R(t2 ,t2−1), thì F(t) được gọi là chuỗi thời gian mờ dừng, còn lại được gọi là chuỗi thời gian mờkhông dừng.

Định nghĩa 2.5: Nhóm quan hệ mờ ( NQM )

Các quan hệ mờ với cùng một tập mờ bên vế trái có thể đưa vào một nhóm gọi là nhóm quan hệ mờ hay nhóm

Trang 5

2 DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ Giả sử có các quan hệ mờ sau:

Ai Aj1; Ai Aj2; ; Ai Ajn

Các quan hệ mờ trên có thể đưa vào một nhóm được ký hiệu như sau:

Ai Aj1, Aj2, , , Ajn (2.4)Tập mờ Ajk ( k=1,2, , n ) chỉ được xuất hiện 1 lần bên vế phải.

2.2 Mô hình dự báo Song và Chissom

Mô hình dự báo chuỗi thời gian mờ lần đầu tiên được Song và Chissom đưa ra vào năm 1993 [1, 2, 3 ] và đượcứng dụng để dự báo số sinh viên nhập học tại trường Đại học Alabama với dữ liệu lịch sử qua 22 năm kể từ năm 1971đến 1992 như trong Bảng 2.1 sau đây:

Bảng 2.1 Số sinh viên nhập học tại Trường Đại học Alabama từ 1971 đến 1992

Năm Số sinh viên nhập học Năm Số sinh viển nhập học

Ở đây x là toán tử min, T là phép chuyển vị và 𝖴 là phép hợp (2.5)

2.3 Mô hình dự báo Chen

Do mô hình dự báo chuỗi thời gian mờ của Song & Chissom khá phức tạp trong bước 5 và bước 6, vì vậy Chen[4] đã cải tiến cách tính toán sao cho chính xác hơn cho các mô hình dự báo chuỗi thời gian chỉ sử dụng các phép tính số học đơn giản trên cơ sở thông tin từ các quan hệ mờ và nhóm quan hệ mờ theo các bước sau đây:

Bước 1 Chia miền xác định của tập nền thành những khoảng bằng nhau.Bước 2 Xây dựng các tập mờ trên tập nền.

Bước 3 Mờ hóa chuỗi dữ liệu Bước 4 Xác định các quan hệ mờ.

Trang 6

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

Bước 5 Tạo lập nhóm quan hệ mờ.Bước 6 Giải mờ đầu ra dự báo.

2.4 Luật dự báo chuỗi thời gian mờ

Luật dự báo cũng chính là phép giải mờ các kết quả đầu ra dự báo như ở bước 6 của mô hình dự báo [4].

Giả sử dữ liệu của chuỗi thời gian F(t-1) được mờ hóa bằng Aj, khi đó Đầu ra dự báo của F (t) được xác định

theo những luật (nguyên tắc) sau đây:

1. Nếu tồn tại quan hệ một - một trong nhóm quan hệ của Aj, ký hiệu là Aj Ak , và mức độ thuộc cao nhất của

Ak tại khoảng uk, thì đầu ra dự báo của F (t) là điểm giữa của uk.

2. Nếu Ak là trống, có nghĩa là Aj   và Aj có mức độ thuộc cao nhất tại khoảng uj, thì đầu ra dự báo là điểm

giữa của uj.

3.Nếu tồn tại quan hệ một - nhiều trong nhóm quan hệ mờ của Aj , ký hiệu là Aj A1 , A2 ,…, An, và mức độ

thuộc cao nhất của A1 , A2 ,…, An tại các khoảng u1 , u2 ,…, un tương ứng, thì đầu ra dự báo được tính bằng trung bình

các điểm giữa m1 , m2,…,mn của u1 , u2,…, un Đầu ra dự báo khi này có dạng: (m1+m2+…+mn)/n.

III TÓM TẮT MÔ HÌNH TÍNH TOÁN CỦA ĐẠI SỐ GIA TỬ

Đại số gia tử cung cấp một mô hình xử lý các đại lượng không chắc chắn khá hiệu quả cho nhiều bài toán ứngdụng như điều khiển mờ [20, 23], chống động đất [24, 25, 26], phân lớp dựa trên luật mờ [22] và đặc biệt gần đâyĐSGT đã mở ra hướng nghiên cứu mới về tính toán trên từ (computing with words) [21] Có thể thấy rõ rằng các giá trịngôn ngữ với ngữ nghĩa vốn có thứ tự chặt chẽ trong biến ngôn ngữ đã được mô tả bằng một cấu trúc đại số gia tử [17,18], từ đó tạo ra môi trường tính toán, suy luận tốt cho nhiều ứng dụng.

Gọi AX = ( X, G, C, H,  ) là một cấu trúc đại số, với X là tập nền của AX; G = {c-, c+} là tập các phần tử

sinh; C = {0, W, 1}, trong đó 0, W và 1 tương ứng là những phần tử đặc trưng cận trái (tuyệt đối nhỏ), trung hòa và

cận phải (tuyệt đối lớn); H là tập các toán tử một ngôi được gọi là các gia tử;  là biểu thị quan hệ thứ tự trên các giátrị ngôn ngữ Gọi H- là tập hợp các gia tử âm và H+ là tập hợp các gia tử dương của AX.

Ký hiệu H- = {h-1, h-2, …h-q}, trong đó h-1 < h-2 < … < h-q và H+ = {h1, h2, …, hp}, trong đó h1 < h2 < … < hp.Định nghĩa 3.1: Độ đo tính mờ

fm: X  [0, 1] gọi là độ đo tính mờ nếu thỏa mãn các điều kiện sau:

Sign(hc) = - Sign(c), nếu h là âm đối với c; (3.9)

Sign(hc) = + Sign(c), nếu h là dương đối với c; (3.10)

Sign(h'hx) = -Sign(hx), nếu h’hx ≠ hx và h' là âm đối với h; (3.11)

Trang 7

2 DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ

2 [1 Sign(hj x)sign(hphj x)(  )]{, }, (3.18)j  [-q^p], j  0.

Để thuận tiện cho việc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ [20], giả sử rằng miền tham chiếu thôngthường của các biến ngôn ngữ X là đoạn [a, b] còn miền tham chiếu ngữ nghĩa Xs là đoạn [as,bs] ( 0 ≤ as < bs ≤ 1 ).Việc chuyển đổi tuyến tính từ [a, b] sang [as,bs] được gọi là phép ngữ nghĩa hóa tuyến tính (linear semantization) cònviệc chuyển ngược lại từ đoạn [as,bs] sang [a, b] được gọi là phép giải nghĩa tuyến tính(linear desemantization) Trongnhiều ứng dụng của ĐSGT [20, 23, 25, 26], đã sử dụng miền ngữ nghĩa là đoạn [as=0, bs=1], khi đó phép ngữ nghĩahóa tuyến tính được gọi là phép chuẩn hóa (linear Semantization = Normalization) và phép giải nghĩa tuyến tính đượcgọi là phép giải chuẩn (Linear Desemantization = Denormalization ) Như vậy có thể biểu diễn phép ngữ nghĩa hóatuyến tính và phép giải nghĩa tuyến tính đơn giản như sau:

 Linear Semantization (x) = xs = as + ( bs – as ) ( x – a ) / ( b – a) ( 3.19a )

 Linear Desemantization (xs) = x = a + ( b – a ) ( xs – as ) / ( bs – as) ( 3.20a )

Với điều kiện: 0 ≤ f(xs,sp) ≤ 1 và f(xs=0,sp) = 0 và f(xs=1,sp) = 1

Với điều kiện: a ≤ g(x,dp) ≤ b và g(x = a,dp) = a và g(x = b,dp) = b

Các hàm f(.) và g(.) được chọn tùy theo từng ứng dụng và là các hàm liên tục, đồng biến, trong đó sp[-1 1] làtham số ngữ nghĩa hóa, dp [-1 1] là tham số giải nghĩa Ví dụ có thể chọn f(.) phi tuyến theo xs thể hiện qua f(xs,sp)và g(.) phi tuyến theo x thể hiện qua Denormalization (f(xs,sp)) như sau:

Khi sp=dp=0; tính phi tuyến bị loại bỏ và biểu thức (3.19d) trở thành (3.19b) và (3.20d) trở thành (3.20b).

Cho trước độ đo tính mờ của các gia tử (h) và các giá trị độ đo tính mờ của các phần tử sinh fm(c-), fm(c+) và là phần tử trung hoà (neutral) Khi đó mô hình tính toán của ĐSGT được xây dựng trên cơ sở các biểu thức từ (3.1) đến(3.20) được kích hoạt và thực tế đã được sử dụng hiệu quả trong rất nhiều ứng dụng Phép mờ hóa và phép giải mờtrong tiếp cận mờ được thay thế tương ứng bằng phép ngữ nghĩa hóa và phép giải nghĩa trong tiếp cận ĐSGT Hệ luậtđược thể hiện bằng siêu mặt làm cơ sở cho quá trình suy luận xấp xỉ [20] Một lưu ý quan trọng của quá trình tính toántrong tiếp cận ĐSGT là cần xác định các tham số ban đầu như độ đo tính mờ của các phần tử sinh và độ đo tính mờ củacác gia tử trong biến ngôn ngữ một cách thích hợp dựa trên cơ sở phân tích ngữ nghĩa của miền ngôn ngữ trong từng

Trang 8

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

Đối với mô hình dự báo chuỗi thời gian mờ của Song & Chissom và Chen, có thể thấy rõ hai giai đoạn quantrọng được các tác giả sử dụng dựa trên tiếp cận mờ Đầu tiên là giai đoạn có nội dung của phép mờ hóa bao gồm bước1 đến bước 5 Nếu giai đoạn mờ hóa cung cấp những thông tin định tính hợp lý thì các quan hệ mờ hoặc nhóm quan hệmờ sẽ tạo ra khả năng dự báo với độ chính xác cao Giai đoạn tiếp theo là giai đoạn có nội dung của phép giải mờ(bước 6 và bước 7 của mô hình Song, Chissom hoặc bước 6 của mô hình Chen) Đây là giai đoạn tìm ra kết quả dự báodựa trên cơ sở các bước của giai đoạn mờ hóa Khó khăn nhất của giai đoạn này là tìm ra xu hướng dự báo Trong giaiđoạn này phải đánh giá được khả năng tăng hay giảm với mức độ nhiều hay ít một cách chính xác nhất có thể Chínhvì vậy kết quả dự báo trong [6, 19] có độ chính xác rất cao khi đưa ra hướng dự báo cho từng dữ liệu lịch sử dựa trênhiệu ứng tăng hay giảm và tốc độ tăng hay giảm của từng cặp dữ liệu.

Dựa trên các phân tích trên đây, rõ ràng rằng: hoàn toàn có thể thay thế tiếp cận mờ với hai giai đoạn có nộidung của phép mờ hóa và phép giải mờ trong các mô hình của Song & Chissom hoặc Chen bằng tiếp cận ĐSGT cũngvới hai giai đoạn có nội dung của phép ngữ nghĩa hóa và phép giải nghĩa tương ứng Như vậy có thể xây dựng được môhình dự báo chuỗi thời gian mờ tương tự như mô hình Chen nhưng không sử dụng tập mờ mà dựa trên tiếp cận ĐSGTvới mô hình tính toán qua các biểu thức ( 3.1 ), ( 3.2), …( 3.20) như sau:

Bước 1 Xác định tập nền, chia miền xác định của tập nền thành những khoảng bằng nhau.Bước 2 Xây dựng các nhãn ngữ nghĩa (giá trị ngôn ngữ theo tiếp cận ĐSGT) trên tập nền.Bước 3 Ngữ nghĩa hóa phi tuyến chuỗi dữ liệu.

Bước 4 Xác định các quan hệ ngữ nghĩa theo nhãn ngữ nghĩa Bước 5 Tạo lập nhóm quan hệ ngữ nghĩa theo nhãn ngữ nghĩa.Bước 6 Giải nghĩa phi tuyến đầu ra dự báo.

Các bước trên đây tương tự với các bước dự báo trong mô hình Chen nhưng trong tiếp cận ĐSGT không sửdụng tập mờ mà dùng ngữ nghĩa định lượng mô tả định lượng giá trị ngôn ngữ Ở đây, phép mờ hóa được thay bằngphép ngữ nghĩa hóa, quan hệ mờ được thay bằng quan hệ ngữ nghĩa và nhóm quan hệ mờ được thay bằng nhóm quanhệ ngữ nghĩa Cuối cùng phép giải mờ được thay bằng phép giải nghĩa.

Bài toán được chọn để so sánh và làm rõ hiệu quả dự báo của mô hình trên là bài toán dự báo số sinh viên nhậphọc tại trường Alabama do Song & Chissom [2 3] và Chen [4] đặt ra đầu tiên để nghiên cứu mô hình chuỗi thời gianmờ trên quan điểm biến ngôn ngữ Từ đó có thể mô tả định tính số lượng sinh viên nhập học tại trường Đại họcAlabama từ các số liệu lịch sử có từ năm 1971 đến năm 1992 và đưa số liệu này vào mô hình dự báo chuỗi thời gianmờ Đây cũng là bài toán cho đến nay vẫn được Chen và nhiều tác giả trên thế giới quan tâm nghiên cứu cải tiến.

Các bước tính toán dựa trên ĐSGT cụ thể như sau:

Bước 1: Xác định tập nền, chia miền xác định của tập nền thành những khoảng bằng nhau.

Tập nền U được chọn tương tự mô hình Chen có khoảng xác định: [Dmin−D1, Dmax+D2] với Dmin và Dmaxlà số sinh viên nhập học thấp nhất và cao nhất theo dữ liệu lịch sử nhập học của trường Cụ thể Dmin=13055 vàDmax=19337 Các biến D1 và D2 là các số dương được chọn sao cho khoảng [Dmin−D1, Dmax−D2] bao được hoàntoàn số sinh viên nhập học thấp nhất và cao nhất trong tương lai Sử dụng cách chọn của Chen [4], D1 = 55 và D2 =663, như vậy U= [13000, 20000] Khoảng xác định tập nền U được Chen [4] và nhiều tác giả khác [15, 29, 32, 38] chiathành 7 khoảng bằng nhau u1, u2, u3, u4, u5, u6 và u7 Trong đó u1 = [13000, 14000], u2 = [14000, 15000], u3 =[15000, 16000], u4 = [16000, 17000], u5 = [17000, 18000], u6 = [18000, 19000] và u7 = [19000, 20000].

Bước 2 Xây dựng các nhãn ngữ nghĩa ( giá trị ngôn ngữ không biểu diễn dưới dạng tập mờ ) của tiếp cận ĐSGT trên tập nền.

Để có thể dễ theo dõi và so sánh với các bước dự báo trong mô hình Chen, ở đây sử dụng một số ký hiệu tươngtự những ký hiệu Chen đã sử dụng nhưng với ý nghĩa của tiếp cận ĐSGT Giả sử A1, A2 ,…, Ak là các nhãn ngữ nghĩađược gán cho các khoảng u1, u2,…uk, k là số khoảng trên tập nền Khác với tập mờ trong nghiên cứu của Chen, cácnhãn ngữ nghĩa ở đây được xây dựng từ các phần tử sinh c-, c+ với các gia tử h ϵ H tạo thành các giá trị ngôn ngữ củabiến ngôn ngữ “số sinh viên nhập học ” Khi đó các nhãn ngữ nghĩa A1, A2 ,…, Ak có dạng sau đây: A1= hA1c; A2=hA2c;….; Ak= hAkc, trong đó hAi, (i=1,2,…k) là chuỗi gia tử tác động lên c với c {c-, c+}.

Trong bài toán dự báo số sinh viên nhập học tại trường Đại học Alabama, Chen sử dụng các giá trị ngôn ngữ A1= (not many), A2 = (not too many), A3 = (many), A4 = (many many), A5 = (very many), A6 = (too many) và A7 =(too many many) Trong bài toán dự báo này theo tiếp cận ĐSGT, sử dụng 2 gia tử “very”và “little” tác động lên 2phần tử sinh “small”và “large”để tạo ra 7 nhãn ngữ nghĩa tương ứng với 7 giá trị ngôn ngữ của Chen như sau: A1 =(very small), A2 = (small), A3 = (little small), A4 = (midle), A5 = (little large), A6 = (large) và A7 = (very large).Bước 3 Ngữ nghĩa hóa chuỗi dữ liệu.

Để xác định ngữ nghĩa định lượng cho các nhãn ngữ nghĩa A1, A2, ,A7 ở bước 2, cần chọn trước độ đo tính

mờ của các gia tử (very), (little) và giá trị độ đo tính mờ của phần tử sinh fm(c-) = θ với  là phần tử trung hoà được

Trang 9

2 DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ

cho trước Nếu các nhãn ngữ nghĩa được tạo thành chỉ từ 1 gia tử dương và 1 gia tử âm ví dụ gia tử dương “very” vàgia tử âm “little ” tác động lên các phần tử sinh “large” hoặc “small” như trên, thì (little) = α và (very) = 1- α = β.

Như vậy ngữ nghĩa định lượng của các nhãn ngữ nghĩa sẽ chỉ phụ thuộc vào các tham số của ĐSGT α, θ và hoàn toànđược xác định sau khi thay các giá trị α, θ vào các phương trình tính toán ngữ nghĩa định lượng từ (3.14) đến (3.18).Cụ thể là 7 giá trị ngữ nghĩa định lượng của 7 nhãn ngữ nghĩa A1,A2, A7 được gán tương ứng cho 7 khoảng u1,u2, , u7 có dạng tham số hóa sau đây:

SA1 < SA2 < SA3 < SA4 < SA5 < SA6 < SA7 (3.35)Tương tự như trên, có thể xây dựng các công thức tính toán các giá trị ngữ nghĩa định lượng theo các nhãn ngữnghĩa khi có nhiều lớp gia tử tác động lên phần tử sinh.

Biểu thức (3.35) thể hiện rõ những tính chất quan trọng sau đây:1 Thứ tự ngữ nghĩa luôn được đảm bảo.

2 Các nhãn ngữ nghĩa Ai có giá trị ngữ nghĩa định lượng SAi và luôn có quan hệ ngữ nghĩa với nhau thôngqua bộ tham số của ĐSGT α, θ, μ(hAi), i= 1, 2,…

Như vậy, trong các ứng dụng cụ thể của tiếp cận ĐSGT, ảnh hưởng của bộ tham số mang tính hệ thống Cónghĩa là tất cả các giá trị ngôn ngữ trong biến ngôn ngữ đều chịu ảnh hưởng bởi bộ tham sô của ĐSGT Những tínhchất trên đây tạo ra sự khác biệt giữa tiếp cận ĐSGT và tiếp cận mờ Có thể thấy rằng: trong tiếp cận mờ, các giá trịngôn ngữ sử dụng tập mờ của biến ngôn ngữ hoàn toàn không có ràng buộc với nhau Sự khác biệt này đã đưa đến hiệuquả cao trong nhiều ứng dụng của tiếp cận ĐSGT.

Bước 4: Xác định các quan hệ ngữ nghĩa theo nhãn ngữ nghĩa.

Các quan hệ ngữ nghĩa được xác định trên cơ sở các dữ liệu lịch sử Nếu đặt chuỗi thời gian mờ F(t-1) là Ak cóngữ nghĩa định lượng SAk và F(t) là Am có ngữ nghĩa định lượng SAm, thì Ak có quan hệ với Am và dẫn đến SAk cóquan hệ với SAm Quan hệ này được gọi là quan hệ ngữ nghĩa theo nhãn ngữ nghĩa và được ký hiệu là:

Trong bài toán dự báo số sinh nhập học tại trường Alabama, ở đây Ak là nhãn ngữ nghĩa mô tả số sinh viênnhập học của năm hiện tại với ngữ nghĩa định lượng SAk, Am là nhãn ngữ nghĩa mô tả số sinh viên nhập học của nămtiếp theo với ngữ nghĩa định lượng SAm.

Như vậy, trên cơ sở số liệu của Chen [4], có thể xác định được các quan hệ ngữ nghĩa theo nhãn ngữ nghĩa (kểcả số lần trùng nhau) sau đây:

Trang 10

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

SA1 → SA1 (trùng nhau 2 lần); SA1 → SA2;SA2 → SA3; SA3 → SA3 (trùng nhau 7 lần);

SA3 → SA4 (trùng nhau 2 lần); SA4 → SA4 (trùng nhau 2 lần);SA4 → SA3; SA4 → SA6; SA6 → SA6; SA6 → SA7;

Bước 5 Tạo lập nhóm quan hệ ngữ nghĩa theo nhãn ngữ nghĩa.

Nếu một ngữ nghĩa định lượng (vế trái (3.37)) có quan hệ với nhiều ngữ nghĩa định lượng (vế phải (3.37)), thìvế phải được chập lại thành một nhóm Quan hệ được lập theo nhóm như vậy được gọi là nhóm quan hệ ngữ nghĩa(NQHNN) Như vậy từ (3.37) nhận được các NQHNN sau đây:

Nhóm 1: SA1 → (SA1, SA1, SA2)Nhóm 2: SA2 → (SA3)

Nhóm 3: SA3 → (SA3, SA3, SA3, SA3, SA3, SA3, SA3, SA4, SA4)Nhóm 4: SA4 → (SA4, SA4, SA3, SA6)

Nhóm 5: SA6 → (SA6, SA7)Nhóm 6: SA7 → (SA7, SA6)Bước 6 Giải nghĩa đầu ra dự báo.

Giả sử số sinh viên nhập học tại năm (t-1) của chuỗi thời gian mờ F(t-1) được ngữ nghĩa hóa theo (3.19) là SAj,khi đó đầu ra dự báo của F(t) hay số sinh viên nhập học dự báo tại năm t được xác định theo các nguyên tắc (luật) sauđây:

1 Nếu tồn tại quan hệ 1-1 trong nhóm quan hệ ngữ nghĩa theo nhãn ngôn ngữ Aj như sau:

SAj  SAk, theo (3.19d): Nonlinear Semantization (Aj)  Nonlinear Semantization (Ak)

Đầu ra dự báo được tính theo (3.20d):DSAj  Nonlinear Desemantization (SAk) trên khoảng giải nghĩa uk được chọn sao cho bao được uk và thuộc khoảng xác định của tập nền chuỗi thời gian mờ [Dmin−D1, Dmax−D2].2 Nếu SAk là trống, Saj  , thì đầu ra dự báo được tính theo (3.20d):

DSAj  Nonlinear Desemantization () trên khoảng giải nghĩa được chọn sao cho bao được uj và thuộckhoảng xác định của tập nền chuỗi thời gian mờ [Dmin−D1, Dmax−D2] Do cách chọn θ, α, điểm giữa khoảng uk chỉlà một trường hợp riêng của phép giải nghĩa với θ = 0.5, α = 0.5 và khi khoảng giải nghĩa uj được chọn sao cho baođược uj Nguyên tắc thứ 2 theo tiếp cận ĐSGT mềm dẻo hơn so với nguyên tắc thứ 2 của Song & Chissom [1, 2, 3] vàChen [4].

3 Nếu tồn tại quan hệ 1-nhiều trong nhóm quan hệ ngữ nghĩa (kể cả quan hệ trùng) theo nhãn ngôn ngữ Aj: SAj (SAi,SAk,…, SAr), hay theo (3.19d): NonlinearSemantization (Aj)  (NonlinearSemantization (Ai),NonlinearSemantization (Ak), …, NonlinearSemantization (Ar)), thì đầu ra dự báo được xác định theo (3.20d) cho từngdữ liệu lịch sử: DSAj  NonlinearDesemantization (WSAiAj * SAi+ WSAkAj * SAk+…+ WSArAj * SAr) trên mộtkhoảng giải nghĩa được chọn sao cho bao được ui, uk… ur và thuộc khoảng xác định của tập nền chuỗi thời gian mờ[Dmin−D1, Dmax−D2] Trong đó WSAiAj, WSAkAj…, WSArAj là trọng số ngữ nghĩa của từng thành phần trongNQHNN theo nhãn ngữ nghĩa Aj và được tính bằng tỷ số giữa số dữ liệu thuộc khoảng ui và tổng số dữ liệu thuộc cáckhoảng ui, uk,…, ur của NQHNN Như vậy tính chuẩn hóa của các trọng số được đảm bảo: WSAiAj + WSAkAj +…+WSArAj = 1.

Trong bài toán dự báo số sinh viên nhập học tại trường đại học Alabama, có thể chọn 21 khoảng giải nghĩa vớicác giá trị đầu, giá trị cuối như trong bảng 3.1 sau đây:

Bảng 3.1 Giá trị đầu và giá trị cuối của 21 khoảng cho 21 giá trị dự báoKhoảng giải nghĩa

cho các điểm dự báođầu khoảngGiá trị cuối khoảngGiá trị cho các điểm dự báoKhoảng giải nghĩa đầu khoảngGiá trị cuối khoảngGiá trị

Trang 11

2 DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ Mô hình dự báo chuỗi thời gian mờ theo tiếp cận ĐSGT gồm 6 bước cơ bản, trong đó các bước 1,2 , 5 có thểcoi là những bước chuẩn bị cho tính toán dự báo cho bước 6 theo 3 nguyên tắc trên đây Như vậy, có thể xây dựngđược nguồn số liệu cung cấp thông tin tổng hợp phục vụ bài toán dự báo số sinh viên nhập học (SSVNH) tại trườngĐại học Alabama dưới dạng Bảng 3.2 sau đây:

Bảng 3.2 Tổng hợp thông tin làm cơ sở cho mô hình dự báo theo tiếp cận ĐSGT

Khoảng ui, nhãn ngữnghĩa Ai và ngữ nghĩa

định lượng Sai

Số sinhviên nhập

Ngữ nghĩa định lượng Sai với NQHNN,trọng số ngữ nghĩa của từng thành phầntrong nhóm theo nhãn ngữ nghĩa Ai và

tổng số dữ liệu

Số dữliệuthuộc uiu1 = [13000 – 14000] 13055 1971 SA1  (SA1,SA1, SA2) 3

A1 = very small 13563 1972 WSA1A1 = 3/(3x2+1) = 3/7SA1 = ν(very small) 13867 1973 WSA2A1 = 1/(3x2+1) = 1/7

Tổng số dữ liệu: 7u2 = [14000 – 15000]

A2 = small SA2 = ν(small)

14696 1974 SA2  SA3 WSA3A2 = 1/1 = 1Tổng số dữ liệu: 1

Tổng số dữ liệu: 5

A7 = very large 19377 1991 WSA7A7 = 2/(3+2) = 2/5SA7 = ν(very large) WSA6A7 = 3/(3+2) = 3/5

Tổng số dữ liệu: 5Ví dụ tính toán dự báo cho điểm dự báo thứ nhất ứng với năm 1972:

Thực hiện các bước 1, 2, 3 và 4 bước như ở trên, sau đó tính toán ngữ nghĩa cho nhóm 1 tại bước 5 với NQHNNSA1  (SA1, SA1, SA2) như sau: Theo Bảng 3.2: Nhóm 1 có NQHNN thuộc các khoảng u1 và u2 Số dữ liệu thuộckhoảng u1 gồm 3 giá trị: 13055, 13563 và 13867 nhưng trùng nhau 2 lần Do đó số dữ liệu thuộc khoảng u1 là (3x2 =

Trang 12

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

Số dữ liệu thuộc khoảng u2 gồm 1 giá trị: 14696 Như vậy tổng số dữ liệu thuộc các khoảng u1, u2 của nhóm 1 là(3x2+1) = 7 và trọng số ngữ nghĩa của SA1 theo nhãn ngữ nghĩa A1 là WSA1A1 = 3 / (3x2+1) = 3/7 Tương tự tínhđược trọng số ngữ nghĩa của SA2 theo nhãn ngữ nghĩa A1 là WSA2A1 = 1/7 Với SA1 = 0.125, SA2 = 0.25, ngữnghĩa của nhóm 1 là:

(SA1, SA1, SA2) = WSA1A1* SA1 + WSA1A1* SA1 + WSA2A1* SA2= (3/7)*0.125 + (3/7)*0.125 + (1/7)*0.25 ≈ 0.143.

Khoảng giải nghĩa được chọn cho điểm dự báo thứ nhất (1972) theo bảng 3.1 là [13000 – 17000] Trước hết tínhtoán giá trị giải nghĩa tuyến tính cho phép ngữ nghĩa hóa phi tuyến theo (3.20d1) với sp = 0.5: Denormalization (xs) =f(0.143,0.5) = (0.5* 0.143*(1-0.143)+0.143) *(17000-13000) + 13000 = 13817 Tiếp tục tính giá trị giải nghĩa phituyến cho phép ngữ nghĩa hóa phi tuyến theo (3.20d) với dp = -0.5: Nonlinear Desemantization (x) = g(13817,-0.5) = (-0.5)*(13817-13000)*(17000-13817) / (17000-13000) + 13817 = 13492.

Như vậy, giá trị dự báo cho năm 1972 theo (3.20d) là:

DSA1  NonlinearDesemantization (x) = g(13817,-0.5) = 13492

Bằng cách tương tự có thể tính toán cho các điểm dự báo thứ 2, 3,… , 21 để nhận được các giá trị dự báo cụ thểcho năm 1973, 1974, …, 1992 Như vậy với số sinh viên nhập học của 22 năm từ 1971 đến 1992, trên cơ sở 6 bướctheo tiếp cận ĐSGT, xây dựng được mô hình dự báo cho 21 năm 1971  1972 , 1972  1973, 1973  1974,… , 1991 1992 Chương trình tính toán được thể hiện trong PHỤ LỤC 1 trên cơ sở sử dụng MATLAB R2013a Kết quả củamô hình dự báo sử dụng ĐSGT được mô tả trong Bảng 3.3 để so sánh với các kết quả của nhiều mô hình dự báo kháchiện có.

Lưu ý rằng về nguyên tắc, độ chính xác của các phương pháp dự báo chuỗi thời gian mờ theo tiếp cận của Song& Chisson, Chen và nhiều tác giả khác phụ thuộc rất nhiều vào quá trình mờ hóa chuỗi thời gian và giải mờ đầu ra dựbáo và đặc biệt rất khó tối ưu hóa đồng thời hai quá trình này Trong khi đó, mô hình tính toán theo tiếp cận ĐSGT đưara cách chọn bộ tham số θ, α, μ(.) , sp, dp để xây dựng dự báo tối ưu dựa trên phép ngữ nghĩa hóa và phép giải nghĩatuyến tính hoặc phi tuyến Đây là tính chất rất quan trọng của tiếp cận ĐSGT và là cơ sở khoa học cho tính hiệu quảcao trong nhiều bài toán ứng dụng nói chung và bài toán dự báo chuỗi thời gian mờ nói riêng.

Trong bảng 3.3 so sánh kết quả dự báo theo tiếp cận ĐSGT với các mô hình dự báo khác cùng sử dụng chuỗi thời gian mờ với 7 khoảng chia.

Bảng 3.3 So sánh các phương pháp dự báo với 7 khoảng chiaNăm

Số sinhviênnhậphọc

PhươngphápChen [4]

PhươngphápLee [9]

PhươngphápQiu [24]

PhươngphápĐSGT

Trang 13

2 DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ

IV KẾT LUẬN

Qua kết quả dự báo trên có thể thấy cách tiếp cận theo đại số gia tử cho bài toán dự báo chuỗi thời gian có độchính xác cao hơn các phương pháp hiện có cho bài toán cổ điển là dự báo số sinh viên nhập học của trường đại họcAlabama Mô hình tính toán theo đại số gia tử do có cấu trúc chặt chẽ đã làm giảm các tham số cần tối ưu, nâng caokhả năng chọn được những giá trị tối ưu tốt nhất Việc áp dụng mô hình dự báo chuỗi thời gian dựa trên ngữ nghĩa nàycũng cần được thử nghiệm với những bộ đầu vào khác để xem xét tính thích nghi Ngoài ra, việc áp dụng các lý thuyếttối ưu, phân cụm trong mô hình này cũng cần được thử nghiệm và đối chiếu với những phương pháp hiện có.

LỜI CẢM ƠN

Bài báo này đã được Quỹ Phát triển Khoa học và Công nghệ Quốc gia (NAFOSTED) hỗ trợ theo hợp đồng số102.05-2013.34.

V TÀI LIỆU THAM KHẢO

[1] Song Q, Chissom B.S Fuzzy time series and its models Fuzzy Sets and Syst 54 269–277, 1993.

[2] Song Q, Chissom B.S, Forecasting enrollments with fuzzy time series – part 1 Fuzzy Sets and Syst 54, 1–9,1993.

[3] Song Q, Chissom, B S, Forecasting enrollments with fuzzy time series – part 2 Fuzzy Sets and Syst 62, 1–8,1994.

[4] Chen, S.M, Forecasting Enrollments Based on Fuzzy Time Series Fuzzy Sets and Syst 81, 311–319, 1996.[5] Chen S M, Forecasting Enrollments based on High-Order Fuzzy Time Series Cybernetics and Systems: An

controller to active control of a structure against earthquake Struct Control Health Monit 20, 483–495, 2013.[16] Hai Le Bui, Duc Trung Tran, Lan Nhu Vu, Optimal fuzzy control of inverted pendulum Journal of Vibration

and Control, 18 (14), 2097-2110, 2012.

[17] Nguyen Dinh Duc, Vu Nhu Lan, Tran Duc Trung and Bui Hai Le A study on the application of hedge algebrasto active fuzzy control of a seism-excited structure, Journal of Vibration and Control,18 (14), 2186–2200, 2012.[18] Cong Nguyen Huu, Duy Nguyen Tien, Trung Ngo Kien, Ha Le Thi Thu, A Research on Parabolic Trough Solar

Collector System Control based on Hedge Algebra, 11th International Conference on Control, Automation,Robotics and Vision, December, 715-720, 2010, Singapore.

[19] Nguyễn Công Điều: Một thuật toán mới cho mô hình chuỗi thời gian mờ Tạp chí Khoa học và Công nghệ, Tâp49, Số 4, 11-25, 2011.

[20] Huarng, K Heuristic Models of Fuzzy Time Series for Forecasting Fuzzy Sets and Syst 123, 369–386, 2001.

Trang 14

Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ

[21] Huarng, K Effective Lengths of Intervals to Improve Forecasting in Fuzzy Time Series Fuzzy Sets and Syst.123, 387–394, 2004.

[22] Hwang, J.-R., Chen, S.-M., Lee, C.-H : Handling Forecasting problems using fuzzy time series Fuzzy Sets andSystems 100, 217-228, 1998.

[23] Qiu W, Liu X, Li H, Generalized Method for Forecasting Based on Fuzzy Time Series Expert Systems withApplications 38, 10446-10453, 2011.

FUZZY TIME SERIES FORCASTING BASE ON SEMANTICSNguyen Duy Hieu, Vu Nhu Lan, Nguyen Cat Ho

ABSTRACT— Forcasting on fuzzy times series has research by many reseachers such as Q Song, B.S Chissom, S M Chen…

There are many method have researched and presented to handle and improve the result of forcasting method that were introduceby Q Song, B.S Chissom and S.M Chen Those method has MSE (Mean Square Error) increasely lower During recent years,hedge algebras has been applied to many problems such as control, classification or computing with words Hedge algebrasapproaches have many better result than fuzzy approaches Important and distinctive point of hedge algebras is recognize the valuesof linguistic variable in themselves order This paper present hedge algebras approach for fuzzy times series forcasting problem.The computational model will be inspected and compare with other method base on data of general example about enrollments ofAlabama University from 1971 to 1992 Thereby we can see and discuss the effects of new forcasting method.

KEYWORD— Times Series, Fuzzy Time Series, Forecasting, Hedge Algebra, semantic.

Trang 15

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016DOI: 10.15625/vap.2016.00053

MỘT PHƯƠNG PHÁP MỚI DỰ BÁO CHUỖI THỜI GIAN MỜDỰA TRÊN NGỮ NGHĨA NGÔN NGỮ

Nguyễn Duy Hiếu1, Nghiêm Văn Tính2 , Vũ Như Lân3

1Trường Đại học Tây Bắc

2Trường Đại học Kỹ thuật Công nghiệp, Đại học Thái Nguyên

3Trường Đại học Thăng Long

hieu3210@gmail.com, nghiemvantinh@tnut.edu.vn, vnlan@ioit.ac.vn

TÓM TẮT— Dự báo chuỗi thời gian là bài toán đã được rất nhiều tác giả trong và ngoài nước quan tâm nghiên cứu trong những

năm gần đây Tuy nhiên, việc dự báo trên những dữ liệu có sự biến đổi lớn, những dữ liệu được ghi nhận bằng các nhãn ngôn ngữđã tạo ra những khó khăn khi giải quyết bằng các phương pháp toán học, thống kê truyền thống Vì vậy, Q Song và B.S Chissom đãđề xuất mô hình dự báo chuỗi thời gian mờ Kể từ đó tới nay đã có nhiều nghiên cứu theo hướng này, nhằm đưa ra những phươngpháp mới và cải tiến những phương pháp đã có nhằm tăng độ chính xác của dự báo Trong nội dung bài báo này, chúng tôi đề xuấtmột phương pháp mới, sử dụng phép ngữ nghĩa hóa và giải ngữ nghĩa của đại số gia tử trong bài toán dự báo số lượng sinh viênnhập học của Trường Đại học Alabama Mô hình dự báo, các kết quả và so sánh cũng sẽ được đưa ra thảo luận.

Từ khóa— Dự báo, chuỗi thời gian, chuỗi thời gian mờ, đại số gia tử, ngữ nghĩa, ngôn ngữ.

I MỞ ĐẦU

Vấn đề dự báo tương lai luôn là mong muốn, mơ ước của con người từ khi xuất hiện tới nay Dự báo trước đượcnhững sự việc, hiện tượng xảy ra trong tương lai giúp cho con người hoạch định tốt hơn công việc của mình, giúp nângcao hiệu quả, tiết kiệm thời gian và giảm bớt công sức trong công việc.

Trong vài chục năm gần đây, đã có rất nhiều nghiên cứu trong và ngoài nước được đưa ra nhằm giải quyết bàitoán dự báo Những nghiên cứu đó dù đi theo hướng nào đi chăng nữa thì mục tiêu cũng nhằm nâng cao độ chính xáccủa kết quả dự báo và giảm bớt khối lượng tính toán của bài toán này.

Những dữ liệu con người thu thập được có rất nhiều loại, và dữ liệu mà con người dùng cho bài toán dự báocũng vậy Dữ liệu dạng số liệu, rõ ràng và chính xác thường được dự báo bằng các phương pháp toán học, thống kê vớicác mô hình điển hình như ARMA, ARIMA,… Tuy nhiên, với những dữ liệu có sự biến động lớn (như thị trườngchứng khoán) hay những dữ liệu trong thực tế được ghi nhận bằng các nhãn ngôn ngữ thì khó có thể giải quyết đượcbằng các phương pháp toán học, thống kê truyền thống Chính vì vậy, trong nghiên cứu của mình Q Song và B.SChissom [1, 2, 3] đã đề xuất mô hình dự báo chuỗi thời gian mờ nhằm dự báo cho những dữ liệu có đặc điểm nói ởtrên Sau đó, S.M Chen [4] đã cải tiến phương pháp dự báo chuỗi thời gian mờ nhằm đưa ra cách tính toán đơn giản vàhiệu quả hơn Trong những nghiên cứu sau này, nhiều tác giả đã sử dụng các kỹ thuật khác nhau như phân cụm, tốiưu… làm cho độ chính xác của kết quả dự báo ngày càng được nâng cao hơn.

Trong bài toán dự báo chuỗi thời gian mờ, có hai yếu tố chính ảnh hưởng tới kết quả dự báo, đó chính là phépmờ hóa dữ liệu và giải mờ Đối với việc mờ hóa dữ liệu, nhiều nghiên cứu đã chỉ ra rằng: số lượng khoảng, độ dàikhoảng và bậc của chuỗi thời gian mờ ảnh hưởng nhiều tới độ chính xác dự báo Nhiều tác giả cũng đã đưa ra các kếtquả nghiên cứu việc tối ưu các tham số này với những kết quả dự báo khá tốt Vấn đề giải mờ cũng ảnh hưởng lớn tớikết quả dự báo nếu lựa chọn khoảng giải mờ khác nhau Việc tối ưu khoảng giải mờ này cũng cần được nghiên cứu đểnâng cao độ chính xác dự báo.

Trong phép mờ hóa dữ liệu cần lựa chọn số lượng khoảng chia phù hợp Nếu chọn số khoảng chia quá ít, dự báocó thể cho độ chính xác thấp do thiếu thông tin; còn nếu chọn số khoảng chia quá nhiều có thể làm mất hết ý nghĩa vềtính mờ của giá trị ngôn ngữ.

Đại số gia từ [12] (ĐSGT) được N Cat Ho và W Wechler giới thiệu năm 1990 nhằm đưa ra một mô hình toánhọc phù hợp với dữ liệu không chắc chắn, theo đó các giá trị ngữ nghĩa của ngôn ngữ nằm trong một trật tự nhất địnhvà chính thứ tự đó tạo nên giá trị ngữ nghĩa của từ ngôn ngữ Đại số gia tử đã được ứng dụng trong các bài toán điềukhiển, hồi quy, trích rút tri thức, tính toán trên từ[15, 16, 17, 18, 19, 20],… và cho nhiều kết quả tốt đẹp.

Việc ứng dụng đại số gia tử trong bài toán dự báo cũng đã được các tác giả trong [21] giới thiệu với mô hình dựbáo cho kết quả khá tốt Trong nghiên cứu này, chúng tôi sẽ sử dụng phép ngữ nghĩa hóa và giải ngữ nghĩa của đại sốgia tử trên cơ sở việc chia tập nền thành 13 khoảng của S.M Chen trong [6] Kết quả dự báo cũng sẽ được so sánh trựctiếp với nghiên cứu này nhằm chỉ ra tính ưu việt của phương pháp đề xuất.

Nội dung bài báo được trình bày thành ba mục: sau mục 1 là phần MỞ ĐẦU, trong mục 2 chúng tôi trình bày

Trang 16

4 MỘT PHƯƠNG PHÁP MỚI DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ NGHĨA NGÔN Chen; mục 3 sẽ giới thiệu tóm tắt về LÝ THUYẾT ĐẠI SỐ GIA TỬ và mục 4 đề xuất phương pháp DỰ BÁO CHUỖITHỜI GIAN MỜ SỬ DỤNG ĐSGT VỚI 13 KHOẢNG CHIA Các phương pháp tính toán và kết quả trong bài toándự báo số lượng sinh viên nhập học tại Trường Đại học Alabama sẽ được đưa ra so sánh và thảo luận Cuối cùng làphần KẾT LUẬN.

II MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN MỜ2.1 Một số khái niệm cơ bản của mô hình dự báo chuỗi thời gian mờ

Mô hình chuỗi thời gian mờ lần đầu tiên được Q Song và B.S Chissom đưa ra [1, 2, 3] và được S.M Chen cảitiến [4, 5, 6, 7] để có thể xử lý bằng các phép tính số học đơn giản hơn nhưng chính xác, phù hợp với các ứng dụng dựbáo chuỗi thời gian mờ Có thể tóm lược qua một số khái niệm cơ bản sau đây:

Định nghĩa 2.1: Chuỗi thời gian mờ

Giả sử Y(t), (t= , 0,1,2, ), là tập các số thực và cũng là tập nền trên đó xác định các tập mờ f i (t), (i=1,2 , ).Biến t là thời gian Nếu F(t) là một chuỗi các tập mờ của f i (t), (i=1,2, ), thì F(t) được gọi là chuỗi thời gian mờ trênY(t), (t= , 0,1,2, ).

Định nghĩa 2.2: Quan hệ mờ

Nếu tồn tại quan hệ mờ R(t−1, t), sao cho F(t)=F(t−1)*R(t−1, t), trong đó dấu * ký hiệu toán tử nào đó, thì F(t)được suy ra từ F(t−1) Quan hệ giữa F(t) và F(t−1) được xác định bằng ký hiệu:

Ví dụ về toán tử * có thể là phép kết hợp MaxMin[2] hoặc MinMax[3] hay phép tính số học [4]

Nếu F(t-1)=Ai and F(t)=Aj, quan hệ logic giữa F(t) and F(t−1) được ký hiệu bằng AiAj , trong đó Ai là vế trái

và Aj là vế phải của quan hệ mờ mô tả tập mờ dự báo.

Định nghĩa 2.4: Chuỗi thời gian mờ dừng

Giả sử F(t) được suy ra từ F(t−1) và được ký hiệu bằng F(t−1)  F(t), khi đó quan hệ mờ giữa F(t) và F(t−1)

được mô tả bằng phương trình:

Quan hệ mờ R thể hiện mô hình bậc nhất của F(t) Nếu R(t−1, t) không phụ thuộc t, sao cho với mọi t1 và t2 khác

nhau, R(t1 , t1−1)=R(t2 ,t2−1), thì F(t) được gọi là chuỗi thời gian mờ dừng, còn lại được gọi là chuỗi thời gian mờ

Tập mờ Ajk ( k=1,2, , n) chỉ được xuất hiện 1 lần bên vế phải.

2.2 Mô hình dự báo của Q Song và B.S Chissom

Mô hình dự báo chuỗi thời gian mờ lần đầu tiên được Q Song và B.S Chissom đưa ra vào năm 1993 [1, 2, 3] vàđược ứng dụng để dự báo số sinh viên nhập học tại Trường Đại học Alabama với dữ liệu lịch sử qua 22 năm kể từ năm1971 đến 1992.

Chuỗi thời gian lần đầu tiên được xem xét dưới góc độ biến ngôn ngữ và bài toán dự báo đã có được một cáchnhìn hoàn toàn mới trên quan điểm lý thuyết tập mờ Mô hình dự báo đầu tiên là mô hình dự báo chuỗi thời gian mờdừng [2, 3] và được triển khai qua các bước sau đây:

Trang 17

Bước 2 Chia miền xác định của tập nền thành những khoảng bằng nhauBước 3 Xây dựng các tập mờ trên tập nền

Bước 4 Mờ hóa chuỗi dữ liệu Bước 5 Xác định các quan hệ mờ

Bước 6 Dự báo bằng phương trình Ai=Ai−1* R, ở đây ký hiệu * là toán tử MaxMin

Bước 7 Giải mờ các kết quả dự báo.

Trong bước 5, quan hệ mờ R được xác định bằng biểu thức 𝑅i = 𝐴𝑇 x 𝐴 , với mọi quan hệ mờ As Aq,𝑅 = ⋃𝑘 �

Ở đây x là toán tử min, 𝑇 là phép chuyển vị và 𝖴 là phép hợp.

2.3 Mô hình dự báo S.M Chen

Do mô hình dự báo chuỗi thời gian mờ của Q Song và B.S Chissom khá phức tạp trong bước 5 và bước 6, vìvậy S.M Chen [4] đã cải tiến cách tính toán chính xác hơn cho các mô hình dự báo chuỗi thời gian chỉ sử dụng cácphép tính số học đơn giản trên cơ sở thông tin từ các quan hệ mờ và nhóm quan hệ mờ theo các bước sau đây:

Bước 1 Chia miền xác định của tập nền thành những khoảng bằng nhau.Bước 2 Xây dựng các tập mờ trên tập nền.

Bước 3 Mờ hóa chuỗi dữ liệu Bước 4 Xác định các quan hệ mờ Bước 5 Tạo lập nhóm quan hệ mờ.Bước 6 Giải mờ đầu ra dự báo.

2.4 Luật dự báo chuỗi thời gian mờ [4]

Luật dự báo cũng chính là phép giải mờ các kết quả đầu ra dự báo như ở bước 6 của mô hình dự báo [4].

Giả sử dữ liệu của chuỗi thời gian F(t-1) được mờ hóa bằng Aj, khi đó Đầu ra dự báo của F (t) được xác định

theo những luật (nguyên tắc) sau đây:

1. Nếu tồn tại quan hệ một - một trong nhóm quan hệ của Aj, ký hiệu là Aj Ak , và mức độ thuộc cao nhất của

Ak tại khoảng uk, thì đầu ra dự báo của F (t) là điểm giữa của uk.

2. Nếu Ak là trống, có nghĩa là Aj   và Aj có mức độ thuộc cao nhất tại khoảng uj, thì đầu ra dự báo là điểm

giữa của uj.

3.Nếu tồn tại quan hệ một - nhiều trong nhóm quan hệ mờ của Aj , ký hiệu là Aj A1 , A2 ,…, An, và mức độ

thuộc cao nhất của A1 , A2 ,…, An tại các khoảng u1 , u2 ,…, un tương ứng, thì đầu ra dự báo được tính bằng trung bình

các điểm giữa m1 , m2,…,mn của u1 , u2,…, un Đầu ra dự báo khi này có dạng: (m1+m2+…+mn)/n.

III LÝ THUYẾT ĐẠI SỐ GIA TỬ

Đại số gia tử được giới thiệu bởi N.C Ho và W Wechler [12, 13] nhằm giải quyết vấn đề phương pháp luận vàcung cấp một mô hình toán học mềm dẻo, linh hoạt và hiệu quả cho việc xử lý dữ liệu mờ Đại số gia tử đã được ứngdụng thành công trong nhiều bài toán khác nhau như: điều khiển mờ, tính toán trên từ, phân lớp, hồi quy [15, 16, 17,18, 19]… với nhiều kết quả tốt hơn những cách tiếp cận trước đó.

Trong phần này chúng tôi sẽ trình bày tóm tắt những lý thuyết của đại số gia tử, trong đó quan trọng nhất là cáccông thức để xác định mô hình tính toán trong đại số gia tử bao gồm cả phép ngữ nghĩa hóa và giải ngữ nghĩa hóa Đâycũng là cơ sở để ứng dụng đại số gia tử trong bài toán dự báo chuỗi thời gian mờ

Trước hết, chúng ta xem xét một số khái niệm cơ bản của đại số gia tử sau đây:

Gọi AX = ( X, G, C, H,  ) là một cấu trúc đại số, với X là tập nền của AX; G = {c-, c+} là tập các phần tử sinh;C = {0, W, 1}, trong đó 0, W và 1 tương ứng là những phần tử đặc trưng cận trái (tuyệt đối nhỏ), trung hòa và cận phải(tuyệt đối lớn); H là tập các toán tử một ngôi được gọi là các gia tử;  là biểu thị quan hệ thứ tự trên các giá trị ngônngữ Gọi H- là tập hợp các gia tử âm và H+ là tập hợp các gia tử dương của AX.

Ký hiệu H- = {h-1, h-2, …h-q}, trong đó h-1 < h-2 < … < h-q và H+ = {h1, h2, …, hp}, trong đó h1 < h2 < … < hp.

Định nghĩa 3.1: Độ đo tính mờ

fm: X  [0, 1] gọi là độ đo tính mờ nếu thỏa mãn các điều kiện sau:

+) fm(c-)+fm(c+) = 1 và ∑(∈𝐻 )𝑚(ℎ𝑥) = fm(x), với x  X (3.1)

+) Với các phần tử 0, W và 1, fm(0) = fm(W) = fm(1) = 0 (3.2)

Trang 18

𝑝 i&,𝑞,i./

)𝑚(ℎi𝑥) =

,𝑞 i&,1

+) sign(h’hx) = - sign(hx), nếu h’hx ≠ hx và h’ là âm đối với h; (3.11)

+) sign(h’hx) = + sign(hx), nếu h’hx ≠ hx và h’ là dương đối với h; (3.12)

Gọi fm là một độ đo tính mờ trên X, ánh xạ ngữ nghĩa định lượng : X  [0, 1], được sinh ra bởi fm trên X,

được xác định như sau:

với 𝜔4ℎ0𝑥5 = 1 ?1 + 𝑠8𝑔𝑛4ℎ0𝑥5 𝑠8𝑔𝑛(ℎ𝑝ℎ0𝑥)(𝛽 − 𝛼)B ∈ {𝛼, 𝛽}, j  [-q, p], j  0. (3.18)

Ngữ nghĩa hóa (Semantization) và giải ngữ nghĩa hóa (Desemantization)

Để thuận tiện cho việc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ, giả sử rằng miền tham chiếu thông thường

của các biến ngôn ngữ X là đoạn [a, b] còn miền tham chiếu ngữ nghĩa Xs là đoạn [as,bs] (0 ≤ as < bs ≤ 1) Việc chuyểnđổi tuyến tính từ [a, b] sang [as,bs] được gọi là phép ngữ nghĩa hóa tuyến tính (Linear Semantization) còn việc chuyểnngược lại từ đoạn [as,bs] sang [a, b] được gọi là phép giải nghĩa tuyến tính (Linear Desemantization) Trong nhiều ứngdụng của ĐSGT đã sử dụng miền ngữ nghĩa là đoạn [as=0, bs=1], khi đó phép ngữ nghĩa hóa tuyến tính được gọi làphép chuẩn hóa (Linear Semantization = Normalization) và phép giải nghĩa tuyến tính được gọi là phép giải chuẩn(Linear Desemantization = Denormalization ) Như vậy có thể biểu diễn phép ngữ nghĩa hóa tuyến tính và phép giảinghĩa tuyến tính đơn giản như sau:

Linear Semantization (x) = xs = as + ( bs – as ) ( x – a ) / ( b – a) (3.19a)

Linear Desemantization (xs) = x = a + ( b – a ) ( xs – as ) / ( bs – as) (3.20a)

Trang 19

Nguyễn Duy Hiếu, Nghiêm Văn Tính, Vũ Như Với điều kiện: 0 ≤ f(x 4

s,sp) ≤ 1 và f(xs=0,sp) = 0 và f(xs=1,sp) = 1

Trang 20

4 MỘT PHƯƠNG PHÁP MỚI DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ NGHĨA NGÔN

Nonlinear Desemantization (xs) = g(x,dp) (3.20c)

Với điều kiện: a ≤ g(x,dp) ≤ b, g(x = a,dp) = a và g(x = b,dp) = b

Các hàm f(.) và g(.) được chọn tùy theo từng ứng dụng và là các hàm liên tục, đồng biến, trong đó sp[-1 1] làtham số ngữ nghĩa hóa, dp [-1 1] là tham số giải nghĩa Ví dụ có thể chọn f(.) phi tuyến theo xs thể hiện qua f(xs,sp) vàg(.) phi tuyến theo x thể hiện qua Denormalization (f(xs,sp)) như sau:

g(x,dp) = dp*(( Denormalization (f(xs,sp))–a )*(b – Denormalization (f(xs,sp))) / (b-a) +

trong đó Denormalization (f(xs,sp)) = (sp*x*(1-x)+x )*(b-a) + a (3.20d1)

Hàm f(xs,sp) là hàm biểu diễn ngữ nghĩa phi tuyến trong phép giải nghĩa phi tuyến g(x.dp) chưa được sử dụng

trong các ứng dụng của ĐSGT Lưu ý rằng: có thể chọn các hàm f(xs,sp) và g(x,dp) độc lập với nhau.

Khi sp=dp=0 tính phi tuyến bị loại bỏ và biểu thức (3.19d) trở thành (3.19b) và (3.20d) trở thành (3.20b).

Cho trước độ đo tính mờ của các gia tử (h) và các giá trị độ đo tính mờ của các phần tử sinh fm(c-), fm(c+) và là phần tử trung hoà (neutral) Khi đó mô hình tính toán của ĐSGT được xây dựng trên cơ sở các biểu thức từ (3.1) đến(3.20) được kích hoạt và thực tế đã được sử dụng hiệu quả trong rất nhiều ứng dụng Phép mờ hóa và phép giải mờtrong tiếp cận mờ được thay thế tương ứng bằng phép ngữ nghĩa hóa và phép giải nghĩa trong tiếp cận ĐSGT Hệ luậtđược thể hiện bằng siêu mặt làm cơ sở cho quá trình suy luận xấp xỉ Một lưu ý quan trọng của quá trình tính toántrong tiếp cận ĐSGT là cần xác định các tham số ban đầu như độ đo tính mờ của các phần tử sinh và độ đo tính mờ củacác gia tử trong biến ngôn ngữ một cách thích hợp dựa trên cơ sở phân tích ngữ nghĩa của miền ngôn ngữ trong từngbài toán ứng dụng cụ thể Khi đó mô hình tính toán của tiếp cận ĐSGT sẽ cho các kết quả hợp lý trong các ứng dụng.

IV DỰ BÁO CHUỖI THỜI GIAN MỜ SỬ DỤNG ĐSGT VỚI 13 KHOẢNG CHIA

Trong phần này, chúng tôi sẽ đề xuất việc sử dụng lý thuyết của đại số gia tử, cụ thể là sử dụng phép ngữ nghĩahóa và giải ngữ nghĩa hóa trong bài toán dự báo chuỗi thời gian mờ theo cách chia khoảng của S.M Chen [6].

Về việc ứng dụng đại số gia tử trong mô hình chuỗi thời gian mờ cho bài toán dự báo số sinh viên nhập học trênđã được Nguyễn Duy Hiếu đề xuất trong [21] Trong nghiên cứu đó đã chỉ rõ việc sử dụng các công thức tính toán củađại số gia tử để đưa ra mô hình dự báo theo 6 bước cơ bản Trong nghiên cứu này, chúng tôi muốn thử nghiệm tínhhiệu quả của mô hình trên với cách chia khoảng mới của S.M Chen [6] đối với bài toán dự báo số lượng sinh viên nhậphọc tại Trường Đại học Alabama theo số liệu ghi nhận được như bảng sau:

Bảng 4.1 Số sinh viên nhập học tại Trường Đại học Alabama từ 1971 đến 1992 [2]NămSố sinh viên nhập họcNămSố sinh viên nhập học

Bảng 4.2 Thống kê lịch sử dữ liệu của cách chia 7 khoảng

Khoảng [13000,14000] [14000,15000] [15000,16000][16000,17000] [17000,18000] [18000,19000] [19000,20000]

Trang 21

Nguyễn Duy Hiếu, Nghiêm Văn Tính, Vũ Như 4

Theo S.M Chen [6], ta chia khoảng có 9 dữ liệu lịch sử thành 4 khoảng con, khoảng có 4 dữ liệu lịch sử thành 3khoảng con, khoảng có 3 dữ liệu lịch sử thành 2 khoảng con, khoảng không có dữ liệu lịch sử thuộc vào thì bỏ đi, cònlại giữ nguyên Các nhãn giá trị ngôn ngữ được Chen dùng ở đây gồm: A1=very very very very few, A2=very very veryfew, A3=very very few, A4 =very few, A5 =few, A6 = moderate, A7=many, A8=many many, A9= very many, A10=toomany, A11=too many many, A12=too many many many và A13= too many many many many.

Khác với cách tiếp cận của S.M Chen, chúng tôi đề xuất mô hình đại số gia tử được xây dựng bởi các phần tửsinh c- (small) và c+ (large) với tác động của hai gia tử (Little, Very) thuộc H Việc lựa chọn các giá trị ngữ nghĩa tươngứng với cách chia khoảng của Chen cụ thể như bảng 4.3.

Bảng 4.3 Nhãn ngữ nghĩa của các khoảngSttPhân đoạnKí hiệuGiá trị ngữ nghĩa

1 u1,1 = [13000, 13500] A1 Very Very Small2 u1,2 = [13500, 14000] A2 Little Very Small3 u2 = [14000, 15000] A3 Small

4 u3,1 = [15000, 15250] A4 Very Very Little Small5 u3,2 = [15250, 15500] A5 Little Very Little Small6 u3,3 = [15500, 15750] A6 Very Little Little Small7 u3,4 = [15750, 16000] A7 Little Little Little Small8 u4,1 = [16000, 16333] A8 Little Little Little Large9 u4,2 = [16333, 16667] A9 Little Little Large10 u4,3 = [16667, 17000] A10 Very Little Little Large11 u6,1 = [18000, 18500] A11 Very Little Large12 u6,2 = [18500, 19000] A12 Little Very Large13 u7 = [19000, 20000] A13 Very Large

Trong đó, các Ai, i=1 13 là các kí hiệu (nhãn ngữ nghĩa) tương ứng các giá trị ngữ nghĩa được chọn của đại số gia tử Việc lựa chọn các giá trị ngữ nghĩa này đảm bảo tỉ lệ, mật độ chia khoảng.

Đối với các giá trị ngữ nghĩa được chọn, giá trị ngữ ngữ nghĩa định lượng của 13 nhãn ngữ nghĩa A1, A2,… A13

được tính toán cụ thể theo các công thức sau:

 SA1 = v(Very Very Small) = θ-3θα+3θα2- θα3;

 SA2 = v(Little Very Small) = θ-2θα+2θα2- θα3;

 SA3 = v(Small) = θ-θα;

 SA4 = v(Very Very Little Small) = θ-θα+θα2- 2θα3+θα4;

 SA5 = v(Little Very Little Small) = θ-θα+θα2- θα3+θα4;

 SA6 = v(Very Little Little Small) = θ-θα+2θα2- 2θα3+θα4;

 SA7 = v(Little Little Little Small) = θ-θα+3θα2- 3θα3+θα4;

 SA8 = v(Little Little Little Large) = θ+α- 3α2+3α3- α4-θα+3θα2- 3θα3+θα4;

 SA9 = v(Little Little Large) = θ+α- 2α2+α3-θα+2θα2- θα3;

 SA10 = v(Very Little Little Large) = θ+α- 2α2+2α3- α4- θα+2θα2- 2θα3+θα4;

 SA11 = v(Very Little Large) = θ+α- α2+α3-θα+θα2- θα3;

 SA12 = v(Little Very Large) = θ+2α- 2α2+α3-2θα+2θα2- θα3;

 SA13 = v(Very Large) = θ+2α- α2-2θα+θα2;

Trong đó kí hiệu SAi = Semantization(Ai) là giá trị ngữ nghĩa định lượng của nhãn ngữ nghĩa Ai Nếu chọn trước α=0.5 và θ=0.5 thì giá trị ngữ nghĩa định lượng tính được như sau:

 SA1 = v(Very Very Small) = 0.0625;

 SA2 = v(Little Very Small) = 0.1875;

 SA3 = v(Small) = 0.25;

 SA4 = v(Very Very Little Small) = 0.28125;

 SA5 = v(Little Very Little Small) = 0.34375;

 SA6 = v(Very Little Little Small) = 0.40625;

 SA7 = v(Little Little Little Small) = 0.46875;

 SA8 = v(Little Little Little Large) = 0.53125;

 SA9 = v(Little Little Large) = 0.5625;

 SA10 = v(Very Little Little Large) = 0.59375;

 SA11 = v(Very Little Large) = 0.6875;

 SA12 = v(Little Very Large) = 0.8125;

Trang 22

4 MỘT PHƯƠNG PHÁP MỚI DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ NGHĨA NGÔN Chúng ta dễ thấy rằng các giá trị ngữ nghĩa định lượng luôn được theo thứ tự:

SA1 < SA2 < … < SA13

hay nói cách khác thứ tự ngữ nghĩa luôn được đảm bảo Đây cũng chính là điểm khác biệt quan trọng của lýthuyết đại số gia tử so với lý thuyết mờ khi đặt các giá trị ngôn ngữ trong thứ tự của nó, và cũng chính thứ tự đó tạonên cấu trúc của ngôn ngữ.

Kết hợp dữ liệu của bảng 4.1 với cách gán nhãn ngôn ngữ theo bảng 4.3 ta được bảng dữ liệu sinh viên nhậphọc với nhãn ngữ nghĩa theo bảng 4.4 bên dưới.

Bảng 4.4 Dữ liệu sinh viên nhập học với nhãn ngữ nghĩa tương ứng

Bảng 4.6 Khoảng giải nghĩa cho các điểm dự báoKhoảng giải nghĩa

cho các điểm dự báo

Giá trị đầu khoảng

Giá trị cuối khoảng

Khoảng giải nghĩa cho các điểm dự báo

Giá trị đầu khoảng

Giá trị cuối khoảng

Trang 23

Tham số ngữ nghĩa hóa (sp) và tham số giải nghĩa (dp) dùng để tính toán trong mô hình dự báo theo đại số giatử đã giới thiệu ở công thức (3.19c) và (3.20c) được chọn tương ứng là 0.2 và -0.3.

Công thức xác định sai số bình phương trung bình (MSE) là:

∑ 55 (Dữ_liệu_thực6 − Dữ_liệu_dự_báo6)𝑀𝑆𝐸 =

21(chỉ dự báo 21 năm từ 1972 tới 1992).

V KẾT LUẬN

Trong nghiên cứu này, chúng tôi đã sử dụng đại số gia tử trong bài toán dự báo chuỗi thời gian mờ theo cáchchia tập nền của bài toán dự báo sinh viên nhập học Alabama thành 13 khoảng theo S.M Chen Qua kết quả dự báo, tadễ dàng thấy được phương pháp đề xuất có kết quả dự báo tốt hơn nhiều so với kết quả của Chen.

Trong [21] đã so sánh kết quả dự báo theo cách chia truyền thống 7 đoạn giữa phương pháp sử dụng đại số giatử và các phương pháp khác sử dụng lý thuyết mờ, thêm kết quả của nghiên cứu này cho thấy khả năng ứng dụng củađại số gia tử trong bài toán dự báo chuỗi thời gian mờ là một hướng đi tốt, có thể tiếp tục mở rộng nghiên cứu.

Chúng ta có thể nghiên cứu việc sử dụng đại số gia tử trong bài toán dự báo chuỗi thời gian mờ với việc tối ưucác tham số của đại số gia tử, tối ưu khoảng chia và áp dụng phương pháp này cho các tập dữ liệu khác để có được cáinhìn khách quan, toàn diện hơn độ chính xác và hiệu quả dự báo.

TÀI LIỆU THAM KHẢO

[1] Q Song, B.S Chissom Fuzzy time series and its models Fuzzy Sets and Syst 54 269–277, 1993

[2] Q Song, B.S Chissom, Forecasting enrollments with fuzzy time series – part 1 Fuzzy Sets and Syst 54, 1–9, 1993[3] Q Song, B.S Chissom, Forecasting enrollments with fuzzy time series – part 2 Fuzzy Sets and Syst 62, 1–8, 1994.[4] S.M Chen, Forecasting Enrollments Based on Fuzzy Time Series Fuzzy Sets and Syst 81, 311–319, 1996

[5] S.M Chen, Forecasting Enrollments based on High Order Fuzzy Time Series Cybernetics and Systems: An International Journal 33,1-16, 2002.

[6] S.M Chen, C.C Hsu, A New Method to Forecast Enrollments using Fuzzy Time Series Int Journal Applied Science and Engineering 2, 234-244, 2004.

Trang 24

4 MỘT PHƯƠNG PHÁP MỚI DỰ BÁO CHUỖI THỜI GIAN MỜ DỰA TRÊN NGỮ NGHĨA NGÔN

[7] S M Chen and N.Y Chung, Forecasting enrollments using high-order fuzzy time series and genetic algorithms, Int Journal of Intelligent Systems 21, 485-501 2006.

[8] S.M Chen, K Tanuwijaya, Multivariate fuzzy forecasting based on fuzzy time series and automatic clustering techniques.Expert Systems with Applications 38, 10594–10605, 2011

[9] K Huarng, Heuristic models of fuzzy time series for forecasting Fuzzy Sets and Systems, 123: 369-386, 2001.

[10] J R Hwang, S M Chen, and C H Lee, Handling forecasting problems using fuzzy time series Fuzzy Sets and Systems, 100: 217-228, 1998.

[11] M H Lee, R Efendi, Z Ismad, Modified Weighted for Enrollments Forecasting Based on Fuzzy Time Series MATEMATIKA, 25(1), 67-78, 2009.

[12] N Cat Ho and W Wechler, Hedge algebras: An algebraic approach to structures of sets of linguistic domains of linguistic truth variable, Fuzzy Sets and Systems, Vol 35,3, pp.281-293, 1990

[13] N Cat Ho and W Wechler, Extended hedge algebras and their application to Fuzzy logic, Fuzzy Sets and Systems 52, 259- 281, 1992.

[14] Cat Ho N and H Van Nam: An algebraic approach to linguistic hedges in Zadeh's fuzzy logic, Fuzzy Set and System, 129, 229-254, 2002.

[15] Nguyen Cat Ho, Vu Nhu Lan, Le Xuan Viet, Optimal hedge-algebras-based controller: Design and Application, Fuzzy Sets and Systems 159, 968– 989, 2008

[16] Dinko Vukadinović, Mateo Bašić, Cat Ho Nguyen, Nhu Lan Vu, Tien Duy Nguyen Hedge-Algebra-Based Voltage Controller for a Self-Excited Induction Generator, Control Engineering Practice, 30, 78–90, 2014.

[17] Nguyen Dong Anh, Bui Hai Le, Vu Nhu Lan and Tran Duc Trung, Application of hedgealgebras-based fuzzy controller to active control of a structure against earthquake Struct Control Health Monit 20, 483–495, 2013

[18] Hai Le Bui, Duc Trung Tran, Lan Nhu Vu, Optimal fuzzy control of inverted pendulum Journal of Vibration and Control, 18 (14), 2097-2110, 2012

[19] Nguyen Dinh Duc, Vu Nhu Lan, Tran Duc Trung and Bui Hai Le A study on the application of hedge algebras to active fuzzy control of a seism-excited structure, Journal of Vibration and Control,18 (14), 2186–2200, 2012

[20] Nguyễn Công Điều, Một thuật toán mới cho mô hình chuỗi thời gian mờ, Tạp chí Khoa học và Công nghệ, Tập 49, Số 4, 11- 25, 2011

[21] Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ, Dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa, Kỷ yếu Hội nghị Quốc gia lần thứ 8 về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), 232-243, 2015.

A NEW METHOD TO FORECAST USING FUZZY TIME SERIES BASE ONLINGISTIC SEMANTICS

Nguyen Duy Hieu, Nghiem Van Tinh, Vu Nhu Lan

ABSTRACT— The time series forcasting problem has reseached by many authors in recent years But forcasting on data with large

changes by time or data recorded by the linguistic labels caused many difficulties when solving it with traditional mathematical andstatistical methods So Q Song and B.S Chissom proposed the fuzzy time series forcasting model Since then, there are many studiesin this direction, in order to provide new methods or improve existing methods to increase the forcasting accuracy In this paper, weproposed a new method using hegde algebra semantization and desemantization to Alabama enrollments forcasting problem Theforcasting model, the results and the comparisons will also be discussed.

Keywords— Forecasting, prediction, times series, fuzzy time series, hedge algebra, semantic, linguistic.

Trang 25

Nguyễn Duy Hiếu, Nghiêm Văn Tính, Vũ Như TẠP CHÍ KHOA HỌC 4Khoa học Tự nhiên và Công nghệ, Số 12 (3/2018) tr 108 - 119

TỐI ƯU THAM SỐ TRONG BÀI TOÁN

DỰ BÁO CHUỖI THỜI GIAN MỜ SỬ DỤNG ĐẠI SỐ GIA TỬ

Nguyễn Duy HiếuTrường Đại học Tây Bắc

Tóm tắt: Bài toán dự báo chuỗi thời gian mờ được Q Song và B S Chissom giới thiệu năm 1993 và chođến nay nó vẫn là một trong những vấn đề được nhiều tác giả trong và ngoài nước quan tâm nghiên cứu Ápdụng lý thuyết đại số gia tử vào bài toán dự báo chuỗi thời gian mờ là một hướng đi mới và đã bước đầu chomột số kết quả tốt Trong bài viết này, chúng tôi trình bày về vấn đề tối ưu tham số trong mô hình dự báo chuỗithời gian mờ sử dụng đại số gia tử để nâng cao độ chính xác kết quả dự báo của mô hình này.

Từ khóa: Dự báo, chuỗi thời gian mờ, đại số gia tử, tối ưu.

1 Mở đầu

Bài toán dự báo chuỗi thời gian đã và đang được nhiều tác giả trong nước cũng nhưngoài nước quan tâm nghiên cứu [5,6,7,8,9,10,11,14,15] Vi c dự báo được dữ li u trongtương lai luôn là tham vọng của con người nhằm đoán biết trước kết quả từ đó có những giảipháp đi trước để hoạch định tốt hơn trong công vi c.

Chuỗi thời gian mờ được Q Song và B S Chissom lần đầu tiên đề cập tới trong nghiêncứu của mình năm 1993 [1,2] Chuỗi thời gian mờ là công cụ hữu hi u để có thể dự đoán cácdữ li u thu thập được bằng ngôn ngữ tự nhiên, không những thế nó còn cho thấy những ưuđiểm vượt trội khi sử dụng cho những dữ li u có sự biến động lớn như giá cổ phiếu trên thịtrường chứng khoán [7,8] Kể từ khi được giới thi u cho tới nay, nhiều công trình nghiên cứuđã được đề xuất nhằm nâng cao tính chính xác của kết quả dự báo và giảm bớt độ phức tạptính toán của bài toán [7,8,9,10,11].

Đại số gia tử (ĐSGT) được N Cat Ho và W Wechler giới thi u năm 1990 [12] nhằmđưa ra một mô hình toán học phù hợp với dữ li u không chắc chắn, theo đó các giá trị ngữnghĩa của ngôn ngữ nằm trong một trật tự nhất định và chính thứ tự đó tạo nên giá trị ngữnghĩa của từ ngôn ngữ Đại số gia tử đã được ứng dụng trong các bài toán điều khiển, h i quy,trích rút tri thức, tính toán trên từ… và cho nhiều kết quả tốt [16,17,18,19,20].

Vi c ứng dụng đại số gia tử trong bài toán dự báo cũng đã được các tác giả trong [15]giới thi u với mô hình dự báo cho kết quả khá tốt Trong nghiên cứu này, bài viết sẽ đề xuấtnghiên cứu tối ưu các tham số trong bài toán dự báo chuỗi thời gian mờ sử dụng đại số gia tử.

Nội dung bài báo được trình bày thành các mục sau: Trước hết là phần MỞ ĐẦU, sauđó mục 2 trình bày tổng quan về mô hình dự báo chuỗi thời gian mờ theo các cách tiếp cậncủa Q Song, B S Chissom và S M Chen; mục 3 sẽ giới thi u dự báo chuỗi thời gian mờ sửdụng đại số gia tử và mục 4 đề xuất phương pháp tối ưu tham số trong bài toán dự báo chuỗithời gian mờ sử dụng đại số gia tử Cuối cùng là phần kết luận.

Ngày nhận bài: 11/7/2017 Ngày nhận đăng: 30/11/2017 Liên lạc: Nguyễn Duy Hiếu, e - mail: hieu3210@gmail.com

Trang 26

2 Mô hình dự báo chuỗi thời gian mờ

Mô hình chuỗi thời gian mờ lần đầu tiên được Q Song và B S Chissom đưa ra [1,2,3]và được S.M Chen cải tiến [4] để có thể xử lý bằng các phép tính số học đơn giản hơn nhưngchính xác, phù hợp với các ứng dụng dự báo chuỗi thời gian mờ Có thể tóm lược qua một sốkhái ni m cơ bản sau đây:

Định nghĩa 2.1: Chuỗi thời gian mờ

Giả sử Y(t), (t = , 0, 1, 2, ), là tập các số thực và cũng là tập nền trên đó xác định cáctập mờ fi(t), (i = 1, 2, .) Biến t là thời gian Nếu F(t) là một chuỗi các tập mờ của fi(t),(i = 1, 2, ), thì F(t) được gọi là chuỗi thời gian mờ trên Y(t), (t = , 0, 1, 2, ).

Giả sử F(t) là chuỗi thời gian mờ Nếu F(t) được suy ra từ F(t – 1), F(t – 2), , F(t – n),

thì quan h mờ này được biểu diễn bằng biểu thức:

và được gọi là chuỗi thời gian mờ bậc n.

Định nghĩa 2.4: Chuỗi thời gian mờ dừng

Giả sử F(t) được suy ra từ F(t – 1) và được ký hi u bằng F(t – 1)  F(t), khi đó quan h mờ giữa F(t) và F(t – 1) được mô tả bằng phương trình:

Giả sử có các quan h mờ: Ai  Aj1; Ai  Aj2; ; Ai  Ajn thì các quan h mờ trên có

thể đưa vào một nhóm được ký hi u như sau:

Trang 27

Ai  Aj1, Aj2, , Ajn (2.4)Tập mờ Ajk (k = 1,2, , n) chỉ được xuất hi n 1 lần bên vế phải.

3 Dự báo chuỗi thời gian mờ sử dụng đại số gia tử

Phần này sẽ trình bày tóm tắt những lý thuyết của đại số gia tử [12], trong đó quan trọngnhất là các công thức để xác định mô hình tính toán trong đại số gia tử bao gom cả phép ngữnghĩa hóa và giải ngữ nghĩa hóa Đây cũng là cơ sở để ứng dụng đại số gia tử trong bài toándự báo chuỗi thời gian mờ Đong thời, phần này cũng trình bày lại mô hình dự báo chuỗi thờigian mở sử dụng đại số gia tử đã được giới thi u trong [15].

Một số khái niệm của Đại số gia tử:

Gọi AX = (X, G, C, H,  ) là một cấu trúc đại số, với X là tập nền của AX; G = {c-, c+}

là tập các phần tử sinh; C = {0, W, 1}, trong đó 0, W và 1 tương ứng là những phần tử đặc

trưng cận trái (tuy t đối nhỏ), trung hòa và cận phải (tuy t đối lớn); H là tập các toán tử một

ngôi được gọi là các gia tử;  là biểu thị quan h thứ tự trên các giá trị ngôn ngữ Gọi H− là tập

hợp các gia tử âm và H+ là tập hợp các gia tử dương của AX.

fm(hic)  fm(c)fm(hi x)  fm(x)

i1(hi )  

Trang 28

- sign(c ) 

- sign(h ' hc)  sign(hc), nếu h’hx ≠ hx và h’ là âm đối với h;(3.11)

- sign(h ' hc) 

- sign(h ' hx) 

Định nghĩa 3.3 : Giá trị ngữ nghĩa định lượng

Gọi fm là một độ đo tính mờ trên X, ánh xạ ngữ nghĩa định lượng : X  [0, 1], được sinh ra bởi fm trên X, được xác định như sau:

Ngữ nghĩa hóa (Semantization) và giải ngữ nghĩa hóa (Desemantization):

Để thuận ti n cho vi c biểu diễn ngữ nghĩa của các giá trị ngôn ngữ, giả sử rằng miền

tham chiếu thông thường của các biến ngôn ngữ X là đoạn [a, b] còn miền tham chiếu ngữnghĩa Xs là đoạn [as,bs] (0 ≤ as < bs ≤ 1) Vi c chuyển đổi tuyến tính từ [a, b] sang [as,bs] đượcgọi là phép ngữ nghĩa hóa tuyến tính (Linear Semantization) còn vi c chuyển ngược lại từ

đoạn [as,bs] sang [a, b] được gọi là phép giải nghĩa tuyến tính (Linear Desemantization).Trong nhiều ứng dụng của ĐSGT đã sử dụng miền ngữ nghĩa là đoạn [as=0, bs=1], khi đó

phép ngữ nghĩa hóa tuyến tính được gọi là phép chuẩn hóa (Linear Semantization =Normalization) và phép giải nghĩa tuyến tính được gọi là phép giải chuẩn (LinearDesemantization = Denormalization) Như vậy có thể biểu diễn phép ngữ nghĩa hóa tuyếntính và phép giải nghĩa tuyến tính đơn giản như sau:

Linear Semantization (x) = xs = as + (bs – as) (x – a) / (b – a)(3.19a)

Linear Desemantization (xs) = x = a + (b – a)(xs – as) / (bs – as)(3.20a)

Trang 29

dẻo hơn nữa Điều này chỉ có thể có được khi mở rộng phép ngữ nghĩa hóa và phép giải nghĩatừ tuyến tính đến phi tuyến Tương tự trên, phép ngữ nghĩa hóa phi tuyến và phép giải nghĩaphi tuyến có thể được biểu diễn như sau:

Với điều ki n: 0 ≤ f(xs,sp) ≤ 1 và f(xs=0,sp) = 0 và f(xs=1,sp) = 1

Với điều ki n: a ≤ g(x,dp) ≤ b, g(x = a,dp) = a và g(x = b,dp) = b

Các hàm f(.) và g(.) được chọn tùy theo từng ứng dụng và là các hàm liên tục, đongbiến, trong đó sp[1, 1] là tham số ngữ nghĩa hóa, dp [1, 1] là tham số giải nghĩa Ví dụcó thể chọn f(.) phi tuyến theo xs thể hi n qua f(xs,sp) và g(.) phi tuyến theo x thể hi n quaDenormalization (f(xs,sp)) như sau:

Mô hình dự báo chuỗi thời gian mờ sử dụng đại số gia tử:

Bước 1 Xác định tập nền, chia miền xác định của tập nền thành những khoảng bằngnhau Bước 2 Xây dựng các nhãn ngữ nghĩa (giá trị ngôn ngữ theo tiếp cận ĐSGT) trêntập nền Bước 3 Ngữ nghĩa hóa phi tuyến chuỗi dữ li u.

Bước 4 Xác định các quan h ngữ nghĩa theo nhãn ngữ nghĩa Bước 5 Tạo lập nhóm quan h ngữ nghĩa theo nhãn ngữ nghĩa Bước 6 Giải nghĩa phi tuyến đầu ra dự báo.

4 Tối ƣu tham số trong bài toán dự báo chuỗi thời gian mờ sử dụng đại số gia tử

Phần này ứng dụng mô hình tính toán của đại số gia tử vào bài toán dự báo chuỗi thờigian mờ với tập dữ li u dự báo là số lượng sinh viên nhập học tại Trường Đại học Alabama từnăm 1971 đến năm 1992 [2,3,4] Nhóm tác giả sử dụng cách tính toán trong [15] và sau đó tốiưu bằng cách sử dụng giải thuật di truyền (genetic algorithm) trong MatLab để đưa ra kết quảdự báo.

Trang 30

Bảng 1 Số sinh viên nhập học tại Trường Đại học Alabama từ 1971 đến 1992

Các bước tính toán dựa trên ĐSGT và lựa chọn tham số tối ưu cụ thể như sau:

Bước 1: Xác định tập nền, chia miền xác định của tập nền thành những khoảngbằng nhau

Tập nền U được chọn tương tự mô hình S M Chen [4] có khoảng xác định: [Dmin−D1,Dmax+D2] với Dmin và Dmax là số sinh viên nhập học thấp nhất và cao nhất theo dữ li u lịch sửnhập học của trường Cụ thể Dmin=13055 và Dmax=19337 Các biến D1 và D2 là các số dương

được chọn sao cho khoảng [Dmin−D1, Dmax−D2] bao được hoàn toàn số sinh viên nhập học thấp

nhất và cao nhất trong tương lai Sử dụng cách chọn của S M Chen [4], D1 = 55 và D2

= 663, như vậy U = [13000, 20000] Khoảng xác định tập nền U được S M Chen [4] vànhiều tác giả khác chia thành 7 khoảng bằng nhau u1, u2, u3, u4, u5, u6 và u7 Trong đó

u1 = [13000, 14000], u2 = [14000, 15000], u3 = [15000, 16000], u4 = [16000, 17000],u5 = [17000, 18000], u6 = [18000, 19000] và u7 = [19000, 20000].

Bước 2 Xây dựng các nhãn ngữ nghĩa (giá trị ngôn ngữ không biểu diễn dưới dạngtập mờ) của tiếp cận ĐSGT trên tập nền

Giả sử A1, A2 ,…, Ak là các nhãn ngữ nghĩa được gán cho các khoảng u1, u2,…uk, k là sốkhoảng trên tập nền Các nhãn ngữ nghĩa ở đây được xây dựng từ các phần tử sinh c, c+ vớicác gia tử h ϵ H tạo thành các giá trị ngôn ngữ của biến ngôn ngữ “số sinh viên nhập học ”.Khi đó các nhãn ngữ nghĩa A1, A2 ,…, Ak có dạng sau đây: A1= hA1c; A2= hA2c;….; Ak= hAkc,trong đó hAi, (i = 1,2,…k) là chuỗi gia tử tác động lên c với c {c, c+}.

Trong bài toán dự báo số sinh viên nhập học tại trường Đại học Alabama, S.M Chen [4]

sử dụng các giá trị ngôn ngữ A1 = (not many), A2 = (not too many), A3 = (many), A4 = (manymany), A5 = (very many), A6 = (too many) và A7 = (too many many) Theo tiếp cận ĐSGT,

nhóm tác giả sử dụng 2 gia tử “very” và “little” tác động lên 2 phần tử sinh “small” và “large”để tạo ra 7 nhãn

Trang 31

ngữ nghĩa tương ứng với 7 giá trị ngôn ngữ của S M Chen [4] như sau: A1 = (very small), A2 =(small), A3 = (little small), A4 = (middle), A5 = (little large), A6 = (large) và A7 = (very large).

Bước 3 Ngữ nghĩa hóa chuỗi dữ liệu

Để xác định ngữ nghĩa định lượng cho các nhãn ngữ nghĩa A1, A2, ,A7 ở bước 2, cầnchọn trước độ đo tính mờ của các gia tử (very), (little) và giá trị độ đo tính mờ của phần tử

sinh fm(c) = θ với  là phần tử trung hoà được cho trước Nếu các nhãn ngữ nghĩa được tạothành chỉ từ 1 gia tử dương và 1 gia tử âm ví dụ gia tử dương “very” và gia tử âm “little ” tácđộng lên các phần tử sinh “large” hoặc “small” như trên, thì (little) = α và (very) = 1 α =β Như vậy ngữ nghĩa định lượng của các nhãn ngữ nghĩa sẽ chỉ phụ thuộc vào các tham sốcủa ĐSGT α, θ và hoàn toàn được xác định sau khi thay các giá trị α, θ vào các phương trình

tính toán ngữ nghĩa định lượng từ (3.14) đến (3.18) Cụ thể là 7 giá trị ngữ nghĩa định lượng

của 7 nhãn ngữ nghĩa A1,A2, .A7 được gán tương ứng cho 7 khoảng u1, u2, , u7 có dạngtham số hóa sau đây:

ν(very small) = θ(1 α)(1 α) ν(small) = θ(1 α)

ν(little small) = θ(1 α + α2) ν(midle) = θ

ν(little large) = θ + α(1 θ)(1 α) ν(large) = θ + (1 θ)α

ν(very large) = θ + α(1 θ)(2 α)

Trong đó, α và  chính là 2 biến x(1) và x(2) trong bài toán tối ưu tham số.

Ký hi u: SA = Semantization (A) là giá trị ngữ nghĩa định lượng theo nhãn ngữ nghĩa A,khi đó: SA1 = ν(very small); SA2 = ν(small); SA3 = ν(little small); SA4 = ν(middle); SA5 =ν(little large); SA6 = ν(large) và SA7 = ν(very large) là các giá trị ngữ nghĩa định lượng theocác tham số được chọn trước α, θ.

Bước 4: Xác định các quan hệ ngữ nghĩa theo nhãn ngữ nghĩa

Các quan h ngữ nghĩa được xác định trên cơ sở các dữ li u lịch sử Nếu đặt chuỗi thời

gian mờ F(t  1) là Aj có ngữ nghĩa định lượng SAj và F(t) là Ak có ngữ nghĩa định lượng SAk,

thì Aj có quan h với Ak và dẫn đến SAj có quan h với SAk Quan h này được gọi là quan h

ngữ nghĩa theo nhãn ngữ nghĩa và được ký hi u là: SAj  SAk hoặc Semantization (Aj) 

Semantization (Ak).

Trong bài toán dự báo số sinh nhập học tại trường Alabama, ở đây Aj là nhãn ngữ nghĩamô tả số sinh viên nhập học của năm hi n tại với ngữ nghĩa định lượng SAj, Ak là nhãn ngữnghĩa mô tả số sinh viên nhập học của năm tiếp theo với ngữ nghĩa định lượng SAk.

Như vậy, trên cơ sở số li u của S.M Chen [4], có thể xác định được các quan h ngữnghĩa theo nhãn ngữ nghĩa sau đây:

114

Trang 32

SA1 → SA1; SA1 → SA2;SA2 → SA3; SA3 → SA3;SA3 → SA4; SA4 → SA4;

SA4 → SA3; SA4 → SA6; SA6 → SA6; SA6 → SA7;SA7 → SA7 và SA7 → SA6

Chú ý rằng, nhóm tác giả bỏ qua sự lặp lại của các luật được ghi nhận được từ lịch sửdữ li u.

Bước 5 Tạo lập nhóm quan hệ ngữ nghĩa theo nhãn ngữ nghĩa

Nếu một ngữ nghĩa định lượng có quan h với nhiều ngữ nghĩa định lượng thì vế phảiđược chập lại thành một nhóm Quan h được lập theo nhóm như vậy được gọi là nhóm quanh ngữ nghĩa (NQHNN) Như vậy từ kết quả của Bước 4 ta nhận được các NQHNN sau đây:

Bước 6 Giải nghĩa đầu ra dự báo

Giả sử số sinh viên nhập học tại năm (t  1) của chuỗi thời gian mờ F(t  1) được ngữnghĩa hóa theo (3.19) là SAj, khi đó đầu ra dự báo của F(t) hay số sinh viên nhập học dự báotại năm t được xác định theo các nguyên tắc (luật) được trình bày trong [15].

Nếu bỏ qua trọng số, nghĩa là bỏ qua độ quan trọng của sự lặp lại các luật thì các trọng số

trong 1 nhóm quan h mờ bằng nhau và bằng 1/S với S là số các phần tử bên vế phải của luật.

Trong bài toán dự báo số sinh viên nhập học tại Trường Đại học Alabama, cần phảichọn 21 khoảng giải nghĩa với các giá trị đầu và giá trị cuối thích hợp tương ứng với 21 giá trịcần dự báo Vi c chọn khoảng giải nghĩa này cũng quyết định tới kết quả dự báo Đây cũngchính là các tham số cần được tối ưu trong mô hình tính toán sử dụng đại số gia tử khi ứngdụng vào bài toán dự báo chuỗi thời gian mờ.

Bên cạnh đó, các tham số sp trong (3.19c) và dp trong (3.20c) cũng là các tham số cần

được tối ưu vì các tham số này chính là tham số ngữ nghĩa hóa và tham số giải nghĩa Chúngtham gia trong mô hình tính toán và cũng góp phần quyết định độ chính xác của kết quả dựbáo.

Như vậy, tổng số biến cần tối ưu trong bài toán này là 46 biến, lần lượt bao gom: α, θ;42 giá trị đầu và cuối của khoảng giải nghĩa; sp và dp.

Giải thuật di truyền trong MatLab được sử dụng với hàm mục tiêu (fitness function)chính là sai số bình phương trung bình (MSE) được xác định như sau:

Trang 33

22

(X - Y )2

trong đó Xi , Yi lần lượt là dữ li u thực và dữ li u dự báo của năm thứ i tính từ năm 1972

đến năm 1992 vì năm 1971 không được dự báo (năm đầu tiên).

Các cận dưới và cận trên của các biến cần tối ưu được chọn như sau:

lb = [0.0; 0.0; 13000; 15000; 13000; 15000; 13000; 15000; 13000; 16000; 13000;

17000; 13000; 17000; 13000; 17000; 13000; 17000; 13000; 19000; 13000; 19000; 13000;19000; 13000; 17000; 13000; 17000; 13000; 17000; 13000; 17000; 13000; 17000; 13000;19000; 13000; 20000; 13000; 20000; 13000; 20000; 13000; 20000; 1; 1]

ub = [1.0; 1.0; 13000; 20000; 13000; 20000; 13000; 20000; 15000; 20000; 15000;

20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000;20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000; 20000; 15000;20000; 18000; 20000; 18000; 20000; 18000; 20000; 18000; 20000; 1; 1]

Dễ dàng nhận thấy α, θ có giá trị nằm trong đoạn [0,1]; sp, dp có giá trị nằm trong đoạn

[1;1] và các giá trị đầu khoảng, cuối khoảng nằm trong đoạn [Dmin; Dmax] sao cho chúng baođược các giá trị của các khoảng tương ứng với giá trị dự báo ra được trong lịch sử dự báo.

Sau khi thử nghi m với mô hình tính toán sử dụng đại số gia tử, kích thước quần thể(size of population) là 100, 10.000 thế h (generations) thu được nhiễm sắc thể tốt nhất (đãlàm tròn) như sau:

Best individual = [0.541593; 0.499595; 13000; 16787; 13000; 18342; 13000; 19999;

14779; 16717; 13088; 18407; 13386; 18689; 14284; 18057; 14624; 19846; 13683; 19920;13570; 19001; 13000; 19000; 13111; 18817; 13650; 17224; 13242; 17835; 14792; 17642;14714; 19845; 14999; 19999; 15105; 20000; 16501; 20000; 16710; 20000; 14419; 20000;0.066658; 0.290108]

Khi áp dụng bộ tham số trên vào mô hình dự báo trong [15] thu được kết quả như bảng so sánh dưới đây Kết quả dự báo với mô hình tối ưu tham số là tốt hơn mô hình dự báo trong[15] rất nhiều.

Trang 34

Năm Dữ li u thực Dữ li u dự báo (chưa tối ưu) [15] Dữ li u dự báo (tốiưu)

Khác với vi c tối ưu trong các nghiên cứu về dự báo chuỗi thời gian mờ [5, 8], các thamsố trong các nghiên cứu đó được chọn là tối ưu các khoảng chia Trong mô hình tính toán của

đại số gia tử, chúng tôi quan tâm tới các tham số: α, θ, sp, dp và các giá trị đầu mút của

khoảng giải nghĩa tương ứng với các điểm dữ li u lịch sử Do không cùng tham số tối ưu vớicác nghiên cứu khác [5,8] nên chỉ so sánh kết quả giữa mô hình tối ưu đề xuất với mô hìnhchưa tối ưu Vi c nghiên cứu tối ưu khoảng chia cũng nên được xem xét và nghiên cứu, tuynhiên theo nhóm nghiên cứu đối với mô hình dự báo chuỗi thời gian mờ sử dụng đại số gia tử,

các tham số phi tuyến sp, dp và các khoảng giải nghĩa khi được tối ưu đã thay thế cách tối ưu

theo khoảng chia này.

TÀI LIỆU THAM KHẢO

[1] Q Song, B.S Chissom (1993 Fuzzy time series and its models, Fuzzy Sets and System,54: 269-277.

[2] Q Song, B.S Chissom (19930 Forecasting enrollments with fuzzy time series - part 1,Fuzzy Sets and System, 54: 1-9.

[3] Q Song, B.S Chissom (1994) Forecasting enrollments with fuzzy time series - part 2,Fuzzy Sets and System, 62: 1-8.

Trang 35

[4] S M Chen (1996) Forecasting Enrollments Based on Fuzzy Time Series, Fuzzy Setsand System, 81: 311-319.

[5] S M Chen and N.Y Chung (2006) Forecasting enrollments using high-order fuzzytime series and genetic algorithms, International Journal of Intelligent Systems,21: 485-501.

[6] M H Lee, R Efendi, Z Ismad (2009) Modified Weighted for Enrollments ForecastingBased on Fuzzy Time Series, MATEMATIKA, 25(1): 67-78.

[7] S M Chen, P.Y Kao (2013) TAIEX forecasting based on fuzzy time series, particleswarm optimization techniques and support vector machines, Information Sciences,247: 62-71.

[8] Q Cai, D Zhang, B Wu, S.C.H Leung (2013) A novel stock forecasting model basedon fuzzy time series and genetic algorithm, Procedia Computer Science, 18: 1155 - 1162.[9] Q Cai, D Zhang, W.Zheng, S.C.H Leung (2015) A new fuzzy time series forecasting

model combined with ant colony optimization and auto-regression, Knowledge-BasedSystems, 74: 61-68.

[10] F Ye, L Zhang, D Zhang, H Fujita, Z Gong (2016) A novel forecasting methodbased on multi-order fuzzy time series and technical analysis, Information Sciences367-368: 41-57.

[11] Dang Tran, Nhuan Tran, Giang Nguyen, Binh Minh Nguyen (2017) A Proactive CloudScaling Model Based on Fuzzy Time Series and SLA Awareness, Procedia ComputerScience, 108C: 365-374.

[12] N Cat Ho and W Wechler (1990) Hedge algebras: An algebraic approach to structuresof sets of linguistic domains of linguistic truth variable, Fuzzy Sets and Systems,35(3): 281-293.

[13] N Cat Ho and W Wechler (1992) Extended hedge algebras and their application toFuzzy logic, Fuzzy Sets and Systems, 52: 259-281.

[14] Nguyễn Công Điều (2011) Một thuật toán mới cho mô hình chuỗi thời gian mờ, Tạpchí Khoa học và Công ngh , 49(4): 11-25.

[15] Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Ho (2015) Dự báo chuỗi thời gian mờdựa trên ngữ nghĩa, Kỷ yếu Hội nghị Quốc gia lần thứ 8 về Nghiên cứu cơ bản và ứngdụng CNTT (FAIR), tr 232-243.

[16] Cat Ho, N and H Van Nam (2002) An algebraic approach to linguistic hedges inZadeh's fuzzy logic, Fuzzy Set and System, 129: 229-254.

[17] Nguyen Cat Ho, Vu Nhu Lan, Le Xuan Viet, Optimal hedge-algebras-based controller:Design and Application, Fuzzy Sets and Systems, 159: 968- 989.

[18] Dinko Vukadinović, Mateo Bašić, Cat Ho Nguyen, Nhu Lan Vu, Tien Duy Nguyen(2013) Hedge-Algebra-Based Voltage Controller for a Self-Excited InductionGenerator, Control Engineering Practice, 30: 78-90.

[19] Nguyen Cat Ho, Nguyen Van Long, Hoang Van Thong (2015) A discussion oninterpretability of linguistic rule based systems and its application to solve regressionproblems, Knowledge-Based Systems, 88.

[20] Nguyen Cat Ho, Jose M Alonso (2017) Looking for a real-world-semantics-basedapproach to the interpretability of fuzzy systems, IEEE International Conference onFuzzy Systems.

Trang 36

OPTIMIZATION IN FUZZY TIME SERIES-FORCASTING PROBLEMUSING HEDGE ALGEBRA

Nguyen Duy HieuTay Bac University

Abstract: The fuzzy time series-forecasting problem was introduced by Q Song and B.S Chissom in 1993.It has been still one of the issues that many researchers are interested in studying Applying the hedge algebra tofuzzy time series forecasting problem is a new way and has had a good start In this article, we present theoptimization problem in fuzzy time series using hedge algebra to improve the forecasting accuracy of this model.

Keywords: Forecasting, fuzzy time series, hedge algebra, optimization.

Trang 37

An efficient fuzzy time series forecasting model based on quantifying semantics of words

Nguyen Duy Hieu

The falcuty of Natural Science andTechnology

Tay Bac University

Sonla, Vietnamhieund@utb.edu.vn

Nguyen Cat Ho

The Institute of Theorerical andApplied ResearchDuy Tan University

Danang, Vietnamnguyencatho@duytan.edu.vn

Abstract— Fuzzy time series forecasting model was first

introduced by Song and Chissom, in 1993 Then, Chenexamined this model, in 1996, applying fuzzy rules in theform

𝐴i ⟶ 𝐴$ , where 𝐴i and 𝐴$ are fuzzy sets associated with

linguistic labels representing their corresponding values in atime series Since then, many methods have been proposed toimprove the accuracy of time series forecasting results ordecrease processing times In this study, we propose anotherapproach dealing directly with human words with their owninherent semantics That is, we assume that the above rulesare of form 𝑋i ⟶ 𝑋$, in which 𝑋i and 𝑋$ are human

expert words describing their corresponding time seriesvalues Therefore, we should deal with a so-called linguistictime series forecasting model using the inherent semantics ofwords and their quantitative semantics based on the hedgealgebras formalism A comparative experiment is made toshow the usefulness of the proposed model.

Keywords—fuzzy time series, linguistic time series,forecasting, prediction, hedge algebras

I INTRODUCTION

In real life, we encounter a lot of time series data suchas enrollments, daily temperatures, stock indexes and soon In general, many forecasting models have beenproposed to handle these time series data for a long timeago In 1993, Song and Chissom [1]–[3] introduced fuzzytime series to handle fuzzy sets associated with humanwords considered as linguistic labels instead of numericdata of time series Their idea comes from an observationof the weather of a certain place in north America,beginning from the first day and ending with the last dayof a year, using linguistic words like good, very good,quite good, very very good, cool, very cool, quite cool,hot, very hot, cold, very cold, and so on [1] At the sametime, their research was motivated by the historical dataforecasting problem of university enrollments that hasbeen solved by many methods found in the literature.They proposed methods to construct a fuzzy time seriesfrom a given numeric time series as well as forecastingmodels to forecast enrollments based on fuzzy logicalrelationships (FLRs) between fuzzy time series elements𝐹(𝑡)’𝑠, which are sets of fuzzy sets The FLR at a time 𝑡is represented by the form 𝐹(𝑡) = 𝐹(𝑡 – 1) ∘ 𝑅, where𝑅 is a fuzzy relation and ‘∘’ is a max-min operation.However, when the given historical data is big, thesemodels are of high complexity causing by the computationof such much many FLRs This motivated Chen [4], in1996, proposed a method with simple arithmeticcomputations to overcome this complexity In the matter

average of the numeric representatives of the fuzzy setsassociated with the intervals forming a partition of therange of the given time series Since then, the fuzzy timeseries have been intensively studied and many modelsbased on these concepts have been investigated to enhancethe accuracy of forecasting results and simplified theoperation methods [5].

The main motivation of the authors of [1] is to proposemethod that can deal with human words to describe thetime series values instead of handling individual timevalues However, they consider the linguistic wordsassociated with their fuzzy data merely as linguistic labels.In other words, they still do not deal actually with humanown words Our study aims to propose a forecastingmethod for time series, which can handle linguistic logicalrelationships or, simply, linguistic rules of the form 23 ⟶24 containing words of with the inherent qualitativesemantics It is called linguistic time series that can beproduced from a given ordinary time series by a methodthat is able to deal directly with words Naturally, theproposed method should be developed based on the aformalization of word-domains of variables in question.Hedge algebras (HAs) are introduced in an axiomatic wayto model the inherent semantics structures of word-domains of variables [6], [7] It establishes anotherformalism to handle uncertain data in terms of linguisticwords HAs have been effectively applied in some fieldssuch as fuzzy control e.g [8], [9], data classification andregression using fuzzy rule-based systems, e.g.[10], multi-channel image contrast enhancement [11], and so on.

Based on the formalism of HAs, we propose in thisstudy a new calculating method handling linguistic wordsbased on their quantitative semantics to solve time seriesforecasting problem It utilizes the quantifying theory ofHAs to ensure that the proposed calculating method canprocess the forecasting linguistic rules with their ownqualitative and quantitative semantics To assess theperformance of the proposed method, we perform someexperiments on the data of enrollments of the Universityof Alabama from 1971 to 1992 and compare the proposedmethod with some other methods.

The study is organized as follows: Section II brieflyreview some basis concepts of fuzzy time series anddiscuss about fuzzy time series and linguistic time series,shortly presents hedge algebras focusing on quantifyingsemantics of words Section III proposes new method tothe fuzzy time series forecasting problem based on hedgealgebras using quantifying semantics of words Theexperiments using the proposed method and its

Trang 38

XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE

Trang 39

methods are also presented in this section Theconclusions and suggestions for future works are given inSection IV.

II PRELIMINARIES

A Fuzzy time series and the linguistic time series

Because, formally, the following definitionsconcerning these two concepts are the same except thefact that whether the notations present in these definitionsindicate fuzzy sets or linguistic words of the given word-domain of a variable modeled by an HAs This conventionsimplifies the presentation: when we replace the notationsindicating fuzzy sets in the following definitions bylinguistic words, we have corresponding concepts oflinguistic time series Of course, as we will see, theformalism for handling fuzzy time series is completelydifferent from the formalism for handling linguistic timeseries.

Now, we recall some elementary definitionsintroduced by Song, Chissom [1]–[3] and Chen [4] andwas summarized by Huarng [12] for the fuzzy time series.

Definition 1 [1] Let 𝑌(𝑡)(𝑡 = ⋯ ,0,1,2, … ) a subset

of 𝑅;, be the universe of discourse on which fuzzy set<3(𝑡)(= = 1,2, … ) are defined and 𝐹(𝑡) is the collectionof <3(𝑡), = = 1,2, … Then 𝐹(𝑡) is called a fuzzy timeseries defined on

based on a given t-norm and s-norm In the case that

the operations ‘max’ and ‘min’ are used, we have themax-min composition operator.

Definition 2 (refer to [12]) If there exists a fuzzy

relationship 𝑅(𝑡 − 1, 𝑡) , such that 𝐹(𝑡) = 𝐹(𝑡− 1) ∘

𝑅(𝑡 − 1, 𝑡) where ∘ represents a composition operator,then 𝐹(𝑡) is said to be caused by 𝐹(𝑡 − 1) Therelationship between 𝐹(𝑡 − 1) and 𝐹(𝑡) can bedenoted by

𝐹(𝑡 − 1) ⟶ 𝐹(𝑡) , called a fuzzy logical relationship(FLR).

One also usually denotes the above FLR by A3 ⟶A4, where 𝐹(𝑡 − 1) = A3 and 𝐹(𝑡) = A4 In [2], [3],

R is determined by a fuzzy relation, which is calculated by

𝑅 = [A(𝑡 − 1)]𝑇 ∘ A(𝑡) Assuming that the fuzzy timeseries under consideration has ten FLRs in the form A3 →A4 , where Al’s are fuzzy sets defined on the set of uk, k =1, …, κ, which are the intervals defined by a partition of

the ordinary time data series, we have then ten suchfuzzy

Then, the relationship A3 ⟶ A4O, … , A4i𝑘 formed fromthe above FLRs is called a fuzzy logical relationshipgroup.

B Chen’s forecasting model

In [4], Chen proposed a fuzzy time series forecastingmodel with more efficient calculating method than thatexamined by Song and Chissom We can summarize thatmodel as follows:

Step 1 Partition the universe of discourse into equal

length intervals.

Step 2 Define fuzzy sets on the universe of discourse.

Fuzzify the historical data and establish the fuzzy logicalrelationship based on fuzzified historical data.

Step 3 Group fuzzy logical relationship with one or

more fuzzy sets on the right.

Step 4 Calculate the forecasted outputs.

Because the condition of the equal partition mentioned

in Step 1 is not natural and strict, in many studies after the

publication of [4] pay attention to optimized partition ofthe universe of discourse to intervals We will utilize thiscomment in the develop the linguistic time seriesforecasting model.

C Hedge algebras

To deal with linguistic time series, the words present inthese linguistic time series are considered as elements ofthe underlying set of an associated HAs of the variableunder consideration, called for simplicity also words.Hedge algebras was introduced in the studies [6], [7].They offer a new formalism to handle linguistic wordswith their own qualitative which can easily applied in ourstudy By the limitation of the space, we summarize someof their basic concepts relate to the proposed forecastingmodel.

It can be seen, in general, that one can order everyword- domain of a linguistic variable based on theinherent semantics of its words When the universe of itscounterpart numeric variable is linearly ordered, we mayassume that so is its word-domain For example, for the

variable ENROLLMENT, we observe that verySmall ≤small ≤ littleSmall ≤ middle ≤ littleLarge ≤ large … This

motivates the authors of the papers mentioned above toformalized the inherent order-based semantic structures oflinguistic variables to become the so-called hedgealgebras We denote this formalized algebraic

structure by A2 = (2, 𝐺, 𝐶, 𝐻, ≤), where X is theword-domain of a given (linguistic) variables 𝑌; G is theset of two generators, the smaller - called the negativeprimary word, denoted by c–, and the larger - called the

positive primary word, denoted

relations, 𝑅j, j = 1, … , 10 Putting 𝑅 = ⋃;H

forecasting model is defined asA′3 = 𝑅 ∘ A3–;

the forecasted enrollment of year = in terms of fuzzy setsand ‘∘’ is the 'max-min' operator.

that for every =, we have the all FLRs that have the sameleft-hand sides A3 as follows:

Trang 40

are ‘absolutely small, ‘middle’ and ‘absolutely large’); H

the set of hedges like ‘little’, ‘rather’, ‘very’ or‘extremely’; and ≤ is the semantic order relation

modelling the order- relation inherent existing in the

word-domain of every variable For x  C, we have 𝑥

= ℎ𝑛 … ℎ;𝑐, 𝑐 ∈ 𝐺, ℎ4’𝑠 ∈

𝐻 and |x| denotes its length.

To calculate the numeric semantics of the words of anvariable, we require in this study two notions, the

semantically quantifying mapping (SQM) 𝜔, 𝜔: X →

[0, 1]

Ngày đăng: 05/12/2022, 15:04

HÌNH ẢNH LIÊN QUAN

MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ (Trang 1)
2.2 Mơ hình dự báo Song và Chissom - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
2.2 Mơ hình dự báo Song và Chissom (Trang 5)
Bảng 3.1. Giá trị đầu và giá trị cuối của 21 khoảng cho 21 giá trị dự báo Khoảng giải nghĩa  - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
Bảng 3.1. Giá trị đầu và giá trị cuối của 21 khoảng cho 21 giá trị dự báo Khoảng giải nghĩa (Trang 11)
Mô hình dự báo chuỗi thời gian mờ theo tiếp cận ĐSGT gồm 6 bước cơ bản, trong đó các bước 1,2. - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
h ình dự báo chuỗi thời gian mờ theo tiếp cận ĐSGT gồm 6 bước cơ bản, trong đó các bước 1,2 (Trang 12)
Khoảng giải nghĩa được chọn cho điểm dự báo thứ nhất (1972) theo bảng 3.1 là [1300 0– 17000] - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
ho ảng giải nghĩa được chọn cho điểm dự báo thứ nhất (1972) theo bảng 3.1 là [1300 0– 17000] (Trang 13)
Về việc ứng dụng đại số gia tử trong mơ hình chuỗi thời gian mờ cho bài toán dự báo số sinh viên nhập học trên đã được Nguyễn Duy Hiếu đề xuất trong [21] - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
vi ệc ứng dụng đại số gia tử trong mơ hình chuỗi thời gian mờ cho bài toán dự báo số sinh viên nhập học trên đã được Nguyễn Duy Hiếu đề xuất trong [21] (Trang 21)
Bảng 4.1 Số sinh viên nhập học tại Trường Đại học Alabama từ 1971 đến 1992 [2] - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
Bảng 4.1 Số sinh viên nhập học tại Trường Đại học Alabama từ 1971 đến 1992 [2] (Trang 21)
Khác với cách tiếp cận của S.M Chen, chúng tơi đề xuất mơ hình đại số gia tử được xây dựng bởi các phần tử sinh c- (small) và c+  (large) với tác động của hai gia tử (Little, Very) thuộc H - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
h ác với cách tiếp cận của S.M Chen, chúng tơi đề xuất mơ hình đại số gia tử được xây dựng bởi các phần tử sinh c- (small) và c+ (large) với tác động của hai gia tử (Little, Very) thuộc H (Trang 22)
Kết hợp dữ liệu của bảng 4.1 với cách gán nhãn ngôn ngữ theo bảng 4.3 ta được bảng dữ liệu sinh viên nhập học với nhãn ngữ nghĩa theo bảng 4.4 bên dưới. - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
t hợp dữ liệu của bảng 4.1 với cách gán nhãn ngôn ngữ theo bảng 4.3 ta được bảng dữ liệu sinh viên nhập học với nhãn ngữ nghĩa theo bảng 4.4 bên dưới (Trang 23)
Bảng 4.4 Dữ liệu sinh viên nhập học với nhãn ngữ nghĩa tương ứng - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
Bảng 4.4 Dữ liệu sinh viên nhập học với nhãn ngữ nghĩa tương ứng (Trang 23)
Bảng 4.7 So sánh kết quả dự báo - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
Bảng 4.7 So sánh kết quả dự báo (Trang 24)
Bảng 1. Số sinh viên nhập học tại Trƣờng Đại học Alabama từ 1971 đến 1992 - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
Bảng 1. Số sinh viên nhập học tại Trƣờng Đại học Alabama từ 1971 đến 1992 (Trang 33)
Sau khi thử ngh im với mơ hình tính tốn sử dụng đại số gia tử, kích thước quần thể (size of population) là 100, 10.000 thế h   (generations) thu được nhiễm sắc thể tốt nhất (đã làm tròn) như sau: - LUẬN án TIẾN sĩ NGÀNH máy TÍNH mô HÌNH dự báo CHUỖI THỜI GIAN NGÔN NGỮ dựa TRÊN đại số GIA tử
au khi thử ngh im với mơ hình tính tốn sử dụng đại số gia tử, kích thước quần thể (size of population) là 100, 10.000 thế h (generations) thu được nhiễm sắc thể tốt nhất (đã làm tròn) như sau: (Trang 38)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w