Chuỗi thời gian ngôn ngữ (LTS) 46 !

2.2. Mơ hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM) 45 !

2.2.1. Chuỗi thời gian ngôn ngữ (LTS) 46 !

Bởi vì con người cực kỳ quen thuộc với ngơn ngữ tự nhiên và thực hiện lập luận bằng ngôn ngữ của họ, chuỗi thời gian ngôn ngữ tồn tại một cách tự nhiên

và dường như rất quen thuộc trong thực tế. Do đó, LTS cũng có thể được thiết lập một cách tự nhiên như sau.

Định nghĩa 2.1: (Chuỗi thời gian ngôn ngữ) Cho 9 là tập các từ ngôn ngữ của một biến ngôn ngữ ) và ?G là miền số thực tương ứng. Khi đó, chuỗi giá trị 0(S), S = 0, 1, 2, …, trong đó 0(S) là tập hữu hạn trên 9, được gọi là một chuỗi thời gian ngôn ngữ.

Trong định nghĩa trên, biến S là biến thời gian. Dữ liệu được thu thập dưới dạng ngơn ngữ theo trình tự thời gian sẽ cho ta một chuỗi thời gian ngôn ngữ. Ví dụ, nếu quan sát giá đóng phiên của một mã cổ phiếu trên thị trường chứng khoán trong một khoảng thời gian, có thể bắt gặp chuỗi thời gian ngôn ngữ dạng …, high, Very high, high, Rather high, low, high, Rather low, low, Very low, low,…

Hay quan sát thời tiết và đánh giá nhiệt độ trung bình theo từng ngày, ta cũng có thể thấy chuỗi thời gian ngơn ngữ dạng …, Little cool, cool, cool, Little hot, Very

hot, hot, Very Very hot, hot,… Cần chú ý rằng, các từ ngôn ngữ được sử dụng

trong các trường hợp này thường bao gồm hai từ nguyên thủy có ngữ nghĩa ngược nhau và các từ khác được tạo nên khi tác động các gia tử bằng cách thêm vào trước từ đang có nhằm tăng giảm ngữ nghĩa của từ gốc.

2.2.2. Quan hệ lơ-gic ngơn ngữ và nhóm quan hệ lơ-gic ngơn ngữ

Nói chung, 0(S) là một tập con hữu hạn. Ví dụ, nếu nói về thời tiết của một ngày ta thường dùng một tập xác định các từ dùng để diễn tả mức độ nóng hay lạnh của nó. Trong chuỗi thời gian ngơn ngữ, quan hệ giữa các giá trị ngôn ngữ tồn tại một cách tự nhiên. Tương tự quan hệ lô-gic mờ, quan hệ lơ-gic ngơn ngữ (LLR - Linguistic Logical Relationship) có thể được định nghĩa hình thức như dưới đây:

Định nghĩa 2.2: (quan hệ lô-gic ngôn ngữ) Giả sử #$ và #, lần lượt là các từ ngôn ngữ sử dụng để diễn tả dữ liệu thu thập được tại thời điểm S và S + 1. Khi đó, tồn tại một mối quan hệ giữa #$ và #, được gọi là quan hệ lơ-gic ngơn ngữ và kí hiệu:

Trên thực tế, khi xét một tập dữ liệu nhất định ta có thể thấy nhiều quan hệ lơ-gic ngơn ngữ giống nhau ở vế trái. Khi đó, ta nói cùng một từ ngơn ngữ #$ có khả năng sinh ra nhiều giá trị dự báo khác nhau và các quan hệ này có thể được nhóm thành các nhóm quan hệ lơ-gic ngơn ngữ.

Định nghĩa 2.3: (nhóm quan hệ lơ-gic ngơn ngữ) Giả sử tồn tại các quan hệ

lô-gic ngôn ngữ như sau:

l$ → l,', l$ → l,),

… l$ → l,*.

Khi đó, ta có thể nhóm các quan hệ lơ-gic ngơn ngữ này thành các nhóm quan hệ lơ-gic ngôn ngữ (LLRG) như sau:

l$ → l,', l,), … , l,*.

Trong mơ hình dự báo LTS-FM, các nhóm quan hệ LLRG là cơng cụ chủ yếu dùng để tính tốn dự báo. Dựa trên các quan hệ này, đầu ra dự báo có thể được xác định dựa trên dữ liệu lịch sử tại các thời điểm trước đó. Cũng cần chú ý rằng, khi xét các tập dữ liệu lịch sử, có thể thấy có các quan hệ lơ-gic ngơn ngữ được lặp lại một hoặc nhiều lần. Việc có đưa việc lặp lại đó vào mơ hình tính tốn hay khơng sẽ được bàn đến trong các nghiên cứu dưới đây.

2.2.3. Mơ hình dự báo LTS-FM

Mơ hình dự báo LTS-FM được đề xuất nhằm sử dụng phương pháp tính tốn của ĐSGT trong bài tốn dự báo chuỗi thời gian. Phần dưới đây, mơ hình dự báo LTS-FM cùng với giải thuật tính tốn sẽ được đề xuất.

Hình 2.2. Mơ hình dự báo chuỗi thời gian ngơn ngữ

Trong mơ hình dự báo LTS-FM, ngữ nghĩa định lượng của các từ ngôn ngữ sẽ được sử dụng làm cơng cụ nhằm ngữ nghĩa hóa dữ liệu chuỗi thời gian, từ đó thiết lập các quan hệ giữa các từ ngơn ngữ và tính tốn trực tiếp giá trị dự báo. Mơ hình dự báo LTS-FM được đề xuất bao gồm các bước sau:

Bước 1: Khởi tạo bài tốn: xác định khơng gian nền bài toán; thiết lập cấu

trúc ĐSGT.

Bước 2: Xác định giá trị ngữ nghĩa định lượng của các từ ngôn ngữ.

Bước 3: Ánh xạ giá trị ngữ nghĩa định lượng về không gian nền để thu được

được tập các điểm ngữ nghĩa.

Bước 4: Ngơn ngữ hố chuỗi thời gian số bằng cách chọn các điểm ngữ nghĩa

gần nhất trong không gian nền đối với từng điểm dữ liệu.

Bước 5: Thiết lập các quan hệ lơ-gic ngơn ngữ và nhóm chúng vào các nhóm

quan hệ lơ-gic ngơn ngữ.

Bước 6: Tính tốn các kết quả dự báo.

Trong bước 6, các kết quả dự báo được tính tốn trên cơ sở các nhóm quan hệ LLRG và các nguyên tắc sau:

(1) Nếu giá trị ngữ nghĩa của thời điểm i là 9/ và tồn tại một nhóm quan hệ LLRG 9/ → 9U', 9U), … , 9U(, p ≥ 1 thì giá trị dự báo cho thời điểm i + 1 là J*U' + *U) + ⋯ + *U(K/p, trong đó *U', *U), … *U( là các điểm ngữ nghĩa tương ứng với các từ ngôn ngữ 9U', 9U), … , 9U(.

Bước 1: Khởi tạo bài toán Bước 2: Xác định ngữ nghĩa của các từ ngôn ngữ Bước 3: Ánh xạ ngữ nghĩa định lượng Bước 4: Ngơn ngữ hóa dữ liệu lịch sử Bước 5: Thiết lập LLRs và LLRGs Bước 6: Tính tốn dự báo

(2) Nếu giá trị ngữ nghĩa của thời điểm + là 9/ và không tồn tại một quan hệ lô-gic ngôn ngữ nào với 9/ ở vế trái. Khi đó, giá trị dự báo cho thời điểm + + 1 là */, điểm ngữ nghĩa tương ứng với 9/.

Trong hai nguyên lý trên, các điểm ngữ nghĩa *U', *U), … , *U( hay */ là các số thực trong không gian nền. Chúng chính là các giá trị ánh xạ tương ứng từ các giá trị ngữ nghĩa định lượng của các từ ngôn ngữ trong không gian nền.

Xét cấu trúc ĐSGT gồm hai phần tử sinh, hai gia tử và mơ hình dự báo LTS- FM như trong Hình 2.2. Giải thuật dự báo chuỗi thời gian ngôn ngữ được thiết

lập như sau:

Giải thuật 2.1. LTS-FM

Input: Dữ liệu '!, 3 = 1 … 5; kh™ng gian nền [6$, 6%]; c‡c từ ng™n

ngữ được d•ng 7&, j = 1 … M; c‡c tham số t’nh mờ ; = <(-'),

= = >(ℎ').

Output: C‡c gi‡ trị dự b‡o *!, 3 = 2 … 5.

Begin

For j = 1 to A do begin

T’nh to‡n gi‡ trị ngữ nghĩa định lượng B(7&); B%(j) = 6$+ (6%− 6$) ∗ BE7&F;

// ỗnh xạ ngữ nghĩa về kh™ng gian nền

End;

// Ng™n ngữ h—a chuỗi dữ liệu

For 3 = 1 to 5 do begin G3/_I3JK!/-L = +3/M;

For N = 1 to A do begin

If !OJ('! − B%(7()) < G3/_I3JK!/-L then

G3/_I3JK!/-L = !OJ('!− B%(7());

L(3) = 7(; L(3) lˆ nh‹n ng™n ngữ của năm thứ i;

End; End; End;

// Thiết lập c‡c nh—m quan hệ l™-gic ng™n ngữ

Thiết lập quan hệ l™-gic ng™n ngữ 7)→ 7*;

// 7) = L(3), 7* = L(3 + 1) lˆ nh‹n ng™n ngữ của năm thứ 3 vˆ 3 + 1 Th•m quan hệ l™-gic ng™n ngữ 7)→ 7* vˆo nh—m;

End;

// T’nh to‡n kết quả dự b‡o

For 3 = 1 to 5 − 1 do begin

If tồn tại nh—m quan hệ 7)→ 7*#, … , 7*+ then

Gi‡ trị dự b‡o *!"# = !TLU!VL(B%(7*#), … , B%(7*+));

Else

Gi‡ trị dự b‡o *!"# = B%(7));

End; End; End.

Trong thuật tốn trên, việc quan hệ lơ-gic ngơn ngữ x/ → xU có được bổ sung vào tập luật dự báo hay không khi đã tồn tại quan hệ đó trong tập luật dự báo sẽ cho ta hai phương pháp tính tốn dự báo khác nhau:

- Nếu khơng thêm: Dự báo với các luật khơng có trọng số, tương tự phương pháp dự báo của Chen [4] đối với FTS.

- Nếu tiếp tục thêm: Dự báo với các luật có trọng số, tương tự mơ hình của Yu [37] đối với FTS.

Nếu coi phép tính giá trị ù@(#/) là một phép tốn cơ bản thì q trình tính

tốn ngữ nghĩa của các từ ngơn ngữ có độ phức tạp về mặt thời gian là O(M). Q trình ngơn ngữ hóa chuỗi dữ liệu có độ phức tạp về mặt thời gian là O(N×M). Coi số từ ngôn ngữ được sử dụng là nhỏ so với số mẫu dữ liệu thì q trình này có độ phức tạp là O(N). Nếu coi số nhóm quan hệ lơ-gic ngơn ngữ là nhỏ so với số quan hệ lơ-gic ngơn ngữ thì q trình thiết lập các nhóm quan hệ lơ-gic ngơn

ngữ có thời gian thực hiện là O(N). Coi số từ ngôn ngữ bên vế phải của các nhóm

quan hệ lơ-gic ngơn ngữ là nhỏ so với số mẫu dữ liệu thì quá trình tính tốn kết

quả dự báo có độ phức tạp về mặt thời gian O(N). Như vậy, độ phức tạp về mặt

2.2.4. Một số kết quả thử nghiệm và thảo luận

Trong phần này, mơ hình được đề xuất trong Phần 2.2.3 sẽ được thử nghiệm vào dữ liệu lịch sử EUA (xem Bảng 2.1). Đây là bộ dữ liệu được Song & Chissom [2], [3], Chen [4] và nhiều nghiên cứu về FTS sử dụng xem xét hiệu quả của mơ hình đề xuất.

2.2.4.1. Thực nghiệm mơ hình LTS-FM vào bộ dữ liệu EUA

Trong phần này, thực nghiệm được tiến hành để minh họa phương pháp tính tốn của mơ hình dự báo LTS-FM bằng cách áp dụng mơ hình đề xuất một cách trực tiếp lên bộ dữ liệu EUA. Các kết quả dự báo cũng sẽ được so sánh với kết quả dự báo trong các nghiên cứu của Song & Chissom [2], [3] và Chen [4].

Dựa vào mơ hình đề xuất, thủ tục dự báo trên chuỗi thời gian EUA được thực hiện như sau:

Bước 1: Gọi &0$* và &06: tương ứng là giá trị bé nhất và giá trị lớn nhất của chuỗi thời gian lịch sử. Ta có: &0$* = 13055 và &06: = 19337.

Việc xác định không gian nền phải được thực hiện sao cho đủ bao phủ các giá trị lịch sử, tức không gian nền là [&V, &@] trong đó &V = &0$* − uV, &@ = &06: + u@ với uV, u@ ≥ 0. Trong trường hợp dữ liệu tuyển sinh, không gian nền của bài toán là [13000,20000].

Quan sát số lượng sinh viên nhập học, về cơ bản có hai trạng thái là ít và nhiều. Do đó, hai phần tử sinh sẽ là 5# = *(*(tjj), 55 = j(jtâ,i). Ngoài hai trạng thái trên, cũng có trạng thái trung gian ở giữa là (((+qqji). Hai gia tử ℎ# = [ ([tSℎiâ), ℎ5 = h(hiâÜ) tương ứng là gia tử âm và gia tử dương trong mơ hình ĐSGT sẽ được sử dụng. Khi đem [ và h tác động lên hai phần tử sinh * và j, miền ngôn ngữ được xác định như sau:

Dom(Enrollments)={Vs, s, Rs, m, Rl, l, Vl}

Các từ ngôn ngữ được sử dụng trong miền ngôn ngữ trên tương ứng là: Vs (Very small), s (small), Rs (Rather small), m (middle), Rl (Rather large), l (large),

Vl (Very large). Chú ý rằng, trong cấu trúc ĐSGT thì giữa các từ ngơn ngữ đều

có quan hệ thứ tự và trong trường hợp trên thứ tự như đã trình bày.

Sử dụng các cơng thức tính tốn trong Phần 1.2.3.5, các giá trị ngữ nghĩa định lượng được xác định như sau:

§! ù(hj) = 3 + 26 − 6)− 236 + 36); §! ù(j) = 3 − 36 + 6; §! ù([j) = 3 + 6) − 36); §! ù(() = 3; §! ù([*) = 3 − 36); §! ù(*) = 3 − 36; §! ù(h*) = 3 − 236 + 36).

Giá trị trung bình của các tham số 3 = 0,5 và 6 = 0,5. Tuy nhiên, để nhấn mạnh ý nghĩa về ngữ nghĩa của các từ ngôn ngữ, hai tham số này sẽ được chọn bằng phương pháp thử-sai. Phương pháp thử-sai được sử dụng để tìm kiếm giá trị tham số tốt nhất sau một vài lần thử khi phương pháp tối ưu chưa được áp dụng. Trong cấu trúc ĐSGT, khi thay đổi giá trị hai tham số 3 và 6 sẽ làm thay đổi giá trị ngữ nghĩa định lượng của các từ ngơn ngữ. Điều đó sẽ làm thay đổi các quan hệ trong mơ hình dự báo và do đó thay đổi kết quả dự báo. Tăng hoặc giảm giá trị của hai tham số quanh giá trị trung bình với dung sai ∂ = 0,01, giá trị của hai tham số này là 3 = 0,57; 6 = 0,49 sẽ được lựa chọn và sử dụng.

Áp dụng các cơng thức tính tốn giá trị ngữ nghĩa định lượng của các từ ngôn ngữ trong mơ hình ta nhận được ù(h*) = 0,1483; ù(*) = 0,2907; ù([*) = 0,4331; ù(() = 0,57; ù([j) = 0,6732; ù(j) = 0,7807; ù(hj) = 0,8882. Chú ý rằng các giá trị ù(+), + = 1 … 7 sẽ thay đổi khi điều chỉnh giá trị 3 và 6.

Bước 3: Ánh xạ giá trị ngữ nghĩa định lượng ù(+), + = 1 … 7 về không gian nền ta được tập các điểm ngữ nghĩa thực. Công thức dùng để ánh xạ như sau:

ù@(+) = &V + (&@ − &V) ∗ ù(+)

Đối với dữ liệu tuyển sinh, &V = 13000, &@ = 20000, các điểm ngữ nghĩa thực là:

{14038,15035,16032,16990,17713,18465,19217}

Bảy điểm ngữ nghĩa thực trên tương ứng với bảy từ ngôn ngữ được lựa chọn sử dụng trong mơ hình dự báo LTS-FM.

Bước 4: Ngơn ngữ hố chuỗi thời gian số bằng cách chọn các điểm ngữ nghĩa

gần nhất trong không gian nền đối với từng điểm dữ liệu.

Đối với mỗi điểm dữ liệu bất kỳ, lựa chọn một nhãn ngôn ngữ để gán theo nguyên tắc tìm điểm ngữ nghĩa thực sát nhất với dữ liệu thực tế.

Bảng 2.4. Số liệu sinh viên nhập học EUA và chuỗi thời gian ngôn ngữ tương ứng

Năm Số liệu Chuỗi thời gian

ngôn ngữ (LTS) Năm Số liệu

Chuỗi thời gian ngôn ngữ (LTS) 1971 13055 Vs 1982 15433 s 1972 13563 Vs 1983 15497 s 1973 13867 Vs 1984 15145 s 1974 14696 s 1985 15163 s 1975 15460 s 1986 15984 Rs 1976 15311 s 1987 16859 m 1977 15603 s 1988 18150 l 1978 15861 Rs 1989 18970 Vl 1979 16807 m 1990 19328 Vl 1980 16919 m 1991 19337 Vl 1981 16388 Rs 1992 18876 Vl

Ví dụ, số liệu tuyển sinh năm 1971 là 13055 thì nhãn ngơn ngữ tương ứng với năm 1971 là 9' (Vs) vì giá trị ngữ nghĩa thực của 9' là 14038, gần nhất với số liệu tuyển sinh đang xét. Tương tực, nhãn ngôn ngữ tương ứng với năm 1992 là 9T (Vl) vì giá trị ngữ nghĩa thực 19217 là gần nhất với số liệu tuyển sinh năm 1992 là 18876. Tương tự, ta có bảng số liệu tuyển sinh với chuỗi thời gian ngôn ngữ tương ứng như trong Bảng 2.4.

Trong bảng trên, cột chuỗi thời gian ngơn ngữ chính là kết quả của việc ngữ nghĩa hóa chuỗi thời gian dạng số theo trình tự thời gian. Chính quan hệ theo thời gian này sẽ dùng để thiết lập các quan hệ lô-gic ngôn ngữ ở bước tiếp theo.

Bước 5: Thiết lập các quan hệ lơ-gic ngơn ngữ (LLR) và nhóm chúng vào

các nhóm quan hệ lô-gic ngôn ngữ (LLRG).

Quan sát và ghi nhận quan hệ thời gian từ đầu tới cuối chuỗi dữ liệu lịch sử ta sẽ thu được các LLR tương ứng. Nếu nhãn ngơn ngữ của năm Ư là 9$ và nhãn

ngơn ngữ của năm thứ Ư + 1 là 9, thì thu được quan hệ LLR 9$ → 9,. Xét dữ liệu EUA, ta có các quan hệ LLR sau:

h* ⟶ h*; h* ⟶ *; * ⟶ *; * ⟶ [*; [* ⟶ *; [* ⟶ [* [* ⟶ (; ( ⟶ [*; ( ⟶ (; ( ⟶ j; j ⟶ hj; hj ⟶ hj

Từ các quan hệ lơ-gic ngơn ngữ (LLR) ở trên, nhóm các quan hệ có cùng vế trái thành một nhóm quan hệ lơ-gic ngơn ngữ (LLRG). Từ đó, ta thu được các nhóm quan hệ như trong bảng dưới đây.

Bảng 2.5. Các nhóm quan hệ lơ-gic ngơn ngữ của chuỗi thời gian tuyển sinh

Nhóm LLRG Viết tắt Nhóm 1 h* ⟶ h*, h* ⟶ * h* ⟶ h*, * Nhóm 2 * ⟶ *, * ⟶ [* * ⟶ *, [* Nhóm 3 [* ⟶ *, [* ⟶ [*, [* ⟶ ( [* ⟶ *, [*, ( Nhóm 4 ( ⟶ [*, ( ⟶ (, ( ⟶ hj ( ⟶ [*, (, j

Một số ứng dụng của ĐSGT 34 !

Mơ hình dự báo LTS-FM 4 8!