Dựa trên số liệu SV nhập học từ 1971 đến 1992 và trên cơ sở 6 bước theo tiếp cận ĐSGT trên đây, xây dựng được mô hình dự báo cho năm 1971 1972 , 1972 1973, 1973 1974,….. , 1991 1992. Kết quả của các mô hình dự báo được mô tả trong Bảng 2.7 để so sánh với các kết quả của một số mô hình Chen [7], cùng sử dụng chuỗi thời gian mờ với 7 khoảng chia.
Bảng 2.8: So sánh các phương pháp dự báo với 7 khoảng chia Năm nhập học Số SV Phương pháp Song [5,6] Phương pháp Chen [7] 1971 13055 - - 1972 13563 14000 14000 1973 13867 14000 14000 1974 14696 14000 14000 1975 15460 15500 15500 1976 15311 16000 16000 1977 15603 16000 16000 1978 15861 16000 16000 1979 16807 16000 16000 1980 16919 16813 16833 1981 16388 16813 16833 1982 15433 16789 16833 1983 15497 16000 16000 1984 15145 16000 16000 1985 15163 16000 16000 1986 15984 16000 16000 1987 16859 16000 16000 1988 18150 16813 16833 1989 18970 19000 19000 1990 19328 19000 19000 1991 19337 19000 19000 1992 18876 - 19000 MSE 423027 407507 2.4. Kết luận chương 2
Trong chương 2, luận văn trình bày các mô hình dự báo chuỗi thời gian mờ của Chen[7], Song & Chissom[5,6] và thử nghiệm các mô hình dự báo chuỗi thời gian mờ dựa trên bộ dữ liệu của trường đại học Alabama. Trên cơ sở lý thuyết của các mô hình dự báo chuỗi thời gian mờ đã đưa ra để làm cơ sở xây dựng các mô hình dự báo mờ sử dụng ĐSGT ở chương 3.
CHƯƠNG 3: MÔ HÌNH DỰ BÁO MỜ SỬ DỤNG ĐSGT VỚI NGỮ NGHĨA ĐỊNH LƯỢNG TỐI ƯU VÀ ỨNG DỤNG
3.1. Mô hình dự báo chuỗi thời gian mờ sử dụng đại số gia tử
Để thuận tiện cho việc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ [3,4], giả sử rằng miền tham chiếu thông thường của các biến ngôn ngữ X là đoạn [a, b] còn miền tham chiếu ngữ nghĩa Xs là đoạn [as,bs](0 ≤.as< bs ≤1). Việc chuyển đổi tuyến tính từ [a, b] sang [as, bs] được gọi là phép ngữ nghĩa hóa tuyến tính (linear semantization) còn việc chuyển ngược lại từ đoạn [as,bs] sang [a,b] được gọi là phép giải nghĩa tuyến tính (linear desemantization). Khoảng [a, b] được gọi là khoảng giải nghĩa.
Trong nhiều ứng dụng của ĐSGT đã sử dụng miền ngữ nghĩa là đoạn [as=0, bs=1], khi đó phép ngữ nghĩa hóa tuyến tính được gọi là phép chuẩn hóa (linear Semantization = Normalization) và phép giải nghĩa tuyến tính được gọi là phép giải chuẩn (Linear Desemantization = Denormalization ). Nhiều ứng dụng của ĐSGT trong nhiều lĩnh vực khoa học đòi hỏi mở rộng không gian tham số trong các phép ngữ nghĩa hóa và phép giải nghĩa để có nhiều tham số lựa chọn mềm dẻo hơn nữa. Điều này chỉ có thể có được khi mở rộng phép ngữ nghĩa hóa và phép giải nghĩa từ tuyến tính sang phi tuyến. Như vậy có thể biểu diễn phép ngữ nghĩa hóa và phép giải nghĩa như sau:
Linear Semantization (x) = xs = as + ( bs – as )*( x – a ) / ( b – a) (3.1) Normalization (x) = xs = ( x – a ) / (b – a ) (3.2) Nonlinear Semantization (x) = f(xs,sp) (3.3) Với điều kiện:0 ≤ f(xs,sp) ≤ 1 và f(xs=0,sp) = 0 và f(xs=1,sp) = 1
Hàm f(.) được chọn tùy theo từng ứng dụng và là hàm liên tục, đồng biến để đảm bảo thứ tự ngữ nghĩa. Ví dụ có thể chọn f(xs,sp) dựa trên Normalization(x) như sau:
Nolinear Normalization (x) = sp*xs*(1-xs) + xs (3.4) Tương tự:
Denormalization (xs) = x = a + ( b – a )*xs (3.6) Nonlinear Desemantization (xs) = g(x,dp) (3.7) Với điều kiện: a ≤ g(x,dp) ≤ b và g(x = a,dp) =a và g(x = b,dp) = b
Hàm g(.) được chọn tùy theo từng ứng dụng và là các hàm liên tục, đồng biến tương ứng với thứ tự ngữ nghĩa. Ví dụ sau khi chọn f(xs,sp ), có thể tiếp tục chọn g(x,dp) dựa trên Denormalization (f(xs,sp) ) như sau:
Nonlinear Denormalization (f(xs,sp)) = dp*(( Denormalization (f(xs,sp))–a)*(b – Denormalization (f(xs,sp))) / (b-a) + Denormalization (f(xs,sp)) (3.8)
Trong đó Denormalization (f(xs,sp)) =(sp*x*(1-x)+x )*(b-a) + a (3.9) Hàm f(xs,sp) là hàm biểu diễn phép ngữ nghĩa hóa phi tuyến g(x.dp) chưa được sử dụng trong các ứng dụng của ĐSGT, trong đó sp[-1 1] là tham số ngữ nghĩa hóa, dp [-1 1] là tham số giải nghĩa.
Khi sp=dp=0; tính phi tuyến bị loại bỏ và biểu thức (3.4) trở thành (3.2) và (3.8) trở thành (3.6).
Cho trước độ đo tính mờ của các gia tử (h) và các giá trị độ đo tính mờ của các phần tử sinh fm(c-), fm(c+) và là phần tử trung hoà (neutral). Khi đó mô hình tính toán của ĐSGT được kích hoạt và thực tế đã được sử dụng hiệu quả trong rất nhiều ứng dụng. Phép mờ hóa và phép giải mờ trong tiếp cận mờ được thay thế tương ứng bằng phép ngữ nghĩa hóa và phép giải nghĩa trong tiếp cận ĐSGT. Hệ luật được thể hiện bằng siêu mặt làm cơ sở cho quá trình suy luận xấp xỉ. Một lưu ý quan trọng của quá trình tính toán trong tiếp cận ĐSGT là cần xác định các tham số ban đầu như độ đo tính mờ của các phần tử sinh và độ đo tính mờ của các gia tử trong biến ngôn ngữ một cách thích hợp dựa trên cơ sở phân tích ngữ nghĩa của miền ngôn ngữ trong từng bài toán ứng dụng cụ thể. Khi đó mô hình tính toán của tiếp cận ĐSGT sẽ cho các kết quả hợp lý trong các ứng dụng.
Đối với mô hình dự báo chuỗi thời gian mờ của Song & Chissom và Chen, có thể thấy rõ ba giai đoạn: mờ hóa, xác định quan hệ mờ và giải mờ. Như vậy, hoàn toàn có thể thay thế tiếp cận mờ với ba giai đoạn trên đây bằng tiếp cận ĐSGT cũng với ba giai đoạn tương tự: Ngữ nghĩa hóa, xác định nhóm quan hệ ngữ nghĩa và giải
nghĩa. Từ đó, mô hình dự báo chuỗi thời gian mờ dựa trên ĐSGT có các bước cơ bản sau đây:
Bước 1. Xác định tập nền, chia miền xác định của tập nền thành những khoảng
bằng nhau.
Bước 2. Xây dựng các nhãn ngữ nghĩa (giá trị ngôn ngữ theo tiếp cận ĐSGT)
trên tập nền.
Bước 3. Ngữ nghĩa hóa chuỗi dữ liệu.
Bước 4. Xác định các quan hệ ngữ nghĩa theo nhãn ngữ nghĩa . Bước 5. Tạo lập nhóm quan hệ ngữ nghĩa theo nhãn ngữ nghĩa. Bước 6. Giải nghĩa đầu ra dự báo.
Các bước trên đây tương tự với các bước dự báo trong mô hình Chen nhưng trong tiếp cận ĐSGT không sử dụng tập mờ mà dùng ngữ nghĩa định lượng mô tả trực tiếp ngữ nghĩa của giá trị ngôn ngữ. Ở đây phép mờ hóa được thay thế bằng nhóm quan hệ ngữ nghĩa hóa, quan hệ mờ được thay bằng quan hệ ngữ nghĩa và nhóm quan hệ mờ được thay bằng nhóm quan hệ ngữ nghĩa. Cuối cùng phép giải mờ được thay thế bằng phép giải nghĩa.
3.2. Mô hình dự báo tối ưu theo tiếp cận đại số gia tử
Theo như mô hình dự báo theo tiếp cận ĐSGT việc tính toán ngữ nghĩa hóa và giải nghĩa nó ảnh hưởng nhiều đến kết quả dự báo, do vậy việc đưa ra được mô hình ngữ nghĩa định lượng tối ưu là rất cần thiết. Để tìm được mô hình tối ưu ta phải xác định được các giá trị ngữ nghĩa định lượng tối ưu theo các nhãn ngữ nghĩa.
Với mục tiêu là xây dựng được một mô hình ngữ nghĩa định lượng tối ưu. Do đó việc xác định được các giá trị định lượng ngữ nghĩa tốt sẽ làm cho phương pháp lập luận hợp lý hơn hoặc tốt hơn là tối ưu. Với lý do trên luận văn đưa ra một giải pháp đơn giản hơn so với các phương pháp khác là chấp nhận việc tính toán các giá trị ngữ nghĩa định lượng như trong mô hình dự báo mờ sử dụng ĐSGT trong Mục 3.2. Các tham số của ĐSGT được chọn theo trực giác trên cơ sở ĐSGT của các biến ngôn ngữ, và các giá trị định lượng ngữ nghĩa là tương đối hợp lý nhưng chưa phải tối ưu. Do vậy ta chỉ cần hiệu chỉnh các giá trị định lượng ngữ nghĩa bằng trực giác
trong một khoảng nào đấy để phương pháp luận là tối ưu. Cụ thể, ta phải thực hiện các nhiệm vụ sau đây:
- Đưa ra ngưỡng hiệu chỉnh định lượng ngữ nghĩa và xác định ngưỡng hiệu chỉnh định lượng ngữ nghĩa của các giá trị ngôn ngữ.
- Xây dựng mô hình ngữ nghĩa định lượng tối ưu dựa trên cơ sở hiệu chỉnh giá trị định lượng ngữ nghĩa với ngưỡng của các giá trị ngôn ngữ.
i) Vấn đề khái niệm ngưỡng hiệu chỉnh định lượng ngữ nghĩa
Trước hết ta giả thiết ĐSGT AX* = (X*, G, H, ρ ,, ) là tuyến tính, đầy đủ và tự do, trong đó X* là tập cơ sở, G = (0, c-, W, c+, 1) với c-, c+ là 2 phần tử sinh, 0, W,
1 tập các phần tử không sinh nghĩa, (phần tử W còn gọi là phần tử trung hòa), H là tập các gia tử âm và dương, là quan hệ thứ tự toàn phần trên X*, ρ và là hai phép toán mở rộng sao cho với mọi x X*, x, ρx tương ứng là cận dưới đúng và cận trên
đúng trong X* của tập H(x), là tập tất cả các phần tử sinh ra từ x nhờ các gia tử trong
H. Giả sử H = HH+, và H = {h-1, ..., h-q}, với h-1<h-2< ... <h-q, và H+ = {h1,...,
hp}, với h1< ...<hp, trong đó ta quy ước h0 = I, toán tử đơn vị trên X*.
Theo tài liệu [2] đưa ra định nghĩa ngưỡng hiệu chỉnh định lượng ngữ nghĩa, và phương pháp xác định ngưỡng hiệu chỉnh định lượng ngữ nghĩa của các giá trị ngôn ngữ để sao cho thứ tự ngữ nghĩa vẫn bảo đảm vốn có của các giá trị ngôn ngữ trong ĐSGT.
Định nghĩa 3.1. Số thực , 0 1 được gọi là ngưỡng hiệu chỉnh định lượng ngữ nghĩa của các giá trị ngôn ngữ trong X k nếu với mọi x, y X k thỏa x y kéo theo v(x) + 1 v(y) 2 đúng với 0<1, 2 <
Định lý 3.1. Cho AX* là ĐSGT tuyến tính, đầy đủ và tự do, ngưỡng hiệu chỉnh
định lượng ngữ nghĩa cho các giá trị ngôn ngữ trong X k là:
ii) Vấn đề xác định các giá trị hiệu chỉnh bằng giải thuật di truyền
Giả sử tồn tại một mô hình sai số của phương pháp lập luận cho bởi hàm
h(g,Op(par)) 0, trong đó g là mô hình thực mong muốn và Op(par) là mô hình được xấp xỉ. Khi đó bài toán xác định các tham số hiệu chỉnh định lượng ngữ nghĩa được phát biểu như sau: Tìm các tham số par sao cho h(g, Op(par)) min.
Đây là một bài toán tối ưu gồm nhiều biến có ràng buộc, do vậy sử dụng khả năng cực tiểu hóa hàm nhiều biến của giải thuật di truyền để xác định các giá trị hiệu chỉnh định lượng ngữ nghĩa của các giá trị ngôn ngữ.
- Tập tất cả các tham số hiệu chỉnh định lượng ngữ nghĩa được biểu diễn bởi vector thực sau:
par=((11,21,…,n1), (12,22,..,n2),…,(1m,2m,….,nm)) (3.10) với điều kiện ràng buộc:
|ij| < Xj ; i =1,…, n; j = 1,…, m (3.11) Các thành phần của vector phải thỏa mãn điều kiện ràng buộc (3.11) và vector (3.10) được xem như một cá thể có nhiễm sắc thể sau:
- Nhiễm sắc thể (1j,2j,..,nj) gồm n genes tương ứng cho ĐSGT AXj, j=1,.., m; Trên cơ sở bộ tham số hiệu chỉnh định lượng ngữ nghĩa và hàm thích nghi được xác định, sử dụng giải thuật di truyền cổ điển với mã hóa nhị phân được đề cập trong Mục 1.5, ta xác định được bộ tham số hiệu chỉnh định lượng ngữ nghĩa.
Trong bài toán dự báo mờ các tham số hiệu chỉnh ngữ nghĩa được xác định theo hàm cực tiểu sai số trung bình bình phương MSE (hàm mục tiêu).
MSE = 1 ( ( )) / k n i Ti Bi ( 3.12 ) Trong đó: MSE (Mean Square Error) là sai số trung bình bình phương; Ti là số thực tế thứ i;
Bi là số dự báo thứ I; k là các tham số giá trị đầu.
Các tham số sp của phép ngữ nghĩa hóa (3.4), tham số dp của phép giải nghĩa (3.8) , các tham số giá trị đầu, các giá trị cuối của đoạn giải nghĩa tương ứng với các điểm dự báo và 2 tham số θ, α của ĐSGT.
Chương trình tính toán xác định bộ tham số hiệu chỉnh Par sử dụng thuật toán giải thuật di truyền được trình bày trong Chương 1. Tuy nhiên, trong luận văn để đơn giản chương trình tối ưu hóa được sử dụng phần mềm tối ưu hóa GA của MATLAB R2012a. Kết quả của mô hình dự báo dựa trên ĐSGT với các tham số θ, α, sp, dp và các giá trị đầu, giá trị cuối của đoạn giải nghĩa được tìm tối ưu theo nghĩa cực tiểu hàm MSE.
3.3. Thử nghiệm các mô hình dự báo sử dụng ĐSGT
Để kiểm nghiệm tính hiệu quả của các phương pháp mô hình dự báo sử dụng ĐSGT được trình bày ở trên.
Bài toán được chọn để so sánh và làm rõ hiệu quả dự báo của mô hình trên là bài toán dự báo sốsinh viên nhập học tại trường Alabama do Song & Chissom [5,6] và Chen [7] đặt ra đầu tiên để nghiên cứu mô hình chuỗi thời gian mờ. Đây cũng là bài toán cho đến nay vẫn được Chen [5,6,7,8] và nhiều tác giả trên thế giới quan tâm nghiên cứu cải tiến. Trong luận văn cũng sử dụng số liệu này để xây dựng quá trình dự báo dựa trên ĐSGT.
3.3.1 Thử nghiệm mô hình dự báo mờ sử dụng ĐSGT
Sử dụng các bước tính toán trên đây cho bài toán dự báo số SV nhập học tại trường Đại học Alabama trên cơ sở các số liệu trong Bảng 2.1 cụ thể như sau:
Bước 1: Xác định tập nền, chia miền xác định của tập nền thành những khoảng
bằng nhau.
Tập nền U được chọn tương tự mô hình Chen có khoảng xác định: [Dmin−D1, Dmax+D2] với Dmin và Dmax là số SV nhập học thấp nhất và cao nhất theo dữ liệu lịch sử nhập học của trường cụ thể như sau:
Các biến D1 và D2 là các số dương được chọn sao cho khoảng [Dmin−D1, Dmax+D2] có thể bao được hoàn toàn số SV nhập học thấp nhất và cao nhất trong hiện tại và tương lai.
Sử dụng cách chọn của Chen [7], D1 = 55 và D2 = 663,
Như vậy U= [13000, 20000]. Khoảng xác định tập nền U được Chen [7] và nhiều tác giả khác chia thành 7 khoảng bằng nhau u1, u2, u3, u4, u5, u6 và u7. Trong đó u1 = [13000, 14000], u2 = [14000, 15000], u3 = [15000, 16000], u4 = [16000, 17000], u5 = [17000, 18000], u6 = [18000, 19000] và u7 = [19000, 20000].
Bước 2: Xây dựng các nhãn ngữ nghĩa trên tập nền: (Giá trị ngôn ngữ không
biểu diễn dưới dạng tập mờ) của tiếp cận ĐSGT tương ứng với các khoảng chia trên tập nền. Để có thể dễ theo dõi và so sánh với các bước dự báo trong mô hình Chen, ở đây sử dụng một số ký hiệu tương tự những ký hiệu Chen đã sử dụng nhưng với ý nghĩa của tiếp cận ĐSGT. Giả sử A1, A2 ,…, Ak là các nhãn ngữ nghĩa được gán cho các khoảng u1, u2,…uk, k là số khoảng trên tập nền. Khác với tập mờ trong nghiên cứu của Chen, các nhãn ngữ nghĩa ở đây được xây dựng từ các phần tử sinh c-, c+ với các gia tử h ϵ H tạo thành các giá trị ngôn ngữ của biến ngôn ngữ “số SV nhập học ”. Khi đó các nhãn ngữ nghĩa A1, A2 ,…, Ak có dạng sau đây: A1= hA1c; A2= hA2c;….; Ak= hAkc, trong đó hAi, (i=1,2,…k) là chuỗi gia tử tác động lên c với c {c-, c+}.
Trong bài toán dự báo số SV nhập học tại trường Đại học Alabama, Chen sử dụng các giá trị ngôn ngữ A1 = (not many), A2 = (not too many), A3 = (many), A4 = (many many), A5 = (very many), A6 = (too many) và A7 = (too many many). Trong bài toán dự báo này theo tiếp cận ĐSGT, chỉ sử dụng 1 gia tử dương “very” và 1 gia tử âm “little” tác động lên 2 phần tử sinh “small”và “large”để tạo ra 7 nhãn ngữ nghĩa tương ứng với 7 giá trị ngôn ngữ của Chen như sau: A1 = (very small), A2 = (small), A3 = (little small), A4 = (midle), A5 = (little large), A6 = (large) và A7 = (very large).
Bước 3: Ngữ nghĩa hóa chuỗi dữ liệu.
Dựa trên cặp (α = 0.5; θ = 0.5 ) tương ứng với các nhãn ngữ nghĩa với 1 lớp gia tử sử dụng 1 gia tử dương và 1 gia tử âm.
Để xác định ngữ nghĩa định lượng cho các nhãn ngữ nghĩa A1, A2,...,A7 ở bước 2, cần chọn trước độ đo tính mờ của các gia tử (very), (little) và giá trị độ đo tính mờ của phần tử sinh fm(c-) = θ với là phần tử trung hoà được cho trước. Nếu các nhãn ngữ nghĩa được tạo thành chỉ từ 1 gia tử dương và 1 gia tử âm ví dụ gia tử dương “very” và gia tử âm “little ” tác động lên các phần tử sinh “large” hoặc “small” như trên, thì (little) = α và (very) = 1- α = β. Như vậy ngữ nghĩa định lượng của các nhãn ngữ nghĩa sẽ chỉ phụ thuộc vào các tham số của ĐSGT α, θ và hoàn toàn được xác định sau khi thay các giá trị α, θ vào phương trình tính toán định lượng ngữ nghĩa. Cụ thể là 7 giá trị ngữ nghĩa định lượng của 7 nhãn ngữ nghĩa A1, A2,...,A7 được gán tương ứng cho 7 khoảng u1, u2, ….,u7 có dạng tham số hóa sau đây:
ν(very small) = θ(1-α)(1-α) (3.13) ν(small) = θ(1-α) (3.14) ν(little small) = θ(1-α+α2) (3.15) ν(midle) = θ (3.16) ν(little large) = θ+α(1-θ)(1-α) (3.17) ν(large) = θ+(1-θ)α (3.18) ν(very large) = θ+α(1-θ)(2-α) (3.19)
Ký hiệu: SA = Semantization (A) là giá trị ngữ nghĩa định lượng theo nhãn