Bài báo đề xuất tiếp cận tính toán trực tiếp trên từ ngôn ngữ để phát triển phương pháp tiến hóa thiết kế các hệ dựa trên luật mờ có tính giải nghĩa được theo quan điểm của Tarski và có thể mở rộng để giải bài toán hồi quy. Tính giải nghĩa này đòi hỏi rằng các cấu trúc đa thể hạt mờ được xây dựng biểu diễn ngữ nghĩa của tập từ được khai báo của các thuộc tính được sử dụng phải là hình ảnh đẳng cấu của cấu trúc ngữ nghĩa của tập từ tương ứng của chúng. Hơn nữa, trong thực tế, tri thức của con người được tích lũy và gia tăng theo thời gian dẫn đến nhu cầu mở rộng tập từ hiện được sử dụng để giải bài toán ứng dụng trong thực tiễn hiệu quả hơn. Nó gợi ý việc nghiên cứu các hành vi của các hệ dựa trên luật mờ khi cho phép gia tăng tập từ hiện được sử dụng của các thuộc tính trong khi vẫn đảm bảo các tập mờ đã được xây dựng được sử dụng lại. Các thực nghiệm được tiến hành với 15 tập dữ liệu hồi quy cho thấy tính hiệu quả và ưu điểm của phương pháp được đề xuất so với các phương pháp đã được công bố.
TNU Journal of Science and Technology 226(11): 341 - 348 A DESIGN METHOD OF SCALABLE FUZZY RULE-BASED SYSTEMS FOR SOLVING REGRESSION PROBLEMS Nguyen Duc Du1*, Pham Dinh Phong1, Hoang Van Thong1, Nguyen Cat Ho2 1University 2Duy of Transport and Communications Tan University ARTICLE INFO ABSTRACT Received: 27/7/2021 This paper proposes an approach for handling linguistic words directly to develop an evolutionary method for designing fuzzy rulebased systems interpretable in Tarski et al.’s sense and scalable to solve dataset regression problems This interpretability requires that the constructed fuzzy multi-granularity structures representing the currently used word sets of dataset’s attributes must be the isomorphic images of their respective semantic word sets’ structures Furthermore, in practice, human domain knowledge are accumulated and grown over time, leading to the requrements of expanding the currently used word sets to solve their encountered problems more effectively It suggests studying behaviors of fuzzy rule-based systems when allowing the currently used word sets of dataset’s attributes to grow while requiring the already constructed fuzzy sets based semantics of the existing linguistic words are reused Experiments were conducted with 15 regression datasets to show the performance and advantages of the proposed method compared to the existing methods Revised: 30/8/2021 Published: 30/8/2021 KEYWORDS Hedge algebras Fuzzy rule-based system Order-based semantics Scalability Interpretability MỘT PHƯƠNG PHÁP XÂY DỰNG HỆ DỰA TRÊN LUẬT MỜ CĨ KHẢ NĂNG MỞ RỘNG GIẢI BÀI TỐN HỒI QUY Nguyễn Đức Dư1*, Phạm Đình Phong1, Hồng Văn Thông1, Nguyễn Cát Hồ2 1Trường 2Trường Đại học Giao thông vận tải Đại học Duy Tân THÔNG TIN BÀI BÁO Ngày nhận bài: 27/7/2021 Ngày hoàn thiện: 30/8/2021 Ngày đăng: 30/8/2021 TỪ KHÓA Đại số gia tử Hệ dựa luật mờ Thứ tự ngữ nghĩa Khả mở rộng Tính giải nghĩa TĨM TẮT Bài báo đề xuất tiếp cận tính tốn trực tiếp từ ngơn ngữ để phát triển phương pháp tiến hóa thiết kế hệ dựa luật mờ có tính giải nghĩa theo quan điểm Tarski mở rộng để giải tốn hồi quy Tính giải nghĩa đòi hỏi cấu trúc đa thể hạt mờ xây dựng biểu diễn ngữ nghĩa tập từ khai báo thuộc tính sử dụng phải hình ảnh đẳng cấu cấu trúc ngữ nghĩa tập từ tương ứng chúng Hơn nữa, thực tế, tri thức người tích lũy gia tăng theo thời gian dẫn đến nhu cầu mở rộng tập từ sử dụng để giải toán ứng dụng thực tiễn hiệu Nó gợi ý việc nghiên cứu hành vi hệ dựa luật mờ cho phép gia tăng tập từ sử dụng thuộc tính đảm bảo tập mờ xây dựng sử dụng lại Các thực nghiệm tiến hành với 15 tập liệu hồi quy cho thấy tính hiệu ưu điểm phương pháp đề xuất so với phương pháp công bố DOI: https://doi.org/10.34238/tnu-jst.4811 * Corresponding author Email: nducdu@utc.edu.vn http://jst.tnu.edu.vn 341 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 Giới thiệu Một khả đặc biệt người xử lý trực tiếp tri thức ngôn ngữ họ để giải tốn thực tế Để mơ khả người việc xử lý tính tốn trực tiếp từ ngơn ngữ, cần phải thiết lập cấu trúc tính tốn thích hợp đối tượng tính tốn biến coi ngữ nghĩa tính toán từ Các hệ dựa luật mờ (fuzzy rule-based systems – FRBS) với ngữ nghĩa từ ngôn ngữ sở luật biểu diễn tập mờ công cụ dùng để mô khả lập luận người Tuy nhiên, FRBS thiết kế theo hướng tiếp cận lý thuyết tập mờ khơng có sở hình thức để đảm bảo tập hợp mờ biểu diễn xác ngữ nghĩa từ ngôn ngữ gán cho chúng, sau trình hiệu chỉnh tham số hàm thuộc, chúng khơng cho cơng cụ xử lý trực tiếp từ ngơn ngữ Vì vậy, chúng chưa thể mơ xác cách mà chuyên gia lập luận, hay nói khác chúng khó giải nghĩa Do đó, Mencar Fanelli đưa số ràng buộc mức phân hoạch mờ sở luật để đảm bảo tính giải nghĩa [1] Trong báo này, nghiên cứu phương pháp luận tính tốn trực tiếp từ ngơn ngữ theo tiếp cận Đại số gia tử [2], [3] để phát triển thuật tốn tiến hóa thiết kế LRBS có tính giải nghĩa theo quan điểm Tarski [4] Như vậy, thiết kế LRBS cần có chế hình thức để xác định ngữ nghĩa tính tốn từ ngơn ngữ từ ngữ nghĩa định tính vốn có [4]-[8], tức cấu trúc đa thể hạt mờ phải hình ảnh đẳng cấu cấu trúc ngữ nghĩa tập từ tương ứng thuộc tính Để đáp ứng địi hỏi cấu trúc phân hoạch mờ biểu diễn cấu trúc ngữ nghĩa từ ngôn ngữ biến ngôn ngữ phải giải nghĩa [8] Bên cạnh đó, vấn đề khả mở rộng miền từ biến ngôn ngữ sau đưa vào ứng dụng nghiên cứu nhằm thiết kế LRBS hiệu dựa LRBS thiết kế áp dụng để giải toán ứng dụng thực tế Cấu trúc ngữ nghĩa dựa tập mờ từ ngơn ngữ 2.1 Khái niệm tính giải nghĩa Theo Tarski cộng [4], khái niệm tính giải nghĩa toán học logic thể rằng, thay giải tốn cho Ps lý thuyết S người ta giải lý thuyết T khác cách biến đổi PS sang T phép biến đổi T S giải nghĩa T phép biến đổi T Như vậy, lý thuyết T thỏa mãn điều kiện T gọi giải nghĩa S 2.2 Cấu trúc ngữ nghĩa đa mức miền từ ngôn ngữ vơ hạn thuộc tính 2.2.1 Biểu diễn cấu trúc ngữ nghĩa dựa tập mờ miền từ theo tiếp cận ĐSGT Đại số gia tử (ĐSGT) Nguyễn Cát Hồ Wechler giới thiệu năm 1990 [2], [3] Trong 𝐴 [5], tác giả mở rộng ĐSGT truyền thống 𝒜A thành ĐSGT mở rộng 𝓐𝑒𝑛 việc bổ sung gia tử nhân tạo h0 nhằm mơ hình hóa lõi ngữ nghĩa từ ngôn ngữ 𝐴 Miền từ XA bao gồm hai cấu trúc, cấu trúc ngữ nghĩa dựa thứ tự 𝛵 𝐴 = (𝑋𝑒𝑛 , ≤) cấu trúc A 𝐴 khái quát - đặc tả G = (𝑋𝑒𝑛 , g) Hai cấu trúc tạo thành cấu trúc ngữ nghĩa đa mức biểu 𝐴 thị SA = (𝑋𝑒𝑛 , ≤, g) thể dạng bụi đa mức Hình gọi bụi ngữ 𝐴 A nghĩa 𝔅 S 𝔅 𝐴 cấu trúc có tiềm vơ hạn Mỗi nút biểu diễn tính mờ từ mức đặc tả k Gọi cấu trúc bao gồm tất mức l = đến k k-section bụi ngữ 𝐴 nghĩa 𝔅 𝐴 , ký hiệu 𝔅𝜅𝐴 Nó biểu diễn cấu trúc ngữ nghĩa tập từ 𝑋𝑒𝑛,(𝑘) A A A Muốn cấu trúc T(X ) biểu diễn cấu trúc 𝒮 = (X , ≤, g) bảo toàn cấu trúc 𝒮A hay nói cách khác T(XA) giải nghĩa địi hỏi định nghĩa hai quan hệ ký hiệu ≤ T(XA) 𝒮A có quan hệ thứ tự ≤ khái quát - đặc tả g Ký hiệu tập mờ hình thang ba (a, b, c), a, c ∈ [0, 1], b khoảng [0, 1] đóng vai trò lõi ba a < b < c http://jst.tnu.edu.vn 342 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 Định nghĩa Với tập mờ hình thang xây dựng T(XA), định nghĩa: 1) Quan hệ thứ tự ≤ T(XA): Hai ba t t' với t = (a, b, c) t' = (a', b', c') thỏa mãn t ≤ t' lõi chúng thỏa mãn b = b' b < b' thỏa bất đẳng thức a ≤ a' c ≤ c' 2) Quan hệ bao hàm T(XA): Hai ba t t' gọi thỏa mãn t t' đáy lớn t bao hàm đáy lớn t', tức (a, c) (a', c') 𝐴 Tập T(XA) với hai quan hệ ≤ ký hiệu 𝑀𝐺𝑟 = (T(XA), ≤, ), gọi cấu trúc đa thể hình thang A Trong thực tế ứng dụng, miền từ sử dụng biến thường giới hạn với mức đặc tả tối đa k Hình Cấu trúc bụi ngữ nghĩa 𝕭𝑨 quan hệ chúng Hình Cấu trúc phân hoạch đa thể hình thang biểu diễn cấu trúc ngữ nghĩa 𝒮A = (XA, ≤, g) biến A 𝐴 Trong [8] chứng minh rằng, cấu trúc 𝑀𝐺𝑟 Hình hình ảnh đẳng cấu cấu 𝐴 trúc ngữ nghĩa 𝒮A = (XA, ≤, g), tức 𝒮A giải nghĩa 𝑀𝐺𝑟 2.2.2 Khả mở rộng khung nhận thức ngôn ngữ (LFoC) biến ngôn ngữ Khái niệm Khung nhận thức ngôn ngữ (Lingistic Frame of Cognition - LFoC) đưa [6] Trong nghiên cứu này, LFoC 𝐹 𝐴 tập hữu hạn XA nhằm nhấn mạnh yêu cầu ngữ nghĩa 𝐹 𝐴 phải cấu trúc toàn cấu trúc ngữ nghĩa SA biến A Trong thực tiễn ứng dụng, ngữ nghĩa từ ngơn ngữ nhìn chung khơng thay đổi, tri thức gia tăng với tồn phát triển xã hội Vì vậy, chúng tơi đứng quan điểm từ ngơn ngữ có mặt tập 𝐹𝑘𝐴 , 𝐹𝑙𝐴 𝐹 𝐴 có ngữ nghĩa http://jst.tnu.edu.vn 343 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 Nó dẫn đến việc cần nghiên cứu khả mở rộng (khi mở rộng, ngữ nghĩa từ sử dụng không bị thay đổi) dẫn đến vấn đề liệu quan hệ cấu trúc từ có cấu trúc 𝑺𝑘𝐴 , 𝑺𝑙𝐴 𝑺 𝐴 giống nhau, tức 𝑺𝑘𝐴 cấu trúc 𝑺𝑙𝐴 𝑺𝑙𝐴 cấu trúc 𝑺 𝐴 Một câu hỏi cần đặt liệu LFoC, 𝐹𝑘𝐴 , có cấu trúc ngữ nghĩa khơng? Nếu có kí hiệu 𝑺𝑘𝐴 liệu có phải cấu trúc SA? Ý nghĩa ứng dụng ẩn chứa đòi hỏi hiểu sau: Cấu trúc 𝐹 𝐴 biến ngôn ngữ A có tiềm vơ hạn, thời điểm vòng đời ứng dụng thường đòi hỏi sử dụng tập hữu hạn từ, dạng 𝐹𝑘𝐴 với mức đặc tả k Đứng quan điểm ngữ nghĩa định tính từ x phải xác định ngữ cảnh toàn miền 𝐹 𝐴 biến ngơn ngữ mặt phương pháp luận cần địi hỏi việc tính tốn cấu trúc 𝑺𝑘𝐴 toàn cấu trúc 𝑺 𝐴 , nghĩa 𝑺𝑘𝐴 phải cấu trúc 𝑺 𝐴 Khi cần thiết, mở rộng 𝑺𝑘𝐴 cách tăng mức đặc tả k Thiết kế tiến hóa hệ dựa luật mờ giải nghĩa có khả mở rộng Bài toán hồi quy phát biểu sau: Cho tập liệu D = {dp = (ap,1, ap,2, …, ap,n, ap,(n+1)) ∈ [0, 1]n + : p = 1,…, ND} với n biến ngôn ngữ đầu vào Aj, j = 1, …, n biến ngôn ngữ đầu An + 1, với tập vũ trụ Uj chuẩn hóa [0, 1] LRBS giải toán hồi quy tập luật mờ dạng if-then, luật mờ có dạng sau: 𝑟𝑞 : If Aj1 is xq,j1 & … & Ajt is xq,jt Then An + is xq,n + (1) Trong đó, xrq,j từ ngơn ngữ 𝑋 𝐴𝑗 (đã bổ sung giá trị “Don’tcare”), j=1, , n 3.1 Mã hóa cá thể Trong nghiên cứu này, sử dụng hai gia tử, có gia tử âm Lj (Little) gia tử dương Vj (Very) biến ngôn ngữ Aj Mục tiêu thuật tốn tiến hóa tìm kiếm tham số tính mờ ĐSGT mở rộng LRBS tối ưu cho toán hồi quy Mỗi cá thể quần thể mã hóa gồm hai phần Cµ CRB , đó: 𝐴 - Cµ: Biểu diễn tham số tính mờ ĐSGT mở rộng 𝓐𝑒𝑛𝑗 tương ứng với biến ngôn ngữ Aj, véctơ = (1, …, n+1), j = {(h0j), (Lj), m(0j), m(𝑐𝑗− ), m(Wj), m(1j)}, j = 1, …, n+1 Như vậy, Cµ gồm 6(n+1) gen số thực - CRB: Biểu diễn sở luật Mỗi luật rq mã hóa véctơ gồm n + số nguyên Các luật LRBS sinh thủ tục sinh luật GenerateRule tương tự thủ tục Pr [7] Mỗi cá thể có hàm mục tiêu gồm hai thành phần (MSE, Comp), MSE độ xác LRBS xác định theo (2) Comp tổng độ dài luật LRBS N (2) MSE = D ( yˆ p − y p )2 N D p =1 Trong đó, y ˆ p giá trị suy diễn từ LRBS với giá trị đầu vào dp theo công thức (3) 𝑀 𝑦̂𝑝 = ∑𝑀 (3) 𝑞=1 𝜇𝐴𝑞 (𝑑𝑝 ) 𝑥̅𝑟𝑞,(𝑛+1) ⁄∑𝑞=1 𝜇𝐹𝑞 (𝑑𝑝 ) 𝑛 Trong đó, 𝜇𝐹𝑞 (𝑑𝑝 ) = ∏𝑗=1 𝜇𝑥𝑟𝑞,𝑗(𝑎𝑝,𝑗) độ đốt cháy luật thứ q mẫu liệu dp, x rq ,( n+1) giá trị giải mờ tập mờ có nhãn tập mờ xrq,( n+1) 𝜇𝑥𝑟𝑞,𝑗 ( ) hàm thuộc tập mờ tương ứng với nhãn ngôn ngữ xrq , j Nếu ∑𝑀 𝑞=1 𝜇𝐹𝑞 (𝑑𝑝 ) = 0, có nghĩa điểm liệu dp không bị phủ luật 𝑦̂𝑖 xác định theo phương pháp lập luận Alcalá đề xuất [9] 3.2 Các toán tử di truyền Áp dụng toán tử lai ghép điểm Cµ CRB Thực đột biến theo thứ tự độc lập Cµ CRB Với toán tử đột biến CRB, áp dụng hai toán tử thay đổi gen CRB thêm luật, tức áp dụng toán tử thứ khơng áp dụng tốn tử thứ hai ngược lại http://jst.tnu.edu.vn 344 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 Trong trình tiến hóa, luật bị thay đổi có độ dài 0, tức phần tiền đề “Don’tcare” bị loại bỏ; có luật trùng giữ lại 3.3 Thuật tốn tiến hóa đa mục tiêu thiết kế LRBS có tính giải nghĩa có khả mở rộng Thuật toán IS-LRBMOEA(D, SemEnHA(𝒜(D), paretofile) Đầu vào: Tập liệu D = {dp = (ai,1, ai,2, …, ai,n, ai,(n + 1)): i = to ND}; − SemEnHA(𝒜(D): ngữ nghĩa cú pháp biến ứng với thuộc tính; − Các xác suất lai ghép: Pc(Cµ) Pc(CRB), xác suất đột biến: Pm(Cµ) Pm(CRB), xác suất đột biến thêm luật Pm_Add_RB; − k: Một mảng chứa mức đặc tả tối đa LFoC khai báo biến; − max: độ dài tối đa luật, Mmin Mmax tương ứng số luật nhỏ lớn LRBS mặt Pareto, MaxGen: số hệ, Paretofile: tệp chứa mặt Pareto ℙ cuối cùng; Đầu ra: ℙ − Các phương án tốt mặt Pareto Begin Bước 1: Khối khởi tạo: mục đích xây dựng LFoC, ℙ khởi tạo If paretofile == “” then For h = to // cá thể 𝐴 𝐴𝑗 B1.1 Sinh tập từ 𝑋(𝑘𝑗) (LFoC) cho Aj tập số 𝕀ex(𝑋(𝑘𝑗 ) ), j =1, , n+1 𝑗 - Sinh ngẫu nhiên giá trị j = ((h0j), (Lj), fm(0j), 𝑓𝑚(𝑐𝑗− ), fm(Wj), 𝑓𝑚(𝟏𝑗 )) 𝐴 𝐴 𝐴 - Tính toán hệ khoảng tương tự 𝕊(𝑘𝑗 ) = {𝕊(𝑘𝑗 ) (𝑥): x ∈ 𝑋(𝑘𝑗 ) }, j = 1, , n + 𝑗 𝑗 𝑗 B1.2 Xây dựng cấu trúc đa thể hình thang LFoC Hình B1.3 Sinh luật ngơn ngữ từ mẫu liệu, dựng CRB Sinh ngẫu nhiên số nguyên Mk [Mmin, Mmax] gọi Mk lần 𝐴𝑗 𝐴𝑗 GenerateRule(dp, {𝕊(𝑘𝑗) , 𝕀ex(𝑋(𝑘𝑗) : j ≤ n + 1}, max) để sinh Mk luật với dp chọn ngẫu nhiên từ D B1.4 Tính giá trị MSE độ phức tạp Comp gán h vào ℙ End for Else B1.1b Phục hồi tệp tin “paretofile”, tăng LFoC khai báo đến mức đặc tả xây dựng cấu trúc đa thể hình thang bổ sung mức k - Khơi phục ℙ từ tệp tin “paretofile” chứa mặt Pareto lượt chạy cuối 𝐴𝑗 - Sinh LFoC 𝑋(𝑘𝑗) , j =1, , n+1 Aj < kj B1.2b Xây dựng cấu trúc đa thể hình thang LFoC End if Bước 2: Khối tiến hóa lặp với MaxGen lần để lưu trữ mặt Pareto tối ưu B2.1 Tạo hai cá thể (offspring) - Chọn ngẫu nhiên hai cá thể 𝔭1 𝔭2 từ ℙ áp dụng toán tử lai ghép để sinh hai cá thể o1 o2 từ 𝔭1 𝔭2 Cµ CRB với xác suất Pc(Cµ) Pc(CRB) tương ứng - Áp dụng toán tử đột biến Cµ độc lập o1 o2 với xác suất Pm(Cµ) - Áp dụng tốn tử đột biến CRB độc lập o1 o2 với xác suất Pm(CRB) If toán tử thêm luật áp dụng với xác suất Pm_Add_RB then 𝐴 − Xây dựng khoảng tương tự 𝕊(𝑘𝑗 ) , j = 1, …, n + 𝑗 http://jst.tnu.edu.vn 345 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 − Xây dựng cấu trúc đa thể hình thang LFoC Hình − Áp dụng tốn tử đột biến thêm luật Pm_Add_RB Else Áp dụng toán tử thay đổi sở luật; B2.2 Tính tốn giá trị tất mục tiêu o1 o2 B2.3 Đưa o1 o2 vào ℙ chúng không bị trội phương án ℙ Nếu ℙ đầy, loại bỏ ngẫu nhiên cá thể thuộc vùng có mật độ cao Bước Lưu mặt Pareto: Ghi mặt Pareto ℙ vào tập tin có tên “paretofile” End Kết bàn luận 4.1 Cài đặt thực nghiệm Các tham số thực nghiệm: Các ràng buộc giá trị tham số tính mờ biến: 0,3 ≤ fm(𝑐 − ), (L) ≤ 0,7, < fm(0), fm(W) = fm(1j) ≤ 0,1 < (h0) ≤ 0,2 Giá trị tham số thuật toán tiến hóa đề xuất giống Bảng 1, riêng tập liệu với số thuộc tính lớn 10 thay đổi max = Trong trường hợp thuật toán IS-LRBMOEA sử dụng lại để thiết kế LRBS tối ưu LFoC gia tăng tới mức đặc tả cao hơn, số hệ tối đa MaxGen = 200000 Bảng Các tham số thực nghiệm min = 0,3 size = 64 max = 0,7 kmax = MaxGen = 300000 max = max = Mmin = Mmax = 30 fmwmin= 0, fmwmax= 0,1 fm0min= fm0max = 0,1, fmCmin= 0,3, fmCmax= 0,7 = 0,5 max = PcRB = 0,3, xác suất lai ghép CRB Pc = 0,5, xác suất lai ghép C PmRB = 0,1, xác suất đột biến CRB PAdd =0,75, xác suất đột biến thêm luật CRB Pm = 0,3, xác suất đột biến C - Phương pháp thực nghiệm: phương pháp kiểm tra chéo 5-fold sử dụng Mỗi fold thực nghiệm lần ta có = 30 lần thực nghiệm Kết tổng hợp 30 lần thực nghiệm biểu thị mặt xấp xỉ tối ưu Pareto trung bình theo hai mục tiêu MSE Comp 30 lần thử Phương pháp kiểm định thống kê Wilcoxon với mức ý nghĩa α = 0,05 sử dụng để kết luận ý nghĩa so sánh phương pháp thiết kế LRBS cho toán hồi quy 4.2 Kết mô thực nghiệm bàn luận Các tập liệu thực nghiệm lấy từ [10] bao gồm Electrical Length (ELE1), Electrical Maintainance (ELE2), Weather Ankara (WA), Weather Izmir (WI), Treasury (TR), Abalone (AB), Mortgage (MTG), Computer Activity (CA) Thực nghiệm chứng tỏ tính hiệu biểu diễn đa thể hình thang có tính giải nghĩa có khả mở rộng Các kết thực nghiệm phương pháp thiết kế LRBS với mức đặc tả kmax = (độ dài lớn từ ngôn ngữ 3) đề xuất (được ký hiệu AGr3) so sánh với kết thu phương pháp thiết kế HA-PAES-MG-Kmax với ngữ nghĩa dựa tập mờ tam giác [6] (được ký hiệu HA3_Tg), ngữ nghĩa dựa tập mờ hình thang [7] (được ký hiệu HA3_Tz) tập liệu danh sách điểm FIRST (điểm có giá trị MSE nhỏ tập huấn luyện) mặt Pareto Các phương pháp HA3_Tz HA3_Tg thiết kế LRBS có mức đặc tả kmax = Các kết thực nghiệm so sánh phương pháp thiết kế LRBS thể Bảng 2, cột Comp độ phức tạp LRBS, MSEtr giá trị MSE tập huấn luyện MSEts giá trị MSE tập kiểm tra Trực quan ta thấy rằng, phương pháp AGr3 có giá trị MSEts nhỏ so với phương pháp HA3_Tz tập liệu thực nghiệm nhỏ so với phương pháp HA3_Tg tất tập liệu thực nghiệm http://jst.tnu.edu.vn 346 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 Data set Bảng Giá trị MSE tập huấn luyện kiểm tra điểm FIRST AGr3 47,57 61,63 50,87 56,07 71,87 107,03 31,73 78,27 68,00 ELE1 ELE2 WA WI TR AB MTG CA PT Comp HA3_Tz 28,03 60,90 74,83 72,77 84,70 72,60 37,07 35,70 45,70 HA3_Tg 46,13 66,97 60,03 61,30 29,40 59,57 28,13 44,67 38,30 AGr3 138060 9065 0,99 0,769 0,021 2,205 0,012 4,446 59,7 MSEtr HA3_Tz 146715 8477 0,964 0,718 0,028 2,325 0,013 4,506 62,584 HA3_Tg 141666 8813 1,03 0,79 0,03 2,31 0,02 4,58 71,89 Bảng So sánh độ phức tạp LRBS điểm FIRST AGr3 vs HA3_Tz HA3_Tg R+ 16 22 R− 29 33 Exact P-value >0,2 >0,2 Hypoth (H0) Không bị bác bỏ Không bị bác bỏ AGr3 193388 10337 1,11 0,911 0,035 2,395 0,017 4,74 62,75 MSEts HA3_Tz Diff (%) 201659 -4,10 10460 -1,18 1,14 -2,63 0,85 7,18 0,04 -12,50 2,45 -2,24 0,02 -15,00 4,91 -3,46 66,58 -5,75 HA3_Tg 202591 10686 1,25 0,96 0,04 2,41 0,02 4,86 73,47 Diff(%) -4,54 -3,27 -11,20 -5,10 -12,50 -0,62 -15,00 -2,47 -14,59 Bảng So sánh giá trị MSEts điểm FIRST AGr3 vs HA3_Tz A3_Tg R+ 40 45 R− Exact P-value Hypoth (H0) 0,03906 Bị bác bỏ 0,003906 Bị bác bỏ Kết kiểm định thống kê Wilcoxon với mức ý nghĩa α = 0,05 độ phức tạp giá trị MSEts LRBS thiết kế phương pháp AGr3, HA3_Tz HA3_Tg tương ứng thể Bảng Bảng Dễ dàng thấy rằng, giá trị Exact P-value Bảng lớn mức ý nghĩa α = 0,05 nên giả thuyết H0 khơng bị bác bỏ Do đó, độ phức tạp LRBS thiết kế phương pháp tương đương Các giá trị Exact P-value Bảng nhỏ mức ý nghĩa α = 0,05 nên giả thuyết H0 bị bác bỏ Do đó, ta kết luận rằng, AGr3 hiệu so với HA3_Tz HA3_Tg - Thực nghiệm chứng tỏ ý nghĩa việc mở rộng tập từ khai báo miền giá trị biến ngôn ngữ Giả sử LRBS thiết kế với mức đặc tả kmax = 2, ký hiệu AGr2 Người sử dụng mong muốn mở rộng LFoC lên mức đặc tả kmax = (được ký hiệu AGr2↑4) nhằm gia tăng tri thức miền với kỳ vọng nâng cao độ xác LRBS Do đó, sau tăng mức đặc tả lên 4, LRBS có mặt Pareto tiếp tục tối ưu để thu LRBS có sở luật bổ sung từ có độ dài Việc mở rộng LFoC khai báo biến không làm phá vỡ cấu trúc phân hoạch đa thể biểu diễn cấu trúc ngữ nghĩa dựa tập mờ hình thang trình bày Bảng Giá trị MSE tập huấn luyện kiểm tra, so sánh AGr2↑4 AGr2, AGr3, PKB Dataset ELE1 ELE2 WAN WIZ TRE ABA MOR CA POLE PLA FRIE MPG6 ANA CON MV Tổng AGr2↑4 MSEtr MSEts 127041 214067 7906 9709 0,9053 1,1089 0,6817 0,8588 0,0194 0,031 2,1694 2,3817 0,0079 0,0121 3,975 4,319 51,08 55,34 1,105 1,182 1,239 1,542 1,618 4,238 0,00193 0,00304 17,22 22,6935 0,4024 0,4103 AGr2 MSEtr MSEts 150665 202248 9384 11512 1,005 1,189 0,748 0,871 0,023 0,033 2,281 2,429 0,0129 0,0164 4,326 4,592 60,87 66,1 1,156 1,217 1,3 1,586 1,9 4,295 0,00236 0,00317 18,45 23,8489 0,4978 0,5058 Diff(%) 5,84 -15,66 -6,74 -1,4 -6,06 -1,95 -26,22 -5,95 -16,28 -2,88 -2,77 -1,33 -4,1 -4,84 -18,88 -109,22 AGr3 FSMOGFSe+TUNe Diff(%) MSEtr MSEts MSEtr MSEts 138060 193388 10,69 151600 195000 9064 10337 -6,08 9665 10548 0,99 1,11 -0,1 1,441 1,635 0,769 0,911 -5,73 0,929 1,011 0,021 0,035 -11,43 0,034 0,044 2,205 2,395 -0,56 2,445 2,509 0,012 0,017 -28,82 0,016 0,019 4,446 4,74 -8,88 0,158 5,216 59,7 62,75 -11,81 100,85 102,81 1,142 1,21 -2,31 1,106 1,19 1,502 1,917 -19,56 2,71 3,13 1,768 3,994 6,11 2,86 4,56 0,00189 0,00345 -11,88 0,003 0,003 19,0 25,8277 -12,14 29,901 32,977 0,5183 0,5224 -21,46 0,158 0,158 -123,96 Diff(%) 9,78 -7,95 -32,18 -15,05 -29,55 -5,07 -36,32 -17,2 -46,17 -0,67 -50,73 -7,06 1,33 -31,18 159,68 -108,34 Các kết thực nghiệm thể Bảng kết kiểm định thống kê Wilcoxon với mức ý nghĩa α = 0,05 giá trị MSEts LRBS thể Bảng Phân tích số liệu Bảng ta thấy rằng, phương pháp AGr2↑4 có giá trị MSEts nhỏ so với phương pháp AGr2, AGr3 FSMOGFSe+TUNe [11] tương ứng 14, 13 12 15 tập liệu thực nghiệm Xét tỷ lệ phần trăm giá trị MSEts giảm, phương pháp AGr2↑4 có http://jst.tnu.edu.vn 347 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 341 - 348 tỷ lệ giảm tương ứng so với AGr2, AGr3 FSMOGFSe+TUNe 109,22%, 123,96% 108,34% Như ta thấy rằng, LFoC ứng với thuộc tính mở rộng giá trị MSEts giảm mặt tổng thể, tức độ xác LRBS tăng lên Kết kiểm định giả thuyết thống kê Bảng cho thấy giả thuyết H0 bị bác bỏ Do đó, ta khẳng định rằng, phương pháp AGr2↑4 tốt so với phương pháp AGr2, AGr3 FSMOGFSe+TUNe Bảng So sánh giá trị MSEts điểm FIRST So sánh AGr2↑4 vs AGr2 AGr2↑4 vs AGr3 AGr2↑4 vs FSMOGFSe+TUNe R+ 105 96 97 R− 15 24 23 Exact P-value 0,008362 0,04126 0,03534 Hypoth (H0) Bị bác bỏ Bị bác bỏ Bị bác bỏ Kết luận Bài báo tập trung nghiên cứu vấn đề giải nghĩa khả mở rộng LRBS trích rút từ liệu số cho tốn hồi quy Tính giải nghĩa LRBS hiểu theo định nghĩa Taski [4] thuật toán thiết kế LRBS phải có khả thao tác trực tiếp từ ngơn ngữ Trên sở đó, báo chứng tỏ phương pháp biểu diễn cấu trúc tập mờ đa thể hình thang LFoC xây dựng dựa ĐSGT mở rộng giải nghĩa theo định nghĩa Taski Bài báo đề xuất thuật tốn tiến hóa trích rút LRBS giải nghĩa mở rộng theo yêu cầu người quản trị ứng dụng, chẳng hạn, mở rộng khung nhận thức ngôn ngữ LFoC Các kết thực nghiệm chứng tỏ rằng, phương pháp thiết kế đề xuất báo cho kết tốt so với phương pháp tiếp cận theo lý thuyết tập mờ phương pháp tiếp cận ĐSGT đề xuất trước TÀI LIỆU THAM KHẢO/ REFERENCES [1] C Mencar and A M Fanelli, “Interpretability constraints for fuzzy information granulation,” Information Sciences, vol 178, pp 4585-4618, 2008 [2] N C Ho and W Wechler, “Hedge algebras: an algebraic approach to structures of sets of linguistic domains of linguistic truth variables,” Fuzzy Sets and Systems, vol 35, no 3, pp 281-293, 1990 [3] N C Ho and W Wechler, “Extended hedge algebras and their application to fuzzy logic,” Fuzzy Sets and Systems, vol 52, pp 259-281, 1992 [4] A Tarski, A Mostowski, and R Robinson, Undecidable Theories North-Holland, 1953 [5] N C Ho, T T Son, and P D Phong, “Modeling of a semantics core of linguistic terms based on an extension of hedge algebra semantics and its application,” Knowledge-Based Systems, vol 67, pp 244262, 2014 [6] N C Ho, H V Thong, and N V Long, “A discussion on interpretability of linguistic rule based systems and its application to solve regression problems,” Knowledge-Based Systems, vol 88, pp 107133, 2015 [7] N C Ho, T T Son, H V Thong, and N V Long, “LFoC-Interpretability of Linguistic Rule Based Systems and its Applications To Solve Regression Problems,” International Journal of Computer Technology & Applications, no 2, pp 94-117, 2017 [8] N C Ho, P T Lan, N N Tu, H C Ha, and N T Anh, “The linguistic summarization and the interpretability, scalability of fuzzy representations of multilevel semantic structures of worddomains,” Microprocessors and Microsystems, vol 81, 2021, Art no 103641 [9] R Alcalá, P Ducange, F Herrera, B Lazzerini, and F Marcelloni, “A Multiobjective Evolutionary Approach to Concurrently Learn Rule and Data Bases of Linguistic Fuzzy-Rule-Based Systems,” IEEE Transaction on Fuzzy Systems, vol 17, no 5, pp 1106-1122, 2009 [10] F Alcalá et al., “KEEL Data-Mining Software Tool: Data Set Repository, Integration of Algorithms and Experimental Analysis Framework,” Journal of Multiple-Valued Logic and Soft Computing, vol 17, no 2, pp 255-287, 2011 [11] R Alcalá, M J Gacto, and F Herrera, “A fast and scalable multiobjective genetic fuzzy system for linguistic fuzzy modeling in high-dimensional regression problems,” IEEE Transaction Fuzzy Systems, vol 19, no 4, pp 666-681, 2011 http://jst.tnu.edu.vn 348 Email: jst@tnu.edu.vn ... từ ngôn ngữ Trên sở đó, báo chứng tỏ phương pháp biểu diễn cấu trúc tập mờ đa thể hình thang LFoC xây dựng dựa ĐSGT mở rộng giải nghĩa theo định nghĩa Taski Bài báo đề xuất thuật toán tiến hóa... thang có tính giải nghĩa có khả mở rộng Các kết thực nghiệm phương pháp thiết kế LRBS với mức đặc tả kmax = (độ dài lớn từ ngôn ngữ 3) đề xuất (được ký hiệu AGr3) so sánh với kết thu phương pháp. .. luận Bài báo tập trung nghiên cứu vấn đề giải nghĩa khả mở rộng LRBS trích rút từ liệu số cho tốn hồi quy Tính giải nghĩa LRBS hiểu theo định nghĩa Taski [4] thuật tốn thiết kế LRBS phải có khả