Bài viết này đề xuất một phương pháp sinh luật mờ dựa trên cây quyết định và đại số gia tử để xây dựng hệ luật mờ giải bài toán hồi quy. Thuật toán được thử nghiệm trên 9 bài toán mẫu và đối sánh với các phương pháp đã có PAES_KB và HA-MG-PAES-Kmax trên các mục tiêu độ chính xác và độ phức tạp của hệ luật. Kết quả đối sánh cho thấy thuật toán đề xuất cho kết quả tốt hơn.
Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông Một phương pháp sinh luật mờ dựa định đại số gia tử xây dựng hệ luật mờ giải toán hồi quy Nguyễn Đức Dư, Hồng Văn Thơng Khoa Cơng nghệ Thơng tin, Trường Đại học Giao thông Vận tải, Hà Nội Tác giả liên hệ: Nguyễn Đức Dư, nducdu@utc.edu.vn Ngày nhận bài: 12/11/2019, ngày sửa chữa: 24/12/2019, ngày duyệt đăng: 25/12/2019 Định danh DOI: 10.32913/mic-ict-research-vn.v2019.n2.901 Biên tập lĩnh vực điều phối phản biện định nhận đăng: PGS.TS Võ Đình Bảy Tóm tắt: Bài báo đề xuất phương pháp sinh luật mờ dựa định đại số gia tử để xây dựng hệ luật mờ giải toán hồi quy Thuật toán thử nghiệm toán mẫu đối sánh với phương pháp có PAES_KB HA-MG-PAES-Kmax mục tiêu độ xác độ phức tạp hệ luật Kết đối sánh cho thấy thuật toán đề xuất cho kết tốt Từ khóa: Hệ luật mờ, đại số gia tử, định, toán hồi quy Title: Abstract: Keywords: A Method to Generate Fuzzy Rules based on Decision Tree and Hedge Algebras for Building Fuzzy Rule based Systems for Regression This paper proposes a method to generate fuzzy rules based on decision tree and hedge algebras for building fuzzy rulebased systems for regression problems The proposed method was experimented on nine regression problems and was compared to two existing methods PAES_KB and HA-MG-PAES-Kmax on two objectives including the accuracy and complexity of rule-based systems Comparative results show that our proposed method outperforms the existing ones Fuzzy rule-based system, hedge algebra, decision tree, regression I MỞ ĐẦU Một số đề xuất sinh luật từ định (decision tree) cho toán phân lớp [5, 12–14] Phương pháp làm giảm đáng kể số luật phải xem xét nhờ vào kỹ thuật hạn chế chiều cao cắt tỉa cây, nhiên lại gặp khó khăn q trình tối ưu tham số tập mờ Cách giải toán phân lớp hồi quy hệ luật mờ (FRBS: Fuzzy Rule based System) nhận nhiều quan tâm nhóm nghiên cứu, như: Acalá cộng [1], Antonelli cộng [2], Ishibuchi Nojima [3, 4], Pulkkinen Koivisto [5], Cordón cộng [6], Nguyễn Cát Hồ cộng [7–9], Aghaeipoor Javidi [10] Các nghiên cứu đề xuất chủ yếu tập trung tìm kiếm phương pháp xây dựng FRBS cho tốn phân lớp, cịn tốn hồi quy chưa có nhiều nghiên cứu đề cập tới [1] Khi xây dựng FRBS giải toán chủ yếu giải ba vấn đề chính: thiết kế phân hoạch mờ (ngữ nghĩa tính tốn từ), sinh tập luật mờ ứng cử, tìm kiếm hệ luật mờ tối ưu Với hướng tiếp cận theo lý thuyết đại số gia tử (ĐSGT), [7–9] Nguyễn Cát Hồ cộng đề xuất phương pháp sinh luật từ mẫu liệu Theo đó, mẫu liệu sinh luật có độ dài 𝑛 số thuộc tính tập mẫu liệu, từ luật sinh luật có độ dài lmax nhỏ cho trước (lmax < 𝑛) Với phương pháp sinh luật ứng cử số luật tối đa phải xem xét giảm đáng kể so với phương pháp sinh luật tổ hợp Tuy nhiên theo hướng tiếp cận phải xem xét số lượng luật lớn Về vấn đề sinh luật ứng cử, phương pháp tiếp cận dựa lý thuyết tập mờ thường sinh luật cách tổ hợp tất giá trị ngôn ngữ sử dụng cho biến [1–4, 11] Nhược điểm hướng tiếp cận tập liệu có nhiều thuộc tính khơng gian tìm kiếm luật lớn Trong báo đề xuất phương pháp xây dựng FRBS giải toán hồi quy với luật sinh định ĐSGT Thuật toán giải hai vấn đề sinh luật tối ưu tham số tập mờ 102 Tập 2019, Số 2, Tháng 12 Si(2) T3(0) T2(Vc-) T3(c-) Vc- T2(Lc-) T2(w) Lc- T2(Lc+) T3(c+) T2(Vc+) Lc+ T3(1) Vc+ X(2) c- c+ W Hình Hệ khoảng tương tự từ có độ dài khơng q ĐSGT có gia tử Hình Hệ khoảng tương tự từ có độ dài khơng q 1 Giải toán hồi quy hệ luật mờ Mamdani dựa ĐSGT Thuật toán đề xuất gồm hai pha Pha thứ tối ưu tham số ĐSGT sử dụng cho biến toán Ở pha sử dụng thuật giải di truyền để tìm kiếm1 tham số tối ưu Pha thứ hai, với tham số tối ưu 1ĐSGT tìm pha thứ nhất, xây dựng ĐSGT sử dụng chúng để chuyển đổi tập liệu giá trị số toán thành tập liệu giá trị ngôn ngữ tương ứng Từ tập liệu ngôn ngữ định xây dựng, từ định sinh tập luật ứng cử sử dụng thuật toán cải tiến (2+2)M-PAES sử dụng để tìm FRBS tối ưu X( ) Giải tốn hồi quy hệ luật mờ Mamdani xây dựng hệ luật mờ Mamdani có dạng 𝑅𝑚 : if 𝑋1 is 𝐴1, 𝑗𝑚 , , 𝑋𝑛 is 𝐴𝑛, 𝑗𝑚 then 𝑌 is 𝐴𝑛+1, 𝑗𝑚 , (1) để dự đoán giá trị đầu 𝑦ˆ ứng với giá trị đầu vào 𝑥 có 𝑛 chiều Trong (1), 𝐴𝑖, 𝑗𝑚 ∈ 𝐿 𝑖 = { 𝐴𝑖,0 } ∪ 𝑋 (𝑘𝑖 ) = { 𝐴𝑖,1 , 𝐴𝑖,2 , , 𝐴𝑖, |𝑋(𝑘𝑖 ) | } , Thuật toán đề xuất thử nghiệm toán hồi quy đối sánh kết thu số độ phức tạp hệ luật giá trị sai số trung bình phương với thuật toán hướng tiếp cận PAESKB [1] HA-MGPAES-Kmax [8] Kết đối sánh cho thấy thuật toán đề xuất cho kết có độ xác tốt với 𝑖 = 1, 2, , 𝑛 + 1, 𝑋 (𝑘𝑖 ) tập từ ngơn ngữ có độ dài khơng q 𝑘 𝑖 sinh ĐSGT A 𝑋 𝑖 tương ứng, sử dụng để xây dựng phân hoạch thuộc tính thứ 𝑖, 𝐴 𝑓 ,0 có giá trị Don’t care với hàm thuộc đồng Chú ý, 𝐿 𝑛+1 không chứa giá trị Don’t care 𝑚 = 1, 2, , 𝑀, với 𝑀 số luật hệ Phần lại báo bố cục sau Phần II trình bày toán hồi quy phương pháp giải toán hồi quy hệ mờ dựa đại số gia tử Phần III trình bày phương pháp sinh luật mờ dựa định ĐSGT Phần IV trình bày thuật tốn xây dựng hệ luật Phần V trình bày kết thử nghiệm Cuối cùng, Phần VI rút số kết luận Tương tự đề xuất [1, 2, 8, 9], sử dụng phương pháp trung bình trọng số để suy diễn giá trị 𝑦ˆ từ hệ luật biết véc-tơ đầu vào 𝑥 𝑖 theo công thức sau: 𝑦ˆ 𝑖 = 𝑀 𝑚=1 𝜇 𝑚 (𝑥𝑖 ) 𝐴¯ 𝑛+1, 𝑗𝑚 , 𝑀 𝑚=1 𝜇 𝑚 (𝑥𝑖 ) (2) với 𝑖 = 1, 2, , 𝑁, 𝑛 II BÀI TOÁN HỒI QUY VÀ HỆ LUẬT MỜ MAMDANI DỰA TRÊN ĐSGT 𝜇 𝑚 (𝑥𝑖 ) = 𝜇 𝐴 𝑓 , 𝑗𝑚 (𝑥 𝑖 𝑓 ) 𝑓 =1 độ đốt cháy luật thứ 𝑚 mẫu liệu 𝑥𝑖 , 𝐴¯ 𝑛+1, 𝑗𝑚 giá trị định lượng hạng từ ngôn ngữ 𝐴𝑛+1, 𝑗𝑚 𝜇 𝐴 𝑓 , 𝑗𝑚 (·) hàm thuộc từ ngôn ngữ 𝐴 𝑓 , 𝑗𝑚 Trong (2), 𝑀 𝑚=1 𝜇 𝑚 (𝑥𝑖 ) = 0, có nghĩa hệ luật không phủ mẫu liệu 𝑥 𝑖 , 𝑦ˆ suy diễn theo phương pháp đề xuất [1] Bài toán hồi quy Cho tập mẫu liệu D = {(𝑥𝑖 , 𝑦 𝑖 ), 𝑖 = 1, 2, , 𝑁 }, 𝑥𝑖 véc-tơ 𝑛 chiều có dạng (𝑥𝑖1 , 𝑥𝑖2 , , 𝑥 𝑖𝑛 ) với 𝑥 𝑖 𝑗 ∈ 𝑈 𝑗 ⊂ R, 𝑈 𝑗 miền xác định biến độc lập 𝑋 𝑗 (thuộc tính đầu vào) toán ( 𝑗 = 1, 2, , 𝑛), 𝑦 𝑖 ∈ 𝑈𝑛+1 ⊂ R, 𝑈𝑛+1 miền xác định biến phụ thuộc 𝑌 (thuộc tính đầu ra), 𝑁 số mẫu liệu Để đánh giá độ xác hệ luật xây dựng, chúng tơi dựa vào giá trị sai số trung bình phương (MSE: Mean Squared Error): Từ tập liệu mẫu D xây dựng hệ mờ dựa luật cho phép tính giá trị 𝑦ˆ ứng với giá trị đầu vào 𝑥 ∈ 𝑈 = 𝑈1 × × 𝑈 𝑛 MSE = 103 2𝑁 𝑁 ( 𝑦ˆ 𝑖 − 𝑦 𝑖 ) 𝑖=1 (3) Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Thuật tốn 2: GenFRBS(T) 𝑛+1 , 𝑘, lmax) Thuật toán 1: BuildDecisionTree(D, {𝜋𝑖 }𝑖=1 10 11 Dữ liệu vào: Cơ sở liệu toán D; tham số 𝑛+1 ; chiều dài tối đa hạng ĐSGT {𝜋𝑖 }𝑖=1 từ sinh từ ĐSGT 𝑘; chiều cao tối đa lmax Dữ liệu ra: Cây định T for 𝑖 = to 𝑛 + Xây dựng ĐSGT A 𝑋 𝑖 tương ứng với tham số 𝜋𝑖 ; Sinh tập từ 𝑋 (𝑘𝑖 ) ; Sinh hệ khoảng tính mờ tương tự 𝑆 (𝑘𝑖 ) ; end 𝐷 = Chuẩn hóa D đoạn [0, 1]; 𝐷 = Chuyển đổi 𝐷 thành sở liệu ngôn ngữ dựa 𝑛+1 hệ khoảng tính mờ 𝑆 (𝑘𝑖 ) 𝑖=1 ; Xây dựng định T có chiều cao tối đa lmax từ sở liệu 𝐷 thuật toán C4.5; return T; 10 11 12 13 14 Trong (3), 𝑦ˆ 𝑖 𝑦 𝑖 giá trị suy diễn từ hệ luật giá trị quan sát tương ứng với giá trị đầu vào 𝑥 𝑖 Giá trị MSE nhỏ hệ luật mờ xác Dữ liệu vào: Cây định T Dữ liệu ra: Hệ luật mờ S S = ∅; Leafs = Tập nút T; foreach lf ∈ Leafs Với lf xây dựng danh sách lsNode Node từ lf đến gốc cây; Tạo luật 𝑟 có 𝑛 điều kiện tiền đề, tất tiền đề có giá trị Don’t care; for 𝑗 = lsNode.Count − down to Thay giá trị Don’t care luật 𝑟 ứng với thuộc tính nút lsNode[ 𝑗] giá trị phân chia nút lsNode[ 𝑗 − 1] (nút cha nút lsNode[ 𝑗]); end Gán kết luận luật 𝑟 giá trị nút lsNode[0]; S = S ∪ {𝑟 }; end return S; tập liệu D đoạn [0, 1] chuyển đổi tuyến tính ta tập 𝐷 III ĐỀ XUẤT PHƯƠNG PHÁP SINH HỆ LUẬT MỜ DỰA TRÊN CÂY QUYẾT ĐỊNH VÀ ĐSGT Bước thứ hai, với thuộc tính đầu vào, ta xác định tham số ĐSGT tương ứng, giả sử 𝜋𝑖 (𝑖 = 1, 2, , 𝑛 + 1) Với tham số 𝜋𝑖 ta xây dựng ĐSGT A 𝑋 𝑖 sinh tập từ có độ dài khơng q 𝑘 𝑖 ký hiệu 𝑋 (𝑘𝑖 ) , tính giá trị định lượng ngữ nghĩa từ 𝑋 (𝑘𝑖 ) xây dựng hệ khoảng tương tự 𝑆 (𝑘𝑖 ) tương ứng theo thuật toán [7] Hệ khoảng tính mờ tương tự từ ngơn ngữ ĐSGT Nguyễn Cát Hồ cộng đề xuất lần [15], xây dựng phương pháp hình thức sinh từ ngôn ngữ ánh xạ từ ngôn ngữ tới giá trị định lượng tương ứng đoạn [0; 1] ĐSGT giúp sinh dạng ngữ nghĩa khác từ ngôn ngữ từ ngữ nghĩa vốn có từ bao gồm: giá trị định lượng 𝑣 𝑥 (𝑥), khoảng tính mờ 𝑓 𝑚(𝑥), khoảng tương tự [7] Gọi 𝑋 (𝑘𝑖 ) tập từ có độ dài khơng q 𝑘 𝑖 biến 𝑋𝑖 Tập 𝑆 (𝑘𝑖 ) khoảng tương tự từ 𝑋 (𝑘𝑖 ) hình thành phân hoạch 𝑈 giá trị định lượng ngữ nghĩa từ 𝑥 ∈ 𝑋 (𝑘𝑖 ) 𝑣 𝑥 (𝑥) ∈ 𝑇 (𝑥), 𝑇 (𝑥) khoảng tương tự từ 𝑥 Các giá trị khoảng tương tự 𝑇 (𝑥) coi tương tự với giá trị định lượng ngữ nghĩa 𝑣 𝑥 (𝑥) 𝑥 với cấp độ 𝑘 𝑖 , 𝑘 𝑖 lớn mức độ tương tự giá trị khoảng tương tự cao Hệ khoảng tượng tự công cụ hữu dụng để phân hoạch miền tham chiếu biến, sử dụng thuật toán sinh luật phương pháp tiếp cận dựa ĐSGT Bước thứ ba chuyển đổi sở liệu 𝐷 thành sở liệu từ ngôn ngữ 𝐷 theo nguyên tắc sau: với véctơ 𝑥 𝑖 = (𝑥 𝑖1 , 𝑥𝑖2 , , 𝑥 𝑖𝑛 ) chuyển đổi thành véc-tơ từ ngôn ngữ 𝑥𝑖 = ( 𝐴𝑖1 , 𝐴𝑖2 , , 𝐴𝑖𝑛 ), 𝑥𝑖 𝑗 ∈ 𝑇 ( 𝐴𝑖 𝑗 ) với 𝑗 = 1, 2, , 𝑛; giá trị đầu 𝑌 chuyển đổi tương tự Từ sở liệu ngơn ngữ 𝐷 áp dụng thuật tốn C4.5 [16] xây dựng định có chiều cao tối đa lmax, việc thiết lập chiều cao tối đa nhằm hạn chế chiều dài luật sinh Mỗi nút định chứa hai giá trị nhãn thuộc tính giá trị phân chia nút cha Thuật toán sinh luật từ định Thuật toán sinh luật từ định trình bày thuật tốn Đầu vào thuật toán định T xây dựng thuật toán Gọi S tập luật sinh ra, khởi đầu S = ∅, Leafs tập nút T Với nút sinh luật có phần kết luận nhãn nút phần tiền đề luật nhãn nút nằm đường từ gốc đến Để xác định đường đi, xuất phát từ nút ngược nút gốc Giả sử để sinh luật 𝑟 từ nút lf, từ nút ta dễ dàng xác định danh sách (lsNode) Thuật toán xây dựng định Thuật toán xây dựng định trình bày thuật tốn Để xây dựng định từ tập liệu D toán hồi quy gồm véc-tơ đầu vào 𝑥𝑖 = (𝑥𝑖1 , 𝑥𝑖2 , , 𝑥 𝑖𝑛 ), với 𝑥 𝑖 𝑗 ∈ 𝑈 𝑗 ⊂ R giá trị đầu 𝑦 𝑖 ∈ 𝑈𝑛+1 ⊂ R Bước cần chuẩn hóa 104 Tập 2019, Số 2, Tháng 12 nút mô tả đường từ nút lf đến nút gốc Tiếp theo ta tạo luật 𝑟 có độ dài số chiều tốn có tất tiền điều kiện Don’t care Với nút lsNode[ 𝑗] ( 𝑗 = lsNode.Count − 1, , 1) thay giá trị Don’t care tiền điều kiện tương ứng với thuộc tính nhãn nút lsNode[ 𝑗] giá trị phân chia nút lsNode[ 𝑗 −1] (nút cha nút lsNode[ 𝑗]), gán kết luận 𝑟 giá trị nút lsNode[0] Thêm luật 𝑟 vào tập luật S Hình Mã hóa cá thể tối ưu tham số ĐSGT IV PHƯƠNG PHÁP XÂY DỰNG FRBS GIẢI BÀI TOÁN HỒI QUY Trong phần áp dụng phương pháp sinh luật đề xuất phần III để xây dựng hệ mờ giải toán hồi quy Phương pháp xây dựng FRBS thực với hai pha Pha thứ chúng tơi phát triển thuật tốn OptHAParams sử dụng thuật giải di truyền để tìm tham số mờ ĐSGT thuộc tính toán Pha thứ hai sử dụng tham số mờ ĐSGT tìm pha thứ xây dựng định toán, từ định sinh tập luật ứng cử, sau áp dụng thuật tốn HA-De-PAES để tìm kiếm hệ luật tối ưu Ở HA-De-PAES phát triển dựa thuật toán (2+2)MPAES [17] Thuật toán (2+2)M-PAES tối ưu đồng thời hệ luật tham số mờ thuật toán HA-De-PAES tối ưu hệ luật luật chọn từ tập luật ứng cử sinh từ định, với hai mục tiêu MSE Comp (tổng chiều dài luật) Hình Cấu trúc mã hóa cá thể biểu diễn hệ luật a) Các toán tử di truyền Toán tử lai ghép: Với hai cá thể bố mẹ 𝑝 𝑝 sử dụng phương pháp lai ghép điểm (one-point crossover), điểm lai ghép chọn ngẫu nhiên đoạn [1, 𝜌min − 1], 𝜌min số luật nhỏ 𝑝 𝑝 Lưu ý tốn tử lai ghép khơng thực đột biến ln xảy (có nghĩa khơng xảy lai ghép xác suất đột biến 1) Toán tử đột biến: Nếu đột biến xảy chọn ngẫu nhiên thực hai toán tử đột biến sau Toán tử đột biến thêm luật: Thêm 𝛾 luật vào với 𝛾 chọn ngẫu nhiên đoạn [1, 𝛾max ], 𝛾 + 𝑀 > 𝑀max 𝛾 = 𝑀max − 𝑀, luật chọn từ tập S Toán tử đột biến thay đổi luật: Thay đổi ngẫu nhiên 𝛿 giá trị ngôn ngữ số luật hệ luật, với 𝛿 chọn ngẫu nhiên đoạn [1, 𝛿max ] Thực 𝛿 lần trình sau: chọn ngẫu nhiên luật 𝑅, chọn ngẫu nhiên gen 𝑗 ∈ [1, 𝑛 + 1] 𝑅; 𝑗 ≤ 𝑛 chọn ngẫu nhiên từ {𝐷𝑜𝑛 𝑡𝑐𝑎𝑟𝑒} ∪ 𝑋 (𝑘 𝑗 ) ; 𝑗 = 𝑛 + chọn ngẫu nhiên từ 𝑋 (𝑘𝑛+1 ) ; thay từ gen thứ 𝑗 𝑅 từ vừa chọn; luật 𝑅 sau đột biến có độ dài lớn lmax đột biến bị bỏ qua Thuật tốn tìm tham số tối ưu ĐSGT thuật tốn GA Để tìm kiếm tham số mờ ĐSGT, báo thực thiết kế thuật giải di truyền dựa sơ đồ mã hóa nhị phân với hàm thích nghi giá trị sai số trung bình phương MSE Bài tốn có 𝑛 thuộc tính, với thuộc tính ta cần xác định hai tham số 𝜇 𝑓 𝑚𝐶 − 𝜇 𝐿 (ở chúng tơi sử dụng ĐSGT có hai gia tử 𝑉 𝐿) 𝑛+1 Như số tham số cần xác định cho toán {𝜋𝑖 }𝑖=1 2(𝑛 + 1) Chi tiết trình bày thuật tốn Hình mơ tả sơ đồ mã hóa cá thể, biến mục tiêu mã hóa chuỗi bít có 𝑙 bít Lưu ý sau lai ghép, đột biến có nhiều luật trùng giữ lại một, loại bỏ luật có độ dài b) Thuật tốn tiến hóa HA-De-PAES Thuật tốn HA-De-PAES xây dựng hệ mờ tối ưu Phần trình bày bước thuật toán HA-De-PAES phát triển dựa lược đồ tiến hóa (2+2)M-PAES đề xuất [17] Tại thời điểm thuật toán lưu trữ quần thể mà cá thể khơng bị trội cá thể cịn lại theo mục tiêu MSE Comp Một quần thể xác định mặt Pareto Thuật toán thực tìm kiếm mặt Pareto xấp xỉ tối ưu theo hai mục tiêu MSE Comp Mỗi cá thể quần thể mã hóa gồm 𝑀 luật (𝑀 khác cá thể), với luật 𝑅𝑖 lấy từ tập luật ứng cử S Nhằm đạt cân tính dễ hiểu độ xác hệ luật, chúng tơi giới hạn số luật FRBS nằm đoạn [𝑀min , 𝑀max ] Với cá thể cần tối thiểu hai mục tiêu MSE Comp, MSE xác định theo (3) Comp tổng độ dài luật sở luật, biểu thị độ phức tạp FRBS Xét toán tối ưu 𝑛 mục tiêu, cực tiểu hàm F(𝑥) = 𝑓1 (𝑥), 𝑓2 (𝑥), , 𝑓𝑛 (𝑥) với 𝑥 ∈ 𝑋 ⊆ R𝑚 , F(𝑥) 105 Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng Thuật tốn 3: OptHAParams(D, 𝑘, lmax, 𝐺 𝐴𝑝𝑎𝑟 𝑠) 10 11 12 13 14 Dữ liệu vào: Cơ sở liệu toán D; Chiều dài tối đa hạng từ sinh từ ĐSGT 𝑘; Chiều cao tối đa lmax; Bộ tham số thuật giải di truyền 𝐺 𝐴𝑝𝑎𝑟 𝑠 gồm có chiều dài nhiễm sắc thể 𝑙𝑐ℎ𝑟𝑜𝑚, kích thước quần thể Pop𝑠𝑖𝑧𝑒, số hệ 𝐺, xác suất lai ghép 𝑃𝑐𝑟𝑜𝑠𝑠, xác suất đột biến 𝑃𝑚𝑢 Dữ liệu ra: Bộ tham số tối ưu 𝜋𝑜 𝑝𝑡 15 Bước 1: Khởi tạo Gán 𝑗 ← 0; Khởi tạo quần thể ban đầu: Initial(Pop 𝑗 ); foreach 𝑝 ∈ Pop 𝑗 𝑛+1 ĐSGT; Giải mã 𝑝 để tham số {𝜋𝑖 }𝑖=1 𝑛+1 T ← BuildDecisionTree(D, {𝜋𝑖 }𝑖=1 , 𝑘, lmax); S ← GenFRBS(T); Suy diễn tập liệu D hệ luật S tính giá trị hàm mục tiêu MSE 𝑝; end 𝑋𝑏𝑒𝑠𝑡 ← GetIndividualHasBestObj(Pop 𝑗 ); //Chọn cá thể có giá trị mục tiêu tốt Bước 2: Tiến hóa ComputeFitnessMeasure(Pop 𝑗 ); //Tính độ đo thích nghi cá thể 20 Dữ liệu vào: Cơ sở liệu toán D, chiều dài tối đa hạng từ sinh từ ĐSGT 𝑘, chiều cao tối đa lmax, tham số mờ ĐSGT tối ưu, tham số thuật toán PAES 𝑝𝑎𝑒𝑠𝑝𝑎𝑟 𝑠 Dữ liệu ra: 𝑃 𝐴 (mặt xấp xỉ tối ưu Pareto với hai mục tiêu MSE Comp hệ luật) Bước 1: Tạo tập luật ứng cử T = BuildDecisionTree(D, 𝜋𝑜 𝑝𝑡 , 𝑘, lmax); S = GenFRBS(T); Bước 2: Sinh ngẫu nhiên cá thể 𝑐 , 𝑐 Mỗi cá thể gồm 𝑀 luật chọn từ tập luật ứng cử S 𝑀 chọn ngẫu nhiên đoạn [𝑀min , 𝑀max ] Bước 3: Bổ sung 𝑐 , 𝑐 vào 𝑃 𝐴 Bước 4: Lặp 𝑖 = 1, , 𝑀𝑎𝑥𝐺𝑒𝑛 (số hệ tối đa) Chọn ngẫu nhiên hai cá thể bố mẹ 𝑝 , 𝑝 𝑃 𝐴 (𝑝 , 𝑝 trùng nhau); Thực lai ghép hai cá thể 𝑝 , 𝑝 để sinh hai cá thể 𝑜1 , 𝑜2 ; Thực đột biến 𝑜1 , 𝑜2 ; Tính giá trị mục tiêu (MSE, Comp) 𝑜1 , 𝑜 ; Lần lượt bổ sung 𝑜1 , 𝑜2 vào 𝑃 𝐴 có thể; Lặp lại bước với hệ kế tiếp; return 𝑃 𝐴; 10 11 12 13 14 15 17 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 Popparent ← Select(Pop 𝑗 ); //Chọn cá thể cha mẹ Popchild ← Mute(Crossover(Popparent )); //Lai ghép đột biến tạo quần thể 𝑗 ← 𝑗 + 1; Pop 𝑗 ← Popchild ; //Thay quần thể quần thể vừa tạo sinh foreach 𝑝 ∈ Pop 𝑗 𝑛+1 ĐSGT; Giải mã 𝑝 để tham số {𝜋𝑖 }𝑖=1 𝑛+1 T ← BuildDecisionTree(D, {𝜋𝑖 }𝑖=1 , 𝑘, 𝑙); S ← GenFRBS(T); Suy diễn tập liệu D hệ luật S tính giá trị hàm mục tiêu MSE 𝑝; end 𝑋 ← GetIndividualHasBestObj(Pop 𝑗 ); if 𝑜𝑏 𝑗 (𝑋) > 𝑜𝑏 𝑗 (𝑋𝑏𝑒𝑠𝑡 ) then 𝑋𝑏𝑒𝑠𝑡 ← 𝑋; //𝑜𝑏 𝑗 (𝑋) giá trị mục tiêu cá thể 𝑋 end Bước 3: Lặp lại Bước 𝑗 > 𝐺 Bước 4: Trả lại tham số tối ưu 𝑛+1 ĐSGT; Giải mã 𝑋𝑏𝑒𝑠𝑡 để tham số {𝜋𝑖 }𝑖=1 𝑛+1 ; 𝜋𝑜 𝑝𝑡 ← {𝜋𝑖 }𝑖=1 return 𝜋𝑜 𝑝𝑡 ; 𝑖 ∈ {1, , 𝑚} tồn 𝑗 thỏa mãn 𝑓 𝑗 (𝑥) < 𝑓 𝑗 (𝑦) Thuật toán 4: HA-De-PAES (D, 𝑘, lmax, 𝜋opt , paespars) 16 Kí hiệu 𝑃 𝐴 quần thể tại, thuật toán gồm bước trình bày thuật tốn Một cá thể 𝑜 không bị trội cá thể 𝑃 𝐴 𝑜 bổ sung vào 𝑃 𝐴, đồng thời loại bỏ tất cá thể 𝑃 𝐴 bị trội 𝑜 Nếu số cá thể 𝑃 𝐴 lớn số lượng tối đa (𝑀𝑎𝑥 𝐴𝑟𝑐ℎ𝑖𝑣𝑒) phép lưu trữ 𝑃 𝐴 loại bỏ ngẫu nhiên cá thể vùng có mật độ cao khỏi 𝑃 𝐴 Xác định vùng có mật độ cao theo thuật tốn [17] V NGHIÊN CỨU THỬ NGHIỆM Chúng tơi tiến hành thử nghiệm thuật toán xây dựng FRBS đề xuất báo đối sánh kết với thuật toán PAESKB [1] HA-PAES-MG-Kmax [8] PAESKB tiếp cận dựa lý tuyết tập mờ, tập mờ biểu diễn (two-tuples), luật mờ sinh tổ hợp ngẫu nhiên từ ngôn ngữ sử dụng biến, q trình tối ưu hóa tham số tập mờ hệ luật thuật toán (2+2)M-PAES [17] HA-PAES-MG-Kmax tiếp cận dựa lý thuyết ĐSGT, tham số tập mờ xác định dựa tham số mờ ĐSGT, luật mờ sinh dựa mẫu liệu, q trình tối ưu hóa tham số tập mờ hệ luật thuật toán (2+2)M-PAES [17] Chúng tơi chọn hai thuật tốn để đối sánh chúng sử dụng thuật tốn tiến hóa (2+2)M-PAES nhằm chứng tỏ tính hiệu phương pháp sinh luật dựa định véc-tơ mục tiêu, 𝑓𝑖 (𝑥) mục tiêu thứ 𝑖 cần cực tiểu, 𝑥 véc-tơ lời giải không gian 𝑚 chiều, 𝑋 không gian lời giải toán Một mặt 𝑃 ⊆ 𝑋 gọi mặt Pareto điểm khơng bị trội điểm cịn lại 𝑃 Một lời giải 𝑥 ∈ 𝑃 gọi trội lời giải 𝑦 ∈ 𝑃, ký hiệu 𝑥 𝑦, 𝑓𝑖 (𝑥) ≤ 𝑓𝑖 (𝑦) với 106 Tập 2019, Số 2, Tháng 12 tra chéo 5-fold, với fold học fold kiểm tra Mỗi fold thử nghiệm lần (6 × = 30 lần) Mỗi lần thử nghiệm pha thứ gọi thuật toán OptHAParams để tìm tham số mờ ĐSGT cho tất thuộc tính, tham số tìm đầu vào thuật toán HA-De-PAES Để giảm thời gian xây dựng định pha thứ nhất, giới hạn chiều cao tối đa sinh lmax = 2, để giới hạn chiều dài luật sinh pha thứ hai thiết lập lmax giá trị nhỏ #𝑁𝑜 𝐴 Bảng I CÁC BÀI TỐN SỬ DỤNG THỬ NGHIỆM [1, 8] TT Bài tốn #𝑁 𝑜𝑃 #𝑁 𝑜 𝐴 Electrical Length (ELE1) 495 2 Electrical Maintainance (ELE2) 1056 Weather Ankara (WA) 1609 Weather Izmir (WI) 1461 Treasury (TR) 1049 15 Abalone (AB) 4177 Mortgage (MTG) 1049 15 Computer Activity (CA) 8192 21 Pole Telecommunication (PT) 15000 26 Mỗi lần thử nghiệm, kết thu mặt Pareto theo hai mục tiêu MSE Comp Chúng tơi tính tốn mặt Pareto trung bình 30 lần thử nghiệm, tương tự [1, 2, 8] Thực đối sánh kết thu thuật toán đề xuất với thuật toán HA-PAES-MG-Kmax PAESKB điểm FIRST mặt Pareto Điểm FIRST điểm tương ứng với hệ luật có MSETr nhỏ Ký hiệu MSETr MSETs giá trị MSE trung bình tập liệu huấn luyện (Tr) tập liệu kiểm tra (Ts), 𝜎Ts phương sai trung bình tập kiểm tra, Comp #𝑅 độ phức tạp trung bình số luật trung bình hệ luật Bảng II CÁC THAM SỐ THỬ NGHIỆM PHA THỨ NHẤT, TÌM THAM SỐ TỐI ƯU 𝜇min = 0,3 𝑓 𝑚𝐶min = 0,3 𝑓 𝑚𝐶max = 0,7 𝜇max = 0,7 𝑘𝑚𝑎𝑥 = lmax = 𝐿𝑐ℎ𝑟 𝑜𝑚 = Pop𝑠𝑖𝑧𝑒 = 100 𝐺 = 100 𝑃𝑐𝑟 𝑜𝑠𝑠 = 0,7 Xác suất lai ghép 𝑃𝑚𝑢 = 0,1 Xác suất đột biến Chúng tơi tiến hành phân tích sử dụng phương pháp thống kê phi tham số Wilcoxon theo hai mục tiêu độ phức tạp Comp độ xác (dựa MSE), với mức ý nghĩa 𝛼 = 0,05 Kết thống kê trình bày bảng V, VI, VII Từ bảng V ta thấy giá trị Exact P-value lớn 𝛼 = 0,05, giả thiết H0 “độ phức tạp hệ luật tạo hai thuật toán nhau” chấp nhận Như độ phức tạp hệ luật xây dựng thuật tốn đề xuất báo khơng có khác biệt với thuật toán so sánh Bảng III CÁC THAM SỐ THỬ NGHIỆM PHA THỨ HAI , TÌM KIẾM HỆ LUẬT TỐI ƯU 𝑀 𝑎𝑥 𝐴𝑟 𝑐ℎ𝑖𝑣𝑒 = 64 𝑀 𝑎𝑥𝐺𝑒𝑛 = 300.000 𝛾max = 𝛿max = 𝑀min = 𝑀max = 30 lmax = min(#𝑁 𝑜 𝐴, 5) 𝑃𝑐𝑅𝐵 = 0,3 Xác suất lai ghép 𝐶RB 𝑃𝑚𝑅𝐵 = 0,1 Xác suất đột biến 𝐶RB 𝑃𝐴𝑑𝑑 = 0,75 Xác suất đột biến thêm luật 𝐶RB Kết phân tích bảng VI cho thấy giá trị Exact P-value nhỏ 𝛼 = 0,05, giả thiết H0 “độ xác hệ luật tập huấn luyện thuật toán nhau” bị loại bỏ Như có khác biệt giá trị MSE hệ luật sinh từ thuật toán đề xuất báo với giá trị MSE hệ luật sinh từ thuật toán đối sánh Từ bảng IV ta thấy giá trị MSE hệ luật sinh từ thuật toán HA-De-PAES tốt hầu hết toán trừ toán AB Kết phân tích bảng VII cho thấy giá trị Exact P-value lớn 𝛼 = 0,05, giả thiết H0 “độ xác hệ luật tập kiểm tra thuật toán nhau” chấp nhận Mặc dù khơng có khác biệt độ xác tập kiểm tra hệ luật sinh thuật toán đề xuất báo từ bảng IV thấy độ xác thuật tốn đề xuất thuật toán đối sánh tốn, tốt tốn Chúng ta kết luận thuật toán đề xuất tốt thuật toán đối sánh mục tiêu độ xác Để cơng so sánh hiệu phương pháp, sử dụng dạng phân hoạch mờ tham số thử nghiệm tương tự phương pháp so sánh Phân hoạch mờ sử dụng có dạng đa thể hạt, tập mờ có dạng tam giác, độ dài tối đa hạng từ sinh ĐSGT 𝑘 = cho tất thuộc tính đầu vào đầu Chúng tiến hành thử nghiệm 09 tốn, 08 tốn thử nghiệm lấy từ http://archive.ics.uci edu/ml/datasets.php, riêng toán Abalone lấy từ https:// sci2s.ugr.es/keel/dataset.php?Cod=96, với #𝑁𝑜𝑃 số mẫu #𝑁𝑜 𝐴 số thuộc tính Các tham số thử nghiệm cho pha thứ trình bày bảng II pha thứ hai trình bày bảng III Phương pháp thử nghiệm kiểm 107 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông Bảng IV SO SÁNH KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN HA-D E -PAES (HAD E ) VỚI CÁC THUẬT TOÁN HA-PAES-MG-K MAX (HATG ), PAESKB TẠI ĐIỂM FIRST #𝑅 Comp MSETr MSETs 𝜎Ts HADe HATg PAESKB HADe HATg PAESKB PAESKB HADe HADe HATg HATg PAESKB HADe HATg PAESKB Bài toán ELE1 27 27,3 27,4 46,0 46,1 52,7 145.995 141.666 141.321 194.028 202.591 201.836 24.745 35.321 30.0234 ELE2 30 29,9 30,0 65,0 67,0 65,1 11,043 8.813 8.504 12.606 10.686 10.372 3.105 3.114 1.771 WA 28 25,0 25,0 103 60,0 71,6 1,64 1,03 1,01 3,92 1,25 1,22 9,27 0,17 0,17 WI 25 24,9 25,0 91,0 61,3 64,2 1,30 0,79 0,77 1,49 0,96 0,95 0,26 0,13 0,14 TR 11 15,0 15,0 40,0 29,4 33,9 0,080 0,031 0,026 0,140 0,045 0,039 0,15 0,02 0,01 AB 29 19,8 22,6 107 59,6 49,1 2,32 2,31 2,43 2,48 2,41 2,68 0,18 0,17 0,20 MTG 12 15,0 13,0 49,0 28,1 28,3 0,050 0,016 0,014 0,090 0,022 0,019 0,10 0,01 0,01 CA 10 13,8 14,5 30,0 44,7 45,6 11,99 4,58 4,09 13,43 4,86 4,81 4,66 0,63 0,55 PT 14 13,3 14,4 53,0 38,3 36,3 87,00 71,89 65,07 89,00 73,47 68,97 25,00 17,02 10,44 Bảng V SO SÁNH ĐỘ PHỨC TẠP CỦA HỆ LUẬT SỬ DỤNG WILCOXON TEST VỚI MỨC 𝛼 = 0,05 So sánh với R+ R- Exact P-value Confidence-interval Giả thuyết PAES-KB 37 0,09766 [-28,9; -0,55] Loại bỏ giả thuyết H0 HA-Tg 15 30 ≥ 0,2 [-1,95; 4,85] Chấp nhận giả thuyết H0 Bảng VI SO SÁNH SAI SỐ MSE TRÊN TẬP HUẤN LUYỆN SỬ DỤNG WILCOXON TEST VỚI MỨC 𝛼 = 0,05 So sánh với R+ R- Exact P-value Confidence-interval Giả thuyết PAES-KB 42 0,019532 [-2.337,315; -0,054] Loại bỏ giả thuyết H0 HA-Tg 40 0,03906 [-172,51; -0,002] Chấp nhận giả thuyết H0 Bảng VII SO SÁNH SAI SỐ MSE TRÊN TẬP KIỂM TRA SỬ DỤNG WILCOXON-TEST VỚI MỨC 𝛼 = 0,05 So sánh với R+ R- Exact P-value Confidence-interval Giả thuyết PAES-KB 33 12 ≥ 0,2 [-1.117,0505; 3.902,65] Loại bỏ giả thuyết H0 HA-Tg 39 0,05468 [-377,505; 0,11] Loại bỏ giả thuyết H0 VI KẾT LUẬN gồm hai pha, kết thử nghiệm thuật toán cho thấy mục tiêu độ phức tạp độ xác hệ luật so sánh với thuật toán đề xuất Bài báo đề xuất hướng tiếp cận sinh luật giải toán hồi quy hệ luật mờ Các phương pháp truyền thống dựa lý thuyết tập mờ thường dụng phương pháp sinh luật cách tổ hợp từ ngơn ngữ sử dụng cho thuộc tính Với cách tiếp cận số luật phải xem xét lớn Tiếp cận dựa lý thuyết ĐSGT sử dụng phương pháp sinh luật dựa mẫu liệu, phương pháp tiếp cận làm giảm không gian luật cần phải xem xét, nhiên lại khơng tận dụng thông tin quan hệ liệu Bài báo đề xuất phương pháp sinh luật tiếp cận theo lý thuyết ĐSGT định Chúng phát triển thuật toán xây dựng FRBS LỜI CẢM ƠN Nghiên cứu nằm khuôn khổ đề tài “Nghiên cứu phát triển phương pháp thao tác trực tiếp từ ngôn ngữ dựa đại số gia tử để giải số vấn đề lĩnh vực trích rút tri thức, tăng cường chất lượng ảnh sở liệu mờ”, mã số 102.01-2017.06, tài trợ Quỹ phát triển khoa học công nghệ quốc gia (NAFOSTED) 108 Tập 2019, Số 2, Tháng 12 TÀI LIỆU THAM KHẢO Nguyễn Đức Dư nhận Cử nhân Toán tin ứng dụng Thạc sĩ Toán ứng dụng Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội năm 2001 2005 Tác giả hiên nghiên cứu sinh Viện Khoa học Công nghệ Quân từ năm 2015, đồng thời giảng viên Khoa Công nghệ Thông tin, Trường Đại học Giao thông Vận tải Các lĩnh vực nghiên cứu bao gồm khai phá liệu, lơ-gic mờ, hệ mờ, tính tốn mềm, tính tốn với từ, học máy [1] R Alcalá, P Ducange, F Herrera, B Lazzerini, and F Marcelloni, “A multiobjective evolutionary approach to concurrently learn rule and data bases of linguistic fuzzy-rule-based systems,” IEEE Transactions on Fuzzy Systems, vol 17, no 5, pp 1106–1122, Oct 2009 [2] M Antonelli, P Ducange, B Lazzerini, and F Marcelloni, “Learning concurrently data and rule bases of Mamdani fuzzy rule-based systems by exploiting a novel interpretability index,” Soft Computing, vol 15, pp 1981–1998, 2011 [3] H Ishibuchi and Y Nojima, “Analysis of interpretabilityaccuracy tradeoff of fuzzy systems by multiobjective fuzzy genetics-based machine learning,” International Journal of Approximate Reasoning, vol 44, no 1, pp 4–31, 2007 [4] ——, “Repeated double cross-validation for choosing a single solution in evolutionary multi-objective fuzzy classifier design,” Knowledge-Based Systems, vol 54, pp 22–31, 2013 [5] P Pulkkinen and H Koivisto, “Fuzzy classifier identification using decision tree and multiobjective evolutionary algorithms,” International Journal of Approximate Reasoning, vol 48, no 2, pp 526–543, 2008 [6] O Cordón, M J Del Jesus, and F Herrera, “A proposal on reasoning methods in fuzzy rule-based classification systems,” International Journal of Approximate Reasoning, vol 20, no 1, pp 21–45, 1999 [7] C H Nguyen, W Pedrycz, T L Duong, and T S Tran, “A genetic design of linguistic terms for fuzzy rule based classifiers,” International Journal of Approximate Reasoning, vol 54, no 1, pp 1–21, 2013 [8] C H Nguyen, V T Hoang, and V L Nguyen, “A discussion on interpretability of linguistic rule based systems and its application to solve regression problems,” Knowledge-Based Systems, vol 88, pp 107–133, 2015 [9] C H Nguyen, V Hoang, T Tran, and V Nguyen, “LFoCInterpretability of linguistic rule based systems and its applications to solve regression problems,” International Journal of Computer Technology & Applications, vol 8, no 2, pp 94–117, 2017 [10] F Aghaeipoor and M M Javidi, “On the influence of using fuzzy extensions in linguistic fuzzy rule-based regression systems,” Applied Soft Computing, vol 79, pp 283–299, 2019 [11] C Mencar and A M Fanelli, “Interpretability constraints for fuzzy information granulation,” Information Sciences, vol 178, no 24, pp 4585–4618, 2008 [12] L A Zadeh, “Fuzzy sets,” Information and Control, vol 8, no 3, pp 338–353, 1965 [13] N M Han, N C Hao et al., “An algorithm to building a fuzzy decision tree for data classification problem based on the fuzziness intervals matching,” Journal of Computer Science and Cybernetics, vol 32, no 4, pp 367–380, 2016 [14] X Liu, X Feng, and W Pedrycz, “Extraction of fuzzy rules from fuzzy decision trees: An axiomatic fuzzy sets (AFS) approach,” Data & Knowledge Engineering, vol 84, pp 1– 25, 2013 [15] N C Ho and W Wechler, “Hedge algebras: An algebraic approach to structure of sets of linguistic truth values,” Fuzzy Sets and Systems, vol 35, no 3, pp 281–293, 1990 [16] J Han, J Pei, and M Kamber, Data Mining: Concepts and Techniques Elsevier, 2011 [17] J D Knowles and D W Corne, “Approximating the nondominated front using the Pareto archived evolution strategy,” Evolutionary Computation, vol 8, pp 149–172, 2000 Hoàng Văn Thơng nhận Cử nhân Tốn tin ứng dụng Thạc sĩ Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội năm 2001 2005 Năm 2016, tác giả nhận Tiến sĩ Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Việt Nam Tác giả giảng viên Khoa Công nghệ Thông tin, Trường Đại học Giao thông Vận tải Các lĩnh vực nghiên cứu bao gồm khai phá liệu, lô-gic mờ, hệ mờ, tính tốn mềm, tính tốn với từ, học máy, trí tuệ nhân tạo 109 ... ,