MỞ ĐẦU Chúng ta biết rằng con người nhận biết thế giới thực, giao tiếp với nhau, tư duy lập luận để làm các quyết định dựa trên công cụ nền tảng là ngôn ngữ tự nhiên và cơ sở tri thức được biểu diễn dưới dạng mệnh đề ngôn ngữ. Các mệnh đề này được hình thành trong quá trình tồn tại và phát triển của con người. Lịch sử phát triển của xã hội loài người cho thấy, ngôn ngữ của con người là một công cụ đủ để nhận biết thế giới thực, làm quyết định và giải quyết hiệu quả các vấn đề phát sinh trong cuộc sống hàng ngày. Do thế giới thực là vô hạn trong khi ngôn ngữ tự nhiên của con người lại hữu hạn, vì vậy các từ ngôn ngữ mà con người dùng để nhận thức thế giới thực thường có ngữ nghĩa mờ, không chắc chắn và có tính mơ hồ. Trong khoảng ba thập niên trở lại đây khoa học và công nghệ phát triển rất mạnh mẽ, đã sản sinh ra nhiều thiết bị máy móc hỗ trợ cho con người trong mọi lĩnh vực của cuộc sống. Trong một số lĩnh vực, chúng ta mong muốn máy móc có thể hành xử như con người, thay thế con người làm những công việc đòi hỏi phải có khả năng lập luận hoặc đưa ra những gợi ý tin cậy hỗ trợ cho con người trong quá trình làm quyết định. Một đặc trưng nổi bật của con người là khả năng suy luận trên cơ sở tri thức được hình thành từ cuộc sống và biểu thị bằng ngôn ngữ tự nhiên. Do đó, để máy móc có thể hành xử như con người thì nó phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ. Đây là một vấn đề rất phức tạp, vì vậy để giải quyết yêu cầu này các nhà khoa học đã và đang nghiên cứu cả về lý thuyết lẫn ứng dụng để đưa ra các phương pháp nhằm mô phỏng khả năng lập luận của con người trên các thiết bị máy móc. Do đặc trưng của ngôn ngữ là ngữ nghĩa và nó mang tính mờ, vì vậy nhiệm vụ đầu tiên cần phải giải quyết đó là làm thế nào để hình thức hóa toán học các vấn đề ngữ nghĩa và xử lý ngữ nghĩa ngôn ngữ mà con người thao tác trong cuộc sống. Trước những yêu cầu đặt ra đó, năm 1965 Lotfi A. Zadeh là người đầu tiên đặt nền móng trong lĩnh vực này trong [63]. Zadeh đã đưa ra khái niệm tập mờ, ý tưởng của ông là giả thiết U là một tập các phần tử, một tập mờ A trong U được biểu diễn bằng một hàm từ tập U vào đoạn [0, 1] biểu thị cấp độ thuộc của phần tử trong U vào tập A và hàm này còn gọi là tập mờ trên U. Trong [64] Zadeh đưa ra khái niệm biến ngôn ngữ, là biến mà giá trị của nó là các từ ngôn ngữ, và ngữ nghĩa của mỗi từ được biểu diễn bằng một tập mờ. Vì vậy, các từ của biến ngôn ngữ vốn không tính toán được trở thành một đối tượng toán học hoàn toàn có thể tính toán được. Dựa trên lý thuyết tập mờ, hệ mờ dựa trên luật (Fuzzy Rule Based System - FRBS) đã được phát triển và trở thành một trong những công cụ mô phỏng gần gũi phương pháp suy luận và làm quyết định của con người nhất. FRBS đã gặt hái được nhiều thành công trong giải quyết các bài toán thực tiễn như bài toán điều khiển của Mamdani [38], Oliveira [53, 54], Vukadinović [60], Wang [61]; bài toán phân lớp Nguyễn Cát Hồ [24], Dương Thăng Long [6, 7], Cordón [17, 18], Fazzolari [23], Fernandez [24], Gacto [25], García [27], Ishibuchi [28-34], López [37], Mansoori [39], Nauck [44], Nguyễn Cát Hồ [[50, 52], Pulkkinen [55], Trawinski [59]; bài toán hồi quy của Alcalá [8-10], Antonelli [12-15], Cococcioni [16], Márquez [40], Pulkkinen [56], Rodríguez-Fdez [57]. FRBS được phát triển trên nền tảng lý thuyết tập mờ và logic mờ, với thành phần cơ bản là các luật mờ dạng if-then là một trong những phương tiện khá tốt mô phỏng khả năng lập luận của con người trong giải quyết các vấn đề phức tạp với những thông tin không chắc chắn, có tính mơ hồ. Các FRBS thường được xây dựng tự động từ các sự kiện trong thế giới thực hoặc trên cơ sở tri thức của các chuyên gia, hoặc kết hợp cả hai phương pháp. Khi xây dựng các FRBS, chúng ta cần đạt được hai mục tiêu là độ chính xác (accuracy) và tính giải nghĩa được (interpretability). Đây là hai mục tiêu xung đột nhau, làm tăng mục tiêu này thì phải giảm mục tiêu kia. Vì vậy, khi xây dựng các FRBS các phương pháp được đề xuất luôn phải hướng tới đảm bảo sự cân bằng (tradeoff) giữa hai mục tiêu này. Trong những năm đầu ứng dụng FRBS, người ta chủ yếu quan tâm đến độ chính xác. Mục tiêu tính giải nghĩa được của FRBS được quan tâm nhiều hơn khi FRBS được ứng dụng vào các lĩnh vực mà ở đó con người làm trung tâm (human-centric), ví dụ: y tế, tâm lý học, kinh tế, ngôn ngữ học [42]. Trong những lĩnh vực này các FRBS được xem như là các hộp xám (gray-boxes). Và ở đây đặt ra yêu cầu là các FRBS khi được ứng dụng vào thực tế thì người dùng có thể kiểm tra và hiểu được tất cả các thành phần của nó [11]. Vì vậy, trong những năm gần đây vấn đề tính giải nghĩa được của FRBS trở thành một chủ đề “nóng” được nhiều nhà khoa học tập trung nghiên cứu. Ví dụ như Alonso và cộng sự [11], Antonelli và các cộng sự [14], Cordon và các cộng sự [19], Gacto và cộng sự [26], Ishibuchi và Nojima [33], Mencar và các cộng sự [41, 42], Nauck [44], de Oliveira [54], Pulkkinen và Koivisto [56], Zhou và Gan [67]. Tính giải nghĩa được của FRBS liên quan đến nhiều yếu tố khác nhau, hiện tại chúng ta vẫn chưa có một tiêu chuẩn toán học để mô tả chính xác, và còn nhiều quan điểm khác nhau, ngay cả các thuật ngữ để chỉ tính giải nghĩa được cũng chưa thống nhất. Ví dụ như: tính dễ hiểu (intelligibility), tính trong suốt (transparency), tính dễ đọc (readability), …, các thuật ngữ này được sử dụng đồng nghĩa và thay thế cho nhau [19]. Trong [26] Gacto cho rằng hiện tại có hai hướng tiếp cận chính về tính giải nghĩa được của FRBS. Hướng thứ nhất dựa trên độ phức tạp (Complexity-based Interpretability), hướng này tập trung vào việc làm giảm độ phức tạp của FRBS, thường sử dụng các độ đo như: số luật, số biến, độ dài của luật, số từ sử dụng cho một biến,…. càng ít càng tốt. Hướng thứ hai dựa trên ngữ nghĩa (Semantics-based Interpretability), hướng này tập trung vào đảm bảo tính toàn vẹn ngữ nghĩa của các nhãn ngôn ngữ, được biểu diễn bằng các tập mờ và ngữ nghĩa của luật. Theo các hướng tiếp cận này, để đánh giá tính giải nghĩa được của FRBS một số nghiên cứu dựa trên lý thuyết tập mờ đã đề xuất các ràng buộc tính giải nghĩa được của FRBS như Gacto [26], Mencar [41, 42]. Các FRBS thỏa mãn càng nhiều ràng buộc thì tính giải nghĩa được càng cao, hoặc phát triển các chỉ số đánh giá tính giải nghĩa được của FRBS được kết hợp từ một số yếu tố liên quan Alonso [11], Antonelli [14], Nauck [44], Oliveira [53]. Theo hướng tiếp cận tập mờ thiếu một phương pháp hình thức đầy đủ để xác định ngữ nghĩa tính toán của từ với ngữ nghĩa vốn của nó. Do đó các nghiên cứu này phải đưa ra nhiều ràng buộc (trong [41] Mencar đưa ra 37 ràng buộc), và các ràng buộc này đều dựa trên trực quan của người thiết kế. Theo chúng tôi một FRBS giải nghĩa được cao thì ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong FRBS phải được xác định dựa trên ngữ nghĩa vốn có của nó trong tự nhiên. Vì vậy ngữ nghĩa tính toán của từ là yếu tố quan trọng để đảm bảo tính giải nghĩa được của FRBS. Do đó cần phải tìm kiếm một hướng tiếp cận mới cho vấn đề tính giải nghĩa được của FRBS mà ở đó ngữ nghĩa tính toán của từ được xác định dựa trên ngữ nghĩa vốn có của nó bằng một phương pháp hình thức đầy đủ. Vấn đề xây dựng FRBS, hiện tại rất nhiều nghiên cứu tập trung tì m kiếm các phương pháp xây dựng FRBS cho bài toán phân lớp, tuy nhiên bài toán hồi quy chưa có nhiều nghiên cứu. Các phương pháp xây dựng FRBS phải giải quyết ba vấn đề chính: thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ), sinh tập các luật mờ ứng cử, tìm kiếm hệ luật mờ tối ưu. Hướng tiếp cận dựa trên lý thuyết tập mờ thường sử dụng các phân hoạch mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miền tham chiếu của biến như trong Cordón [17, 18], Fazzolari [23], Ishibuchi [28-34], Mansoori [39], Trawinski [59]. Việc sử dụng cùng một phân hoạch mờ với các tập mờ cố định trước cho các tập dữ liệu khác nhau là không phù hợp với thực tế, nó làm giảm tính chính xác của hệ luật. Vì trong thực tế ngữ nghĩa của các từ phụ thuộc vào từng ngữ cảnh, tức là phụ thuộc vào từng tập dữ liệu cụ thể. Vì vậy, một yêu cầu tự nhiên là phải phát triển các thuật toán cho phép điều chỉnh ngữ nghĩa tính toán của từ (tập mờ), chẳng hạn như trong Acalá [10], Antonelli [13, 14], Cordón [17], Gacto [25], Nauck [44], Pulkkinen [55]. Hướng tiếp cận dựa trên tập mờ thiếu một phương pháp hình thức toán học đầy đủ để xác định ngữ nghĩa tính toán của từ từ ngữ nghĩa vốn có của chúng, vì vậy để thực hiện điều chỉnh các tập mờ thì thuật toán phải tìm kiếm trong không gian rất lớn. Chẳng hạn với bài toán có n chiều và sử dụng T từ ngôn ngữ cho mỗi biến, trong [10] Acalá sử dụng bộ 2 (2-tuples) để biểu diễn các tập mờ thì không gian tìm kiếm tham số là T*(n+1) chiều, (3T5). Trong [14] Antonelli sử dụng hàm tuyến đổi tuyến từng khúc (piecewise linear transformation) để thực hiện điều chỉnh tham số, khi đó không gian tìm kiếm là (T-2)(n+1) chiều, (5T7). Trong [56] Pulkkinen biểu diễn tập mờ bằng bộ 3 tham số khi đó không gian tìm kiếm tham số là 3Tn chiều (2T4). Để giảm không gian tìm kiếm, các phương pháp dựa trên lý thuyết tập mờ phải đưa ra một số ràng buộc trên tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp. Chẳng hạn như yêu cầu giới hạn số tập mờ có thể sử dụng T trên mỗi biến không quá 72 Miller [43]. Theo chúng tôi, giới hạn này là không phù hợp, vì trên mỗi biến con người có thể sử dụng nhiều từ ngôn ngữ hơn giới hạn này (khẳng định này được chứng tỏ trong chương 3). Và, với phương pháp thiết kế
BỘ GIÁO DỤC VÀ ĐÀO TẠO 49 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ r HOÀNG VĂN THÔNG NGHIÊN CỨU NGỮ NGHĨA TÍNH TOÁN CỦA TỪ NGÔN NGỮ VÀ ỨNG DỤNG VÀO VIỆC XÂY DỰNG HỆ MỜ TỐI ƯU DỰA TRÊN LUẬT Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC Mã số: 62.46.01.10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TSKH NGUYỄN CÁT HỒ PGS.TS NGUYỄN VĂN LONG HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết luận án trung thực chưa công bố công trình khác Tác giả Hoàng Văn Thông i LỜI CẢM ƠN Luận án hoàn thành hướng dẫn tận tình PGS.TSKH Nguyễn Cát Hồ PGS.TS Nguyễn Văn Long Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng biết ơn sâu sắc tới hai thầy Tác giả xin gửi lời cảm ơn chân thành đến Ban lãnh đạo Học viện Khoa học Công nghệ, Viện Công nghệ thông tin, Khoa công nghệ thông tin truyền thông, Phòng Các hệ chuyên gia tính toán mềm tạo điều kiện thuận lợi trình học tập, nghiên cứu hoàn thành luận án Xin cảm ơn Ban giám hiệu Trường Đại học Giao thông Vận tải, Ban chủ nhiệm khoa Công nghệ thông, Bộ môn Khoa học máy tính quan tâm giúp đỡ, tạo điều kiện tốt công việc để tác giả có thời gian tập trung nghiên cứu Cảm ơn anh chị Phòng Các hệ chuyên gia tính toán mềm - Viện Công nghệ thông tin, đồng nghiệp thuộc Khoa Công nghệ thông tin – Trường Đại học Giao thông Vận tải, anh chị nhóm nghiên cứu đại số gia tử khích lệ, động viên, trao đổi kiến thức kinh nghiệm trình hoàn thành luận án Cuối cùng, tác giả xin chân thành cảm ơn Bố mẹ, anh chị em đặc biệt vợ con, người dành cho tác giả tình cảm chia sẻ lúc khó khăn sống, động viên giúp đỡ tác giả trình nghiên cứu Luận án quà tinh thần mà tác giả trân trọng gửi tặng đến thành viên gia đình ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC BẢNG BIỂU viii DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 Một số kiến thức lý thuyết tập mờ 1.1.1 Định nghĩa tập mờ 1.1.2 Xây dựng hàm thuộc 10 1.1.3 Biến ngôn ngữ 10 1.1.4 Phân hoạch mờ 11 1.2 Một số kiến thức đại số gia tử 12 1.2.1 Khái niệm đại số gia tử 13 1.2.2 Một số tính chất đại số gia tử tuyến tính 14 1.2.3 Độ đo tính mờ giá trị ngôn ngữ 14 1.2.4 Định lượng ngữ nghĩa giá trị ngôn ngữ 16 1.2.5 Khoảng tính mờ 18 1.2.6 Hệ khoảng tương tự 19 1.3 Hệ mờ dựa luật 20 1.3.1 Các thành phần hệ mờ 20 1.3.2 Các mục tiêu xây dựng FRBS 23 iii 1.4 Kết luận chương 26 CHƯƠNG PHÁT TRIỂN CÁC THUẬT TOÁN XÂY DỰNG CÁC LRBS GIẢI BÀI TOÁN PHÂN LỚP, HỒI QUY 28 2.1 Phát triển thuật toán giải toán phân lớp 28 2.1.1 Bài toán phân lớp phương pháp giải 28 2.1.2 Thuật toán OPHA-SGERD 32 2.1.3 Kết thử nghiệm 43 2.2 Phát triển thuật toán giải toán hồi quy 47 2.2.1 Bài toán hồi quy phương pháp giải 47 2.2.2 Thuật toán HA-PAES-SG 50 2.2.3 Thuật toán HA-PAES-MG 65 2.3 Kết luận chương 71 CHƯƠNG TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NGỮ NGHĨA TÍNH TOÁN CỦA CHÚNG 74 3.1 Vấn đề tính giải nghĩa FRBS 74 3.2 Khái niệm khung nhận thức khung nhận thức ngôn ngữ 75 3.2.1 Khung nhận thức tính giải nghĩa 75 3.2.2 Khung nhận thức ngôn ngữ 77 3.3 Đề xuất ràng buộc tính giải nghĩa LFoC 80 3.3.1 Ràng buộc ngữ nghĩa vốn có từ 80 3.3.2 Ràng buộc phương pháp xác định ngữ nghĩa tính toán từ 82 3.3.3 Ràng buộc ngữ nghĩa khoảng từ 83 3.3.4 Ràng buộc ngữ nghĩa thứ tự từ 85 3.4 Biểu diễn ngữ nghĩa tính toán dựa tập mờ từ LFoC 87 iv 3.4.1 Biểu diễn đơn thể hạt LFoC 88 3.4.2 Biểu diễn đa thể hạt LFoC 91 3.5 Phát triển thuật toán xây dựng LRBS giải toán hồi quy 97 3.5.1 Thiết kế ngữ nghĩa tính toán (phân hoạch mờ) 97 3.5.2 Mã hóa cá thể 98 3.5.3 Thuật toán tiến hóa 99 3.5.4 Kết thử nghiệm 99 3.6 Kết luận chương 105 KẾT LUẬN CỦA LUẬN ÁN .107 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ .111 LIÊN QUAN ĐẾN LUẬN ÁN 111 TÀI LIỆU THAM KHẢO 112 PHỤ LỤC 118 v DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Các ký hiệu: AX Đại số gia tử tuyến tính AX * Đại số gia tử tuyến tính đầy đủ (h) Độ đo tính mờ gia tử h fm(x) Độ đo tính mờ hạng từ x 𝔳𝔛 Hàm định lượng ngữ nghĩa từ ngôn ngữ biến 𝔛 A(x) Hàm xác định độ thuộc giá trị x vào tập mờ A l(x) Độ dài từ ngôn ngữ x fm Khoảng tính mờ giá trị ngôn ngữ Xk Tập hạng từ có độ dài k X(k) Tập tất hạng từ có độ dài k Ik Hệ khoảng tính mờ mức k giá trị ngôn ngữ I(k) ngữ Hệ khoảng tính mờ từ mức đến mức k giá trị ngôn Comp Độ phức tạp hệ luật MSE Sai số bình phương trung bình Các từ viết tắt: DB Database ĐSGT Đại số gia tử FoC Frame of Cognition FRBS Fuzzy Rule-based System FRB Fuzzy Rule Base RB Rule Base vi HA-PAES-MG Granularity Hedge Algebra - Pareto Archive Evolution Strategy – Multi HA-PAES-SG Single Granularity Hedge Algebra - Pareto Archive Evolution Strategy – KB Knowledge Base LRBS Linguistic Rule-based System LRB Linguistic Rule Base LFoC Linguistic Frame of Cognition MF Membership Function M-PAES Modify-Pareto Archive Evolution Strategy PAES Pareto Archive Evolution Strategy PAES(I) Pareto Archive Evolution Strategy (Interpretability) PAES(C) Pareto Archive Evolution Strategy (Complexity) PSO Particle Swarm Optimization SGERD Steady-State Genetic Algorithm for Extracting Fuzzy Classification Rules From Data SPEA Strength Pareto Evolutionary Algorithm SQM Semantically Quantifying Mapping vii DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Các tập liệu dùng để thử nghiệm 45 Bảng 2.2 Các giá trị Nrmax trình tối ưu hệ luật 45 Bảng 2.3 So sánh kết thử nghiệm thuật toán OPHA-SGERD thuật toán SGERD với tiêu chuẩn (2.3) 45 Bảng 2.4 So sánh kết thử nghiệm thuật toán OPHA-SGERD thuật toán SGERD với tiêu chuẩn (2.4) 45 Bảng 2.5 So sánh kết thử nghiệm thuật toán OPHA-SGERD với tiêu chuẩn (2.5) thuật toán SGERD với tiêu chuẩn (2.4) 46 Bảng 2.6 So sánh kết thử nghiệm thuật toán OPHA-SGERD với ba tiểu chuẩn (2.3), (2.4), (2.5) 46 Bảng 2.7 Các tập liệu sử dụng thử nghiệm [14] 62 Bảng 2.8 Các tham số thử nghiệm 62 Bảng 2.9 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm FIRST 63 Bảng 2.10 Các tập liệu sử dụng thử nghiệm [10] 68 Bảng 2.11 Kết trung bình đạt HA-PAES-MG (MG), HA-PAES-SG (SG) PAESKB (KB) điểm FIRST 69 Bảng 2.12 So sánh độ phức tạp (Comp) hệ luật phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 71 Bảng 2.13 So sánh sai số bình phương trung bình tập kiểm tra (MSEts) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 71 Bảng 3.1 Các giá trị 𝖛𝖃 từ X(2) 89 Bảng 3.2 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm FIRST 100 Bảng 3.3 So sánh độ phức tạp (Comp) hệ luật phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 101 viii Bảng 3.4 So sánh MSEts tập kiểm tra phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 101 Bảng 3.5 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HAPAES-MG-Kopt (Kopt ) PAESKB (KB) điểm FIRST .103 Bảng 3.6 So sánh độ phức tạp hệ luật (Comp) phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 105 Bảng 3.7 So sánh MSEts tập kiểm tra phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 ba điểm đại diện 105 Bảng A.1 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm MEDIAN 118 Bảng A.2 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm LAST 118 Bảng A.3 Kết trung bình đạt HA-PAES-MG (MG), HA-PAES-SG (SG) PAES KB (KB) điểm MEDIAN 119 Bảng A.4 Kết trung bình đạt HA-PAES-MG (MG), HAPAES-SG (SG) PAES KB (KB) điểm LAST .119 Bảng A.5 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm MEDIAN 119 Bảng A.6 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm LAST 120 Bảng A.7 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HAPAES-MG-Kopt (Kopt ) PAESKB (KB) điểm MEDIAN 120 Bảng A.8 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HAPAES-MG-Kopt (Kopt ) PAESKB (KB) điểm LAST 120 ix buộc tính giải nghĩa LRBS mức từ Trên sở ràng buộc đề xuất, luận án đề xuất phương pháp thiết kế ngữ nghĩa tính toán từ dạng cấu trúc đa thể hạt cho từ LFoC thỏa mãn ràng buộc đề xuất Luận án phát biểu, chứng minh định lý tính đắn ràng buộc mà phương pháp thiết kế ngữ nghĩa tính toán thỏa mãn Những ràng buộc đề xuất luận án xuất phát từ ngữ nghĩa vốn có từ yêu cầu tự nhiên làm việc với từ Các LRBS thỏa mãn ràng buộc có tính giải nghĩa cao ngữ nghĩa từ sử dụng LRBS xây dựng sở ngữ nghĩa tự nhiên vốn có bảo toàn tính quan trọng từ Cũng chương luận án đề xuất thuật toán HA-PAES-MG-Kmax xây dựng LRBS giải toán hồi quy Thuật toán phát triển dựa ĐSGT, lược đồ tiến hóa (2+ 2)M-PAES khái niệm khung nhận thức ngôn ngữ LFoC Các LRBS xây dựng thỏa mãn ràng buộc đề xuất luận án Để đánh giá tính hiệu LRBS xây dựng, tiến hành thử nghiệm thuật toán nhằm đối sánh phương pháp biểu diễn ngữ nghĩa tính toán đa thể hạt với đơn thể hạt từ ngôn ngữ LFoC, với thuật toán PAES KB phát triển dựa lý thuyết tập mờ - Kết phân tích thống kê cho thấy phương pháp biểu diễn ngữ nghĩa tính toán từ LFoC theo dạng đa thể hạt tốt hai tiêu chí độ phức tạp (Comp) độ xác (MSE) Và thuật toán đề xuất luận án tạo LRBS có độ xác tốt thuật toán PAES KB Như thuật toán HA-PAES-MG-Kmax đề xuất chương tạo LRBS thỏa mãn ràng buộc tính giải nghĩa đề xuất mà tạo LRBS có tính giải nghĩa cao theo hướng tiếp cận dựa độ phức tạp đồng thời có độ xác cao thuật toán so sánh 106 KẾT LUẬN CỦA LUẬN ÁN Mục tiêu luận án nghiên cứu ngữ nghĩa tính toán từ ngôn ngữ để áp dụng phát triển thuật toán xây dựng LRBS giải nghĩa từ liệu giải toán phân lớp, hồi quy theo hướng tiếp cận dựa lý thuyết tập mờ ĐSGT nhằm khắc phục số hạn chế phương pháp đề xuất gần Luận án đề xuất hướng tiếp cận tính giải nghĩa LRBS dựa trên logic truyền thống lý thuyết ĐSGT Kết nghiên cứu đạt luận án là: 1) Phát triển thuật toán OPHA-SGERD xây dựng LRBS từ liệu với ngữ nghĩa tính toán từ sử dụng LRBS xác định dựa ĐSGT giải toán phân lớp Thuật toán thực với hai pha hai thủ tục tương ứng Thủ tục OP-PARHA thực thiết kế ngôn ngữ sử dụng LRBS việc tìm kiếm tham số tính mờ tối ưu ĐSGT, thủ tục HA-OFRB tìm kiếm LRBS tối ưu từ tập luật mờ ứng cử sinh thuật toán HA-SGERD phát triển dựa thuật toán SGERD [39], ĐSGT tiêu chuẩn chọn luật đề xuất luận án Kết thử nghiệm cho thấy LRBS xây dựng có tỉ lệ phân lớp xác cao hơn, tính giải nghĩa được định nghĩa dựa độ phức tạp tốt đặc biệt từ sử dụng RB từ ngôn ngữ tự nhiên với ngữ nghĩa tính toán xác định dựa ngữ nghĩa vốn có 2) Phát triển hai thuật toán HA-PAES-SG HA-PAES-MG xây dựng LRBS từ liệu với ngữ nghĩa tính toán từ sử dụng LRBS xác định dựa ĐSGT giải toán hồi quy Các thuật toán cho phép học đồng thời ngữ nghĩa tính toán dựa tập mờ từ, số từ sử dụng cho biến RB Tuy nhiên không gian tìm kiếm luật tham số giảm đáng kể so với thuật toán tiếp cận dựa 107 lý thuyết tập mờ Do thuật toán áp dụng phương pháp sinh luật từ mẫu liệu, lựa chọn từ ngôn ngữ sử dụng cho biến điều chỉnh ngữ nghĩa tính toán từ tham số tính mờ ĐSGT Kết thử nghiệm đối sánh với kết phương pháp Antonelli [14] Alcalá [10] phân tích thống kê với phương pháp kiểm định giả thuyết t-test Wilcoxon-test cho thấy LRBS sinh từ thuật toán đề xuất tốt FRBS sinh từ thuật toán đối sánh hai mục tiêu độ xác tính giải nghĩa Kết thử nghiệm thiết kế phân hoạch mờ dạng đa thể hạt tốt dạng đơn thể hạt 3) Đề xuất ràng buộc tính giải nghĩa LRBS theo hướng tiếp cận ĐSGT mức phân hoạch mờ (mức thấp): Ràng buộc ngữ nghĩa vốn có từ, yêu cầu ngữ nghĩa vốn có từ phải sử dụng để tạo sở hình thức, từ sở hình thức xác định ngữ nghĩa tính toán từ - Ràng buộc phương pháp xác định ngữ nghĩa tính toán từ, yêu cầu ngữ nghĩa tính toán từ phải xác định thủ tục xây dựng dựa phương pháp hình thức đầy đủ - Ràng buộc ngữ nghĩa khoảng từ, yêu cầu tính khái quát tính đặc tả từ phải bảo toàn miền từ biến ngôn ngữ - Ràng buộc ngữ nghĩa thứ tự từ, yêu cầu phép gán ngữ nghĩa cho từ phải bảo toàn ngữ nghĩa thứ tự từ - 4) Phát biểu khái niệm khung nhận thức ngôn ngữ (LFoC) dựa khái niệm khung nhận thức (FoC) lý thuyết ĐSGT Đề xuất phương pháp thiết kế ngữ nghĩa tính toán dựa tên tập mờ tam giác từ ngôn ngữ LFoC thỏa mãn ràng buộc đề xuất Luận án phát biểu chứng minh định lý tính đắn phương pháp thiết kế ngữ nghĩa 108 5) Đề xuất thuật toán HA-PAES-MG-Kmax xây dựng LRBS từ liệu giải toán hồi quy Thuật toán thử nghiệm máy tính tập liệu, đối sánh kết thu với kết thuật toán HA-PAES-SG-Kmax, thuật toán HA-PAES-MG phát triển chương thuật toán PAESKB Alcalá cộng [10] Kết phân tích thống kê phương pháp kiểm định giả thuyết Wilcoxon-test cho thấy thuật toán HA-PAES-MG-Kmax tốt thuật toán đối sánh hai mục tiêu độ xác tính giải nghĩa Từ kết đạt luận án, rút số kết luận sau đây: 1) Phương pháp sinh luật từ mẫu liệu theo hướng tiếp cận dựa lý thuyết ĐSGT làm giảm đáng kể không gian luật ứng cử so với phương pháp sinh luật tổ hợp tất khả từ ngôn ngữ sử dụng cho biến không làm giảm độ xác LRBS 2) Điều chỉnh ngữ nghĩa tính toán dựa tập mờ từ ngôn ngữ sử dụng LRBS tham số tính mờ ĐSGT làm giảm không gian tìm kiếm tham số tập mờ 3) Phương pháp thiết kế ngữ nghĩa tính toán từ ngôn ngữ biểu diễn tập mờ với phân hoạch mờ dạng đa thể hạt tốt dạng đơn thể hạt Nó bảo toàn tính chất khái quát tính đặc tả từ ngôn ngữ, tính chất quan trọng cần thiết từ 4) Các thuật toán đề xuất dựa phương pháp luận ĐSGT làm tăng tính giải nghĩa nâng cao độ xác LRBS sinh Mặc dù luận án đạt kết tốt, nhiên kết nghiên cứu chủ yếu tập trung vào giải toán phân lớp, hồi quy dạng tổng quát mà chưa giải toán có đặc trưng riêng số 109 chiều lớn, số mẫu liệu lớn liệu phân bố không đều,… Các toán đòi hỏi phải có kỹ thuật riêng Thêm vào luận án khởi tạo hướng tiếp cận cho vấn đề tính giải nghĩa LRBS đề xuất ràng buộc mức mức thấp (phân hoạch mờ hay mức từ) mà chưa nghiên cứu đến tính giải mức cao (mức sở luật) Đó vấn đề mở thời gian tới tiếp tục nghiên cứu giải 110 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [i] Nguyễn Văn Long, Hoàng Văn Thông, Vấn đề kết nhập thông tin biểu diễn với ngữ nghĩa dựa Đại số gia tử, Tin học điều khiển học, Tập 27 số 3, 2011, trang 241-253 [ii] Nguyễn Cát Hồ, Hoàng Văn Thông, Nguyễn Văn Long, Một phương pháp tiến hóa sinh hệ luật mờ với ngữ nghĩa thứ tự ngôn ngữ, Tin học điều khiển học, Tập 28 số 4, 2012, trang 333-345 [iii] Nguyễn Cát Hồ, Hoàng Văn Thông, Nguyễn Văn Long, Một phương pháp sinh hệ luật mờ Mamdani cho toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học điều khiển học, Tập 30 số 3, 2014, pp 227-238 [iv] Hoàng Văn Thông, Nguyễn Cát Hồ, Nguyễn Đức Dư, Một phương pháp tiến hóa đa mục tiêu sinh hệ luật mờ Mamdani với từ ngôn ngữ ngữ nghĩa định tính cho toán hồi quy, Tạp chí Công nghệ thông tin & truyền thông, Chuyên san: “Các Công trình Nghiên cứu, Phát triển Ứng dụng Công nghệ thông tin Truyền Thông”, Tập V-1, Số 12, 2014, trang 5-13 [v] Cat Ho Nguyen, Van Thong Hoang, Van Long Nguyen, A discussion on interpretability of linguistic rule base systems and its application to solve regression problems, Knowledge-Based Systems, Vol 88, 2015, pp 107133 111 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] Tiếng việt Nguyễn Cát Hồ, Nguyễn Văn Long, Làm đầy đủ đại số gia tử sở bổ sung phần tử giới hạn, Tạp chí Tin học Điều khiển học, Tập 19(1) (2003) trang 62-71 Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Tiếp cận đại số gia tử cho phân lớp mờ, Tạp chí Tin học Điều khiển học, tập 25, số (2009), trang 53-68 Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Trần Duy Hùng, Phương pháp tối ưu Pareto hệ luật mờ dựa đại số gia tử sử dụng giải thuật di truyền ứng dụng vào toán phân lớp, Tạp chí Tin học Điều khiển học, T 26, S (2010) Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Đại số gia tử hạn chế AX2 (ĐSGT2) ứng dụng cho toán phân lớp mờ, Tạp chí Khoa học Công nghệ, (2010) [5] Hoàng Kiếm, Lê Hoàng Thái, Giải thuật di truyền - Cách giải tự nhiên toán máy tính, Nhà Xuất giáo dục, năm 2000 [6] Dương Thăng Long, Nguyễn Cát Hồ, Trần Thái Sơn, “Một phương pháp xây dựng hệ luật mờ có trọng số để phân lớp dựa đại số gia tử”, Tạp chí Tin học Điều khiển học, T.26(1)(2010) trang 55-72 [7] Dương Thăng Long, Một phương pháp xây dựng hệ mờ dạng luật với ngữ nghĩa dựa Đại số gia tử ứng dụng toán phân lớp, Luận án tiến sỹ toán học, (2011) Tiếng Anh [8] R Alcalá, M J Gacto, F Herrera, and J Alcalá-Fdez, A multi-objective genetic algorithm for tuning and rule selection to obtain accurate and compact linguistic fuzzy rule-based systems, Int J Uncertainty, Fuzziness Knowl.-Based Syst., vol 15, no (2007) pp 539–557 [9] R Alcalá, J Alcalá-Fdez, F Herrera, J Otero,Genetic learning of accurate and compact fuzzy rule based systems based on the 2-tuples linguistic representation, Int J Approx Reason 44 (2007) pp 45–64 112 [10] R Alcalá, P Ducange, F Herrera, B Lazzerini, and F Marcelloni, A Multiobjective Evolutionary Approach to Concurrently Learn Rule and Data Bases of Linguistic Fuzzy-Rule-Based Systems IEEE Trans on Fuzzy Syst., Vol 17, No (2009) pp 1106-1122 [11] J M Alonso, L Magdalena, G González-Rodríguez, Looking for a good fuzzy system interpretability index: An experimental approach, Int J Approx Reason 51 (2009) pp 115–134 [12] M Antonelli, P Ducange, B Lazzerini, F Marcelloni, Learning concurrently partition granularities and rule bases of Mamdani fuzzy systems in a multi-objective evolutionary framework Int J Approx Reason 50(7) (2009a) pp 1066–1080 [13] M Antonelli, P Ducange, B Lazzerini, F Marcelloni, Multi-objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems Evol Intel 2(1–2) (2009b) pp 21–37 [14] M Antonelli, P Ducange, B Lazzerini, F Marcelloni, Learning concurrently data and rule bases of Mamdani fuzzy rule-based systems by exploiting a novel interpretability index Soft Comput., 15 (2011) pp 1981–1998 [15] M Antonelli, P Ducange, F Marcelloni, An efficient multi-objective evolutionary fuzzy system for regression problems, Int J Approx Reason 54 (2013) pp 1434–1451 [16] M Cococcioni, P Ducange, B Lazzerini, and F Marcelloni, A Paretobased multi-objective evolutionary approach to the identification of Mamdani fuzzy systems, Soft Comput., vol 11 (2007) pp 1013–1031 [17] O Cordón, M J del Jesus, and F Herrera, Genetic learning of fuzzy rule-based classification systems cooperating with fuzzy reasoning methods, Int J Intell Syst., vol 13 (1998) pp 1025–1053 [18] O Cordón, M J del Jesus, F Herrera, A proposal on reasoning methods in fuzzy rule-based classification systems Int J Approx Reason 20(1) (1999) pp 21–45 [19] O Cordón, A historical review of evolutionary learning methods for Mamdani-type fuzzy rule-based systems: Designing interpretable genetic fuzzy systems, Int J of Approx Reason., 52 (2011) pp 894–913 [20] D W Corne, J D Knowles, M J Oates, The Pareto Envelope-Based Selection Algorithm for Multiobjective Optimization, Lecture Notes in Computer Science Volume 1917 (2000) pp 839-848 113 [21] J Demsar, “Statistical comparisons of classifiers over multiple data sets,” J Mach Learn Res., vol 7, pp 1–30, 2006 [22] K Deb, A Pratap, S Agarwal, and T Meyarivan, “A fast and elitist multiobjective genetic algorithm: NSGA-II”, IEEE Trans on Evolutionary Computation (2) (2002), pp 182-197 [23] M Fazzolari, B Giglio, R Alcalá, F Marcelloni, F Herrera, A study on the application of instance selection techniques in genetic fuzzy rule-based classification systems: Accuracy-complexity trade-off Knowl.-Based Syst 54 (2013)32-41 [24] A Fernandez, S García, M.J del Jesus, F Herrera, A study of the behavior of linguistic fuzzy rule based classification systems in the framework of imbalanced data sets, Fuzzy Set Syst 159 (18) (2008) 2378– 2398 [25] M J Gacto, R Alcalá, F Herrera, Adaptation and Application of MultiObjective Evolutionary Algorithms for Rule Reduction and Parameter Tuning of Fuzzy Rule-Based Systems, Soft Comput., Volume 13, Issue (2008) pp 419-443 [26] M.J Gacto, R Alcalá, F Herrera, Interpretability of Linguistic Fuzzy Rule-Based Systems: An Overview of Interpretability Measures Inform Sci., 181:20 (2011) pp 4340–4360 [27] S García, J Derrac, I Triguero, C.J Carmona, F Herrera, EvolutionaryBased Selection of Generalized Instances for Imbalanced Classification Knowl.-Based Syst 25:1 (2012) 3-12 [28] H Ishibuchi, K Nozaki, N Yamamoto, H Tanaka, Selecting fuzzy ifthen rules for classification problems using genetic algorithms IEEE Trans Fuzzy Syst 3(3) (1995) pp 260–270 [29] H Ishibuchi, Multi-Objective Genetic Local Search (MOGLS), Evolutionary Computation, Proceedings of IEEE International Conference on, 20-22 May 1996, pp 119 – 124 [30] H Ishibuchi, T Nakashima, T Morisawa, Voting in fuzzy rule-based systems for pattern classification problems Fuzzy Sets Syst 103(2) (1999) pp 223–238 [31] H Ishibuchi and T Yamamoto, Fuzzy Rule Selection by Multi-Objective Genetic Local Search Algorithms and Rule Evaluation Measures in Data Mining, Fuzzy Sets and Systems Vol.141, No.1 (2004), pp 59-88, 114 [32] H Ishibuchi and T Yamamoto, Rule weight specification in fuzzy rulebased classification systems, IEEE Trans on Fuzzy Systems, vol 13, no (2005) pp 428-435 [33] H Ishibuchi, Y Nojima, Analysis of interpretability-accuracy tradeoff of fuzzy systems by multiobjective fuzzy genetics-based machine learning, Int J Approx Reason., vol.44, no.1 (2007) pp 4–31 [34] H Ishibuchi, Y Nojima, Repeated double cross-validation for choosing a single solution in evolutionary multi-objective fuzzy classifier design, Knowl.-based Syst.54 (2013) pp 22–31 [35] L Kevin and S Olivier (2006), “Fuzzy Histograms and Density Estimation”, Advances in Soft Computing, Springer Berlin, ISSN 16153871, pp 45-52 [36] J D Knowles and D.W Corne, Approximating the non dominated front using the Pareto archived evolution strategy, Evol Comput., vol 8, no (2000) pp 149–172 [37] V López, A Fernández, M.J del Jesus, F Herrera, A hierarchical genetic fuzzy system based on genetic programming for addressing classification with highly imbalanced and borderline data-sets, Knowl.Based Syst 38 (2013) pp 85–104 [38] E.H Mamdani, S Assilian, An experiment in linguistic synthesis with a fuzzy logic controller, Int J Man-Mach Stud (1975), pp 1–13 [39] E.G Mansoori, M.J Zolghadri, and S.D Katebi, SGERD: A Steady-Sate Genetic Algorithm for Extracting Fuzzy Classification Rules From Data, IEEE Trans on fuzzy syst., Vol 16, No (2008), pp 1061-1071 [40] A.A Márquez, F.A Márquez, A.M Roldán, A Peregrín, An efficient adaptive fuzzy inference system for complex and high dimensional regression problems in linguistic fuzzy modeling, Knowl.-Based Syst 54 (2013) pp 42–52 [41] C Mencar, A.M Fanelli, Interpretability constraints for fuzzy information granulation, Inform Sci 178 (2008) pp 4585–4618 [42] C Mencar, C Castiello, R Cannone, A.M Fanelli, Interpretability assessment of fuzzy knowledge bases: a cointension based approach, Int J Approx Reason 52 (2011) pp 501–518 [43] G.A Miller, The magical number seven plus or minus two: some limits on our apacity for processing information, The Psychological Review 63 (1956), pp 81–97 115 [44] D Nauck, Measuring interpretability in rule-based classification systems, in: Proceed of the 12th IEEE Int Conf on Fuzzy Syst., vol (2003) pp 196–201 [45] C.H Nguyen and W Wechler, Hedge algebras: an algebraic approach to structures of sets of linguistic domains of linguistic truth variables, Fuzzy Sets and Syst., 35(3) (1990) pp 281-293 [46] C H Nguyen and W Wechler, Extended algebra and their application to fuzzy logic, Fuzzy Sets and Syst., vol.52 (1992) pp 259–281 [47] C H Nguyen and N.V Huynh, An algebraic approach to linguistic hedges in Zadeh's fuzzy logic, Fuzzy Sets and Syst., vol.129 (2002) pp.229254 [48] C H Nguyen, A topological completion of refined hedge algebras and a model of fuzziness of linguistic terms and hedges, Fuzzy Sets and Syst., vol.158 (2007) pp.436-451 [49] C H Nguyen and V L Nguyen, Fuzziness measure on complete hedges algebras and quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and Syst., vol.158 (2007) pp.452-471 [50] C H Nguyen, W Pedryczb, T L Duong, T S Tran, A genetic design of linguistic terms for fuzzy rule based classifiers, Int J Approx Reason., 54 (2013) 1–2.1 [51] C H Nguyen, V.N Huynh, W Pedrycz, A Construction of Sound Semantic Linguistic Scales Using 4-Tuple Representation of Term Semantics, Int J Approx Reason., 55 (2014) 763–786 [52] C H Nguyen, T S Tran, D P Pham, Modeling of a semantics core of linguistic terms based on an extension of hedge algebra semantics and its application, Knowl-Based Syst., Vol 67 (2014) pp 244-262 [53] J.V de Oliveira, Semantic constraints for membership function optimization, IEEE Trans Syst., Man, and Cyber – Part A: Syst and Hum 29 (1999) pp 128–138 [54] J.V de Oliveira, Towards neuro-linguistic modeling: constraints for optimization of membership functions, Fuzzy Sets and Syst 106 (1999) pp 357–380 [55] P Pulkkinen and H Koivisto, Fuzzy classifier identification using decision tree and multiobjective evolutionary algorithms, Int J Approx Reason., vol 48, no (2008) pp 526–543 116 [56] P Pulkkinen and H Koivisto, A Dynamically constrained multiobjective genetic fuzzy system for regression problems, IEEE Trans on fuzzy syst., Vol 8, No (2010) pp 161-177 [57] I Rodríguez-Fdez, M Mucientes, A Bugarín, An Instance Selection Algorithm for Regression and its Application in Variance Reduction, Fuzzy Systems (FUZZ), IEEE International Conference on (2013), pp 1-8 [58] A Tarski, A Mostowski, R Robinson, Undecidable Theories, NorthHolland, 1953 [59] K Trawinski, O Cordón, L Sánchez, A Quirin, Multiobjective Genetic Classifier Selection For Random Oracles Fuzzy Rule-Based Classifier Ensembles: How Beneficial Is The Additional Diversity Knowl.-based Syst 54 (2013) pp 3-21 [60] D Vukadinović, M Bašić, C.H Nguyen, N.L Vu, T.D Nguyen, HedgeAlgebra-Based Voltage Controller for a Self-Excited Induction Generator, Contr Engin Pract., 30 (2014) pp 78–90 [61] L.X Wang, J.M Mendel, Generating fuzzy rules by learning from examples, IEEE Trans Syst Man Cybern 22 (6) (1992), pp 1414–1427 [62] L.A Zadeh, From computing with numbers to computing with words – from manipulation of measurements to manipulation of perceptions, IEEE Trans on Circuits and Syst – I: Fund Theory and Applic 45 (1) (1999) pp 105–119 [63] L A Zadeh, Fuzzy set, Information and control, 8, (1965), pp 338-353 [64] L A Zadeh, The concept of a linguistic variable and its application to approximate reasoning, Parts I, II and III Inform Sci 8, 8, (1975), pp 199–249, pp 301–357, pp 43–80 [65] L.A Zadeh, Fuzzy sets and fuzzy information granulation theory – key selected papers, Beijing Normal University Press, China (2000) [66] H.J Zimmermann, Fuzzy sets theory and its applications, 2nd Ed., Kluwer Acad Pub., USA (1991) [67] S.M Zhou, J.Q Gan, Low-level interpretability and high-level interpretability: a unified view of data-driven interpretable fuzzy system modelling, Fuzzy Sets and Systems 159 (2008) pp 3091–3131 117 PHỤ LỤC Bảng A.1 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm MEDIAN Tập liệu ELE WA WI M PG6 STP TR Thuật toán (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG #R Comp MSEtr SDtr 19.120 26.400 28.517 9.660 14.100 19.967 7.750 14.160 20.333 42.250 34.960 42.267 47.960 45.860 44.433 13.100 19.650 26.533 49.080 66.600 56.862 34.610 53.400 42.667 21.870 56.940 43.033 109.030 99.900 94.700 171.390 160.430 125.067 58.320 103.820 52.100 14729.300 14197.500 15142.470 2.009 1.729 1.376 1.540 1.460 0.937 2.651 2.874 2.210 0.775 0.820 0.610 0.060 0.069 0.040 2149.000 3850.800 2679.404 0.422 0.516 0.210 0.385 0.282 0.134 0.348 0.422 0.192 0.101 0.223 0.126 0.021 0.025 0.015 ttr = * = + + * + + * + + * = = * = = * MSEts SDts tts 17390.100 15849.400 16277.270 2.095 2.111 1.487 1.729 1.544 1.081 4.138 4.253 4.084 0.958 1.065 0.766 0.093 0.138 0.071 3796.300 4228.400 3852.005 0.397 0.969 0.277 0.438 0.242 0.191 1.313 1.367 1.071 0.183 0.313 0.199 0.075 0.141 0.095 = * = + + * + + * = = * = + * = = * Bảng A.2 So sánh kết thử nghiệm thuật toán HA-PAES-SG với thuật toán (2+2)M-PAES(I) (2+2)M-PAES(C) [14] điểm LAST Tập liệu ELE WA WI M PG6 STP TR Thuật toán (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES( I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES( C) HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG (2+2)M -PAES(I) HA-PAES-SG HA-PAES-SG (2+2)M -PAES(I) (2+2)M -PAES(C) HA-PAES-SG #R 13.560 20.000 22.448 7.380 10.700 15.300 6.370 10.380 14.767 32.600 31.160 37.267 47.530 44.460 37.900 10.850 15.650 23.500 Comp MSEtr SDtr 29.560 45.100 41.655 19.110 32.250 28.167 12.370 36.270 28.033 73.960 84.900 79.700 163.420 144.400 103.833 41.500 73.030 43.600 16358.500 16595.800 19296.504 2.142 1.877 1.686 1.670 1.577 1.080 2.829 2.985 2.295 0.849 0.881 0.645 0.070 0.076 0.048 2713.600 5556.400 5920.099 0.449 0.733 0.359 0.539 0.377 0.330 0.350 0.457 0.204 0.164 0.225 0.195 0.025 0.027 0.031 ttr * = + + = * + + * + + * = = * = = * MSEts SDts 18896.000 18977.300 21042.461 2.244 2.119 1.795 1.827 1.678 1.176 4.109 4.327 4.114 0.958 1.102 0.763 0.123 0.148 0.063 3672.500 5816.400 9578.943 0.529 0.937 0.401 0.566 0.325 0.342 1.321 1.410 1.065 0.183 0.323 0.201 0.125 0.135 0.034 118 tts * = + + = * + + * = = * = + * = = * Bảng A.3 Kết trung bình đạt HA-PAES-MG (MG), HA-PAESSG (SG) PAES KB (KB) điểm MEDIAN T ập #R liệu MG SG ELE1 11.7 Comp SD’ tr MSEtr KB MG SG KB MG SG KB SD’ ts MSEts MG SG KB MG SG Diff SG KB Diff KB MG SG KB 14.30 16 17.83 19.63 23 151769 166560 148845 0.031 0.061 0.031 192122 203074 -0.054 189497 0.0137 0.178 0.164 0.119 ELE2 14.27 16.60 19 25.7 30.03 33 13433 26,452 14714 0.219 0.2811 0.287 14648 29425 -0.502 16233 -0.098 0.262 0.355 0.250 WA 13.93 16.57 16 30.8 31.43 39 1.15 1.51 1.88 0.104 0.163 0.261 1.21 1.89 -0.359 4.04 -0.7 WI 13.33 16.53 15 28.8 31.27 33 0.86 1.02 1.48 0.105 0.1432 0.23 1.13 -0.139 1.64 -0.409 0.165 0.156 0.207 TR 10.57 11.07 19.17 14.90 15 0.09 0.07 0.09 2.778 0.8764 0.444 0.1 0.10 0.036 -0.375 2.900 1.388 1.000 AB 8.53 16.43 15 16.9 30.73 37 2.46 2.45 2.37 0.045 0.0415 0.034 2.5 2.53 -0.013 2.49 0.004 12.67 14.5 16.03 17 0.02 0.03 0.06 0.5 0.03 0.04 -0.166 0.09 -0.667 0.333 1.009 0.667 MTG 9.63 0.97 0.3091 0.5 0.16 0.140 0.834 2.282 0.072 0.078 0.068 CA 7.6 9.83 17.3 24.10 13 5.32 5.46 13.11 0.113 0.1982 0.275 5.49 5.75 -0.045 15.64 -0.649 0.118 0.253 0.428 PT 7.73 16.67 20.47 34.90 22 84.49 96.12 97.00 0.246 0.1767 0.289 87.31 99.70 -0.124 98.00 -0.109 0.259 0.176 0.265 -0.152 -0.33 Mean 10.81 14.52 12.6 21.27 25.89 25.8 0.460 0.250 0.261 0.492 0.490 0.587 Bảng A.4 Kết trung bình đạt HA-PAES-MG (MG), HAPAESSG (SG) PAES KB (KB) điểm LAST T ập liệu #R Comp MG SG SD’ tr MSEtr KB MG SG KB MG SG KB MG SD’ ts MSEts SG KB MG SG DiffSG KB DiffKB MG SG KB ELE1 5.00 5.00 5.00 5.40 6.00 5.00 181431 231087 212337 0.062 0.130 0.114 206844 248006 -0.166 234179 -0.117 0.219 0.193 0.179 ELE2 5.00 5.67 5.00 5.43 8.20 5.00 63400 253340 135026 0.335 1.603 0.485 63916 284062 -0.775 136880 -0.533 0.299 1.823 0.425 WA 5.00 8.47 5.00 5.17 11.47 5.00 3.38 7.04 15.15 0.287 0.901 0.965 3.51 7.14 -0.509 24.88 -0.859 0.308 0.903 1.798 WI 5.00 7.17 5.00 5.03 9.27 5.00 2.46 4.95 8.42 0.280 0.943 0.588 2.63 5.11 -0.485 8.77 -0.279 0.342 0.973 0.593 TR 5.00 6.03 5.00 5.07 6.50 5.00 0.14 0.24 0.28 1.714 0.927 0.750 0.16 0.25 -0.364 0.42 -0.012 1.813 0.907 0.905 AB 5.00 6.97 5.00 5.90 9.27 5.00 2.82 3.15 3.09 0.060 0.078 0.133 2.84 3.16 -0.100 3.13 -0.013 0.099 0.095 0.153 MTG 5.00 5.23 5.00 5.03 5.27 5.00 0.07 0.18 0.2 0.286 1.126 0.900 0.07 0.21 -0.669 0.27 -0.009 0.286 1.210 1.000 CA 5.07 5.20 5.00 7.23 7.07 5.00 9.58 18.33 32.25 0.259 0.630 0.527 9.96 18.96 -0.475 33.44 -0.702 0.256 0.673 0.517 PT 5.00 6.97 5.00 8.00 9.63 5.00 157.04 694.93 635 0.441 0.574 0.279 158.47 691.08 -0.771 651 -0.757 0.433 0.568 0.320 5.00 0.414 0.768 0.527 -0.365 0.451 0.816 0.654 Mean 5.01 6.30 5.00 5.81 8.07 -0.479 Bảng A.5 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm MEDIAN T ập liệu ELE1 ELE2 WA WI TR AB MT G CA PT Mean HA-PAES-MG-Kmax HA-PAES-SG-Kmax #R Comp MSEtr SD’ tr MSEts SD’ ts #R Comp MSEtr SD’ tr MSEts SD’ ts DiffSG 7.90 10.80 193592 0.133 13.53 19.07 170406 0.040 202724 0.178 0.05 11.90 19.80 168014 0.038 14219 0.174 16116 0.253 18.40 34.03 27249 0.265 28994 0.247 0.44 10.60 20.33 1.209 0.099 1.299 0.107 14.83 28.27 1.526 0.160 1.621 0.177 0.20 9.87 18.73 0.962 0.117 1.012 0.166 14.80 27.13 1.081 0.203 1.172 0.213 0.14 9.13 17.73 0.038 0.155 0.042 0.304 14.87 31.53 0.072 0.411 0.080 0.455 0.47 7.00 14.63 2.463 0.033 2.506 0.074 11.50 25.367 2.389 0.031 2.456 0.066 0.02 9.57 18.93 0.020 0.314 0.025 0.532 11.77 21.200 0.045 0.468 0.048 0.396 0.47 5.93 15.67 5.565 0.207 6.165 0.342 6.73 17.367 7.723 0.185 8.258 0.245 0.25 7.40 19.97 100.516 21.57 100.179 12.81 25.06 0.123 0.210 103.432 17.40 0.130 0.227 8.87 8.81 96.670 0.105 0.138 0.149 0.236 0.221 0.03 119 Bảng A.6 Kết trung bình đạt HA-PAES-MG-Kmax HA-PAESSG-Kmax điểm LAST T ập liệu ELE1 ELE2 WA WI TR AB MT G CA PT Mean HA-PAES-MG-Kmax HA-PAES-SG-Kmax #R Comp MSEtr SD’ tr MSEts SD’ ts #R Comp MSEtr SD’ tr MSEts SD’ ts 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.03 5.00 185162 63750 3.347 2.579 0.100 2.966 0.077 20.039 457.238 0.066 0.343 0.338 0.622 0.509 0.040 0.553 0.265 0.153 0.275 213390 68904 3.372 2.587 0.116 2.975 0.093 19.760 459.409 0.178 0.411 0.397 0.592 0.485 0.076 0.514 0.258 0.169 0.344 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 5.00 202888 113555 4.560 3.262 0.155 3.129 0.113 22.352 472.091 0.082 0.531 0.271 0.333 0.356 0.050 0.311 0.219 0.188 0.271 223743 113501 4.688 3.314 0.166 3.149 0.145 22.290 474.057 0.176 -0.05 0.382 -0.39 0.303 -0.28 0.326 -0.22 0.367 -0.30 0.088 -0.06 0.736 -0.36 0.240 -0.11 0.187 -0.03 0.316 -0.199 Diff SG Bảng A.7 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HAPAES-MG-Kopt (Kopt ) PAES KB (KB) điểm MEDIAN Tập liệu #R Comp MSEtr Kmax Kopt KB Kmax Kopt KB Kmax Kopt KB SD’ tr MSEts Kmax Kopt KB Kmax Kopt SD’ ts Diff Kop t 14788 15176 14884 20250 19212 0.037 0.031 0.031 0.051 ELE2 17.27 14.27 19.00 30.43 25.70 33.00 13104 13433 14714 0.183 0.219 0.287 15002 14648 0.024 ELE1 15.07 11.70 16.00 22.43 17.83 23.00 KB Diff K B Kmax Kopt KB 18949 0.064 0.181 0.178 0.119 16233 -0.076 0.316 0.262 0.250 WA 15.37 13.93 16.00 27.80 30.80 39.00 1.31 1.15 1.88 0.115 0.104 0.261 1.45 1.21 0.166 4.04 -0.641 0.159 0.140 2.282 WI 15.63 13.33 15.00 28.93 28.80 33.00 0.97 0.86 1.48 0.082 0.105 0.230 1.08 0.97 0.102 1.64 -0.341 0.093 0.165 0.207 TR 11.43 10.57 8.00 16.37 19.17 15.00 0.04 0.09 0.09 0.250 2.778 0.444 0.05 0.10 -0.500 0.16 -0.688 0.400 2.900 1.000 AB 11.07 8.53 15.00 24.40 16.90 37.00 2.40 2.46 2.37 0.021 0.045 0.034 2.47 2.50 -0.012 2.49 -0.008 0.077 0.072 0.068 MTG 10.83 9.63 8.00 15.73 14.50 17.00 0.02 0.02 0.06 0.500 0.500 0.500 0.03 0.03 0.000 0.09 -0.667 0.333 0.333 0.667 CA 8.30 7.60 8.00 22.43 17.30 13.00 5.36 5.32 13.11 0.095 0.113 0.275 5.51 5.49 0.004 15.64 -0.648 0.107 0.118 0.428 PT 8.20 7.73 8.00 19.73 20.47 22.00 83.45 84.49 97.00 0.228 0.246 0.289 83.69 87.31 -0.041 98.00 -0.146 0.234 0.259 0.265 Mean 12.57 10.81 12.56 23.14 21.27 25.78 0.023 0.168 0.460 0.261 0.350 0.211 0.492 0.587 Bảng A.8 Kết trung bình đạt HA-PAES-MG-Kmax (Kmax), HA-PAESMG-Kopt (Kopt ) PAES KB (KB) điểm LAST #R Comp MSEtr Kmax Kopt KB Kmax Kopt KB Kmax ELE1 5.00 5.00 5.00 5.00 5.40 5.00 ELE2 5.00 5.00 5.00 5.00 5.43 5.00 WA 5.00 5.00 5.00 5.00 WI 5.00 5.00 5.00 TR Tập liệu SD’ tr Kopt KB SD’ ts MSEts Kmax Kopt KB Kmax Kopt Diff Kopt KB Diff KB Kmax Kopt KB 197006 181431 212337 0.066 0.062 0.114 221608 206844 0.067 234179 -0.054 0.178 0.219 0.179 98231 63400 135026 0.343 0.335 0.485 100666 63916 0.365 136880 -0.265 0.411 0.299 0.425 5.17 5.00 4.80 3.38 15.15 0.338 0.287 0.965 5.24 3.51 0.330 24.88 -0.789 0.397 0.308 1.798 5.00 5.03 5.00 3.99 2.46 8.42 0.622 0.280 0.588 3.98 2.63 0.339 8.77 -0.546 0.593 0.342 0.593 5.00 5.00 5.00 5.00 5.07 5.00 0.14 0.14 0.28 0.500 1.714 0.750 0.14 0.16 -0.125 0.42 -0.667 0.500 1.813 0.905 AB 5.00 5.00 5.00 5.00 5.90 5.00 3.08 2.82 3.09 0.039 0.060 0.133 3.10 2.84 0.084 3.13 -0.010 0.074 0.099 0.153 MTG 5.00 5.00 5.00 5.00 5.03 5.00 0.12 0.07 0.20 0.500 0.286 0.900 0.13 0.07 0.462 0.27 -0.519 0.538 0.286 1.000 CA 5.00 5.07 5.00 5.03 7.23 5.00 20.18 9.58 32.25 0.265 0.259 0.527 20.45 9.96 0.513 33.44 -0.388 0.258 0.256 0.517 PT 5.00 5.00 5.00 5.00 8.00 5.00 341.84 157.04 635.00 0.153 0.441 0.279 342.32 158.47 0.537 651.00 -0.474 0.169 0.433 0.320 Mean 5.00 5.01 5.00 5.00 5.81 5.00 0.314 0.414 0.527 0.286 -0.412 0.347 0.450 0.654 120 [...]... được cao thì ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong FRBS phải được xác định dựa trên ngữ nghĩa vốn có của nó trong tự nhiên Vì vậy ngữ nghĩa tính toán của từ là yếu tố quan trọng để đảm bảo tính giải nghĩa được của FRBS Do đó cần phải tìm kiếm một hướng tiếp cận mới cho vấn đề tính giải nghĩa được của FRBS mà ở đó ngữ nghĩa tính toán của từ được xác định dựa trên ngữ nghĩa vốn có của nó 3 bằng... giải quyết vấn đề tính giải nghĩa được của LRBS dựa trên ĐSGT Đề xuất các ràng buộc trên LFoC, như ràng buộc ngữ nghĩa của từ, ràng buộc phương pháp xác định ngữ nghĩa tính toán của từ, ràng buộc trên ngữ nghĩa khoảng của từ và ràng buộc ngữ nghĩa thứ tự của từ Cũng trong chương này, luận án đề xuất phương pháp thiết kế ngữ nghĩa tính toán dạng cấu trúc đa thể hạt cho từ ngôn ngữ của LFoC, thỏa mãn... của từ ngôn ngữ được xác định dựa trên ĐSGT và mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp (bao gồm các yếu tố: số luật, độ dài luật, số từ ngôn ngữ sử dụng trên mỗi biến) 2) Nghiên cứu tìm kiếm một hướng tiếp cận mới về tính giải nghĩa được của LRBS dựa trên ĐSGT và đề xuất một số ràng buộc theo hướng tiếp cận này 3) Đề xuất phương pháp biểu diễn ngữ nghĩa tính toán của. .. thiết kế ngữ nghĩa tính toán của từ dựa trên ĐSGT tử mang một số lợi ích so với pháp dựa trên tập mờ Tuy nhiên nghĩa tính toán của từ lại không bảo toàn được tính khái quát và tính đặc tả của từ, đây là một tính chất quan trọng của từ ngôn ngữ Vì vậy, chúng ta cần phải tìm kiếm một phương pháp thiết kế mới bảo toàn được những tính chất này Vấn đề sinh luật ứng cử, các phương pháp tiếp cận dựa trên lý... Vấn đề xây dựng FRBS, hiện tại rất nhiều nghiên cứu tập trung tìm kiếm các phương pháp xây dựng FRBS cho bài toán phân lớp, tuy nhiên bài toán hồi quy chưa có nhiều nghiên cứu Các phương pháp xây dựng FRBS phải giải quyết ba vấn đề chính: thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ) , sinh tập các luật mờ ứng cử, tìm kiếm hệ luật mờ tối ưu Hướng tiếp cận dựa trên lý thuyết tập mờ thường sử dụng. .. tính toán của từ Tập mờ được xây dựng dựa trên ngữ nghĩa định lượng được xác định bằng ĐSGT Vì vậy, việc điều chỉnh ngữ nghĩa tính toán của từ ngôn ngữ được thực hiện rất dễ dàng chỉ bằng việc điều chỉnh các tham số tính mờ của ĐSGT Do đó, không gian tìm kiếm giảm đi nhiều và nó không phụ thuộc vào số từ sử dụng cho mỗi biến Các từ ngôn ngữ sử dụng trong FRBS là từ ngôn ngữ tự nhiên, khi đó chúng tôi... (SQM), hệ khoảng tương tự Trình bày tóm tắt về hệ mờ dựa trên luật ngôn ngữ và bàn luận về tính giải nghĩa được của nó Chương 2 phát triển 3 thuật toán theo hướng tiếp cận dựa trên ĐSGT xây dựng các LRBS giải bài toán phân lớp, bài toán hồi quy, trong đó mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp Các thuật toán này thực hiện học đồng thời tham số tập mờ, số tập từ ngôn ngữ. .. nghĩa tính toán của tập các từ ngôn ngữ bảo toàn được những tính chất quan trọng của từ ngôn ngữ, chẳng hạn như ngữ nghĩa thứ tự, tính khái quát và tính đặc tả 4) Phát triển thuật toán tiến hóa xây dựng LRBS giải các bài toán hồi quy, trong đó ngữ nghĩa tính toán của từ ngôn ngữ được xác định theo 6 phương pháp biểu diễn mới và mục tiêu tính giải nghĩa được của LRBS được định nghĩa theo hướng tiếp cận... trị ngôn ngữ trong T(𝔛) tương ứng với một tập mờ trên U Dựa trên nền tảng lý thuyết tập mờ và khái niệm biến ngôn ngữ, lý thuyết lập luận xấp xỉ đã được phát triển nhằm mô phỏng quá trình suy luận của con người Trong đó mô hình hệ mờ dựa trên luật được nghiên cứu và ứng dụng rộng rãi hơn cả 1.1.4 Phân hoạch mờ Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xác định của các biến ngôn ngữ. .. định nghĩa này, đã được chứng minh nó thỏa mãn các yêu cầu của một hàm định lượng ngữ nghĩa và đảm bảo tính trù mật của nó đối với các hạng từ của AX* trong đoạn [0, 1] 1.2.5 Khoảng tính mờ Khoảng tính mờ (fuzziness interval) của các khái niệm mờ là một khái niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các mô hình ứng dụng Trong ĐSGT, dựa trên độ đo tính mờ fm, chúng ta sẽ định nghĩa ... đề thiết kế ngôn ngữ sử dụng LRBS cho tập liệu, tập mờ dạng biểu diễn ngữ nghĩa tính toán từ xây dựng dựa ngữ nghĩa định lượng từ Vì vậy, việc điều chỉnh ngữ nghĩa tính toán từ ngôn ngữ cho phù... ngữ, biến mà giá trị từ ngôn ngữ, ngữ nghĩa từ biểu diễn tập mờ Vì vậy, từ biến ngôn ngữ vốn không tính toán trở thành đối tượng toán học hoàn toàn tính toán Dựa lý thuyết tập mờ, hệ mờ dựa luật. .. chế nghiên cứu đề xuất: 1) Phát triển thuật toán xây dựng LRBS giải toán phân lớp, toán hồi quy ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT mục tiêu tính giải nghĩa LRBS định nghĩa dựa