1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Toán học: Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật

131 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật
Tác giả Hoàng Văn Thông
Người hướng dẫn PGS.TSKH. Nguyễn Cát Hồ, PGS.TS. Nguyễn Văn Long
Trường học Học viện Khoa học và Công nghệ
Chuyên ngành Toán học
Thể loại Luận án tiến sĩ
Năm xuất bản 2016
Thành phố Hà Nội
Định dạng
Số trang 131
Dung lượng 1,92 MB

Nội dung

vi DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT Các ký hiệu: AX Đại số gia tử tuyến tính h Độ đo tính mờ của gia tử h ?? Hàm định lượng ngữ nghĩa của từ ngôn ngữ của biến ? A x Hàm xác định

Trang 1

1

49

r

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ

CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

HOÀNG VĂN THÔNG

NGHIÊN CỨU NGỮ NGHĨA TÍNH TOÁN

XÂY DỰNG HỆ MỜ TỐI ƯU DỰA TRÊN LUẬT

Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC

Mã số: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TSKH NGUYỄN CÁT HỒ

2 PGS.TS NGUYỄN VĂN LONG

HÀ NỘI - 2016

Trang 2

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Tác giả

Hoàng Văn Thông

Trang 3

ii

LỜI CẢM ƠN

Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS.TSKH Nguyễn Cát Hồ và PGS.TS Nguyễn Văn Long Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết ơn sâu sắc nhất tới hai thầy

Tác giả xin gửi lời cảm ơn chân thành đến Ban lãnh đạo Học viện Khoa học

và Công nghệ, Viện Công nghệ thông tin, Khoa công nghệ thông tin và truyền thông, Phòng Các hệ chuyên gia và tính toán mềm đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án

Xin cảm ơn Ban giám hiệu Trường Đại học Giao thông Vận tải, Ban chủ nhiệm khoa Công nghệ thông, Bộ môn Khoa học máy tính đã quan tâm giúp đỡ, tạo điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu Cảm ơn các anh chị Phòng Các hệ chuyên gia và tính toán mềm - Viện Công nghệ thông tin, các đồng nghiệp thuộc Khoa Công nghệ thông tin – Trường Đại học Giao thông Vận tải, các anh chị trong nhóm nghiên cứu đại số gia tử đã khích

lệ, động viên, trao đổi những kiến thức và kinh nghiệm trong quá trình hoàn thành luận án

Cuối cùng, tác giả xin chân thành cảm ơn Bố mẹ, các anh chị em đặc biệt là

vợ và các con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu Luận án này là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên trong gia đình

Trang 4

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC BẢNG BIỂU viii

DANH MỤC CÁC HÌNH VẼ x

MỞ ĐẦU 1

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 9

1.1 Một số kiến thức cơ bản về lý thuyết tập mờ 9

1.1.1 Định nghĩa tập mờ 9

1.1.2 Xây dựng hàm thuộc 10

1.1.3 Biến ngôn ngữ 10

1.1.4 Phân hoạch mờ 11

1.2 Một số kiến thức về đại số gia tử 12

1.2.1 Khái niệm đại số gia tử 13

1.2.2 Một số tính chất của đại số gia tử tuyến tính 14

1.2.3 Độ đo tính mờ của các giá trị ngôn ngữ 14

1.2.4 Định lượng ngữ nghĩa của giá trị ngôn ngữ 16

1.2.5 Khoảng tính mờ 18

1.2.6 Hệ khoảng tương tự 19

1.3 Hệ mờ dựa trên luật 20

1.3.1 Các thành phần của hệ mờ 20

1.3.2 Các mục tiêu khi xây dựng FRBS 23

Trang 5

iv

1.4 Kết luận chương 1 26

CHƯƠNG 2 PHÁT TRIỂN CÁC THUẬT TOÁN XÂY DỰNG CÁC LRBS GIẢI BÀI TOÁN PHÂN LỚP, HỒI QUY 28

2.1 Phát triển thuật toán giải bài toán phân lớp 28

2.1.1 Bài toán phân lớp và các phương pháp giải 28

2.1.2 Thuật toán OPHA-SGERD 32

2.1.3 Kết quả thử nghiệm 43

2.2 Phát triển thuật toán giải bài toán hồi quy 47

2.2.1 Bài toán hồi quy và phương pháp giải 47

2.2.2 Thuật toán HA-PAES-SG 50

2.2.3 Thuật toán HA-PAES-MG 65

2.3 Kết luận chương 2 71

CHƯƠNG 3 TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NGỮ NGHĨA TÍNH TOÁN CỦA CHÚNG 74

3.1 Vấn đề tính giải nghĩa được của FRBS 74

3.2 Khái niệm khung nhận thức và khung nhận thức ngôn ngữ 75

3.2.1 Khung nhận thức và tính giải nghĩa được của nó 75

3.2.2 Khung nhận thức ngôn ngữ 77

3.3 Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC 80

3.3.1 Ràng buộc ngữ nghĩa vốn có của từ 80

3.3.2 Ràng buộc phương pháp xác định ngữ nghĩa tính toán của từ 82

3.3.3 Ràng buộc ngữ nghĩa khoảng của từ 83

3.3.4 Ràng buộc ngữ nghĩa thứ tự của từ 85

3.4 Biểu diễn ngữ nghĩa tính toán dựa trên tập mờ của các từ trong LFoC 87

Trang 6

v

3.4.1 Biểu diễn đơn thể hạt của LFoC 88

3.4.2 Biểu diễn đa thể hạt của LFoC 91

3.5 Phát triển thuật toán xây dựng LRBS giải bài toán hồi quy 97

3.5.1 Thiết kế ngữ nghĩa tính toán (phân hoạch mờ) 97

3.5.2 Mã hóa các cá thể 98

3.5.3 Thuật toán tiến hóa 99

3.5.4 Kết quả thử nghiệm 99

3.6 Kết luận chương 3 105

KẾT LUẬN CỦA LUẬN ÁN 107

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ 111

LIÊN QUAN ĐẾN LUẬN ÁN 111

TÀI LIỆU THAM KHẢO 112

PHỤ LỤC 118

Trang 7

vi

DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT

Các ký hiệu:

AX Đại số gia tử tuyến tính

(h) Độ đo tính mờ của gia tử h

𝔳𝔛 Hàm định lượng ngữ nghĩa của từ ngôn ngữ của biến 𝔛

A (x) Hàm xác định độ thuộc của giá trị x vào tập mờ A

fm Khoảng tính mờ của giá trị ngôn ngữ

X k Tập các hạng từ có độ dài đúng bằng k

X (k) Tập tất cả các hạng từ có độ dài  k

I k Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ

I (k) Hệ khoảng tính mờ từ mức 1 đến mức k của các giá trị ngôn

ngữ

Các từ viết tắt:

ĐSGT Đại số gia tử

FoC Frame of Cognition

FRBS Fuzzy Rule-based System

FRB Fuzzy Rule Base

Trang 8

LRBS Linguistic Rule-based System

LRB Linguistic Rule Base

LFoC Linguistic Frame of Cognition

MF Membership Function

M-PAES Modify-Pareto Archive Evolution Strategy

PAES Pareto Archive Evolution Strategy

PAES(I) Pareto Archive Evolution Strategy (Interpretability)

PAES(C) Pareto Archive Evolution Strategy (Complexity)

PSO Particle Swarm Optimization

SGERD Steady-State Genetic Algorithm for Extracting Fuzzy

Classification Rules From Data SPEA Strength Pareto Evolutionary Algorithm

SQM Semantically Quantifying Mapping

Trang 9

viii

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1 Các tập dữ liệu dùng để thử nghiệm 45

Bảng 2.2 Các giá trị của Nrmax trong quá trình tối ưu hệ luật 45

Bảng 2.3 So sánh kết quả thử nghiệm thuật toán OPHA-SGERD và thuật toán

SGERD với tiêu chuẩn (2.3) 45

Bảng 2.4 So sánh kết quả thử nghiệm thuật toán OPHA-SGERD và thuật toán

SGERD với tiêu chuẩn (2.4) 45

Bảng 2.5 So sánh kết quả thử nghiệm thuật toán OPHA-SGERD với tiêu chuẩn

(2.5) và thuật toán SGERD với tiêu chuẩn (2.4) 46

Bảng 2.6 So sánh kết quả thử nghiệm thuật toán OPHA-SGERD với ba tiểu chuẩn

(2.3), (2.4), (2.5) 46

Bảng 2.7 Các tập dữ liệu được sử dụng thử nghiệm trong [14] 62 Bảng 2.8 Các tham số thử nghiệm 62 Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán

(2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST 63

Bảng 2.10 Các tập dữ liệu được sử dụng thử nghiệm trong [10] 68 Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES-SG

(SG) và PAESKB (KB) tại điểm FIRST 69

Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm định

giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 71Bảng 2.13 So sánh sai số bình phương trung bình trên tập kiểm tra (MSEts) bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 71

Bảng 3.1 Các giá trị 𝖛𝖃 của các từ của X(2) 89

Bảng 3.2 Kết quả trung bình đạt được bởi HA-PAES-MG-K max

HA-PAES-SG-K max tại điểm FIRST 100 Bảng 3.3 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm định

giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 101

Trang 10

ix

Bảng 3.4 So sánh MSEts trên tập kiểm tra bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 101

Bảng 3.5 Kết quả trung bình đạt được bởi HA-PAES-MG-Kmax (Kmax),

HA-PAES-MG-Kopt (Kopt) và PAESKB (KB) tại điểm FIRST 103

Bảng 3.6 So sánh độ phức tạp của hệ luật (Comp) bằng phương pháp kiểm định

giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 105

Bảng 3.7 So sánh MSEts trên tập kiểm tra bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 105

Bảng A.1 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán (2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm MEDIAN 118 Bảng A.2 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán (2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm LAST 118 Bảng A.3 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES-SG

(SG) và PAESKB (KB) tại điểm MEDIAN 119

Bảng A.4 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HAPAES-SG

(SG) và PAESKB (KB) tại điểm LAST 119

Bảng A.5 Kết quả trung bình đạt được bởi HA-PAES-MG-K max

HA-PAES-SG-K max tại điểm MEDIAN 119

Bảng A.6 Kết quả trung bình đạt được bởi HA-PAES-MG-K max

HA-PAES-SG-K max tại điểm LAST 120

Bảng A.7 Kết quả trung bình đạt được bởi HA-PAES-MG-Kmax (Kmax),

HA-PAES-MG-Kopt (Kopt) và PAESKB (KB) tại điểm MEDIAN 120

Bảng A.8 Kết quả trung bình đạt được bởi HA-PAES-MG-Kmax (Kmax),

HA-PAES-MG-Kopt (Kopt) và PAESKB (KB) tại điểm LAST 120

Trang 11

x

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Một hàm thuộc dạng hình thang của tập mờ A 10

Hình 1.2 Một cấu trúc phân hoạch mờ dạng đơn thể hạt 12

Hình 1.3 Một cấu trúc phân hoạch mờ dạng đa thể hạt 12

Hình 1.4 Độ đo tính mờ của biến TRUTH 16

Hình 1.5 Khoảng tính mờ của các hạng từ của biến TRUTH 19

Hình 1.6 Minh họa hệ khoảng tương tự mức 2 19

Hình 1.7 Phân hoạch mờ đều và phân hoạch mờ sau khi điều chỉnh tập mờ 26

Hình 2.1 Một phân hoạch mờ đơn thể hạt được xây dựng dựa trên ĐSGT 33

Hình 2.2 Mô tả không gian quyết định và không gian phủ của luật 34

Hình 2.3 Cấu trúc mã hóa một cá thể 55

Hình 2.4 Mặt xấp xỉ tối ưu Pareto trung bình theo độ chính xác MSE và độ phức tạp Comp 64

Hình 2.5 Một thiết kế phân hoạch mờ đa thể hạt được đề xuất trong [50] với độ dài tối đa của từ là 2 66

Hình 2.6 Một thiết kế phân hoạch mờ đa thể hạt được đề xuất mới với độ dài tối đa của từ là 2 66

Hình 3.1 Một phương pháp gán ngữ nghĩa của khung nhận thức 76

Hình 3.2 Một biểu diễn đơn thể hạt của LFoC được tạo thành từ tập từ X(2) của một thuộc tính của bài toán ELE2 được xây dựng từ các giá trị tham số tính mờ (L)=0.4020657, fm(c) = 0.6768686 89

Hình 3.3 Một biểu diễn đa thể hạt của LFoC được tạo thành từ tập từ X(2) của một thuộc tính của bài toán ELE2 được xây dựng từ các giá trị tham số tính mờ (L)=0.4020657, fm(c) =0.6768686 93

Hình 3.4 Cấu trúc mã hóa một cá thể 99

Hình 3.5 Đồ thị biểu diễn ba điểm đại diện FIRST, MEDIAN và LAST của mặt Pareto trung bình 104

Trang 12

1

MỞ ĐẦU

Chúng ta biết rằng con người nhận biết thế giới thực, giao tiếp với nhau,

tư duy lập luận để làm các quyết định dựa trên công cụ nền tảng là ngôn ngữ tự nhiên và cơ sở tri thức được biểu diễn dưới dạng mệnh đề ngôn ngữ Các mệnh

đề này được hình thành trong quá trình tồn tại và phát triển của con người Lịch

sử phát triển của xã hội loài người cho thấy, ngôn ngữ của con người là một công cụ đủ để nhận biết thế giới thực, làm quyết định và giải quyết hiệu quả các vấn đề phát sinh trong cuộc sống hàng ngày Do thế giới thực là vô hạn trong khi ngôn ngữ tự nhiên của con người lại hữu hạn, vì vậy các từ ngôn ngữ

mà con người dùng để nhận thức thế giới thực thường có ngữ nghĩa mờ, không chắc chắn và có tính mơ hồ

Trong khoảng ba thập niên trở lại đây khoa học và công nghệ phát triển rất mạnh mẽ, đã sản sinh ra nhiều thiết bị máy móc hỗ trợ cho con người trong mọi lĩnh vực của cuộc sống Trong một số lĩnh vực, chúng ta mong muốn máy móc có thể hành xử như con người, thay thế con người làm những công việc đòi hỏi phải có khả năng lập luận hoặc đưa ra những gợi ý tin cậy hỗ trợ cho con người trong quá trình làm quyết định Một đặc trưng nổi bật của con người

là khả năng suy luận trên cơ sở tri thức được hình thành từ cuộc sống và biểu thị bằng ngôn ngữ tự nhiên Do đó, để máy móc có thể hành xử như con người thì nó phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ Đây

là một vấn đề rất phức tạp, vì vậy để giải quyết yêu cầu này các nhà khoa học

đã và đang nghiên cứu cả về lý thuyết lẫn ứng dụng để đưa ra các phương pháp nhằm mô phỏng khả năng lập luận của con người trên các thiết bị máy móc Do

đặc trưng của ngôn ngữ là ngữ nghĩa và nó mang tính mờ, vì vậy nhiệm vụ đầu

tiên cần phải giải quyết đó là làm thế nào để hình thức hóa toán học các vấn đề ngữ nghĩa và xử lý ngữ nghĩa ngôn ngữ mà con người thao tác trong cuộc sống Trước những yêu cầu đặt ra đó, năm 1965 Lotfi A Zadeh là người đầu tiên đặt nền móng trong lĩnh vực này trong [63] Zadeh đã đưa ra khái niệm

tập mờ, ý tưởng của ông là giả thiết U là một tập các phần tử, một tập mờ A trong U được biểu diễn bằng một hàm từ tập U vào đoạn [0, 1] biểu thị cấp độ thuộc của phần tử trong U vào tập A và hàm này còn gọi là tập mờ trên U Trong

Trang 13

2

[64] Zadeh đưa ra khái niệm biến ngôn ngữ, là biến mà giá trị của nó là các từ ngôn ngữ, và ngữ nghĩa của mỗi từ được biểu diễn bằng một tập mờ Vì vậy, các từ của biến ngôn ngữ vốn không tính toán được trở thành một đối tượng toán học hoàn toàn có thể tính toán được Dựa trên lý thuyết tập mờ, hệ mờ dựa trên luật (Fuzzy Rule Based System - FRBS) đã được phát triển và trở thành một trong những công cụ mô phỏng gần gũi phương pháp suy luận và làm quyết định của con người nhất FRBS đã gặt hái được nhiều thành công trong giải quyết các bài toán thực tiễn như bài toán điều khiển của Mamdani [38], Oliveira [53, 54], Vukadinović [60], Wang [61]; bài toán phân lớp Nguyễn Cát Hồ [2-4], Dương Thăng Long [6, 7], Cordón [17, 18], Fazzolari [23], Fernandez [24], Gacto [25], García [27], Ishibuchi [28-34], López [37], Mansoori [39], Nauck [44], Nguyễn Cát Hồ [[50, 52], Pulkkinen [55], Trawinski [59]; bài toán hồi quy của Alcalá [8-10], Antonelli [12-15], Cococcioni [16], Márquez [40], Pulkkinen [56], Rodríguez-Fdez [57]

FRBS được phát triển trên nền tảng lý thuyết tập mờ và logic mờ, với thành phần cơ bản là các luật mờ dạng if-then là một trong những phương tiện khá tốt mô phỏng khả năng lập luận của con người trong giải quyết các vấn đề phức tạp với những thông tin không chắc chắn, có tính mơ hồ Các FRBS thường được xây dựng tự động từ các sự kiện trong thế giới thực hoặc trên cơ

sở tri thức của các chuyên gia, hoặc kết hợp cả hai phương pháp

Khi xây dựng các FRBS, chúng ta cần đạt được hai mục tiêu là độ chính

xác (accuracy) và tính giải nghĩa được (interpretability) Đây là hai mục tiêu

xung đột nhau, làm tăng mục tiêu này thì phải giảm mục tiêu kia Vì vậy, khi xây dựng các FRBS các phương pháp được đề xuất luôn phải hướng tới đảm

bảo sự cân bằng (tradeoff) giữa hai mục tiêu này Trong những năm đầu ứng

dụng FRBS, người ta chủ yếu quan tâm đến độ chính xác Mục tiêu tính giải nghĩa được của FRBS được quan tâm nhiều hơn khi FRBS được ứng dụng vào các lĩnh vực mà ở đó con người làm trung tâm (human-centric), ví dụ: y tế, tâm

lý học, kinh tế, ngôn ngữ học [42] Trong những lĩnh vực này các FRBS được xem như là các hộp xám (gray-boxes) Và ở đây đặt ra yêu cầu là các FRBS khi được ứng dụng vào thực tế thì người dùng có thể kiểm tra và hiểu được tất cả các thành phần của nó [11] Vì vậy, trong những năm gần đây vấn đề tính giải

Trang 14

3

nghĩa được của FRBS trở thành một chủ đề “nóng” được nhiều nhà khoa học

tập trung nghiên cứu Ví dụ như Alonso và cộng sự [11], Antonelli và các cộng

sự [14], Cordon và các cộng sự [19], Gacto và cộng sự [26], Ishibuchi và Nojima [33], Mencar và các cộng sự [41, 42], Nauck [44], de Oliveira [54], Pulkkinen và Koivisto [56], Zhou và Gan [67]

Tính giải nghĩa được của FRBS liên quan đến nhiều yếu tố khác nhau, hiện tại chúng ta vẫn chưa có một tiêu chuẩn toán học để mô tả chính xác, và còn nhiều quan điểm khác nhau, ngay cả các thuật ngữ để chỉ tính giải nghĩa được cũng chưa thống nhất Ví dụ như: tính dễ hiểu (intelligibility), tính trong suốt (transparency), tính dễ đọc (readability), …, các thuật ngữ này được sử dụng đồng nghĩa và thay thế cho nhau [19] Trong [26] Gacto cho rằng hiện tại

có hai hướng tiếp cận chính về tính giải nghĩa được của FRBS Hướng thứ nhất

dựa trên độ phức tạp (Complexity-based Interpretability), hướng này tập trung

vào việc làm giảm độ phức tạp của FRBS, thường sử dụng các độ đo như: số luật, số biến, độ dài của luật, số từ sử dụng cho một biến,… càng ít càng tốt Hướng thứ hai dựa trên ngữ nghĩa (Semantics-based Interpretability), hướng này tập trung vào đảm bảo tính toàn vẹn ngữ nghĩa của các nhãn ngôn ngữ, được biểu diễn bằng các tập mờ và ngữ nghĩa của luật Theo các hướng tiếp cận này, để đánh giá tính giải nghĩa được của FRBS một số nghiên cứu dựa trên lý thuyết tập mờ đã đề xuất các ràng buộc tính giải nghĩa được của FRBS như Gacto [26], Mencar [41, 42] Các FRBS thỏa mãn càng nhiều ràng buộc thì tính giải nghĩa được càng cao, hoặc phát triển các chỉ số đánh giá tính giải nghĩa được của FRBS được kết hợp từ một số yếu tố liên quan Alonso [11], Antonelli [14], Nauck [44], Oliveira [53] Theo hướng tiếp cận tập mờ thiếu một phương pháp hình thức đầy đủ để xác định ngữ nghĩa tính toán của từ với ngữ nghĩa vốn của nó Do đó các nghiên cứu này phải đưa ra nhiều ràng buộc (trong [41] Mencar đưa ra 37 ràng buộc), và các ràng buộc này đều dựa trên trực quan của người thiết kế Theo chúng tôi một FRBS giải nghĩa được cao thì ngữ nghĩa tính toán của từ ngôn ngữ sử dụng trong FRBS phải được xác định dựa trên ngữ nghĩa vốn có của nó trong tự nhiên Vì vậy ngữ nghĩa tính toán của từ là yếu tố

quan trọng để đảm bảo tính giải nghĩa được của FRBS Do đó cần phải tìm

kiếm một hướng tiếp cận mới cho vấn đề tính giải nghĩa được của FRBS mà ở

đó ngữ nghĩa tính toán của từ được xác định dựa trên ngữ nghĩa vốn có của nó

Trang 15

4

bằng một phương pháp hình thức đầy đủ

Vấn đề xây dựng FRBS, hiện tại rất nhiều nghiên cứu tập trung tìm kiếm các phương pháp xây dựng FRBS cho bài toán phân lớp, tuy nhiên bài toán hồi quy chưa có nhiều nghiên cứu Các phương pháp xây dựng FRBS phải giải

quyết ba vấn đề chính: thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ),

sinh tập các luật mờ ứng cử, tìm kiếm hệ luật mờ tối ưu

Hướng tiếp cận dựa trên lý thuyết tập mờ thường sử dụng các phân hoạch

mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miền tham chiếu của biến như trong Cordón [17, 18], Fazzolari [23], Ishibuchi [28-34], Mansoori [39], Trawinski [59] Việc sử dụng cùng một phân hoạch mờ với các tập mờ cố định trước cho các tập dữ liệu khác nhau là không phù hợp với thực

tế, nó làm giảm tính chính xác của hệ luật Vì trong thực tế ngữ nghĩa của các

từ phụ thuộc vào từng ngữ cảnh, tức là phụ thuộc vào từng tập dữ liệu cụ thể

Vì vậy, một yêu cầu tự nhiên là phải phát triển các thuật toán cho phép điều chỉnh ngữ nghĩa tính toán của từ (tập mờ), chẳng hạn như trong Acalá [10], Antonelli [13, 14], Cordón [17], Gacto [25], Nauck [44], Pulkkinen [55] Hướng tiếp cận dựa trên tập mờ thiếu một phương pháp hình thức toán học đầy

đủ để xác định ngữ nghĩa tính toán của từ từ ngữ nghĩa vốn có của chúng, vì vậy để thực hiện điều chỉnh các tập mờ thì thuật toán phải tìm kiếm trong không

gian rất lớn Chẳng hạn với bài toán có n chiều và sử dụng T từ ngôn ngữ cho

mỗi biến, trong [10] Acalá sử dụng bộ 2 (2-tuples) để biểu diễn các tập mờ thì

không gian tìm kiếm tham số là T*(n+1) chiều, (3T5) Trong [14] Antonelli

sử dụng hàm tuyến đổi tuyến từng khúc (piecewise linear transformation) để thực hiện điều chỉnh tham số, khi đó không gian tìm kiếm là (T-2)(n+1) chiều,

(5T7) Trong [56] Pulkkinen biểu diễn tập mờ bằng bộ 3 tham số khi đó không gian tìm kiếm tham số là 3Tn chiều (2T4) Để giảm không gian tìm kiếm, các phương pháp dựa trên lý thuyết tập mờ phải đưa ra một số ràng buộc trên tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp

Chẳng hạn như yêu cầu giới hạn số tập mờ có thể sử dụng T trên mỗi biến

không quá 72 Miller [43] Theo chúng tôi, giới hạn này là không phù hợp, vì trên mỗi biến con người có thể sử dụng nhiều từ ngôn ngữ hơn giới hạn này (khẳng định này được chứng tỏ trong chương 3) Và, với phương pháp thiết kế

Trang 16

5

phân hoạch như vậy thì các từ ngôn ngữ sử dụng trong FRBS chỉ là các nhãn ngôn ngữ Để khắc phục nhược điểm này Nguyễn Cát Hồ và các cộng sự trong [2-4, 50, 52] đã ứng dụng ĐSGT để sinh từ ngôn ngữ, ở đây xem tập mờ chỉ là một phương pháp biểu diễn ngữ nghĩa tính toán của từ Tập mờ được xây dựng dựa trên ngữ nghĩa định lượng được xác định bằng ĐSGT Vì vậy, việc điều chỉnh ngữ nghĩa tính toán của từ ngôn ngữ được thực hiện rất dễ dàng chỉ bằng việc điều chỉnh các tham số tính mờ của ĐSGT Do đó, không gian tìm kiếm giảm đi nhiều và nó không phụ thuộc vào số từ sử dụng cho mỗi biến Các từ ngôn ngữ sử dụng trong FRBS là từ ngôn ngữ tự nhiên, khi đó chúng tôi gọi là

LRBS thay vì FRBS Mặc dù phương pháp thiết kế ngữ nghĩa tính toán của từ

dựa trên ĐSGT tử mang một số lợi ích so với pháp dựa trên tập mờ Tuy nhiên nghĩa tính toán của từ lại không bảo toàn được tính khái quát và tính đặc tả của

từ, đây là một tính chất quan trọng của từ ngôn ngữ Vì vậy, chúng ta cần phải tìm kiếm một phương pháp thiết kế mới bảo toàn được những tính chất này Vấn đề sinh luật ứng cử, các phương pháp tiếp cận dựa trên lý thuyết tập

mờ thường sinh luật bằng cách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến như trong Acalá [10], Antonelli [12-15], Cordón [17, 18], Fazzolari [23], Gacto [25], Ishibuchi [28-34], López [37] Nhược điểm của hướng tiếp cận này là khi tập dữ liệu có nhiều thuộc tính thì số luật sinh ra cỡ hàm mũ theo

số thuộc tính Một số đề xuất sinh luật từ cây quyết định (decision tree) như trong Pulkkinen [55, 56] Phương pháp này đã làm giảm đáng kể số luật phải xem xét nhờ vào các kỹ thuật cắt tỉa trên cây, nhưng nếu sử dụng kỹ thuật sinh luật này trong các thuật toán cho phép tối ưu tham số tập mờ thì độ phức tạp thuật toán sẽ rất cao vì mỗi lần điều chỉnh tham số tập mờ ta lại phải xây dựng lại cây quyết định Hướng tiếp cận theo lý thuyết ĐSGT, trong [2-4, 50, 52] Nguyễn Cát Hồ và cộng sự đề xuất một phương pháp sinh luật từ mẫu dữ liệu Theo đó, mỗi mẫu dữ liệu sinh ra một luật có độ dài bằng số thuộc tính của tập

mẫu dữ liệu (n), từ các luật này sinh các luật có độ dài nhỏ hơn n Với phương

pháp sinh luật ứng cử này thì số luật tối đa phải xem xét giảm đi đáng kể so với phương pháp sinh luật tổ hợp Đây là phương pháp sinh luật khá tốt, luận án áp dụng phương pháp sinh luật này để phát triển các thuật toán giải bài toán hồi quy

Trang 17

6

Vấn đề tìm kiếm FRBS tối ưu, đây là bài toán đa mục tiêu, do đó hầu hết các phương pháp đều sử dụng giải thuật tiến hóa để giải quyết vấn đề này như giải thuật GA, PAES, M-PAES, SPEA, SPEA2, NSGA-I, NSGA-2, SGERD, PSO,

Từ những phân tích ở trên chúng tôi nhận thấy rằng ứng dụng ĐSGT vào việc phát triển các thuật toán xây dựng LRBS giải bài toán phân lớp đã khắc phục được một số hạn chế của hướng tiếp cận dựa trên lý thuyết tập mờ Tuy nhiên, vẫn còn một số hạn chế như phương pháp thiết kế ngữ nghĩa tính toán được đề xuất không bảo toàn được tính khái quát và tính đặc tả của từ, phương pháp sinh luật cho bài toán phân lớp vẫn còn lớn Vì vậy, chúng ta cần nghiên cứu phát triển các thuật toán giải bài toán phân lớp hiệu quả hơn (chẳng han sinh ra số luật ứng cử ít hơn) Nghiên cứu ứng dụng ĐSGT vào giải các bài hồi quy, đây là bài toán phức tạp hơn nhiều bài toán phân lớp, hiện chưa có nghiên cứu nào ứng dụng ĐSGT để giải nó Bên cạnh đó, vấn đề tính giải nghĩa được của LRBS chưa được quan tâm nghiên cứu trong hướng tiếp cận này Do đó, luận án đặt ra mục tiêu là tập trung vào thực hiện các nội dung sau nhằm khắc phục một số hạn chế của các nghiên cứu đã được đề xuất:

1) Phát triển các thuật toán xây dựng LRBS giải bài toán phân lớp, bài toán hồi quy trong đó ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT và mục tiêu tính giải nghĩa được của LRBS được

định nghĩa dựa trên độ phức tạp (bao gồm các yếu tố: số luật, độ dài

luật, số từ ngôn ngữ sử dụng trên mỗi biến)

2) Nghiên cứu tìm kiếm một hướng tiếp cận mới về tính giải nghĩa được của LRBS dựa trên ĐSGT và đề xuất một số ràng buộc theo hướng tiếp cận này

3) Đề xuất phương pháp biểu diễn ngữ nghĩa tính toán của tập các từ ngôn ngữ bảo toàn được những tính chất quan trọng của từ ngôn ngữ, chẳng hạn như ngữ nghĩa thứ tự, tính khái quát và tính đặc tả

4) Phát triển thuật toán tiến hóa xây dựng LRBS giải các bài toán hồi quy, trong đó ngữ nghĩa tính toán của từ ngôn ngữ được xác định theo

Trang 18

1) Phát triển một thuật toán xây dựng LRBS giải bài toán phân lớp và hai thuật toán xây dựng LRBS giải bài toán hồi quy theo hướng tiếp cận dựa trên ĐSGT, trong đó mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp

2) Khởi tạo hướng tiếp cận mới cho vấn đề tính giải nghĩa được của LRBS theo hướng tiếp cận dựa trên ĐSGT, đề xuất 4 ràng buộc về tính giải nghĩa được ở mức phân hoạch mờ (hay là mức thấp) của các LRBS

3) Đưa ra định nghĩa khung nhận thức ngôn ngữ (LFoC) trên cơ sở định nghĩa khung nhận thức (FoC) và ĐSGT Đề xuất phương pháp thiết kế ngữ nghĩa tính toán của tập từ ngôn ngữ của LFoC dựa trên ngữ nghĩa vốn có của

từ được xác định bằng ĐSGT thỏa mãn các ràng buộc tính giải nghĩa được của LRBS được đề xuất trong luận án

4) Phát biểu các định lý khẳng định tính đúng đắn của phương pháp thiết

kế ngữ nghĩa tính toán và những ràng buộc mà nó thỏa mãn

5) Phát triển thuật toán xây dựng LRBS giải bài toán hồi quy theo hướng tiếp cận dựa trên ĐSGT, trong đó mục tiêu tính giải nghĩa được của LRBS được đánh giá dựa trên hướng tiếp cận mới Nghiên cứu thử nghiệm trên máy tính các thuật toán đã đề xuất, thực hiện đối sánh bằng phương pháp phân tích thống

kê các kết quả đạt được với các kết quả của các thuật toán được đề xuất gần đây theo hướng tiếp cận dựa trên lý thuyết tập mờ

Bố cục của luận án gồm: phần mở đầu, 3 chương, phần kết luận và tài

liệu tham khảo Kết quả chính của luận án tập trung ở chương 2 và 3 Cụ thể:

Chương 1 trình bày những kiến thức cơ sở cần thiết làm nền tảng trong

quá trình nghiên cứu và những đề xuất mới của luận án Các khái niệm của lý thuyết tập mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ Trình bày những nội dung cơ bản của lý thuyết ĐSGT như: khái

Trang 19

8

niệm ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa (SQM), hệ khoảng tương tự Trình bày tóm tắt về hệ mờ dựa trên luật ngôn ngữ và bàn luận về tính giải nghĩa được của nó

Chương 2 phát triển 3 thuật toán theo hướng tiếp cận dựa trên ĐSGT xây

dựng các LRBS giải bài toán phân lớp, bài toán hồi quy, trong đó mục tiêu tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp Các thuật toán này thực hiện học đồng thời tham số tập mờ, số tập từ ngôn ngữ sử dụng cho mỗi biến và RB Trong đó thuật toán OPHA-SGERD được phát triển dựa trên ĐSGT và thuật toán SGERD để giải bài toán phân lớp Kết quả thử nghiệm của thuật toán được tổng hợp và đối sánh với các kết quả thử nghiệm của thuật toán SGERD trong [39] của Mansoori Thuật toán HA-PAES-SG và HA-PAES-MG được phát triển dựa trện ĐSGT và lược đồ tiến hóa (2+2)M-PAES giải bài toán hồi quy Kết quả thử nghiệm của thuật toán được tổng hợp và đối sánh lần lượt với các kết quả thử nghiệm của các thuật toán trong [14] của Antonelli và trong [10] của Alcalá bằng phân tích thống kê với các phương pháp kiểm định giả thuyết t-test và Wilcoxon-test

Chương 3 bàn luận về vấn đề tính giải nghĩa được của FRBS, trình bày

định nghĩa khung nhận thức, phát biểu định nghĩa khung nhận thức ngôn ngữ (LFoC) Khởi tạo một hướng tiếp cận giải quyết vấn đề tính giải nghĩa được của LRBS dựa trên ĐSGT Đề xuất các ràng buộc trên LFoC, như ràng buộc ngữ nghĩa của từ, ràng buộc phương pháp xác định ngữ nghĩa tính toán của từ, ràng buộc trên ngữ nghĩa khoảng của từ và ràng buộc ngữ nghĩa thứ tự của từ Cũng trong chương này, luận án đề xuất phương pháp thiết kế ngữ nghĩa tính toán dạng cấu trúc đa thể hạt cho từ ngôn ngữ của LFoC, thỏa mãn những ràng buộc đã được đề xuất Phát biểu và chứng minh các định lý về tính đúng đắn

và sự thỏa mãn các ràng buộc của phương pháp thiết kế ngữ nghĩa tính toán

mới Phát triển thuật toán tiến hóa đa mục tiêu HA-PAES-MG-K max dựa trên ĐSGT và lược đồ tiến hóa (2+2)M-PAES để xây dựng các LRBS từ dữ liệu giải bài toán hồi quy, trong đó mục tiêu tính giải nghĩa được của LRBS được đánh giá theo hướng tiếp cận mới Trình bày các kết quả thử nghiệm trên máy tính, các kết quả này được tổng hợp và đối sánh với các kết quả thử nghiệm của

thuật toán HA-PAES-SG-Kmax, thuật toán HA-PAES-MG

(HA-PAES-MG-Kopt) được đề xuất trong chương 2 và thuật toán PAESKB của Alcalá trong [10] bằng phân tích thống kê với phương pháp kiểm định giả thuyết Wilcoxon-test

Trang 20

9

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

1.1 Một số kiến thức cơ bản về lý thuyết tập mờ

Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [63], Zadeh đã đưa

ra khái niệm tập mờ, ý tưởng của ông là: giả thiết U là một tập các phần tử, một tập mờ A trong U được biểu diễn bằng một hàm từ tập U vào đoạn [0, 1] biểu thị cấp độ thuộc của phần tử trong U vào tập A và hàm này còn gọi là tập mờ

trên U Khái niệm tập mờ là một mở rộng của khái niệm của tập cổ điển hay

tập rõ và mỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xét một phần tử có thuộc hay không thuộc về nó, với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong đoạn [0, 1]

1.1.1 Định nghĩa tập mờ

Định nghĩa 1.1: [63, 66] Cho U là một tập các điểm (đối tượng) với các

phần tử ký hiệu bởi x, U={x} Một tập mờ A trên U là một tập mà mỗi phần tử của nó là một cặp các giá trị ((x, A(x)), trong đó x U và A là ánh xạ:

Trong đó ánh xạ A được gọi là hàm thuộc (membership function) của tập

mờ A Tập U được gọi là cơ sở của tập mờ A, ký hiệuA   ( x , A( x )) : xU , hàm A (x) biểu thị cấp độ thuộc của phần tử x vào tập mờ A, nếu giá trị của

A(x) càng gần 1 thì cấp độ thuộc của x vào A cao hơn

Tập mờ là sự mở rộng của khái niệm tập rõ, khi A là một tập hợp kinh điển

hàm thuộc của A (x) chỉ nhận một trong hai giá trị 1 hoặc 0, tương ứng phần tử

x có thuộc hay không thuộc tập A

Ví dụ: Một tập mờ A của các số tự nhiên nhỏ hơn 5 với hàm thuộc A(x)

có dạng như hình 1.1 định nghĩa trên tập vũ trụ U sẽ gồm các phần tử sau:

A={(1, 1), (2, 1), (3, 0.8), (4, 0.6), (5, 0.4), (6, 0.2), (7, 0)}

Các số tự nhiên 1, 2, 3 và 4 có độ phụ thuộc như sau: A(1) = 1, A(2) = 1,

A(3) = 0.8, A(4) = 0.6, A(5) = 0.4, A(6) = 0.2, A(7) = 0

Trang 21

10

Hình 1.1 Một hàm thuộc dạng hình thang của tập mờ A 1.1.2 Xây dựng hàm thuộc

Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là

giá trị của nó phải biến thiên từ 0 đến 1 Trong các ứng dụng lý thuyết tập mờ

ta thường sử dụng một số dạng hàm thuộc dưới đây cho A

- Hàm thuộc dạng tam giác: 𝜇𝐴(𝑥) = max⁡(min(𝑥−𝑎

𝑏−𝑎,𝑐−𝑥

𝑐−𝑏) , 0), trong đó

a, b, c lần lượt là chân bên trái, đỉnh và chân bên phải của tam giác

- Hàm thuộc dạng hình thang: 𝜇𝐴(𝑥) = max⁡(min (𝑥−𝑎

𝑏−𝑎,𝑑−𝑥

𝑑 −𝑐, 1) , 0),

trong đó a, d lần lượt là là đỉnh dưới bên trái, bên phải, b, c lần lượt là đỉnh trên

bên trái, bên phải của hình thang

- Hàm thuộc Gauss:⁡𝜇𝐴(𝑥) = 𝑒−(𝑏−𝑥)22𝑐2 , trong đó c là độ rộng và b vị trí đỉnh

về chiều cao của con người, ta có thể xem đây là biến ngôn ngữ có tên gọi

Height và nó nhận các giá trị ngôn ngữ như “Very Short”, “Short”,

“Medium”,“High”,… Với mỗi giá trị này, ta gán cho nó một hàm thuộc Giả

sử, lấy giới hạn của chiều cao trong đoạn [0.5m, 2.5m] và giả sử rằng các giá

 A(x)

1

Trang 22

11

trị ngôn ngữ được sinh bởi một tập các quy tắc Khi đó, một cách hình thức, ta

có định nghĩa của biến ngôn ngữ như sau:

Định nghĩa 1.2: [7, 64, 66] Biến ngôn ngữ là một bộ gồm năm thành phần

(𝔛, T(𝔛), U, R, M), trong đó 𝔛 là tên biến, T(𝔛) là tập các giá trị ngôn ngữ của

biến 𝔛, U là không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tập T(𝔛), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(𝔛) tương ứng với một tập mờ trên U

Dựa trên nền tảng lý thuyết tập mờ và khái niệm biến ngôn ngữ, lý thuyết lập luận xấp xỉ đã được phát triển nhằm mô phỏng quá trình suy luận của con người Trong đó mô hình hệ mờ dựa trên luật được nghiên cứu và ứng dụng rộng rãi hơn cả

đó một tập T gồm m tập mờ A1, A2, , A m định nghĩa trên U (với hàm thuộc

tương ứng là A1, A2, , Am ) được gọi là một phân hoạch mờ của U nếu các

điều kiện sau thỏa mãn, k = 1, , m:

1) Ak (p k ) = 1 (p k thuộc về phần được gọi là lõi của A k);

Trang 23

Mỗi phân hoạch mờ theo định nghĩa 1.3 còn được gọi là một thể hạt

(granularity), một phân hoạch mờ gồm một thể hạt gọi là phần hoạch mờ đơn thể hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ đa thể hạt (multi granularity)

Hình 1.2 Một cấu trúc phân hoạch

mờ dạng đơn thể hạt

Hình 1.3 Một cấu trúc phân hoạch

mờ dạng đa thể hạt

1.2 Một số kiến thức về đại số gia tử

Lý thuyết và ứng dụng của tập mờ phát triển liên tục kể từ khi nó được ra đời, với mục đích phát triển một công cụ để thiết kế các mô hình mô phỏng khả năng lập luận của con người Nhưng bản thân lý thuyết tập mờ rất khó để mô phỏng hoàn chỉnh ngữ nghĩa và cấu trúc các miền ngôn ngữ mà con người vẫn

sử dụng như là một phương tiện chuyển tải thông tin để suy luận Vì vậy, kể từ khi lý thuyết tập mờ ra đời, vẫn chưa có một lý thuyết hình thức thống nhất dựa trên phương pháp tiên đề hoá cho logic mờ Zadeh Năm 1990, Nguyễn Cát Hồ

& W.Wechler trong [[45, 46] đã đề xuất phương pháp tiếp cận dựa trên cấu trúc

tự nhiên của miền giá trị của các biến ngôn ngữ Các tác giả đã chỉ ra rằng, những giá trị của biến ngôn ngữ trong thực tế về mặt ngữ nghĩa đều có thứ tự

nhất định, chúng ta hoàn toàn có thể cảm nhận được rằng, ‘chậm’ thì nhỏ hơn

Trang 24

13

‘nhanh’, hoặc ‘dài’ luôn lớn hơn ‘ngắn’ Xuất phát từ quan hệ ngữ nghĩa thứ

tự đó các tác giả đã xây dựng cấu trúc đại số gia tử Khi sử dụng, chúng ta chấp nhận giả thiết rằng miền giá trị của biến ngôn ngữ được xem như một đại số gia tử (Hedge Algebra - HA)

ĐSGT hình thành một phương pháp tiếp cận đại số tới ngữ nghĩa vốn có của các từ của bất kỳ một biến ngôn ngữ nào, và thiết lập một phương pháp hình thức đầy đủ và đúng đắn để liên kết ngữ nghĩa định lượng của các từ bao gồm cả ngữ nghĩa dựa trên tập mờ với ngữ nghĩa vốn có của chúng Phương pháp này được phát triển dựa trên một nền tảng toán học và logic tin cậy, trong

đó ngữ nghĩa vốn có của từ và tính mờ của nó được định nghĩa và được hình thức hóa bằng phương pháp tiên đề

1.2.1 Định nghĩa đại số gia tử

Định nghĩa 1.5 [49]: Một ĐSGT được ký hiệu là bộ 4 thành phần được

ký hiệu là AX = (X, G, H, ) trong đó G là tập các phần tử sinh, H là tập các gia

tử (hedge) còn “” là quan hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có

chứa các phần tử hằng 0, 1, W với ý nghĩa là phần tử bé nhất, phần tử lớn nhất

và phần tử trung hòa (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x X là

một hạng từ (term) trong ĐSGT

Tập H được chia thành hai tập con rời nhau, ký hiệu là H và H +, trong

đó H là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử sinh),

H + là tập các gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh)

Không mất tính tổng quát, ta luôn giả thiết rằng H - = {h-1 < h-2 < < h -q} và

H + = {h1 < h2 < < h p}

Khi tác động gia tử h H vào phần tử x X, thì thu được phần tử ký hiệu

ngôn ngữ x bằng cách áp dụng các gia tử trong H và viết x = h n …h1u, với h n,

Trang 25

14

ý rằng h n h1u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u

nếu x = h n h1u và h i h1u h i-1 h1u với i nguyên và i n Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm 1, ký hiệu l(x)

Ví dụ: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H

-= {Possible < Little} và H + = {More < Very} Khi đó Very FALSE < More

FALSE < FALSE <Possible FALSE < Little FALSE < TRUE < More TRUE < Very TRUE

1.2.2 Một số tính chất của đại số gia tử tuyến tính

Định lý 1.1: [49] Cho tập H- và H+ là các tập sắp thứ tự tuyến tính của

ĐSGT AX = (X, G, H, ) Khi đó ta có các khẳng định sau:

ii) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính

thì X cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u < v, và u, v là độc lập với

nhau, tức là u H(v) và v H(u), thì H(u) H(v)

Định lý dưới đây xem xét sự so sánh của hai hạng từ trong miền ngôn ngữ

của biến X

Định lý 1.2: [49] Cho x = h n …h1u và y = k m …k1u là hai biểu diễn chính

tắc của x và y đối với u Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho h j' = k j'

với mọi j' < j (ở đây nếu j = min {n, m} + 1 thì hoặc h j = I, h j là toán tử đơn vị

i) x < y khi và chỉ khi h j x j < k j x j , trong đó x j = h j-1 h1u

ii) x = y khi và chỉ khi m = n và h j x j = k j x j

iii) x và y là không so sánh được với nhau khi và chỉ khi h j x j và k j x j là không so sánh được với nhau

1.2.3 Độ đo tính mờ của các giá trị ngôn ngữ

Khái niệm độ đo tính mờ của giá trị ngôn ngữ là một khái niệm trừu tượng không dễ để xác định bằng trực giác và có nhiều phương pháp tiếp cận khác

Trang 26

15

nhau để xác định khái niệm này Trong lý thuyết tập mờ, các phương pháp tiếp cận chủ yếu dựa trên hình dạng của tập mờ Tuy nhiên, trong ĐSGT các tác giả

đã đưa ra một phương pháp xác định độ đo tính mờ một cách hợp lý: “tính mờ

của một hạng từ x được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng các gia tử” [49] Do đó, tập các hạng từ sinh ra từ x

bằng các gia tử sẽ thể hiện cho tính mờ của x và vì vậy, H(x) có thể sử dụng như là một mô hình biểu thị tính mờ của x và kích thước tập H(x) được xem

như độ đo tính mờ của x Ta có định nghĩa sau về độ đo tính mờ

Định nghĩa 1.6: [49] Cho AX *= (X, G, H, , , ) là một ĐSGT tuyến

tính đầy đủ Ánh xạ fm: X  [0, 1] được gọi là một độ đo tính mờ của các hạng

từ trong X nếu:

(i) fm là đầy đủ, tức là fm(c - ) + fm(c +) = 1 và hH fm(hu) = fm(u), uX;

(ii) fm(x) = 0, với các x thỏa H(x) = {x} và fm(0) = fm(W) = fm(1) = 0;

(iii) x, y X, h H, ký hiệu (h) =

) (

) ( )

(

) (

y fm

hy fm x

fm

hx

fm  , tỷ số này không

phụ thuộc vào x và y, và nó được gọi là độ đo tính mờ của các gia tử

Trong đó, điều kiện (i) thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến, (ii) thể hiện tính rõ của các hạng từ và (iii) có thể được chấp nhận vì chúng ta đã chấp nhận

giả thiết rằng các gia tử là độc lập với ngữ cảnh và vì vậy, khi áp dụng một gia

tử h lên các hạng từ thì hiệu quả tác động làm thay đổi ngữ nghĩa của các hạng

từ đó là như nhau Hình 1.4 minh họa rõ hơn cho khái niệm độ đo tính mờ của

biến ngôn ngữ TRUTH

Các tính chất của độ đo tính mờ của các hạng từ và gia tử được thể hiện qua mệnh đề sau:

Mệnh đề 1.1: [49] Với độ đo tính mờ fm và  đã được định nghĩa trong

q

jh j , p 

j h j

1  ( ) , với ,  > 0 và  +  = 1;

Trang 27

16

k X

x fm(x) 1, trong đó X k là tập các hạng từ có độ dài đúng k; (iv) fm(hx) = (h).fm(x), và xX, fm(x) = fm(x) = 0;

(v) Cho fm(c - ), fm(c +) và (h) với hH, khi đó với x = h n h1c, c {c -,

c + }, dễ dàng tính được độ đo tính mờ của x như sau: fm(x) = (h n) (h1)fm(c)

Hình 1.4 Độ đo tính mờ của biến TRUTH 1.2.4 Định lượng ngữ nghĩa của giá trị ngôn ngữ

Theo phương pháp tiếp cận của tập mờ, các giá trị định lượng của mỗi tập

mờ là giá trị khử mờ của hàm thuộc tương ứng Vì các giá trị ngôn ngữ có thứ

tự theo ngữ nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ với các giá trị nằm trong đoạn [0, 1], các giá trị tương ứng với các từ đảm bảo thứ tự này

Định nghĩa 1.7: [49] Cho AX*= (X, G, H, , , ) là một ĐSGT tuyến tính đầy đủ Ánh xạ 𝔳𝔛: X  [0,1] được gọi là một hàm định lượng ngữ nghĩa

của AX* nếu:

(i) 𝔳𝔛 là ánh xạ 1-1 từ tập X vào đoạn [0, 1] và bảo toàn thứ tự trên X, tức

là x, y X, x < y  𝔳𝔛(x) < 𝔳𝔛(y) và 𝔳𝔛(0) = 0, 𝔳𝔛(1) = 1

(ii) 𝔳𝔛 liên tục: x X, 𝔳𝔛(x) = infimum⁡𝔳𝔛(H(x)) và 𝔳𝔛(x) = supremum

𝔳𝔛(H(x))

Điều kiện (i) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng

nào, còn điều kiện (ii) đảm bảo tính trù mật của H(G) trong X Dựa trên những

Trang 28

17

ràng buộc này, các tác giả trong [49] đã xây dựng một phương pháp định lượng ngữ nghĩa của các hạng từ trong ĐSGT Trước hết chúng ta xét định nghĩa về dấu của các hạng từ như sau

Định nghĩa 1.8: [49] Một hàm dấu Sign: X  {-1, 0, 1} là một ánh xạ

được định nghĩa đệ qui như sau, trong đó h, h' H và c {c - , c +}:

(i1) Sign(c - ) = -1, Sign(c +) = 1;

(i2) Sign(hc) = -Sign(c) nếu h âm đối với c; Sign(hc) = Sign(c) nếu h dương đối với c;

(i3) Sign(h'hx) = -Sign(hx), nếu h'hx hx và h' âm đối với h; Sign(h'hx) =

(i4) Sign(h'hx) = 0, nếu h'hx = hx

Dựa trên định nghĩa hàm dấu, chúng ta có tiêu chuẩn để so sánh hx và x

Mệnh đề 1.2 [49] Với bất kỳ h và x, nếu Sign(hx) = 1 thì hx > x; nếu

Sign(hx) = -1 thì hx < x và nếu Sign(hx) = 0 thì hx = x

)

) ( ) ( ) ( ) ( ) ( )

(

j sign i

j sign i

x fm x j h x j h x

fm i h x

j h

với mọi j, –q j p và j  0, trong đó:

Trang 29

) ( ) (j h fm x Sign h j x h j fm x

Sign j j Sign

Khoảng tính mờ (fuzziness interval) của các khái niệm mờ là một khái

niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các mô hình

ứng dụng Trong ĐSGT, dựa trên độ đo tính mờ fm, chúng ta sẽ định nghĩa

khoảng tính mờ của các hạng từ Gọi Itv([0, 1]) là họ các đoạn con của đoạn [0, 1], ký hiệu || là độ dài của đoạn “”

Định nghĩa 1.10: [7] Khoảng tính mờ của các hạng từ x X, ký hiệu

fm(x), là một đoạn con của đoạn [0, 1], fm(x) Itv([0, 1]) Nếu nó có độ dài bằng độ đo tính mờ, |fm(x)| = fm(x), và được xác định bằng qui nạp theo độ dài của x như sau:

(i) Với độ dài của x bằng 1 (l(x) = 1), tức là x {c - , c +}, khi đó |fm(c -)| =

fm(c -), |fm(c + )| = fm(c +) và fm(c -) fm(c +);

(ii) Giả sử x có độ dài n (l(x) = n) và khoảng tính mờ fm(x) đã được định

nghĩa với |fm(x)| = fm(x) Khi đó tập các khoảng tính mờ {fm(h j x): -q j p

và j  0}  Itv([0,1]) được xây dựng sao cho nó là một phân hoạch của fm(x),

và thỏa mãn |fm(h j x)| = fm(h j x) và có thứ tự tuyến tính tương ứng với thứ tự

của tập {h -q x, h -q+1 x, , h p x}, tức là nếu h -q x > h -q+1 x > > h p x thì fm(h -q x) >

phân hoạch như vậy luôn tồn tại dựa vào tính chất i) trong Mệnh đề 1.1

Trang 30

19

Hình 1.5 Khoảng tính mờ của các hạng từ của biến TRUTH

Trường hợp độ dài của x bằng k, l(x) = k, ta ký hiệu k(x) thay cho fm(x), khi đó ta nói khoảng tính mờ của x có độ sâu k hay khoảng tính mờ mức k

1.2.6 Hệ khoảng tương tự

Một khía cạnh khác của ngữ nghĩa định lượng của các hạng từ là khái niệm

khoảng tương tự mức k, với k là một số dương xác chiều dài tối đa của các hạng Vấn đề đặt ra là cho một tập các hạng từ X (k) = {x X : |x| ≤ k } và hàm

định lượng 𝔳𝔛, làm thế nào có thể xây dựng một tập các khoảng tương tự {S(k)

: x ∈ X (k)} trên đoạn [0, 1] thỏa mãn:

(i) 𝔳𝔛(x) ∈ S(k) và các giá trị trong S(k) được xem là tương tự với 𝔳𝔛(x) ở cấp độ k

(ii) Chúng hình thành một phân hoạch trên [0, 1]

Chúng ta giả sử tập các gia tử |H − | = |H + | = 1 và H − = {L}, H + = {V} Ý tưởng xây dựng các khoảng mờ tương tự cấp độ k của các hạng từ trong X (k)

sử dụng ngữ nghĩa topo của họ các khoảng tính mờ của các từ trong X k+2

- Tính toán tập tất cả các khoảng tính mờ của các từ có độ dài k + 2, khi

được tập {ℑ(z): z  X (k + 2)} Thực hiện phân các khoảng mờ ℑ(z) vào các cụm

ℭ(x) với x X (k) theo nguyên tắc các khoảng tính mờ ℑ(z) được phân vào ℭ(x)

nếu có một đầu mút có giá trị trùng với 𝔳𝔛(x)

Hình 1.6 Minh họa hệ khoảng tương tự mức 2

Trang 31

20

- Các khoảng tương tự của các từ trong X (k) hình thành một phân hoạch

của U và 𝔳𝔛(x) ℭ(𝑥), đối với tất cả x  X (k) Các giá trị của tất cả các khoảng tương tự ℭ(𝑥) được coi như là tương tự với những khoảng khác và với giá trị SQM 𝔳𝔛(x) của x với một cấp độ k, k càng lớn cấp độ tương tự của các giá trị

trong mỗi khoảng tương tự càng cao

Hệ khoảng tượng tự là một công cụ hữu dụng để phân hoạch miền tham chiếu của các biến, và được sử dụng trong các thuật toán sinh luật của các phương pháp tiếp cận dựa trên ĐSGT

1.3 Hệ mờ dựa trên luật

1.3.1 Các thành phần của hệ mờ

Một hệ mờ dựa trên luật gồm các thành phần chính sau: cơ sở dữ liệu (Database), cơ sở luật mờ (Fuzzy Rule-based - FRB) và hệ suy diễn (Inference System)

- Cơ sở dữ liệu là các tập 𝔏j gồm T j nhãn ngôn ngữ tương ứng với các tập

mờ dùng để xây dựng phân hoạch mờ miền tham chiếu U j R (tập số thực)

của biến 𝔛j, (j=1, ,n+1) của bài toán n đầu vào 1 đầu ra Mỗi tập mờ được xây

dựng dựa trên một bộ tham số của nó, các tham số này có thể được xác định bằng kinh nghiệm của các chuyên gia, hoặc là kết quả của quá trình khai phá tri thức từ thực nghiệm hoặc được học bằng các thuật toán học máy Các tập

mờ có thể bố trí thành các phân hoạch mờ đơn thể hạt hoặc đa thể hạt như trong mục 1.1.4

- Cơ sở luật mờ là một tập các luật mờ dạng if-then, mỗi luật mờ biểu diễn một tri thức về miền ứng dụng của hệ, luật mờ là thành phần chính của hệ mờ Cấu trúc của một luật mờ có dạng như sau:

r q: If 𝔛1 is A q1 and … and 𝔛n is A qn then 𝔛n+1 is A q(n+1) (q = 1, ,M)

Trang 32

21

phải bổ sung vào mỗi 𝔏j (j=1, , n) một giá trị nhãn “Don’tcare” có giá trị hàm

thuộc đồng nhất bằng 1.Ví dụ các kiểu luật:

Luật mờ kiểu Mamdani:

If 𝔛1 is Don’tcare and 𝔛2 is Very Low and 𝔛3 is High then 𝔛4 is

Good

Luật mờ kiểu Takagi-Sugeno:

If 𝔛1 is Small and 𝔛2 is Don’tcare then 𝔛3 is “Iris-versicolor”

- Hệ suy diễn thực hiện lập luận xấp xỉ dựa trên các luật và các giá trị đầu vào để đưa ra giá trị dự đoán đầu ra Trên cơ sở lý thuyết tập mờ và logic mờ, các phương pháp lập luận xấp xỉ dựa trên FRBS đã được đề xuất và được ứng dụng vào giải quyết nhiều bài toán phi tuyến phức tạp Một số hướng lập luận xấp xỉ:

+ Lập luận xấp xỉ dựa trên quan hệ mờ

+ Lập luận xấp xỉ bằng nội suy tuyến tính trên tập mờ

+ Lập luận dựa trên độ đốt cháy luật

Với mục đích tìm hiểu những kiến thức cơ sở phục vụ cho hướng nghiên cứu của luận án Trong phần này luận án chỉ trình bày các phương pháp lập luận xấp xỉ được ứng dụng nhiều trong giải bài toán phân lớp và hồi quy Với bài toán phân lớp thường sử dụng một trong hai phương pháp lập luận

single-winner rule hoặc weighted vote được áp dụng trong [[2, 4, 6, 7, 18,

23-25, 28-34] Giả sử ta cần lập luận với mẫu dữ liệu đầu vào p i = (d i1 , d i2 , , d in)khi đó:

+ Phương pháp lập luận single-winner rule: dựa trên độ đốt cháy các luật của mẫu dữ liệu p i, kết quả lập luận là lớp kết luận của luật bị đốt cháy cao nhất Trong trường hợp có nhiều luật có cùng độ đốt cháy cao nhất thì chọn ngẫu nhiên một luật Ta có công thức lập luận như sau:

}, ,1),

|)(max{

Trang 33

22

và ở đây (.)

q j

A

 là hàm thuộc của tập mờ ứng với nhãn ngôn ngữA qj

+ Phương pháp lập luận weighted vote: dựa trên tổng độ đốt cháy (vote)

các luật có cùng lớp kết luận của mẫu dữ liệu p i Kết quả lập luận là lớp có tổng

độ đốt cháy cao nhất Công thức lập luận như sau:

C C

h q

trong đó V C (p i)

h là tổng độ đốt cháy các luật có lớp kết luận C h của mẫu pi

Với bài toán hồi quy, chúng ta thường sử dụng phương pháp trung bình

trọng số để suy diễn Đây là phương pháp suy diễn đơn giản và hiệu quả đã

được áp dụng trong [8-16, 40, 56, 57] Với mẫu dữ liệu đầu vào p i = (d i1 , d i2 , ,

d in), giá trị đầu ra 𝑦̂𝑖 được suy diễn theo công thức sau:

p

A p

q

i A

M q

n q i A i

q

q

1 )

(

) ( ˆ

1

1

) 1 (

 là hàm thuộc của tập mờ tương ứng với nhãn ngôn ngữ A qj

của Alcalá đề xuất trong [9] như sau: xác định hai luật gần điểm p i nhất theo

khoảng cách Euclid, giả sử hai luật đó là r1, r2, trong đó r1 gần p i hơn r2 Nếu

khoảng hỗ trợ của 2 tập mờ vế phải của 2 luật giao nhau ở mức độ nào đó

(10%) thì suy diễn 𝑦̂𝑖 theo phương pháp trọng tâm trên luật r1 Ngược lại thực

hiện suy diễn 𝑦̂𝑖 trên điểm dữ liệu 𝑝𝑖′ được hình thành từ điểm dữ liệu p i như

sau: giả sử p ij là một tọa độ của p i , điều kiện tiền đề thứ j của luật r1 là tập mờ

được xác định bởi 3 tham số (𝑎𝑗1𝑠𝑡,⁡𝑏𝑗1𝑠𝑡,⁡𝑐𝑗1𝑠𝑡) với 𝑎𝑗1𝑠𝑡⁡là chân bên trái, 𝑏𝑗1𝑠𝑡⁡là

lõi và⁡𝑐𝑗1𝑠𝑡⁡là chân bên phải của tập mờ tam giác, và điều kiện thứ j của luật r2

là tập mờ với ba tham số (𝑎𝑗2𝑛𝑑,⁡𝑏𝑗2𝑛𝑑,⁡𝑐𝑗2𝑛𝑑) Khi đó giá trị 𝑝𝑖𝑗′ ⁡của điểm 𝑝𝑖′⁡sẽ

được tính như sau:

Trang 34

Sau đó thực hiện suy diễn điểm dữ liệu mới 𝑝𝑖′ trên toàn hệ luật

1.3.2 Các mục tiêu khi xây dựng FRBS

Như bàn luận trong phần mở đầu, khi xây dựng các FRBS hai mục tiêu cần đạt được là hiệu quả thực hiện (độ chính xác) và tính giải nghĩa được của FRBS Đây là hai mục tiêu xung đột nhau, làm tăng mục tiêu này thì phải trả giá cho mục tiêu kia Mục tiêu độ chính xác đã có các công thức để đánh giá, mục tiêu tính giải nghĩa được liên quan đến nhiều yếu tố và ngay cả thuật ngữ

để chỉ nó cũng chưa thống nhất Dưới đây chúng ta xem xét các phương pháp

đã được đề xuất để đánh giá các mục tiêu

1) Đánh giá hiệu quả thực hiện của FRBS

Mục tiêu hiệu quả thực hiện của FRBS, chúng ta đã có những công thức toán học để đanh giá một FRBS như thế nào là hiệu quả

Với bài toán phân lớp hiệu quả thực hiện của FRBS được đánh giá dựa trên tỉ lệ phần trăm số mẫu được phân lớp chính xác trên tổng số mẫu được phân lớp, tỉ lệ này càng cao càng tốt

max

%100

1(ˆ )2

Trang 35

24

2) Vấn đề tính giải nghĩa được của FRBS

Tính giải nghĩa được là một vấn đề phức tạp và trừu tượng, nó liên quan đến nhiều yếu tố Hiện tại chúng ta vẫn chưa có một tiêu chuẩn toán học để mô

tả chính xác, và còn nhiều quan điểm khác nhau, ngay cả các thuật ngữ để chỉ tính giải nghĩa được cũng chưa thống nhất, chẳng hạn như: tính dễ hiểu (intelligibility), tính trong suốt (transparency), tính dễ đọc (readability), …, các thuật ngữ này được sử dụng đồng nghĩa và thay thế cho nhau [19] Việc lựa chọn một độ đo tính giải nghĩa được vẫn là vấn đề mở Trong một số nghiên cứu cố gắng đánh giá tính giải nghĩa được của FRBS bằng cách phân chia nó theo từng nhóm và thiết lập một tập các ràng buộc ở các mức khác nhau Các FRBS thỏa mãn càng nhiều ràng buộc thì có tính giải nghĩa được càng cao Trong [26] Gacto cho rằng hiện tại có hai hướng tiếp cận chính về tính giải nghĩa được

- Tính giải nghĩa được dựa trên độ phức tạp: Hướng tiếp cận này được

phân thành hai mức, mức cơ sở luật mờ và mức phân hoạch mờ

 Độ phức tạp ở mức cơ sở luật thường sử dụng các độ đo: số luật của

hệ luật càng ít càng tốt, độ dài của luật càng ngắn càng tốt

 Độ phức tạp ở mức phân hoạch mờ thường sử dụng các độ đo: số thuộc tính hay số biến, số biến sử dụng ít sẽ làm tăng tính giải nghĩa được của hệ luật; số hàm thuộc sử dụng trong phân hoạch mờ, số hàm thuộc không nên vượt quá 7±2 [43]

- Tính giải nghĩa được dựa trên ngữ nghĩa: Hướng tiếp cận này được chia

thành hai mức, mức phân hoạch mờ và mức cơ sở luật

 Ngữ nghĩa ở mức cơ sở luật: Cơ sở luật phải nhất quán, tức là nó không chứa các luật mâu thuẫn, các luật có cùng phần tiền đề thì phải có cùng kết luận; số luật bị đốt cháy bởi một dữ liệu đầu vào càng ít càng tốt

 Ngữ nghĩa ở mức phân hoạch mờ (mức từ): Miền xác định của các biến phải được phủ hoàn toàn bởi hàm thuộc của các tập mờ Tất cả

Trang 36

25

các điểm dữ liệu phải thuộc vào ít nhất một tập mờ; các hàm thuộc phải thuộc loại chuẩn, có nghĩa là mỗi hàm thuộc phải có ít nhất một điểm dữ liệu trong miền xác định của biến có độ thuộc bằng 1; các hàm thuộc thể hiện ngữ nghĩa của các tập mờ phải phân biệt được với nhau

Khi phát triển các thuật toán tiến hóa xây dựng FRBS từ dữ liệu, các phương pháp tiếp cận cố gắng đạt được một số ràng buộc tính giải nghĩa được bằng cách kết hợp các yếu tố liên quan để tạo ra một chỉ số Chỉ số này trở thành mục tiêu tính giải nghĩa được của hệ luật trong quá trính tiến hóa Một số chỉ số thể hiện tính giải nghĩa được của FRBS:

i) Độ phức tạp (tổng độ dài của các luật trong cơ sở luật)

min)

(1

ii) Trung bình độ dài của luật trong cơ sở luật

min

)(

I Nauck = Comp Part Cov (1.15)

Trong đó Comp được xác định bằng số lớp chia cho tổng số điều kiện tiền

đề của hệ luật, Part là chỉ số phân hoạch mờ trung bình trên tất cả các biến:

n

T Part

là phân hoạch mờ mạnh (Strong Fuzzy Partitions (SFPs))

iv) Độ đo không tương tự của Antonelli đánh giá hệ luật mờ giải bài toán

hồi quy [14]

Trang 37

26

min max

min

2 ) 1 ( 2

2 1

M n

M

M DC I

Trong đó M min , M max lần lượt là giới hạn số luật tối thiểu và tối đa của hệ

luật cần xây dựng, M là số luật của hệ luật (M min ≤ M ≤ M max ), DC được xác

định theo công thức dưới đây:

if

tcare Don A

if A

j m

j m j

' 1

) (

,

, ,

|2

i

i i j

T

trong đó T j là số từ ngôn ngữ sử dụng phân hoạch mờ biến thứ j, b i , b’ i lần lượt

là lõi của tập mờ tam giác ứng với nhãn ngôn ngữ thứ i trong phân hoạch mờ

đều và trong phân hoạch mờ đã được điều chỉnh Hình 1.7 dưới đây mô tả quan

hệ b i và b’ i

Hình 1.7 Phân hoạch mờ đều và phân hoạch mờ sau khi điều chỉnh tập mờ

Như vậy vấn đề tính giải nghĩa được của FRBS vẫn còn là vấn đề mở Do

đó trong luận án này cố gắng khởi tạo một hướng tiếp cận mới cho vấn đề này

1.4 Kết luận chương 1

Trong chương này, luận án đã trình bày tóm tắt những kiến thức cơ sở làm nền tảng phục vụ trong quá trình nghiên cứu Nó bao gồm những nội dung chính sau đây:

- Lý thuyết tập mờ bao gồm các khái niệm tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ, hệ mờ dựa trên luật

5

3 b’3 b4 b’4

Trang 38

27

- Hệ thống lý thuyết của ĐSGT với những khái niệm nền tảng như: ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tử sinh, phương pháp xác định giá trị định lượng của từ ngôn ngữ, khoảng tính mờ

và khoảng tương tự của từ ngôn ngữ

Với những kiến thức cơ sở được trình bày trong chương này là nền tảng

để thực hiện các mục tiêu đã đặt ra của luận án

Trang 39

sử dụng cho mỗi biến và độ phức tạp của RB (tổng độ dài của các luật) Các thuật toán được phát triển nhằm khắc phục một số hạn chế của các thuật toán tiếp cận dựa trên lý thuyết tập mờ và ứng dụng những lợi ích mà hướng tiếp cận dựa trên ĐSGT mang lại Nội dung của chương này được công bố trong các công trình [ii, iii, iv]

2.1 Phát triển thuật toán giải bài toán phân lớp

2.1.1 Bài toán phân lớp và các phương pháp giải

1) Bài toán

Bài toán phân lớp [7, 28,39, 50]: Cho một tập mẫu dữ liệu D ={ (p i , C i ), i

= 1, ,N }, p i là một véc tơ n chiều có dạng (d i1 , d i2 , , d in ), d ij U j R (tập số

thực) là miền xác định của các biến (thuộc tính) 𝔛j của bài toán, với j = 1, ,n,

C i C tập các nhãn có m lớp, i = 1, , m, N là số mẫu dữ liệu Từ tập mẫu dữ

liệu D xây dựng một mô hình cho phép phân lớp bất kỳ mẫu dữ liệu p U =

U1   U n

2) Tổng quan phương pháp giải bằng FRBS

Giải bài toán phân lớp bằng FRBS là xây dựng một hệ các luật mờ S, để phân lớp hay ánh xạ từ tập dữ liệu của U vào tập các giá trị nhãn lớp trong C Các luật trong S có dạng như công thức (1.6), vế phải của luật là một nhãn lớp của tập C

Trang 40

bằng (tradeoff) cả hai mục tiêu này bằng cách phát triển các thuật toán tiến hóa

tối ưu đa mục tiêu cho phép học tự động sinh các FRBS Trong đó mục tiêu

tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp (tức là số

từ sử dụng trên mỗi biến ít, số luật ít, độ dài của các luật càng ngắn càng tốt)

Khi phát triển các thuật toán giải quyết bài toán này, chúng ta phải thực hiện các công việc sau:

- Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)

- Sinh tập các luật mờ ứng cử

- Tìm kiếm hệ luật mờ tối ưu S từ tập các luật mờ ứng cử với mục

tiêu độ chính xác f p (S) là phần trăm tỉ lệ phân lớp chính xác, f p (S)

max, mục tiêu tính giải nghĩa được của FRBS được đánh giá bằng số luật f n (S) và trung bình độ dài luật f a (S) min

Vấn đề thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)

Các phương pháp tiếp cận theo lý thuyết tập mờ thường sử dụng các phân hoạch mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miền tham chiếu của biến như trong Cordón [17, 18], Fazzolari [23], Ishibuchi [28-30], Mansoori [39], Trawinski [59] Việc sử dụng phân hoạch mờ đều, về trực quan thì tính giải nghĩa được ở mức từ sẽ cao Tuy nhiên, việc sử dụng cùng một phân hoạch mờ với các tập mờ cố định trước cho các tập dữ liệu khác nhau thì không phù hợp với thực tế Vì trong thực tế ngữ nghĩa của các từ phụ thuộc vào từng ngữ cảnh tức là phụ thuộc vào từng tập dữ liệu cụ thể Ví dụ từ “lạnh” nếu nó là nhiệt độ thời tiết thì nó có giá trị trong khoảng [10oC đến 15oC], nhưng nếu nó là nhiệt độ của người thì nó có giá tị trong khoảng [35oC đến 36.5oC]

Do đó, ngữ nghĩa của từ cần được xác định phù hợp với từng ngữ cảnh cụ thể thì mới có thể nâng cao được hiệu quả của FRBS Vì vây, một yêu cầu tự nhiên

Ngày đăng: 04/08/2024, 09:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[6] Dương Thăng Long, Nguyễn Cát Hồ, Trần Thái Sơn, “Một phương pháp xây dựng hệ luật mờ có trọng số để phân lớp dựa trên đại số gia tử”, Tạp chí Tin học và Điều khiển học, T.26(1)(2010) trang 55-72 Sách, tạp chí
Tiêu đề: Một phương pháp xây dựng hệ luật mờ có trọng số để phân lớp dựa trên đại số gia tử
[19] O. Cordón, A historical review of evolutionary learning methods for Mamdani-type fuzzy rule-based systems: Designing interpretable genetic fuzzy systems, Int. J. of Approx. Reason., 52 (2011) pp. 894–913 Sách, tạp chí
Tiêu đề: Int. J. of Approx. Reason
[22] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan, “A fast and elitist multiobjective genetic algorithm: NSGA-II”, IEEE Trans. on Evolutionary Computation 6 (2) (2002), pp. 182-197 Sách, tạp chí
Tiêu đề: A fast and elitist multiobjective genetic algorithm: NSGA-II
Tác giả: K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan, “A fast and elitist multiobjective genetic algorithm: NSGA-II”, IEEE Trans. on Evolutionary Computation 6 (2)
Năm: 2002
[35] L. Kevin and S. Olivier (2006), “Fuzzy Histograms and Density Estimation”, Advances in Soft Computing, Springer Berlin, ISSN 1615- 3871, pp. 45-52 Sách, tạp chí
Tiêu đề: Fuzzy Histograms and Density Estimation
Tác giả: L. Kevin and S. Olivier
Năm: 2006
[65] L.A. Zadeh, Fuzzy sets and fuzzy information granulation theory – key selected papers, Beijing Normal University Press, China (2000) Sách, tạp chí
Tiêu đề: Fuzzy sets and fuzzy information granulation theory – key selected papers
[1] Nguyễn Cát Hồ, Nguyễn Văn Long, Làm đầy đủ đại số gia tử trên cơ sở bổ sung các phần tử giới hạn, Tạp chí Tin học và Điều khiển học, Tập 19(1) (2003) trang 62-71 Khác
[2] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Tiếp cận đại số gia tử cho phân lớp mờ, Tạp chí Tin học và Điều khiển học, tập 25, số 1 (2009), trang 53-68 Khác
[3] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Trần Duy Hùng, Phương pháp tối ưu Pareto hệ luật mờ dựa trên đại số gia tử sử dụng giải thuật di truyền và ứng dụng vào bài toán phân lớp, Tạp chí Tin học và Điều khiển học, T. 26, S. 2 (2010) Khác
[4] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Đại số gia tử hạn chế AX 2 (ĐSGT2) và ứng dụng cho bài toán phân lớp mờ, Tạp chí Khoa học và Công nghệ, (2010) Khác
[5] Hoàng Kiếm, Lê Hoàng Thái, Giải thuật di truyền - Cách giải tự nhiên các bài toán trên máy tính, Nhà Xuất bản giáo dục, năm 2000 Khác
[7] Dương Thăng Long, Một phương pháp xây dựng hệ mờ dạng luật với ngữ nghĩa dựa trên Đại số gia tử và ứng dụng trong bài toán phân lớp, Luận án tiến sỹ toán học, (2011).Tiếng Anh Khác
[8] R. Alcalá, M. J. Gacto, F. Herrera, and J. Alcalá-Fdez, A multi-objective genetic algorithm for tuning and rule selection to obtain accurate and compact linguistic fuzzy rule-based systems, Int. J. Uncertainty, Fuzziness Knowl.-Based Syst., vol. 15, no. 5 (2007) pp. 539–557 Khác
[9] R. Alcalá, J. Alcalá-Fdez, F. Herrera, J. Otero,Genetic learning of accurate and compact fuzzy rule based systems based on the 2-tuples linguistic representation, Int. J. Approx. Reason. 44 (2007) pp. 45–64 Khác
[11] J. M. Alonso, L. Magdalena, G. González-Rodríguez, Looking for a good fuzzy system interpretability index: An experimental approach, Int. J.Approx. Reason. 51 (2009) pp. 115–134 Khác
[12] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni, Learning concurrently partition granularities and rule bases of Mamdani fuzzy systems in a multi-objective evolutionary framework. Int. J. Approx.Reason. 50(7) (2009a) pp. 1066–1080 Khác
[13] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni, Multi-objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems. Evol. Intel. 2(1–2) (2009b) pp. 21–37 Khác
[14] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni, Learning concurrently data and rule bases of Mamdani fuzzy rule-based systems by exploiting a novel interpretability index. Soft Comput., 15 (2011) pp.1981–1998 Khác
[15] M. Antonelli, P. Ducange, F. Marcelloni, An efficient multi-objective evolutionary fuzzy system for regression problems, Int. J. Approx. Reason.54 (2013) pp. 1434–1451 Khác
[16] M. Cococcioni, P. Ducange, B. Lazzerini, and F. Marcelloni, A Pareto - based multi-objective evolutionary approach to the identification of Mamdani fuzzy systems, Soft Comput., vol. 11 (2007) pp. 1013–1031 Khác
[17] O. Cordón, M. J. del Jesus, and F. Herrera, Genetic learning of fuzzy rule-based classification systems cooperating with fuzzy reasoning methods, Int. J. Intell. Syst., vol. 13 (1998) pp. 1025–1053 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w