Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử

Dựa trên quan điểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xây dựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho hệ luậ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM ĐÌNH PHONG

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ

HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ

VÀ ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2017

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Đình Phong

PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ

HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ

VÀ ĐẠI SỐ GIA TỬ

Chuyên ngành: Khoa học máy tính

Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 GS TS Nguyễn Thanh Thủy

2 PGS TSKH Nguyễn Cát Hồ

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, ngoại trừ các nội dung được trích từ tài liệu tham khảo hoặc các công trình khác như đã được ghi rõ trong luận án, các kết quả được trình bày trong luận án này là công trình nghiên cứu của tôi và được hoàn thành dưới sự hướng dẫn của GS TS Nguyễn Thanh Thủy và PGS TSKH Nguyễn Cát Hồ Các kết quả nghiên cứu là trung thực, chưa từng được công bố trước đó Các kết quả được viết chung với các tác giả khác đã được sự đồng ý của các đồng tác giả trước khi đưa vào luận án

Tác giả luận án

Phạm Đình Phong

Trang 4

LỜI CẢM ƠN

Với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn các thầy GS TS Nguyễn Thanh Thủy và PGS TSKH Nguyễn Cát Hồ đã trực tiếp chỉ bảo và tận tình hướng dẫn tôi hoàn thành luận án này Tôi chân thành cảm ơn thầy TS Trần Thái Sơn đã

có nhiều hỗ trợ trong quá trình nghiên cứu và có những nhận xét, đánh giá trong quá trình hoàn thiện luận án

Tôi xin được bày tỏ lòng biết ơn đối với các thầy giáo, cô giáo Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Phòng đào tạo, Ban giám hiệu Trường Đại học Công nghệ đã tận tình chỉ bảo, giảng dạy và tạo điều kiện thuận lợi trong suốt thời gian học tập, nghiên cứu và hoàn thành luận án

Tôi xin được cảm ơn tất cả những người thân, bạn bè và các đồng nghiệp đã tạo điều kiện, động viên và hỗ trợ tôi về mọi mặt

Cuối cùng, tôi xin được được bày tỏ tình cảm và lòng biết ơn vô hạn tới bố mẹ

và những người thân trong gia đình, đặc biệt là vợ tôi – Phan Thị Quế Anh, người

đã luôn động viên, khích lệ, chia sẻ và gánh vác công việc để tôi có thời gian học tập, nghiên cứu và hoàn thành luận án

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN iii

MỤC LỤC iv

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii

DANH MỤC CÁC BẢNG ix

DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ xiii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ 9

1.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 9

1.1.1 Tập mờ 9

1.1.2 Biến ngôn ngữ 9

1.1.3 Phân hoạch mờ 10

1.1.4 Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ 11

1.1.5 Bài toán phân lớp dữ liệu 12

1.2 HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ 12

1.2.1 Cấu trúc của hệ dựa trên luật ngôn ngữ mờ 13

1.2.2 Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ 14

1.2.3 Những vấn đề tồn tại 19

1.3 ĐẠI SỐ GIA TỬ 19

1.3.1 Đại số gia tử của biến ngôn ngữ 20

1.3.2 Lượng hóa đại số gia tử 22

1.3.3 Ý nghĩa ứng dụng của đại số gia tử 25

1.3.4 Những vấn đề còn tồn tại 28

1.4 KẾT LUẬN CHƯƠNG 1 29

CHƯƠNG 2 LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG CỦA KHUNG NHẬN THỨC NGÔN NGỮ VÀ ỨNG DỤNG GIẢI BÀI TOÁN PHÂN LỚP 30

2.1 MỞ RỘNG ĐẠI SỐ GIA TỬ CHO VIỆC MÔ HÌNH HÓA LÕI NGỮ NGHĨA CỦA CÁC TỪ NGÔN NGỮ 30

Trang 6

2.2 MỞ RỘNG KHÁI NIỆM ĐỘ ĐO TÍNH MỜ 37 2.3 HỆ KHOẢNG TÍNH MỜ LIÊN KẾT VỚI ĐỘ ĐO TÍNH MỜ CỦA CÁC

TỪ NGÔN NGỮ 40 2.4 ÁNH XẠ ĐỊNH LƯỢNG NGỮ NGHĨA KHOẢNG 44 2.5 MỞ RỘNG ĐỘ ĐO TÍNH MỜ CỦA CÁC PHẦN TỬ 0 VÀ 1 46 2.6 ỨNG DỤNG LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG TRONG THIẾT KẾ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ 49 2.6.1 Thiết kế ngữ nghĩa tính toán dựa trên tập mờ của các từ ngôn ngữ 50 2.6.2 Sinh tập luật khởi đầu từ dữ liệu dựa trên ngữ nghĩa ĐSGT mở rộng 56 2.6.3 Tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu 59 2.6.4 Đánh giá kết quả ứng dụng lõi ngữ nghĩa và ngữ nghĩa hình thang trong thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ 61 2.6.4.1 Dữ liệu và phương pháp thực nghiệm 61 2.6.4.2 So sánh đánh giá hai cấu trúc phân hoạch mờ đơn và đa thể hạt

63 2.6.4.3 So sánh đánh giá hai phương pháp lập luận single winner rule

và weigted vote 69 2.6.4.4 So sánh đánh giá các phương pháp thiết kế hệ phân lớp theo tiếp cận đại số gia tử 71 2.6.4.5 So sánh đánh giá với một số phương pháp theo tiếp cận lý thuyết tập mờ 73 2.6.4.6 So sánh đánh giá với một số tiếp cận khác 77 2.6.5 Biểu diễn ngữ nghĩa tính toán dựa trên tập mờ hình thang đảm bảo tính giải nghĩa được của khung nhận thức ngôn ngữ 79 2.7 KẾT LUẬN CHƯƠNG 2 84 CHƯƠNG 3 THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ MỜ SỬ DỤNG KỸ THUẬT TÍNH TOÁN MỀM 85 3.1 THIẾT KẾ HIỆU QUẢ HỆ PHÂN LỚP DỰA TRÊN LUẬT NGÔN NGỮ

MỜ SỬ DỤNG CÁC THUẬT TOÁN TỐI ƯU 85 3.1.1 Đánh giá tính hiệu quả của thuật toán MOPSO so với thuật toán GSA

88

Trang 7

3.1.1.1 Thuật toán tối ưu bầy đàn đa mục tiêu 88

3.1.1.2 Ứng dụng thuật toán MOPSO tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu 92

3.1.1.3 Thực nghiệm so sánh thuật toán MOPSO so với thuật toán GSA 94

3.1.2 Đánh giá tính hiệu quả của thuật toán MOPSO-SA so với thuật toán MOPSO 96

3.1.2.1 Thuật toán tối ưu đa mục tiêu lai MOPSO-SA 96

3.1.2.2 Ứng dụng thuật toán MOPSO-SA tối ưu các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu 99

3.1.2.3 Thực nghiệm so sánh thuật toán MOPSO-SA so với thuật toán MOPSO 101

3.2 NÂNG CAO HIỆU QUẢ SINH LUẬT MỜ VỚI NGỮ NGHĨA DỰA TRÊN ĐẠI SỐ GIA TỬ SỬ DỤNG KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG103 3.2.1 Một số khái niệm cơ bản về lý thuyết thông tin 104

3.2.2 Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động 105

3.2.3 Ứng dụng thuật DWFS trong thiết kế FLRBC trên cơ sở ĐSGT 107

3.2.4 Kết quả thực nghiệm và thảo luận 109

3.3 KẾT LUẬN CHƯƠNG 3 113

KẾT LUẬN CỦA LUẬN ÁN 115

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 117

TÀI LIỆU THAM KHẢO 119 PHỤ LỤC A

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Các ký hiệu

AX Đại số gia tử tuyến tính

AX mp Đại số gia tử mở rộng

AX mrtp Đại số gia tử mở rộng toàn phần

μ(h) Độ đo tính mờ của gia tử h

fm(x) Độ đo tính mờ của từ ngôn ngữ x

f(x) Hàm định lượng khoảng của từ ngôn ngữ x

μ A (x) Hàm xác định độ thuộc của giá trị x vào tập mờ A

|x| Độ dài của từ ngôn ngữ x

X k Tập các các từ có độ dài đúng bằng k

X (k) Tập các các từ có độ dài nhỏ hơn hoặc bằng k

H Tập các gia tử

|H| Số lượng gia tử trong H

H mr Tập các gia tử mở rộng (bổ sung thêm gia tử h 0)

DB Database (Cơ sở dữ liệu)

FLRBC Fuzzy linguistic rule-based classifier (Hệ phân lớp dựa trên luật

ngôn ngữ mờ)

Trang 9

FLRBS fuzzy linguistic rule-based system (Hệ dựa trên luật ngôn ngữ

mờ)

FURIA Fuzzy unordered rules induction algorithm (Giải thuật cảm

sinh các luật mờ không có thứ tự) GSA Genetic simulated annealing (Tôi luyện mô phỏng di truyền)

KB Knowledge base (Cơ sở tri thức)

LFoC Linguistic frames of cognition (Khung nhận thức ngôn ngữ) MOO Multi-objective optimization (Tối ưu đa mục tiêu)

MOPSO Multi-objective particle swarm optimization (Giải thuật tối ưu

bầy đàn đa mục tiêu) PAES Pareto archived evolution strategy (Chiến lược tiến hóa lưu trữ

Pareto)

PI Power set of intervals (Tập các khoảng con có thể)

PSO Particle swarm optimization (Tối ưu bầy đàn)

RCS Rule and condition selection (Lựa chọn luật và điều kiện luật) RIPPER Repeated incremental pruning to produce error reduction

(Giảm lỗi bằng lặp lại cắt tỉa gia tăng) SVM Support vector machine (Máy véc-tơ hỗ trợ)

SWR Single winner rule (Luật thắng đơn)

WV Weighted vote (Bầu cử có trọng số)

Trang 10

DANH MỤC CÁC BẢNG TRONG NỘI DUNG CHÍNH

Bảng 2.3 So sánh độ chính xác giữa các hệ phân lớp sử dụng cấu trúc đa thể hạt và

đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ………… 68

Bảng 2.4 So sánh độ phức tạp của các hệ phân lớp sử dụng cấu trúc đa thể hạt và

đơn thể hạt sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ………… 68

Bảng 2.6 So sánh độ chính xác của các hệ phân lớp được thiết kế trên cơ sở ĐSGT

AX mr và AX mrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương pháp

kiểm định Wilcoxon Signed Rank với α = 0,05 ……… …… 70

Bảng 2.7 So sánh độ phức tạp của các hệ phân lớp được thiết kế trên cơ sở ĐSGT

AX mr và AX mrtp giữa sử dụng phương pháp lập luận SWR và WV bằng phương pháp

kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 70

Bảng 2.9 So sánh độ chính xác của FRBC_AX mrtp, FRBC_AX mr và FRBC_AX sử

dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 72

Bảng 2.10 So sánh độ phức tạp của FRBC_AX mrtp , FRBC_AX mr và FRBC_AX sử

dụng phương pháp kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 72

Bảng 2.11 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với All

Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank

Bảng 2.12 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với All

Granularities và Product-1-ALL TUN sử dụng kiểm định Wilcoxon Signed Rank

với α = 0,05 ……… 75

Bảng 2.14 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với hệ phân

lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 …… 77

Bảng 2.15 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với hệ phân

lớp PAES-RCS sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05 ……… 77

Bảng 2.16 So sánh độ chính xác của FRBC_AX mrtp và FRBC_AX mr so với FURIA

và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 ……… 79

Bảng 2.17 So sánh độ phức tạp của FRBC_AX mrtp và FRBC_AX mr so với FURIA

và C4.5 sử dụng kiểm tra Wilcoxon Signed Rank với α = 0,05 ……… 79

Bảng 2.18 So sánh các kết quả thực nghiệm giữa hai hệ phân lớp FRBC_AX mrtp _k0

Trang 11

Bảng 2.19 So sánh độ chính xác giữa hai hệ phân lớp FRBC_AX mrtp _k0 và

FRBC_AX mrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ……… 83

Bảng 2.20 So sánh độ phức tạp của hai hệ phân lớp FRBC_AX mrtp _k0 và

FRBC_AX mrtp bằng Wilcoxon Signed Rank test với mức α = 0,05 ……… 83

Bảng 3.1 Các kết quả thực nghiệm của hệ phân lớp dựa trên ĐSGT truyền thống AX

sử dụng thuật toán MOPSO so với sử dụng GSA đối với 17 tập dữ liệu mẫu … 95 Bảng 3.2 So sánh độ chính xác của hệ phân lớp dựa trên ĐSGT truyền thống AX sử dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon

Signed Rank với mức α = 0,05 ……… 96

Bảng 3.3 So sánh độ phức tạp của hệ phân lớp dựa trên ĐSGT truyền thống AX sử dụng thuật toán MOPSO so với GSA sử dụng phương pháp kiểm định Wilcoxon

Signed Rank với mức α = 0,05……… 96

Bảng 3.5 So sánh độ chính xác giữa SAAX và MOPSOAX, giữa SAAX mrtp và MOPSOAX mrtp sử dụng kiểm định Wilcoxon Signed Rank với α = 0,05

Bảng 3.9 So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX có áp dụng

và không áp dụng kỹ thuật lựa chọn đặc trưng ……… 111

Bảng 3.10 So sánh thời gian sinh tập luật khởi đầu trên cơ sở ĐSGT AX mrtp có áp dụng và không áp dụng kỹ thuật lựa chọn đặc trưng ……… 111

Bảng 3.11 So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AX đối với tập dữ

liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng S n và S 2n 112

Bảng 3.12 So sánh kết quả của các hệ phân lớp dựa trên ĐSGT AX mrtp đối với tập

dữ liệu gốc N và các tập dữ liệu đã áp dụng kỹ thuật lựa chọn đặc trưng S n và S 2n112

Bảng 3.13 So sánh độ phức tạp của các hệ phân lớp dựa trên ĐSGT AX và AX mrtp

giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng kiểm định

Wilcoxon Signed Rank với mức α = 0,05 ……… 113

Trang 12

Bảng 3.14 So sánh độ chính xác của các hệ phân lớp dựa trên ĐSGT AX và AX mrtp

giữa không áp dụng và có áp dụng kỹ thuật lựa chọn đặc trưng sử dụng kiểm định

Wilcoxon Signed Rank với mức α = 0,05 ……….………… 113

Trang 13

DANH MỤC CÁC BẢNG TRONG PHỤ LỤC

Bảng 2.1 Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm ……… C

Bảng 2.2 Các kết quả thực nghiệm và so sánh giữa hai cấu trúc đa thể hạt và đơn thể hạt được thiết kế trên cơ sở ĐSGT ……… F

Bảng 2.5 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp được thiết kế trên cơ sở ĐSGT AX mr và AX mrtp sử dụng phương pháp lập luận SWR và WV G Bảng 2.8 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AX mrtp,

FRBC_AX mr, FRBC_AX, All Granularities và Product-1-ALL TUN ………… H Bảng 2.13 Các kết quả thực nghiệm và so sánh giữa các hệ phân lớp FRBC_AX mrtp,

FRBC_AX mr, PAES-RCS, FURIA và C4.5 ……… I

Bảng 3.4 Các kết quả thực nghiệm và so sánh giữa hai hệ phân lớp MOPSO-SAAX

và MOPSOAX, giữa MOPSO-SAAX mrtp và MOPSOAX mrtp ……… J

Trang 14

DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ

Hình 1.1 Biến ngôn ngữ, các giá trị ngôn ngữ và các tập mờ tương ứng ……… 10 Hình 1.2 Hai phân hoạch mờ đơn thể hạt và đa thể hạt ……… 11 Hình 1.3 Cấu trúc cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani …… 13 Hình 1.4 Phân hoạch lưới trên miền của hai thuộc tính ………… 16 Hình 1.5 Phân hoạch rời rạc trên miền của hai thuộc tính ……… 16 Hình 1.6 Các tập mờ được thiết kế cho thuộc tính thứ 3 của tập dữ liệu mẫu

Mammographic ……… 27

Hình 2.1 Mối quan hệ giữa từ “nhanh” và “rất nhanh” của biến ngôn ngữ TOCDO

và các giá trị của tập nền U được biểu diễn dưới dạng các tập mờ … ………… 31 Hình 2.2 Hệ khoảng độ đo tính mờ của các từ ngôn ngữ của X mr(3) được sinh từ c+,

Hình 2.8 Cấu trúc phân hoạch mờ đơn thể hạt được thiết kế cho thuộc tính thứ 3 của tập dữ liệu Haberman ……… 64 Hình 2.9 Cấu trúc phân hoạch mờ đa thể hạt được thiết kế cho thuộc tính thứ 2 của tập dữ liệu Haberman ……… 66

Hình 2.10 Biểu đồ so sánh độ chính xác giữa các hệ phân lớp FRBC_AX mrtp,

FRBC_AX mr, All Granularities, Product/1-ALL TUN và PAES-RCS ……… 76

Trang 15

Hình 2.13 Thiết kế đa thể hạt với mức k = 1 được tách thành hai mức 0 và 1 … 81

Hình 3.1 Mối liên hệ giữa độ phức tạp và tỷ lệ phân lớp sai ……… 86 Hình 3.2 Sơ đồ mô phỏng thuật toán MOPSO trong [77] ……… 90

Hình 3.3 Sơ đồ kỹ thuật phân cụm mờ c-means với hàm PBMF ……… 108

Trang 16

MỞ ĐẦU

Phân lớp là một cơng việc ra quyết định phổ biến nhất của con người Bài tốn phân lớp các đối tượng nhằm gán các đối tượng vào các lớp được xác định trước dựa trên một số thuộc tính quan sát được của các đối tượng đĩ Bài tốn này địi hỏi tiêu chuẩn quyết định một đối tượng cần phân lớp thuộc vào lớp đang xét hay khơng Bài tốn phân lớp thường gặp trong các lĩnh vực khác nhau của đời sống kinh tế xã hội, như y tế [73, 111, 115], kinh tế [17, 125], nhận dạng lỗi [49], xử lý ảnh [95, 118], năng lượng hạt nhân [101], xử lý dữ liệu văn bản, lọc dữ liệu Web, loại bỏ thư rác [126], … Trong kỷ nguyên thơng tin số hiện nay, các kho dữ liệu khổng lồ ẩn chứa rất nhiều thơng tin hữu ích mà con người cần khai phá và trích rút thơng tin, phục vụ cho quá trình ra quyết định Phân lớp là quá trình phân tích dữ liệu nhằm trích rút các mơ hình biểu diễn các lớp dữ liệu, giúp chúng ta hiểu được các kho dữ liệu và dự đốn các dữ liệu phát sinh trong tương lai Để nâng cao độ chính xác của hệ phân lớp, nhiều phương pháp đã được nghiên cứu và phát triển, từ

đĩ nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp thống kê (statistical techniques) [45, 80, 118], mạng nơ-ron (neural networks) [42, 72, 85, 96,

97, 114, 120], phân lớp dựa trên luật mờ [14, 16, 26, 29, 34-41, 61-71, 74, 86, 88,

91, 92]

Các hệ phân lớp thống kê bao gồm giản đồ bầu cử cĩ trọng số [71], Nạve Bayes [80, 118], phân lớp theo láng giềng gần nhất [45], cây quyết định (ID3, C4.5) [102], máy véc-tơ hỗ trợ (support vector machine - SVM) [20] Hầu hết các kỹ thuật phân lớp thống kê truyền thống đều dựa trên lý thuyết quyết định Bayesian, trong

đĩ một mơ hình xác suất được giả định, nhằm tính tốn xác suất hậu nghiệm (posterior probability) Quyết định phân lớp được thực hiện dựa vào xác suất này Các tiếp cận này chỉ cho kết quả tốt khi mơ hình xác suất được chọn phù hợp với dữ liệu và do đĩ, cần đến các chuyên gia hiểu về dữ liệu Mạng nơ-ron được xem là một cơng cụ quan trọng để giải bài tốn phân lớp với độ chính xác cao Tuy cĩ nhiều hệ phân lớp mạng nơ-ron cho độ chính xác phân lớp tốt [42, 72, 85, 96, 97,

114, 118, 120], nhưng vẫn tồn tại những khĩ khăn khi sử dụng hệ phân lớp mạng nơ-ron Chẳng hạn, một lượng lớn các tham số trong hệ phân lớp mạng nơ-ron cần phải ước lượng Mặt khác, mạng nơ-ron là một hộp đen nên khơng dễ hiểu đối với người sử dụng [122]

Các hệ dựa trên luật mờ (fuzzy rule-based systems - FRBS) được sử dụng rộng rãi trong các lĩnh vực khác nhau trong đời sống xã hội như điều khiển tối ưu và tự

Trang 17

động hóa [19, 77, 89, 90, 117], khai phá tri thức từ dữ liệu [14, 16, 26, 29, 34-41, 61-71, 74, 86, 88, 91, 92, 110] do hệ này mô hình hóa được các hệ thống phức tạp,

có thể được ứng dụng để giải quyết những bài toán, trong đó tri thức được biểu diễn trong môi trường có tính không chắc chắn và không chính xác Mô hình dễ hiểu đối với người dùng Mô hình dựa trên luật mờ cho phép mô tả các hiện tượng trong thế giới thực gần giống với cách tư duy của con người Ta biết rằng, con người nhận thức thế giới thông qua ngôn ngữ tự nhiên Do đó, với mong muốn các hệ thống thông minh phục vụ, hỗ trợ con người trong cuộc sống hàng ngày có những hành xử như con người và có thể thay thế con người trong quá trình ra quyết định, chúng phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ Để đáp ứng các yêu cầu trên, cần có một phương pháp hình thức để mô hình hóa và xử lý thông tin ngôn ngữ Đây là một thách thức đối với cộng đồng nghiên cứu, do ngữ nghĩa của ngôn ngữ mang tính mờ

Nhằm biến các từ ngôn ngữ thành các đối tượng có thể tính toán được, năm

1965 Zadeh đã đề xuất gán cho ngữ nghĩa của mỗi từ ngôn ngữ (linguistic term) một cấu trúc hàm chỉ mức độ thuộc của một phần tử vào một tập các phần tử được gọi là tập mờ [123] Khi đó, các thao tác trên cấu trúc hàm được xem là các thao tác trên ngữ nghĩa của các từ ngôn ngữ Năm 1975, Zadeh đưa ra khái niệm biến ngôn ngữ với miền giá trị của biến là các từ trong ngôn ngữ tự nhiên và ngữ nghĩa của mỗi từ ngôn ngữ được biểu diễn bởi một tập mờ, gọi là ngữ nghĩa tính toán dựa trên tập mờ [124] Vì vậy, miền giá trị của biến ngôn ngữ trở nên tính toán được

Một FRBS cơ bản bao gồm cơ sở tri thức (knowledge base - KB) và hệ suy luận (inference system) Cơ sở tri thức bao gồm cơ sở dữ liệu (database – DB) và cơ sở luật (rule base – RB) Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng trong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ Cơ sở luật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng

các luật mờ if-then với các từ ngôn ngữ (như “chậm”, “nhanh”, “thấp”, “cao”,

“xấu”, “tốt”, ) được sử dụng thường xuyên trong cuộc sống hàng ngày của chúng

ta Do đó, việc sử dụng các luật mờ là cách tự nhiên biểu diễn tri thức dạng ngôn ngữ FRBS được thiết kế dựa vào tri thức chuyên gia và được ứng dụng thành công trong điều khiển tự động vào năm 1974 bởi Mamdani [89, 90] Tuy nhiên, không phải lúc nào cũng có sẵn các chuyên gia và tri thức của họ thường không đầy đủ Vì vậy, bài toán thiết kế tự động các FRBS từ dữ liệu được phát sinh từ các sự kiện trong thế giới thực được đặt ra và thu hút nhiều nhà khoa học quan tâm nghiên cứu Đây là một lĩnh vực rộng lớn và có nhiều ứng dụng thực tiễn Nhờ ứng dụng lý thuyết tập mờ [123], khái niệm biến ngôn ngữ [124] và logic mờ vào bài toán điều

Trang 18

khiển tự động nhằm trích rút các hệ luật mờ từ dữ liệu, các FRBS được ứng dụng rộng rãi trong lĩnh vực điều khiển mờ, điển hình như King và Mamdani [77], Takagi và Sugeno [117], Berenji và Khedkar [19], Battaini và các cộng sự [18], Rao

và Sivasubramanian [105]

Khi FRBS được ứng dụng để giải bài toán phân lớp thì được gọi là hệ phân lớp dựa trên luật mờ (fuzzy rule-based classifier - FRBC) Ưu điểm của hệ phân lớp loại này là: 1) Lợi dụng tính xấp xỉ vạn năng của các hệ dựa trên luật mờ; 2) Người dùng cuối có thể sử dụng những tri thức dạng luật, được trích rút từ dữ liệu có tính

dễ hiểu, dễ sử dụng đối với con người, như là những tri thức của họ Dựa trên quan điểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xây dựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho

hệ luật thu được có tính dễ hiểu (interpretability), tức là số luật và số điều kiện tạo

nên luật phải đủ nhỏ; ngữ nghĩa tính toán của các từ ngôn ngữ (linguistic terms) hay nhãn ngôn ngữ (linguistic labels) xuất hiện trong cơ sở luật phản ánh được đúng

ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên, nhưng vẫn đạt độ chính xác

(accuracy) cao Với các yêu cầu về FRBC được đặt ra ở trên, việc trích rút hệ luật

mờ từ dữ liệu cho FRBC là một nhiệm vụ nghiên cứu phức tạp với các mục tiêu của

bài toán (độ chính xác và tính dễ hiểu) xung khắc nhau, tức muốn tăng mục tiêu này thì phải giảm mục tiêu kia Độ chính xác của FRBC phụ thuộc vào các yếu tố như:

1) Các nhãn ngôn ngữ là cơ sở ngữ nghĩa của các luật ngôn ngữ mờ; 2) Việc biểu diễn ngữ nghĩa của các nhãn ngôn ngữ; 3) Dạng của các luật ngôn ngữ mờ và ngữ nghĩa của chúng; 4) Phương pháp suy luận mờ được lựa chọn; 5) Các đặc trưng của

dữ liệu như độ phức tạp, sự phân bố dữ liệu hay dữ liệu có số chiều lớn, dữ liệu thiếu thông tin

Để đáp ứng các yêu cầu được đặt ra về FRBC ở trên, bài toán thiết kế tự động FRBC từ dữ liệu cần giải quyết các bài toán nhỏ hơn do mỗi bài toán cần các kỹ thuật xử lý khác nhau: thiết kế hệ phân hoạch mờ cho các thuộc tính và trích rút tập luật mờ tối ưu

Với hầu hết các hướng tiếp cận dựa trên lý thuyết tập mờ, các luật mờ được trích rút từ các phân hoạch mờ được thiết kế trước bởi các chuyên gia, tức số từ ngôn ngữ được sử dụng trong các phân hoạch mờ là cố định và được gán cho các tập mờ trong các phân hoạch mờ bằng cảm nhận trực giác của người thiết kế như Ishibuchi và các cộng sự [61-70], Cordon và các cộng sự [26], Alcalá và các cộng

sự [13, 14], Fazzolari và các cộng sự [35, 36] Một số nghiên cứu đề xuất phương pháp xây dựng các phân hoạch mờ rời rạc dựa trên sự phân tích dữ liệu bằng công

Trang 19

nghệ tính toán hạt (granular computing), điển hình như Roh và các cộng sự [106], Salehi và các cộng sự [108] hay dựa trên kỹ thuật rời rạc hóa dữ liệu bởi Fazzolari

và các cộng sự [36] Trong các nghiên cứu này, các từ ngôn ngữ được sử dụng trong biểu diễn cơ sở luật chỉ là các nhãn ngôn ngữ Mặc dù mục tiêu cuối cùng của FRBS là nhằm mô phỏng các khả năng khác biệt của con người trong việc thao tác trực tiếp trên các từ ngôn ngữ nhưng chưa có nghiên cứu nào trong phạm vi lý thuyết tập mờ có thể vận dụng các từ ngôn ngữ nhằm truyền đạt ngữ nghĩa của bản thân chúng, do thiếu một cầu nối hình thức giữa các từ ngôn ngữ với các tập mờ tương ứng Trong thực tế, khi xây dựng một luật mờ biểu diễn một mẩu tri thức từ

dữ liệu được thu thập từ thực tiễn, người thiết kế phải thận trọng lựa chọn các từ cụ thể từ bảng từ vựng của anh ta sao cho phù hợp với mẩu tri thức cần biểu diễn đó Trong quá trình này, các từ ngôn ngữ với ngữ nghĩa vốn có của chúng được tương tác với dữ liệu thu thập được và do đó, về nguyên tắc, tất cả các từ trong bảng từ vựng đều có thể được lựa chọn bởi người thiết kế Tuy nhiên, với các tiếp cận dựa trên lý thuyết tập mờ, ngữ nghĩa vốn có của các từ trong ngôn ngữ tự nhiên không được xem xét dựa trên một cơ sở hình thức Do đó, các phương pháp thiết kế FRBS dựa trên lý thuyết tập mờ không có khả năng mô phỏng quá trình tương tác trong việc lựa chọn các từ ngôn ngữ phù hợp với dữ liệu thực tiễn của bài toán ứng dụng Đại số gia tử (ĐSGT) [50-55] đã có những ứng dụng thành công trong một số lĩnh vực như điều khiển mờ [1, 4, 7, 31, 56, 81, 82], ra quyết định [6, 53], xử lý thao tác cơ sở dữ liệu mờ [2], khai phá dữ liệu [3, 5, 9, 10, 32, 57, 58] ĐSGT cung cấp một cách tiếp cận cho việc xử lý miền giá trị của biến ngôn ngữ, bổ sung một cơ sở đại số cho logic mờ Zadeh [123, 124] và tính toán trên các từ [8], cung cấp một cơ

sở hình thức để liên kết ngữ nghĩa tính toán dựa trên tập mờ với ngữ nghĩa định tính vốn có của các từ ngôn ngữ, trong đó ngữ nghĩa của các từ ngôn ngữ được diễn đạt trên cơ sở thứ tự ngữ nghĩa, đã hình thành một cơ sở hình thức cho phép các tập mờ được sinh từ ngữ nghĩa định tính vốn có của các từ ngôn ngữ Điều này cho phép

mô phỏng quá trình chuyển hóa thành các tập mờ từ thế giới thực của con người Dựa trên cơ chế này, Nguyễn Cát Hồ và các cộng sự [5, 57] đã ứng dụng ĐSGT một cách hiệu quả vào quá trình thiết kế tập giá trị ngôn ngữ cùng với ngữ nghĩa tính toán dựa trên tập mờ tam giác cho bài toán xây dựng tự động cơ sở luật cho FRBC Các từ ngôn ngữ được sử dụng trong biểu diễn cơ sở luật của FRBC là các

từ trong ngôn ngữ tự nhiên, do đó, hệ phân lớp dựa trên luật mờ còn được gọi là hệ phân lớp dựa trên luật ngôn ngữ mờ (fuzzy linguistic rule based classifier - FLRBC)

và luật mờ là luật ngôn ngữ mờ

Trang 20

Về bài toán trích rút tập luật ngôn ngữ mờ tối ưu, các luật ngôn ngữ mờ được sinh từ các phân hoạch mờ và được huấn luyện nhằm thu được tập luật nhỏ gọn và

có độ chính xác phân lớp cao Các tiếp cận dựa trên lý thuyết tập mờ thường sinh các luật ngôn ngữ mờ từ tổ hợp của tất cả từ ngôn ngữ được thiết kế cho các thuộc tính, mỗi tổ hợp sinh ra một tiền đề luật, điển hình như Cordon và các cộng sự [26], Alcalá và các cộng sự [13, 14], Antonelli và các cộng sự [16], Ishibuchi và các cộng

sự [61-70], López và các cộng sự [86] Với cách sinh luật này, số luật ngôn ngữ mờ được sinh ra rất lớn, đặc biệt đối với các tập dữ liệu có số chiều lớn do số luật ngôn ngữ mờ được sinh ra tăng theo hàm mũ đối với số chiều của tập dữ liệu Một số đề xuất sinh luật dựa trên cây tìm kiếm như Fernández và các cộng sự [41], Fazzolari

và các cộng sự [35] Với phương pháp này, các thuộc tính được sắp xếp theo một thứ tự nào đó và một cây tìm kiếm được xây dựng nhằm liệt kê tất cả các tập mục

mờ thường xuyên cho mỗi nhãn lớp và sinh các luật kết hợp cho bài toán phân lớp, tức các luật được lọc theo tiêu chuẩn độ hỗ trợ (support) và độ tin cậy (confidence) trong khai phá luật kết hợp Tuy vậy, số luật ngôn ngữ mờ được sinh ra vẫn có thể rất lớn Một số đề xuất khác thực hiện sinh luật dựa trên cây quyết định (decision tree) như Abonyi và các cộng sự [12], Pulkkinen và Koivisto [103] Phương pháp này đã làm giảm đáng kể số lượng luật nhưng do dựa vào chiến lược tìm kiếm tham lam, nên dễ dẫn đến các quyết định tối ưu địa phương Mặt khác, khi chuyển đổi từ cây quyết định sang mô hình mờ thường làm giảm chất lượng của hệ phân lớp và quá trình hiệu chỉnh mô hình thường làm tăng độ phức tạp của hệ phân lớp Với tiếp cận dựa trên ĐSGT [5, 57], Nguyễn Cát Hồ và các cộng sự đã đề xuất phương pháp sinh các luật ngôn ngữ mờ trực tiếp từ các mẫu dữ liệu, theo đó, mỗi mẫu dữ liệu sinh ra một luật có độ dài bằng số thuộc tính của tập dữ liệu và các luật có độ dài nhỏ hơn được sinh ra bằng cách bỏ bớt một số điều kiện luật Phương pháp sinh luật này hạn chế được số luật ngôn ngữ mờ được sinh ra và không phụ thuộc vào số từ ngôn ngữ được sử dụng Đây là phương pháp sinh luật tốt nên luận án sử dụng để sinh luật trong các thực nghiệm

Hệ dựa trên luật mờ với các luật mờ được trích xuất từ dữ liệu cho bài toán phân lớp được Ishibuchi và các cộng sự đề xuất năm 1992 [61] Tuy nhiên, hệ luật

mờ thu được còn phức tạp (số luật và số điều kiện lớn) và có độ chính xác chưa cao

Các FRBS cung cấp cho người dùng cuối một mô hình dễ hiểu, nhưng chúng lại không có khả năng học Do đó, các hệ thông minh lai giữa FRBS với các giải thuật học được đề xuất, trong đó có mạng nơ-ron và các giải thuật tiến hóa (evolutionary algorithm) được nghiên cứu rộng rãi Khi FRBS được tích hợp với mạng nơ-ron thì

hệ lai thu được gọi là hệ mờ nơ-ron (neuro-fuzzy systems - NFSs) và khi FRBS

Trang 21

được tích hợp với một giải thuật tiến hóa thì được gọi là hệ dựa trên luật mờ tiến hóa (evolutionary fuzzy rule based system - EFRBS)

Do không chỉ xét đến độ chính xác mà còn xét đến tính dễ hiểu của FRBC trong

thiết kế và quá trình tối ưu, để mô hình phân lớp thu được đảm bảo sự cân bằng

giữa các tiêu chuẩn tối ưu là độ chính xác và tính dễ hiểu, các thuật toán tối ưu đa

mục tiêu được sử dụng để tối ưu FRBC như tìm kiếm hệ luật tối ưu bởi Ishibuchi và các cộng sự [62, 63, 67], Gonzáler và Perez [46-48], Ji-lin và các cộng sự [74]; hiệu chỉnh các tham số của hàm thuộc bởi Shi và các cộng sự [113], Roubos và các cộng

sự [107], Zhou và các cộng sự [127]; hiệu chỉnh các tham số của hàm thuộc kết hợp với tìm kiếm hệ luật tối ưu bởi Setnes và Roubos [112], Alcalá và các cộng sự [14], Fazzolari và các cộng sự [35, 36]; hiệu chỉnh trọng số luật bởi Nauck và Kruse [98], Cordon và các cộng sự [26], Ishibuchi và các cộng sự [61, 68], Mansoori và các cộng sự [91], Jahromi và Taheri [71], Fakhrahmad và Jahromi [34], DelaOssa và các cộng sự [29] Một số nghiên cứu khác tập trung vào thiết kế tối ưu FRBC cho các tập dữ liệu có số chiều lớn bởi Fernández và các cộng sự [41], Fazzolari và các cộng sự [35], cho tập dữ liệu có số mẫu dữ liệu không cân bằng đối với các nhãn lớp (imbalanced datasets) bởi Fernández và các cộng sự [37-40], Lopéz và các cộng

sự [87] và cho các tập dữ liệu thiếu thông tin (datasets with missing values) bởi Luengo và các cộng sự [88] Cùng chung với các hướng nghiên cứu trên, hướng nghiên cứu trích xuất hệ luật mờ Mamdani tối ưu cho bài toán hồi quy cũng được thực hiện, đại diện là Antonelli và các cộng sự [15], Gacto và các cộng sự [44] Hầu hết các đề xuất trên sử dụng các chiến lược tìm kiếm tối ưu các tham số của hàm thuộc, không tối ưu ngữ nghĩa của các từ ngôn ngữ, do đó, số tham số cần hiệu chỉnh thích nghi lớn và không bảo toàn được ngữ nghĩa của các từ ngôn ngữ Với tiếp cận dựa trên ĐSGT [5, 57], các tham số ngữ nghĩa chỉ phụ thuộc vào bản thân các biến ngôn ngữ của chúng, nên khi các tham số ngữ nghĩa được tối ưu cho các thuộc tính của một tập dữ liệu cụ thể, tập giá trị ngôn ngữ của các thuộc tính cũng được thiết kế tối ưu cho tập dữ liệu đó

Từ những nhận định trên luận án thấy rằng, phương pháp thiết kế FLRBC trên

cơ sở ứng dụng ĐSGT đã khắc phục được một số hạn chế của các tiếp cận dựa trên

lý thuyết tập mờ Tuy nhiên, hướng tiếp cận này vẫn tồn tại những hạn chế trong biểu diễn ngữ nghĩa, chẳng hạn, hiện tại mới chỉ sử dụng ngữ nghĩa định lượng điểm (lõi ngữ nghĩa điểm) và do đó, ngữ nghĩa tính toán dựa trên tập mờ có lõi là một điểm (tập mờ tam giác) Trong ứng dụng lý thuyết tập mờ cũng thường đòi hỏi lõi của tập mờ là một khoảng do ngữ nghĩa của từ ngôn ngữ chứa một miền có giá trị phù hợp với ngữ nghĩa của từ nhất Ngữ nghĩa dựa trên tập mờ của các từ ngôn

Trang 22

ngữ được xem là dạng hạt (granule) và có lõi (core) Như vậy, ngữ nghĩa của mỗi từ ngôn ngữ đều có lõi và được gọi là lõi ngữ nghĩa (semantics core) Trong xu thế nghiên cứu ĐSGT, một cơ sở hình thức toán học cần được phát triển để sinh lõi khoảng của tập mờ biểu diễn ngữ nghĩa của từ ngôn ngữ Luận án nghiên cứu trường hợp cụ thể sinh lõi khoảng của tập mờ hình thang do lõi của hình thang có dạng khoảng nên chúng có thể được sử dụng để biểu diễn lõi ngữ nghĩa được biểu thị bằng tập mờ của các từ ngôn ngữ Mặt khác, vấn đề tối ưu các tham số ngữ nghĩa, sinh luật và tìm kiếm hệ luật tối ưu vẫn cần những nghiên cứu cải tiến

Mục tiêu đặt ra của luận án: Thứ nhất là mở rộng ĐSGT để làm cơ sở hình

thức toán học cho việc sinh lõi của các tập mờ gán cho các từ ngôn ngữ, cụ thể là lõi của tập mờ hình thang và ứng dụng giải bài toán thiết kế tự động cơ sở luật cho hệ phân lớp dựa trên luật ngôn ngữ mờ Thứ hai là nghiên cứu thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT dựa trên kỹ thuật tính toán mềm

Với các mục tiêu đặt ra của luận án, các đóng góp của luận án là:

 Đề xuất mở rộng lý thuyết đại số gia tử biểu diễn lõi ngữ nghĩa của các từ ngôn ngữ nhằm cung cấp một cơ sở hình thức cho việc sinh tự động ngữ nghĩa tính toán dựa trên tập mờ có lõi là một khoảng Luận án nghiên cứu trường hợp cụ thể là ngữ nghĩa dựa trên tập mờ hình thang Đóng góp này

của luận án đã được công bố ở Tạp chí Tin học và Điều khiển học năm 2012

và 2013 (công trình [CT1] và [CT4]); Tạp chí Knowledge-Based Systems

(công trình [CT5])

 Ứng dụng lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ trong việc phát triển các phương pháp, thuật toán thiết kế tối ưu các hệ phân lớp dựa trên luật ngôn ngữ mờ đảm bảo tính giải nghĩa được (interpretability) của chúng So sánh đánh giá kết quả của các đề xuất so với một số kết quả được công bố trước đó Đóng góp này của

luận án đã được công bố ở Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) năm 2013 (công trình [CT3]); Tạp chí Tin học và Điều khiển học năm 2013 (công trình [CT4]); Tạp chí Knowledge-Based Systems (công trình [CT5])

 Nghiên cứu các yếu tố ảnh hưởng đến hiệu quả của các phương pháp thiết

kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT và đề xuất các phương pháp nâng cao hiệu quả thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ sử dụng kỹ

Trang 23

thuật tính toán mềm Đóng góp này của luận án đã được công bố ở Kỷ yếu hội thảo quốc tế RIVF năm 2013 (công trình [CT2]); Tạp chí Khoa học, Đại học Quốc gia Hà Nội năm 2014 (công trình [CT6]); Tạp chí Tin học và Điều khiển học năm 2015 (công trình [CT7]); Tạp chí Khoa học và Công nghệ, VAST năm 2015 (công trình [CT8])

Các nội dung và kết quả nghiên cứu được trình bày trong luận án đã được công

bố trong 8 công trình khoa học, bao gồm: 1 bài báo quốc tế trong danh mục SCI; 3 bài báo ở Tạp chí Tin học và Điều khiển học; 1 bài báo ở Tạp chí khoa học, Đại học Quốc gia Hà Nội; 1 bài báo ở Tạp chí Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công ngệ Việt Nam; 1 báo cáo trong kỷ yếu hội thảo quốc tế có phản biện được xuất bản bởi IEEE và 1 báo cáo tại hội thảo quốc gia có phản biện

Cấu trúc của luận án Luận án được bố cục thành các phần: Mở đầu, 3 chương, kết

luận, tài liệu tham khảo và các phụ lục

Chương 1 giới thiệu tổng quan về hệ dựa trên tri thức luật ngôn ngữ mờ và

ĐSGT, bao gồm: các khái niệm cơ bản, cấu trúc của hệ dựa trên tri thức luật ngôn ngữ mờ và ứng dụng giải bài toán phân lớp, giới thiệu các khái niệm cơ bản và vai trò ứng dụng của ĐSGT

Chương 2 trình bày phương pháp mở rộng lý thuyết ĐSGT nhằm cung cấp một

cơ sở hình thức sinh lõi ngữ nghĩa và ngữ nghĩa tính toán dựa trên tập mờ hình thang của khung nhận thức ngôn ngữ và ứng dụng trong thiết kế hệ dựa trên tri thức luật ngôn ngữ mờ cho bài toán phân lớp Các kết quả thực nghiệm và so sánh đánh giá các phương pháp thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT mở rộng với các phương pháp khác cũng được đề xuất trong chương này

Chương 3 trình bày đề xuất thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn

ngữ mờ với ngữ nghĩa tính toán của từ ngôn ngữ được xác định dựa trên ĐSGT bằng kỹ thuật tính toán mềm Cụ thể, đề xuất ứng dụng thuật toán tối ưu bầy đàn đa mục tiêu và thuật toán tối ưu đa mục tiêu lai giữa thuật toán tối ưu bầy đàn với thuật toán mô phỏng tôi luyện để tối ưu hệ dựa trên tri thức luật ngôn ngữ mờ, đề xuất áp dụng phương pháp lựa chọn đặc trưng nhằm làm giảm thời gian sinh luật ngôn ngữ

mờ đối với các tập dữ liệu có số chiều lớn

Trang 24

CHƯƠNG 1 TỔNG QUAN VỀ HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ

Chương này trình bày một số khái niệm cơ bản liên quan đến cơ sở lý thuyết được sử dụng làm cơ sở lý luận trong luận án, hệ dựa trên luật ngôn ngữ mờ và ứng dụng giải bài toán phân lớp dựa trên luật ngôn ngữ mờ, các khái niệm cơ bản và vai trò ứng của đại số gia tử Dựa trên sự phân tích những ưu và nhược điểm của các phương pháp thiết kế FLRBC để đặt ra các vấn đề cần nghiên cứu và giải quyết của luận án

1.1 MỘT SỐ KHÁI NIỆM CƠ BẢN

1.1.1 Tập mờ

Lý thuyết tập mờ được Zadeh giới thiệu vào năm 1965 [123], mở rộng khái niệm tập hợp kinh điển, nhằm biểu diễn mức độ thuộc của các phần tử vào một tập

hợp

Định nghĩa 1.1 [123] Tập mờ A xác định trên tập kinh điển U là một tập mà mỗi

phần tử của nó là một cặp giá trị (x, μ A (x)), trong đó ∈ với U là tập kinh điển

hay tập nền của tập mờ A và hàm μ A : U → [0, 1] là hàm thuộc với giá trị μ A (x) thể hiện mức độ thuộc của x vào tập mờ A □

Như vậy, hàm μ A (x) nhận giá trị trong khoảng [0, 1] Với một tập mờ A trên U,

hàm  A (x) biểu diễn mức độ thuộc của x vào tập mờ A và giá trị của  A (x) càng gần

1 thì mức độ thuộc của x vào A càng cao Khi μ A (x) = 1, x sẽ thuộc hoàn toàn vào tập mờ A Ngược lại, khi μ A (x) = 0 thì x  A Trong khi với khái niệm tập hợp kinh

điển, μ A (x) = 1 nếu x  A và μ A (x) = 0 nếu x  A

Tập { ∈ : ( ) > 0} được gọi là độ hỗ trợ của tập mờ A Tập { ∈

: ( ) = 1} được gọi là nhân hay lõi của tập mờ A

1.1.2 Biến ngôn ngữ

Khái niệm biến ngôn ngữ được Zadeh giới thiệu năm 1975 [124] Biến ngôn ngữ là loại biến mà các giá trị của nó là các từ hay mệnh đề dưới dạng ngôn ngữ tự

nhiên

Định nghĩa 1.2 [124] Biến ngôn ngữ là một bộ 5 thành phần (X , T( X ), U, R, M),

trong đó X : tên biến, T( X): tập các giá trị ngôn ngữ của biến X, U: không gian các giá trị (số) của biến, R: quy tắc cú pháp sinh ra các giá trị ngôn ngữ T( X ), M: tập các

Trang 25

luật ngữ nghĩa nhằm gán ngữ nghĩa của mỗi giá trị ngôn ngữ cho một tập mờ trên

nền U □

Khái niệm biến ngôn ngữ cung cấp một phương thức đặc tả tính gần đúng của các hiện tượng được coi là quá phức tạp hay quá mập mờ theo cách mô tả dưới dạng định lượng thông thường

Ví dụ 1.1 Biến ngôn ngữ và giá trị ngôn ngữ:

Câu 1: I am not tall

Biến ngôn ngữ: Height

Giá trị ngôn ngữ: Tall

Câu 2: I am heavy

Biến ngôn ngữ: Weight

Giá trị ngôn ngữ: Heavy

Trên Hình 1.1, các tập mờ biểu diễn ngữ nghĩa của các giá trị ngôn ngữ của

biến ngôn ngữ Height là “tall”, “medium”, “short”; của các giá trị ngôn ngữ của biến ngôn ngữ Weight là “heavy”, “medium”, “light”

1.1.3 Phân hoạch mờ

Định nghĩa 1.3 [21] Một dãy các tập mờ A = {A 1 , …, A n } thỏa  ≠ A i ≠ X với i =

1, …, n là một phân hoạch hữu hạn của một tập C nếu và chỉ nếu ∑ ( ) =( ) với mọi ∈

Một phân hoạch mờ A = {A i | i = 1, …, n} bao phủ toàn bộ không gian X, nghĩa

là mỗi phần tử của X thuộc vào ít nhất một tập mờ Do đó: ∀ ∈ , ∃ ∈[1, ], ( ) > , trong đó, > 0 biểu thị mức phủ của X □

Mỗi phân hoạch mờ trong Định nghĩa 1.3 được gọi là một thể hạt (granularity)

và mỗi tập mờ trong phân hoạch được gọi là một hạt (granule) Một phân hoạch mờ chỉ gồm một thể hạt được gọi là cấu trúc phân hoạch mờ đơn thể hạt (single granularity structure), gọi tắt là cấu trúc đơn thể hạt Ngược lại, một phân hoạch mờ gồm nhiều thể hạt được gọi là cấu trúc phân hoạch mờ đa thể hạt (multiple granularity structure), gọi tắt là cấu trúc đa thể hạt

Hình 1.1 Biến ngôn ngữ, các giá trị ngôn ngữ và các tập mờ tương ứng

Trang 26

a Cấu trúc phân hoạch mờ đơn thể hạt b Cấu trúc phân hoạch mờ đa thể hạt

Hình 1.2 Hai phân hoạch mờ đơn thể hạt và đa thể hạt

Ví dụ 1.2 Hình 1.2.a thể hiện phân hoạch mờ được phân hoạch bởi 6 tập mờ

được thiết kế dưới dạng cấu trúc đơn thể hạt và được gán các nhãn ngôn ngữ {“Rất trẻ”, “Trẻ”, “Ít trẻ”, “Ít già”, “Già”, “Rất già”} Hình 1.2.b thể hiện cấu trúc phân

hoạch mờ đa thể hạt (hai thể hạt) được phân hoạch bởi 9 tập mờ Thể hạt thứ nhất

bao gồm 4 tập mờ được gán các nhãn ngôn ngữ {“0 1 ” = “Vô cùng trẻ”, “trẻ”, “già”,

“1 1 ” = “Vô cùng già”}, thể hạt thứ hai bao gồm 5 tập mờ được gán các nhãn ngôn ngữ {“0 2 ” = “Vô cùng trẻ”, “rất trẻ”, “trung niên”, “rất già”, “1 2 ” = “Vô cùng già”} □

1.1.4 Luật ngôn ngữ mờ và hệ luật ngôn ngữ mờ

Luật ngôn ngữ mờ hay luật mờ if-then, được gọi tắt là luật mờ, là một phát biểu

có điều kiện dưới dạng if A then B Phần if của luật được gọi là giả thuyết hay tiền

đề luật, phần then của luật được gọi là kết luận Có hai loại luật mờ được sử dụng

phổ biến trong các mô hình mờ là Mamdani và Takagi-sugeno Đối với các luật mờ Mamdani, phần kết luận của luật được biểu diễn bằng các biến ngôn ngữ Đối với các luật mờ Takagi-Sugeno, phần kết luận của luật được biểu diễn bởi một hàm rõ của các biến đầu vào Ngoài ra, còn có luật mờ Tsukamoto với phần kết luận được biểu diễn bởi một tập mờ có hàm thuộc đơn điệu và kết quả suy luận của luật là giá trị rõ

Tập luật mờ hay hệ luật mờ là sự kết hợp của nhiều luật mờ Một hệ luật mờ phải đảm bảo:

- Tính đủ: một điểm đầu vào phải có ít nhất một luật hoạt động

- Tính nhất quán: không có hai luật nào có cùng phần if nhưng phần then lại

khác nhau

- Tính liên tục: không có phần then nào trống

Trang 27

1.1.5 Bài toán phân lớp dữ liệu

Phân lớp nhằm xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước

Bài toán phân lớp dữ liệu là một bài toán kinh điển trong khai phá dữ liệu được nhiều tác giả nghiên cứu và thiết kế mô hình phân lớp nhằm đáp ứng các ứng dụng

thực tế Bài toán phân lớp dữ liệu P được phát biểu như sau: cho một tập dữ liệu

mẫu D = {(d l , C l ), l = 1, …, m}, trong đó m là số mẫu dữ liệu, d l = [d l,1 , d l,2 , , d l,n]

là dòng thứ l trong m mẫu dữ liệu có n thuộc tính, C = {C s | s = 1, …, M} là một tập gồm M nhãn lớp

Giải bài toán phân lớp dữ liệu P là xây dựng mô hình phân lớp dựa trên tập dữ

liệu mẫu để phân lớp cho các dữ liệu với mục tiêu đạt độ chính xác phân lớp cao nhất nhưng mô hình thu được phải thật đơn giản và dễ hiểu với người dùng Các phương pháp học máy, mạng nơ-ron, hệ dựa trên luật mờ, … được sử dụng để xây dựng mô hình phân lớp đáp ứng mục tiêu trên

Quá trình xây dựng mô hình phân lớp thường được chia thành hai bước:

Bước 1 Huấn luyện: một mô hình phân lớp được xây dựng dựa trên các tập dữ

liệu mẫu đã được gán nhãn, được gọi là các tập dữ liệu huấn luyện Tùy thuộc vào phương pháp luận được sử dụng để xây dựng mô hình mà đầu ra của bước này là

một mô hình được biểu diễn bởi các quy tắc phân lớp dưới dạng các luật if-then,

mạng nơ-ron, cây quyết định, công thức logic, …

Bước 2 Thử nghiệm mô hình: sử dụng mô hình đã được xây dựng tại bước 1 để

phân lớp trên tập dữ liệu được gán nhãn khác được chọn ngẫu nhiên và độc lập với tập dữ liệu huấn luyện Tập dữ liệu này được gọi là tập dữ liệu kiểm tra Nếu độ chính xác của mô hình là chấp nhận được thì mô hình được dùng để phân lớp dữ liệu tương lai

1.2 HỆ DỰA TRÊN LUẬT NGÔN NGỮ MỜ

Các công cụ toán học truyền thống không phù hợp đối với việc mô hình hóa và

xử lý các hệ không rõ ràng và không chắc chắn Với việc khai thác tri thức được

biểu diễn dưới dạng các luật ngôn ngữ mờ dạng if-then, một hệ dựa trên luật ngôn

ngữ mờ có thể mô hình hóa được khía cạnh định tính của tri thức và các quá trình suy luận của con người mà không cần phân tích định lượng một cách chính xác

Trang 28

1.2.1 Cấu trúc của hệ dựa trên luật ngôn ngữ mờ

Các hệ dựa trên luật ngôn ngữ mờ được ứng dụng trong nhiều lĩnh vực khác nhau như điều khiển tự động, nhận dạng mẫu, chuẩn đoán lỗi, … Chúng có cấu trúc

và tên gọi khác nhau gắn với lĩnh vực ứng dụng như hệ chuyên gia mờ, bộ nhớ liên hợp mờ hay hệ điều khiển mờ Chia theo kiểu luật ngôn ngữ mờ được sử dụng để biểu diễn cơ sở tri thức thì có hệ dựa trên luật ngôn ngữ mờ Mamdani (mô hình mờ Mamdani), hệ dựa trên luật ngôn ngữ mờ Takagi-Sugeno (mô hình mờ Takagi-Sugeno), hệ dựa trên luật ngôn ngữ mờ Tsukamoto (mô hình mờ Tsukamoto là một biến thể của mô hình mờ Takagi-Sugeno với phần kết luận là một hàm đơn điệu) và một biến thể của mô hình mờ Mamdani sử dụng toán tử nhân là mô hình mờ Larsen

Mỗi mô hình mờ cụ thể có cấu trúc khác nhau, nhưng về cơ bản bao gồm hai thành phần chính: cơ sở tri thức (knowledge base) và hệ suy luận (inference system) Cơ sở tri thức được cấu tạo bởi hai thành phần chính là cơ sở dữ liệu và cơ

sở luật Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng trong biểu diễn

cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ Cơ sở luật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng các luật ngôn ngữ mờ Hệ suy luận áp dụng một phương pháp suy luận mờ trên các đầu vào và cơ

sở tri thức nhằm tạo sinh kết quả sau quá trình suy luận Trên Hình 1.3 là cấu trúc

cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani [27]

Hình 1.3 Cấu trúc cơ bản của một hệ dựa trên luật ngôn ngữ mờ Mamdani [27]

Cả cơ sở tri thức và hệ suy luận cần được thiết kế để xây dựng một hệ dựa trên luật ngôn ngữ mờ cho các ứng dụng cụ thể Cơ sở tri thức có thể được thu nhận từ tri thức của các chuyên gia hoặc bằng các phương pháp học máy (machine learning) Với các tiếp cận dựa trên lý thuyết tập mờ và logic mờ, hệ suy luận được thiết lập bởi các toán tử mờ đối với các phép hợp thành, suy dẫn và giải mờ Các toán tử này có thể được tham số hóa và được hiệu chỉnh thích nghi bởi các phương pháp tối ưu Những yếu tố ảnh hưởng đến kết quả tính toán trong quá trình suy luận bao gồm:

Trang 29

- Việc chọn các hàm thuộc dùng để biểu diễn ngữ nghĩa của các tập mờ

- Việc chọn các toán tử suy dẫn (implication) để tính toán các quan hệ mờ

- Việc chọn phép hợp thành

- Việc chọn phương pháp giải mờ

Các lựa chọn trên chủ yếu dựa vào trực giác kinh nghiệm và qua thực nghiệm trên các bài toán thực tế Các lựa chọn khác nhau có thể cho kết quả đối nghịch

1.2.2 Bài toán thiết kế hệ phân lớp dựa trên luật ngôn ngữ mờ

Từ năm 1975, hệ dựa trên luật ngôn ngữ mờ được thiết kế dựa vào tri thức của các chuyên gia đã được nghiên cứu và ứng dụng vào các bài toán điều khiển [89,

123, 124] Khi độ phức tạp của hệ thống cần điều khiển tăng lên, tri thức của các chuyên gia không đủ để thiết kế hệ dựa trên luật ngôn ngữ mờ và xuất hiện nhu cầu trích rút hệ dựa trên luật ngôn ngữ mờ từ dữ liệu số cho bài toán điều khiển [121]

Từ những năm 1990, một số phương pháp trích rút hệ luật ngôn ngữ mờ từ dữ liệu cho bài toán phân lớp đã được đề xuất [11, 61] Các nghiên cứu sau này về cơ bản

đề xuất các kỹ thuật nhằm cải tiến các phương pháp này Ưu điểm của mô hình này:

- Vì các hệ dựa trên luật ngôn mờ là công cụ xấp xỉ vạn năng các hàm phi tuyến nên chúng có thể giải quyết hiệu quả các bài toán phân lớp phi tuyến

- Người dùng cuối có thể sử dụng những tri thức dạng luật được trích rút từ dữ liệu số có tính dễ hiểu, dễ sử dụng đối với con người như là những tri thức của họ Luật ngôn ngữ mờ được sử dụng trong FLRBC được gọi là luật mờ phân lớp

Luật mờ phân lớp dạng if-then với các điều kiện mờ nằm trong phần if và một nhãn lớp kết luận nằm trong phần then được nghiên cứu rộng rãi do không cần quá trình

giải mờ Hệ các luật mờ phân lớp bao gồm một tập luật mờ có trọng số dạng:

Luật R q : if X 1 is A q,1 and and X n is A q,n then C q with CF q , với q=1 N (1.1) trong đó X = {X j , j = 1, , n} là tập n biến ngôn ngữ (thuộc tính) và A q,j (j=1, , n)

là các giá trị ngôn ngữ của các điều kiện mờ trong tiền đề, C q là nhãn lớp kết luận của R q và N là số luật mờ, CF q là trọng số của luật thứ q Luật R q có thể được viết tắt dưới dạng ⟹ with CF q , trong đó A q là tiền đề của luật thứ q

Hệ các luật mờ phân lớp, ký hiệu là S, biểu diễn tri thức về bài toán nên nó

không chỉ phản ảnh tính đúng đắn đối với tập dữ liệu mẫu mà còn có khả năng dự đoán giúp cho người dùng phán đoán, ra quyết định Do đó, hệ luật phải xúc tích, dễ hiểu và có thể mở rộng đối với người dùng

Trang 30

Giải bài toán thiết kế FLRBC là xây dựng bài toán trích rút tự động hệ luật ngôn ngữ mờ từ dữ liệu sao cho hệ luật thu được phải dễ hiểu, tức là số luật và số điều kiện tạo nên luật phải đủ nhỏ, ngữ nghĩa tính toán của các giá trị ngôn ngữ của các biến ngôn ngữ xuất hiện trong hệ luật phải phản ánh được đúng ngữ nghĩa của bản thân chúng nhưng vẫn đảm bảo hiệu quả phân lớp cao

Ký hiệu f p (S), f n (S) và f a (S) lần lượt là hàm đánh giá độ chính xác phân lớp của

hệ S đối với tập dữ liệu huấn luyện, số luật trong hệ S và độ dài trung bình hay số điều kiện trung bình của vế trái của các luật trong hệ S Khi đó, mục tiêu xây dựng

hệ phân lớp thỏa các mục tiêu:

f p (S) → max, f n (S) → min và f a (S) → min (1.2) Các mục tiêu trên mâu thuẫn nhau Khi số luật tăng lên thì lượng tri thức về bài toán tăng lên, nhưng lại tăng tính khó hiểu của hệ luật Ngược lại, khi số luật giảm thì lượng tri thức về bài toán giảm đi dẫn đến sai số phân lớp tăng lên Mặt khác, số điều kiện trung bình của hệ luật phản ảnh tính phổ quát và tính cá biệt của hệ luật

Do đó, khi số điều kiện trung bình của hệ luật giảm đi sẽ làm tăng tính phổ quát của

hệ luật nhưng lại dẫn đến nguy cơ sai số phân lớp tăng lên Ngược lại, khi số điều kiện trung bình của hệ luật tăng lên làm tăng tính cá biệt của hệ luật Các phương pháp giải bài toán phân lớp dựa trên luật mờ phải cân bằng các mục tiêu trên

Các bước của bài toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm:

Bước 1 Phân hoạch miền giá trị của các thuộc tính của tập dữ liệu thành các

vùng mờ bằng các tập mờ tương ứng với các giá trị ngôn ngữ của biến ngôn ngữ

Bước 2 Trích rút các luật mờ từ các phân hoạch mờ được tạo ở bước 1 sao cho

hệ luật mờ S thu được nhỏ gọn, dễ hiểu và có độ chính xác phân lớp cao

Hai phương pháp phân hoạch mờ thường được sử dụng cho FLRBC là phân hoạch lưới (grid partition) được Ishibuchi và các cộng sự đề xuất trong [61] và phân hoạch rời rạc (scatter partition) rạc được Abe và Lan đề xuất trong [11]

- Phương pháp phân hoạch lưới chia miền giá trị của các thuộc tính thành các siêu hộp mờ và mỗi luật mờ được hình thành từ một tổ hợp của các giá trị ngôn ngữ trong không gian phân hoạch tương ứng với một siêu hộp mờ có chứa dữ liệu Nếu phân hoạch lưới quá thưa thì khả năng các mẫu dữ liệu của các lớp khác nhau có thể thuộc cùng một siêu hộp mờ và độ chính xác có thể thấp vì nhiều mẫu bị phân lớp sai Ngược lại, nếu phân hoạch quá mịn thì nhiều luật có thể không được sinh ra do thiếu các mẫu dữ liệu huấn luyện trong các không gian mờ con tương ứng Để cân bằng giữa tính thưa và mịn của lưới phân hoạch Ishibuchi đã đề xuất phân hoạch đa

Trang 31

lưới, tức dùng nhiều lưới dữ liệu từ thưa đến mịn Tuy nhiên, nhược điểm chính của cách phương pháp phân hoạch đa lưới là số luật mờ được sinh ra rất lớn, đặc biệt đối với các tập dữ liệu có số chiều lớn [61-63]

Hình 1.4 Phân hoạch lưới trên miền của hai thuộc tính

Hình 1.4 thể hiện một phân hoạch lưới mờ đối với tập dữ liệu có hai thuộc tính

sử dụng ba tập mờ tam giác ứng với các giá trị ngôn ngữ là “nhỏ”, “trung bình” và

“lớn” Ba lớp được biểu thị bằng dấu tròn, vuông và tam giác

Hình 1.5 Phân hoạch rời rạc trên miền của hai thuộc tính

- Phương pháp phân hoạch rời rạc thực hiện phân hoạch mờ dựa trên sự phân

bố dữ liệu và thường áp dụng các phương pháp học máy (machine learning) gắn với phương pháp hiệu chỉnh các tham số mờ của hệ mờ Phương pháp phân hoạch này thường cho độ chính xác phân lớp cao nhưng các tập mờ trong phân hoạch thường

Trang 32

bị biến dạng và chồng lấn lên nhau gây khó hiểu đối với người sử dụng Ta dễ dàng nhận thấy nhược điểm này trong Hình 1.5

Trong bước trích rút các luật mờ từ các phân hoạch mờ, một số lượng khổng lồ các luật mờ có thể được tạo ra, trong đó có nhiều luật không có ý nghĩa quyết định vào quá trình phân lớp [61] Nhóm tác giả Ishibuchi đã đề xuất ý tưởng sử dụng các thước đo đánh giá luật dựa trên độ tin cậy (confidence) và độ hỗ trợ (support) trong khai phá dữ liệu theo công thức (1.3) và (1.4) làm tiêu chuẩn sàng (prescreening criteria) để sàng lọc ra các luật ứng viên cho tiến trình lựa chọn luật [67]:

trong đó là độ tương thích hay độ đốt cháy của mẫu dữ liệu d p đối với điều

kiện A q của luật R q và thường được tính bằng biểu thức toán tử nhân (product operator) như sau:

- Độ tin cậy (c), độ hỗ trợ (s) và tích (c × s) đều có thể dùng làm tiêu chuẩn sàng Các kết quả thực nghiệm cho thấy, tiêu chuẩn sàng (c × s) chọn lọc được hệ

luật cho độ chính xác phân lớp tốt hơn các tiêu chuẩn còn lại

- Nhãn lớp của từng điều kiện tiền đề A q được xác định như sau:

Trang 33

c q,2nd là độ tin cậy lớn nhất của các luật có cùng điều kiện A q nhưng khác kết luận

Có thể áp dụng một trong hai phương pháp lập luận đối với hệ luật S để phân lớp cho một mẫu dữ liệu d p = [d p,1 , d p,2 , , d p,n]

- Phương pháp lập luận là Single Winner Rule: chọn luật thắng (winner rule)

R w là luật có tích của độ tương thích hay độ đốt cháy và trọng số luật CF q

là lớn nhất và phân lớp tương ứng với nhãn lớp C w của luật đó:

- Phương pháp lập luận bầu cử có trọng số (weighted vote) chọn lớp có tổng

mức đốt cháy lớn nhất của các luật có cùng kết luận đối với mẫu dữ liệu d p:

Các luật mờ được sinh ra được chia thành M nhóm tương ứng với các nhãn lớp Các luật trong mỗi nhóm được sắp xếp giảm dần theo một tiêu chuẩn sàng Chọn N luật ứng viên từ mỗi nhóm Sau khi chọn được N × M luật ứng viên, một thuật toán

tối ưu đa mục tiêu được sử dụng để trích chọn ra một số luật từ mỗi lớp cho hệ phân lớp sao cho hệ luật thu được nhỏ gọn và đạt độ chính xác phân lớp cao

Trang 34

1.2.3 Những vấn đề tồn tại

Hệ phân lớp dựa trên luật ngôn ngữ mờ được cộng đồng các nhà khoa học quan tâm nghiên cứu rộng rãi và đã đạt được kết quả khá tốt so với các tiếp cận khác Trong hướng nghiên cứu này vẫn còn nhiều vấn đề tồn tại cần phải nghiên cứu, giải quyết

- Hầu hết các phương pháp thiết kế FLRBC được đề xuất đều sinh các luật ngôn ngữ mờ dựa trên các phân hoạch mờ với các tập mờ được thiết kế sẵn Mặc dù

có một số kỹ thuật sinh tự động các phân hoạch mờ dựa trên công nghệ tính toán hạt (granular computing) nhưng vẫn là tiếp cận hiệu chỉnh các tham số của hàm thuộc thích nghi với dữ liệu Do vậy, các đề xuất theo hướng tiếp cận lý thuyết tập mờ vẫn thiếu một cơ chế hình thức liên kết giữa ngữ nghĩa vốn có của các từ ngôn ngữ với các tập mờ tương ứng của chúng; thiếu một cơ sở hình thức hóa toán học trong thiết

kế tự động ngữ nghĩa tính toán dựa trên tập mờ từ ngữ nghĩa vốn có của các từ ngôn ngữ, dẫn đến hệ phân lớp thu được không là kết quả của sự tương tác giữa ngữ nghĩa của các từ ngôn ngữ với dữ liệu

- Do các từ ngôn ngữ được gán cho các tập mờ dựa trên cảm nhận trực giác của người thiết kế nên chưa có cơ chế hình thức đánh giá tính khái quát và tính cụ thể của các từ ngôn ngữ và bài toán thiết kế các thể hạt (granularity) cho các phân hoạch mờ trên miền các thuộc tính đảm bảo sự cân bằng giữa tính khái quát và tính

cụ thể của các từ ngôn ngữ chưa được đặt ra

- Tồn tại nhiều dạng bài toán phân lớp khác nhau đang được các nhà nghiên cứu quan tâm giải quyết bằng FLRBC, do phải cần có những kỹ thuật xử lý riêng như: bài toán phân lớp đối với các tập dữ liệu lớn, các tập dữ liệu có số chiều lớn, các tập dữ liệu có nhiều mẫu dữ liệu, các tập dữ liệu thiếu thông tin, các tập dữ liệu

có số mẫu dữ liệu không cân bằng đối với các nhãn lớp; bài toán học nửa giám sát (semi-supervised learning); bài toán học với dữ liệu trực tuyến

1.3 ĐẠI SỐ GIA TỬ

Con người sử dụng ngôn ngữ tự nhiên để giao tiếp và nhận thức thế giới Tuy nhiên, tính nhập nhằng và mơ hồ luôn xuất hiện trong ngôn ngữ tự nhiên khi mô tả các sự vật, hiện tượng do phải dùng vốn ngôn ngữ hữu hạn để mô tả vô hạn các đối tượng nên một từ phải mô tả được nhiều trạng thái Điều này dẫn đến bản chất của ngôn ngữ tự nhiên mang tính nhập nhằng và không chính xác

Các phương pháp hình thức cần dựa trên cấu trúc để mô hình hóa Do vậy, để

có thể mô tả được ngôn ngữ tự nhiên bằng các phương pháp hình thức thì phải dựa

Trang 35

trên cấu trúc tự nhiên và vận dụng phương pháp hình thức phù hợp mô tả ngôn ngữ

đó Trong các nghiên cứu của mình, Nguyễn Cát Hồ và các cộng sự đã phát hiện ra một cấu trúc trong ngôn ngữ tự nhiên đó là cấu trúc quan hệ so sánh Cụ thể, miền giá trị của các biến ngôn ngữ có thể được sắp xếp theo thứ tự ngữ nghĩa vốn có của các từ ngôn ngữ trong ngôn ngữ tự nhiên Từ cấu trúc này, một cấu trúc đại số, gọi

là đại số gia tử (ĐSGT), được đề xuất để mô hình hóa cấu trúc tự nhiên của miền giá trị của các biến ngôn ngữ Khác với lý thuyết tập mờ của Zadeh gán cho ngữ nghĩa của các từ ngôn ngữ một cấu trúc hàm để tính toán trên đó nhằm thoát khỏi ngôn ngữ, ĐSGT xuất phát từ ngôn ngữ để tìm ra cấu trúc toán học trên miền giá trị của biến ngôn ngữ và hình thành phương pháp luận sinh ngữ nghĩa tính toán từ ngữ nghĩa định tính vốn có của các từ ngôn ngữ

1.3.1 Đại số gia tử của biến ngôn ngữ

Định nghĩa 1.4 [50] Giả sử X là một biến ngôn ngữ có miền giá trị là Dom(X) Một

ĐSGT AX tương ứng của X là một bộ 5 thành phần AX = (X, C, G, H, ≤), trong đó: (X, ≤) là cấu trúc dựa trên quan hệ thứ tự, X là một tập giá trị ngôn ngữ của X với X

 Dom(X) và ≤ là quan hệ thứ tự được cảm sinh bởi ngữ nghĩa vốn có của các từ ngôn ngữ trên X; G = {c-, c+} là tập các phần tử sinh có quan hệ ngữ nghĩa c- ≤ c+,

trong đó c- và c+ tương ứng là phần tử sinh nguyên thủy âm và dương; C = {0, W, 1} là tập các hằng thỏa quan hệ ngữ nghĩa 0 ≤ c- ≤ W ≤ c+ ≤ 1, trong đó 0 và 1 tương ứng là phần tử nhỏ nhất và phần tử lớn nhất trong cấu trúc (X, ≤), W là phần tử trung hòa; H là tập các gia tử của biến ngôn ngữ X □

Khi tác động gia tử h  H vào giá trị ngôn ngữ x  X \ C thì sẽ cảm sinh ra giá trị ngôn ngữ mới, ký hiệu là hx Với mỗi x  X, ký hiệu H(x) là tập tất cả các giá trị ngôn ngữ u  X được cảm sinh từ x bằng cách áp dụng các gia tử trong H và được

biểu diễn bởi chuỗi u = h n …h1x, với h n , …, h1  H Trong trường hợp x  {c-, c+}

thì chuỗi u = h n …h1c được gọi là một biểu diễn chính tắc nếu h j+1 …h1c ≠ h j …h1c với mọi j = 1, …, n - 1 và khi đó u có độ dài n + 1, được ký hiệu là |u| hoặc l(u) Để

tiện cho việc biểu diễn các tập con của miền giá trị của biến ngôn ngữ theo độ dài,

ta có các ký hiệu sau: X k là tập tất cả các giá trị ngôn ngữ có độ dài đúng bằng k và

X (k) là tập tất cả các giá trị ngôn ngữ có độ dài nhỏ hơn hoặc bằng k

Ví dụ 1.3 Giả sử X là tuổi của người Tập các phần tử sinh G = {“trẻ”, “già”}, tập

các gia tử H = {ít, rất}, tập các hằng C = {0, W, 1} với W = ”trung niên”, 0 = “cực

kỳ trẻ” và 1 = ”cực kỳ già” Miền giá trị của biến ngôn ngữ Dom(X) = {“trẻ”, “già”,

Trang 36

“rất trẻ”, “ít trẻ”, “ít già”, “rất già”, “rất rất già”, …}  {0, W, 1} Độ dài của các

giá trị ngôn ngữ “già”, “rất già”, “rất rất già” lần lượt là 1, 2 và 3 □

Trong ĐSGT AX = (X, C, G, H, ≤) nếu X, G và H là tập sắp thứ tự tuyến tính thì AX được gọi là ĐSGT tuyến tính Vì luận án chỉ quan tâm đến ĐSGT tuyến tính

nên từ đây trở đi khi nói ĐSGT cũng có nghĩa là ĐSGT tuyến tính

Cấu trúc AX được xây dựng dựa trên cấu trúc quan hệ thứ tự ≤ trên miền giá trị

của biến ngôn ngữ bởi một số tính chất của các phần tử ngôn ngữ Ta có thể quan sát thấy một số tính chất như sau [50]:

- Hai phần tử sinh c- và c+ của biến ngôn ngữ có khuynh hướng ngữ nghĩa trái

ngược nhau Để thuận tiện, c+ được quy ước có khuynh hướng đi lên hay hướng

dương và có dấu dương được ký hiệu là sign(c+) = +1, c- có khuynh hướng đi xuống

hay hướng âm và có dấu âm được ký hiệu là sign(c-) = -1 Theo quan hệ ngữ nghĩa,

ta có: c- ≤ c+ Ví dụ: “già” có hướng dương và có dấu sign(“già”) = +1, “trẻ” có hướng âm và có dấu sign(“trẻ”) = -1, và theo quan hệ ngữ nghĩa thì “trẻ” ≤ “già”

- Mỗi gia tử h không phải là gia tử đặc biệt (hai gia tử đặc biệt là gia tử đơn vị

I [52, 53] và gia tử h 0 được dùng để sinh lõi ngữ nghĩa được đề xuất trong luận án này) có khuynh hướng làm tăng hoặc làm giảm ngữ nghĩa của phần tử sinh nguyên

thủy c- hoặc c+ Gia tử h được gọi là gia tử dương nếu hc + > c + (hay hc  < c ) và

được gọi là gia tử âm nếu hc + < c + (hay hc  > c ) Tập các gia tử dương được ký

hiệu là H+ = {h j : 1 ≤ j ≤ p} và có dấu sign(h j) = +1, tập các gia tử âm được ký hiệu

là H- = {h j : -q ≤ j ≤ -1} và có dấu sign(h j ) = -1 và ta có H = H+  H- Không mất

tính tổng quát, ta luôn giả thiết rằng h-q < h-2 < < h -1 < h1 < h2 < < h p Nếu cả

hai gia tử h và k cùng thuộc H+ hoặc H−, thì ta nói h và k sánh được với nhau

Ngược lại, nếu h và k không đồng thời thuộc H+ hoặc H−, khi đó ta nói h và k ngược nhau Ví dụ, ta có: “rất già” > “già” và “rất trẻ” < “trẻ”, điều này có nghĩa gia tử rất làm mạnh thêm ngữ nghĩa của cả hai phần tử sinh “già” và “trẻ” Nhưng “ít già” < “già” và “ít trẻ” > “trẻ” vì thế gia tử ít làm yếu đi ngữ nghĩa của cả hai phần

tử sinh “già” và “trẻ” Như vậy, rất là gia tử dương và ít là gia tử âm

- Mỗi gia tử không thuộc các gia tử đặc biệt đều có khuynh hướng làm tăng

hoặc làm giảm ngữ nghĩa của các gia tử khác Gia tử k là dương đối với gia tử h nếu

k làm tăng ngữ nghĩa của h và khi đó dấu sign(k, h) = +1 Ngược lại, k là âm đối với

h nếu k làm giảm ngữ nghĩa của h và có dấu sign(k, h) = -1 Tính âm, dương của các

gia tử đối với các gia tử khác không phụ thuộc vào phần tử ngôn ngữ mà chúng tác

động Ví dụ: nếu gia tử V là dương đối với gia tử L thì với bất kỳ phần tử ngôn ngữ

Trang 37

x ta có: nếu x ≤ Lx thì Lx ≤ VLx hay nếu x ≥ Lx thì Lx ≥ VLx Từ tính chất này, dấu của một hạng từ x với x = h m h m-1 …h 2 h 1 c, trong đó c  {c-, c+} và h j  H, được tính

như sau:

Sign(x) = sign(h m , h m-1 ) × … × sign(h 2 , h 1 ) × sign(h 1 ) × sign(c) (1.16)

Ý nghĩa của dấu của từ ngôn ngữ là: nếu sign(hx) = +1 thì x ≤ hx, và nếu sign(hx) = -1 thì hx ≤ x

- Tính kế thừa trong cảm sinh các giá trị ngôn ngữ của các gia tử Tính chất này thể hiện ở chỗ, khi một giá trị ngôn ngữ hx được cảm sinh từ x bằng việc tác động gia tử h vào x thì ngữ nghĩa của hx thay đổi nhưng vẫn truyền đạt ngữ nghĩa gốc của x Điều này có nghĩa là với mỗi gia tử h, giá trị ngôn ngữ hx kế thừa ngữ nghĩa từ x Tính chất này góp phần bảo tồn quan hệ thứ tự ngữ nghĩa: nếu hx ≤ kx thì h’hx ≤ k’kx, hay h’ và k’ bảo tồn quan hệ ngữ nghĩa của hx và kx một cách tương

ứng

Hai từ ngôn ngữ x và y được gọi là độc lập nếu x  H(y) và y  H(x)

Một ĐSGT AX được gọi là tự do nếu với mọi x  H(G) thì hx ≠ x Nghĩa là AX

là tự do nếu và chỉ nếu chỉ có các hằng là các phần tử bất động

Định lý 1.1 [50] Cho tập H- và H+ là các tập sắp thứ tự tuyến tính của ĐSGT AX = (X, C, G, H, ≤) Khi đó ta có các khẳng định sau:

(1) Với mỗi u  X thì H(u) là tập sắp thứ tự tuyến tính

(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X

cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u < v, và u, v là độc lập với nhau, tức

là u  H(v) và v  H(u), thì H(u)  H(v) □

1.3.2 Lượng hóa đại số gia tử

ĐSGT là mô hình định tính, do đó, để có thể ứng dụng rộng rãi lý thuyết ĐSGT trong các lĩnh vực của đời sống, ta phải đưa ra phương pháp lượng hóa ngữ nghĩa định tính của các giá trị ngôn ngữ của biến ngôn ngữ với các khái niệm định lượng của ĐSGT Một lý do thực tế là khi mô tả các trạng thái với các từ ngôn ngữ

như "young", "very tall", "very fast", đều liên hệ đến các trạng thái mô tả bằng số

Trang 38

tính của các từ ngôn ngữ được sinh bởi cấu trúc này cần được mô tả bởi các khái niệm khác nhau như mô hình tính mờ, độ đo tính mờ, khoảng tính mờ và ngữ nghĩa

số của các từ ngôn ngữ [52, 54] Do các giá trị ngôn ngữ của X phụ thuộc lẫn nhau,

tức chúng chỉ thể hiện đầy đủ ngữ nghĩa khi được đặt trong ngữ cảnh so sánh trong

Dom(X), nên việc lượng hóa phải được xem xét trong một ngữ cảnh với tất cả các từ ngôn ngữ trong Dom(X) và được gọi là lượng hóa trên miền giá trị của biến ngôn ngữ X hay lượng hóa ĐSGT AX liên kết với biến ngôn ngữ X, gọi tắt là lượng hóa ĐSGT Khái niệm độ đo tính mờ của các từ ngôn ngữ được biểu diễn bởi H(x), x 

X, trở thành một khái niệm cốt yếu của thông tin mờ và đóng vai trò trọng tâm trong

định lượng ĐSGT Điều này phù hợp với tính chất tự nhiên của thông tin ngôn ngữ

mờ

Ý tưởng của việc định lượng đại số gia tử như sau: xét bất kỳ ánh xạ υ của một

ĐSGT AX đảm bảo tính bảo toàn cấu trúc thứ tự trên miền giá trị của X, tức là một

đẳng cấu bảo toàn thứ tự Đẳng cấu υ đảm bảo việc cảm sinh ánh xạ của mọi mô

hình tính mờ H(x) của một từ ngôn ngữ x tới một khoảng nằm trong đoạn [0, 1],

được gọi là khoảng tính mờ của x và được ký hiệu là (x) Độ dài của (x) được gọi

là độ đo tính mờ của x và được ký hiệu là fm(x) Ví dụ: H(c -) được ánh xạ tới

khoảng (c - ), H(Vc - ) được ánh xạ tới khoảng (Vc -), … Với cách này, chúng ta có

thể thấy rằng các giá trị số của (x) là phù hợp nhất cho việc diễn đạt ngữ nghĩa tính toán của x được biểu thị bằng độ dài của x Nếu độ dài của x càng nhỏ thì ngữ nghĩa của x càng mang tính khái quát hơn và do đó khoảng tính mờ hay độ đo tính

mờ của nó lớn hơn Vì vậy, trong một số trường hợp, để thể hiện khoảng tính mờ của từ ngôn ngữ theo mức, chúng ta viết rõ là |x| (x) hay  k (x) với k = |x| Vì

(H(Vc -))  (c-)  (H(Lc-)) bởi tính chất bảo toàn thứ tự, điều này hàm ý υ(c -),

ngữ nghĩa số của c-, là đầu mút chung của hai khoảng (Vc - ) và (Lc -) Một cách

tổng quát, υ(x) là đầu mút chung của các khoảng (h -1 x) và (h 1 x), trong đó h -1 và

h 1 lần lượt là gia tử lớn nhất và bé nhất trong H- và H+ Với ý tưởng trên, độ đo tính

mờ được tiên đề hóa như sau:

Định nghĩa 1.5 [52, 53] Một hàm fm: X  [0, 1] được gọi là một độ đo tính mờ

của biến ngôn ngữ X, nếu nó có các tính chất sau:

(FM1) fm là một độ đo đầy đủ trên X, nghĩa là fm(c) + fm(c+) = 1 và u  X,

)()

Trang 39

biệt ta có: fm(0) = fm(W) = fm(1) = 0;

(FM3)  x, y  X, h  H, ta có

) y ( fm

) hy ( fm ) x ( fm

) hx ( fm

 , nghĩa là tỷ số này không

phụ thuộc vào một phần tử cụ thể nào trong X mà chỉ phụ thuộc vào h được gọi là

độ đo tính mờ của gia tử h và được ký hiệu là  (h) □

Từ (FM1) và (FM3) ta có công thức tính đệ quy độ đo tính mờ của x = h m h 1 c với c  {c-, c+} như sau:

fm(x) =  (h m)  (h 1 ) fm(c), trong đó ( ) 1

h H h







Từ công thức (1.17) ta thấy, độ đo tính mờ fm của các từ ngôn ngữ trong X là

hoàn toàn được xác định khi biết các giá trị cụ thể của fm(c-) (hoặc fm(c+)) và |H| - 1

giá trị của độ đo tính mờ  (h) của các gia tử và chúng được gọi là các tham số tính

c fm c h fm

p

i q

x fm x h fm

i p i

h

1

) ( , với ,  > 0 và  +  = 1 □

Định nghĩa 1.6 [52, 53] Ngữ nghĩa số của các từ ngôn ngữ hay ánh xạ định lượng ngữ nghĩa (semantically quantifying mapping - SQM) của AX là ánh xạ bảo toàn thứ tự υ: X  [0, 1] thỏa mãn các điều kiện sau:

SQM1) υ bảo toàn thứ tự trên X, tức là x < y  υ(x) < υ(y) và υ(0) = 0, υ(1) = 1; SQM2) υ là song ánh và ảnh của X, υ(X), là trù mật trong đoạn [0, 1] ; □

Ánh xạ định lượng ngữ nghĩa được xây dựng dựa trên các tham số cho trước

gồm các độ đo tính mờ của các phần tử sinh fm(c), fm(c+) và độ đo tính mờ của

Trang 40

các gia tử  (h) Giá trị định lượng của giá trị ngôn ngữ x chia đoạn fm(x) theo tỷ lệ

 :  nếu Sign(h p x) = +1 và theo tỷ lệ  :  nếu Sign(h p x) = -1 và được tính theo

công thức đệ quy như sau:

Mệnh đề 1.2 [52, 53] Ánh xạ định lượng ngữ nghĩa nhờ tính mờ là ánh xạ υ được

xác định quy nạp như sau:

1) υ(W) =  = fm(c  ), υ(c ) =  -  fm(c  ), υ(c +) =  + fm(c +);

2) υ(h j x) = υ(x)+ ( )( ( ) ( ) ( ))

1 fm h x h x fm h x x

h

Hai công thức này có thể viết thành một công thức chung, với j  [-q^p] = {j:

q  j  p & j  0} là: (h x j ) ( )x Sign h x( j )( i sign j j ( ) fm h x( i ) (h x fm h x j ) ( j ))

1.3.3 Ý nghĩa ứng dụng của đại số gia tử

Tính nhập nhằng, mơ hồ luôn xuất hiện trong ngôn ngữ tự nhiên khi mô tả các đối tượng trong mọi lĩnh vực của đời sống xã hội Lý thuyết tập mờ và lôgic mờ nằm trong số những công cụ có thể mô hình hóa được tính không chính xác của ngôn ngữ tự nhiên và mô hình này được gọi là mô hình mờ hay cụ thể hơn là mô hình dựa trên luật ngôn ngữ mờ Mô hình dựa trên luật ngôn ngữ mờ được ứng dụng rộng rãi trong các lĩnh vực khác nhau như điều khiển mờ [19, 77, 89, 90, 117], khai phá tri thức từ dữ liệu [14, 16, 26, 29, 34-41, 61-71, 74, 86, 88, 91, 92, 110] như phân lớp mờ, phân cụm mờ, trích rút luật kết hợp, bài toán hồi quy và dự báo Tuy nhiên, hướng tiếp cận này có những hạn chế sau:

- Lý thuyết tập mờ không tìm được cấu trúc vốn có của ngôn ngữ tự nhiên để

mô phỏng tính toán trực tiếp trên các từ ngôn ngữ Do đó, các tính toán không phải

là xử lý thông tin ngôn ngữ mà là thao tác xử lý trên các cấu trúc hàm được gán cho các từ và được hiểu là ngữ nghĩa tính toán của chúng Các thao tác trên cấu trúc hàm là tính toán chính xác dẫn đến kết quả tính toán xa rời mong muốn ban đầu và gây ra hiện tượng mất mát thông tin lớn Mỗi cách chọn cấu trúc hàm cho ta một phương pháp hình thức khác nhau để mô tả thông tin ngôn ngữ phù hợp với mỗi bài toán ứng dụng thực tế Điều này thể hiện tính mềm dẻo của tiếp cận lý thuyết tập

Định dạng
Số trang	153
Dung lượng	2,39 MB