Chương này đã trình bày kết quả nghiên cứu nâng cao độ chính xác của các LRBS được trích rút từ các tập dữ liệu cho bài toán phân lớp, hồi quy. Một số kết quả cụ thể và thảo luận như sau:
- Đề xuất một phương pháp thiết kế ngữ nghĩa dựa trên tập mờ có dạng hàm S dựa trên ĐSGT mở rộng. Từ đó phát triển thuật toán EnHA-PAES-SF trích rút LRBS giải bài toán hồi quy. So sánh kết quả thực nghiệm của thuật toán được đề xuất với
kết quả của thuật toán HA-PAES-MG-Kmax được Nguyễn Cát Hồ và cộng sự đề xuất
[62] và thuật toán PAESKB đề xuất bởi R.Alcalá và cộng sự [13], kết quả được công bố trong công trình [CT1]. Luận án cũng áp dụng phương pháp thiết kế ngữ nghĩa
dựa trên tập mờ dạng hàm S để phát triển một thuật toán xây dựng LRBS cho bài
toán phân lớp và kết quả cũng đã được công bố trong [CT3]. Cả hai ứng dụng này cho thấy, ngữ nghĩa dựa trên tập mờ dạng hàm S cho kết quả thực nghiệm tốt hơn so với ngữ nghĩa dựa trên tập mờ dạng hình thang và tam giác.
- Đề xuất một phương pháp sinh luật dựa trên ĐSGT và cây quyết định. Phương pháp đề xuất là một tiếp cận mới trong vấn đề sinh luật cho các thuật toán trích rút hệ luật theo tiếp cận ĐSGT. Với đề xuất này luận án phát triển một thuật toán trích rút LRBS giải bài toán hồi quy có tên là HA-De-PAES, kết quả nghiên cứu này được công bố trong công trình [CT2].
- Đề xuất phương pháp đồng tối ưu các tham số ngữ nghĩa và lựa chọn hệ luật tối ưu nâng độ chính xác của bài toán phân lớp so với phương pháp thiết kế hệ phân lớp hai giai đoạn. Kết quả được công bố trong công trình [CT4].
Chương 3
PHÁT TRIỂN THUẬT TOÁN THIẾT KẾ HỆ LUẬT NGÔN NGỮ MỜ GIẢI NGHĨA ĐƯỢC VÀ CÓ KHẢ NĂNG MỞ RỘNG
GIẢI BÀI TOÁN HỒI QUY DỰA TRÊN ĐẠI SỐ GIA TỬ
Các FRBS, với thành phần chính là cơ sở luật FRB được thiết kế từ tập dữ liệu
D của một bài toán có thể được xem là một công cụ mô phỏng cách mà con người sử dụng tri thức của họ để giải quyết các vấn đề trong cuộc sống hàng ngày. Như Nguyễn Cát Hồ và cộng sự thảo luận trong [65] tri thức của con người có một số đặc trưng riêng biệt và thiết yếu vốn có của nó. Thứ nhất, các tri thức được mà con người hiểu được từ thế giới thực là hoàn toàn khách quan. Thứ hai, tri thức được tích lũy của họ và tập từ vựng được sử dụng trong mỗi biến (thuộc tính) ngôn ngữ luôn phát triển theo thời gian, trong khi ý nghĩa của các từ của biến ngôn ngữ và tri thức trước đó phải được duy trì, điều này được gọi là khả năng mở rộng của chúng. Chẳng hạn một biến thể hiện tuổi con người ban đầu chỉ sử dụng 3 từ ‘young’, ‘old’ và ‘middle’ để mô tả, nhưng theo thời gian nhu cầu mô tả chính xác hơn, người ta sử dụng tập từ
‘Little young, ‘Rather young, ‘More young, ‘Very young, ‘Extremly young’, ‘middle’, ‘Little old’, ‘Rather old’, ‘More old’, ‘Very old’, ‘Extremly old”, với tập từ mới này thì ý nghĩa của các từ ‘young’, ‘old’ vẫn duy trì, không thay đổi.
FRBS được thiết kế theo một phương pháp M nào đó do con người tạo ra, nó
được coi là công cụ tính toán mô phỏng cách các chuyên gia sử dụng tri thức của họ để giải quyết các vấn đề hàng ngày, tuy nhiên chúng có một số hạn chế:
- Các từ ngôn ngữ liên kết với các tập mờ xuất hiện trong các luật mờ của FRBS chỉ được xem là nhãn ngôn ngữ và không có phương pháp hình thức tin cậy nào để đảm bảo liệu các tập mờ được xây dựng có thể đại diện cho ngữ nghĩa định tính vốn có của từ ngôn ngữ một cách rõ ràng.
Mọi luật mờ, rFuz, của một FRBS được thiết kế có thể chuyển tải 2 nội dung khác nhau từ D. Nội dung thứ nhất được M tính toán và gán cho rFuz, ký hiệu là Cont(rFuz), nó là chủ quan. Nội dung thứ hai được chuyển tải bằng luật ngôn ngữ (LR
– Linguistic Rule) rL, như một câu trong ngôn ngữ tự nhiên của con người, thu được từ
rFuz bằng cách thay thế các tập mờ của nó bởi các nhãn ngôn ngữ tương ứng, được ký hiệu là Cont(rL). Cont(rL) là nghĩa mà các chuyên gia có thể nắm bắt khi đọc luật, nó là khách quan. Khi Cont(rL) = Cont (rFuz) (trong một môi trường không chắc chắn), rL này có thể được coi là một phần kiến thức của các chuyên gia được trích xuất từ D. Nhìn chung, Cont(rL) Cont (rFuz) khi được sinh ra từ phương pháp M. Vấn đề làm thế nào để các FRBS được thiết kế bởi phương pháp M có rL và rFuz thỏa mãn
Cont(rL) = Cont (rFuz) (trong một môi trường không chắc chắn). Khi đó FRBS được xem là giải nghĩa được.
- Với các nghiên cứu tiếp cận theo lý thuyết tập mờ thông thường số lượng nhãn ngôn ngữ sử dụng trong các biến ngôn ngữ là nhỏ và cố định. Nó không phù hợp với cách các chuyên gia sử dụng kiến thức của họ trong các hoạt động hàng ngày. Các từ vựng sử dụng trên mỗi biến và miền tri thức của các chuyên gia có thể phát triển để họ có thể sử dụng để hình thành và tích lũy các kiến thức mới.
Trong chương này, luận án phát triển một phương pháp luận từ đó phát triển thuật toán thiết kế các FRBS để khắc phục các nhược điểm nêu trên và ứng dụng giải các bài toán hồi quy. Thuật toán tiếp cận dựa trên lý thuyết ĐSGT, các FRBS thu được gọi là các LRBS (Linguistic Rule Based System), bao gồm giải quyết các vấn đề sau:
1) Các LR trích rút ra từ thuật toán đảm bảo tính đúng của đẳng thức Cont(rL) =
Cont (rFuz) (trong một môi trường không chắc chắn) hay nói cách khác đó là bài toán về nội dung của luật. Để giải quyết vấn đề này, luận án dựa trên khái niệm tính giải nghĩa được của Tarski và cộng sự trong toán học và logic, nó cũng đã được Nguyễn Cát Hồ và cộng sự xem xét trong [65], từ đó thiết lập một cơ chế xây dựng các cấu trúc tr-MGr (đa thể tập mờ hình thang) biểu diễn ngữ nghĩa của các từ của biến ngôn ngữ đảm bảo khả năng giải nghĩa được dựa trên lý thuyết đại số gia tử mở rộng (trình bày trong mục 3.1).
2) Vấn đề khả năng mở rộng của LRBS tương tự như khả mở rộng miền tri
thức và tập từ của biến ngôn ngữ đang được sử dụng của chuyên gia, bằng cách thiết lập một cơ chế hình thức để đảm bảo khả năng mở rộng của cấu trúc tr-MGr và LRB đã được thiết kế nhằm tăng độ chính xác của LRBS (trình bày trong mục 3.2).
3) Dựa trên các cơ chế hình thức xây dựng cấu trúc tr-MGr đề xuất một thuật toán tiến hóa đa mục tiêu để thiết kế các LRBS có thể giải nghĩa được và mở rộng được (IS-LRBs-Design-MOEA), kí hiệu là A, để giải các bài toán hồi quy (trình bày trong mục 3.3).
4) Tiến hành nghiên cứu thực nghiệm đủ đa dạng để chứng minh độ chính xác