- Các phương pháp trích rút FRBS từ dữ liệu cho các bài toán ứng dụng, chẳng hạn, các bài toán phân lớp, hồi quy, đã và đang được các nhà khoa học trong và ngoài nước quan tâm nghiên cứu và đã đạt được những kết quả nhất định theo các hướng tiếp cận khác nhau.
) ((((((((((((((( ( � ) ((((((((((((((( +1) ( � ) (
- - -
1.5.1. Những vấn đề tồn tại của lý thuyết tập mờ
- Mặc dù hướng nghiên cứu dựa trên lý thuyết tập mờ đã có những thành công nhất định nhưng vẫn tồn tại các vấn đề sau:
- Hầu hết các phương pháp trích rút hệ luật mờ được đề xuất đều sinh các luật mờ dựa trên các phân hoạch mờ với các tập mờ được thiết kế sẵn. Mặc dù có một số kỹ thuật sinh tự động các phân hoạch mờ dựa trên kỹ thuật tính toán hạt (granular computing) và là tiếp cận hiệu chỉnh các tham số của hàm thuộc thích nghi với dữ liệu. Do vậy, các đề xuất theo hướng tiếp cận lý thuyết tập mờ vẫn thiếu một cơ chế hình thức liên kết giữa ngữ nghĩa vốn có của các từ ngôn ngữ với các tập mờ tương ứng của chúng; thiếu một cơ sở hình thức hóa toán học trong thiết kế ngữ nghĩa tính toán dựa trên tập mờ từ ngữ nghĩa vốn có của các từ ngôn ngữ, dẫn đến hệ luật mờ thu được không là kết quả của sự tương tác giữa ngữ nghĩa của các từ ngôn ngữ với dữ liệu.
- Do các tập mờ được thiết kế sẵn, các từ ngôn ngữ được gán cho các tập mờ dựa trên cảm nhận trực giác của người thiết kế và các phân hoạch mờ chủ yếu có dạng đơn thể hạt nên các từ ngôn ngữ không thể hiện được tính khái quát (chung) và tính đặc tả (riêng) của chúng; bài toán thiết kế các thể hạt (granularity) cho các phân hoạch mờ trên miền các biến ngôn ngữ đảm bảo sự cân bằng giữa tính khái quát và tính đặc tả của các từ ngôn ngữ chưa được đặt ra. Cụ thể, một từ ngôn ngữ hx được sinh ra từ từ ngôn ngữ x bởi gia tử h có ngữ nghĩa cụ thể hơn x nhưng vẫn giữ nguyên ngữ nghĩa gốc của x. Ví dụ, từ ngôn ngữ “rất trẻ” được sinh ra từ từ ngôn ngữ “trẻ” bởi gia tử rất có tính đặc tả hơn “trẻ” nhưng vẫn giữ được ngữ nghĩa gốc của “trẻ”. Ta cũng có thể nói rằng “trẻ” có tính khái quát hơn “rất trẻ”. Do đó, trong biểu diễn cấu trúc phân hoạch hay thể hạt mờ phải thể hiện được quan hệ giữa tính khát quát và đặc tả của các từ ngôn ngữ.
1.5.2. Hướng tiếp cận Đại số gia tử và những vấn đề còn tồn tại
- Đại số gia tử (ĐSGT) là một cách tiếp cận mới cho việc xử lý miền giá trị của biến ngôn ngữ, cho phép thực hiện tính toán trực tiếp trên các từ ngôn ngữ. Một điểm cơ bản và cũng là tính ưu việt của cách tiếp cận ĐSGT so với lý thuyết tập mờ cổ điển của Zadeh là ĐSGT (tuyến tính) mô hình hóa được quan hệ thứ tự vốn có của tập các giá trị của biến ngôn ngữ, như “rất trẻ” < “trẻ” < “khá trẻ” <...< “khá già” < “già” < “rất già”. ĐSGT khai thác tính thứ tự về ngữ nghĩa của các từ trong miền giá trị ngôn ngữ của biến ngôn ngữ để hình thành một cơ sở hình thức toán học cho việc liên kết ngữ nghĩa tính toán dựa trên tập mờ với ngữ nghĩa vốn có của các từ ngôn ngữ. Trên cơ sở đó, ĐSGT đã được ứng dụng hiệu quả để thiết kế tối ưu các từ ngôn
-
- ngữ cùng với ngữ nghĩa tính toán dựa trên tập mờ hình tam giác và hình thang cho bài toán phân lớp và hồi quy. Cụ thể là:
- Với bài toán phân lớp, trong [59], [61] các tác giả đã phát triển phương pháp trích rút hệ luật mờ cho bài toán phân lớp, trong đó các luật mờ được sinh từ các hệ khoảng tương tự và hệ khoảng tính mờ mức k. Để lập luận phân lớp, các phân hoạch mờ đa thể hạt với các tập mờ tam giác và tập mờ hình thang được sinh bởi ĐSGT truyền thống và ĐSGT mở rộng. Các kết quả thực nghiệm cho thấy các phương pháp được đề xuất hiệu quả hơn các phương pháp đã có cả về độ chính xác phân lớp và tính giải nghĩa được của hệ luật.
- Với toán hồi quy trong [62], Nguyễn Cát Hồ cùng các cộng sự đã phát triển một phương pháp trích rút hệ luật mờ từ dữ liệu giải bài toán hồi quy, trong đó các tác giả đã đề xuất một phương pháp thiết kế xây dựng phân hoạch dạng đa thể hạt dựa trên ĐSGT sử dụng các tập mờ tam giác và phát triển một phương pháp sinh luật từ dữ liệu dựa trên hệ khoảng tính mờ tương tự của ĐSGT. Các kết quả thử nghiệm được so sánh với các kết quả của các phương pháp của R.Acalá và cộng sự trong [13] đều cho thấy tốt hơn cả 2 mục tiêu độ chính xác và tính giải nghĩa được của hệ luật. Từ những thành công đã đạt được, nhóm tác giả Nguyễn Cát Hồ và cộng sự tiếp tục cải tiến phương pháp bằng việc xây dựng phân hoạch mờ dựa trên ĐSGT mở rộng với tập mờ dạng hình thang thay vì tập mờ tam giác và đã được công bố trong [63].
- Trong [62] Nguyễn Cát Hồ và cộng sự lần đầu tiên đặt vấn đề nghiên cứu tính giải nghĩa được của các FRBS ở mức thấp (mức từ ngôn ngữ). Các tác giả đã đưa ra các ràng buộc cần thiết của một khung nhận thức ngôn ngữ phải thỏa mãn nếu nó được cho là có thể giải nghĩa được. Trong [65] Nguyễn Cát Hồ và cộng sự tiếp tục nghiên cứu vấn đề này, các tác giải đã đưa ra khái niệm bụi ngữ nghĩa và đã đề xuất một cấu trúc phân hoạch mờ mới cho LFoC thể hiện chính xác hơn bản chất ngữ nghĩa của từ ngôn ngữ tự nhiên, cấu trúc này đã áp dụng thành công trong giải bài toán tổng hợp dữ liệu bằng ngôn ngữ.
- Các phương pháp trích rút hệ luật mờ cho bài toán phân lớp và hồi quy theo tiếp cận ĐSGT đã có những kết quả nghiên cứu tốt nhưng vẫn còn những vấn đề tồn tại cần nghiên cứu, giải quyết như:
- Ngữ nghĩa tính toán dựa trên tập mờ hình thang được xây dựng dựa trên đại số gia tử mở rộng có ưu điểm so với hình tam giác là biểu diễn được thông tin thể hạt hay ngữ nghĩa khoảng của các từ ngôn ngữ. Tuy nhiên, cả hai dạng tập mờ này đều có các cạnh bên được biểu diễn bởi các hàm tuyến tính có độ dốc lớn nên chưa thật mềm dẻo, gây mất mát thông tin. Do đó, cần xây dựng một dạng tập mờ phi tuyến
- - -
- mềm dẻo hơn và phù hợp hơn với sự biến thiên về ngữ nghĩa vốn có của các từ ngôn ngữ trong khi vẫn biểu diễn được lõi ngữ nghĩa khoảng của các từ ngôn ngữ (chẳng hạn như tập mờ dạng hàm S).
- Các phương pháp trích rút hệ luật mờ dựa trên lý thuyết tập mờ đều thực hiện xây dựng tiền đề luật dựa trên sự tổ hợp của tất cả các biến nên dẫn đến không gian tìm kiếm luật khi tối ưu hệ luật là rất lớn. Các phương pháp tiếp cận dựa trên lý thuyết ĐSGT đã phát triển thuật toán sinh luật từ dữ liệu, tuy nhiên số luật phải xem xét vẫn là hàm đa thức bậc cao và không có các tiêu chuẩn để hạn chế số luật phải xem xét và đặc biệt là tính quan trọng của các thuộc tính chưa được xem xét khi bài toán có số chiều lớn Vì vậy, cần thiết phải phát triển một phương pháp sinh luật chỉ sử dụng những thuộc tính quan trọng tham gia vào tiền đề của luật và có khả năng giảm không gian số luật phải xem xét để nâng cao hiệu quả quá trình tìm kiếm hệ luật tối ưu.
- Phương pháp thiết kế hệ phân lớp theo tiếp cận ĐSGT trong [59], [61] được tiến hành theo hai bước: bước 1 thực hiện tối ưu ngữ nghĩa của các từ ngôn ngữ hay các tham số ngữ nghĩa với hệ luật có các luật có chiều dài hạn chế (tối đa là 2) và bước 2 là tối ưu hệ luật dựa trên các tham số ngữ nghĩa thu được từ bước 1 với hệ luật có độ dài tối đa không quá τmax. Trực quan thấy rằng, hai quá trình tối ưu tham số ngữ nghĩa của từ và tối ưu hệ luật ở hai pha khác nhau dường như là hơi gượng ép và có thể bỏ sót hoặc mất đi cơ hội tìm một kết quả tối ưu toàn cục. Dó đó nếu phát triển được một phương pháp tối ưu đồng thời cả hai đối tượng này sẽ cho ta các hệ luật tốt hơn.
- Mặc dù các lý thuyết về tính giải nghĩa được của FRBS được Nguyễn Cát Hồ và cộng sự phát triển dựa trên ĐSGT trong [62], [65] đã đáp ứng được một số yêu cầu về tính giải nghĩa được trong logic và toán học theo quan điểm của Tarski. Các nghiên cứu trong [1], [64] đã đề xuất phương pháp tiếp cận tính giải nghĩa được của các FRBS theo ngữ nghĩa thế giới thực. Nghĩa là con người hiểu được thế giới thực thông qua tri thức được biểu diễn dưới dạng ngôn ngữ. Các bài toán ứng dụng trong thực tế đều hướng đến việc giải quyết các vấn đề phát sinh từ thực tiễn cuộc sống. Điều này dẫn đến việc xây dựng các mô hình giải quyết các bài toán phải đảm bảo mô phỏng chính xác cấu trúc của thế giới thực trong ngữ cảnh phát sinh bài toán cần giải quyết, dẫn đến mô hình hình thức được đề xuất để giải bài toán ứng dụng phải thực sự là một bản sao của thế giới thực mà con người quan sát, nhận thức được. Tuy nhiên những lý thuyết này vẫn còn rơi rạc chưa gắn kết, đòi hỏi nghiên cứu xây dựng một lý thuyết hoàn thiện mang tính hệ thống đầy đủ về vấn đề này.
-
- Vấn đề mở rộng tập từ ngôn ngữ và tập luật mờ của các FRBS đã được xây dựng để xây dựng một FRBS mới có tính chính xác cao hơn vẫn chưa đề cập giải quyết.