Ứng dụng của hệ mờ

* Bài toán trích rút các tóm tắt ngôn ngữ:

Mục đích của bài toán là trích rút tri thức dạng tóm tắt bằng ngôn ngữ tự nhiên từ cơ sở dữ liệu. Kết quả nhận được là các câu tóm tắt mô tả rõ ràng, ngắn gọn, dễ hiểu về tập dữ liệu cần xem xét. Ưu điểm của câu tóm tắt là sử dụng ngôn ngữ tự nhiên nên dễ hiểu đối với người dùng và có thể được đọc tự động bởi máy.

Quan điểm tóm tắt dữ liệu được đề xuất bởi Yager [59], được mở rộng nghiên cứu mạnh bởi nhóm Kacrpzyk [20][45][40][8], nhóm Wilbik [10][22]. Bài toán trích rút dữ liệu ở dạng câu có từ định lượng như sau:

Y = {y1, y2, …, yn } là tập các đối tượng (bản ghi) trong cơ sở dữ liệu D. ( Ví dụ: cơ sở dữ liệu về công nhân, bệnh nhân, …)

V = {V1, V2, …, Vm} là tập các thuộc tính của các đối tượng trong tập Y. (Ví dụ: thuộc tính lương của công nhân, thuộc tính huyết áp của bệnh nhân, …)

Một câu tóm tắt có 2 dạng như sau:

Q y are S (Dạng 1)

Q F y are S (Dạng 2)

Trong đó:

- S là một kết luận (summarizer). Thông thường, S ở dạng một từ mô tả về một thuộc tính. Ví dụ: lương thấp, huyết áp cao, …S cũng có thể ở dạng tổ hợp mô tả cho nhiều thuộc tính như lương thấp và trình độ trung bình, huyết áp cao và nhịp tim cao, …

- Q là một định lượng về tỷ lệ các đối tượng thỏa kết luận S. Q có thể ở dạng tuyệt đối như khoảng 10, một vài, … hoặc ở dạng tương đối như

khoảng một nửa, hầu hết, nhiều, rất ít,…

- F là điều kiện lọc để giới hạn một nhóm các đối tượng trong D cần quan tâm. Ví dụ: khi F là tuổi trẻ thì chỉ có các công nhân thỏa điều kiện tuổi trẻ mới được đưa vào tập các đối tượng cần đưa ra kết luận. Thành phần F

này có thể có hoặc không trong câu tóm tắt đưa ra.

- Một giá trị T [0,1] để đánh giá mức độ đúng đắn của câu tóm tắt. Ví dụ về các câu tóm tắt được trích rút từ cơ sở dữ liệu công nhân như sau:

(1) Dạng 1:Khoảng một nửa (Q) công nhân (y) có lương khá thấp (S)(T

= 0.95)

(2) Dạng 2: Hầu hết (Q) công nhân (y) trình độ thấp (F) có lương thấp (S)(T = 1)

Trong hầu hết các nghiên cứu đã có về tóm tắt dữ liệu, ngữ nghĩa của các hạng từ (khoảng một nửa, hầu hết, thấp, khá thấp trong câu ví dụ (1) và (2)) được biểu diễn bằng các tập mờ trên miền tham chiếu của thuộc tính tương ứng. Dạng tập mờ phổ biến nhất được dùng trong tóm tắt dữ liệu là tập mờ hình thang (Xem Hình 1.4).

Hình 1.4. Bộ bốn (a,b,c,d) biểu diễn cho hàm thuộc dạng hình thang của tập mờ

* Bài toán phân lớp được phát biểu như sau: Cho một tập mẫu dữ liệu D

={ (pi, Ci), i = 1,..,N}, trong đó pi = (di1, di2,.., din) U= U1 ... Un là tích đề các của các miền xác định của n biến 𝔛1,..,𝔛n, CiC ={Ch : h = 1, …, m} tập các nhãn của m lớp.

Giải bài toán bằng FRBS là xây dựng một hệ các luật mờ S, để phân lớp hay ánh xạ từ tập dữ liệu U vào tập các giá trị nhãn lớp C. Các luật trong S

có dạng như sau, vế phải của luật là một giá trị rõ thuộc vào các lớp của C.

rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Cq với q=1,..,M

Như trình bày trong phần trên, mục tiêu cần đạt được khi xây dựng các FRBS là độ chính xác và tính giải nghĩa được của hệ luật. Đây là hai mục tiêu xung đột nhau, do đó các giải pháp được đề xuất đều cố gắng đạt được sự cân bằng (tradeoff) cả hai mục tiêu này bằng cách phát triển các thuật toán tiến hóa tối ưu đa mục tiêu cho phép học tự động sinh các FRBS. Trong đó mục tiêu tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp bao gồm các yếu tố: số luật ít, chiều dài trung bình của các luật càng ngắn càng tốt.

Khi phát triển các thuật toán giải quyết bài toán này, các thuật toán phải thực hiện các công việc sau:

- Thiết kế phân hoạch mờ miền tham chiếu của các biến ngôn ngữ - Sinh tập các luật mờ ứng cử

- Tìm kiếm hệ luật mờ S tối ưu từ tập các luật mờ ứng cử với các mục tiêu fp(S)  max, fn(S) và fa(S)  min. Trong đó fp(S) là hàm đánh

giá hiệu quả phân lớp, fn(S) là số luật và fa(S) là độ dài trung bình của các luật trong S.

* Bài toán hồi quy : Cho tập dữ liệu mẫu D = {(pi, yi), i = 1,..,N}, trong đó piU = U1 ... Un là tích Đề-các của các miền xác định tương ứng của n

biến độc lập (thuộc tính) đầu vào 𝔛1,..,𝔛n; yiUn+1 là biến phụ thuộc đầu ra

𝔛n+1, Ui với i=1,...,n+1 là các tập số thực; N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một mô hình cho phép dự đoán giá trị ˆy ứng với giá trị đầu vào p.

- Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S

để ánh xạ tập dữ liệu đầu vào U có n chiều vào tập đầu ra Un+1 có một chiều, bằng một phương pháp lập luận xấp xỉ. Tức là với một giá trị đầu vào pU

qua ánh xạ này ta xác định được giá trị đầu ra ˆy Un+1.

- Khi xây dựng các FRBS cho bài toán hồi quy, các luật sử dụng trong FRBS thường là các luật mờ Mamdani có dạng dưới đây trong đó kết luận của luật là một tập mờ:

rq: If 𝔛1 is Aq1 and … and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) với q =1,..,M

- Quá trình giải bài toán hồi quy bằng FRBS cũng tương tự như giải bài toán phân lớp. Tuy nhiên do bài toán hồi quy phức tạp hơn nên các thuật toán được đề xuất phải thực hiện nhiều các kỹ thuật phức tạp (như tối ưu số tập mờ, tham số tập mờ, lựa chọn các phép toán cho toán tử AND, toán tử kéo theo, …) nhằm nâng cao hiệu quả thực hiện của FRBS được xây dựng.

I.6. Đại số gia tử.

Các thành phần của hệ mờ

Các mục tiêu khi xây dựng FRBS