Bài toán phân lớp

- Bài toán phân lớp được phát biểu như sau: cho một tập các mẫu dữ liệu P = {(D, C)}, trong đó D = {dp = (ap,1, ap,2, …, ap,n)| p=1, ..., N} là tập dữ liệu, C = {C1, ..., Cm} là tập các nhãn của các lớp, dp ∈U là mẫu dữ liệu thứ p với U = U1 × ... ×Un

là tích Đề-các của các miền xác định của n biến A1, ..., An, m là số lớp và N là số mẫu dữ liệu, khi đó D ⊂U. Mỗi dữ liệu dp ∈D thuộc một lớp Cp ∈C tương ứng tạo thành từng cặp (dp, Cp) ∈P.

- Giải bài toán phân lớp bằng phương pháp dựa trên hệ mờ dạng luật (Fuzzy rule- based classification systems - FRBC) là xây dựng một hệ các luật mờ dạng (1.21) và phương pháp lập luận trên nó.

- rq: If A1 is xrq,1 & … & An is xrq,n Then An + 1 is Cq with CFq với q = 1..M

(1.21) trong đó A1, A2, …, An là các biến ngôn ngữ thuộc không gian tham chiếu U1,

U2, ...,

- Un, xrq =(xrq,1,..., xrq,1) là các nhãn ngôn ngữ, yrq = “An + 1 is Cq”, Cq là tên lớp

kết luận của rq, CFq∈[0, 1] là trọng số của luật và M là số luật mờ.

- Ta ký hiệu hệ luật mờ là S, nó đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn:

- S : U → C

(1.22) - Hệ các luật mờ này biểu diễn tri thức về bài toán, nó không chỉ phản ánh đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và giúp cho người dùng phán đoán, ra quyết định. Do đó, yêu cầu quan trọng của hệ luật là càng rõ ràng, càng dễ giải nghĩa được với người dùng càng tốt.

- Như vậy, hệ S phải đạt các mục tiêu: độ chính xác phân lớp cao, tức là sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật ít cũng như số điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về độ chính xác phân lớp nhằm đáp ứng

- tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, còn hai mục - tiêu sau với mong muốn đạt được tính dễ giải thích của hệ luật. Các luật mờ

trong S phải đơn giản và dễ hiểu đối với người dùng. Gọi fp(S) là hàm đánh giá độ chính xác phân lớp, fn(S) là số luật và fa(S) là độ dài (hay số tiền điều kiện của luật)

trung bình của vế trái trong hệ luật S thì mục tiêu là xây dựng hệ luật sao cho:

- fp(S) → max,

- Ba mục tiêu trên không thể đạt được đồng thời, khi số luật giảm đồng nghĩa với lượng tri thức về bài toán giảm thì nguy cơ phân lớp sai tăng lên. Nhưng khi có quá nhiều luật cũng có thể gây ra sự nhiễu loạn thông tin trong quá trình phân lớp. Bên cạnh đó, số điều kiện của mỗi luật ảnh hưởng đến tính khái quát hay tính đặc tả của luật, cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại số điều kiện tăng sẽ làm tăng tính đặc tả của luật đó. Tính khái quát sẽ làm tăng tính dễ giải thích của luật nhưng nguy cơ gây sai số lớn, trong khi tính đặc tả làm giảm tính dễ hiểu nhưng lại tăng tính đúng đắn của luật. Các phương pháp giải quyết bài toán đều phải tìm kiếm sự thỏa hiệp giữa các mục tiêu này bằng giải thuật tối ưu đa mục tiêu.

1.4.2 Bài toán hồi quy

- Cho một tập mẫu dữ liệu D ={(dp, yp), p = 1, .., N}, dp là một véc tơ n chiều có dạng (ap,1, ap,2, …, ap,n), ap,j ∈Uj ⊂ R (tập số thực) là miền xác định của các biến độc lập Aj (biến đầu vào) của bài toán, với j = 1, .., n; yp ∈Un+1 ⊂R (tập số thực) là miền xác định của biến phụ thuộc (biến đầu ra) An+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ cho phép tính giá trị �� ∈ �+1ứng với mỗi giá trị đầu vào d ∈U = U1 × ... ×Un.

- Giải bài toán hồi quy bằng FRBS là việc xây dựng một hệ luật mờ S để ánh

xạ tập dữ liệu đầu vào U có n chiều vào tập Un+1 có một chiều đầu ra, bằng một

phương pháp lập luận xấp xỉ. Tức là, với một giá trị đầu vào p ∈U qua ánh xạ này ta xác định

- được giá trị

đầu ra yˆ - ∈Un+1. Khi xây dựng các FRBS cho bài toán hồi quy, các luật

- sử dụng trong FRBS thường là các luật mờ Mamdani có dạng (1.11)

- Để đánh giá độ chính xác của hệ luật người ta sử dụng giá trị sai số bình phương trung bình giá trị quan sát với giá trị mà hệ suy diễn theo công thức (1.18); mục tiêu tính giải nghĩa được của hệ luật dựa trên cấu trúc phân hoạch mờ, độ phức tạp của hệ luật.

- Giải bài toán hồi quy bằng FRBS cũng tương tự như giải bài toán phân lớp. Tuy nhiên do bài toán hồi quy phức tạp hơn nên các thuật toán được đề xuất phải thực hiện nhiều các kỹ thuật phức tạp (như tối ưu số tập mờ, tham số tập mờ, lựa chọn các phép toán cho toán tử And, toán tử kéo theo, …) nhằm nâng cao độ chính xác của FRBS được xây dựng.

1.4.3. Các hướng tiếp cận giải bài toán phân lớp, hồi quy bằng hệ luật mờ

- Mục tiêu cần đạt được khi xây dựng các FRBC/FRBS là độ chính xác và tính giải nghĩa được của hệ luật. Đây là hai mục tiêu xung đột nhau, do đó các giải

- được đề xuất đều cố gắng đạt được sự thỏa hiệp cả hai mục tiêu này bằng cách phát triển các thuật toán tiến hóa tối ưu đa mục tiêu cho phép học tự động sinh các FRBC/FRBS. Trong đó mục tiêu tính giải nghĩa được của FRBS được định nghĩa dựa trên độ phức tạp (tức là số từ sử dụng trên mỗi biến ít, số luật ít, độ dài của các luật càng ngắn càng tốt).

- Khi phát triển các thuật toán giải quyết các bài toán này, chúng ta thường tập trung vào giải quyết 3 vấn đề chính sau đây:

- Thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ); - Sinh các luật mờ ứng cử cho hệ luật;

- Tìm kiếm hệ luật mờ tối ưu.

1.4.3.1. Vấn đề thiết kế phân hoạch mờ (ngữ nghĩa tính toán của từ)

- Các phương pháp tiếp cận theo lý thuyết tập mờ thường sử dụng các phân hoạch mờ đều với số tập mờ cố định được gán nhãn để phân hoạch mờ miền tham chiếu của biến như trong Cordón [23-24], Fazzolari [30], Ishibuchi [37-43], Mansoori [48], Trawinski [76]. Việc sử dụng phân hoạch mờ đều, về trực quan thì tính giải nghĩa được ở mức từ sẽ cao. Tuy nhiên, việc sử dụng cùng một phân hoạch mờ với các tập mờ cố định trước cho các tập dữ liệu khác nhau thì không phù hợp với thực tế. Vì trong thực tế ngữ nghĩa của các từ phụ thuộc vào từng ngữ cảnh tức là phụ thuộc vào từng tập dữ liệu cụ thể. Ví dụ từ “nóng” nếu nó là nhiệt độ của nước thì nó có giá trị trong khoảng [80oC đến 100oC], nhưng nếu nó là nhiệt độ thân nhiệt của người thì nó có giá trị trong khoảng [37,5oC đến 40oC]. Do đó, ngữ nghĩa của từ cần được xác định phù hợp với từng ngữ cảnh cụ thể thì mới có thể nâng cao được độ chính xác của FRBC/FRBS. Vì vậy, một yêu cầu tự nhiên là phải phát triển các thuật toán cho phép điều chỉnh ngữ nghĩa tính toán của từ (tập mờ), chẳng hạn như trong các công trình của Acala [11-14], Cordón [25], Nauck [53], Pulkkinen [70]. Một nhược điểm lớn của các phương pháp tiếp cận theo lý thuyết tập mờ là do không có cầu nối hình thức giữa ngữ nghĩa của các từ ngôn ngữ và các tập mờ nên khi thực hiện điều chỉnh thích nghi các tham số của các tập mờ thì thuật toán phải thực hiện tìm kiếm trong không gian rất lớn, phụ thuộc vào số lượng các nhãn ngôn ngữ được sử dụng trên mỗi biến, dẫn đến phải đưa ra các ràng buộc hạn chế số nhãn ngôn ngữ được sử dụng trên mỗi biến; các tập mờ có thể bị biến dạng sau quá trình hiệu chỉnh thích nghi nên chúng không phản ảnh đúng ngữ nghĩa định tính vốn có của các từ ngôn ngữ và dẫn đến hiện tượng mất mát thông tin khá lớn.

- Để khắc phục nhược điểm này Nguyễn Cát Hồ và các cộng sự trong [4-8], [59], [61-63] đã ứng dụng ĐSGT để sinh các từ ngôn ngữ và xác định ngữ nghĩa tính toán

- - -

- dựa trên tập mờ của từ. Theo tiếp cận này, các tác giả đã đặt vấn đề thiết kế ngôn ngữ sử dụng trong FRBC /FRBS cho mỗi tập dữ liệu, tập mờ chỉ là một dạng biểu diễn ngữ nghĩa tính toán của từ và được xây dựng dựa trên ngữ nghĩa định lượng của từ. Vì vậy, việc điều chỉnh ngữ nghĩa tính toán của từ ngôn ngữ cho phù hợp với từng tập dữ liệu được thực hiện rất dễ dàng trong cách tiếp cận này chỉ bằng việc điều chỉnh các tham số tính mờ của ĐSGT. Số lượng tham số tính mờ của mỗi biến là nhỏ, do đó, không gian tìm kiếm giảm đi rất nhiều và đặc biệt nó không phụ thuộc vào số từ được sử dụng cho mỗi biến.

1.4.3.2. Vấn đề sinh luật ứng cử

- Các phương pháp tiếp cận theo lý thuyết tập mờ thường sinh luật bằng cách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến, mỗi một tổ hợp tạo ra một luật dạng (1.11) như trong các công trình của Cordón [23-25], Fazzolari [30], Gacto [33], Ishibuchi [37-43], López [46]. Nhược điểm của hướng tiếp cận này là khi tập dữ liệu có nhiều biến thì số luật sinh ra cỡ hàm mũ theo số biến. Ví dụ với tập dữ liệu có n biến, sử dụng T giá trị ngôn ngữ cho mỗi biến và tmax là chiều dài tối đa của luật thì

- số luật phải

xem xét là - T n *

∑tmax

- . Một số đề xuất tiếp cận dựa trên lý thuyết - tập mờ sinh luật từ cây quyết định (decision tree) như trong Pulkkinen [70]. Phương pháp này đã làm giảm đáng kể số luật phải xem xét nhờ vào các kỹ thuật cắt tỉa trên cây, nhưng nếu sử dụng kỹ thuật sinh luật này trong các thuật toán cho phép tối ưu tham số tập mờ thì độ phức tạp thuật toán sẽ rất cao vì mỗi lần điều chỉnh tham số tập mờ ta lại phải xây dựng lại cây quyết định.

- Hướng tiếp cận dựa trên ĐSGT được đề xuất bởi Nguyễn Cát Hồ [4-6], [59], [61], thực hiện sinh luật từ mẫu dữ liệu. Theo đó, mỗi mẫu dữ liệu sinh ra một luật có độ dài n, từ các luật này sinh các luật có độ dài l ≤n. Số luật ứng cử tối đa phải

- xem xét theo phương pháp

này là - N *

∑tmax

- , nó đã giảm đi rất nhiều so với - phương pháp sinh luật bằng tổ hợp. Phương pháp sinh luật này không phụ thuộc vào số từ ngôn ngữ được sử dụng trên mỗi biến và số lượng luật được sinh ra giảm đi nhiều. Luận án sử dụng phương pháp sinh luật này cho bài toán phân lớp mờ.

1.4.3.3. Vấn đề tìm hệ luật mờ tối ưu

- Xây dựng hệ luật mờ là bài toán đa mục tiêu, với các mục tiêu xung đột nhau. Do đó, các thuật toán đã đề xuất đều nhằm hướng tới tìm ra các lời giải thỏa hiệp giữa các mục tiêu của bài toán. Việc xây dựng hệ mờ tự động có thể xem như là một bài toán tìm kiếm hoặc bài toán tối ưu đa mục tiêu. Các thuật toán tiến hóa,

l n

- - -

- toán thực hiện tìm kiếm trong không gian các lời giải có thể chấp nhận được để tìm ra lời giải tốt nhất thường gọi là lời giải tối ưu.

- Nhiều thuật toán tiến hóa đa mục tiêu (Multi-Objective Evolutionary Algorithm

- - MOEA) đã được đề xuất. Người đi đầu trong lĩnh vực này là Ishibuchi,

Deb. Hiện tại trong cộng đồng nghiên cứu đã hình thành nhiều nhóm nghiên cứu mạnh trong lĩnh vực này như nhóm của Acalá, Antonelli, Cococcioni, Ducang, Herrera, Gacto, Nguyễn Cát Hồ, Huang W, Pulkkinen, Wang H.

- MOEAs có thể chia thành hai thế hệ. Thế hệ thứ nhất bao gồm một số thuật toán nổi tiếng như: MOGA (Multi-Object Genetic Algorithm) do Carlos M. Fonseca đề xuất năm 1993 [21], NSGA (Non-dominated Sorting Genetic Algorithm) do Srinivas và Deb đề xuất năm 1994 [28], [74], NPGA (Niched-Pareto Genetic Algorithm) do Horn đề xuất năm 1994 [36], MOGLS (Multi-Objective Genetic Local Search) do Ishibuchi đề xuất năm 1996 [38]. Những thuật toán của thế hệ thứ nhất chủ yếu thực hiện dựa trên hai cơ chế: Thứ nhất là làm thế nào để chọn được các cá thể không bị trội tốt và thứ hai là làm thế nào để duy trì được tính đa dạng của các cá thể trong mặt Pareto tìm được. Thừa kế những cơ chế của những thuật toán ở thế hệ thứ nhất, các thuật toán thuộc thế hệ thứ hai bổ sung thêm khái niệm “phần tử thống trị (elitist)” để đảm bảo tính hội tụ của MOEA và khắc phục những hạn chế của thế hệ thứ nhất. Một số giải thuật nổi tiếng như là: SPEA và SPEA2 (Strength Pareto Evolutionary Algorithm 2) do Zitzle đề xuất lần lượt năm 1999 và 2001, trong đó SPEA2 là một phiên bản cải tiến của SPEA [84], PAES (Pareto Archived Evolution Strategy) do Knowles và Corne đề xuất năm 2000 [45], (2+2)M-PAES một phiên bản cải tiến của PAES do Cococcioni đề xuất năm 2007 [22], PESA (Pareto Envelope-based Selection Algorithm) do Corne, Knowles, và Oates đề xuất năm 2000 [26], NSGA-II (The Nondominated Sorting Genetic Algorithm II) Deb và cộng sự đề xuất năm 2002 [28].

1.4.4. Phương pháp sinh luật dựa trên dữ liệu và ĐSGT

1.4.4.1. Sinh luật mờ dựa trên dữ liệu cho bài toán hồi quy

- Để tránh phải đối mặt với sự bùng nổ theo cấp số nhân của không gian luật phải xem xét như phương pháp sinh luật bằng tổ hợp. Nguyễn Cát Hồ và cộng sự đã phát triển thuật toán sinh luật từ mẫu dữ liệu và hệ khoảng tương tự được xây dựng bằng ĐSGT [59]. Ý tưởng của phương pháp này được mô tả khái quát như sau:

- Xét một mẫu dữ liệu dp = (ap,1, ap,2, …,ap,n, ap,n+1) của tập dữ liệu D, với mỗi - biến Aj, tập các khoảng mờ

- thành một phân hoạch, ở đây tồn tại duy nhất từ

xj,i ∈ - S( kj) để apj ∈ ℭ(��,�), với j =

- 1, n + 1. Khi đó luật ngôn ngữ được sinh ra tương ứng với mẫu dữ liệu dp có

dạng sau:

- rp: If

A1 is xp,1 & … & An is xp,n Then An + 1 is xp,n + 1 (1.24) Từ các luật dạng (1.24) ta sinh ra các luật có độ dài nhỏ hơn n để xây dựng cơ sở luật tối ưu.

- ��:

If A1 is xq,1 & … & An is xq,n Then An + 1 is xq,n + 1 (1.25) trong đó xq,j ∈�� ∪ {Don’tcare}, j = 1,..,n

- Như vậy với một mẫu dữ liệu dp, một bộ tham số tính mờ của các đại số gia tử của các biến đầu vào kí hiệu là π= (π1,…,πn+1), πj ={µLj, µ�−} với ĐSGT tuyến tính chỉ có 2 gia tử, j = 1,..,n+1, bộ tham số giới hạn độ dài tối đa của các từ sử dụng cho mỗi biến k = (k1, …, kn+1) và giới hạn độ dài tối đa của luật τmax ta có thể xây

dựng một hàm để sinh ra một luật ngôn ngữ dạng (1.25) cho bài toán hồi quy như sau:

- Procedure PrGenRule(dp, {��, �(�� ): j ≤ n + 1}, τmax)

- Inp ut:

-(��) - (((((((((((((((�)

− Một mẫu dữ liệu dp = (ap,1, ap,2, …, ap,n, ap,(n+1));

− Tập chỉ số của các từ của biến: �(�� ), j = 1, …, n+1; - �

-− Các tập khoảng tương tự {�� : j ≤ n + 1} = {�� )(� : x ∈ ��� }; -((((((((((((((( �) -(((((((((((((((�) - (((((((((((((((�) − Số nguyên xác định độ dài lớn nhất cùa luật ngôn ngữ: τmax;

- Output: Một luật ngôn ngữ có độ dài không vượt quá τmax. -Begin

1. Đối với mẫu dữ liệu đầu vào dp = (ap,1, ap,2, …, ap,n, ap,(n+1)) ∈D, đặt r(dp) là

luật có dạng (1.24) và được mã hóa bằng một véc-tơ số nguyên (c1, c2, …, cn,

cn+1);

2. Sinh ngẫu nhiên một số nguyên t, 0 < t ≤ τmax. Sau đó, sinh ngẫu nhiên t số nguyên j1, …, jt với ràng buộc 0 < j1 < … < jt ≤ n;

Đại số gia tử mở rộng

Các mục tiêu khi xây dựng FRBS