Giới thiệu bài toán phân lớp

Bài toán phân lớp (classification) là một trong những bài toán đặc trưng của

lĩnh vực khai phá dữ liệu, được nhiều tác giả nghiên cứu và ứng dụng như

Ishibuchi, Herrera, Abonyi, Chen, Khotanzad, Mansoori, Olson,... Trong đó, các

phương pháp được biết đến như là cây quyết định, mạng nơron, phương pháp

Bayes, SVM, boosting, random forest,... [54], [63]. Trong khi các phương pháp này tập trung giải quyết bài toán với mục tiêu đạt hiệu quả phân lớp cao nhất thì phương pháp dựa trên hệ mờ dạng luật (fuzzy rule-based classification systems - FRBCS), ngoài việc đạt hiệu quả phân lớp cao còn được nghiên cứu để đáp ứng cho người

dùng một mơ hình phân lớp dễ hiểu và trực quan. Người dùng có thể sử dụng các luật mờ trong mơ hình như là các tri thức của mình để chủ động áp dụng trong thực tế. Phương pháp FRBCS được nhiều tác giả nghiên cứu sử dụng để giải bài toán

(chẳng hạn trong [10], [17], [31], [40]-[46], [50], [60], [77]) và chúng ta gọi đây là bài toán phân lớp mờ.

Bài tốn phân lớp mờ có thể được phát biểu như sau: cho một tập các mẫu dữ liệu D = { (P; C) }, trong đó P = { pi = (di,1, ..., di,n) | i=1, ..., N } là tập dữ liệu, C = {C1, ..., Cm} là tập các nhãn của các lớp, pi ∈U là dữ liệu thứ i với U = U1 × ... ×

Un là tích Đề-các của các miền của n thuộc tính X1, ..., Xn tương ứng, m là số lớp và

N là số mẫu dữ liệu, để ý rằng P ⊂ U. Mỗi dữ liệu pi ∈ P thuộc một lớp ci ∈ C

tương ứng tạo thành từng cặp (pi, ci) ∈ D. Giải bài tốn bằng FRBCS chính là xây

dựng một hệ các luật mờ, ký hiệu S, để phân lớp đóng vai trị như một ánh xạ từ tập dữ liệu vào tập nhãn:

S : U→ C. (1.5)

Hệ các luật mờ này biểu diễn cho tri thức về bài tốn, nó khơng chỉ phản ánh

đúng với tập dữ liệu mẫu mà cịn có khả năng dự đoán và cung cấp giúp cho người

dùng phán đoán, ra quyết định. Do đó, hệ luật phải tường minh, dễ hiểu đối với

Như vậy, hệ S phải đạt các mục tiêu như hiệu quả phân lớp cao, tức là sai số

phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng như số điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về hiệu quả phân lớp nhằm đáp ứng tính

đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài tốn, cịn hai mục

tiêu sau với mong muốn hệ luật phải tường minh, các luật mờ trong S phải đơn giản và dễ hiểu đối với người dùng. Nếu fp(S) là hàm đánh giá hiệu quả phân lớp, fn(S) là

số luật và fa(S) là độ dài (hay số điều kiện tham gia) trung bình của vế trái trong hệ

luật S thì mục tiêu là xây dựng hệ luật sao cho:

fp(S) → max, fn(S) và fa(S) → min. (1.6)

Ba mục tiêu trên không thể đạt được đồng thời. Khi số luật giảm đồng nghĩa

với lượng tri thức về bài tốn giảm thì nguy cơ phân lớp sai tăng lên, nhưng khi có quá nhiều luật cũng có thể gây ra sự nhiễu loạn thơng tin trong q trình phân lớp. Bên cạnh đó, số điều kiện của mỗi luật ảnh hưởng đến tính phổ quát hay cá thể của luật, cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại số điều kiện

tăng sẽ làm tăng tính cá thể của luật đó. Tính phổ quát sẽ làm tăng khả năng dự đoán của luật nhưng nguy cơ gây sai số lớn, trong khi tính cá thể giảm khả năng dự đốn nhưng lại tăng tính đúng đắn của luật. Các phương pháp giải quyết bài toán đều phải thỏa hiệp giữa các mục tiêu này để đạt được kết quả cuối cùng.

Các tác giả trong [50] sử dụng hệ luật mờ như dạng (1.1) cho bài tốn phân lớp, khi đó kết quả lập luận đầu ra của hệ là một tập mờ B′ đối với một mẫu dữ liệu, chúng ta cần giải mờ để xác định nhãn phân lớp cho mẫu dữ liệu tương ứng. Nhiều tác giả [10], [17], [23], [30]-[33], [40]-[46], [53], [59], [60], [74], [77] thì sử dụng các luật mờ có phần kết luận của mỗi luật là một giá trị hằng tương ứng với nhãn

của một lớp, có dạng như sau:

If X1 is Aq1 and ... and Xn is Aqn then Class Cq with CFq, (1.7) trong đó Aq,j là giá trị ngôn ngữ của các biến ngôn ngữ tương ứng với các thuộc

j=1, ..., n. Thông thường, trọng số của luật là số thực trong khoảng đơn vị, CFq ∈

[0,1].

Đối với tập dữ liệu mẫu của bài toán phân lớp được cho dưới dạng số, tức là U⊂Rn, thì việc xây dựng một hệ luật mờ S thường gồm hai bước sau:

(B1) Phân hoạch mờ (fuzzy partition) trên miền của các thuộc tính bằng tập

các giá trị ngôn ngữ của các biến ngôn ngữ - Dom(Xi), mỗi giá trị ngôn ngữ được

gán một hàm thuộc tương ứng.

(B2) Xác định các luật mờ từ các phân hoạch ở trên tạo thành hệ S.

Bước phân hoạch mờ dựa trên các tập mờ tương ứng với các trị ngôn ngữ trên miền của các thuộc tính. Có hai phương pháp thường áp dụng đó là phân hoạch

dưới dạng lưới (grid-partition) và phân hoạch theo sự phân bố dữ liệu (scatter-

partition) (Hình 1.5 và 1.6). Để minh họa rõ hơn ta lấy ví dụ như sau.

Ví dụ 1.3. Cho bài tốn phân lớp với tập mẫu có thuộc tính X1, X2 và hai lớp

{C1, C2} biểu thị bằng chấm trịn và vng (Hình 1.5).

Theo phương pháp grid-partition, phân hoạch mờ trên miền của 2 thuộc tính thành các tập mờ dạng tam giác tương ứng với giá trị ngôn ngữ là {S(small),

M(medium), L(large)} sẽ tạo thành một lưới phân hoạch mờ như Hình vẽ 1.5.

Hình 1.5: Lưới phân hoạch mờ trên miền của 2 thuộc tính

Lưới phân hoạch mờ này chia khơng gian tích Đề-các của các miền của thuộc tính tạo thành không gian các siêu hộp (hyper-box), ký hiệu HS, các luật mờ sẽ

S M L M S L X1 X2

được hình thành từ các tổ hợp của các giá trị ngôn ngữ trong không gian phân hoạch

tương ứng với mỗi siêu hộp mà tại đó có hỗ trợ bởi các mẫu dữ liệu [42].

Tuy nhiên, các mẫu dữ liệu của các lớp khác nhau có thể thuộc cùng một siêu hộp, đây là một thách thức lớn đối với bất kỳ phương pháp xây dựng hệ luật mờ

phân lớp nào. Trực quan từ ví dụ trong Hình 1.5, các hệ luật có thể được chọn: - Hệ S1 gồm 7 luật mờ sau:

If X1 is Small and X2 is Small then Class C1, If X1 is Small and X2 is Large then Class C1, If X1 is Large and X2 is Medium then Class C1, If X1 is Large and X2 is Small then Class C2, If X1 is Medium and X2 is Small then Class C2, If X1 is Medium and X2 is Medium then Class C2, If X1 is Medium and X2 is Large then Class C2. - Hệ S2 gồm 4 luật mờ sau:

If X1 is Small then Class C1,

If X1 is Large and X2 is Medium then Class C1, If X1 is Medium then Class C2,

If X1 is Large and X2 is Small then Class C2. Giả sử rằng các luật mờ này có trọng số CF = 1.

Theo phương pháp scatter-partition, phân hoạch mờ dựa trên sự phân tích dữ liệu của bài tốn. Thơng thường được thực hiện bằng các phương pháp học máy

(machine learning), chẳng hạn sử dụng giải thuật di truyền [14], [61] và được gắn

với phương pháp điều chỉnh tham số mờ cho hệ mờ. Hình vẽ 1.6 minh họa phương

pháp scatter-partition. Trong đó, trên miền của mỗi thuộc tính sẽ chọn các giá trị

ngôn ngữ cùng với hàm thuộc tương ứng dựa trên sự phân tán của dữ liệu. Chẳng

hạn hình chữ nhật tơ màu chứa các dữ liệu với phân hoạch bởi các hàm thuộc dạng tam giác có màu tương ứng trên X1, X 2.

Rõ ràng phương pháp giải bài toán phân lớp mờ phụ thuộc vào các yếu tố như chọn tập mờ cho các giá trị ngôn ngữ để phân hoạch trên miền của các thuộc tính

cũng như số lượng các giá trị ngôn ngữ, phương pháp lựa chọn, xác định các luật

mờ từ không gian các siêu hộp HS để đạt các mục tiêu trong (1.6). Trong phần tiếp theo sẽ trình bày chi tiết hơn phương pháp xây dựng hệ luật mờ cho bài tốn phân lớp.

Hình 1.6: Phương pháp phân hoạch mờ scatter-partition

Áp dụng thuật toán sinh luật IFRG1

Áp dụng thuật toán sinh luật IFRG2