Bài toán phân lớp

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp tinh chỉnh tham số mờ gia tử của hệ mờ dạng luật phân lớp và ứng dụng (Trang 31 - 32)

Trong các bài toán về lĩnh vực khai phá dữ liệu thì bài toán phân lớp là một trong những bài toán đặc trưng được nhiều tác giả nghiên cứu, với các phương pháp khác nhau để đạt được hiệu quả phân lớp cao nhất. Trong đó có phương pháp dựa trên hệ mờ dạng luật (fuzzy rule-base classification systems - FRBCS), ngoài việc đạt được hiệu quả phân lớp cao phương pháp này còn được nghiên cứu để đáp ứng cho người dùng một mô hình phân lớp dễ hiểu trực quan, được người dùng sử dụng như là các tri thức của mình để áp dụng trong thực tế.

Bài toán phân lớp mờ có thể được phát biểu như sau: cho một tập các dữ liệu mẫu D = {(P, C)}, trong đó P = {pi = (di,1,…,di,n)| i=1,…,N} là tập dữ liệu, C = {C1,…,Cm} là tập các nhãn của các lớp, pi ∈ U là dữ liệu thứ i với U = U1 × ... × Un là tích Đề-các của các miền của n thuộc tính X1, ..., Xn tương ứng, m là số lớp và N là số mẫu dữ liệu, để ý rằng P ⊂ U. Mỗi dữ liệu pi∈ P thuộc một lớp ci∈ C tương ứng tạo thành từng cặp (pi, ci) ∈ D. Giải bài toán bằng FRBCS chính là xây dựng một hệ các luật mờ, ký hiệu S, để phân lớp đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn:

S: U C (2.1)

Như vậy, hệ S phải đạt được các mục tiêu như hiệu quả phân lớp cao, tức là sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng như số điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về hiệu quả phân lớp nhằm đáp ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, các luật mờ trong S phải đơn giản và dễ hiểu đối với người dùng. Khi đó mục tiêu xây dựng hệ luật sao cho có dạng:

fp(S) → max, fn(S) và fa(S) → min. (2.2) trong đó: - fp(S) – hàm đánh giá hiệu quả phân lớp

- fn(S) – là số luật

- fa(S) – là độ dài (số điều kiện tham gia)

Tuy nhiên, ta thấy rằng ba mục tiêu xây dựng hệ luật trên không thể đạt được đồng thời. Khi số luật giảm thì lượng tri thức về bài toán giảm khi đó nguy cơ phân lớp sai tăng, khi có quá nhiều luật lại gây nhiễu loạn thông tin trong quá trình phân lớp.Số điều kiện và các giá trị ngôn ngữ tham gia trong mỗi điều kiện của mỗi luật ảnh hưởng đến tính phổ quát của luật, cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại. Tính phổ quát sẽ làm tăng khả năng dự đoán của luật nhưng nguy cơ gây sai số lớn, khi tính cá thể giảm thì khả năng dự đoán lại tăng tính. Vì vậy, các phương pháp giải quyết bài toán đều phải thỏa hiệp giữa các mục tiêu để đạt được kết quả cuối cùng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp tinh chỉnh tham số mờ gia tử của hệ mờ dạng luật phân lớp và ứng dụng (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(75 trang)