Giải bài toán phân chia miền xác định thuộc tính sử dụng khoảng tính

Một phần của tài liệu Phân lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ (Trang 48 - 50)

tính mờ và giá trị định lƣợng ngữ nghĩa

Với các kết quả nhận đƣợc về ĐSGT trình bày ở trên, có thể thấy, với ĐSGT (bình thƣờng) miền xác định X luôn đƣợc phân hoạch thành các khoảng đo tính mờ bởi các phần tử có cùng độ dài. Còn với ĐSGT mở rộng, X có thể phân bởi 1 phân hoạch của các phần tử có độ dài không lớn hơn một số k cố định. Đây chính là cơ sở để ta tiến hành phân chia miền xác định của một thuộc tính của CSDL. Cụ thể, ta sẽ tiến hành các bƣớc sau xác định các miền mờ đƣợc phân chia. Trƣớc hết, với mỗi thuộc tính (lƣu ý rằng chỉ tiến hành với các thuộc tính có cấu trúc, tức là các giá trị của nó về nguyên tắc sắp xếp đƣợc; các thuộc tính không cấu trúc, thí dụ địa chỉ, không xét đến ở đây) ta sẽ ứng với một ĐSGT. Việc này nói chung tƣơng đối dễ dàng. Ta sẽ lấy hai phần tử sinh tƣơng ứng với miền xác định của thuộc tính đã nêu. Thí dụ nếu thuộc tính là “khoảng cách” thì 2 phần tử sinh có thể là “xa” và “gần”, nếu là “tuổi” thì 2 phần tử sinh là “trẻ” và “già”... Thật ra, về nguyên tắc, tên của 2 phần tử sinh hoàn toàn không quan trọng, chỉ là để ngƣời sử dụng dễ hiểu. Quan trọng hơn là xác định các gia tử và độ đo tính mờ của chúng. Thông thƣờng ta có thể sử dụng 2 hoặc 4 gia tử (là các cặp gia tử đối nhau nhƣ “rất” và “ít” hoặc “không” ; “khá” hoặc “tương đối” và “nhiều”. Đồng thời nếu không có thông tin gì thêm, có thể chọn độ đo tính mờ của các gia tử là bằng nhau, ví dụ μ(“rất”) = μ( “ít”) = ½ trong trƣờng hợp ĐSGT 2 gia tử và μ(“rất”) = μ(“khá”) = μ(“nhiều”) = μ( “ít”) = ¼ trong trƣờng hợp ĐGST 4 gia tử.

Khi đã xác định đƣợc ĐSGT ứng với thuộc tính, bƣớc tiếp theo là chuyển đổi số liệu. Trong đó, khâu đầu tiên là xây dựng các hàm thuộc phân

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

chia miền thuộc tính. Việc xây dựng các hàm thuộc có thể tiến hành nhƣ sau. Ta thấy, trên miền xác định của thuộc tính, một giá trị số bất kỳ đều nằm giữa hai giá trị ĐLNN của 2 khoảng tính mờ liên tiếp hoặc trùng với một giá trị ĐLNN của một khoảng tính mờ do tính chất tạo nên phân hoạch miền xác định của các khoảng tính mờ. Nhƣ vậy, khoảng cách giữa giá trị xij đó tới 2 giá trị ĐLNN có thể dùng để tính độ thuộc của xij vào các tập mờ đƣợc biểu diễn bởi các khoảng tính mờ đó (trƣờng hợp trùng với 1 giá trị ĐLNN thì chỉ có 1 độ thuộc): khoảng cách càng nhỏ thì độ thuộc càng lớn, nếu trùng có thể coi đạt 1. Cụ thể, ta có thể xây dựng hàm thuộc từ các giá trị ĐLNN, tức là dựng các tam giác là biểu diễn các hàm thuộc của tập mờ với 1 đỉnh có tọa độ (υ(xi),1), hai đỉnh còn lại nằm trên miền xác định, có tọa độ tƣơng ứng là (υ(xi- 1),0), (υ(xi+1),0), trong đó υ(xi-1), υ(xi), υ(xi+1) là 3 giá trị ĐLNN liên tiếp.

Cách xây dựng các hàm thuộc hay tƣơng đƣơng là các tập mờ để phân chia miền xác định của thuộc tính theo cách tiếp cận ĐSGT nhƣ trên có những ƣu điểm sau:

a. Do cách xây dựng ĐSGT có cơ sở phù hợp với ngữ nghĩa con ngƣời cảm nhận nên về mặt cảm tính, có thể thấy các hàm thuộc đƣợc xây dựng là phản ánh khá tốt ngữ nghĩa của tập mờ mà nó biểu diễn.

b. Dễ thấy là độ chồng lấn và độ phủ của các hàm thuộc là tốt (độ chồng lấn và độ phủ đã nói ở chƣơng 2). Từ đó ta thấy nếu cần tối ƣu độ thích hợp (suitabitity) của các MF, ta chỉ cần tối ƣu usage_factor.

F A v(x1) v(x2) v(x3) v(x4) B C D E G

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

c. Các tham số cần quản khi xây dựng là ít (mỗi tam giác một tham số, là giá trị ĐLNN), khi thay đổi tham số ban đầu của ĐSGT, dễ dàng có các MF mới và các MF vẫn giữ nguyên độ đo chồng lấn và phủ nhƣ cũ. Phƣơng pháp này do vậy, đơn giản và hợp lý.

Với cách xác định các hàm thuộc nhƣ trên, ta có các hàm thuộc phân chia miền xác định thuộc tính thỏa mãn phần lớn các tiêu chí nêu ở chƣơng trƣớc. Việc còn lại chỉ là tối ƣu hóa các tham số của ĐSGT tƣơng ứng để có một tập các hàm thuộc có tổng độ hỗ trợ của các 1-thuộc tính phổ biến (usage_factor) là lớn nhất. Việc này đƣợc tiến hành thông qua một giải thuật di truyền.

Một phần của tài liệu Phân lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ (Trang 48 - 50)