Các phƣơng pháp giải bài toán phân chia miền xác định thuộc tính

Một phần của tài liệu Phân lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ (Trang 34)

Trong mục này, luận văn sẽ đi sâu hơn trình bày cụ thể hai nhóm phƣơng pháp chính trong việc xây dựng các hệ luật mờ, phƣơng pháp tiền định - xây dựng CSDL mờ và hệ luật mờ tách biệt và phƣơng pháp tối ƣu hóa các hàm thuộc - xây dựng hệ luật mờ đồng thời với việc tối ƣu hóa các hàm thuộc.

2.2.1. Phương pháp tiền định

Trong nhóm phƣơng pháp này, miền xác định thuộc tính đƣợc phân chia trƣớc, độc lập với bƣớc xây dựng hệ luật mờ tối ƣu sau đó.

a. Phương pháp phân chia một cách ngẫu nhiên [2]: Trong phƣơng pháp

này, ta chọn một số cố định các miền cần chia (thông thƣờng lấy số 3, tức phân làm 3 miền mờ) và chia thuộc tính thành các vùng đều nhau. Phƣơng pháp này đơn giản và có lẽ là tốt khi ta không có thông tin nào khác, nhƣng hiển nhiên là không đáp ứng tính đa dạng của dữ liệu.

b. Phương pháp phân chia theo phương pháp phân cụm (học không mẫu) [2]: Trong phƣơng pháp này, dữ liệu đƣợc phân thành cụm căn cứ vào

độ gần gũi theo một tiêu chuẩn nào đó giữa chúng. Thuật toán biết đến nhiều trong hƣớng phân cụm (clustering - học không mẫu) là k-mean. Cũng thông thƣờng, số cụm có thể chọn cố định trƣớc, có thể là 3. Chỉ khác phƣơng pháp trƣớc là ta không chia đều miền xác định của thuộc tính mà căn cứ vào phân

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

bố cụ thể của số liệu. Phƣơng pháp này tính đến sự đa dạng của việc phân bố dữ liệu nhƣng đòi hỏi phải tiến hành chạy các thuật toán tốn nhiều thời gian.

2.2.2. Tối ưu hóa các hàm thuộc MF (Membership functions)

Với nhóm phƣơng pháp thứ hai, đặc điểm là các hàm thuộc có thể thay đổi trong quá trình xây dựng hệ luật mờ vì quá trình xây dựng hệ luật mờ gắn chặt với quá trình xây dựng CSDL mờ. Tuy nhiên, thông thƣờng khối lƣợng tính toán phát sinh theo nhóm phƣơng pháp này là rất lớn, buộc các nhà nghiên cứu phải giới hạn các thuật toán trong một số ràng buộc nhất định. Có thể liệt kê một số phƣơng pháp thƣờng dùng sau:

-Phân chia miền xác định bằng các hàm thuộc có dạng thống nhất (thƣờng là tam giác cân), sau đó có thể cho phép điều chỉnh trong quá trình thực hiện giải thuật di truyền (GA - Genetic Algorithm) nhƣng chỉ trong phạm vi cho phép (thí dụ, đỉnh tam giác cân có thể dịch chuyển sang phải hoặc trái nhƣng không quá 1 ngƣỡng cho trƣớc, thí dụ 0,05). Việc này cho phép một mặt vẫn thay đổi FB với mong muốn thu đƣợc RB tốt hơn, một mặt giảm khối lƣợng tính toán (khá lớn) và làm cho các hàm thuộc về cơ bản không rơi vào trong những trƣờng hợp không mong muốn nhƣ trên đã nêu.

-Phân chia theo phƣơng pháp ràng buộc động: Trong phƣơng pháp này, dữ liệu đƣợc phân chia thành các miền mờ theo các ràng buộc trên các hàm thuộc để đảm bảo một số tiêu chí cho trƣớc. Các tiêu chí đó có thể là:

1) Số lƣợng các (hàm thuộc) MF mỗi biến là vừa phải.

2) Các MF đƣợc phân biệt, ví dụ, hai MF không đặc trƣng cho cùng hoặc gần nhƣ cùng một nhãn ngôn ngữ.

3) Mỗi MF là chuẩn hóa tức là nếu nó đạt đến giá trị 1 ít nhất tại một điểm của miền giá trị.

4) Miền giá trị đƣợc phủ hoàn toàn bởi các miền mờ tƣơng ứng và ít nhất một MF nhận giá trị β> 0 tại bất kỳ điểm nào trên miền giá trị.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Điều kiện 1) đƣợc thỏa bởi hạn chế số cực đại các miền mờ.

Ngoài ra, điều kiện 3) đƣợc đáp ứng bằng cách áp dụng MF chuẩn và các phép biến đổi của giải thuật di truyền không làm thay đổi trạng thái chuẩn của chúng.

Điều kiện đáp ứng 2) và 4) là khó khăn hơn. Trong [7] cho rằng nếu các MF đƣợc định nghĩa trên toàn trục số và các điều kiện sau đƣợc đáp ứng thì các điều kiện 2) và 4) cũng thỏa mãn:1) Điều kiện đối xứng: Các đồ thị của các hàm thuộc của tất cả các MF là đối xứng. Ví dụ, Gaussian MF và tổng quát chuông (Gbell) MF là đối xứng theo định nghĩa. Ngoài ra, MF khác nhƣ hình tam giác và hình thang có thể dễ dàng thực hiện đối xứng.

2) α-điều kiện: Tại bất kỳ điểm giao nhau của hai MFS, các giá trị thuộc không lớn hơn α (để tránh các hàm thuộc trùng nhau quá nhiều).

3) γ-điều kiện: Tại tâm của mỗi MF, không có MF khác lại nhận giá trị thuộc lớn hơn γ. Tâm của một MF phụ thuộc vào MF loại đƣợc sử dụng. Cho MF hình chuông (gbell) (với thông số a, b, c) tâm là tham số c. Cho tam giác MF (với các thông số a <b <c), b là tâm. Với hình thang MF (với các thông số a <b <c <d), tâm là b + ((c - b) / 2).

4) β-điều kiện: Miền xác định đƣợc phủ hoàn toàn, tức là, tại mỗi điểm của miền xác định, ít nhất một thành viên MF có giá trị nhỏ nhất là β.

Việc phân chia theo ràng buộc động cho phép ta xây dựng các hàm thuộc đa dạng hơn cách trên, tuy nhiên việc tính toán trong quá trình thực hiện MOGA để đảm bảo các điều kiện trên là không đơn giản.

Các tác giả xác định một số tiêu chí cũng gần tƣơng tự nhƣng cụ thể hơn để đánh giá một tập MF. Cụ thể, sự thích hợp (suitabitity) của tập MF dùng để phân chia thuộc tính ngôn ngữ Iq có thể đánh giá qua 3 yếu tố: độ chồng lấn (overlap_factor) đo độ chồng lấn của các MF lên nhau; độ phủ

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

(coverge_factor) đo độ bao phủ miền giá trị của các MF này và khả năng sử dụng (usage_factor).

Hình 2.3. Tập các MF của thuộc tính Ij

Hình 2.4. Hai dạng không thích hợp của các MF

Với overlap_factor tốt, ta có thể loại hoặc hạn chế trƣờng hợp (a) của Hình 6, khi các hàm thuộc chồng nhau quá nhiều, ít mang tính phân biệt. Với coverge_factor tốt, có thể hạn chế trƣờng hợp nhƣ (b) trên Hình 6, khi tồn tại nhiều khoảng trống trên miền xác định, không rơi vào tập mờ nào (độ thuộc lớn hơn 0). Ngoài ra, với hy vọng thu đƣợc tập các tập mờ đƣợc phân chia tốt, usage_factor là số đo tổng độ hỗ trợ của các tập phổ biến 1 thuộc tính (large 1-itemsets) đƣợc sử dụng. Với tổng độ hỗ trợ cao, hy vọng là ta sẽ nhận đƣợc nhiều luật kết hợp, tuy không chắc nhƣ xem xét tất cả các tập phổ biến nhƣng bù lại, thời gian xử lý sẽ ít hơn vì chỉ xét các tập phổ biến 1 items. Với các độ đo nhƣ vậy, có thể sử dụng giải thuật tiến hóa đa mục tiêu để nhận đƣợc các tập MF tối ƣu cục bộ (theo nghĩa mặt Pareto) và ngƣời sử dụng có thể tự

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

quyết định sẽ lựa chọn tập MF tốt nhất trong từng trƣờng hợp cụ thể, có tính đến sự cân bằng giữa mức độ tốt của hệ thống và thời gian tính toán.

Nhƣ vậy, có thể thấy có rất nhiều phƣơng pháp xây dựng các hệ luật mờ nói chung và xây dựng các CSDL mờ - cũng tức là xây dựng các hàm thuộc phân chia miền mờ nói riêng - để giải các bài toán trong lĩnh vực khai phá tri thức. Hiện các thuật toán xây dựng các hệ luật mờ nhận đƣợc sự tập trung nghiên cứu và cũng đã đạt đƣợc nhiều kết quả tốt. Tuy vậy, nhƣ đã trình bày ở trên, các thuật toán này hoặc còn chƣa đạt đến mức độ tối ƣu cần thiết (nhóm thuật toán thứ nhất) hoặc đòi hỏi thời gian tính toán và bộ nhớ xử lý cực lớn và do đó khó đạt đến mức tối ƣu nhƣ mong muốn (nhóm thuật toán thứ hai). Trong chƣơng sau, luận văn sẽ trình bày cách tiếp cận giải bài toán dựa trên lý thuyết ĐSGT, với mong muốn sẽ có thuật toán đơn giản hơn về mặt tính toán nhƣng có hiệu quả để giải các bài toán khai phá tri thức. Nghiên cứu này đề xuất phƣơng pháp dựa trên nền tảng thuật toán MOGA - thuật giải di truyền đa đối tƣợng để đạt đƣợc hàm liên thuộc đa mục tiêu. Chi tiết của phƣơng pháp đƣợc đề xuất mô tả nhƣ sau.

- Tổng thể ban đầu: Dựa trên thuật giải di truyền, thực hiện quá trình tiến hóa. Mỗi cá thể trong tổng thể là một tập hợp các hàm liên thuộc tam giác cân. Mỗi hàm liên thuộc tƣơng ứng với một quy tắc ngôn ngữ cố định. Tập hợp ban đầu của các nhiễm sắc thể đƣợc tạo ra ngẫu nhiên với một số rằng buộc cho việc hình thành các hàm liên thuộc.

- Nhƣ trong hình 5 mỗi hàm liên thuộc đƣợc giả định là một tam giác cân đại diện bởi (c,w) trong đó c là trung tâm trục hoành và w là một nửa vùng tam giác, c và w đề là giá trị số. Rjk thể hiện các hàm liên thuộc.

- Tạo hai hàm mục tiêu: Trong nghiên cứu gần đây, khai phá hàm liên thuộc và các luật liên kết mờ đƣợc xem xét nhƣ một bài toàn tối ƣu hoá đa mục tiêu, trong đó 2 yếu tố kể trên đƣợc dùng nhƣ là hai hàm mục tiêu. Một thuật toán dựa trên MOGA đƣợc đƣa ra để tìm giải pháp cho giải pháp tối ƣu

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Pareto. hàm mục tiêu đầu tiên (Obj1) cho nhiễm sắc thể Cq đƣợc định nghĩa nhƣ sau:

Obj1(Cq) = suitability(Cq)

Trong đó suitability(Cq) đại diện cho sự hoà hợp hình dáng của các

hàm liên thuộc với Cq. Suitability(Cq) đƣợc định nghĩa nhƣ sau:

∑m j=1 [overlap f actor(Cqj) + coverage f actor(Cqj)],

Trong đó m là số lƣợng phần tử.overlap factor (Cqj) đại diện cho các yếu tố chồng lên nhau của hàm liên thuộc cho phần tử Ij trong NST Cq và đƣợc định nghĩa nhƣ sau:

Trong đó overlap(Rjk, Rji) biểu thị cho độ dài chồng chéo của Rjk và Rji.

coverage factor(Cqj) đại diện cho tỉ lệ bao phủ của một tập hợp hàm liên thuộc cho mỗi phần tử Ij trong NST Cq và đƣợc định nghĩa nhƣ sau:

coverage factor(Cqj) = 1 range(Rj1,...,Rjl) max(Ij )

Trong đó, range(Rj1, Rj2, . . ., Rjl) là phạm vi bao phủ của hàm liên thuộc, I là

số lƣợng của hàm liên thuộc cho Ij, và max(Ij) là số lƣợng tối đa của Ij trong giao dịch. Yếu tố phù hợp đƣợc dùng để giảm sự xuất hiện của 2 loại hàm liên thuộc không phù hợp, nơi mà hàm đầu tiên là dƣ thừa và cái thứ 2 thì quá tách biệt. Hàm giá trị thứ hai là tổng số lƣợng của một tập hợp phần tử trong một tập hợp các giá trị hỗ trợ tối thiểu {ms1, ms2, . . ., msh}. Nó đƣợc định nghĩa nhƣ sau:

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Trong đó: là số lƣợng của một tập hợp phần tử lớn đạt đƣợc khi giá trị hỗ trợ tối thiểu. Sử dụng số lƣợng tập hợp phần tử lớn tạo nên sự cân bằng giữa thời gian thực thi và làm giảm sự tập trung. Phƣơng pháp đề xuất sử dụng hai hàm mục tiêu để tìm giải pháp Pareto.

- Sự lai ghép: Sự lai ghép tƣơng ứng tƣợng tự nhƣ sử dụng trong bài toán MOGA. Có 3 bƣớc: xếp hạng NST, lai ghép, và xắp xếp giá trị phù hợp của cá thể trong cùng thứ hạng.

- Toán tử di truyền: Toán tử di truyền rất quan trọng với thành công của ứng dụng thuật toán di truyền. hai toán tử di truyền, the max-min-arithmetical (MMA), lai ghép và đột biến đƣợc sử dụng trong phƣơng pháp MOGA.

Thuật toán mờ đa mục tiêu đƣợc đề xuất cho khai phá hàm liên thuộc và luật kết hợp đƣợc mô tả dƣới đây.

Giải thuật gen mờ đa mục tiêu:

Input: Tập các cơ sở dữ liệu số

Output: Tập hợp các hàm liên thuộc MF

Actions

Bƣớc 1: Từ CSDL, tạo ngẫu nhiên một cá thể P, mỗi cá thể là một tập hợp của hàm liên thuộc cho tất cả phần tử m, mã hóa mỗi tập hợp của hàm

liên thuộc vào một chuỗi đại diện theo lƣợc đồ đƣợc chỉ ra tại mục 3 và khởi chạy các tập hợp không thống trị.

Bƣớc 2 : Đối với mỗi nhiễm sắc thể Cq, tính toán hai giá trị mục tiêu của nó, sự phù hợp Cq và tổng số lƣợng của các tập hợp phần tử trong tập hợp các giá trị hỗ trợ tối thiểu đã cho trƣớc đó (totalNumL1 (Cq)) nhƣ sau:

Bƣớc 2.1: Đối với Di, i =1 đến n và cho mỗi phần tử Ij, j = 1 đến m,

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Sử dụng các hàm liên thuộc tƣơng ứng đại diện bởi các NST, trong đó

Rjk là vùng mờ k-th của phần tử Ij , là giá trị liên thuộc mờ in vùng Rjk, và l (=|Ij|) là số lƣợng quy tắc ngôn ngữ học cho Ij.

Bƣớc 2.2: đối với mỗi vùng phần tử Rjk, tính toán số các yếu tố trong tập vô hƣớng dựa trên các giao dịch nhƣ sau:

Bƣớc 2.3: tính toán các giá trị phù hợp phù hợp (Cq) bằng cách sử dụng công thức đƣợc định nghĩa trong phần 3. Thiết lập nó nhƣ các giá trị mục tiêu ban đầu của Cq.

Bƣớc 2.4: đối với mỗi Rjk, 1 ≤ j ≤ m, 1 ≤ k ≤ |Ij|, và mỗi giá trị hỗ trợ tối thiểu msg, 1 ≤ g ≤ h, kiểm tra xem countjk là lớn hơn hoặc bằng với giá trị hỗ trợ tối thiểu msg. Nếu Rjk thỏa mãn các điều kiện nêu trên, thiết lập =

+ 1, trong đó là số lƣợng của tập hợp phần tử lớn bao gồm sử dụng tập hợp hàm liên đới trong NST Cq và giá trị hỗ trợ tối thiểu msg; đặt

nhƣ là giá trị mục tiêu thứ 2 của Cq

Bƣớc 3: Xếp hạng các NST theo 2 mục tiêu suitability(Cq) and

totalNumL1(Cq) nhƣ sau:

Bƣớc 3.1: Thiết lập biến số r đại diện cho hạng hiện hành, ban đầu tại thứ tự.

Bƣớc 3.2: Tìm các NST không thống trị trong số những NST chƣa đƣợc xếp hạng thuộc CSDL, đặt r = r+1,và đặt giá trị thứ hạng của các NST không thống trị là r.

Bƣớc 3.3: Nếu vấn có các NST không đƣợc xếp hạng trong quần thể- quay lại bƣớc 3.2; nếu vẫn không có thì đi tiếp bƣớc tiếp theo.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Bƣớc 4: Tính giá trị tƣơng ứng của mỗi NST dựa trên giá trị xếp hạng nhƣ sau:

Bƣớc 4.1: Tính giá trị tƣơng ứng của mỗi NST với giá trị xếp hạng của chúng bằng 1:nhƣ sau:

f(Cq) = domnatedBy(Cq)/p+1

Trong đó dominateby (Cq) là số lƣợng NST thống trị bởi NST và P là kích thƣớc tổng thể.

Bƣớc 4.2: Tính giá trị tƣơng ứng của mỗi NST với giá trị xếp hạng của chúng lớn hơn 1 nhƣ sau:

trong đó f(Cq) là giá trị tƣơng ứng của NST Cq mà NST thống trị Cq và giá trị hằng số đƣợc dùng để đảm bảo giá trị của NST thống trị lớn hơn các giá trị của NST không thống trị.

Bƣớc 5: Tính giá trị tƣơng ứng trung bình của NST với giá trị thứ hạng tƣơng đƣơng để cho mỗi giá trị của trong đều có thể đƣợc lựa chọn công bằng trong chiến lƣợc lựa chọn.

Bƣớc 6: Sao chép NST với giá trị xếp hạng bằng 1.

Bƣớc 7: Khởi chạy các hoạt động xuyên chéo trong CSDL. Bƣớc 8: Khởi chạy các hoạt động đột biến trong CSDL.

Bƣớc 9: Khởi chạy các giá trị tƣơng ứng của các NST mới theo bƣớc 2 8 Bƣớc 10: Sử dụng hoạt động lựa chọn để chọn các cá thể thích hợp từ các tập hợp CSDL mờ mới để thành hình thế hệ tiếp theo.

Nếu kích thƣớc của CSDL mờ số, gọi là NDSSIZE, nhỏ hơn so với kích thƣớc tổng thể, Psize, tất cả các NST trong CSDL mờ số đƣợc sao chép vào tổng thể tiếp theo và số (PSize - NDSSize) của NST đƣợc chọn từ tập hợp khác biệt của các NST con và CSDL mờ số hiện tại.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Bƣớc 11: Nếu các tiêu chuẩn chấm dứt không phù hợp, trở về bƣớc 6 còn không thì đến bƣớc tiếp theo.

Bƣớc 12: Khởi chạy các operator cắt bớt đƣợc đƣa ra ở mục 31 trong

Một phần của tài liệu Phân lớp miền xác định thuộc tính trong bài toán khai phá dữ liệu mờ (Trang 34)

Tải bản đầy đủ (PDF)

(63 trang)