Một số kết quả thử nghiệm

Một phần của tài liệu Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp (Trang 54 - 64)

CHƯƠNG 3. GIẢI BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU

3.2. Thuật toán và chương trình thử nghiệm

3.2.2. Một số kết quả thử nghiệm

Dữ liệu thử nghiệm được lấy từ CSDL FAM95[18], số liệu điều tra dân số Mỹ năm 1995. Chúng tôi lựa chọn 10 thuộc tính để thử nghiệm gồm: AGE, FAMPERS, NUMKIDS, HOURS, INCHEAD, INCFAM, TAXINC, FTAX, FINALWGT, MARCHWGT. Với AGE là tuổi của người dân, FAMPERS: Số thành viên trong gia đình, NUMKIDS: số con trong gia đình, HOURS là số giờ làm việc trong tuần, INCHEAD: là thu nhập của người đứng đầu gia đình, INCFAM: thu nhập của gia

đình, TAXINC: thu nhập chịu thuế của người đứng đầu gia đình, FTAX: thuế liên bang cho người đứng đầu,…Số lượng bản ghi là 63565.

Bảng 6: Cở sở dữ liệu giao dịch gồm 10 bản ghi

AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT

40 4 2 40 41344 49158 21643 3246 65809 58387

35 3 1 0 31700 36960 18987 2848 64020 58387

62 1 0 0 27648 27648 21398 3209 51277 53353

59 1 0 40 24691 24691 18441 2766 51116 51338

56 2 0 40 31025 50050 37699 5654 60192 55785

71 2 0 0 7549 14869 0 0 54845 54960

40 4 2 46 14052 38044 20559 3083 111975 110540

69 1 0 0 15874 15874 3874 581 105292 102395

34 1 0 48 27507 27507 21257 3188 118998 117408

38 4 2 40 23025 36410 19207 2881 114615 112468

49 2 0 60 15000 43000 31120 4668 203241 194246

Từ CSDL giao dịch trong Bảng 6, chuẩn hóa về đoạn [0,1] ta thu được CSDL giao dịch như trong Bảng 7.

Bảng 7: Cở sử dữ liệu giao dịch sau khi chuẩn hóa về đoạn [0,1]

AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT

0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042

0.312 0.143 0.111 0 0.14 0.064 0.19 0.028 0.043 0.042

0.65 0 0 0 0.129 0.056 0.214 0.032 0.034 0.038

0.613 0 0 0.404 0.121 0.053 0.184 0.028 0.034 0.037

0.575 0.071 0 0.404 0.139 0.075 0.377 0.057 0.04 0.04

0.762 0.071 0 0 0.075 0.045 0 0 0.037 0.039

0.375 0.214 0.222 0.465 0.093 0.065 0.206 0.031 0.075 0.082

0.738 0 0 0 0.097 0.046 0.039 0.006 0.071 0.076

0.3 0 0 0.485 0.129 0.056 0.213 0.032 0.08 0.088

0.35 0.214 0.222 0.404 0.117 0.063 0.192 0.029 0.077 0.084

0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042

Để thử nghiệm phương pháp, chúng tôi thực hiện phân chia thành 5 miền mờ cho mỗi thuộc tính với các hàm thuộc hình tam giác. Chúng tôi sử dụng cách xây dựng hàm thuộc dựa vào giá trị ĐLNN được trình bày trong 2.1.2. Ví dụ xem Hình 3.2.

Hình 3.2: Hàm thuộc cho thuộc tính Age với Trong đề tài này, chúng tôi s

Positive (P), và hai gia tử g ( ) = 1 (α = ( ), β = 1-

Để xây dựng được hàm thu cách thức mã hóa Gen và cách xây d

Cấu trúc Gen được mã hóa nh w1,...,w10 là tham số w của ĐSGT lần l giao dịch.

α1 α2 …

Hình

Các tham số sử dụng trong giải thuật di truyền gồm bít cho mỗi Gen, tỷ lệ lai tạo l

Bảng 8 các tham số của ĐSGT Bảng 8: Các tham s

STT Thuộc tính

1 AGE

2 FAMPERS

3 NUMKIDS

4 HOURS

5 INCHEAD

ộc cho thuộc tính Age với α=β=0.5, fm(N)=fm(P)=

tài này, chúng tôi sử dụng ĐSGT gồm 2 phần tử sinh Negative (N) và gồm: Very (V), Little (L). Với fm(P) +fm(N) = 1,

α, w =fm(P)).

àm thuộc tối ưu, chúng tôi sử dụng giải thuật di truyền với ã hóa Gen và cách xây dựng hàm mục tiêu được trình bày trong trong

ã hóa như Hình 3.3, với α1,... α10 là tham s

ố w của ĐSGT lần lượt tương ứng với 10 thuộc tính trong CSDL

… α10 w1 w2 …

Hình 3.3: Cấu trúc Gen cho 10 thuộc tính

ố sử dụng trong giải thuật di truyền gồm: 50 cá thể, 10000 thế ạo là 0.6, tỷ lệ đột biến là 0.01.

ố của ĐSGT được khởi tạo dựa vào kinh nghiệm.

Các tham số của ĐSGT được thiết lập dựa vào kinh nghi ộc tính α β fm(C-) = W fm(C+)

0.5 0.5 0.5

FAMPERS 0.5 0.5 0.5

NUMKIDS 0.5 0.5 0.5

0.5 0.5 0.5

INCHEAD 0.5 0.5 0.5

fm(N)=fm(P)=w=0.5 Negative (N) và i fm(P) +fm(N) = 1, ( ) +

ử dụng giải thuật di truyền với ình bày trong trong 2.2.

là tham số α của ĐSGT, ứng với 10 thuộc tính trong CSDL

… w10

ể, 10000 thế hệ, 30

ệm.

ào kinh nghiệm fm(C+)

0.5 0.5 0.5 0.5 0.5

6 INCFAM 0.5 0.5 0.5 0.5

7 TAXINC 0.5 0.5 0.5 0.5

8 FTAX 0.5 0.5 0.5 0.5

9 FINALWGT 0.5 0.5 0.5 0.5

10 MARCHWGT 0.5 0.5 0.5 0.5

Hình ảnh các hàm thuộc với các tham số của ĐSGT được cho trong Bảng 8.

Hình 3.4: Các hàm thuộc với các tham số không tối ưu

Sau khi chạy GA với độ hỗ trợ 20%, chúng ta thu được tham số của đại số gia tử như trong bảng Bảng 9.

Bảng 9: Các tham số của ĐSGT sau khi thực hiện tối ưu

STT Thuộc tính α β fm(C-) = W fm(C+)

1 AGE 0.481 0.519 0.581 0.419

2 FAMPERS 0.561 0.439 0.423 0.577

3 NUMKIDS 0.552 0.448 0.449 0.551

4 HOURS 0.574 0.426 0.447 0.553

5 INCHEAD 0.545 0.455 0.432 0.568

6 INCFAM 0.548 0.452 0.442 0.558

7 TAXINC 0.592 0.408 0.448 0.552

8 FTAX 0.587 0.413 0.415 0.585

9 FINALWGT 0.58 0.42 0.53 0.47

10 MARCHWGT 0.524 0.476 0.43 0.57

Hình ảnh các hàm thuộc với các tham số của ĐSGT đã được tối ưu bằng cách sử dụng giải thuật di truyền như trong Bảng 9.

Hình 3.4: Các hàm thuộc sau khi tối ưu

Bảng 10 so sánh kết quả của phương pháp sử dụng ĐSGT với phương pháp do nhóm nghiên cứu Herrera, Hong và cộng sự, Phân hoạch đều. Kết quả cho thấy phương pháp sử dụng ĐSGT với độ hỗ trợ 20% cho kết quả bằng với kết quả do nhóm Herrera, Hong và Uniform Fuzzy Partition.

Bảng 10: Số lượng 1-Itemset thu được với tham số sau khi chạy GA Support % ĐSGT Herrera Hong et al’s Phân hoạch đều

20 22 22 22 21

50 10 15 12 7

70 8 10 5 3

90 1 1 1 0

Hình 3.5: Biểu đồ quan hệ giữa tập lớn 1-itemsets và minimum support

Sử dụng thuật toán Apriori mờ với độ hỗ trợ 70% và độ tin cậy 90% chúng ta thu được các luật như trong Bảng 11.

0 5 10 15 20 25

20% 50% 70% 90%

Số lượng tập lớn 1-Itemsete

Min support

The Proposed Approach Hong Phân hoạch đều

Bảng 11: Một số luật thu được khi sử dụng hàm thuộc như trong hình 3.5

STT Luật Độ hỗ trợ Độ tin cây

1 NếuINCFAM_VNthìINCHEAD_VN 73% 92%

2 NếuINCHEAD_VNthìINCFAM_VN 73% 96%

3 NếuINCHEAD_VNthìFINALWGT_VN 71% 92%

4 NếuINCHEAD_VN thìMARCHWGT_VN 70% 92%

5 NếuINCFAM_VNthìFINALWGT_VN 73% 92%

6 NếuINCFAM_VNthìMARCHWGT_VN 73% 92%

7 NếuMARCHWGT_VNthìFINALWGT_VN 82% 98%

8 NếuFINALWGT_VNthìMARCHWGT_VN 82% 97%

9 NếuINCFAM_VNMARCHWGT_VNthìFINALW

GT_VN 72% 99%

10 NếuINCFAM_VNFINALWGT_VNthìMARCHW

GT_VN 72% 98%

Với: VN là Very Negative, INCFAM_VN có thể dịch là: Thu nhập của gia đình là Rất thấp, INCHEAD_VN dịch là: Thu nhập của chủ gia đìnhRất thấp.

Với luật 1 chúng ta có thể hiểu: Nếu Thu nhập của gia đìnhRất thấp thì Thu nhập của chủ gia đìnhRất thấpvới độ hỗ trợ 73% và độ tin cậy là 92%.

KÊT LUẬN 1. Phương pháp nghiên cứu

Tìm hiểu các lý thuyết về tập mờ, các dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ. Tìm hiểu mối quan hệ giữa các dạng biểu diễn tập mờ với hàm định lượng ngữ nghĩa của đại số gia tử, tìm hiểu cách thức chuyển đổi giá trị chân lý ngôn ngữ thành một giá trị số.

Phân tích, đối sánh, liệt kê, nghiên cứutàiliệu, tổng hợp các kết quả của các nhà nghiên cứuliên quan đếnlĩnh vực nghiên cứu.

2. Ý nghĩa khoa học

Bài toán phân chia miền xác định thuộc tính nói chung đóng vai trò quan trọng trong quá trình khai phá dữ liệu và do đó nó có ý nghĩa ứng dụng rộng lớn, đặc biệt loại bài toán liên quan đếnthông tin mờ vì con người thường quyết định thông qua thông tin mờ ngôn ngữ. Cho đến nay các phương pháp giải bài toán này chủ yếu dựa trên các tập mờ và còn nhiều hạn chế.

Giải bài toán phân chia miền xác định thuộc tính dựa trên dữ liệu sử dụng các kết quả mới nhất về công nghệ tính toán mềm có thể mang lại cho ta các thuật toán tương đối đơn giảnnhưng khá hữu hiệu trong việc xây dựng các CSDL mờ - FB.

Một phần của tài liệu Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp (Trang 54 - 64)

Tải bản đầy đủ (PDF)

(65 trang)