NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN

24 546 0
NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC  LUẬT KẾT HỢP DỰA TRÊN DÀN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN  NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN  :   chuyên ngành: 62.48.01.01  Tp. Hồ Chí Minh năm 2011   HCM.             T  ngày tháng 12 2011  1.  2.  HCM 1 Chương 1. Giới thiệu tổng quan     y. Chương 2. Cơ sở lý thuyết     2.1. Khai thác tập phổ biến 2.1.1 Một số khái niệm D X  IX trong D(XX D.    X  I       (X)  minSupCount (minSupCount Count    2.1.2 Các thuật toán khai thác tập phổ biến    2.2. Khai thác tập phổ biến đóng   1 A, C, T, W 2 C, D, W 3 A, C, T, W 4 A, C, D, W 5 A, C, D, T, W 6 C, D, T 2 2.2.1 Một số định nghĩa và tính chất a) Toán   Cho IX     )()(: IPIPc   ))(()( XtiXc  c   Cho IX  , X  c(X) = XX  a IT-pair 2.2.2 Thuật toán CHARM -              X,Y  I )()( YX   thì X và Y X  Y X Y ngoài X  Y XY. 2.2.3 Sử dụng Diffset:  các itemset. 2.3. Dàn 2.3.1. Một số khái niệm 2.3.1.1 Cận trên, cận dưới P,  và S P. u  P (l  PS s  u (s  l) s  S. SS SSS = {x,yxy cho join và xy cho meet. 2.3.1.2 Định nghĩa L, ) là x,y  L, x  y  L, ) là x,y  L, x  y  L, (L, ) là dàn giao và  3 2.3.2. Thuật toán xây dựng dàn tập phổ biến đóng (CHARM-L) -X                  YXCYYS  |        S    X  2.4. Khai thác luật kết hợp truyền thống  XYX pq \ ,  (X, Y    XYX ,  và p = (Y)/ (X)  q = (YY            D   Count và  2.4.1. Một số tính chất của luật kết hợp truyền thống 2.4.2 Các thuật toán sinh luật kết hợp truyền thống 2.4.2.1. Sinh luật dựa vào quan hệ cha – con  ) itemset X X  - X X. 2.4.2.2. Sinh luật kết hợp dựa vào bảng băm  n 2 ) (không xét  j  i hay không) n  C: V XXX X \ X X     2.5. Khai thác luật kết hợp không dư thừa 4 2.5.1. Luật không dư thừa tối tiểu (MNAR) R 1 : X 1  Y 1  R 2 : X 2  Y 2 X 1  X 2 và Y 2  Y 1 (R 1  R 2 ). 2.5.2. Tập sinh tối tiểu (minimal Generator) Cho X XX  khi: i) X X và ii) (X(X) 2.5.3. Thuật toán sinh luật không dư thừa tối tiểu từ FCI  Pha 1 chính xác (có  Pha 2 conf < 1). 2.6. Kết luận Chương 3. Khai thác luật kết hợp dựa trên dàn tập phổ biến 3.1. Khai thác luật kết hợp truyền thống dựa trên dàn tập phổ biến 3.1.1. Xây dựng dàn tập phổ biến [2, 4, 5] 3.1.1.1. Thuật toán và 3.1.1.2. Minh họa thuật toán Hình 3.2  LATTICE_FI D  minSupCount = 3 5 3.1.2. Sinh luật kết hợp truyền thống từ dàn [2] Định lý 3.1.1. l 1 , l 2 và l 3 l 1 l 2 và l 2 là l 3 và l 2 .sup/ l 1 .sup < minConf thì l 3 .sup/ l 1 .sup < minConf.  XYX}, X sang Y , thì  XY  3.1.2.1. Thuật toán 3.1.2.2. Minh họa thuật toán 3.1.2.3. Độ phức tạp thuật toán Mệnh đề 3.1.1  dàn  nkn k là trung  k  n n). 3.1.4. Kết quả thực nghiệm       s       http://fimi.cs.helsinki.fi/data/   Tên CSDL     Chess 3196 76 37 37 Mushroom 8124 120 23 23 Pumsb* 49046 7117 50 62 Pumsb 49046 7117 73.6 74 Connect 67557 130 43 43 Retail 88162 16469 10.3 76 Accidents 340182 468      6    minConf là 50%.  CSDL minSup(%) #FI  chess 85 2669 95482 80 8227 552564 75 20993 2336556 70 48731 8111370 mushroom 40 565 5767 35 1189 16945 30 2735 79437 25 5545 234007 Retail 0.8 243 180 0.6 417 301 0.4 831 625 0.2 2690 2034 connect 97 487 8092 95 2201 78376 92 11567 976432 90 27127 3460704 a) Tính cả thời gian xây dựng dàn, tạo bảng băm và sinh luật 1 Hình 3.4 & 3.5  và dàn trên CSDL Chess & Mushroom 1 2.0 GHz, 1GB RAM, Windows  Chess 0 50 100 150 200 250 300 85 80 75 70 minSup(%) Thời gian(giây) Dựa vào bảng băm Dựa trên dàn Mushroom 0 0.5 1 1.5 2 2.5 40 35 30 25 minSup(%) Thời gian(giây) Dựa vào bảng băm Dựa vào dàn 7 Hình 3.8 & 3.9 CSDL Retail & Connect b) Chỉ tính thời gian sinh luật      Hình 3.11 & 3.12  So sánh t & Musshroom Hình 3.15 & 3.16   & Connect Retail 0 10 20 30 40 50 60 0.8 0.6 0.4 0.2 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn Connect 0 5 10 15 20 25 30 35 97 95 92 90 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn Chess 0 50 100 150 200 250 85 80 75 70 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn Mushroom 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 40 35 30 25 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn Retail 0 0.005 0.01 0.015 0.02 0.025 0.8 0.6 0.4 0.2 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn Connect 0 5 10 15 20 25 30 35 97 95 92 90 minSup(%) Thời gian(giây) Dựa trên bảng băm Dựa trên dàn 8    3.2. Khai thác luật từ các độ đo thú vị dựa vào dàn và bảng băm   Jaccard, Phi-coefficient, v.v. Tuy chúng có  X  Y (X  Y =  X , n Y , n XY   X = (X), n Y = (Y), n XY = (XY). T        XY XY XYY YX XYX YX Y Y X X nnnnnnnnnnnnnnn  ,,,,  X = AC, Y = TW, n = 6, n X = 4, n Y = 3, n XY = 3  .3,2  YX nn   X, XYng cách Y   TW    Confidence X XY n n 4 3 Cosine YX XY nn n 12 3 3*4 3  Lift YX XY nn nn 2 3 3*4 6*3  Phi-coefficient YX YX YXXY nnnn nnnn  72 6 3*2*3*4 3*46*3   [...]... phức tạp của các thuật toán sinh luật từ d n nhỏ hơn Luận án đ trình b y cách tiếp cận dựa tr n dàn tập phổ biến để khai thác luật truyền thống, luật không dư thừa tối tiểu, luật từ các độ đo thú vị Chương 4 Khai thác luật kết hợp dựa trên dàn tập phổ biến đóng Chương n y trình b y các đóng góp của luận án li n quan đến khai thác luật từ dàn tập phổ biến đóng Đầu ti n, thuật toán xây dựng dàn tập phổ... 4.2.2 Một ví dụ minh họa 4.2.3 Kết quả thực nghiệm Dựa tr n kết quả từ [10], có thể thấy khai thác luật thiết yếu nhất dựa tr n FCI thường nhanh hơn so với khai thác luật truyền thống Vì vậy, để thấy rõ tính hiệu quả của khai thác luật từ dàn tập đóng, phần n y sẽ so sánh thời gian khai thác luật dựa tr n FCI v dựa tr n FCIL 18 Bảng 4.3 Thời gian khai thác luật thiết yếu nhất dựa tr n FCI v FCIL4 CSDL... mục các đề tài có sự tham gia của tác giả [24] Th nh vi n đề t i: Các phương pháp tìm luật kết hợp và ứng dụng Đề t i cấp Đại học Quốc gia Tp HCM (đ nghiệm thu năm 2008) [25] Th nh vi n đề t i: Nâng cao hiệu quả của các thuật toán khai thác dữ liệu Đề t i cấp Đại học Quốc gia Tp HCM (đ nghiệm thu 6/2011) [26] Thành viên, thư ký đề t i: Phát triển các thuật toán khai thác hiệu quả luật kết hợp trên các. .. góp của luận án li n quan đến ứng dụng dàn tập phổ biến đóng trong khai thác luật kết hợp, cụ thể l khai thác luật thiết yếu nhất Thuật toán đề nghị có độ phức tạp l O(nk) với n l số tập phổ biến đóng v k l trung bình cộng các tập con của các tập phổ biến đóng Thực nghiệm chứng tỏ tính hiệu quả của thuật toán đề nghị so với khai thác luật thiết yếu nhất từ tập phổ biến đóng cũng như khai thác luật. .. gian giữa HT v L+HT tr n CSDL Accidents Kết quả từ hình 3.19 đến 3.23 chứng tỏ việc kết hợp giữa L+HT để khai thác luật kết hợp tr n các độ đo thú vị luôn hiệu quả hơn chỉ dựa v o HT 12 c) Không tính thời gian khai thác tập phổ biến và xây dựng dàn Nếu không tính thời gian khai thác tập phổ biến v xây dựng d n thì khai thác luật dựa v o L+HT c ng hiệu quả hơn chỉ dựa v o HT như được trình b y trong hình... biến đóng cũng như khai thác luật truyền thống Chương 5 Kết luận và hướng phát triển 5.1 Kết luận Luận án đ ho n th nh được các mục ti u đặt ra ban đầu l Nâng cao tính hiệu quả của các thuật toán khai thác luật kết hợp dựa tr n d n” với đóng góp chính l sử dụng d n trong khai thác luật Các đóng góp chính như sau: 1 Đề nghị thuật toán xây dựng dàn tập phổ biến: Quá trình xây dựng d n tuy có tốn thời... d n để khai thác luật kết hợp lại rất hiệu quả 2 Đề nghị thuật toán xây dựng d n (sửa đổi) phục vụ cho khai thác luật không dư thừa tối tiểu 3 Đề nghị thuật toán xây dựng dàn tập phổ biến đóng 4 Thực nghiệm được chạy tr n máy có cấu hình: Core2duo, 22.0 GHz, 1GB RAM, Windows XP Các thuật toán được c i đặt tr n C# (2005) Kết quả l trung bình cộng của 5 lần chạy 19 4 Đề nghị thuật toán sinh luật truyền... sinh luật với thời gian khai thác FCI + sinh luật l 12.41% trong khi không tính thời gian xây dựng d n v khai thác FCI l 9.76% 3.4 Kết luận Chương n y trình b y các đóng góp của luận án li n quan đến giai đoạn khai thác luật kết hợp Các đóng góp n y chủ yếu tập trung v o việc tăng hiệu quả khai thác (giảm thời gian) Do tập luật khai thác được theo phương pháp dựa tr n d n không thay đổi so với dựa tr... tr n FI/FCI n n chất lượng tập luật kết quả vẫn không thay đổi Cách tiếp cận dựa tr n d n thường hiệu quả hơn so với khai thác luật trực tiếp từ tập phổ biến hay tập phổ biến đóng Như đ được phân tích về mặt lý thuyết trong phần 3.1.1, độ phức tạp của thuật toán khai thác luật từ d n l O(nk) với n l số FI/FCI v k l trung bình cộng các tập cha Trong khi đó, khai thác luật trực tiếp từ FI/FCI có độ phức... toán sinh luật truyền thống từ d n Thuật toán mới giảm đáng kể thời gian khai thác luật Có thể thực thi được khi số lượng tập phổ biến l n đến h ng trăm ng n 5 Đề nghị thuật toán sinh luật từ các độ đo thú vị dựa tr n dàn tập phổ biến v bảng băm 6 Đề nghị thuật toán sinh luật không dư thừa tối tiểu từ d n (sửa đổi) 7 Đề nghị thuật toán sinh luật thiết yếu nhất dựa tr n dàn tập phổ biến đóng Do chỉ quan .  TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN  NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN  : .  XY  3.1.2.1. Thuật toán 3.1.2.2. Minh họa thuật toán 3.1.2.3. Độ phức tạp thuật toán Mệnh đề 3.1.1  dàn. ACTW Key 12 3.2.1. Thuật toán khai thác luật kết hợp với các độ đo thú vị 3.2.2. Một ví dụ minh họa 3.2.3. Kết quả thực nghiệm 2 a) Số lượng luật 

Ngày đăng: 07/11/2014, 19:55

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan