1. Trang chủ
  2. » Giáo án - Bài giảng

CÁC THUẬT TOÁN KHAI THÁC LUẬT kết hợp

61 1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 650 KB

Nội dung

Jan 26, 2015 1 Bài giảng môn: Data Mining Bài giảng môn: Data Mining CÁC THUẬT TOÁN KHAI CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP THÁC LUẬT KẾT HỢP Jan 26, 2015 2 Giới thiệu Giới thiệu Bài toán khai thác luật kết hợp được đưa ra vào Bài toán khai thác luật kết hợp được đưa ra vào năm 1993 bởi Agrawal được phát biểu như sau: năm 1993 bởi Agrawal được phát biểu như sau: Cho trước tập n danh mục mặt hàng Cho trước tập n danh mục mặt hàng I I = { = { i i 1, 1, i i 2, …, 2, …, i i n} và tập các giao dịch của các mặt hàng D trong n} và tập các giao dịch của các mặt hàng D trong đó mỗi giao dịch đó mỗi giao dịch T T ⊆ ⊆ I I có một định danh (TID) duy có một định danh (TID) duy nhất. nhất. Luật kết hợp là phép kéo theo có dạng Luật kết hợp là phép kéo theo có dạng X X → → Y Y ( ( q q , , p p ) ) ( ( X X ⊂ ⊂ Y Y ), trong đó ), trong đó q q = = Sup Sup ( ( Y Y ) được gọi là độ phổ ) được gọi là độ phổ biến của luật và biến của luật và p=Sup(Y)/Sup(X) p=Sup(Y)/Sup(X) là độ tin cậy của là độ tin cậy của luật. Khai thác luật kết hợp là tìm tất cả các luật luật. Khai thác luật kết hợp là tìm tất cả các luật kết hợp được rút ra từ CSDL D kết hợp được rút ra từ CSDL D thỏa ngưỡng phổ thỏa ngưỡng phổ biến và ngưỡng tin cậy do người dùng định nghĩa. biến và ngưỡng tin cậy do người dùng định nghĩa. Jan 26, 2015 3 Giới thiệu (tt) Giới thiệu (tt) Khai thác luật kết hợp được chia làm hai giai đoạn: Khai thác luật kết hợp được chia làm hai giai đoạn: 1. 1. Tìm tất cả các tập phổ biến ngưỡng thỏa phổ biến. Tìm tất cả các tập phổ biến ngưỡng thỏa phổ biến. 2. 2. Tìm tất cả các luật thỏa ngưỡng tin cậy. Tìm tất cả các luật thỏa ngưỡng tin cậy. Jan 26, 2015 4 Tìm Tập Phổ Biến Tìm Tập Phổ Biến Jan 26, 2015 5 Các phương pháp tìm tập phổ biến Các phương pháp tìm tập phổ biến 1. 1. Phương pháp sinh ứng viên: Apriori do Agrawal đề xuất. Phương pháp sinh ứng viên: Apriori do Agrawal đề xuất. 2. 2. Phương pháp không sinh ứng viên: Phương pháp không sinh ứng viên: a) Zaki: dựa vào cây IT-tree và phần giao của các Tidset để a) Zaki: dựa vào cây IT-tree và phần giao của các Tidset để tính độ phổ biến. tính độ phổ biến. b) J. Han: dựa vào cây FP-tree để khai thác tập phổ biến. b) J. Han: dựa vào cây FP-tree để khai thác tập phổ biến. c) Ngoài ra, còn có một số phương pháp được đưa ra như: c) Ngoài ra, còn có một số phương pháp được đưa ra như: Lcm, DCI, … Lcm, DCI, … Jan 26, 2015 Jan 26, 2015 6 6 Các thuật toán tìm tập phổ biến Các thuật toán tìm tập phổ biến 1. 1. Phương pháp Apriori Phương pháp Apriori 2. 2. Phương pháp FP-tree (Frequent Patterns Phương pháp FP-tree (Frequent Patterns Tree) Tree) 3. 3. Phương pháp IT-tree Phương pháp IT-tree (Itemset Tidset Tree) (Itemset Tidset Tree) Jan 26, 2015 7 Phương pháp IT-tree Phương pháp IT-tree Một số định nghĩa: Một số định nghĩa: 1. Định nghĩa độ phổ biến 1. Định nghĩa độ phổ biến Cho CSDL giao dịch D và tập dữ liệu Cho CSDL giao dịch D và tập dữ liệu X X ⊆ ⊆ I I . Độ . Độ phổ biến của phổ biến của X X trong D, kí hiệu trong D, kí hiệu σ σ ( ( X X ), được định ), được định nghĩa là số giao dịch mà nghĩa là số giao dịch mà X X xuất hiện trong D. xuất hiện trong D. 2. Định nghĩa tập phổ biến 2. Định nghĩa tập phổ biến X X ⊆ ⊆ I I được gọi là phổ biến nếu được gọi là phổ biến nếu σ σ ( ( X X ) ) ≥ ≥ minSup minSup ( với ( với minSup minSup là giá trị do người dùng chỉ định). là giá trị do người dùng chỉ định). Jan 26, 2015 8 Phương pháp IT-tree (tt) Phương pháp IT-tree (tt) 3. Kết nối Galois 3. Kết nối Galois Cho quan hệ hai ngôi Cho quan hệ hai ngôi δ δ ⊆ ⊆ I I × × T T chứa CSDL cần khai thác. Với chứa CSDL cần khai thác. Với X X ⊆ ⊆ I I và Y và Y ⊆ ⊆ T T , ta định nghĩa hai ánh xạ giữa , ta định nghĩa hai ánh xạ giữa P P ( ( I I ) và ) và P P ( ( T T ) ) như sau: như sau: a) a) t t : : P P ( ( I I ) ) → → P P ( ( T T ), ), t t (X) = {y (X) = {y ∈ ∈ T T | | ∀ ∀ x x ∈ ∈ X, x X, x δ δ y} y} b) b) i i : P(T) : P(T) → → P P ( ( T T ), ), i i (Y) = {x (Y) = {x ∈ ∈ I I | | ∀ ∀ y y ∈ ∈ Y, x Y, x δ δ y} y} Jan 26, 2015 9 Phương pháp IT-tree (tt) Phương pháp IT-tree (tt) Cấu trúc IT-tree và các lớp tương đương: Cấu trúc IT-tree và các lớp tương đương: Cho X Cho X ⊆ ⊆ I I , ta định nghĩa hàm , ta định nghĩa hàm p p ( ( X X ,k) = ,k) = X X [1:k] [1:k] gồm k phần tử đầu của gồm k phần tử đầu của X X và quan hệ tương và quan hệ tương đương dựa vào tiền tố như sau: đương dựa vào tiền tố như sau: Mỗi nút trên IT-tree gồm 2 thành phần Itemset- Mỗi nút trên IT-tree gồm 2 thành phần Itemset- Tidset X Tidset X × × t t (X) được gọi là (X) được gọi là IT-pair IT-pair , thực chất là , thực chất là một lớp tiền tố. Các nút con của X thuộc về lớp một lớp tiền tố. Các nút con của X thuộc về lớp tương đương của X vì chúng chia sẻ chung tiền tương đương của X vì chúng chia sẻ chung tiền tố X ( tố X ( t t (X) là tập các giao dịch có chứa X) (X) là tập các giao dịch có chứa X) Jan 26, 2015 10 Thuật toán tìm tập phổ biến Thuật toán tìm tập phổ biến Trong đó t(X) = {y∈T | X xuất hiện trong giao dịch y} được gọi là Tidset của X. ENUMERATE_FREQUENT([P]) for all l i ∈ [P] do [P i ] = ∅ for all l j ∈ [P] with j > i do I = l j T = t(l i ) ∩ t(l j ) if |T| ≥ minSup then [P i ] = [P i ] ∪ {I×T} ENUMERATE_FREQUENT([P i ]) Delete [P i ] [...]... Nhận xét     Thuật toán dựa vào phần giao giữa các Tidset để tính nhanh độ phổ biến nên chỉ đọc CSDL 1 lần Có thể sử dụng Diffset để tính nhanh độ phổ biến nhằm làm giảm không gian lưu trữ Tidset Do thuật toán không sinh ứng viên nên hiệu quả khai thác thường cao hơn so với các họ thuật toán sinh ứng viên Khi số tập phổ biến lớn, thời gian khai thác luật lớn ⇒ Cần phương pháp khai thác hiệu quả hơn... {X∪ Y} là nút dàn con(trực tiếp) của hai nút dàn {X}, {Y}  Thuật toán duyệt theo chiều sâu: do đó, có thể tồn tại nút con của {X} ở các nhánh con bên trái nó Ví dụ: xét X = ATW ở mức 3, ta thấy trên cây có chứa nút dàn {ACTW} ở mức 4 là con trực tiếp của {X} ⇒ Thuật toán cần xét tất cả các quan hệ trên để xây dựng dàn  Jan 26, 2015 24 Thuật toán xây dựng dàn LATTICE_FI ( ) UPDATE_LATTICE({li}, {I})... cả các tập con của S Một tập thứ tự (P(S),⊆ ) là một dàn hoàn chỉnh trong đó meet chỉ phần giao và join chỉ phần hợp Các tập thứ tự bộ phận như (P(I),⊆ ), tập tất cả các itemset có thể và (P(T),⊆ ), tập tất cả các Tidset có thể cũng là dàn hoàn chỉnh Jan 26, 2015 22 XÂY DỰNG DÀN TẬP PHỔ BIẾN Jan 26, 2015 23 Nhận xét về cây IT-tree Xét cây IT-tree để tìm tập phổ biến (slide 12) ta thấy: khi kết hợp. .. số tập phổ biến Như vậy, việc khai thác luật từ chúng sẽ hiệu quả hơn  Mức tìm kiếm trên cây IT-tree để tìm FCI thấp hơn so với tìm FI ⇒ không gian bộ nhớ yêu cầu cho quá trình gọi đệ qui sẽ nhỏ hơn Jan 26, 2015 19 Xây dựng dàn (Building Lattice)  Mục tiêu xây dựng dàn: nhằm tăng tốc độ khai thác luật Jan 26, 2015 20 Định nghĩa: chặn trên, chặn dưới Gọi (P,≤ ) là tập hợp thứ tự với quan hệ hai ngôi... CT,ACW Jan 26, 2015 30 Dàn kết qủa Tập đóng C CD CT CW Sup 6 4 4 ACW CDW ACTW 4 5 3 3 {} C CD CT CDW CW ACW ACTW Jan 26, 2015 31 Thuật toán CHARM-L Jan 26, 2015 32 Minh họa CHARM-L Cid được Jan 26, 2015 tạo ra theo thứ tự của thuật toán CHARM 33 Phương pháp lai ghép: nhận xét Có thể xét quan hệ cha con giữa tập đóng Y với các tập đóng còn lại trực tiếp trên dàn đã được xây dựng bởi các tập đóng trước đó... Wx12345 TWx135 CTWx135 ACTWx135 Jan 26, 2015 27 Xây dựng dàn tập đóng Hai cách tiếp cận chính hiện nay: 1 Xây dựng dàn bằng cách xét quan hệ cha con trên FCI: có độ phức tạp cao vì phải xét một tập đóng với tất cả các tập còn lại trên FCI 2 Xây dựng trực tiếp: được trình bày bởi Zaki và Hsiao (CHARM-L) – các tác giả dựa vào phần giao giữa các Cidset (Closed identifier set) để tìm quan hệ cha con⇒ hiệu quả... 1: thuật toán BUILD-LATTICE-1() SORT (FCI) // Sắp xếp FCI tăng theo k-itemset lr = ∅ for each Y ∈ FCI do Subset = ∅ For each X ∈ FCI with |X| < |Y| do If X ⊂ Y and {X ⊄ X’| X’∈ Subset} then {X}.Children.Add ({Y}) Subset = Subset ∪ X if Subset = ∅ then lr.Children.Add ({Y}) Jan 26, 2015 29 Minh họa Tập đóng Sup C 6 CD 4 CT 4 CW 4 ACW 5 CDW ACTW 3 3 Quá trình xây dựng dàn như sau: Tập đóng Subset C Các. .. (Frequent Closed Itemsets) Toán tử đóng Cho X ⊆ I cit: P(I) →P(I): cit(X) = i(t(X)) Ánh xạ cit được gọi là toán tử đóng Ví dụ: cit(AW) = i(t(AW)) = i(1345) = ACW  Tập đóng Cho X ⊆ I X gọi là tập đóng ⇔ cit(X) = X Ví dụ: xét CSDL ở bảng 1 ta có • Do cit(AW) = i(t(AW)) = i(1345) = ACW ⇒ AW không phải là tập đóng • Do cit(ACW) = i(t(ACW)) = i(1345) = ACW ⇒ ACW là tập đóng Jan 26, 2015 14 Các tính chất của IT-pair... đóng còn lại trực tiếp trên dàn đã được xây dựng bởi các tập đóng trước đó  Nếu ta sắp xếp tập FCI tăng theo k-itemset thì các nút dàn cha của {Y} phải ở bên trái Y trên FCI Nghĩa là sẽ không tồn tại Y’ đứng sau Y trong FCI sao cho {Y’} là nút dàn cha của {Y}  Jan 26, 2015 34 Thuật toán xây dựng dàn tập đóng BUILD-LATTICE() SORT (FCI) // Sắp xếp FCI tăng theo k-itemset lr = ∅ for all Y ∈ FCI do INSERT_LATTICE(... không là tập đóng Bên cạnh đó, do t(Xi)≠ t(Xj) nên Xi và Xj thuộc về 2 tập đóng khác nhau 3 Tương tự tính chất 2 4 Theo tính chất 4, Xi, Xj và Xi∪ Xj sẽ thuộc về 3 tập đóng khác nhau Jan 26, 2015 16 Thuật toán tìm tập phổ biến đóng (CHARM) CHARM(D,minSup) [∅]={li×t(li):li∈I ∧Sup(li)≥minSup} CHARM-EXTEND([∅], C =∅) return C CHARM-PROPERTY(X ×Y,li,lj,[Pi],[P]) if Sup(X) ≥ minSup then if t(li)=t(lj) then . Mining CÁC THUẬT TOÁN KHAI CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP THÁC LUẬT KẾT HỢP Jan 26, 2015 2 Giới thiệu Giới thiệu Bài toán khai thác luật kết hợp được đưa ra vào Bài toán khai thác luật kết. biến của luật và biến của luật và p=Sup(Y)/Sup(X) p=Sup(Y)/Sup(X) là độ tin cậy của là độ tin cậy của luật. Khai thác luật kết hợp là tìm tất cả các luật luật. Khai thác luật kết hợp là. Tidset.  Do thuật toán không sinh ứng viên nên hiệu quả Do thuật toán không sinh ứng viên nên hiệu quả khai thác thường cao hơn so với các họ thuật toán khai thác thường cao hơn so với các họ thuật toán

Ngày đăng: 26/01/2015, 17:12

TỪ KHÓA LIÊN QUAN

w