Các khái niệm cơ bảnAssociation rule luật kết hợp: Qui tắc kết hợp có điều kiện giữa các tập phần tử.. Các khái niệm cơ bản Tập phần tử phổ biến Frequent itemset Cho A là một tập phần
Trang 2Nội dung trình bày
Trang 3Bài toán thực tế
Trang 6Các khái niệm cơ bản
Ta có bảng dữ liệu sau
Trang 7Các khái niệm cơ bản
Phần tử (Item): Các phần tử, mẫu, đối tượng đang được quan tâm.
Tập phần tử (Itemset )
Tập hợp các phần tử.
Một tập phần tử có k phần tử gọi là k-itemset.
Giao dịch(Transaction)
Lần thực hiện tương tác với hệ thống
Liên hệ với một tập T gồm các phần tử được giao dịch
Trang 8Các khái niệm cơ bản
Association rule (luật kết hợp): Qui tắc kết hợp có điều kiện giữa các tập phần tử
Cho X và Y là các tập phần tử thì luật kết hợp giữa X và Y kí hiệu là X->Y
Vấn đề : Luật kết hợp nào thực sự có giá trị?
Trang 9Các khái niệm cơ bản
Độ hỗ trợ ( Support )
S= σ (X) / |T|
Độ hỗ trợ tối thiểu(minSup)
Độ hỗ trợ nhỏ nhất được chỉ định bởi người dùng
Tuy nhiên, giá trị hỗ trợ là không đủ.
Trang 10Các khái niệm cơ bản
Độ tin cậy (Confidence )
Conf(X->Y)=P(Y/X)=sup(X Y)/sup(X).∪
Ngưỡng tin cậy tối thiểu(MinConf)
Độ tin cậy nhỏ nhất được chỉ định bởi người dùng
Trang 11Các khái niệm cơ bản
Tập phần tử phổ biến( Frequent itemset)
Cho A là một tập phần tử
A là tập phần tử phổ biến nếu support(A) >= minSup
Trang 12Các khái niệm cơ bản
2 Bread, diaper, beer, eggs
3 Milk, diaper, beer,coke
4 Bread, milk, diaper, beer
5 Bread, milk, diaper, coke
Trang 13Các khái niệm cơ bản
Các loại luật kết hợp
Luật kết hợp luận lý/ Luật kết hợp lượng số
Luật kết hợp đơn chiều/ Luật kết hợp đa chiều
Luật kết hợp đơn mức/ Luật kết hợp đa mức
Luật kết hợp/ Luật tương quan thống kê
Trang 14Các khái niệm cơ bản
Bài toán: Cho một tập các giá trị I, một CSDL giao dịch D, ngưỡng độ hỗ trợ
tối thiểu Minsup, ngưỡng độ tin cậy Mincof, tìm các luật kết hợp dạng
X ⇒ Y trên D thoả mãn điều kiện Support (X Y) >= Minsup và Confdence ⇒(X Y) >= Mincof⇒
Trang 16Mô hình hóa
Khai phá luật kết hợp gồm có 2 bước chính:
Tìm tập phổ biến: Tìm tât cả những tập phần tử có độ hỗ trợ lớn hơn MinSup cho trước
Tìm luật kết hợp: Áp dụng thuật toán và sử dụng tập phổ biến để tìm luật kết hợp có độ tin cậy lớn hơn MinConf
Trang 17Giải thuật FP-Growth
Trang 18 Ý tưởng của thuật toán :
Nén một khối dữ liệu khổng lồ vào một cấu trúc cây( FP –tree).
Quá trình khai phá chia thành các bước nhỏ
Không tạo các tập dự tuyển
Trang 19Giải thuật FP-Growth
Input : Bảng dữ liệu giao dịch
minSup (độ hỗ trợ tối thiểu)
Output: các luật kết hợp dạng X-> Y với X,Y là tập phần tử
Trang 20Giải thuật FP-Growth
B4: Khai thác đệ qui Cond FP tree và phát triển mẫu phổ biến cho đến khi
Cond FP tree chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến
Trang 21Giải thuật FP-Growth
Trang 22Giải thuật FP-Growth
{}
f:1 c:1
a:1 m:1
Trang 23Giải thuật FP-Growth
{}
f:2 c:2 a:2
b:1 m:1
Trang 24Giải thuật FP-Growth
{}
f:3 c:2 a:2
b:1 m:1
Trang 25Giải thuật FP-Growth
{}
f:3 c:2 a:2
b:1 m:1
Trang 26Giải thuật FP-Growth
{}
f:4 c:3 a:3
b:1 m:2
Trang 27Giải thuật FP-Growth
B2: Bắt đầu từ phần tử lá của cây.
Duyệt cây theo các nhánh từ dưới lên
Với mỗi 1 nhánh duyệt được, thay chỉ số của các nút thành chỉ số của lá , và bỏ
phần tử lá
Ví dụ: Xét các nhánh có phần tử p
(f:4,c:3, a:3, m:2, p:2) và (c:1,b:1,p:1)
=> Ta có: (f:2,c:2,a:2,m:2) và (c:1,b:1)
Trang 28Giải thuật FP-Growth
Cơ sở mẫu điều kiện item cond pattern base
Trang 29Giải thuật FP-Growth
B3: Với mỗi cơ sở mẫu :
Đếm số lượng mỗi mấu trong cơ sở mẫu đk
Thiết lập Conditional FP-tree cho tập phổ biến của mẫu cơ sở
Ví dụ: p:{fcam:2 , cb:1}
=> Tree:
{}
c:3
Trang 30Giải thuật FP-Growth
Empty Empty
f
{(f:3)}|c {(f:3)}
c
{(f:3, c:3)}|a {(fc:3)}
a
Empty {(fca:1), (f:1), (c:1)}
b
{(f:3, c:3, a:3)}|m {(fca:2), (fcab:1)}
m
{(c:3)}|p {(fcam:2), (cb:1)}
p
Conditional FP-tree Conditional pattern-base
Item
Trang 31Giải thuật FP-Growth
B4: Tập mẫu phổ biến cuối cùng của T sinh ra bằng cách liệt kê tất cả các tổ hợp của sub-path thuộc P
Trang 32Giải thuật FP-Growth
Đặc điểm của giải thuật FP – Growth
Không tạo tập phần tử dự tuyển
Sử dụng cấu trúc dữ liệu nén dữ liệu từ tập dữ liệu
Giảm chi phí kiểm tra tập dữ liệu
Chi phí chủ yếu là đếm và xây dựng cây FP-tree lúc đầu
Trang 33Hỏi / Đáp …