Khai thác dữ liệu và ứng dụng
Trang 2Tất cả các tập con của tập phổ biến đều là tập phổ biến
Tập phổ biến tối đại, tập bao phổ biến
Bài toán khai thác LKH là bài toán tìm tt c các luật dạng X ⇒ ⇒ Y (X, Y ⊂ I và X ∩Y ={})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X ⇒⇒Y ) ≥≥≥ minsupp
conf (X ⇒⇒Y ) ≥≥≥ minconf
Trang 3GIỚI THIỆU
Bài toán khai thác tp ph bin là bài toán tìm tt c các tp các hng m c S (hay tp ph ti thiu minsupp
Các hạn chế của Thuật toán Apriori
Phải duyệt CSDL nhiều lần
Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần và tạo lượng lớn tập ứng viên
Ví dụ : Để tìm tập phổ biến i1 i2… i100 :
• Số lần duyệt CSDL : 100
• Số lượng ứng viên : 2100-1 = 1.27*1030!
Vấn đề : tạo ứng viên và kiểm tra
Có thể tránh việc tạo ứng viên hay không ?
Trang 5THUẬT TOÁN FP-GROWTH
2 QUI TRÌNH
B0 : Thit lp cây FP
B1 : Thiết lập cơ sở mẫu điều kiện
(conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP).
B2 : Thiết lập cây FP điều kiện (conditional
FP tree) từ mỗi cơ sở mẫu điều kiện
B3 : Khai thác đệ qui cây FP điều kiện và
phát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến
Trang 6p:1 m:1
Trang 7b:1 m:2
Trang 8bên với minsupp = 25%
2.Nếu Minsupp = 40% thì cây
FP sẽ thay đổi như thế nào ?
Qui định trình bày bài nộp
Trang 9Xây dng cơ s mu điu kin (Conditional pattern base)
–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP
–Duyệt cây FP theo kết nối của mỗi
hạng mục phổ biến.
–Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục để tạo cơ sở mẫu điều kiện
18
VÍ DỤ 1: Thiết lập cơ sở mẫu điều
kiện
Xây dng cơ s mu điu kin (Conditional pattern base)
– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mục p
– Duyệt cây FP theo kết nối của mỗi hng m c ph bin p .
– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng
mụcpđể tạo cơ sở mẫu điều kiện cho p
Cơ sở mẫu điều kiện
item cond pattern base
p fcam:2, cb:1
{}
f:4 c:1
b:1 p:1
b:1
c:3 a:3
b:1
m:2 p:2 m:1
Trang 10Xây dng cơ s mu điu kin (Conditional pattern base)
– Tiếp tục vời mẫu phổ biến của cây FP : hạng mục m
– Duyệt cây FP theo kết nối của mỗi hng m c ph bin m
– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng
mụcmđể tạo cơ sở mẫu điều kiện cho m
{}
f:4 c:1
b:1 p:1
b:1
c:3 a:3 b:1 m:2 p:2 m:1
Cơ sở mẫu điều kiện
item cond pattern base
Cơ sở mẫu điều kiện
item cond pattern base
b:1
c:3 a:3
b:1
m:2 p:2 m:1
Trang 11B2: THIẾT LẬP CÂY FP – điều kiện
Xây dựng cây FP-điều kiện
– Vi mi cơ s mu :
• Đếm số lượng mỗi mẫu trong cơ sở mẫu Xác định tập phổ biến của mẫu
cở sở
• Xây dng cây FP – điu kin cho tp ph bin ca mu cơ s (tương t như bưc B0)
điều kiện
Xây dựng cây FP-điều kiện
– Vi cơ s mu điều kiện cho p là : {fcam:2, cb:1}
– Đếm số lượng mỗi mẫu trong cơ sở mẫu :
• f :2, c:3, a:2, m:2, b:1 và vi minsupp=3 -> c:3 ph bin trên cơ s mu điu kin ca p
– Thit lp cây FP cho tp ph bin ca mu cơ s
điu kin cho p
Trang 12minsupp = 3
Xây dựng cây FP-điều kiện
– Vi cơ s mu điều kiện cho m là : {fca:2, fcab:1}
– Đếm số lượng mỗi mẫu trong cơ sở mẫu :
• f :3, c:3, a:3, b:1 và vi minsupp=3 -> f:3, c:3, a:3 là ph bin trên cơ s mu điu kin ca m.
– Thit lp cây FP cho tp ph bin ca mu cơ s điu kin cho m
m-conditional FP-tree {}
f:3 c:3 a:3
f
{ (f:3) } | c { (f:3) }
c
{ (f:3, c:3) } | a { (fc:3) }
a
{ } { (fca:1), (f:1), (c:1) }
b
{ (f:3, c:3, a:3) } | m { (fca:2), (fcab:1) }
m
{ (c:3) } | p { (fcam:2), (cb:1) }
p
Conditional FP-tree Conditional pattern-base
Item
điều kiện
Trang 13Dựa trên nguyên lý mở rộng mẫu phổ biến
D ựa trên tính chất mở rộng mẫu :
– Giả sử α là tập phổ biến trong CSDL, B là cơ sở mẫu điều kiện của α và β là một tập các hạng mục trong B
– Khi đó α ∪ β là tập phổ biến trong CSDL khi và chỉ khi β là phổ biến trong B
“abcdef ” là mẫu phổ biến khi và chỉ khi
– “abcde ” là mẫu phổ biến, và
– “f ” là phổ biến trong tập các giao dịch chứa “abcde”
B3 : XÂY DỰNG TẬP PHỔ BIẾN
26
Trường hợp cây chỉ có đường dẫn đơn
– Giả sử cây FP T là cây có một đường dẫn đơn (single path) P
– Tp mu ph bin cui cùng ca T sinh ra bng cách lit
kê tt c các t hp ca đưng dn con (sub-paths) thuc P.
– Ví dụ 1 : cây FP-điều kiện cho p là cây có một đường dẫn
đơn
biến liên quan đến
Trang 14If cây FP chứa 1 đường dẫn đơn P then
– For mỗi tổ hợp β của các đỉnh trên P
• Tạo mẫu ββββ ∪∪∪ ααvới supp = suppmin(các đỉnh trong β);
Else for mỗi αi trên bảng header của cây – Tạo mẫu β= αi ∪ α với supp =supp (αi) ;
– Thiết lập cơ sở mẫu điều kiện của β và cây
FP – điều kiện (treeβ) cho β
Trang 15m là :
m : 3,
fm :3, cm :3, am:3, fcm:3, fam:3, cam:3, fcam:3
m-conditional FP-tree {}
f:3 c:3 a:3
Trang 16Data set T25I20D10K
VD : LUẬT KẾT HỢP
Trang 18PHÂN LOẠI LUẬT KẾT HỢP
Da trên phân cp khái nim :
Trang 19ĐỘ ĐO TÍNH LÝ THÚ
1 Thế nào là luật hay, lý thú ?
Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật
Trong đó có nhiều luật không hay hoặc bị thừa
Cần độ đo tính lý thú để loại bớt/ hạn chế luật
supp và conf thp hơn
basketball not basketball sum(row)
Trang 20( )]
( 1 )[
(
) ( ) ( ) , (
) ( ) ( ) ,
(
) ( ) (
) , (
) (
)
| (
Y P Y
P X P X
P
Y P X P Y X P t
coefficien
Y P X P Y X
P
PS
Y P X P
Y X P Interest
Y P
X Y
Trang 21ĐỘ ĐO TÍNH LÝ THÚ
Độ đo mối tương quan Interest
– X và Y tương quan nghịch, nếu Interest <1; Ngược lại X và Y tương quan thuận.
– Ví dụ 1 :
89 0 5000 / 3750
* 5000 / 3000
5000 / 2000 )
, ( interest B C = =
33.15000/1250
*5000/3000
5000/1000)
,(
3 Tính độ đo Interest của
các luật tìm được ở câu
Trang 22TÓM TẮT
1 Bài toán khai thác tập phổ biến và luật kết hợp: quan trọng và rất được quan tâm.
tin cậy, độ đo
Interest của các luật
Trang 23minconf=80%
a) Tìm tất cả các tập phổ biến, tập phổ biến tối đại, tập phổ biến đóng sử dụng thuật toán FP-Growth
b) So sánh kết quả và tính hiệu quả với thuật toán Apriori (Bài tập phần 1)
Trang 24biến, tập phổ biến tối đại, tập phổ biến
đóng sử dụng lần lượt thuật toán Apriori
và thuật toán Fp-Growth.
cho
c) Tính độ đo Interest của các luật tìm được
ở câu b)
BÀI TẬP PHẦN 2
TÀI LIỆU THAM KHẢO
1 J Han, J Pei, and Y Yin Mining
frequent patterns without candidate generation SIGMOD'00, 1-12, Dallas,
Trang 25CÁC CÔNG VIỆC CẦN LÀM
3- Ph.n 1 và Ph.n 2 (không np)
(27/8/2008) : nội dung chương 3.
3 Chuẩn bị bài 4 : Phân lớp dữ liệu
... data-page="19">ĐỘ ĐO TÍNH LÝ THÚ
1 Thế luật hay, lý thú ?
Thuật toán khai thác luật kết hợp có xu hướng sinh nhiều luật
Trong có nhiều luật khơng hay bị thừa... 22
TÓM TẮT
1 Bài toán khai thác tập phổ biến luật kết hợp: quan trọng quan tâm.
tin cậy, độ đo ... data-page="24">
biến, tập phổ biến tối đại, tập phổ biến
đóng sử dụng thuật toán Apriori
và thuật toán Fp-Growth.
cho
c)