Thông tin tài liệu
1
LUẬT KẾT HỢP
(Association Rules)
Chương 2
2
03/29/14
www.lhu.edu.vn
•
Phân tích việc
Phân tích việc
mua hàng của
mua hàng của
khách hàng bằng
khách hàng bằng
cách tìm ra những
cách tìm ra những
“mối kết hợp” giữa
“mối kết hợp” giữa
những mặt hàng
những mặt hàng
mà khách đã mua.
mà khách đã mua.
•
Bài toán được
Bài toán được
Agrawal thuộc
Agrawal thuộc
nhóm nghiên cứu
nhóm nghiên cứu
của IBM đưa ra
của IBM đưa ra
vào năm 1994.
vào năm 1994.
Bài toán phân tích giỏ hàng
Bài toán phân tích giỏ hàng
3
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
Khai phá luật kết hợp:
Khai phá luật kết hợp:
–
Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu
trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ
liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin
khác.
Tính hiểu được:
Tính hiểu được: dễ hiểu
Tính sử dụng được:
Tính sử dụng được: Cung cấp thông tin thiết thực
Tính hiệu quả:
Tính hiệu quả: Đã có những thuật toán khai thác hiệu
quả
Các ứng dụng:
Các ứng dụng:
–
Phân tích bán hàng trong siêu thị, cross-marketing, thiết kế
catalog, loss-leader analysis, gom cụm, phân lớp,
4
Định dạng thể hiện đặc trưng cho các luật kết hợp:
Định dạng thể hiện đặc trưng cho các luật kết hợp:
–
khăn ⇒ bia [0.5%, 60%]
–
mua:khăn ⇒ mua:bia [0.5%, 60%]
–
“Nếu mua khăn thì mua bia trong 60% trường hợp. Khăn và
bia được mua chung trong 0.5% dòng dữ liệu."
Các biểu diễn khác:
Các biểu diễn khác:
–
mua(x, “khăn") ⇒ mua(x, “bia") [0.5%, 60%]
–
khoa(x, "CS") ^ học(x, "DB") ⇒ điểm(x, "A") [1%, 75%]
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
5
khăn ⇒ bia [0.5%, 60%]
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
Tiền đề
Tiền đề, vế trái luật
Mệnh đề kết quả
Mệnh đề kết quả, vế phải luật
Support
Support, độ hỗ trợ/ủng hộ (“trong bao nhiêu phần trăm dữ
liệu thì những điều ở vế trái và vế phải cùng xảy ra")
Confidence
Confidence, độ mạnh (“nếu vế trái xảy ra thì có bao nhiêu
khả năng vế phải xảy ra")
“NẾU mua khăn
THÌ mua bia
trong 60% trường hợp
trên 0.5% dòng dữ liệu"
1 2 3 4
6
2.1 Các kháI niệm
Cho I = {I
1
, I
2
, . . . , I
m
} là tập các đơn vị d liệu. Cho D là tập
các giao tác, mỗi giao tác T là tập các đơn vị d d liệu sao cho
T I
ẹịnh nghĩa 1: Ta gọi giao tác T chứa X, với X là tập các đơn vị
d liệu của I, nếu X T
ẹịnh nghĩa 2: Một luật kết hợp là một phép suy diễn có dạng X
Y, trong đó X I, Y I và XY =
ẹịnh nghĩa 3: Ta gọi luật X Y có mức xác nhận(support) là s
trong tập giao tác D, nếu có s% giao tác trong D chứa XY.
Ký hiệu: Supp(X Y) = s
7
2.1 Các kháI niệm (Tieỏp)
ẹịnh nghĩa 4:Ta gọi luật X Y là có độ tin cậy c
(Confidence) trên tập giao tác D,
Ký hiệu: c= Conf(X Y) = Supp(X Y)/Supp(X)
Nhận xét: Các xác nhận và độ tin cậy chính là các xác suất
sau:
Supp(X Y)= P(XY) : Xác suất của XY trong D
Conf(X Y) = P(Y/X): Xác suất có điều kiện
ẹịnh nghĩa 5: Cho trJớc Min_Supp=s
0
và Min_Conf=c
0
Ta gọi luật X Y là xaỷ ra nếu thỏa:
Supp(X Y) > s
0
và Conf(X Y)>c
0
8
Ngµy T_ID C¸c ®¬n vÞ dJ liÖu
D
1
t
1
A
D E
t
2
A
F
t
3
A B
D E
D
2
t
4
A B C
E
t
5
D
F
t
6
A
C D E
D
3
t
7
B
D E
t
8
A
D
F
t
9
B C
E
D
4
t
10
B C
E F
t
11
B C
F
t
12
A
D
Ví dụ 1: Xét CSDL sau
9
Ta cã:
Supp(A→D)=5/12=41.66%, Conf(A→D)=5/7
Supp(B → D)=2/12=17%, Conf(B → D )= 2/6=33.3%
Supp(D → F) = 2/12 vµ Conf(D → F) = 2/7=28.5%
Supp(F→D)=2/12 vµ Conf(F→D)=2/5
Supp(AC→E)=17% Conf(AC→E)=100%
Supp(E→AC)=17% Conf(E→AC)=2/7=28.5%
10
Nhận xét 1:
* Hai bước chính của bài toán khai thác dữ liệu dựa
trên các luật kết hợp:
1. Tạo ra tất cả tập đơn vị dữ liệu thường xuyên xảy
ra (thoả ngưỡng là Min_Sup).
2. Từ tập các đơn vị dữ liệu thường xuyên xảy ra Y
= {I
1
, I
2
, . . ., I
k
} với k >= 2, sinh ra các luật tạo ra từ
các đơn vị dữ liệu này bằng cách tỡm các tập con
của mỗi tập đơn vị dữ liệu và tính các độ tin cậy
của chúng như trên.
2.1 Thuật toán Apriori
[...]... {2 3 5} 2 22 Ví dụ về Apriori (4/6) Không gian 123 45 tìm kiếm của CSDL D 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 23 Ví dụ về Apriori (5/6) Áp dụng 123 45 Heuristic Apriori trên Cấp 1 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 24 Ví dụ về Apriori (6/6) Áp dụng Heuristic 123 45 Apriori... 100 20 0 300 400 L1 C1 Database D Tập {1} 134 {2} 2 3 5 Duyệt D {3} 123 5 {4} 25 {5} Độ ủng hộ 2 3 3 1 3 Tập {1} {2} {3} {5} Độ ủng hộ 2 3 3 3 20 Ví dụ về Apriori (2/ 6) C2 Tập {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} C2 Tập Độ ủng hộ {1 2} 1 {1 3} 2 Duyệt D {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 L2 Tập Độ ủng hộ {1 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 21 Ví dụ về Apriori (3/6) C3 Tập {2 3 5} L3 Duyệt D Tập Độ ủng hộ {2 3... kđơn vị dữ liệu - Gọi Lk: Tập hợp các tập phổ biến gồm các k-đvdl Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu và ii) đếm số lần xuất hiện - Ck : Tập hợp các tập ứng viên k- đơn vị dữ liệu Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu và ii) đếm số lần xuất hiện 12 Thuật toán Apriori dựa trên các thủ tục sau Procedure 1: Tạo ra các tập phổ biến Begin L1 = {tập phổ biến 1- vdl}; for ( k = 2; Lk-1 ≠... Áp dụng Heuristic 123 45 Apriori trên Cấp 2 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 25 Tập phổ biến tối đại ( maximal frequent sets) Tập phổ biến Tập phổ biến tối đại ( maximal frequent sets) Định nghĩa: M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến S khác M mà M ⊂ S 26 Thuật toán Apriori đã đủ nhanh? Phần... ít luật hợp lệ rất thường xuất hiện ⇒ nhiều luật hợp lệ hiếm xuất hiện Độ tin cậy tối thiểu γ / C0 : (minconf) – Cao – Thấp ⇒ ít luật nhưng tất cả “gần như đúng" ⇒ nhiều luật, phần lớn rất “không chắc chắn" Giá trị tiêu biểu: σ = 2 -1 0 %, γ = 70 - 90 % 16 Luật kết hợp: Cơ sở Giao tác: – Dạng quan hệ Item và itemsets: Dạng kết ... Result ∪{a → (X-a)} end return Ressult end 14 Trong ví dụ 1, với Min_Conf=c0=70% và Min_Supp =s0=40% - Ta có tập L gồm các tập đơn vị dữ liệu xảy ra thường xuyên như sau: L = {{A}, {B}, {C}, {D}, {E}, {F}, {AD}, {BE}, {CE}, {DE}} Có các luật kết hợp như sau: A→D với c=71. 42% và s=41.66% D→A với c=71. 42% và s=41.66% B→E với c=83.33% và s=41.66% E→B với c=71. 42% và s=41.66% 15 Luật kết hợp: Cơ sở Mức.. .2. 1 Thuật toán Apriori Cách tiếp cận của thuật toán Apriori dựa trên nhận xét sau: Nếu bất kỳ tập k-đvdl nào là không phổ biến thì bất kỳ tập (k+1 )- vdl chứa chúng cũng sẽ không phổ biến, và ngược lại: Nếu bất kỳ tập k-đvdl nào là phổ biến thì mọi tập con của nó là phổ biến 11 2. 1 Thuật toán Apriori Ký hiệu: - Ta gọi số đơn vị dữ liệu trong một tập hợp là số các phần tử của... tệ) • 50 thuộc tính mỗi cái có 1 0-1 00 giá trị, 100.000 dòng (hơi tệ) • 10.000 thuộc tính mỗi cái có 5-1 0 giá trị, 100 dòng (quá tệ ) – Lưu ý: • Một thuộc tính có thể có một vài giá trị khác nhau • Các thuật toán luật kết hợp có đặc trưng là xem một cặp thuộc tính-giá trị là một thuộc tính (2 thuộc tính mỗi cái có 5 giá trị => "10 thuộc tính") Cách khắc phục vấn đề ? 28 Cải thiện hiệu quả của TT Apriori... cùng item 34 Thuật toán FP-Tree null B:8 A:5 C:3 D:1 C:3 D:1 D:1 A :2 C:1 E:1 D:1 D:1 E:1 null E:1 B:1 A :2 C:1 C:1 E:1 D:1 D:1 E:1 Những giao tác có bao gồm item E E:1 35 Thuật toán FP-Tree (New) Header table null A B:1 C A :2 C:1 C:1 E:1 D:1 D:1 E:1 E:1 Với mỗi nhánh cây bao gồm E • Loại bỏ E • Thêm vào cây mới • Xây dựng lại bảng Header cho cây mới 2 D Cây điều kiện cho item E 2 2 Item B bị loại bỏ do... kích thước 2 • Để phát hiện một mẫu phổ biến kích thước 100, ví dụ {a 1, a2, …, a100}, cần tạo 21 00 ≈ 1030 ứng viên – Duyệt CSDL nhiều lần: • Cần duyệt (n +1 ) lần, n là chiều dài của mẫu dài nhất 27 Thuật toán Apriori đã đủ nhanh? Thực tế: – Đối với tiếp cận Apriori căn bản thì số lượng thuộc tính trên dòng thường khó hơn nhiều so với số lượng dòng giao tác – Ví dụ: • 50 thuộc tính mỗi cái có 1-3 giá . giỏ hàng Bài toán phân tích giỏ hàng 3 Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Khai phá luật kết hợp: Khai phá luật kết hợp: – Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu trúc nhân. [1%, 75%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở 5 khăn ⇒ bia [0.5%, 60%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Tiền đề Tiền đề, vế trái luật Mệnh đề kết quả Mệnh đề kết quả, vế phải luật Support Support,. F t 12 A D Ví dụ 1: Xét CSDL sau 9 Ta cã: Supp(A→D)=5/ 12= 41.66%, Conf(A→D)=5/7 Supp(B → D) =2/ 12= 17%, Conf(B → D )= 2/ 6=33.3% Supp(D → F) = 2/ 12 vµ Conf(D → F) = 2/ 7 =28 .5% Supp(F→D) =2/ 12
Ngày đăng: 29/03/2014, 08:20
Xem thêm: Khai phá dữ liệu - Chương 2 LUẬT KẾT HỢP pptx, Khai phá dữ liệu - Chương 2 LUẬT KẾT HỢP pptx, 1 C¸c kh¸I niÖm (Tieáp)