Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
656 KB
Nội dung
1
Dãy phổ biến
Dãy phổ biến
Chương 3:
2
Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau
Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau
trong dữliệu
trong dữliệu
–
Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10
Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10
THEN sẽ mua sản phẩm B với số lượng 20.
THEN sẽ mua sản phẩm B với số lượng 20.
Các luật dãyphổbiến mô tả quan hệ thời gian giữa các
Các luật dãyphổbiến mô tả quan hệ thời gian giữa các
sự kiện
sự kiện
–
Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1
Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1
tuần khách hàng sẽ mua tiếp sản phẩm B và C”
tuần khách hàng sẽ mua tiếp sản phẩm B và C”
1. CÁC KHÁI NiỆM CƠ BẢN
1. CÁC KHÁI NiỆM CƠ BẢN
Chương 3:Dãyphổ biến
Chương 3:Dãyphổ biến
3
–
Tập
Tập
R
R
các loại sự kiện.
các loại sự kiện.
–
M
M
ỗi
ỗi
sự kiện là một cặp
sự kiện là một cặp
(
(
A, t
A, t
), v
), v
ới
ới
•
A ∈ R là loại sự kiện (ví dụ loại tín hiệu báo động )
•
t là một số nguyên xác định thời điểm xuất hiện của sự kiện
–
C
C
huỗi sự kiện
huỗi sự kiện
S
S
trên
trên
R
R
l
l
à bộ ba
à bộ ba
(
(
s, T
s, T
s
s
, T
, T
e
e
)
)
•
T
s
là thời điểm bắt đầu và T
e
là thời điểm kết thúc
•
T
s
< T
e
là các số nguyên
•
S =
〈
(A
1
, t
1
), (A
2
, t
2
), …, (A
n
, t
n
)
〉
•
A
i
∈
R và T
s
≤
t
i
< T
e
với mọi i=1, …, n`
1. CÁC KHÁI NiỆM CƠ BẢN
1. CÁC KHÁI NiỆM CƠ BẢN
(tt)
(tt)
4
Ví dụ chuỗi sự kiện:
Ví dụ chuỗi sự kiện:
•
Trong đó
Trong đó
:
:
–
A, B, C, D: là các loại sự kiện
–
10…150 là các thời điểm xảy ra sự kiện
–
S =
〈
(D, 10), (C, 20), …, (A, 150)
〉
–
T
s
(thời điểm bắt đầu) = 10 and T
e
(thời điểm kết thúc) = 150
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
D C A B D A B C A D C A B D A
1. CÁC KHÁI NIỆM CƠ BẢN
1. CÁC KHÁI NIỆM CƠ BẢN
(tt)
(tt)
5
Episodes:
Episodes:
–
Episode là cặp (
Episode là cặp (
V
V
,
,
≤
≤
)
)
•
V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo
động
∀
≤ là thứ tự riêng phần trên V
–
Cho chuỗi
Cho chuỗi
S
S
các sự kiện, episode
các sự kiện, episode
α
α
=
=
(
(
V,
V,
≤
≤
)
)
xảy ra
xảy ra
trong phạm vi
trong phạm vi
S
S
nếu các loại sự kiện trong
nếu các loại sự kiện trong
V
V
xuất
xuất
hiện trong
hiện trong
S
S
theo thứ tự được xác định bằng quan
theo thứ tự được xác định bằng quan
hệ thứ tự.
hệ thứ tự.
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)
6
Các thứ tự riêng phần phổ dụng như:
Các thứ tự riêng phần phổ dụng như:
–
Thứ tự toàn phần
Thứ tự toàn phần
•
Các vị từ của mỗi episode có thứ tự cố định
•
Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")
–
Các thứ tự riêng phần hiển nhiên
Các thứ tự riêng phần hiển nhiên
•
Không xét trật tự của các vị từ
•
Các episodes này được gọi là song song (hay “không có thứ
tự")
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)
7
Ví dụ:
Ví dụ:
A
B
Episode
tuần tự
A
B
Episode
song song
A
B
C
Episode vừa tuần tự
vừa song song
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
2. DÃYPHỔBiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)
8
Tên của phương pháp WINEPI xuất phát từ kỹ
Tên của phương pháp WINEPI xuất phát từ kỹ
thuật dùng cửa sổ truợt
thuật dùng cửa sổ truợt
Nhận xét:
Nhận xét:
–
Cửa sổ được trượt qua chuỗi dữliệu các sự kiện
Cửa sổ được trượt qua chuỗi dữliệu các sự kiện
–
Mỗi cửa sổ là một “khung ảnh" giống như một dòng
Mỗi cửa sổ là một “khung ảnh" giống như một dòng
của CSDL
của CSDL
–
Tập các “khung ảnh" tạo thành các dòng của CSDL
Tập các “khung ảnh" tạo thành các dòng của CSDL
3. THUẬT TOÁN
3. THUẬT TOÁN
WINEPI
WINEPI
9
Ví dụ chuỗi dữliệu sự kiện:
Ví dụ chuỗi dữliệu sự kiện:
•
Bề rộng cửa sổ là 40 giây
Bề rộng cửa sổ là 40 giây
•
Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối
Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
10
Cho tập
Cho tập
E
E
các loại sự kiện,
các loại sự kiện,
chuỗi sự kiện
chuỗi sự kiện
S
S
=
=
(
(
s
s
,
,
T
T
s
s
,T
,T
e
e
)
)
là một chuỗi có thứ tự các sự kiện
là một chuỗi có thứ tự các sự kiện
event
event
i
i
sao cho
sao cho
event
event
i
i
≤
≤
event
event
i+1
i+1
với mọi
với mọi
i=1,
i=1,
…, n-1
…, n-1
, và
, và
T
T
s
s
≤
≤
event
event
i
i
<
<
T
T
e
e
với mọi
với mọi
i=1, …, n
i=1, …, n
T
s
T
e
t
1
t
2
t
3
… …
t
n
event
1
event
2
event
3
… … event
n
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
[...]... – Tiếp đến nhận dạng các singletons phổbiến (ở đây là tất cả ) – Từ các episodes phổbiến này, tạo các episodes ứng viên có kích thước là 2: AB, AC, AD, BC, BD, CD – Tiếp đến nhận dạng các episodes song song phổ biến( ở đây là tất cả) – Từ các episodes phổbiến này, tạo các episodes phổbiến có kích thước là 3: ABC, ABD, ACD, BCD – Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn... ngưỡng tần suất min_fr Episode α là phổbiến nếu fr(α , s, win) ≥ min_fr Ví dụ, “nếu tần suất của α vượt quá ngưỡng tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win" F(s, win, min_fr): tập hợp các episodes phổbiến trong s ứng với win và min_fr Apriori: Nếu episode α là phổbiến trong chuỗi sự kiện s, thì tất cả các episodes con β α là phổbiến 14 3 THUẬT TOÁN WINEPI (tt) Luật... của A (3 0-3 0), và tìm xuất hiện đầu tiên theo sau B (4 0-4 0) • Sau đó lấy xuất hiện thứ hai của A (6 0-6 0) và tìm xuất hiện đầu tiên sau B (7 0-7 0) • Rồi tiếp tục với BA 32 4 THUẬT TOÁN MINEPI (tt) Tìm tất cả các episodes tuần tự (3/3): – Trong giai đoạn nhận dạng, chúng ta tìm tất cả episodes phổbiến và tạo các episodes ứng viên có kích thước 3 Lần nữa, hầu như tất cả các ứng viên đều phổbiến – Cuối... viên có kích thước là 4 và tìm được các episodes xảy ra là DCAB trong 1 0-4 0, DABC trong 5 0-8 0, CABD trong 2 0-5 0, CBDA trong 2 0-6 0, và BDAC trong 4 0-8 0 – Không tìm thấy các ứng viên có kích thước 5, do vậy thuật toán kết thúc 33 D C A B D A B C 0 10 20 30 40 50 60 70 80 90 Các xuất hiện (tuần tự ) tối thiểu + các tần suất trong dữ liệu ví dụ 34 IF D THEN C WITH [0] [10] 0.00 (0/2) [0] [20] 0.50 (1/2)... hơn – Các episodes song song, episodes tuần tự 19 3 THUẬT TOÁN WINEPI (tt) Ví dụ chuỗi dữ liệu sự kiện: D C A B D A B C 0 10 20 30 40 50 60 70 80 90 • • Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây Chiều dài của chuỗi là 70 (1 0-8 0) 20 3 THUẬT TOÁN WINEPI (tt) Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U1-U11): … U1 U2 U11 D C A B D A B C 0 10 20 30 40 50 60 70 80 90 • Nguỡng tần số được ấn... ta cũng tạo bảng xuất hiện cho chúng Sau lần quét CSDL đầu tiên, chúng ta không cần quét CSDL nữa mà dùng các bảng đảo ngược được tạo lập – Sau đó, nhận dạng các singletons phổbiến (với ví dụ này là tất cả) – Từ các episodes phổbiến này, tạo các episodes ứng viên có kích thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC 31 4 THUẬT TOÁN MINEPI (tt) Tìm tất cả các episodes tuần tự (2/3): –... khoảng [ ts,te] với te - ts ≤ win1, thì episode α xảy ra trong khoảng [ts,t'e] ứng với vài t'e sao cho t'e - ts ≤ win2 28 4 THUẬT TOÁN MINEPI (tt) Độ tin cậy của luật β [win1] ⇒ α [win2] là xác suất điều kiện để α xảy ra khi cho trước β xảy ra, dưới các ràng buộc thời gian được chỉ định bởi các luật: |mo(α )| / |mo(β )| với |mo(β )| là số các xuất hiện nhỏ nhất [ts,te] của β sao cho te - ts ≤ win1 và |mo(α... (1/2) D C A B D A D A B C 0 10 20 30 40 50 60 70 80 90 35 4 THUẬT TOÁN MINEPI (tt) IF D A B THEN C WITH [40] [40] 0.50 (1/2) [30] [40] 1.00 (1/1) • Dưới đây là xuất hiện tối thiểu của các luật trong dữ liệu ví dụ: DAB, DCAB DC DC, DAC, DABC D 0 C 10 20 30 40 DA A B D A B 50 60 70 C 80 90 DA DAB 36 ... : 73% C : 73% A : 64% B : 64% D C : 45% D A : 55% D ⇒ A [40] (55%, 75%) D B : 45% C A : 45% C B : 45% A B : 55% DAB : 45% D A ⇒ B [40] (45%, 82%) 24 4 THUẬT TOÁN MINEPI Một cách tiếp cận khác để khám phá episodes – Không dùng cửa sổ trượt – Đối với từng episode quan tâm tiền năng, tìm số lần xuất hiện chính xác của episode Các tiện lợi: dễ sửa đổi các giới hạn thời gian, nhiều giới hạn thời gian cho . 1 Dãy phổ biến Dãy phổ biến Chương 3: 2 Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu trong dữ liệu – Ví dụ:. sẽ mua tiếp sản phẩm B và C” 1. CÁC KHÁI NiỆM CƠ BẢN 1. CÁC KHÁI NiỆM CƠ BẢN Chương 3: Dãy phổ biến Chương 3: Dãy phổ biến 3 – Tập Tập R R các loại sự kiện. các loại sự kiện. – M M ỗi ỗi . song song 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI (Episode) (Episode) 8 Tên của phương pháp WINEPI xuất phát từ kỹ Tên của phương pháp WINEPI xuất phát từ kỹ thuật