1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai thác dữ liệu và ứng dụng

25 2,2K 7
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 717,12 KB

Nội dung

Khai thác dữ liệu và ứng dụng

Trang 2

Tất cả các tập con của tập phổ biến đều là tập phổ biến

Tập phổ biến tối đại, tập bao phổ biến

Bài toán khai thác LKH là bài toán tìm tt c các luật dạng X ⇒ ⇒ Y (X, Y ⊂ I và X ∩Y ={})

thỏa mãn độ phổ biến và độ tin cậy tối thiểu

supp (X ⇒Y ) ≥≥ minsupp

conf (X ⇒Y ) ≥≥ minconf

Trang 3

GIỚI THIỆU

Bài toán khai thác tp ph bin là bài toán tìm tt c các tp các hng m c S (hay tp ph ti thiu minsupp

 Các hạn chế của Thuật toán Apriori

Phải duyệt CSDL nhiều lần

Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần và tạo lượng lớn tập ứng viên

Ví dụ : Để tìm tập phổ biến i1 i2… i100 :

• Số lần duyệt CSDL : 100

• Số lượng ứng viên : 2100-1 = 1.27*1030!

Vấn đề : tạo ứng viên và kiểm tra

 Có thể tránh việc tạo ứng viên hay không ?

Trang 5

THUẬT TOÁN FP-GROWTH

2 QUI TRÌNH

B0 : Thit lp cây FP

B1 : Thiết lập cơ sở mẫu điều kiện

(conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP).

B2 : Thiết lập cây FP điều kiện (conditional

FP tree) từ mỗi cơ sở mẫu điều kiện

B3 : Khai thác đệ qui cây FP điều kiện và

phát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến

Trang 6

p:1 m:1

Trang 7

b:1 m:2

Trang 8

bên với minsupp = 25%

2.Nếu Minsupp = 40% thì cây

FP sẽ thay đổi như thế nào ?

Qui định trình bày bài nộp

Trang 9

 Xây dng cơ s mu điu kin (Conditional pattern base)

–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP

–Duyệt cây FP theo kết nối của mỗi

hạng mục phổ biến.

–Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục để tạo cơ sở mẫu điều kiện

18

VÍ DỤ 1: Thiết lập cơ sở mẫu điều

kiện

 Xây dng cơ s mu điu kin (Conditional pattern base)

– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mục p

– Duyệt cây FP theo kết nối của mỗi hng m c ph bin p .

– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng

mụcpđể tạo cơ sở mẫu điều kiện cho p

Cơ sở mẫu điều kiện

item cond pattern base

p fcam:2, cb:1

{}

f:4 c:1

b:1 p:1

b:1

c:3 a:3

b:1

m:2 p:2 m:1

Trang 10

 Xây dng cơ s mu điu kin (Conditional pattern base)

– Tiếp tục vời mẫu phổ biến của cây FP : hạng mục m

– Duyệt cây FP theo kết nối của mỗi hng m c ph bin m

– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng

mụcmđể tạo cơ sở mẫu điều kiện cho m

{}

f:4 c:1

b:1 p:1

b:1

c:3 a:3 b:1 m:2 p:2 m:1

Cơ sở mẫu điều kiện

item cond pattern base

Cơ sở mẫu điều kiện

item cond pattern base

b:1

c:3 a:3

b:1

m:2 p:2 m:1

Trang 11

B2: THIẾT LẬP CÂY FP – điều kiện

 Xây dựng cây FP-điều kiện

Vi mi cơ s mu :

• Đếm số lượng mỗi mẫu trong cơ sở mẫu Xác định tập phổ biến của mẫu

cở sở

Xây dng cây FP – điu kin cho tp ph bin ca mu cơ s (tương t như bưc B0)

điều kiện

 Xây dựng cây FP-điều kiện

Vi cơ s mu điều kiện cho p là : {fcam:2, cb:1}

– Đếm số lượng mỗi mẫu trong cơ sở mẫu :

f :2, c:3, a:2, m:2, b:1 và vi minsupp=3 -> c:3 ph bin trên cơ s mu điu kin ca p

Thit lp cây FP cho tp ph bin ca mu cơ s

điu kin cho p

Trang 12

minsupp = 3

 Xây dựng cây FP-điều kiện

Vi cơ s mu điều kiện cho m là : {fca:2, fcab:1}

– Đếm số lượng mỗi mẫu trong cơ sở mẫu :

f :3, c:3, a:3, b:1 và vi minsupp=3 -> f:3, c:3, a:3 là ph bin trên cơ s mu điu kin ca m.

Thit lp cây FP cho tp ph bin ca mu cơ s điu kin cho m

m-conditional FP-tree {}

f:3 c:3 a:3

f

{ (f:3) } | c { (f:3) }

c

{ (f:3, c:3) } | a { (fc:3) }

a

{ } { (fca:1), (f:1), (c:1) }

b

{ (f:3, c:3, a:3) } | m { (fca:2), (fcab:1) }

m

{ (c:3) } | p { (fcam:2), (cb:1) }

p

Conditional FP-tree Conditional pattern-base

Item

điều kiện

Trang 13

 Dựa trên nguyên lý mở rộng mẫu phổ biến

 D ựa trên tính chất mở rộng mẫu :

– Giả sử α là tập phổ biến trong CSDL, B là cơ sở mẫu điều kiện của α và β là một tập các hạng mục trong B

– Khi đó α ∪ β là tập phổ biến trong CSDL khi và chỉ khi β là phổ biến trong B

 “abcdef ” là mẫu phổ biến khi và chỉ khi

– “abcde ” là mẫu phổ biến, và

– “f ” là phổ biến trong tập các giao dịch chứa “abcde”

B3 : XÂY DỰNG TẬP PHỔ BIẾN

26

 Trường hợp cây chỉ có đường dẫn đơn

– Giả sử cây FP T là cây có một đường dẫn đơn (single path) P

Tp mu ph bin cui cùng ca T sinh ra bng cách lit

kê tt c các t hp ca đưng dn con (sub-paths) thu c P.

Ví dụ 1 : cây FP-điều kiện cho p là cây có một đường dẫn

đơn

biến liên quan đến

Trang 14

 If cây FP chứa 1 đường dẫn đơn P then

– For mỗi tổ hợp β của các đỉnh trên P

• Tạo mẫu ββββ ∪∪∪ ααvới supp = suppmin(các đỉnh trong β);

 Else for mỗi αi trên bảng header của cây – Tạo mẫu β= αi ∪ α với supp =supp (αi) ;

– Thiết lập cơ sở mẫu điều kiện của β và cây

FP – điều kiện (treeβ) cho β

Trang 15

m là :

m : 3,

fm :3, cm :3, am:3, fcm:3, fam:3, cam:3, fcam:3

m-conditional FP-tree {}

f:3 c:3 a:3

Trang 16

Data set T25I20D10K

VD : LUẬT KẾT HỢP

Trang 18

PHÂN LOẠI LUẬT KẾT HỢP

Da trên phân cp khái nim :

Trang 19

ĐỘ ĐO TÍNH LÝ THÚ

1 Thế nào là luật hay, lý thú ?

 Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật

 Trong đó có nhiều luật không hay hoặc bị thừa

 Cần độ đo tính lý thú để loại bớt/ hạn chế luật

supp và conf thp hơn

basketball not basketball sum(row)

Trang 20

( )]

( 1 )[

(

) ( ) ( ) , (

) ( ) ( ) ,

(

) ( ) (

) , (

) (

)

| (

Y P Y

P X P X

P

Y P X P Y X P t

coefficien

Y P X P Y X

P

PS

Y P X P

Y X P Interest

Y P

X Y

Trang 21

ĐỘ ĐO TÍNH LÝ THÚ

 Độ đo mối tương quan Interest

– X và Y tương quan nghịch, nếu Interest <1; Ngược lại X và Y tương quan thuận.

– Ví dụ 1 :

89 0 5000 / 3750

* 5000 / 3000

5000 / 2000 )

, ( interest B C = =

33.15000/1250

*5000/3000

5000/1000)

,(

3 Tính độ đo Interest của

các luật tìm được ở câu

Trang 22

TÓM TẮT

1 Bài toán khai thác tập phổ biến và luật kết hợp: quan trọng và rất được quan tâm.

tin cậy, độ đo

Interest của các luật

Trang 23

minconf=80%

a) Tìm tất cả các tập phổ biến, tập phổ biến tối đại, tập phổ biến đóng sử dụng thuật toán FP-Growth

b) So sánh kết quả và tính hiệu quả với thuật toán Apriori (Bài tập phần 1)

Trang 24

biến, tập phổ biến tối đại, tập phổ biến

đóng sử dụng lần lượt thuật toán Apriori

và thuật toán Fp-Growth.

cho

c) Tính độ đo Interest của các luật tìm được

ở câu b)

BÀI TẬP PHẦN 2

TÀI LIỆU THAM KHẢO

1 J Han, J Pei, and Y Yin Mining

frequent patterns without candidate generation SIGMOD'00, 1-12, Dallas,

Trang 25

CÁC CÔNG VIỆC CẦN LÀM

3- Ph.n 1 và Ph.n 2 (không n p)

(27/8/2008) : nội dung chương 3.

3 Chuẩn bị bài 4 : Phân lớp dữ liệu

... data-page="19">

ĐỘ ĐO TÍNH LÝ THÚ

1 Thế luật hay, lý thú ?

 Thuật toán khai thác luật kết hợp có xu hướng sinh nhiều luật

 Trong có nhiều luật khơng hay bị thừa... 22

TÓM TẮT

1 Bài toán khai thác tập phổ biến luật kết hợp: quan trọng quan tâm.

tin cậy, độ đo ... data-page="24">

biến, tập phổ biến tối đại, tập phổ biến

đóng sử dụng thuật toán Apriori

và thuật toán Fp-Growth.

cho

c)

Ngày đăng: 31/08/2012, 16:12

HÌNH ẢNH LIÊN QUAN

–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mụ cp - Khai thác dữ liệu và ứng dụng
t đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mụ cp (Trang 9)
–Bắt đầu từ mẫu phổ biến cuối bảng của cây  FP - Khai thác dữ liệu và ứng dụng
t đầu từ mẫu phổ biến cuối bảng của cây FP (Trang 9)
Else form ỗi αi trên bảng header của cây – Tạomẫu β= α i∪ αvới supp =supp (αi) ; – Thiết lập cơ sởmẫu điều kiện của βvà cây  - Khai thác dữ liệu và ứng dụng
lse form ỗi αi trên bảng header của cây – Tạomẫu β= α i∪ αvới supp =supp (αi) ; – Thiết lập cơ sởmẫu điều kiện của βvà cây (Trang 14)
B3: XÂY DỰNG TẬP PHỔ BIẾN - Khai thác dữ liệu và ứng dụng
3 XÂY DỰNG TẬP PHỔ BIẾN (Trang 14)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w