1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu thuật toán FP tree ĐH Bách Khoa HN

34 832 18

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 802,76 KB

Nội dung

Các khái niệm cơ bảnAssociation rule luật kết hợp: Qui tắc kết hợp có điều kiện giữa các tập phần tử.. Các khái niệm cơ bản Tập phần tử phổ biến Frequent itemset  Cho A là một tập phần

Trang 2

Nội dung trình bày

Trang 3

Bài toán thực tế

Trang 6

Các khái niệm cơ bản

 Ta có bảng dữ liệu sau

Trang 7

Các khái niệm cơ bản

Phần tử (Item): Các phần tử, mẫu, đối tượng đang được quan tâm.

Tập phần tử (Itemset )

 Tập hợp các phần tử.

 Một tập phần tử có k phần tử gọi là k-itemset.

Giao dịch(Transaction)

 Lần thực hiện tương tác với hệ thống

 Liên hệ với một tập T gồm các phần tử được giao dịch

Trang 8

Các khái niệm cơ bản

Association rule (luật kết hợp): Qui tắc kết hợp có điều kiện giữa các tập phần tử

Cho X và Y là các tập phần tử thì luật kết hợp giữa X và Y kí hiệu là X->Y

Vấn đề : Luật kết hợp nào thực sự có giá trị?

Trang 9

Các khái niệm cơ bản

Độ hỗ trợ ( Support )

 S= σ (X) / |T|

 Độ hỗ trợ tối thiểu(minSup)

 Độ hỗ trợ nhỏ nhất được chỉ định bởi người dùng

Tuy nhiên, giá trị hỗ trợ là không đủ.

Trang 10

Các khái niệm cơ bản

Độ tin cậy (Confidence )

 Conf(X->Y)=P(Y/X)=sup(X Y)/sup(X).∪

 Ngưỡng tin cậy tối thiểu(MinConf)

 Độ tin cậy nhỏ nhất được chỉ định bởi người dùng

Trang 11

Các khái niệm cơ bản

Tập phần tử phổ biến( Frequent itemset)

 Cho A là một tập phần tử

 A là tập phần tử phổ biến nếu support(A) >= minSup

Trang 12

Các khái niệm cơ bản

2 Bread, diaper, beer, eggs

3 Milk, diaper, beer,coke

4 Bread, milk, diaper, beer

5 Bread, milk, diaper, coke

Trang 13

Các khái niệm cơ bản

Các loại luật kết hợp

 Luật kết hợp luận lý/ Luật kết hợp lượng số

 Luật kết hợp đơn chiều/ Luật kết hợp đa chiều

 Luật kết hợp đơn mức/ Luật kết hợp đa mức

 Luật kết hợp/ Luật tương quan thống kê

Trang 14

Các khái niệm cơ bản

 Bài toán: Cho một tập các giá trị I, một CSDL giao dịch D, ngưỡng độ hỗ trợ

tối thiểu Minsup, ngưỡng độ tin cậy Mincof, tìm các luật kết hợp dạng

Y trên D thoả mãn điều kiện Support (X  Y) >= Minsup và Confdence ⇒(X Y) >= Mincof⇒

Trang 16

Mô hình hóa

Khai phá luật kết hợp gồm có 2 bước chính:

 Tìm tập phổ biến: Tìm tât cả những tập phần tử có độ hỗ trợ lớn hơn MinSup cho trước

 Tìm luật kết hợp: Áp dụng thuật toán và sử dụng tập phổ biến để tìm luật kết hợp có độ tin cậy lớn hơn MinConf

Trang 17

Giải thuật FP-Growth

Trang 18

Ý tưởng của thuật toán :

 Nén một khối dữ liệu khổng lồ vào một cấu trúc cây( FP –tree).

 Quá trình khai phá chia thành các bước nhỏ

 Không tạo các tập dự tuyển

Trang 19

Giải thuật FP-Growth

Input : Bảng dữ liệu giao dịch

minSup (độ hỗ trợ tối thiểu)

Output: các luật kết hợp dạng X-> Y với X,Y là tập phần tử

Trang 20

Giải thuật FP-Growth

B4: Khai thác đệ qui Cond FP tree và phát triển mẫu phổ biến cho đến khi

Cond FP tree chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến

Trang 21

Giải thuật FP-Growth

Trang 22

Giải thuật FP-Growth

{}

f:1 c:1

a:1 m:1

Trang 23

Giải thuật FP-Growth

{}

f:2 c:2 a:2

b:1 m:1

Trang 24

Giải thuật FP-Growth

{}

f:3 c:2 a:2

b:1 m:1

Trang 25

Giải thuật FP-Growth

{}

f:3 c:2 a:2

b:1 m:1

Trang 26

Giải thuật FP-Growth

{}

f:4 c:3 a:3

b:1 m:2

Trang 27

Giải thuật FP-Growth

B2: Bắt đầu từ phần tử lá của cây.

 Duyệt cây theo các nhánh từ dưới lên

 Với mỗi 1 nhánh duyệt được, thay chỉ số của các nút thành chỉ số của lá , và bỏ

phần tử lá

 Ví dụ: Xét các nhánh có phần tử p

(f:4,c:3, a:3, m:2, p:2) và (c:1,b:1,p:1)

=> Ta có: (f:2,c:2,a:2,m:2) và (c:1,b:1)

Trang 28

Giải thuật FP-Growth

Cơ sở mẫu điều kiện item cond pattern base

Trang 29

Giải thuật FP-Growth

B3: Với mỗi cơ sở mẫu :

 Đếm số lượng mỗi mấu trong cơ sở mẫu đk

 Thiết lập Conditional FP-tree cho tập phổ biến của mẫu cơ sở

 Ví dụ: p:{fcam:2 , cb:1}

=> Tree:

{}

c:3

Trang 30

Giải thuật FP-Growth

Empty Empty

f

{(f:3)}|c {(f:3)}

c

{(f:3, c:3)}|a {(fc:3)}

a

Empty {(fca:1), (f:1), (c:1)}

b

{(f:3, c:3, a:3)}|m {(fca:2), (fcab:1)}

m

{(c:3)}|p {(fcam:2), (cb:1)}

p

Conditional FP-tree Conditional pattern-base

Item

Trang 31

Giải thuật FP-Growth

B4: Tập mẫu phổ biến cuối cùng của T sinh ra bằng cách liệt kê tất cả các tổ hợp của sub-path thuộc P

Trang 32

Giải thuật FP-Growth

Đặc điểm của giải thuật FP – Growth

 Không tạo tập phần tử dự tuyển

 Sử dụng cấu trúc dữ liệu nén dữ liệu từ tập dữ liệu

 Giảm chi phí kiểm tra tập dữ liệu

 Chi phí chủ yếu là đếm và xây dựng cây FP-tree lúc đầu

Trang 33

Hỏi / Đáp …

Ngày đăng: 10/02/2017, 06:18

TỪ KHÓA LIÊN QUAN

w