Khai phá dữ liệu - Chương 2 LUẬT KẾT HỢP pptx

57 1K 7
Khai phá dữ liệu - Chương 2 LUẬT KẾT HỢP pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 LUẬT KẾT HỢP (Association Rules) Chương 2 2 03/29/14 www.lhu.edu.vn • Phân tích việc Phân tích việc mua hàng của mua hàng của khách hàng bằng khách hàng bằng cách tìm ra những cách tìm ra những “mối kết hợp” giữa “mối kết hợp” giữa những mặt hàng những mặt hàng mà khách đã mua. mà khách đã mua. • Bài toán được Bài toán được Agrawal thuộc Agrawal thuộc nhóm nghiên cứu nhóm nghiên cứu của IBM đưa ra của IBM đưa ra vào năm 1994. vào năm 1994. Bài toán phân tích giỏ hàng Bài toán phân tích giỏ hàng 3 Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Khai phá luật kết hợp: Khai phá luật kết hợp: – Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác. Tính hiểu được: Tính hiểu được: dễ hiểu Tính sử dụng được: Tính sử dụng được: Cung cấp thông tin thiết thực Tính hiệu quả: Tính hiệu quả: Đã có những thuật toán khai thác hiệu quả Các ứng dụng: Các ứng dụng: – Phân tích bán hàng trong siêu thị, cross-marketing, thiết kế catalog, loss-leader analysis, gom cụm, phân lớp, 4 Định dạng thể hiện đặc trưng cho các luật kết hợp: Định dạng thể hiện đặc trưng cho các luật kết hợp: – khăn ⇒ bia [0.5%, 60%] – mua:khăn ⇒ mua:bia [0.5%, 60%] – “Nếu mua khăn thì mua bia trong 60% trường hợp. Khăn và bia được mua chung trong 0.5% dòng dữ liệu." Các biểu diễn khác: Các biểu diễn khác: – mua(x, “khăn") ⇒ mua(x, “bia") [0.5%, 60%] – khoa(x, "CS") ^ học(x, "DB") ⇒ điểm(x, "A") [1%, 75%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở 5 khăn ⇒ bia [0.5%, 60%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Tiền đề Tiền đề, vế trái luật Mệnh đề kết quả Mệnh đề kết quả, vế phải luật Support Support, độ hỗ trợ/ủng hộ (“trong bao nhiêu phần trăm dữ liệu thì những điều ở vế trái và vế phải cùng xảy ra") Confidence Confidence, độ mạnh (“nếu vế trái xảy ra thì có bao nhiêu khả năng vế phải xảy ra") “NẾU mua khăn THÌ mua bia trong 60% trường hợp trên 0.5% dòng dữ liệu" 1 2 3 4 6 2.1 Các kháI niệm Cho I = {I 1 , I 2 , . . . , I m } là tập các đơn vị d liệu. Cho D là tập các giao tác, mỗi giao tác T là tập các đơn vị d d liệu sao cho T I ẹịnh nghĩa 1: Ta gọi giao tác T chứa X, với X là tập các đơn vị d liệu của I, nếu X T ẹịnh nghĩa 2: Một luật kết hợp là một phép suy diễn có dạng X Y, trong đó X I, Y I và XY = ẹịnh nghĩa 3: Ta gọi luật X Y có mức xác nhận(support) là s trong tập giao tác D, nếu có s% giao tác trong D chứa XY. Ký hiệu: Supp(X Y) = s 7 2.1 Các kháI niệm (Tieỏp) ẹịnh nghĩa 4:Ta gọi luật X Y là có độ tin cậy c (Confidence) trên tập giao tác D, Ký hiệu: c= Conf(X Y) = Supp(X Y)/Supp(X) Nhận xét: Các xác nhận và độ tin cậy chính là các xác suất sau: Supp(X Y)= P(XY) : Xác suất của XY trong D Conf(X Y) = P(Y/X): Xác suất có điều kiện ẹịnh nghĩa 5: Cho trJớc Min_Supp=s 0 và Min_Conf=c 0 Ta gọi luật X Y là xaỷ ra nếu thỏa: Supp(X Y) > s 0 và Conf(X Y)>c 0 8 Ngµy T_ID C¸c ®¬n vÞ dJ liÖu D 1 t 1 A   D E  t 2 A     F t 3 A B  D E  D 2 t 4 A B C  E  t 5    D  F t 6 A  C D E  D 3 t 7  B  D E  t 8 A   D  F t 9  B C  E  D 4 t 10  B C  E F t 11  B C   F t 12 A   D   Ví dụ 1: Xét CSDL sau 9 Ta cã: Supp(A→D)=5/12=41.66%, Conf(A→D)=5/7 Supp(B → D)=2/12=17%, Conf(B → D )= 2/6=33.3% Supp(D → F) = 2/12 vµ Conf(D → F) = 2/7=28.5% Supp(F→D)=2/12 vµ Conf(F→D)=2/5 Supp(AC→E)=17% Conf(AC→E)=100% Supp(E→AC)=17% Conf(E→AC)=2/7=28.5% 10 Nhận xét 1: * Hai bước chính của bài toán khai thác dữ liệu dựa trên các luật kết hợp: 1. Tạo ra tất cả tập đơn vị dữ liệu thường xuyên xảy ra (thoả ngưỡng là Min_Sup). 2. Từ tập các đơn vị dữ liệu thường xuyên xảy ra Y = {I 1 , I 2 , . . ., I k } với k >= 2, sinh ra các luật tạo ra từ các đơn vị dữ liệu này bằng cách tỡm các tập con của mỗi tập đơn vị dữ liệu và tính các độ tin cậy của chúng như trên. 2.1 Thuật toán Apriori [...]... {2 3 5} 2 22 Ví dụ về Apriori (4/6) Không gian 123 45 tìm kiếm của CSDL D 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 23 Ví dụ về Apriori (5/6) Áp dụng 123 45 Heuristic Apriori trên Cấp 1 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 24 Ví dụ về Apriori (6/6) Áp dụng Heuristic 123 45 Apriori... 100 20 0 300 400 L1 C1 Database D Tập {1} 134 {2} 2 3 5 Duyệt D {3} 123 5 {4} 25 {5} Độ ủng hộ 2 3 3 1 3 Tập {1} {2} {3} {5} Độ ủng hộ 2 3 3 3 20 Ví dụ về Apriori (2/ 6) C2 Tập {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} C2 Tập Độ ủng hộ {1 2} 1 {1 3} 2 Duyệt D {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 L2 Tập Độ ủng hộ {1 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 21 Ví dụ về Apriori (3/6) C3 Tập {2 3 5} L3 Duyệt D Tập Độ ủng hộ {2 3... kđơn vị dữ liệu - Gọi Lk: Tập hợp các tập phổ biến gồm các k-đvdl Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu và ii) đếm số lần xuất hiện - Ck : Tập hợp các tập ứng viên k- đơn vị dữ liệu Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu và ii) đếm số lần xuất hiện 12 Thuật toán Apriori dựa trên các thủ tục sau Procedure 1: Tạo ra các tập phổ biến Begin L1 = {tập phổ biến 1- vdl}; for ( k = 2; Lk-1 ≠... Áp dụng Heuristic 123 45 Apriori trên Cấp 2 123 4 123 5 124 5 1345 123 124 12 13 23 45 125 134 135 145 23 4 23 5 24 5 345 14 1 15 2 23 24 3 25 4 34 35 45 5 25 Tập phổ biến tối đại ( maximal frequent sets) Tập phổ biến Tập phổ biến tối đại ( maximal frequent sets) Định nghĩa: M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến S khác M mà M ⊂ S 26 Thuật toán Apriori đã đủ nhanh? Phần... ít luật hợp lệ rất thường xuất hiện ⇒ nhiều luật hợp lệ hiếm xuất hiện Độ tin cậy tối thiểu γ / C0 : (minconf) – Cao – Thấp ⇒ ít luật nhưng tất cả “gần như đúng" ⇒ nhiều luật, phần lớn rất “không chắc chắn" Giá trị tiêu biểu: σ = 2 -1 0 %, γ = 70 - 90 % 16 Luật kết hợp: Cơ sở Giao tác: – Dạng quan hệ Item và itemsets: Dạng kết ... Result ∪{a → (X-a)} end return Ressult end 14 Trong ví dụ 1, với Min_Conf=c0=70% và Min_Supp =s0=40% - Ta có tập L gồm các tập đơn vị dữ liệu xảy ra thường xuyên như sau: L = {{A}, {B}, {C}, {D}, {E}, {F}, {AD}, {BE}, {CE}, {DE}} Có các luật kết hợp như sau: A→D với c=71. 42% và s=41.66% D→A với c=71. 42% và s=41.66% B→E với c=83.33% và s=41.66% E→B với c=71. 42% và s=41.66% 15 Luật kết hợp: Cơ sở Mức.. .2. 1 Thuật toán Apriori Cách tiếp cận của thuật toán Apriori dựa trên nhận xét sau: Nếu bất kỳ tập k-đvdl nào là không phổ biến thì bất kỳ tập (k+1 )- vdl chứa chúng cũng sẽ không phổ biến, và ngược lại: Nếu bất kỳ tập k-đvdl nào là phổ biến thì mọi tập con của nó là phổ biến 11 2. 1 Thuật toán Apriori Ký hiệu: - Ta gọi số đơn vị dữ liệu trong một tập hợp là số các phần tử của... tệ) • 50 thuộc tính mỗi cái có 1 0-1 00 giá trị, 100.000 dòng (hơi tệ) • 10.000 thuộc tính mỗi cái có 5-1 0 giá trị, 100 dòng (quá tệ ) – Lưu ý: • Một thuộc tính có thể có một vài giá trị khác nhau • Các thuật toán luật kết hợp có đặc trưng là xem một cặp thuộc tính-giá trị là một thuộc tính (2 thuộc tính mỗi cái có 5 giá trị => "10 thuộc tính") Cách khắc phục vấn đề ? 28 Cải thiện hiệu quả của TT Apriori... cùng item 34 Thuật toán FP-Tree null B:8 A:5 C:3 D:1 C:3 D:1 D:1 A :2 C:1 E:1 D:1 D:1 E:1 null E:1 B:1 A :2 C:1 C:1 E:1 D:1 D:1 E:1 Những giao tác có bao gồm item E E:1 35 Thuật toán FP-Tree (New) Header table null A B:1 C A :2 C:1 C:1 E:1 D:1 D:1 E:1 E:1 Với mỗi nhánh cây bao gồm E • Loại bỏ E • Thêm vào cây mới • Xây dựng lại bảng Header cho cây mới 2 D Cây điều kiện cho item E 2 2 Item B bị loại bỏ do... kích thước 2 • Để phát hiện một mẫu phổ biến kích thước 100, ví dụ {a 1, a2, …, a100}, cần tạo 21 00 ≈ 1030 ứng viên – Duyệt CSDL nhiều lần: • Cần duyệt (n +1 ) lần, n là chiều dài của mẫu dài nhất 27 Thuật toán Apriori đã đủ nhanh? Thực tế: – Đối với tiếp cận Apriori căn bản thì số lượng thuộc tính trên dòng thường khó hơn nhiều so với số lượng dòng giao tác – Ví dụ: • 50 thuộc tính mỗi cái có 1-3 giá . giỏ hàng Bài toán phân tích giỏ hàng 3 Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Khai phá luật kết hợp: Khai phá luật kết hợp: – Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu trúc nhân. [1%, 75%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở 5 khăn ⇒ bia [0.5%, 60%] Luật kết hợp: Cơ sở Luật kết hợp: Cơ sở Tiền đề Tiền đề, vế trái luật Mệnh đề kết quả Mệnh đề kết quả, vế phải luật Support Support,.  F t 12 A   D   Ví dụ 1: Xét CSDL sau 9 Ta cã: Supp(A→D)=5/ 12= 41.66%, Conf(A→D)=5/7 Supp(B → D) =2/ 12= 17%, Conf(B → D )= 2/ 6=33.3% Supp(D → F) = 2/ 12 vµ Conf(D → F) = 2/ 7 =28 .5% Supp(F→D) =2/ 12

Ngày đăng: 29/03/2014, 08:20

Từ khóa liên quan

Mục lục

  • LUẬT KẾT HỢP (Association Rules)

  • Slide 2

  • Luật kết hợp: Cơ sở

  • Slide 4

  • Slide 5

  • Slide 6

  • 2.1 C¸c kh¸I niÖm (Tieáp)

  • Ví dụ 1: Xét CSDL sau

  • Slide 9

  • 2.1 Thuật toán Apriori

  • Slide 11

  • Slide 12

  • Thuật toán Apriori dựa trên các thủ tục sau

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Tạo ứng viên Apriori

  • Ví dụ về Apriori (1/6)

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan