1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu chương 3 phan mạnh thường

39 329 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 0,93 MB

Nội dung

Chương Episodes luật Episode Nội dung Khái niệm Thuật toán Winepi Thuật toán Minepi Bài tập Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Luật kết hợp mô tả kiện xuất liệu  Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 THEN mua sản phẩm B với số lượng 20  Các luật Episode mô tả quan hệ thời gian kiện  Ví dụ: IF hôm khách hàng mua sản phẩm A THEN sau tuần khách hàng mua tiếp sản phẩm B C” Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Dữ liệu:  Dữ liệu tập R biến cố  Mỗi biến cố cặp (A, t), với • A  R loại biến cố (ví dụ loại tín hiệu báo động ) • t số nguyên xác định thời điểm xuất biến cố  Các chuỗi biến cố s R ba (s, Ts, Te) • Ts thời điểm bắt đầu Te thời điểm kết thúc • Ts < Te số nguyên • s =  (A1, t1), (A2, t2), …, (An, tn)  • Ai  R Ts  ti < Te với i=1, …, n Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Ví dụ chuỗi liệu tín hiệu báo động: D C A B D A B C A D C A B D A 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 • Với : – 10…150 thời điểm xảy kiện – s =  (D, 10), (C, 20), …, (A, 150)  – A, B, C D loại kiện (ở tín hiệu báo động) – Ts (thời điểm bắt đầu) = 10 and Te (thời điểm kết thúc) = 150 Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Episodes:  Episode cặp (V, ) • V tập hợp loại kiện,ví dụ loại tín hiệu báo động •  thứ tự riêng phần V  Cho chuỗi S tín hiệu báo động, episode  = (V, ) xảy phạm vi S có cách thỏa loại kiện (ví dụ loại tín hiệu báo động) V dùng tín hiệu báo động S để thứ tự riêng phần  tôn trọng  Nhận xét: episodes chứa tín hiệu báo động có tính chất xảy theo thứ tự riêng phần Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Các thứ tự riêng phần phổ dụng như:  Thứ tự toàn phần • Các vị từ episode có thứ tự cố định • Các episodes gọi (hay “có thứ tự")  Các thứ tự riêng phần hiển nhiên • Không xét trật tự vị từ • Các episodes gọi song song (hay “không có thứ tự") Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Ví dụ: A B A A C B Episode Episode song song B Episode vừa vừa song song Chương Episodes luật Episode THUẬT TOÁN WINEPI  Tên phương pháp WINEPI xuất phát từ kỹ thuật dùng cửa sổ truợt  Nhận xét:  Cửa sổ trượt qua chuỗi liệu kiện  Mỗi cửa sổ “khung ảnh" giống dòng CSDL  Tập “khung ảnh" tạo thành dòng CSDL Chương Episodes luật Episode THUẬT TOÁN WINEPI  Ví dụ chuỗi liệu tín hiệu báo động: • • D C A B 10 20 30 40 D A B 50 60 70 C 80 90 Bề rộng cửa sổ 40 giây Cửa sổ đầu/cuối chứa kiện đầu/cuối Chương Episodes luật Episode THUẬT TOÁN WINEPI  Cho tập E loại kiện, chuỗi kiện S = (s,Ts,Te) chuỗi có thứ tự kiện eventi cho eventi  eventi+1 với i=1, …, n-1, Ts  eventi < Te với i=1, …, n event1 event2 event3 … … Ts t1 eventn Te t2 t3 … … tn Chương Episodes luật Episode THUẬT TOÁN MINEPI  Một cách tiếp cận khác để khám phá episodes  Không dùng cửa sổ trượt  Đối với episode quan tâm tiền năng, tìm số lần xuất xác episode  Các tiện lợi: dễ sửa đổi giới hạn thời gian, nhiều giới hạn thời gian cho luật : “Nếu A B xảy phạm vi 15 giây, C theo sau phạm vi 30 giây"  Bất tiện: dùng nhiều khoảng trống Chương Episodes luật Episode THUẬT TOÁN MINEPI  Cho episode  chuỗi kiện S, khoảng [ts,te] xuất nhỏ  S,  Nếu  xảy cửa sổ ứng với khoảng  Nếu  không xảy khoảng  Tập xuất nhỏ episode  chuỗi kiện cho trước ký hiệu mo(): mo() = { [ts,te] | [ts,te] xuất nhỏ  } Chương Episodes luật Episode THUẬT TOÁN MINEPI  Ví dụ: Episode song song  chứa loại kiện A B có ba lần xuất nhỏ s : {[30,40], [40,60], [60,70]},  có lần xuất s : {[60,80]} A A : : C B D 10 B C A B 20 30 40 D A B 50 60 70 C 80 90 Chương Episodes luật Episode THUẬT TOÁN MINEPI  Luật Episode MINEPI cho xác suất điều kiện để tổ hợp kiện ( tín hiệu báo động) xảy thời khoảng cho trước tổ hợp khác kiện khác xuất thời khoảng  Luật episode  [win1]   [win2]    episodes cho    ( episode )  Nếu episode  có xuất nhỏ khoảng [ts,te] với te - ts  win1, episode  xảy khoảng [ts,t'e] ứng với vài t' e cho t' e - ts  win2 Chương Episodes luật Episode THUẬT TOÁN MINEPI  Độ tin cậy luật  [win1]   [win2] xác suất điều kiện để  xảy cho trước  xảy ra, ràng buộc thời gian định luật: |mo()| / |mo( )| với |mo( )| số xuất nhỏ [ts,te]  cho te - ts  win1 |mo()| số xuất có xuất  phạm vi khoảng [ts,ts+win2] Chương Episodes luật Episode THUẬT TOÁN MINEPI  Tần suất luật  [win1]   [win2] |mo()|, với số lần luật thỏa CSDL  Xét ví dụ:  Bài toán: tìm tất episodes cách dùng thời khoảng cực đại 40 giây kích thuớc cửa sổ 10, 20, 30 and 40 giây Ngưỡng tần suất gán cho lần xuất D 10 C A B 20 30 40 D A B 50 60 70 C 80 90 Chương Episodes luật Episode THUẬT TOÁN MINEPI  Tìm tất episodes (1/3):  Đầu tiên, tạo singletons, ví dụ episodes có kích thước (A, B, C, D)  Trong tạo singletons, tạo bảng xuất cho chúng Sau lần quét CSDL đầu tiên, không cần quét CSDL mà dùng bảng đảo ngược tạo lập  Sau đó, nhận dạng singletons phổ biến(với ví dụ tất cả)  Từ episodes phổ biến này, tạo episodes ứng viên có kích thước 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC Chương Episodes luật Episode THUẬT TOÁN MINEPI  Tìm tất episodes tuần tự(2/3):  Sau đó, dùng bảng đảo ngược để tạo xuất nhỏ cho ứng viên ví dụ cho AB nhận tất episodes con, có tên A B, tính mo(AB) sau: • Đọc xuất A (30-30), tìm xuất theo sau B (40-40) • Sau lấy xuất thứ hai A (60-60) tìm xuất sau B (70-70) • Rồi tiếp tục với BA Chương Episodes luật Episode THUẬT TOÁN MINEPI  Tìm tất episodes (3/3):  Trong giai đoạn nhận dạng, tìm tất episodes phổ biến tạo episodes ứng viên có kích thước Lần nữa, tất ứng viên phổ biến  Cuối cùng, thủ tục tương tự lặp cho ứng viên có kích thước tìm episodes xảy DCAB 10-40, DABC 50-80, CABD 20-50, CBDA 20-60, BDAC 40-80  Không tìm thấy ứng viên có kích thước 5, thuật toán kết thúc Chương Episodes luật Episode Các xuất (tuần tự ) tối thiểu + tần suất liệu ví dụ Chương Episodes luật Episode THUẬT TOÁN MINEPI IF D THEN C WITH [0] [10] 0.00 (0/2) [0] [20] 0.50 (1/2) [0] [40] 1.00 (2/2) IF D A THEN C WITH [40] [40] 0.50 (1/2) [20] [40] 1.00 (1/1) IF D THEN A C WITH [0] [10] 0.00 (0/2) [0] [40] 0.50 (1/2) IF D C THEN A B WITH [40] [40] 0.50 (1/2) [30] [40] 1.00 (1/1) Chương Episodes luật Episode THUẬT TOÁN MINEPI IF D A B THEN C WITH [40] [40] 0.50 (1/2) [30] [40] 1.00 (1/1) • Dưới xuất tối thiểu luật liệu ví dụ: DAB, DCAB DC D 10 C DC, DAC, DABC A B 20 30 40 DA D A B 50 60 70 DA DAB C 80 90 Chương Episodes luật Episode KẾT LUẬN  Khai phá luật Episode:  Dựa kỹ thuật luật kết hợp  Dữ liệu hướng thời gian  Hai cách tiếp cận:  WINEPI với cửa sổ trượt  MINEPI với việc tìm xuất nhỏ  Các tiếp cận dùng cho mục tiêu khác  Cần nghiên cứu thêm  Bài toán khám phá mẫu (sequential pattern mining )  Thuật toán tăng cường cho toán sequential pattern mining Chương Episodes luật Episode BÀI TẬP Cho chuỗi kiện sau đây: ABRAKADABRA  Có cửa sổ có bề rộng xử lý để tìm episodes phổ biến theo tiếp cận WINEPI ?  Giả sử nguỡng min_fr 0.3 Tìm episode phổ biến song song chuỗi ?  Tìm epsiode tối đại ? Chương Episodes and luật Episode BÀI TẬP Cho chuỗi kiện sau đây: ABRAKADABRA  Có cửa sổ có bề rộng xử lý để tìm episodes phổ biến theo tiếp cận WINEPI ?  Giả sử nguỡng min_fr 0.3 Tìm episode phổ biến song song chuỗi ?  Tìm epsiode tối đại ? [...]... episodes tuần tự Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Ví dụ chuỗi dữ liệu tín hiệu báo động: 0 • • D C A B 10 20 30 40 D A B 50 60 70 C 80 90 Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây Chiều dài của chuỗi là 70 giây (10-80) Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U1-U11): U2 U1 U11 0 • D C A B 10 20 30 40 D A B 50... 3: ABC, ABD, ACD, BCD  Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn 4 cửa sổ  Không có episodes ứng viên có kích thước là 4 Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Tần suất Episode và các luật ví dụ với WINEPI: D C A B DC DA DB CA CB AB DAB : 73% : 73% : 64% : 64% : 45% : 55% : 45% : 45% : 45% : 45% : 45% D  A [40] (55%, 75%) D A  B [40] (45%, 82%) Chương 3. .. [ts,ts+win2] Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI  Tần suất của luật  [win1]   [win2] là |mo()|, với số lần luật thỏa trong CSDL  Xét ví dụ:  Bài toán: tìm tất cả các episodes tuần tự bằng cách dùng thời khoảng cực đại là 40 giây và kích thuớc cửa sổ là 10, 20, 30 and 40 giây Ngưỡng tần suất được gán cho một lần xuất hiện D 0 10 C A B 20 30 40 D A B 50 60 70 C 80 90 Chương 3 Episodes... thúc Chương 3 Episodes và luật Episode Các xuất hiện (tuần tự ) tối thiểu + các tần suất trong dữ liệu ví dụ Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI IF D THEN C WITH [0] [10] 0.00 (0/2) [0] [20] 0.50 (1/2) [0] [40] 1.00 (2/2) IF D A THEN C WITH [40] [40] 0.50 (1/2) [20] [40] 1.00 (1/1) IF D THEN A C WITH [0] [10] 0.00 (0/2) [0] [40] 0.50 (1/2) IF D C THEN A B WITH [40] [40] 0.50 (1/2) [30 ]... { [ts,te] | [ts,te] là sự xuất hiện nhỏ nhất của  } Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI  Ví dụ: Episode song song  chứa các loại sự kiện A và B có ba lần xuất hiện nhỏ nhất trong s là : { [30 ,40], [40,60], [60,70]},  có một lần xuất hiện trong s là : {[60,80]} A A : : C B D 0 10 B C A B 20 30 40 D A B 50 60 70 C 80 90 Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI  Luật Episode.. .Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w,ts,te), với ts < Te, te > Ts, và w chứa các cặp (event, t) của s mà ts  t < te  Giá trị ts  t < te được gọi là bề rộng cửa sổ W event1 event2 event3 … … Ts t1 eventn Te t2 t3 ts W te tn Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Theo... event1 event2 event3 Ts ts W tet1 … … eventn Te t2 t3 tnts W te Chương 3 Episodes và luật Episode THUẬT TOÁN WINEPI  Tần suất (độ hỗ trợ với luật kết hợp) của episode  là tỷ số giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả dĩ fr(, S, W) = |Sw  W(S, W) |  xuất hiện trong Sw | |W(S, W)| Với W(S, W) là tập tất cả các cửa sổ Sw của chuỗi S sao cho bề rộng cửa sổ là W Chương 3 Episodes và luật... (0/2) [0] [40] 0.50 (1/2) IF D C THEN A B WITH [40] [40] 0.50 (1/2) [30 ] [40] 1.00 (1/1) Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI IF D A B THEN C WITH [40] [40] 0.50 (1/2) [30 ] [40] 1.00 (1/1) • Dưới đây là xuất hiện tối thiểu của các luật trong dữ liệu ví dụ: DAB, DCAB DC D 0 10 C DC, DAC, DABC A B 20 30 40 DA D A B 50 60 70 DA DAB C 80 90 ... thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI  Tìm tất cả các episodes tuần tự(2 /3) :  Sau đó, dùng bảng đảo ngược để tạo xuất hiện nhỏ nhất cho các ứng viên ví dụ cho AB nhận tất cả các episodes con, có tên là A và B, rồi tính mo(AB) như sau: • Đọc xuất hiện đầu tiên của A (30 -30 ), và tìm xuất hiện đầu tiên theo sau B (40-40) • Sau đó... đó lấy xuất hiện thứ hai của A (60-60) và tìm xuất hiện đầu tiên sau B (70-70) • Rồi tiếp tục với BA Chương 3 Episodes và luật Episode THUẬT TOÁN MINEPI  Tìm tất cả các episodes tuần tự (3/ 3):  Trong giai đoạn nhận dạng, chúng ta tìm tất cả episodes phổ biến và tạo các episodes ứng viên có kích thước 3 Lần nữa, hầu như tất cả các ứng viên đều phổ biến  Cuối cùng, thủ tục tương tự được lặp cho các ... D 10 C DC, DAC, DABC A B 20 30 40 DA D A B 50 60 70 DA DAB C 80 90 Chương Episodes luật Episode KẾT LUẬN  Khai phá luật Episode:  Dựa kỹ thuật luật kết hợp  Dữ liệu hướng thời gian  Hai cách... xuất A (30 -30 ), tìm xuất theo sau B (40-40) • Sau lấy xuất thứ hai A (60-60) tìm xuất sau B (70-70) • Rồi tiếp tục với BA Chương Episodes luật Episode THUẬT TOÁN MINEPI  Tìm tất episodes (3/ 3):... mua sản phẩm A THEN sau tuần khách hàng mua tiếp sản phẩm B C” Chương Episodes luật Episode CÁC KHÁI NIỆM CƠ BẢN  Dữ liệu:  Dữ liệu tập R biến cố  Mỗi biến cố cặp (A, t), với • A  R loại biến

Ngày đăng: 03/12/2015, 05:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN