1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu - Chương 3: Dãy phổ biến doc

37 531 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 656 KB

Nội dung

1 Dãy phổ biến Dãy phổ biến Chương 3: 2 Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu trong dữ liệu – Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 THEN sẽ mua sản phẩm B với số lượng 20. THEN sẽ mua sản phẩm B với số lượng 20. Các luật dãy phổ biến mô tả quan hệ thời gian giữa các Các luật dãy phổ biến mô tả quan hệ thời gian giữa các sự kiện sự kiện – Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1 Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1 tuần khách hàng sẽ mua tiếp sản phẩm B và C” tuần khách hàng sẽ mua tiếp sản phẩm B và C” 1. CÁC KHÁI NiỆM CƠ BẢN 1. CÁC KHÁI NiỆM CƠ BẢN Chương 3: Dãy phổ biến Chương 3: Dãy phổ biến 3 – Tập Tập R R các loại sự kiện. các loại sự kiện. – M M ỗi ỗi sự kiện là một cặp sự kiện là một cặp ( ( A, t A, t ), v ), v ới ới • A ∈ R là loại sự kiện (ví dụ loại tín hiệu báo động ) • t là một số nguyên xác định thời điểm xuất hiện của sự kiện – C C huỗi sự kiện huỗi sự kiện S S trên trên R R l l à bộ ba à bộ ba ( ( s, T s, T s s , T , T e e ) ) • T s là thời điểm bắt đầu và T e là thời điểm kết thúc • T s < T e là các số nguyên • S = 〈 (A 1 , t 1 ), (A 2 , t 2 ), …, (A n , t n ) 〉 • A i ∈ R và T s ≤ t i < T e với mọi i=1, …, n` 1. CÁC KHÁI NiỆM CƠ BẢN 1. CÁC KHÁI NiỆM CƠ BẢN (tt) (tt) 4 Ví dụ chuỗi sự kiện: Ví dụ chuỗi sự kiện: • Trong đó Trong đó : : – A, B, C, D: là các loại sự kiện – 10…150 là các thời điểm xảy ra sự kiện – S = 〈 (D, 10), (C, 20), …, (A, 150) 〉 – T s (thời điểm bắt đầu) = 10 and T e (thời điểm kết thúc) = 150 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 D C A B D A B C A D C A B D A 1. CÁC KHÁI NIỆM CƠ BẢN 1. CÁC KHÁI NIỆM CƠ BẢN (tt) (tt) 5 Episodes: Episodes: – Episode là cặp ( Episode là cặp ( V V , , ≤ ≤ ) ) • V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo động ∀ ≤ là thứ tự riêng phần trên V – Cho chuỗi Cho chuỗi S S các sự kiện, episode các sự kiện, episode α α = = ( ( V, V, ≤ ≤ ) ) xảy ra xảy ra trong phạm vi trong phạm vi S S nếu các loại sự kiện trong nếu các loại sự kiện trong V V xuất xuất hiện trong hiện trong S S theo thứ tự được xác định bằng quan theo thứ tự được xác định bằng quan hệ thứ tự. hệ thứ tự. 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI (Episode) (Episode) 6 Các thứ tự riêng phần phổ dụng như: Các thứ tự riêng phần phổ dụng như: – Thứ tự toàn phần Thứ tự toàn phần • Các vị từ của mỗi episode có thứ tự cố định • Các episodes như vậy được gọi là tuần tự (hay “có thứ tự") – Các thứ tự riêng phần hiển nhiên Các thứ tự riêng phần hiển nhiên • Không xét trật tự của các vị từ • Các episodes này được gọi là song song (hay “không có thứ tự") 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI (Episode) (Episode) 7 Ví dụ: Ví dụ: A B Episode tuần tự A B Episode song song A B C Episode vừa tuần tự vừa song song 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI (Episode) (Episode) 8 Tên của phương pháp WINEPI xuất phát từ kỹ Tên của phương pháp WINEPI xuất phát từ kỹ thuật dùng cửa sổ truợt thuật dùng cửa sổ truợt Nhận xét: Nhận xét: – Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện – Mỗi cửa sổ là một “khung ảnh" giống như một dòng Mỗi cửa sổ là một “khung ảnh" giống như một dòng của CSDL của CSDL – Tập các “khung ảnh" tạo thành các dòng của CSDL Tập các “khung ảnh" tạo thành các dòng của CSDL 3. THUẬT TOÁN 3. THUẬT TOÁN WINEPI WINEPI 9 Ví dụ chuỗi dữ liệu sự kiện: Ví dụ chuỗi dữ liệu sự kiện: • Bề rộng cửa sổ là 40 giây Bề rộng cửa sổ là 40 giây • Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối 3. THUẬT TOÁN WINEPI 3. THUẬT TOÁN WINEPI (tt) (tt) 0 10 20 30 40 50 60 70 80 90 D C A B D A B C 10 Cho tập Cho tập E E các loại sự kiện, các loại sự kiện, chuỗi sự kiện chuỗi sự kiện S S = = ( ( s s , , T T s s ,T ,T e e ) ) là một chuỗi có thứ tự các sự kiện là một chuỗi có thứ tự các sự kiện event event i i sao cho sao cho event event i i ≤ ≤ event event i+1 i+1 với mọi với mọi i=1, i=1, …, n-1 …, n-1 , và , và T T s s ≤ ≤ event event i i < < T T e e với mọi với mọi i=1, …, n i=1, …, n T s T e t 1 t 2 t 3 … … t n event 1 event 2 event 3 … … event n 3. THUẬT TOÁN WINEPI 3. THUẬT TOÁN WINEPI (tt) (tt) [...]... – Tiếp đến nhận dạng các singletons phổ biến (ở đây là tất cả ) – Từ các episodes phổ biến này, tạo các episodes ứng viên có kích thước là 2: AB, AC, AD, BC, BD, CD – Tiếp đến nhận dạng các episodes song song phổ biến( ở đây là tất cả) – Từ các episodes phổ biến này, tạo các episodes phổ biến có kích thước là 3: ABC, ABD, ACD, BCD – Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn... ngưỡng tần suất min_fr Episode α là phổ biến nếu fr(α , s, win) ≥ min_fr Ví dụ, “nếu tần suất của α vượt quá ngưỡng tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win" F(s, win, min_fr): tập hợp các episodes phổ biến trong s ứng với win và min_fr Apriori: Nếu episode α là phổ biến trong chuỗi sự kiện s, thì tất cả các episodes con β  α là phổ biến 14 3 THUẬT TOÁN WINEPI (tt) Luật... của A (3 0-3 0), và tìm xuất hiện đầu tiên theo sau B (4 0-4 0) • Sau đó lấy xuất hiện thứ hai của A (6 0-6 0) và tìm xuất hiện đầu tiên sau B (7 0-7 0) • Rồi tiếp tục với BA 32 4 THUẬT TOÁN MINEPI (tt) Tìm tất cả các episodes tuần tự (3/3): – Trong giai đoạn nhận dạng, chúng ta tìm tất cả episodes phổ biến và tạo các episodes ứng viên có kích thước 3 Lần nữa, hầu như tất cả các ứng viên đều phổ biến – Cuối... viên có kích thước là 4 và tìm được các episodes xảy ra là DCAB trong 1 0-4 0, DABC trong 5 0-8 0, CABD trong 2 0-5 0, CBDA trong 2 0-6 0, và BDAC trong 4 0-8 0 – Không tìm thấy các ứng viên có kích thước 5, do vậy thuật toán kết thúc 33 D C A B D A B C 0 10 20 30 40 50 60 70 80 90 Các xuất hiện (tuần tự ) tối thiểu + các tần suất trong dữ liệudụ 34 IF D THEN C WITH [0] [10] 0.00 (0/2) [0] [20] 0.50 (1/2)... hơn – Các episodes song song, episodes tuần tự 19 3 THUẬT TOÁN WINEPI (tt) Ví dụ chuỗi dữ liệu sự kiện: D C A B D A B C 0 10 20 30 40 50 60 70 80 90 • • Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây Chiều dài của chuỗi là 70 (1 0-8 0) 20 3 THUẬT TOÁN WINEPI (tt) Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U1-U11): … U1 U2 U11 D C A B D A B C 0 10 20 30 40 50 60 70 80 90 • Nguỡng tần số được ấn... ta cũng tạo bảng xuất hiện cho chúng Sau lần quét CSDL đầu tiên, chúng ta không cần quét CSDL nữa mà dùng các bảng đảo ngược được tạo lập – Sau đó, nhận dạng các singletons phổ biến (với ví dụ này là tất cả) – Từ các episodes phổ biến này, tạo các episodes ứng viên có kích thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC 31 4 THUẬT TOÁN MINEPI (tt) Tìm tất cả các episodes tuần tự (2/3): –... khoảng [ ts,te] với te - ts ≤ win1, thì episode α xảy ra trong khoảng [ts,t'e] ứng với vài t'e sao cho t'e - ts ≤ win2 28 4 THUẬT TOÁN MINEPI (tt) Độ tin cậy của luật β [win1] ⇒ α [win2] là xác suất điều kiện để α xảy ra khi cho trước β xảy ra, dưới các ràng buộc thời gian được chỉ định bởi các luật: |mo(α )| / |mo(β )| với |mo(β )| là số các xuất hiện nhỏ nhất [ts,te] của β sao cho te - ts ≤ win1 và |mo(α... (1/2) D C A B D A D A B C 0 10 20 30 40 50 60 70 80 90 35 4 THUẬT TOÁN MINEPI (tt) IF D A B THEN C WITH [40] [40] 0.50 (1/2) [30] [40] 1.00 (1/1) • Dưới đây là xuất hiện tối thiểu của các luật trong dữ liệu ví dụ: DAB, DCAB DC DC, DAC, DABC D 0 C 10 20 30 40 DA A B D A B 50 60 70 C 80 90 DA DAB 36 ... : 73% C : 73% A : 64% B : 64% D C : 45% D A : 55% D ⇒ A [40] (55%, 75%) D B : 45% C A : 45% C B : 45% A B : 55% DAB : 45% D A ⇒ B [40] (45%, 82%) 24 4 THUẬT TOÁN MINEPI Một cách tiếp cận khác để khám phá episodes – Không dùng cửa sổ trượt – Đối với từng episode quan tâm tiền năng, tìm số lần xuất hiện chính xác của episode Các tiện lợi: dễ sửa đổi các giới hạn thời gian, nhiều giới hạn thời gian cho . 1 Dãy phổ biến Dãy phổ biến Chương 3: 2 Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu trong dữ liệu – Ví dụ:. sẽ mua tiếp sản phẩm B và C” 1. CÁC KHÁI NiỆM CƠ BẢN 1. CÁC KHÁI NiỆM CƠ BẢN Chương 3: Dãy phổ biến Chương 3: Dãy phổ biến 3 – Tập Tập R R các loại sự kiện. các loại sự kiện. – M M ỗi ỗi . song song 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI 2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI (Episode) (Episode) 8 Tên của phương pháp WINEPI xuất phát từ kỹ Tên của phương pháp WINEPI xuất phát từ kỹ thuật

Ngày đăng: 29/03/2014, 08:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN