1. Trang chủ
  2. » Tất cả

Bài giảng nhập môn khai phá dữ liệu chương 4 pgs ts hà quang thụy

20 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 528,98 KB

Nội dung

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 4 KHAI PHÁ LUẬT KẾT HỢP 1 PGS TS Hà Quang ThụyHÀ NỘI, 08 2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http //uet vnu edu vn/~thuyhq/ http //uet vnu[.]

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG KHAI PHÁ LUẬT KẾT HỢP PGS TS Hà Quang ThụyHÀ NỘI, 08-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy http://michael.hahsler.net/research/arules_RUG_2015/demo/ July 12, 2021 Bán chéo bán tăng cường ◼ Bán chéo ▪ cross-selling ▪ Bán chéo: bán sản phẩm bổ sung cho khách hàng ▪ Sản phẩm thường mua ▪ Bán tăng cường ▪ up-selling (deep-selling: bán sâu) ▪ bán sản phẩm số lượng nhiều giá cao cho khách hàng Khái niệm sở: Tập phổ biến luật kết hợp Một số ví dụ “luật kết hợp” (associate rule) • “98% khách hàng mà mua tạp chí thể thao mua tạp chí ơtơ”  kết hợp “tạp chí thể thao” với “tạp chí ơtơ” • “60% khách hàng mà mua bia siêu thị mua bỉm trẻ em”  kết hợp “bia” với “bỉm trẻ em” • “Có tới 70% người truy nhập Web vào địa Url vào địa Url phiên truy nhập web”  kết hợp “Url 1” với “Url 2” Khai phá liệu sử dụng Web (Dữ liệu từ file log site, chẳng hạn MS cung cấp) • Xuất từ: Tri thức must-links Cannot-Links học mơ hình suổt đời July 12, 2021 Khái niệm sở: Tập phổ biến luật kết hợp Cơ sở liệu giao dịch (transaction database) • Giao dịch: danh sách mục (mục: item, mặt hàng) phiếu mua hàng Giao dịch T tập mục • Tập tồn mục I = {i1, i2, …, ik} “tất mặt hàng” Một giao dịch T tập I: T  I Mỗi giao dịch T có định danh TID • A tập mục A  I T giao dịch: Gọi T chứa A A  T • Luật kết hợp • Gọi A → B “luật kết hợp” A  I, B  I AB= • Luật kết hợp A → B có độ hỗ trợ (support) s CSDL giao dịch D D có s% giao dịch T chứa AB: xác suất P(AB) Tập mục A có P(A)  s>0 (với s cho trước) gọi tập phổ biến (frequent set) Luật kết hợp A → B có độ tin cậy (confidence) c CSDL D D có c% giao dịch T chứa A chứa B: xác suất P(B|A) • Support (A → B) = P(AB) :  s (A → B)  • Confidence (A → B) = P(B|A) :  c (A → B)  • Luật A → B gọi đảm bảo độ hỗ trợ s D s(A → B)  s Luật A→B gọi đảm bảo độ tin cậy c D c(A → B)  c Tập mạnh July 12, 2021 Khái niệm bản: Mẫu phổ biến luật kết hợp Tập mục I={i1, …, ik} CSDL giao dịch D = {d  I} A, B  I, AB=: A→ B luật kết hợp Bài tốn tìm luật kết hợp Cho trước độ hỗ trợ tối thiểu s>0, độ tin cậy tối thiếu c>0 Hãy tìm luật kết hợp mạnh X→Y ◼ Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Customer buys both ◼ ◼ Giả sử min_support = 50%, min_conf = 50%: A → C (50%, 66.7%) C → A (50%, 100%) Customer buys diaper ◼ Customer buys beer July 12, 2021 ◼ Hãy trình bày nhận xét khái niệm luật kết hợp với khái niệm phụ thuộc hàm Các tính chất Armstrong Một ví dụ tìm luật kết hợp Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Min support 50% Min confidence 50% Frequent pattern Support {A} 75% {B} 50% {C} 50% For rule A  C: {A, C} 50% support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% July 12, 2021 Khai niệm khai phá kết hợp July 12, 2021 Khái niệm khai phá luật kết hợp ◼ ◼ Khai phá luật kết hợp: ◼ Tìm tất mẫu phổ biến, kết hợp, tương quan, cấu trú nhan-quả tập mục đối tượng CSDL quan hệ kho chứa thông tin khác ◼ Mẫu phổ biến (Frequent pattern): mẫu (tập mục, dãy mục…) mà xuất phổ biến CSDL [AIS93] Động lực: tìm mẫu quy (regularities pattern) DL ◼ Các mặt hàng mua nhau? — Bia bỉm (diapers)?! ◼ Mặt hàng mua sau mua PC ? ◼ Kiểu DNA nhạy cảm với thuộc này? ◼ Có khả tự động phân lớp Web hay không ? July 12, 2021 Mẫu phổ biến khai phá luật kết hợp toán chất khai phá DL ◼ Nền tảng nhiều toán KPDL chất ◼ ◼ ◼ ◼ Kết hợp, tương quan, nhân Mẫu tuần tự, kết hợp thời gian vịng, chu kỳ phận, kết hợp khơng gian đa phương tiện Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích tụ (nén liệu ngữ nghĩa) Ứng dụng rộng rãi ◼ Ví dụ: Phân tích DL bóng rổ, tiếp thị chéo (crossmarketing), thiết kế catalog, phân tích chiến dịch bán hàng ◼ Phân tích Web log (click stream), Phân tích chuỗi DNA v.v July 12, 2021 10 Apriori: Một tiếp cận sinh ứng viên kiểm tra ◼ ◼ ◼ ◼ ◼ ◼ Khái quát: Khai phá luật kết hợp gồm hai bước: ◼ Tìm tập mục phổ biến: theo min-sup ◼ Sinh luật mạnh từ tập mục phổ biến Mọi tập tập mục phổ biến tập mục phổ biến ◼ Nếu {bia, bỉm, hạnh nhân} phổ biến {bia, bỉm} vậy: Mọi giao dịch chứa {bia, bỉm, hạnh nhân} chứa {bia, bỉm} Nguyên lý tỉa Apriori: Với tập mục khơng phổ biến khơng cần phải sinh ra/kiểm tra tập bao nó! Phương pháp: ◼ Sinh tập mục ứng viên dài (k+1) từ tập mục phổ biến có độ dài k (Độ dài tập mục số phần tử nó), ◼ Kiểm tra tập ứng viên theo CSDL Các nghiên cứu hiệu chứng tỏ tính hiệu khả mở rộng thuật toán Agrawal & Srikant 1994, Mannila, cộng 1994 July 12, 2021 11 Thuật toán Apriori Trên sở tính chất (nguyên lý tỉa) Apriori, thuật tốn hoạt động theo quy tắc quy hoạch động • Từ tập Fi = {ci| ci tập phổ biến, |ci| = i} gồm tập mục phổ biến có độ dài i với  i  k, • tìm tập Fk+1 gồm tập mục phổ biến có độ dài k+1 Trong thuật tốn, tên mục i1, i2, … in (n = |I|) xếp theo thứ tự cố định (thường đánh số 1, 2, , n) July 12, 2021 12 Thuật toán Apriori July 12, 2021 13 Thuật toán Apriori: Thủ tục Apriori-gen Trong bước k, thuật toán Apriori phải duyệt CSDL D Khởi động, duyệt D để có F1 Các bước k sau đó, duyệt D để tính số lượng giao dịch t thoả ứng viên c Ck+1: giao dịch t xem xét lần cho ứng viên c thuộc Ck+1 Thủ tục Apriori-gen sinh tập phổ biến: tư tưởng July 12, 2021 14 Thủ tục Apriori-gen July 12, 2021 15 Một ví dụ thuật tốn Apriori (s=0.5) Database TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E F1 C2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} sup 2 Itemset sup {A} {B} {C} {E} C2 2nd scan Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} July 12, 2021 16 Một ví dụ thuật tốn Apriori (s=0.5) Itemset sup {A} {B} {C} {D} {E} Database TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E C1 1st scan C2 F2 Itemset {A, C} {B, C} {B, E} {C, E} sup 2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} sup 2 Itemset sup {A} {B} {C} {E} F1 C2 2nd scan Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C3 July 12, 2021 Itemset {B, C, E} 3rd scan F3 Itemset {B, C, E} sup 17 Chi tiết quan trọng Apriori ◼ Cách thức sinh ứng viên: ◼ Bước 1: Tự kết nối Fk ◼ Step 2: Cắt tỉa ◼ Cách thức đếm hỗ trợ cho ứng viên ◼ Ví dụ thủ tục sinh ứng viên ◼ ◼ F3={abc, abd, acd, ace, bcd} Tự kết nối: F3*F3 ◼ ◼ ◼ Tỉa: ◼ ◼ abcd từ abc abd acde từ acd ace acde bỏ ade khơng thuộc F3 C4={abcd} July 12, 2021 18 Ví dụ: D, min_sup*|D| = (C4 = ) F1 F2 F1 F3 F2 July 12, 2021 19 Sinh luật kết hợp Việc sinh luật kết hợp gồm hai bước ◼ ◼ Với tập phổ biến X tìm sinh tập thực Y khác rỗng Với tập phố biến X tập Y khác rỗng thực nó: sinh luật Y → (X – Y) P(X-Y|Y)  co Như ví dụ nêu có L3 = {{I1, I2, I3}, {I1, I2, I5}} Với độ tin cậy tối thiểu 0.7 (70%), xét tập mục phổ biến X={I1, I2, I5} có luật mạnh sau đây: July 12, 2021 20 .. .Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch ◼ Khai phá kiểu đa... “bỉm trẻ em” • “Có tới 70% người truy nhập Web vào địa Url vào địa Url phiên truy nhập web”  kết hợp “Url 1” với “Url 2” Khai phá liệu sử dụng Web (Dữ liệu từ file log site, chẳng hạn MS cung... = support({A}{C})/support({A}) = 66.6% July 12, 2021 Khai niệm khai phá kết hợp July 12, 2021 Khái niệm khai phá luật kết hợp ◼ ◼ Khai phá luật kết hợp: ◼ Tìm tất mẫu phổ biến, kết hợp, tương

Ngày đăng: 27/02/2023, 07:58