1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 4. KHAI PHÁ LUẬT KẾT HỢP

74 63 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 1,59 MB

Nội dung

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG KHAI PHÁ LUẬT KẾT HỢP Chương 4: Khai phá luật kết hợp  Khai phá luật kết hợp (Association rule)  Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch  Khai phá kiểu đa dạng luật kết hợp/tương quan  Khai phá kết hợp dựa theo ràng buộc  Khai phá mẫu dãy http://michael.hahsler.net/research/arules_RUG_2015 /demo/ 8/4/20 Bán chéo bán tăng cường  Bán chéo  cross-selling  Bán chéo: bán sản phẩm bổ sung cho khách hàng  Sản phẩm thường mua Bán tăng cường  up-selling (deep-selling: bán sâu)  bán sản phẩm số lượng nhiều giá cao cho khách hàng Khái niệm sở: Tập phổ biến luật kết hợp Một số ví dụ “luật kết hợp” (associate rule) • “98% khách hàng mà mua tạp chí thể thao mua tạp chí ơtơ”  kết hợp “tạp chí thể thao” với “tạp chí ơtơ” • “60% khách hàng mà mua bia siêu thị mua bỉm trẻ em”  kết hợp “bia” với “bỉm trẻ em” • “Có tới 70% người truy nhập Web vào địa Url vào địa Url phiên truy nhập web”  kết hợp “Url 1” với “Url 2” Khai phá liệu sử dụng Web (Dữ liệu từ file log site, chẳng hạn MS cung cấp) • Các Url có gắn với nhãn “lớp” đặc trưng có luật kết hợp liên quan lớp Url 8/4/20 Khái niệm sở: Tập phổ biến luật kết hợp Cơ sở liệu giao dịch (transaction database) • Giao dịch: danh sách mục (mục: item, mặt hàng) phiếu mua hàng Giao dịch T tập mục • Tập tồn mục I = {i1, i2, …, ik} “tất mặt hàng” Một giao dịch T tập I: T  I Mỗi giao dịch T có định danh TID • A tập mục A  I T giao dịch: Gọi T chứa A A  T • Luật kết hợp • Gọi A  B “luật kết hợp” A  I, B  I AB= • Luật kết hợp A  B có độ hỗ trợ (support) s CSDL giao dịch D D có s% giao dịch T chứa AB: xác suất P(AB) Tập mục A có P(A)  s>0 (với s cho trước) gọi tập phổ biến (frequent set) Luật kết hợp A  B có độ tin cậy (confidence) c CSDL D D có c% giao dịch T chứa A chứa B: xác suất P(B|A) • Support (A  B) = P(AB) :  s (A  B)  • Confidence (A  B) = P(B|A) :  c (A  B)  • Luật A  B gọi đảm bảo độ hỗ trợ s D s(A  B)  s Luật AB gọi đảm bảo độ tin cậy c D c(A  B)  c Tập mạnh 8/4/20 Khái niệm bản: Mẫu phổ biến luật kết hợp Tập mục I={i1, …, ik} CSDL giao dịch D = {d  I} A, B  I, AB=: A B luật kết hợp Bài tốn tìm luật kết hợp Cho trước độ hỗ trợ tối thiểu s>0, độ tin cậy tối thiếu c>0 Hãy tìm luật kết hợp mạnh XY  Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Customer buys both   Giả sử min_support = 50%, min_conf = 50%: A  C (50%, 66.7%) C  A (50%, 100%) Customer buys diaper  Customer buys beer 8/4/20  Hãy trình bày nhận xét khái niệm luật kết hợp với khái niệm phụ thuộc hàm Các tính chất Armstrong Một ví dụ tìm luật kết hợp Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Min support 50% Min confidence 50% Frequent pattern Support {A} 75% {B} 50% {C} 50% {A, C} For rule A  C: support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% 8/4/20 50% hợp 8/4/20 hợp Khai phá luật kết hợp:  Tìm tất mẫu phổ biến, kết hợp, tương quan, cấu trú nhan-quả tập mục đối tượng CSDL quan hệ kho chứa thông tin khác  Mẫu phổ biến (Frequent pattern): mẫu (tập mục, dãy mục…) mà xuất phổ biến CSDL [AIS93]  Động lực: tìm mẫu quy (regularities pattern) DL  Các mặt hàng mua nhau? — Bia bỉm (diapers)?!  Mặt hàng mua sau mua PC ?  Kiểu DNA nhạy cảm với thuộc này?  Có khả tự động phân lớp Web hay không ? 8/4/20  hợp toán chất khai phá DL   Nền tảng nhiều toán KPDL chất  Kết hợp, tương quan, nhân  Mẫu tuần tự, kết hợp thời gian vòng, chu kỳ phận, kết hợp không gian đa phương tiện  Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích tụ (nén liệu ngữ nghĩa) Ứng dụng rộng rãi 8/4/20  Ví dụ: Phân tích DL bóng rổ, tiếp thị chéo (crossmarketing), thiết kế catalog, phân tích chiến dịch bán hàng  Phân tích Web log (click stream), Phân tích chuỗi DNA v.v 10 Ràng buộc đơn điệu 8/4/20 Ràng buộc Đơn điệu v S yes S V yes S V no min(S)  v yes min(S)  v no max(S)  v no max(S)  v yes count(S)  v no count(S)  v yes sum(S)  v ( a  S, a  ) no sum(S)  v ( a  S, a  ) yes range(S)  v no range(S)  v yes avg(S)  v,   { , ,  } convertible support(S)   no support(S)   yes 60 Tính đọng  Tính đọng:  Cho A1, tập mục bảo đảm ràng buộc cô đọng C, S bảo đảm C dựa A1 , chằng hạn, S chứa tập thuộc A1   8/4/20 Tư tưởng: Bỏ qua xem xét tồn CSDL giao dịch, có tập mục S bảo đảm ràng buộc C xác định dựa theo việc chọn mục  min(S.Price)  v cô đọng  sum(S.Price)  v không cô đọng Tối ưu hóa: Nếu C đọng đẩy đếm trước 61 Ràng buộc cô đọng 8/4/20 Ràng buộc Cô đọng v S yes S V yes S V yes min(S)  v yes min(S)  v yes max(S)  v yes max(S)  v yes count(S)  v weakly count(S)  v weakly sum(S)  v ( a  S, a  ) no sum(S)  v ( a  S, a  ) no range(S)  v no range(S)  v no avg(S)  v,   { , ,  } no support(S)   no support(S)   no 62 Thuật tốn Apriori— Ví dụ Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} 8/4/20 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D {1 {1 {2 {2 {3 3} 5} 3} 5} 5} L3 itemset sup {2 5} 63 Thuật tốn Nạve: Apriori +ràng buộc Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} 8/4/20 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: Sum{S.price < 5} 64 Apriori ràng buộc: Đẩy RB chống Đ Đ xuống đáy Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} 8/4/20 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: Sum{S.price < 5} 65 Apriori ràng buộc: Đẩy RB chống Đ Đ xuống đáy Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} 8/4/20 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: min{S.price

Ngày đăng: 04/08/2020, 00:52

w