1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Khai phá dữ liệu: Bài 3 - TS. Trần Mạnh Tuấn

85 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 2,06 MB

Nội dung

Bài giảng Khai phá dữ liệu: Bài 3 Luật kết hợp cung cấp cho người học những kiến thức như: Tổng quan; Phát biểu bài toán; Thuật giải Apriori; Thuật giải AprioriTid; Thuật giải FP_Growth. Mời các bạn cùng tham khảo!

KHAI PHÁ DỮ LIỆU Bài Luật kết hợp Giáo viên: TS Trần Mạnh Tuấn Bộ môn: Hệ thống thông tin Khoa: Công nghệ thông tin Email: tmtuan@tlu.edu.vn Điện thoai: 0983.668.841 Nội dung ❖ Tổng quan ❖ Phát biểu toán ❖ Một số thuật giải ▪ Thuật giải Apriori ▪ Thuật giải AprioriTid ▪ Thuật giải FP_Growth ✓ Thuật toán 1: Simple algorithm ✓ Thuật toán 2: Fast algorithm ✓ Thuật tốn 3: Tìm luật đơn giản Tổng quan Bài tốn phân tích giỏ hàng Tổng quan Bài tốn phân tích giỏ hàng Những mặt hàng thường khách hàng mua lần mua hàng? ➢ Thiết kế gian hàng ➢ Lên kế hoạch bán giảm giá cho mặt hàng/nhóm mặt hàng ➢ Lên kế hoạch tiếp thị/các chiến lược quảng cáo ➢ v.v Tổng quan Tiếp thị chéo Tổng quan Tiếp thị chéo Tổng quan Tổng quan ❖Luật kết hợp (LKH) hướng quan trọng KPDL ❖Giúp ta tìm mối liên hệ mục liệu/thuộc tính (items) DL ❖Tìm luật kết hợp ‘quý hiếm’ mang nhiều thông tin từ CSDL tác nghiệp hướng tiếp cận lĩnh vực khai phá liệu Tổng quan ❖VD luật kết hợp: “80 % khách hàng mua máy điện thoại di động mua thêm simcard, 30 % có mua máy điện thoại di động lẫn simcard” ❖“mua máy điện thoại di động” vế trái (tiền đề) luật, “mua simcard” vế phải (kết luận) luật ❖Các số 30% độ hỗ trợ luật (support - số phần trăm giao dịch chứa vế trái vế phải), 80% độ tin cậy luật (confidence - số phần trăm giao dịch thoả mãn vế trái thoả mãn vế phải) Tổng quan Các hướng tiếp cận khai phá LKH ❖LKH nhị phân (Binary association rule): ▪ Các items quan tâm có hay khơng xuất CSDL giao tác (Transaction database ) không quan tâm Mức độ hay tần xuất xuất ▪ Thuật giải Apriori ❖LKH có thuộc tính số thuộc tính hạng mục • Dùng phương pháp rời rạc hoá chuyển dạng nhị phân để áp dụng thuật giải có Thuậtgiải1: Simple algorithm ❖ Điều CM sau: ❖ Nếu luật a →(l-a) không thoả mãn độ tin cậy, tức là: conf(a→(l-a)) nhỏ minconf, với tập b a ta có: ❖ Vì b ⊂ a nên supp(b)≥supp(a), vậy: ❖ Tức độ tin cậy luật b→(l-b) nhỏ minconf 71 Thuậtgiải1: Simple algorithm 72 Thuật giải 2: Fast algorithm ❖ Thuật giải cải tiến thuật giải ❖ Nếu xảy luật với tập xảy luật với tập cha ▪ VD: luật AB→CD có đủ độ tin cậy luật ABC→D đủ độ tin cậy 1) forall frequent k_itemset Lk, k ≥ 2) H1 = {Tập vế phải luật có item vế phải} 3) Call Ap_GenRule(Lk, H1) 4) end 73 Thuật giải 2: Fast algorithm 74 Thuật giải 3: Tìm luật đơn giản ❖ Nếu luật chứa tập a vế phải thỏa ngưỡng minconf luật chứa a~ vế phải thỏa ngưỡng minconf với a~ ⊂ a ❖ NX: phải tìm tất luật kết hợp có cần tìm luật có item vế phải đủ ❖ Tất luật kết hợp có item vế phải suy từ luật có item vế phải 75 Thuật giải 3: Tìm luật đơn giản ❖ Ký hiệu s tập luật gồm tất luật kết hợp có item vế phải thỏa ngưỡng minsup minconf cho trước ❖ Thuật giải tìm tập luật đơn giản S ❖ Tìm tất tập frequent itemset thỏa minsup ❖ Đối với frequent itemset X: li1, li2, …lik kiểm tra tất luật có vế phải có thuộc tính r: X – lij → lij, j = 1…k Nếu thỏa minconf cho luật r 76 Thuật giải 3: Tìm luật đơn giản ❖ Tập luật s chứa đựng tất thông tin tập luật AR, có kích thước bé tập AR ❖ Nên tìm tập luật đơn giản s (thay AR) vì: ❖ Số lượng luật cần lưu lại giảm đáng kể, thường giảm từ 10% - 50% ❖ Giảm đáng kể thời gian tài nguyên tiêu tốn lúc tìm luật tìm luật đơn giản ❖ Mọi luật kết hợp suy dẫn từ tập luật đơn giản ❖ Chỉ tập trung vào luật ta quan tâm khơng phải chìm ngập tập tất luật kết hợp 77 Loại luật thừa, tìm tập luật quan tâm ❖ Phương pháp dùng quy luật loại bỏ luật thừa ❖ Phương pháp lọc dùng mẫu đơn giản 78 Phương pháp dùng quy luật loại bỏ luật thừa ❖ Có ba tập luật cần quan tâm ❖ Tập luật kết hợp ❖ AR = {X => Y|, sup(X => Y) ≥ minsup conf(X=> Y) ≥ minconf} ❖ Đây tất luật có áp dụng thuật giải tìm luật kết hợp 79 Phương pháp dùng quy luật loại bỏ luật thừa ❖ Tập luật đặc trưng ❖ RR = { (X=>Y) ∈ AR| ¬∃ (X’ => Y’) ∈ AR, (X = X’) ∧ (X ∪ Y ⊂ X’ ∪ Y’) ∨ (X X’ ⊃ X ∧ Y = X’∪ Y’)} ❖ Với luật X => Y (được sinh từ itemset X ∪Y) có tập AR, tập luật RR gồm luật tập AR loại bỏ loại luật sau: ❖ Luật sinh itemset (X’ ∪ Y’) chứa itemset (X ∪ Y) có vế trái với luật X => Y ❖ Luật sinh từ (X’ ∪ Y’) = (X ∪ Y) luật có vế trái X 80 Phương pháp dùng quy luật loại bỏ luật thừa ❖ Tập luật gồm luật vế trái nhỏ nhất, vế phải lớn ❖ MMR = {r: (X => Y) ∈ AR | ¬∃ r’: (X’ => Y’) ∈AR, r’ ≠ r X’ ⊆ X Y’ ⊇ Y } ❖ Với luật luật X => Y∈AR, tập MMR gồm luật tập AR loại bỏ luật có tính chất sau: Luật có vế trái X có vế phải chứa Y 81 Phương pháp dùng quy luật loại bỏ luật thừa ❖ Đối với ba tập luật trên, ta CM mối quan hệ sau: MMR ⊆ RR ⊆ AR ❖ Thuật giải tìm tập luật MMR ▪ MMR = AR ▪ While ( ∃ r’: (X’ => Y’) ∈ AR, r’ ≠ r X’ ⊆ X Y’⊇ Y) ▪ MMR = MMR – rhhhh 82 Phương pháp lọc dùng mẫu đơn giản ❖ Lớp luật IR (hoặc luật vơ ích) mơ tả mẫu (template) Mẫu tổng quát hóa lớp luật kết hợp ❖ Một mẫu có dạng sau: A1,… Ak => Ak+1 ❖ Ai tên thuộc tính tên lớp biểu thứ có dạng C+ C* với C tên lớp ▪ C+ C* tương ứng “một nhiều” “0 nhiều” thể lớp C ▪ Luật: B1,… Bh => Bh+1 thỏa mẫu luật xem thể mẫu 83 Phương pháp lọc dùng mẫu đơn giản ❖ Phương pháp dùng cách biểu diễn luật phân loại mà người dùng định nghĩa dựa thuộc tính liệu dùng để khai thác luật ❖ Trong phương pháp này, người dùng tự nhập vào tiêu chuẩn luật cần tìm thơng qua mẫu thể luật mà họ quan tâm 84 Trao đổi, câu hỏi? 85 ... T900 I1, I2, I3 Thuật giải Apriori Ví dụ 36 TID Danh mục T100 I1, I2, I5 T200 I2, I4 T300 I2, I3 T400 I1, I2, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I1, I2, I3, I5 T900 I1, I2, I3 Thuật giải... Tập 1-itemset

Ngày đăng: 09/08/2021, 17:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN