1. Trang chủ
  2. » Giáo án - Bài giảng

chương 4: khai phá luật kết hợp

34 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 0,91 MB

Nội dung

khai phá luật kết hợp trong khai phá dữ liệu Item (phần tử) Itemset (tập phần tử) Transaction (giao dịch) Association (sự kết hợp) và association rule (luật kết hợp) Support (độ hỗ trợ) Confidence (độ tin cậy) Frequent itemset (tập phần tử phổ biếnthường xuyên) Strong association rule (luật kết hợp mạnh)

KHAI PHÁ DỮ LIỆU (DATA MINING) Đặng Xuân Thọ Trường Đại học Sư phạm Hà Nội Support     Full name: Đặng Xuân Thọ Mobile: 091.2629.383 Email: thodx@hnue.edu.vn Website: http://cs.fit.hnue.edu.vn/~tho/ Khai phá liệu - ĐHSPHN Nội dung  Chương Giới thiệu khai phá liệu  Chương Dữ liệu tiền xử lý liệu  Chương Phân lớp liệu  Chương Khai phá luật kết hợp  Chương Phân cụm Khai phá liệu - ĐHSPHN Khai phá luật kết hợp Khai phá liệu - ĐHSPHN Tình – Market basket analysis Khai phá liệu - ĐHSPHN Tình – Gợi ý bán hàng Tổng quan khai phá luật kết hợp Khai phá liệu - ĐHSPHN Các khái niệm  Dữ liệu mẫu AllElectronics Khai phá liệu - ĐHSPHN Các khái niệm         Item (phần tử) Itemset (tập phần tử) Transaction (giao dịch) Association (sự kết hợp) association rule (luật kết hợp) Support (độ hỗ trợ) Confidence (độ tin cậy) Frequent itemset (tập phần tử phổ biến/thường xuyên) Strong association rule (luật kết hợp mạnh) Khai phá liệu - ĐHSPHN Các khái niệm 10  Dữ liệu mẫu AllElectronics Itemsets: {I1, I2, I5}, {I2, I3}, … Item: I4 Transaction: T800 Khai phá liệu - ĐHSPHN Giải thuật Apriori 20    Thuật tốn Apriori dựa vào tính chất tập tập mục thường xuyên tập mục thường xun Thuật tốn giảm số lượng ứng viên việc xem xét ứng viên có giá trị support cao min-support khơng? Tất tập mục có tập mục khơng thường xuyên bị loại bỏ Khai phá liệu - ĐHSPHN Giải thuật Apriori 21      B1 Xây dựng danh sách ứng viên k-itemsets sau trích chọn danh sách thường xun k-itemsets dùng min-sup B2 Sau sử dụng danh sách thường xuyên kitemsets để xác định danh sách ứng viên thường xuyên (k+1)-itemsets B3 Loại bỏ tập mục không thường xuyên B4 Lặp lại danh sách ứng viên thường xuyên k-itemsets rỗng B5 Trả lại danh sách (k-1)-itemsets Khai phá liệu - ĐHSPHN Apriori … Step Minimum suport count = 22 UV1 TX1 TID Items Itemset Support Itemset Support 100 134 {1} {1} 200 235 {2} {2} 300 1235 {3} {3} 400 25 {4} {5} 500 135 {5} Khai phá liệu - ĐHSPHN Apriori … Step Minimum suport count = 23 UV2 TX2 TID Items Itemset Support Itemset Support 100 134 {1, 2} {1, 3} 200 235 {1, 3} {1, 5} 300 1235 {1, 5} {2, 3} 400 25 {2, 3} {2, 5} 500 135 {2, 5} {3, 5} {3, 5} TX1 Itemset Support {1} {2} {3} {5} Khai phá liệu - ĐHSPHN Apriori … Step Minimum suport count = 24 UV3 TID Items Itemset 100 134 {1, 2, 3} 200 235 {1, 2, 5} 300 1235 {1, 3, 5} 400 25 {2, 3, 5} 500 135 TX2 UV3 Support Itemset In TX2? {1, 2, 3} {1, 2}; {1, 3}; {2, 3} No {1, 2, 5} {1, 2}; {1, 5}; {2, 5} No {1, 3, 5} {1, 3}; {1, 5}; {3, 5} Yes Yes Itemset Support {1, 3} {2, 3, 5} {2, 3}; {2, 5}; {3, 5} {1, 5} TX3 {2, 3} Itemset {2, 5} {1, 3, 5} {3, 5} {2, 3, 5} Support Tập mục tập mục thường xuyên phải tập mục thường xuyên! Apriori … Step Minimum suport count = 25 TX4 UV4 TID Items Itemset 100 134 {1, 2, 3, 5} 200 235 300 1235 400 25 500 135 Support Itemset Empty Support UV4 Itemset {1, 2, 3, 5} {1, 2, 3}; {1, 2, 5}; {1, 3, 5}; {2, 3, 5} In TX3? No TX3 Itemset Support {1, 3, 5} {2, 3, 5} Tập mục tập mục thường xuyên phải tập mục thường xuyên! Apriori 26  Ví dụ: Xét T tập liệu sau V1 V2 V3 V4 V5 T1 1 0 T2 1 0 T3 0 T4 0 T5 1 T6 1 1 T7 1 0 T8 1 1 27 Khám phá luật kết hợp Khai phá liệu - ĐHSPHN Khám phá luật kết hợp – B1 28  Danh sách tập mục thường xuyên TX3 Itemset  Support {1, 3, 5} {2, 3, 5} Sinh tất tập mục khác rỗng tập mục thường xuyên 𝐼  Với 𝐼 = *1, 3, 5+ → *1, 3+; *1, 5+; *3, 5+; *1+; *3+; *5+  Với 𝐼 = *2, 3, 5+ → *2, 3+; *2, 5+; *3, 5+; *2+; *3+; *5+ Khai phá liệu - ĐHSPHN Khám phá luật kết hợp – B2 29  Với tập khác rỗng 𝑠 𝐼, sinh luật: 𝑠 → (𝐼 − 𝑠) 𝑛ế𝑢  𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝐼) ≥ _𝑐𝑜𝑛𝑓 𝑠𝑢𝑝𝑝𝑜𝑟𝑡_𝑐𝑜𝑢𝑛𝑡(𝑠) Ví dụ: min_conf = 60% Khai phá liệu - ĐHSPHN Khám phá luật kết hợp 30  R1: &     Conf = sup{1, 3, 5} / sup{1, 3} = 2/3 = 66.66% R1 lựa chọn R2: &     min_conf = 60% Conf = sup{1, 3, 5} / sup{1, 5} = 2/2 = 100% R2 lựa chọn R3: &    Conf = sup{1, 3, 5} / sup{3, 5} = 2/3 = 66.66% R3 lựa chọn Khai phá liệu - ĐHSPHN TID Items 100 134 200 235 300 1235 400 25 500 135 Khám phá luật kết hợp 31  R4:  &    Conf = sup{1, 3, 5} / sup{1} = 2/3 = 66.66% R4 lựa chọn R5:  &    min_conf = 60% Conf = sup{1, 3, 5} / sup{3} = 2/4 = 50% R5 bị loại bỏ R6:  &   Conf = sup{1, 3, 5} / sup{5} = 2/4 = 50% R6 bị loại bỏ Khai phá liệu - ĐHSPHN TID Items 100 134 200 235 300 1235 400 25 500 135 Khám phá luật kết hợp 32  Ví dụ: Xét T tập liệu sau V1 V2 V3 V4 V5 T1 1 0 T2 1 0 T3 0 T4 0 T5 1 T6 1 1 T7 1 0 T8 1 1 Tóm tắt 33  Khai phá luật kết hợp xem đóng góp quan trọng từ cộng đồng sở liệu việc khám phá tri thức  Khai phá frequent itemsets  Khai phác tập luật kết hợp Khai phá liệu - ĐHSPHN THANK YOU! ... http://cs.fit.hnue.edu.vn/~tho/ Khai phá liệu - ĐHSPHN Nội dung  Chương Giới thiệu khai phá liệu  Chương Dữ liệu tiền xử lý liệu  Chương Phân lớp liệu  Chương Khai phá luật kết hợp  Chương Phân cụm Khai phá liệu... phá liệu - ĐHSPHN Khai phá luật kết hợp Khai phá liệu - ĐHSPHN Tình – Market basket analysis Khai phá liệu - ĐHSPHN Tình – Gợi ý bán hàng Tổng quan khai phá luật kết hợp Khai phá liệu - ĐHSPHN... T8 1 1 Tóm tắt 33  Khai phá luật kết hợp xem đóng góp quan trọng từ cộng đồng sở liệu việc khám phá tri thức  Khai phá frequent itemsets  Khai phác tập luật kết hợp Khai phá liệu - ĐHSPHN THANK

Ngày đăng: 10/08/2021, 20:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w