Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
15,72 MB
Nội dung
Khai phá mẫu phổ biến luật kết hợp Phan Xuân Hiếu Bài giảng DSLab Viện nghiên cứu cao cấp Toán (VIASM) Câu chuyện “bỉm” “bia” Rakesh Agrawal Nội dung Khái niệm định nghĩa • • Tập mục, giao dịch, CSDL giao dịch Tập phổ biến (TPB) luật kết hợp (LKH) Các phương pháp khai phá TPB LKH • • • Phương pháp Apriori Phương pháp FP-Growth Các phương pháp khác Đánh giá luật kết hợp Các ứng dụng thực tiễn Nội dung Khái niệm định nghĩa • • Tập mục, giao dịch, CSDL giao dịch Tập phổ biến (TPB) luật kết hợp (LKH) Các phương pháp khai phá TPB LKH • • • Phương pháp Apriori Phương pháp FP-Growth Các phương pháp khác Đánh giá luật kết hợp Các ứng dụng thực tiễn 10 79 80 81 82 Các ứng dụng thực tiễn Phân lớp, phân loại (classification/decision rules) Phân tích liệu bán lẻ (market basket analysis) Tư vấn trực tuyến (online recommendation) Hiểu người dùng trực tuyến (user understanding) Phân tích tìm ngoại lệ (outlier detection) Ứng dụng tốn viễn thơng (vd: churn prediction) Phân tích liệu di truyền Phân tích cấu trúc mạng 83 Các ứng dụng thực tiễn Phân lớp, phân loại (classification/decision rules) Phân tích liệu bán lẻ (market basket analysis) Tư vấn trực tuyến (online recommendation) Hiểu người dùng trực tuyến (user understanding) Phân tích tìm ngoại lệ (outlier detection) Ứng dụng tốn viễn thơng (vd: churn prediction) Phân tích liệu di truyền Phân tích cấu trúc mạng 84 Churn prediction 85 Các tốn phân tích v/đ “rời dịch vụ” 86 Dữ liệu viễn thông Thông tin khách hàng (customer data) Thông tin tĩnh Thông tin động Thông tin thuê bao (contract/plan data) Thông tin sử dụng dịch vụ (call/service detail data) Hành vi sử dụng Thay đổi sử dụng dịch vụ Ngừng phát sinh cước Lịch sử yêu cầu chăm sóc khách hàng (customer care history data) v.v 87 Highly imbalanced data 88 Nhận biết vấn đề giải pháp Dữ liệu lớn Quan tâm đặc biệt đến “True positive” Khó khăn lấy mẫu (sampling) Khó khăn xây dựng mơ hình học (thống kê) cho liệu cân (nghiêm trọng) Có thể rời rạc hố liệu? Khai phá luật tin cậy xấp xỉ 89 Từ tập mẫu (sau sampling) Luật “xấp xỉ” cho lớp dương (positive) Lọc với độ đo: Conviction Whitebox: dễ hiểu, dễ đánh giá, điều chỉnh Các ứng dụng thực tiễn Phân lớp, phân loại (classification/decision rules) Phân tích liệu bán lẻ (market basket analysis) Tư vấn trực tuyến (online recommendation) Hiểu người dùng trực tuyến (user understanding) Phân tích tìm ngoại lệ (outlier detection) Ứng dụng tốn viễn thơng (vd: churn prediction) Phân tích liệu di truyền Phân tích cấu trúc mạng 90 Ứng dụng khai phá liệu viễn thông Dữ liệu Customer data Call detail data Log and content data Network data Các toán khai phá liệu 91 Spam filtering Churn prediction Fraud detection (subscription vs superimposition) Customer profiling and segmentation (for marketing) Network fault isolation and prediction Service/content recommendation Tổng kết giảng Khái niệm định nghĩa • • Tập mục, giao dịch, CSDL giao dịch Tập phổ biến (TPB) luật kết hợp (LKH) Các phương pháp khai phá TPB LKH • • • Phương pháp Apriori Phương pháp FP-Growth Các phương pháp khác Đánh giá luật kết hợp Các ứng dụng thực tiễn 92 93