Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
370 KB
Nội dung
Các thuật toán khai phá liệu ứng dụng Giáo viên hướng dẫn : PGS.TSKH Nguyễn Xuân Huy Sinh viên thực hiện: Lê Thị Mai Phạm Thị Hoàng Linh Khai phá liệu Hoàng Linh - Lê Mai Nội dung Quá trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quá trình khai phá luật kết hợp Thuật toán Apriori Khai phá liệu Hồng Linh - Lê Mai Q trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quy trình khai phá luật kết hợp Thuật tốn Apriori Khai phá liệu Hoàng Linh - Lê Mai Quá trình phát tri thức Hình thành định định nghĩa toán Thu thập tiền xử lý liệu Khai phá liệu, rút kết luận Phân tích kiểm định kết Sử dụng tri thức phát Khai phá liệu Hoàng Linh - Lê Mai Quá trình phát tri thức Hình thành, xác định định nghĩa toán Thu thập tiền xử lý liệu Khai phá liệu, rút tri thức Sử dụng tri thức phát Khai phá liệu Hoàng Linh - Lê Mai Quá trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quy trình khai phá luật kết hợp Thuật tốn Apriori Khai phá liệu Hồng Linh - Lê Mai Khái niệm khai phá liệu Phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Khai phá liệu Hoàng Linh - Lê Mai Phương pháp khai phá liệu Phương pháp suy diễn Phương pháp quy nạp Phương pháp phát luật kết hợp Các phương pháp dựa mẫu Khai phá liệu Hoàng Linh - Lê Mai Quá trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quy trình khai phá luật kết hợp Thuật tốn Apriori Khai phá liệu Hồng Linh - Lê Mai Khái niệm luật kết hợp Cho I = { I1,I2,…Im} Một giao dịch T (T I) Gọi D sở liệu bao gồm n giao dịch T D hỗ trợ (support) cho tập X I chứa tất khoản mục X, nghĩa X T Ký hiệu T(X) để tập giao dịch hỗ trợ cho X Khai phá liệu Hoàng Linh - Lê Mai 10 Định nghĩa luật kết hợp Luật kết hợp có dạng X Y, X, Y I tập mục gọi itemsets, X gọi tiền đề, Y mệnh đề kết Độ hỗ trợ luật XY có cơng thức : Support(X) = Khai phá liệu Số lượng giao dịch hỗ trợ (X) Tổng số giao dịch D Hoàng Linh - Lê Mai 15 Định nghĩa luật kết hợp Độ tin cậy (Confidence) luật XY có cơng thức: Support(XY) = Số lượng giao dịch hỗ trợ (XY) Số lượng giao dịch hỗ trợ X Các ngưỡng Minsup mincof độ hỗ trợ độ tin cậy người dùng xác định Khai phá liệu Hồng Linh - Lê Mai 16 Ví dụ luật kết hợp: Cho bảng sở liệu D sau : Mã số giao dịch Các mặt hàng 10 20 30 40 A,B,C A,C A,D B,E,F Khai phá liệu Khoản mục phổ biến Độ hỗ trợ {A} 75% {B} {C} {A, C} 50% 50% 50% Hoàng Linh - Lê Mai 17 Ví dụ luật kết hợp Luật kết hợp: A C Support = support ({A} {C}) = 50% Cofidence = support({A}{C}) / support ({A}) = 66,6% Cho min_support = 50%, min_conf = 50% : A C (support = 50%, confidence = 66.6%) C A (support = 50%, confidence = 100%) Khai phá liệu Hồng Linh - Lê Mai 18 Q trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quy trình khai phá luật kết hợp Thuật tốn Apriori Khai phá liệu Hoàng Linh - Lê Mai 19 Quy trình khai phá luật kết hợp Khai phá luật kết hợp trải qua giai đoạn sau: Khai phá tập khoản mục thường xuyên Khai phá luật kết hợp Khai phá liệu Hoàng Linh - Lê Mai 20 Quá trình phát tri thức Khái niệm,phương pháp khai phá liệu Khái niệm luật kết hợp Quy trình khai phá luật kết hợp Thuật toán Apriori Khai phá liệu Hồng Linh - Lê Mai 21 Thuật tốn Apriori Ý tưởng thuật toán Apriori Triển khai thuật toán Apriori Cài đặt thuật toán Apriori Giới hạn Apriori Ví dụ minh hoạ thuật tốn Apriori Khai phá liệu Hồng Linh - Lê Mai 22 Ý tưởng thuật toán Apriori Tạo tập phổ biến (thường xuyên) có item, tiếp đến items, items tạo tập phổ biến kích thước Mỗi tập item tạo phải tính tốn độ hỗ trợ độ tin cậy Tập k item tạo từ tập k-1 items Tạo danh sách item dự kiến tập k items cách hợp đơi tập k-1 items có danh sách Khai phá liệu Hoàng Linh - Lê Mai 23 Triển khai thuật toán Apriori Qua bước: Tạo tập item phổ biến: tạo tất tập item dự kiến, tính tốn độ hỗ trợ, loại bỏ tập dự kiến không đạt minsup Tạo luật kết hợp: Từ tập tập phổ biến xây dựng luật kết hợp tính độ tin cậy luật Khai phá liệu Hoàng Linh - Lê Mai 24 Cài đặt thuật toán Apriori Đầu tiên tính tốn kiểm tra tập item có phổ biến không Lần duyệt thứ k: Sử dụng tập Lk-1 tập k-1 item phổ biến tìm thấy lần duyệt thứ k-1 để tạo tập dự kiến Ck Tiếp theo duyệt CSDL tính support cho Ck Tập hợp tập k item Lk: tập hợp tập k_item phổ biến Khai phá liệu Hoàng Linh - Lê Mai 25 Giới hạn Apriori Chi phí đắt, sử dụng nhớ lớn thời gian chậm Không tốt mẫu lớn Tốn nhớ để duyệt, quét CSDL nhiều lần Khai phá liệu Hoàng Linh - Lê Mai 26 Ví dụ minh hoạ thuật tốn Apriori Cho CSDL, tìm tập thường xun có độ hỗ trợ tối thiểu : 60% D (CSDL) TID Các mục T100 {K, A, D, B} T200 {D, A, C, E, B} T300 {C, A, B, E} T400 {B, A, D} Khai phá liệu L1 C1 1-itemset Quét D 1-temset support Support {A} 100% {B} 100% {C} 50% {D} 75% {E} 50% {K} 25% Hoàng Linh - Lê Mai Xoá Sup