Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
566,5 KB
Nội dung
1 1 Sinh viên thực hiện: Nguyễn Khắc Giáo Lớp: ĐH KHMT1 – K1 Giáo viên hướng dẫn: PGS.TS Vũ Đức Thi Tháng 6/2010 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN TÌM HIỂU VỀ LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 2 2 Nhiệm vụ của đề tài • Nghiên cứu vào một hướng phát triển còn mới, đầy triển vọng : “Khai phá dữ liệu”. • Đi sâu vào phương pháp khai phá dữ liệu luật kết hợp (rút quy luật, tri thức từ trong kho dữ liệu) • Cài đặt thành công thuật toán Apriori – thuật toán cơ bản của phương pháp khai phá dữ liệu luật kết hợp 3 3 Chương 1: Tổng quan về khai phá dữ liệu Định nghĩa khai phá dữ liệu: dùng để mô tả quá trình phát hiện tri thức trong cơ sở dữ liệu. Ứng dụng của khai phá dữ liệu: khai phá dữ liệu có nhiều ứng dụng trong thực tế như: bảo hiểm, tài chính cổ phiếu; thống kê, phân tích dữ liệu, hỗ trợ ra quyết định; y tế; sản xuất chế biến; thiên văn; viễn thông Ưu điểm của khai phá dữ liệu so với các phương pháp khác: các phương pháp như khác (Học máy, Hệ chuyên gia, thống kê, … ) đều gặp phải khó khăn khi CSDL vô cùng lớn. Bài toán trên CSDL lớn khai phá dữ liệu giải quyết tốt hơn nhiều. 4 4 Quy trình phát hiện tri thức Bước 1: Hình thành, xác định, định nghĩa bài toán Bước 2: Thu thập, tiền xử lý dữ liệu Bước 3: Khai phá dữ liệu, rút ra tri thức Bước 4: Phân tích và kiểm định kết quả. Hình : Quy trình phát hiện tri thức Bước 5: Sử dụng tri thức phát hiện được 5 5 Các phương pháp khai phá dữ liệu • Phương pháp suy diễn/quy nạp • Phương pháp ứng dụng K – láng giềng • Phương pháp sử dụng cây quyết định và luật • Phương pháp phát hiện luật kết hợp • Và một số phương pháp khác Trong đó phương pháp phát hiện luật kết hợp là một trong những phương pháp quan trọng. 6 6 Chương 2: Luật kết hợp trong khai phá dữ liệu Định nghĩa 2.1. Ký hiệu I = {I1, I2, …, Im} là tập m khoản mục (item), một giao dịch (transaction) T được định nghĩa như một con (subset) của các koản mục trong I (T⊆I) Định nghĩa 2.2. Cho tập mục X ⊆ I. Ta gọi độ hỗ trợ (Support) của X trong CSDL giao tác D, ký hiệu sup(X), là tỷ lệ phần trăm các giao tác chứa X trên tổng các giao tác trong D. Công thức: 7 7 Chương 2: Luật kết hợp trong khai phá dữ liệu Định nghĩa 2.3. Cho tập mục X ⊆I và ngưỡng hỗ trợ tối thiểu minsup (minimum support – được xác định trước bởi người sử dụng). X được gọi là tập mục phổ biến (tập mục thường xuyên) với độ hỗ trợ tối thiểu minsup nếu sup(X)≥minsup. Ngược lại X gọi là tập mục không thường xuyên. Định nghĩa 2.4. Một luật kết hợp có dạng R: X=>Y, trong X, Y là tập các mục, X, Y ⊂ I và X∩Y=Ø. X được gọi là tiên đề và Y được gọi là hệ quả của luật. Luật kết hợp có hai thông số quan trọng là độ hỗ trợ và độ tin cậy 8 8 Chương 2: Luật kết hợp trong khai phá dữ liệu Định nghĩa 2.5. Độ tin cậy (confidence) của một luật X => Y được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Ký hiệu conf(X => Y ) Công thức: Độ hỗ trợ (Support) của một luật X => Y được tính bằng độ hỗ trợ cho tập X= X ∪Y Sup(X=> Y) = sup(X ∪Y) 9 9 Một số tính chất của tập mục phổ biến Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con (subset): Cho A,B là các tập mục, nếu A⊆B thì sup(A)≥sup(B). Tính chất 2: Mọi tập cha của tập mục không phổ biến đều là tập không phổ biến. Tính chất 3: Mọi tập con của tập mục phổ biến đều là tập mục phổ biến. 10 10 Chương 3: Một số thuật toán phát hiện luật kết hợp 1. Thuật toán AIS 2. Thuật toán SETM 3. Thuật toán APRIORI 4. Thuật toán CHARM 5. Thuật toán phân hoạch 6. Thuật toán FP-growth 7. Trong đó thuật toán Apriori là một thuật toán cơ bản quan trọng để phát triển nhiều thuật toán khai phá dữ liệu sau này. [...]... một ng ng giá trị nào đó Ý tư ng của thuật toán như sau: Sinh ra các tập mục ng viên từ các tập mục thư ng xuyên ở bước trước, sử d ng kỹ thuật tỉa để bỏ bớt đi tập mục ng viên kh ng thỏa mãn ng ng hỗ trợ tối thiểu cho trước Cơ sở của kỹ thuật này là tính chất Apriori: Bất kỳ tập con nào của tập mục thư ng xuyên c ng là tập mục thư ng xuyên 11 Thuật toán Apriori Gọi: * Lk: là các k-tập mục thư ng. .. tập mục ng viên trong Ck, loại bỏ tập ng viên kh ng thư ng xuyên 12 Ví dụ cho thuật toán Apriori Cho CSDL dưới đây, minsup =50%, minconf = 60%.Tìm luật kết hợp TID Tập các mục trong giao dịch 1 Bánh mì, Bơ, Tr ng 2 Bơ, Sữa, Tr ng 3 Bơ 4 Bánh mì, Bơ 13 Ví dụ cho thuật toán Apriori (tiếp) C1 L1 1-tập mục Độ hỗ trợ 1-tập mục Độ hỗ trợ Bánh mì 50% Bánh mì 50% Bơ 100% Bơ 100% Sữa 25% Tr ng 50% Tr ng 50%... xuyên * Ck: là các k-tập mục ng viên Thuật toán duyệt CSDL nhiều lần Mỗi lần duyệt, thuật toán thực hiện hai bước: bước kết nối và bước tỉa Trong lần lặp k, thuật toán thực hiện: Bước kết nối (tìm Ck): tập các k-tập mục ng viên Ck được sinh ra bởi việc kết nối Lk-1 với chính nó Hai tập mục l1 và l2 của Lk-1 được kết nối nếu ch ng có (k-2) mục dữ liệu đầu b ng nhau và mục dữ liệu thứ (k-1) của l1 nhỏ... mục Bánh mì, Bơ 0% Bơ, Tr ng 50% Bánh mì, Bơ 50% Bơ, Tr ng 50% 50% Bánh mì, Tr ng Độ hỗ trợ Loại bỏ 2tập mục có sup . trong kho dữ liệu) • Cài đặt thành c ng thuật toán Apriori – thuật toán cơ bản của phư ng pháp khai phá dữ liệu luật kết hợp 3 3 Chư ng 1: T ng quan về khai phá dữ liệu Định nghĩa khai phá dữ liệu: . thức phát hiện được 5 5 Các phư ng pháp khai phá dữ liệu • Phư ng pháp suy diễn/quy nạp • Phư ng pháp ng d ng K – l ng gi ng • Phư ng pháp sử d ng cây quyết định và luật • Phư ng pháp phát. liệu: d ng để mô tả quá trình phát hiện tri thức trong cơ sở dữ liệu. ng d ng của khai phá dữ liệu: khai phá dữ liệu có nhiều ng d ng trong thực tế như: bảo hiểm, tài chính cổ phiếu; th ng kê,