Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
2,11 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHAI PHÁ LUẬT KẾT HỢP DỰA TRÊN CÁC RÀNG BUỘC TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn: TS Hoàng Thị Lan Giao NỘI DUNG: Khai phá luật kết hợp Khai phá luật kết hợp luận lý chiều từ tập giao tác Khai phá luật kết hợp đa mức từ tập giao tác Khai phá luật kết hợp đa chiều từ CSDL quan hệ kho liệu Từ khai phá kết hợp để phân tích tương quan Khai phá kết hợp luật kết hợp dựa ràng buộc Phân công thực hiện: Trần Thị Thành Lê Bá Minh Phong Nguyễn Thị Thanh Tâm Nguyễn Vũ Cát Tường Trần Thị Mỹ Ngân Trần Như Đăng Tuyên Phần Phần Phần Phần Phần Phần 2.1 Khai phá luật kết hợp 2.1.1 Phân tích giỏ mua hàng: 2.1 Khai phá luật kết hợp 2.1.1 Phân tích giỏ mua hàng: Ví dụ: Các thơng tin mà khách hàng mua máy tính có xu hướng mua phần mềm quản lý thể luật kết hợp đây: computer financial_management_software [support=2%; confidence = 60%] (1) Độ hỗ trợ (support)2% cho luật kết hợp (1) Độ tin cậy(confidence) 60% Thông thường, nguyên tắc liên kết coi thú vị chúng đáp ứng độ hỗ trợ độ tin cậy ngưỡng tối thiểu Ngưỡng thiết lập người sử dụng chuyên gia 2.1 Khai phá luật kết hợp 2.1.2 Một số khái niệm Phần tử: I4 Tập phần tử: {I1, I2, I5}, {I2}, … Bộ chuyển dich: T800 2.1 Khai phá luật kết hợp 2.1.2 Một số khái niệm Giả sử I = {i1, i2,…, im} tập mặt hàng Cho D liệu cơng việc có liên quan, tập hợp giao dịch giao dịch T tập mục với T I Mỗi giao dịch có liên quan đến định danh, gọi TID Cho A nhóm mặt hàng Một T giao dịch gọi chứa A A T Một luật kết hợp hình thức AB, với A I, B I Một luật mà đáp ứng độ hỗ trợ tối thiểu (min_sup) độ tin cậy tối thiểu (min_conf) gọi mạnh Chúng ta qui định min_sup min_conf xảy 0% 100% 2.1 Khai phá luật kết hợp 2.1.2 Một số khái niệm Một tập mục gọi tập mục Một tập mục có chứa k mặt hàng gọi k-tập mục Tần suất xuất tập mục số giao dịch có chứa tập mục Một tập mục thỏa mãn độ hỗ trợ tối thiểu tần số xuất tập mục lớn min_sup tổng số giao dịch D Số lượng giao dịch cần thiết cho tập mục để đáp ứng độ hỗ trợ tối thiểu gọi tính hỗ trợ tối thiểu 2.1 Khai phá luật kết hợp 2.1.2 Một số khái niệm Nếu tập mục thỏa mãn độ hỗ trợ tối thiểu tập mục phổ biến K-tập mục phổ biến ký hiệu Lk Khai phá luật kết hợp tập liệu lớn, qua bước: Tìm tất tập mục phổ biến Tạo luật kết hợp mạnh cho tập mục phổ biến Những quy tắc phải đáp ứng độ hỗ trợ tối thiểu độ tin cậy tối thiểu 2.1 Khai phá luật kết hợp 2.1.3 Khai phá luật kết hợp Trong thực tế, có nhiều loại luật kết hợp Các luật kết hợp phân loại dựa tiêu chí sau đây: Căn vào loại giá trị xử lý luật : Nếu luật quan tâm kết hợp diện hay vắng mặt mặt hàng, luật kết hợp Boolean Ví dụ: Luật (1) luật kết hợp Boolean thu từ phân tích thị trường giỏ hàng 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Sử dụng min_supp min_conf : Giúp lọc bỏ loại trừ luật khơng phổ biến Có luật sinh không làm người sử dụng quan tâm Dựa số liệu thống kê “đằng sau "các liệu để loại bỏ quy tắc khơng thích hợp 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Ví dụ: Phân tích việc mua trị chơi máy tính video quầy Giả sử min_supp = 30% , min_conf = 60% Luật mạnh: buys(X; ”computer games") => buys(X;”videos"); [support = 40%; confidence = 66%] 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Trong thực tế, luật khơng thích hợp Độ tin cậy luật A=>B Là ước tính xác suất có điều kiện itemset B cho itemset A Không đo sức mạnh thực hàm ý A B Sử dụng độ hỗ trợ - độ tin cậy xác định luật A=>B thích hợp hay khơng Xét tương quan tập mục phổ biến sở liệu quan hệ 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Sự xuất itemset độc lập với xuất itemset B P (A B) = P (A) P (B) Ta có cơng thức tính độ đo p(tương A B) quan, kí hiệu corr hay lift corrA, B p ( A) p( B ) Corr(A, B) < 1: A tương quan nghịch với B Corr(A, B) > 1: A tương quan thuận với B Corr(A, B) = 1: A B độc lập nhau, khơng có tương quan 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Trở lại ví dụ ta có: Để tìm sai lệch luật mạnh A => B, ta cần phân tích tương quan itemset A itemset B Như Corr ({game}=>{video}) = 0.89 < {game} {video} tương quan nghịch 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Vậy làm để đo độ tương quan đủ tốt? Tính tốn giá trị tương quan thực sự, khơng thể khẳng định có phải giá trị thống kê quan trọng ==> tiêu chuẩn 2 độc lập Cho R là: {i1 , i1} {ik , ik } r r1 rk R R: tập hợp tất giá trị giỏ hàng có thể, r giá trị giỏ hàng Cho O (r) biểu thị số lượng giỏ có r 2: kiểm tra độc lập A B dựa giá trị mong đợi giá trị quan sát 2.5 TỪ KHAI PHÁ SỰ KẾT HỢP ĐỂ PHÂN TÍCH SỰ TƯƠNG QUAN Công thức: (O(r ) E[r ]) x E[ r ] Nếu 2 =0 tất biến thật độc lập Nếu 2 lớn so với giá trị chiếu mức ý nghĩa, tất biến tương quan , ngược lại tất biến độc lập Ví dụ: Nếu chiếu 95% với mức ý nghĩa = 3,84 0,900