Bài giảng cung cấp cho người học các kiến thức: Khai phá luật kết hợp. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 3: KHAI PHÁ LUẬT KẾT HỢP Giảng viên: ThS Nguyễn Vương Thịnh Bộ mơn: Hải Phịng, 2013 Hệ thống thông tin Thông tin giảng viên Họ tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv Thông tin học phần Tên học phần Khai phá liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín 03 tín Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin PHƯƠNG PHÁP HỌC TẬP, NGHIÊN CỨU Nghe giảng, thảo luận, trao đổi với giảng viên lớp Tự nghiên cứu tài liệu làm tập nhà PHƯƠNG PHÁP ĐÁNH GIÁ SV phải tham dự 75% thời gian Có 02 kiểm tra viết học phần (X = X = (L1 + L2)/2) Thi kết thúc học phần hình thức trắc nghiệm khách quan máy tính (Z = 0.5X + 0.5Y) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Ian H Witten, Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques (the second edition), Elsevier Inc, 2005 (sử dụng kèm với công cụ Weka) Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 th Edition), Pearson Education Inc, 2004 Công cụ phần mềm hỗ trợ Phần mềm Weka phát triển nhóm nghiên cứu trường Đại học Waikato (New Zealand) từ năm 1999 Có thể download địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/downloading.html CHƯƠNG 3: KHAI PHÁ LUẬT KẾT HỢP 3.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 3.2 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT APRIORI 3.3 SINH LUẬT KẾT HỢP TỪ CÁC TẬP PHỔ BIẾN 3.4 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT FP - GROWTH 3.5 MỘT SỐ DẠNG THỨC CỦA CSDL GIAO DỊCH 3.6 KHAI PHÁ LUẬT KẾT HỢP VỚI PHẦN MỀM WEKA 3.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 3.1.1 Khái niệm mục (item) tập mục (item set) Cho tập gồm n đối tượng I = {I 1, I2, I3,…, In}, phần tử Ii ∈ I gọi mục (item) Một tập X ⊆ I gọi tập mục (item set) Cho tập D = {T1, T2,…, Tm}, phần tử Tj ∈ D gọi giao dịch (transaction) tập I (Tj ⊆ I) Người ta gọi D sở liệu giao dịch (transaction database) Số giao dịch có D ký hiệu |D| Ví dụ: I = {A, B, C, D, E, F}, X = {A, D, E} tập mục Một sở liệu giao dịch D gồm tập T khác I: j T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, E, F} T5 {A, B, C, E, F} Milk, Bread, Coke 10:05 Beer, Bread Beer, Milk, Diaper, Coke 10:12 10:15 Beer, Milk, Diaper, Bread Milk, Diaper, Coke 10:23 10:30 3.1.2 Độ hỗ trợ (support) ứng với tập mục “Độ hỗ trợ ứng với tập mục X xác suất xuất X sở liệu giao dịch D” Hoặc “Đỗ hỗ trợ ứng với tập mục X tỷ lệ giao dịch có chứa X tổng số giao dịch có sở liệu giao dịch D” C( X ) sup( X ) = |D| Trong đó: C(X) số lần xuất X hay số giao dịch có chứa X Ví dụ: X = {A, E} C(X) = sup(X) = 4/5 = 80% T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, E, F} T5 {A, B, C, E, F} Các tập mục có độ hỗ trợ lớn giá trị ngưỡng minsup cho trước gọi tập phổ biến (frequent item set) 10 Xét mục I1: Cơ sở mẫu có điều kiện gồm: I2:4 NULL I2:4 Tập phổ biến gồm: I2 I1:4 56 57 3.5 MỘT SỐ DẠNG THỨC CỦA CƠ SỞ DỮ LIỆU GIAO DỊCH 3.5.1 BIỂU DIỄN DƯỚI DẠNG MA TRẬN GIÁ TRỊ NHỊ PHÂN Tập mục I = {A1, A2, , An} CSDL giao dịch D = {T1, T2, , Tm} Dòng thứ i tương ứng với giao dịch Ti Cột thứ j tương ứng với mục Aj Phần tử ai,j nhận giá trị (TRUE) hoặc (FALSE) tùy thuộc vào việc mục A j có xuất giao dịch Ti hay không? A1 A2 An T1 a1,1 a1,2 a1,n T2 a2,1 a2,2 a2,n T3 a3,1 a3,2 a3,n Tm-1 am-1,1 am-1,2 am-1,n Tm am,1 am,2 am,n 58 I = {A, B, C, D, E} D = {T1, T2, T3, T4, T5, T6} 59 A B C D E T1 1 T2 1 0 T3 0 T4 1 T5 1 T6 T1 {B, C, E} T2 {A, B, C} T3 {B, E} T4 {B, C, E} T5 {A, B, C, E} 1 T6 {B, C, D} 1 3.5.2 BIỂU DIỄN DƯỚI DẠNG MA TRẬN GIÁ TRỊ Dòng thứ i tương ứng với giao dịch Ti Cột thứ j tương ứng với thuộc tính Aj Phần tử ai,j nhận giá trị djk thuộc miền giá trị dom(Aj) thuộc tính Aj Cứ cặp ghép (Aj,djk) (có thể viết Aj = djk với hàm ý “thuộc tính Aj nhận giá trị djk”) xem mục (Item) Tất giao dịch có độ dài (chứa n mục) A1 A2 An T1 a1,1 a1,2 a1,n T2 a2,1 a2,2 a2,n T3 a3,1 a3,2 a3,n Tm-1 am-1,1 am-1,2 am-1,n Tm am,1 am,2 am,n 60 Các luật kết hợp lúc thường biểu diễn dạng: Cũng phát biểu dạng luật “Nếu Thì ” : Nếu: ) Thì: 61 ) A B C D E T1 T2 2 T3 3 T4 2 T5 1 T6 T1 {(A=1),(B=2),(C=1),(D=3),(E=2)} T2 {(A=1),(B=3),(C=2),(D=1),(E=2)} T3 {(A=1),(B=3),(C=2),(D=3),(E=1)} T4 {(A=2),(B=3),(C=2),(D=2),(E=2)} T5 {(A=3),(B=1),(C=1),(D=3),(E=1)} T6 {(A=2),(B=3),(C=2),(D=1),(E=2)} Luật {(A=1),(B=3)}→{(C=2)} có: sup = 2/6 = 33.3% conf = 2/2 = 100% Luật biểu diễn dạng: (A=1)^(B=3)→(C=2) Hoặc: 62 Nếu A = B = C = với xác suất 100% Luật {(outlook=sunny),(temperature=hot)}→{(play=no)} có: sup = 2/14 = 14.3% conf = 2/2 = 100% Luật biểu diễn dạng: (outlook=sunny)^(temperature=hot)→(play=no) Nếu outlook = sunny temparature = hot play = no với xác suất 100% 3.6 KHAI PHÁ LUẬT KẾT HỢP VỚI PHẦN MỀM WEKA Khởi động phần mềm Weka, chọn Explorer: 64 Chọn tập tin liệu sử dụng 65 Dữ liệu cần khai phá Lưu ý: Weka làm việc tốt với liệu biểu diễn dạng ma trận giá trị 66 Chọn thuật toán khai phá Chọn khai phá luật kết hợp (mặc định Apriori) Click để thiết lập thông số 67 Thiết lập thông số: Ngưỡng độ hỗ trợ tối thiểu (minsup) Ngưỡng độ tin cậy tối thiểu (minconf) Chọn loại độ đo (mặc định dùng độ tin cậy) Số luật tối đa hiển thị Ngưỡng độ hỗ trợ tối đa (maxsup) Có cho phép kèm tập phổ biển hay không 68 Kết khai phá: Các luật thỏa mãn 69 Q&A 70 ... luật mạnh (strong association rule) 12 3.1.4 Bài toán khai phá luật kết hợp Input: Cơ sở liệu giao dịch D Các giá trị ngưỡng minsup, minconf Output: Tất luật mạnh Để giải toán khai phá luật kết. .. http://www.cs.waikato.ac.nz/ml/weka/downloading.html CHƯƠNG 3: KHAI PHÁ LUẬT KẾT HỢP 3.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 3.2 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT APRIORI 3.3 SINH LUẬT KẾT HỢP TỪ CÁC TẬP PHỔ BIẾN 3.4 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT FP - GROWTH... SINH LUẬT KẾT HỢP TỪ CÁC TẬP PHỔ BIẾN Để sinh luật kết hợp: Với tập phổ biến X ∈ F, ta xác định tập mục không rỗng X Với tập mục S không rỗng X ta thu luật kết hợp S→(XS) Nếu độ tin cậy luật