Data Mining TS Đặng Thị Thu Hiền TS Nguyễn Huy Đức https //sites google com/site/tlucse404/ 1 TS Đặng Thị Thu Hiền TS Nguyễn Huy Đức In fo rm at io n/ D at a M in in g Knowled ge 2 Mục tiêu của môn họ[.]
Data Mining TS Đặng Thị Thu Hiền - TS Nguy n Huy Đ c https://sites.google.com/site/tlucse404/ Data Mining Information/ Knowledge TS Đặng Thị Thu Hiền - TS Nguyễn Huy Đức Mục tiêu môn học Giới thiệu cho người học tổng quan trình khám phá tri thức, khai phá liệu, trình tiền xử lý liệu Giới thiệu cho người học giá trị lợi ích mà khai phá liệu đóng góp lĩnh vực ứng dụng khác Trình bày giải thuật kỹ thuật giai đoạn tiền xử lý liệu Trình bày giải thuật kỹ thuật khai phá liệu gồm: hồi qui liệu, phân loại/lớp liệu, gom/phân cụm liệu, phân tích kết hợp – tương quan (luật kết hợp) Tạo khả cho người học ứng dụng kỹ thuật KPDL cho ứng dụng loại liệu khác Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, SpringerVerlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Frank Eibe, Mark A Hall, “Data mining : practical machine learning tools and techniques”, Third Edition, Elsevier Inc, 2011 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 [10] Võ Thị Ngọc Châu, Bài giảng khai phá liệu, Trường ĐH Bách Khoa TPHCM, 2016 [11] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy Giáo trình Khai phá liệu.4 NXB ĐHQGHN, 2013 [1] Jiawei Han, Micheline Kamber, Jian Pei, "Data Mining: Concepts and Techniques", Third Edition, Morgan Kaufmann Publishers, 2012 DATA MINING Concepts and Techniques M< Jiawei Han I Micheline Kamber I Jian Pei [2] David Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", MIT Press, 2001 Adaptive Computation and Machine l uminn Thoma* Điettenđi Fdltor Christopher Bishop David Hcckerman Michael Ionian, and Michael Keanu Aawtciatr Editors Btomfarmaric* TV M*-fanr izamotjt Appnvk* Pierre Baldi and Swen Brunak Rnnfanrwvmf Ldtntmg: Air ỉnrradactKot, Richard & Sutton and Andre* G Barto GrapfacW MidWs far Macfaw Lftmtifg Brendan I Frey law tuny nt Grqptaarf MMtb Kbchaci I Iordan Canreriiat Predict»»! and Sean* second edtoon Prtrr spirte* Clark Principles of Data Mining ihtnour and Richard Scheme» Pnitctplrs if DMa Mining David J Hand Heikki Mannda, and Padhnuc Smyth David Hand Heikki Mannila I’adhrak Smyth A Bradford Book The MIT Pre-* Cambndge, Mawachusctt» London England "Like all discovery processes, successful data mining has an element of serendipity." (p 24) I [7] Ian H.Witten, Frank Elbe, Mark A Hall, "Data Mining : Practical Machine Learning Tools and Techniques", Third Edition, Elsevier Inc, 2011 Ian H Witten • Elbe Frank • Mark A Hall DATA MINING Practical Machine Learning Tools and Techniques Robert Nisbet, John Elder, Gary Miner, "Handbook of Statistical Analysis and Data Mining Applications", Elsevier's Science & Technology, 2009 ROBERT NISBET JOHN ELDER kt HANDBOOK OF GARY MINER I Statist! ca I An lysis Ờ Data Mining Applications /IP Thuật giải 1: Simple algorithm Cải tiến thủ tục xử lý cách sinh tập mục lớn theo kiểu đệ qui ưu tiên độ sâu VD: với tập mục ABCD, xét tập ABC, sau đến AB, Nếu tập a khơng sinh luật khơng cần xét đến tập a (nếu luật không thoả mãn với tập cha a khơng thoả mãn với tập nó) Chẳng hạn: luật ABC→ D khơng đủ độ tin cậy ta khơng cần xét đến luật AB→ CD TS Đặng Thị Thu Hiền 58 Thuật giải 1: Simple algorithm… Điều CM sau: Nếu luật a →(l-a) không thoả mãn độ tin cậy, tức là: conf(a→(l-a)) nhỏ minconf, với tập b a ta có: Vì b ⊂ a nên supp(b)≥supp(a), vậy: sup(l ) sup(l ) conf (b → (l − b)) = ≤ = conf (a → (l − a)) < conf sup(b) sup(a) Tức độ tin cậy luật b→(l-b) nhỏ minconf TS Đặng Thị Thu Hiền 59 Thuật giải 1: Simple algorithm Thuật giải simple có thê mô tả sau: V frequent k itemsets Ik, k >= call GenRules(lk, Ik) Thù tục GenRules Mục đích: phát sinh tất luật hợp lẹ dạng a~ => (Ik - a~), với a~ c am Procedure GenRules (Ik: frequent k—itemset, am: frequent m_itemset ) 1) 2) 3) 4) 5) 6) 7) 8) 9) A = {(m-l) itemsets am-1 I am-1 c am} Forall am-1 GA begin conf = suppport(lk) / support(am-1) if(conf > minconf) then begin output am-1 —> (Ik - am-1) //với confidence = conf support = sup(lk) if(m-l>l)then call GenRules(lk, am-1) end end TS Đặng Thị Thu Hiền 60 Thuật giải 2: Fast algorithm Thuật giải cải tiến thuật giải Nếu xảy luật với tập xảy luật với tập cha VD: luật AB→CD có đủ độ tin cậy luật ABC→D đủ độ tin cậy 1) 2) 3) 4) forall frequent k_itemset Lk, k ≥ H1 = {Tập vế phải luật có item vế phải} Call Ap_GenRule(Lk, H1) end TS Đặng Thị Thu Hiền 61 Thuật giải 2: Fast algorithm Procedure Ap_GenRule (Lk: Frequent k_itemset, Hm: tập vế phải luật có m item vế phải) if (m+1 < k) then Hm+1 = Apriori_Gen(Hm) với hm+1 G Hm+1 conf = support(Lk) / support(Lk - hm+1) if (conf >= minconf) Xuất luật (Lk - hm+1) —> ( hm+1) với support support(Lk), confidence Conf else xóa hm+1 klìỏi Hm+1 endif gọi hàm GenRule(Lk; Hl) endif TS Đặng Thị Thu Hiền 62 Thuật giải 3: Tìm luật đơn giản Nếu luật chứa tập a vế phải thỏa ngưỡng minconf luật chứa a~ vế phải thỏa ngưỡng minconf với a~ ⊂ a FNX: phải tìm tất luật kết hợp có cần tìm luật có item vế phải đủ Tất luật kết hợp có item vế phải suy từ luật có item vế phải TS Đặng Thị Thu Hiền 63 Thuật giải 3: Tìm luật đơn giản… Ký hiệu s tập luật gồm tất luật kết hợp có item vế phải thỏa ngưỡng minsup minconf cho trước Thuật giải tìm tập luật đơn giản S Tìm tất tập frequent itemset thỏa minsup Đối với frequent itemset X: li1, li2, …lik kiểm tra tất luật có vế phải có thuộc tính r: X – lij → lij, j = …k Nếu thỏa minconf cho luật r TS Đặng Thị Thu Hiền 64 Thuật giải 3: Tìm luật đơn giản… FTập luật s chứa đựng tất thông tin tập luật AR, có kích thước bé tập AR Nên tìm tập luật đơn giản s (thay AR) vì: Số lượng luật cần lưu lại giảm đáng kể, thường giảm từ 10% - 50% Giảm đáng kể thời gian tài nguyên tiêu tốn lúc tìm luật tìm luật đơn giản Mọi luật kết hợp suy dẫn từ tập luật đơn giản FChỉ tập trung vào luật ta quan tâm khơng phải chìm ngập tập tất luật kết hợp TS Đặng Thị Thu Hiền 65 Loại luật thừa, tìm tập luật quan tâm Phương pháp dùng quy luật loại bỏ luật thừa Phương pháp lọc dùng mẫu đơn giản TS Đặng Thị Thu Hiền 66 Dùng quy luật loại bỏ luật thừa Có ba tập luật cần quan tâm Tập luật kết hợp AR = {X => Y|, sup(X => Y) ≥ minsup conf(X => Y) ≥ minconf} Đây tất luật có áp dụng thuật giải tìm luật kết hợp TS Đặng Thị Thu Hiền 67 Dùng quy luật loại bỏ luật thừa… Tập luật đặc trưng RR = { (X=>Y) ∈ AR| ¬∃ (X’ => Y’) ∈ AR, (X = X’) ∧ (X ∪ Y ⊂ X’ ∪ Y’) ∨ (X X’ ⊃ X ∧ Y = X’ ∪ Y’)} Với luật X => Y (được sinh từ itemset X ∪ Y) có tập AR, tập luật RR gồm luật tập AR loại bỏ loại luật sau: Luật sinh itemset (X’ ∪ Y’) chứa itemset (X ∪ Y) có vế trái với luật X => Y Luật sinh từ (X’ ∪ Y’) = (X ∪ Y) luật có vế trái TS Đặng Thị Thu Hiền 68 X Dùng quy luật loại bỏ luật thừa… Tập luật gồm luật vế trái nhỏ nhất, vế phải lớn MMR = {r: (X => Y) ∈ AR | ¬∃ r’: (X’ => Y’) ∈ AR, r’ ≠ r X’ ⊆ X Y’ ⊇ Y } Với luật luật X => Y∈AR, tập MMR gồm luật tập AR loại bỏ luật có tính chất sau: Luật có vế trái X có vế phải chứa Y TS Đặng Thị Thu Hiền 69 Dùng quy luật loại bỏ luật thừa… Đối với ba tập luật trên, ta CM mối quan hệ sau: MMR ⊆ RR ⊆ AR Thuật giải tìm tập luật MMR MMR = AR While ( ∃ r’: (X’ => Y’) ∈ AR, r’ ≠ r X’ ⊆ X Y’ ⊇ Y) MMR = MMR – rhhhh TS Đặng Thị Thu Hiền 70 Phương pháp lọc dùng mẫu đơn giản Lớp luật IR (hoặc luật vơ ích) mơ tả mẫu (template) Mẫu tổng quát hóa lớp luật kết hợp Một mẫu có dạng sau: A1,… Ak => Ak+1 Ai tên thuộc tính tên lớp biểu thứ có dạng C+ C* với C tên lớp C+ C* tương ứng “một nhiều” “0 nhiều” thể lớp C Luật: B1,… Bh => Bh+1 thỏa mẫu luật xem thể mẫu TS Đặng Thị Thu Hiền 71 Phương pháp lọc dùng mẫu đơn giản… Phương pháp dùng cách biểu diễn luật phân loại mà người dùng định nghĩa dựa thuộc tính liệu dùng để khai thác luật Trong phương pháp này, người dùng tự nhập vào tiêu chuẩn luật cần tìm thơng qua mẫu thể luật mà họ quan tâm TS Đặng Thị Thu Hiền 72