Kho dữ liệu và khai thác dữ liệu

140 0 0
Kho dữ liệu và khai thác dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

K Biên TS Cao Tùng Anh www.hutech.edu.vn *1.2021.COS127* xin tailieuhoctap@hutech.edu.vn - : I .I IV 1.1 10 10 13 13 14 15 16 BÀI 2: 17 17 18 19 21 22 23 25 26 26 26 28 28 29 30 32 3.3.1 Data mart 32 33 34 35 35 II .37 39 42 48 49 49 52 54 57 58 58 .59 60 61 .62 64 64 .68 -GROWTH 68 68 -Growth 69 -tree 75 77 79 79 p 79 .80 .81 81 82 84 84 84 85 87 6.3 BAYES 101 101 104 109 111 111 III 111 112 113 114 -MEAN 119 -Mean 119 -mean 120 t toán K-Mean 124 -MEDOID 125 -medoid 125 7.3.2 -Medoids 126 130 132 IV : Giáo trình chuyên ngành cho thông tin, - P -Means K-medoid : sinh viên , : V Bài 4: : x phân tích Trình bày : n FP-GROW Bài 6: : Bayes Bài 7: : : - trình: 50% 30% - : 50 -Mean, -Medoid BÀI 1: BÀI 1: T - 1.1 KHAI THÁC D LI U 1.1.1 Khái ni m v Khai thác d li u khác thơng tin g chìm khai thác : BÀI 1: Trong - (Data mining - DM) thông tin - , kho - - Các thơng tin - các - khai 1.1.2 Nhu c u khai thác d li u m (Knowledge Discovery in Data -KDD) Tâ 118 BÀI 7: = max(|6-0|,|5-1|,|4-2|,|-2-3)|) = max(6,4,2,5) = Bây g cách Chebyshev - 40|, |70 54|) = max(|- 10 |, | 16|) = 16 K Chebyshev là: 80| , |70 50|) = max(50,20) = 50 K Chebyshev là: 40, 54), (80, 50)) = max(|40 80|, |54 = max(40,4) = 40 khác Hình 7.4: - (Partitioning): Nó 50|) 119 BÀI 7: - (Hierarchical) - (Density-based) - (Grid based) - (Model based) Hình 7.5: 7.2 THU T TỐN K-MEAN 7.2.1 Gi i thi u thu t tốn K-Mean óm p vùng thu - 120 BÀI 7: - - e 7.2.2 trung tâm) c c a thu t toán k-mean sau: trung tâm trun 121 BÀI 7: Hình 7.6: -mean trung tâm -Means : 3: 4: : - : -mean Individual Variable Variable 1.0 1.0 1.5 2.0 3.0 4.0 122 BÀI 7: Individual Variable Variable 5.0 7.0 3.5 5.0 4.5 5.0 3.5 4.5 : : ( Trong ) này, hai tâm là: tâm (dòng 1.0) tâm (dòng : e (1.5,2.0) tâm : -1|2+|2.0- -5|2+|2.0- C trung tâm sau: 123 BÀI 7: ), Tâm C1 ))= (1.83, 2.33) ), Tâm C2= )) = (4.12, 5.38) 1.83, 2.33))= -1.83|2+|1.0-2.33|2 = 1.56 4.12, 5.38))= -4.12|2+|1.0-5.83|2 = 4.83 C tâm 3, sau: Tâm C1= (1/2 (1.0+1.5), 1/2 (1.0+2.0)) = (1.25,1.5) Tâm C2 = (1/5 (3.0+5.0+3.5+4.5+3.5), 1/5 (4.0+7.0+5.0+5.0+4.5)) = (3.9,5.1) T C1={1,2} C2= Hình 7.7: 124 BÀI 7: - (dịng 1,2,3) Sau q trình tính tốn C1={1}, C2={2} C3={3,4,5,6,7} Hình 7.8: 7.2.3 Nh n xét thu t tốn K-Mean làm tâm tâm -Means: - ghi làm tâm 125 BÀI 7: - - - Thu - - Nó khơng -means -means : -medoids, K-medians, K- mode) C -means, Genetic K- means) Á tính(Weighted K-means, Kernel Kmeans) , -mean K-medoids 7.3 THU T TOÁN K-MEDOID 7.3.1 Gi i thi u thu t toán K-medoid K- -means - Kmeans tâm 126 BÀI 7: -medoid, sinh viên bình 74,6 sinh viên Cho là: 62, 64, 65, 62, 120, trung cá nhân 80% -120 63,5 120 trung bình h khác 62, 62, 64, 65, 120 t trung bình 64 - K-medoids -means 7.3.2 Thuât toán phân c m K-Medoids K- Medoids -means m : o k k làm trung tâm Manhattan trung tâm, Khi n 127 BÀI 7: -Medoids : 3: i 5: xi 6: i : -Medoids - : g 7.3 : X Y 7 9 8 7 8 10 : C1 - (4, 5) C2 - (8, 5) hai medoids 2: - : 128 BÀI 7: : -4|+|7-5|=6 = |8-8|+|7-5|=2 7.4 : X Y 2 7 9 6 - - 7 8 10 - 2, 3, 1, 4, 7, 8, Chi phí = (3 + + 4) + (3 + + + + 2) = 20 : tâm tâm tâm C1 (4, 5) tâm C2 (8, X Y 3 9 6 129 BÀI 7: X Y 7 8 - - 10 - 2, 3, 1, 4, 5, 7, - - 20 2> Vì chi ta Sau (3, 7) (7, 3) tâm -medoids: - -Medoid nhanh chón Nó -medoids: - tâm k-medoids tâm - 130 BÀI 7: PHÂN So sánh K-means K-medoids K-means K-medoids S : O(N dk + ) : O(K*(N-K) ) Bài 1: 15,15,16,19,19,20,20,21,22,28,35,40,41,42,43,44,60,61,65 - BÀI 7: Bài 2: 131 - Bài 3: K-Means Bài 4: Bài 5: Bài 6: Bài 7: -means K-medoids K-Medoids 132 Parteek Bhatia (2019) Data Mining and Data Warehousing_ Principles and Practical Techniques Ian H Witten & Eibe Frank(2005) Data Mining Practical Machine Learning Tools and Techniques Jiawei Han and Micheline Kamber, Morgan Kaufmann Publishers (2011) Data Mining Concepts and Techniques Vincent Rainardi (2008) Building.a.Data.Warehouse.With.Examples.in.SQL.Server Charu C Aggarwal and Chandan K Reddy (2014) Data clustering Algorithms and Applications

Ngày đăng: 28/07/2023, 17:58

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan