Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Intra-cluster distances are minimized..[r]
(1)1
1
Ch
Chươươngng 5: 5: GomGom ccụụmm ddữữ liliệệuu
Học kỳ – 2011-2012 Cao
Cao HHọọcc NgànhNgành KhoaKhoa HHọọcc MáyMáy TínhTính Giáo
Giáo trìnhtrình đđiiệệnn ttửử
Biên
Biên sosoạạnn bbởởii: TS : TS VõVõ ThThịị NgNgọọcc ChâuChâu (
(2)2
2
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
(3)3
3
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiền xử lý dữ liệu
Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu
Chương 5: Gom cụm dữ liệu
Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu khai phá
dữ liệu
(4)4
4
Chương 5: Gom cụm dữ liệu
5.1 Tổng quan về gom cụm dữ liệu
5.2 Gom cụm dữ liệu bằng phân hoạch 5.3 Gom cụm dữ liệu bằng phân cấp 5.4 Gom cụm dữ liệu dựa mật độ 5.5 Gom cụm dữ liệu dựa mơ hình
(5)5
5
Ch
Chươươngng 5: 5: GomGom ccụụmm ddữữ liliệệuu
(6)6
6 5.0 Tình huống – Outlier detection
(7)7
7
5.0 Tình huống - Làm sạch dữ liệu
Nhận diện phần tử biên (outliers) giảm
thiểu nhiễu (noisy data)
Giải pháp giảm thiểu nhiễu
(8)8
8
(9)9
9
(10)10
10
(11)11
11
(12)12
12
(13)13
13
(14)14
14
(15)15
15
5.0 Tình huống 4
Gom cụm ảnh
(16)16
16
5.0 Tình huống …
(17)17
17
5.0 Tình huống …
Hỗ trợ giai đoạn tiền xử lý dữ liệu (data
preprocessing)
Mô tả sự phân bố dữ liệu/đối tượng (data
distribution)
Nhận dạng mẫu (pattern recognition)
Phân tích dữ liệu không gian (spatial data analysis) Xử lý ảnh (image processing)
(18)18
18
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Q trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng một cụm tương tự với hơn
so với đối tượng ở cụm khác.
Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Ỉ Obj1 tương tự Obj2
hơn so với tương tự Obj3.
(19)19
19
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Q trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng một cụm tương tự với hơn
so với đối tượng ở cụm khác.
Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Ỉ Obj1 tương tự Obj2
hơn so với tương tự Obj3.
(20)20
20
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Q trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng một cụm tương tự với hơn
so với đối tượng ở cụm khác.
Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Ỉ Obj1 tương tự Obj2
hơn so với tương tự Obj3.
Inter-cluster distances are maximized. Intra-cluster distances are minimized. High intra
High intra- -cluster/class
cluster/class
similarity
similarity
Low inter
Low inter- -cluster/class
cluster/class
similarity