Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu

20 36 0
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Intra-cluster distances are minimized..[r]

(1)

1

1

Ch

Chươươngng 5: 5: GomGom ccmm dd liliuu

Học kỳ – 2011-2012 Cao

Cao HHọọcc NgànhNgành KhoaKhoa HHọọcc MáyMáy TínhTính Giáo

Giáo trìnhtrình đđiiệệnn ttửử

Biên

Biên sosoạạnn bbởởii: TS : TS VõVõ ThThịị NgNgọọcc ChâuChâu (

(2)

2

2

Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006

‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley

& Sons, Inc, 2006

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine

learning tools and techniques”, Second Edition, Elsevier Inc, 2005

‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008

‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

(3)

3

3

Nội dung

‡ Chương 1: Tổng quan về khai phá dữ liệu

‡ Chương 2: Các vấn đề tiền xử lý dữ liệu

‡ Chương 3: Hồi qui dữ liệu

‡ Chương 4: Phân loại dữ liệu

‡ Chương 5: Gom cm d liu

‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở

dữ liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu khai phá

dữ liệu

(4)

4

4

Chương 5: Gom cụm dữ liệu

‡ 5.1 Tổng quan về gom cụm dữ liệu

‡ 5.2 Gom cụm dữ liệu bằng phân hoạch ‡ 5.3 Gom cụm dữ liệu bằng phân cấp ‡ 5.4 Gom cụm dữ liệu dựa mật độ ‡ 5.5 Gom cụm dữ liệu dựa mơ hình

(5)

5

5

Ch

Chươươngng 5: 5: GomGom ccụụmm ddữữ liliệệuu

(6)

6

6 5.0 Tình huống – Outlier detection

(7)

7

7

5.0 Tình huống - Làm sạch dữ liệu

‡ Nhận diện phần tử biên (outliers) giảm

thiểu nhiễu (noisy data)

„ Giải pháp giảm thiểu nhiễu

(8)

8

8

(9)

9

9

(10)

10

10

(11)

11

11

(12)

12

12

(13)

13

13

(14)

14

14

(15)

15

15

5.0 Tình huống 4

Gom cụm ảnh

(16)

16

16

5.0 Tình huống …

(17)

17

17

5.0 Tình huống …

‡ Hỗ trợ giai đoạn tiền xử lý dữ liệu (data

preprocessing)

‡ Mô tả sự phân bố dữ liệu/đối tượng (data

distribution)

‡ Nhận dạng mẫu (pattern recognition)

‡ Phân tích dữ liệu không gian (spatial data analysis) ‡ Xử lý ảnh (image processing)

(18)

18

18

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Q trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng một cụm tương tự với hơn

so với đối tượng ở cụm khác.

‡ Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Obj1 tương tự Obj2

hơn so với tương tự Obj3.

(19)

19

19

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Q trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng một cụm tương tự với hơn

so với đối tượng ở cụm khác.

‡ Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Obj1 tương tự Obj2

hơn so với tương tự Obj3.

(20)

20

20

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Q trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng một cụm tương tự với hơn

so với đối tượng ở cụm khác.

‡ Obj1, Obj2 cụm C1; Obj3 ở cụm C2 Obj1 tương tự Obj2

hơn so với tương tự Obj3.

Inter-cluster distances are maximized. Intra-cluster distances are minimized. High intra

High intra- -cluster/class

cluster/class

similarity

similarity

Low inter

Low inter- -cluster/class

cluster/class

similarity

Ngày đăng: 09/03/2021, 04:10

Tài liệu cùng người dùng

Tài liệu liên quan