Bài giảng Khai phá dữ liệu: Chương 4 - TS. Võ Thị Ngọc Châu

20 29 0
Bài giảng Khai phá dữ liệu: Chương 4 - TS. Võ Thị Ngọc Châu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010.... Phân loại dữ liệu với mạng Bayesian ‡ 4.4[r]

(1)

1

Ch

Chươươngng 4: 4: PhânPhân loloii dd liliuu

Học kỳ – 2011-2012

Cao

Cao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính Giáo

Giáo trìnhtrình đđiệniện tửtử

Biên

Biên soạnsoạn bởibởi: TS : TS VõVõ ThịThị NgọcNgọc ChâuChâu (

(2)

2 Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006

‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley

& Sons, Inc, 2006

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine

learning tools and techniques”, Second Edition, Elsevier Inc, 2005

‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008

‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

(3)

Nội dung

‡ Chương 1: Tổng quan về khai phá dữ liệu ‡ Chương 2: Các vấn đề tiền xử lý dữ liệu ‡ Chương 3: Hồi qui dữ liệu

‡ Chương 4: Phân loi d liu ‡ Chương 5: Gom cụm dữ liệu ‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở

dữ liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu khai phá

dữ liệu

(4)

4

Chương 4: Phân loại dữ liệu

‡ 4.1 Tổng quan về phân loại dữ liệu

‡ 4.2 Phân loại dữ liệu với quyết định ‡ 4.3 Phân loại dữ liệu với mạng Bayesian ‡ 4.4 Phân loại dữ liệu với mạng Neural ‡ 4.5 Các phương pháp phân loại dữ liệu

khác

(5)

4.0 Tình 1

Tid Refund Marital Status Taxable Income Evade

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

(6)

6 4.0 Tình 2

(7)

4.0 Tình 3 Khơng … 3.0 2.0 47 2008 … … … … … … Không … 4.5 5.5 82 2007 Có … 7.5 9.5 24 2006 Có … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004

TốtNghiệp

MơnHọc2 MơnHọc1

Khóa

(8)

8 4.0 Tình …

(9)

9

Ch

Chươươngng 4: 4: PhânPhân loloạạii ddữữ liliệệuu

(10)

10 Nội dung

‡ 4.1 Tổng quan về phân loại dữ liệu

‡ 4.2 Phân loại dữ liệu với quyết định ‡ 4.3 Phân loại dữ liệu với mạng Bayesian ‡ 4.4 Phân loại dữ liệu với mạng Neural

(11)

4.1 Tổng quan về phân loại dữ liệu

‡ Phân loại dữ liệu (classification)

„ Dạng phân tích dữ liệu nhằm rút trích mơ

hình mơ tả các lớp dữ liệu hoặc dự đốn xu hướng dữ liệu

„ Q trình gồm hai bước:

‡ Bước học (giai đoạn huấn luyện): xây dựng bộ phân

loại (classifier) bằng việc phân tích/học tập huấn luyện

‡ Bước phân loại (classification): phân loại dữ liệu/đối

tượng mới nếu độ chính xác của bộ phân loại được đánh giá có thể chấp nhận được (acceptable)

(12)

12

4.1 Tổng quan về phân loại dữ liệu

(13)

4.1 Tổng quan về phân loại dữ liệu

(14)

14

4.1 Tổng quan về phân loại dữ liệu

‡ Phân loại dữ liệu

„ Dạng học có giám sát (supervised learning)

Environment Teacher

Learning System

state X

Σ desired

response Y actual

response error signal

(15)

-4.1 Tổng quan về phân loại dữ liệu

‡ Các giải thuật phân loại dữ liệu

„ Phân loại với quyết định (decision tree) „ Phân loại với mạng Bayesian

„ Phân loại với mạng neural

„ Phân loại với k phần tử cận gần nhất (k-nearest

neighbor)

„ Phân loại với suy diễn dựa tình huống

(case-based reasoning)

„ Phân loại dựa tiến hoá gen (genetic

algorithms)

(16)

16

4.2 Phân loại dữ liệu với quyết định

(17)

4.2 Phân loại dữ liệu với quyết định

‡ Cây quyết định (decision tree) – mơ hình phân loại

„ Node nội: phép kiểm thử (test) một thuộc tính „ Node lá: nhãn/mô tả của một lớp (class label)

„ Nhánh từ một node nội: kết quả của một phép thử trên

thuộc tính tương ứng

Cây định học từ

(18)

18

4.2 Phân loại dữ liệu với quyết định

‡ Giải thuật xây dựng quyết định

„ ID3, C4.5, CART (Classification and Regression

(19)(20)

20

4.2 Phân loại dữ liệu với quyết định

‡ Đặc điểm của giải thuật

„ Giải thuật tham lam (khơng có quay lui), chia để

trị, đệ qui, từ trên xuống

„ Độ phức tạp với tập huấn luyện D gồm |D| phần

tử (đối tượng), mỗi phần tử gồm n thuộc tính

‡ O(n*|D|*log|D|)

ƒ Mỗi thuộc tính ứng với mức (level) ƒ Cho mức cây, |D| phân tử huấn luyện

duyệt qua

Ngày đăng: 09/03/2021, 05:34

Tài liệu cùng người dùng

Tài liệu liên quan