Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010.... Phân loại dữ liệu với mạng Bayesian 4.4[r]
(1)1
Ch
Chươươngng 4: 4: PhânPhân loloạạii ddữữ liliệệuu
Học kỳ – 2011-2012
Cao
Cao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính Giáo
Giáo trìnhtrình đđiệniện tửtử
Biên
Biên soạnsoạn bởibởi: TS : TS VõVõ ThịThị NgọcNgọc ChâuChâu (
(2)2 Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
(3)Nội dung
Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu khai phá
dữ liệu
(4)4
Chương 4: Phân loại dữ liệu
4.1 Tổng quan về phân loại dữ liệu
4.2 Phân loại dữ liệu với quyết định 4.3 Phân loại dữ liệu với mạng Bayesian 4.4 Phân loại dữ liệu với mạng Neural 4.5 Các phương pháp phân loại dữ liệu
khác
(5)4.0 Tình 1
Tid Refund Marital Status Taxable Income Evade
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
(6)6 4.0 Tình 2
(7)4.0 Tình 3 Khơng … 3.0 2.0 47 2008 … … … … … … Không … 4.5 5.5 82 2007 Có … 7.5 9.5 24 2006 Có … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004
TốtNghiệp …
MơnHọc2 MơnHọc1
Khóa
(8)8 4.0 Tình …
(9)9
Ch
Chươươngng 4: 4: PhânPhân loloạạii ddữữ liliệệuu
(10)10 Nội dung
4.1 Tổng quan về phân loại dữ liệu
4.2 Phân loại dữ liệu với quyết định 4.3 Phân loại dữ liệu với mạng Bayesian 4.4 Phân loại dữ liệu với mạng Neural
(11)4.1 Tổng quan về phân loại dữ liệu
Phân loại dữ liệu (classification)
Dạng phân tích dữ liệu nhằm rút trích mơ
hình mơ tả các lớp dữ liệu hoặc dự đốn xu hướng dữ liệu
Q trình gồm hai bước:
Bước học (giai đoạn huấn luyện): xây dựng bộ phân
loại (classifier) bằng việc phân tích/học tập huấn luyện
Bước phân loại (classification): phân loại dữ liệu/đối
tượng mới nếu độ chính xác của bộ phân loại được đánh giá có thể chấp nhận được (acceptable)
(12)12
4.1 Tổng quan về phân loại dữ liệu
(13)4.1 Tổng quan về phân loại dữ liệu
(14)14
4.1 Tổng quan về phân loại dữ liệu
Phân loại dữ liệu
Dạng học có giám sát (supervised learning)
Environment Teacher
Learning System
state X
Σ desired
response Y actual
response error signal
(15)-4.1 Tổng quan về phân loại dữ liệu
Các giải thuật phân loại dữ liệu
Phân loại với quyết định (decision tree) Phân loại với mạng Bayesian
Phân loại với mạng neural
Phân loại với k phần tử cận gần nhất (k-nearest
neighbor)
Phân loại với suy diễn dựa tình huống
(case-based reasoning)
Phân loại dựa tiến hoá gen (genetic
algorithms)
(16)16
4.2 Phân loại dữ liệu với quyết định
(17)4.2 Phân loại dữ liệu với quyết định
Cây quyết định (decision tree) – mơ hình phân loại
Node nội: phép kiểm thử (test) một thuộc tính Node lá: nhãn/mô tả của một lớp (class label)
Nhánh từ một node nội: kết quả của một phép thử trên
thuộc tính tương ứng
Cây định học từ
(18)18
4.2 Phân loại dữ liệu với quyết định
Giải thuật xây dựng quyết định
ID3, C4.5, CART (Classification and Regression
(19)(20)20
4.2 Phân loại dữ liệu với quyết định
Đặc điểm của giải thuật
Giải thuật tham lam (khơng có quay lui), chia để
trị, đệ qui, từ trên xuống
Độ phức tạp với tập huấn luyện D gồm |D| phần
tử (đối tượng), mỗi phần tử gồm n thuộc tính
O(n*|D|*log|D|)
Mỗi thuộc tính ứng với mức (level) Cho mức cây, |D| phân tử huấn luyện
duyệt qua