Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Tình huống …[r]
(1)1 Ch
Chươương 7: ng 7: KhaiKhai phá dphá dữữ liliệệuu vàvà công
công nghnghệệ ccơơ ssởở ddữữ liliệệuu
Học kỳ – 2011-2012
Khoa
Khoa KhoaKhoa HHọọc & Kc & Kỹỹ Thu Thuậật Máy Tínht Máy Tính Tr
Trưườờng ng ĐạĐại Hi Họọc Bách Khoa Tp Hc Bách Khoa Tp Hồồ Chí Minh Chí Minh
Cao
Cao HHọọcc NgànhNgành KhoaKhoa HHọọcc MáyMáy TínhTính Giáo
Giáo trìnhtrình đđiiệệnn ttửử
Biên
Biên sosoạạnn bbởởii: TS : TS VõVõ ThThịị NgNgọọcc ChâuChâu (
(2)Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
(3)3
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ
sở dữ liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu khai phá
dữ liệu
(4)công nghệ cơ sở dữ liệu
7.1 Tổng quan về công nghệ cơ sở dữ liệu 7.2 Khả năng hỗ trợ khai phá dữ liệu của
công nghệ cơ sở dữ liệu
7.3 Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
7.4 Hỗ trợ của DBMS ngày dành cho khai phá dữ liệu
(5)5
7.0 Tình 1
(6)7.0 Tình 2
Tid Refund Marital Status Taxable Income Evade Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
Ông A (Tid = 100)
(7)7
7.0 Tình 3
Ngày mai cổ
phiếu STB
(8)7.0 Tình 4 Khơng (97%) … 3.0 2.0 47 2008 … … … … … … Khơng (45%) … 4.5 5.5 82 2007 Có (90%) … 7.5 9.5 24 2006 Có (80%) … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004
TốtNghiệp …
MơnHọc2 MơnHọc1
Khóa
(9)9
7.0 Tình …
(10)dữ liệu
Đặc điểm dữ liệu thu thập được cho
q trình khai phá dữ liệu (tóm tắt từ
Chương 1)
Bắt nguồn từ yêu cầu ứng dụng thực tiễn Dữ liệu thật/dữ liệu nhân tạo từ mô phỏng Cấu trúc từ đơn giản đến phức tạp
Lượng dữ liệu lớn, biến động nhiều Lưu trữ lâu dài/lưu trữ tạm thời