required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of d[r]
(1)1
1
Ch
Chươương 1: Tng 1: Tổổng quan ng quan về khai phá dữ liệu
về khai phá dữ liệu
Học kỳ – 2011-2012 Cao
Cao HHọcọc NgànhNgành KhoaKhoa HHọcọc MáyMáy TínhTính Giáo
Giáo trìnhtrình đđiiệnện ttửử
Biên
Biên sosoạnạn bbởiởi: TS : TS VõVõ ThThịị NgNgọcọc ChâuChâu (
(2)2
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
(3)3
3
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu
Chương 3: Hồi qui dữ liệu Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu khai phá
dữ liệu
(4)4
liệu
1.0 Tình huống
1.1 Quá trình khám phá tri thức 1.2 Các khái niệm
1.3 Ý nghĩa vai trò của khai phá dữ
liệu
(5)5
5
1.0 Tình huống 1
(6)6
1.0 Tình huống 2
Tid Refund Marital Status Taxable Income Evade Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes
10
Ông A (Tid = 100)
(7)7
7
1.0 Tình huống 3
Ngày mai cổ
phiếu STB
(8)8
1.0 Tình huống 4
Khơng (97%) … 3.0 2.0 47 2008 … … … … … … Khơng (45%) … 4.5 5.5 82 2007 Có (90%) … 7.5 9.5 24 2006 Có (80%) … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004
TốtNghiệp …
MơnHọc2 MơnHọc1
Khóa
(9)9
9
1.0 Tình huống …
(10)10
1.1 Quá trình khám phá tri thức
Data Cleaning
Data Integration
Data Sources Data Warehouse
Task-relevant Data
Selection/Transformation
Data Mining
Pattern Evaluation/ Presentation
(11)11
11
1.1 Quá trình khám phá tri thức
“Knowledge discovery in databases is the nontrivial
process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.”
Frawley, W J et al (1991) Knowledge discovery in
databases: an overview.
“Knowledge discovery from databases is the
process of using the database along with any
required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed
knowledge.”
Fayyad, U.M et al (1996) Advances in Knowledge Discovery
(12)12
1.1 Quá trình khám phá tri thức
Quá trình khám phá tri thức một chuỗi lặp gồm bước:
Data cleaning (làm liệu) Data integration (tích hợp liệu) Data selection (chọn lựa liệu)
Data transformation (biến đổi liệu) Data mining (khai phá liệu)
Pattern evaluation (đánh giá mẫu)
(13)13
13
1.1 Quá trình khám phá tri thức
Quá trình khám phá tri thức một chuỗi lặp gồm bước được thực thi với:
Data sources (các nguồn liệu) Data warehouse (kho liệu)
Task-relevant data (dữ liệu cụ thể khai
phá)
(14)14
1.1 Quá trình khám phá tri thức
Increasing potential to support
business decisions End User
Business Analyst Data Analyst
DBA
Making Decisions
Data Presentation
Visualization Techniques Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts Data Sources
(15)15
15
1.2 Các khái niệm
1.2.1 Khai phá dữ liệu (data mining)
1.2.2 Các tác vụ khai phá dữ liệu (data mining tasks/functions)
1.2.3 Các quy trình khai phá dữ liệu (data mining processes)
(16)16
1.2.1 Khai phá dữ liệu
Khai phá liệu
một q trình trích xuất tri thức từ lượng lớn dữ liệu
“extracting or mining knowledge from large amounts of data” “knowledge mining from data”
một q trình khơng dễ trích xuất thơng tin ẩn, hữu ích,
chưa được biết trước từ dữ liệu
“the nontrivial extraction of implicit, previously unknown, and
potentially useful information from data”
Các thuật ngữ thường dùng tương đương:
knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern
(17)17
17
1.2.1 Khai phá dữ liệu
Lượng lớn liệu sẵn có để khai phá
Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay
bán cấu trúc hay phi cấu trúc
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các sở liệu quan hệ (relational databases) hay quan hệ
đối tượng (object relational databases)
Các sở liệu giao tác (transactional databases) hay kho
liệu (data warehouses)
Các sở liệu hướng ứng dụng: sở liệu không gian
(spatial databases), sở liệu thời gian (temporal
databases), sở liệu không thời gian (spatio-temporal databases), sở liệu chuỗi thời gian (time series
databases), sở liệu văn (text databases), sở
liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
(18)18
1.2.1 Khai phá dữ liệu
Tri thức đạt được từ trình khai phá
Mơ tả lớp/khái niệm (đặc trưng hóa phân biệt
hóa)
Mẫu thường xuyên, mối quan hệ kết
hợp/tương quan
Mơ hình phân loại dự đốn Mơ hình gom cụm
Các phần tử biên
Xu hướng hay mức độ thường xuyên các đối
tượng có hành vi thay đổi theo thời gian
(19)19
19
1.2.1 Khai phá dữ liệu
Tri thức đạt từ trình khai phá
Tri thức đạt được có thể có tính mơ tả hay dự đốn tùy
thuộc vào q trình khai phá cụ thể.
Mơ tả (Descriptive): có khả đặc trưng hóa thuộc tính
chung liệu khai phá (Tình 1)
Dự đốn (Predictive): có khả suy luận từ liệu có
để dự đốn (Tình 2, 3, 4)
Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi
cấu trúc.
Tri thức đạt được có thể được/khơng được người dùng quan
tâm Ỉ các độ đo đánh giá tri thức đạt được.
Tri thức đạt được có thể được dùng việc hỗ trợ ra
(20)20
1.2.1 Khai phá dữ liệu
(trends,
regularities, …)
(characterization and