Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu

20 31 0
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of d[r]

(1)

1

1

Ch

Chươương 1: Tng 1: Tng quan ng quan v khai phá d liu

v khai phá d liu

Học kỳ – 2011-2012 Cao

Cao HHọcọc NgànhNgành KhoaKhoa HHọcọc MáyMáy TínhTính Giáo

Giáo trìnhtrình đđiiệnện ttửử

Biên

Biên sosoạnạn bbởiởi: TS : TS VõVõ ThThịị NgNgọcọc ChâuChâu (

(2)

2

Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006

‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley

& Sons, Inc, 2006

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine

learning tools and techniques”, Second Edition, Elsevier Inc, 2005

‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008

‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

(3)

3

3

Nội dung

‡ Chương 1: Tng quan v khai phá d liu ‡ Chương 2: Các vấn đề tiền xử lý dữ liệu

‡ Chương 3: Hồi qui dữ liệu ‡ Chương 4: Phân loại dữ liệu ‡ Chương 5: Gom cụm dữ liệu ‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở

dữ liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu khai phá

dữ liệu

(4)

4

liệu

‡ 1.0 Tình huống

‡ 1.1 Quá trình khám phá tri thức ‡ 1.2 Các khái niệm

‡ 1.3 Ý nghĩa vai trò của khai phá dữ

liệu

(5)

5

5

1.0 Tình huống 1

(6)

6

1.0 Tình huống 2

Tid Refund Marital Status Taxable Income Evade Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes

10

Ông A (Tid = 100)

(7)

7

7

1.0 Tình huống 3

Ngày mai cổ

phiếu STB

(8)

8

1.0 Tình huống 4

Khơng (97%) … 3.0 2.0 47 2008 … … … … … … Khơng (45%) … 4.5 5.5 82 2007 Có (90%) … 7.5 9.5 24 2006 Có (80%) … 6.0 7.0 90 2005 Không … 3.5 5.5 2004 … 14 MãSV … … … … … Có … 5.5 5.0 2004 Khơng … 2.5 4.0 2004 Có … 8.0 6.5 2004 Có … 8.5 9.0 2004

TốtNghiệp

MơnHọc2 MơnHọc1

Khóa

(9)

9

9

1.0 Tình huống …

(10)

10

1.1 Quá trình khám phá tri thức

Data Cleaning

Data Integration

Data Sources Data Warehouse

Task-relevant Data

Selection/Transformation

Data Mining

Pattern Evaluation/ Presentation

(11)

11

11

1.1 Quá trình khám phá tri thức

‡ “Knowledge discovery in databases is the nontrivial

process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.”

„ Frawley, W J et al (1991) Knowledge discovery in

databases: an overview.

‡ “Knowledge discovery from databases is the

process of using the database along with any

required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed

knowledge.”

„ Fayyad, U.M et al (1996) Advances in Knowledge Discovery

(12)

12

1.1 Quá trình khám phá tri thức

‡ Quá trình khám phá tri thức một chuỗi lặp gồm bước:

„ Data cleaning (làm liệu) „ Data integration (tích hợp liệu) „ Data selection (chọn lựa liệu)

„ Data transformation (biến đổi liệu) „ Data mining (khai phá liệu)

„ Pattern evaluation (đánh giá mẫu)

(13)

13

13

1.1 Quá trình khám phá tri thức

‡ Quá trình khám phá tri thức một chuỗi lặp gồm bước được thực thi với:

„ Data sources (các nguồn liệu) „ Data warehouse (kho liệu)

„ Task-relevant data (dữ liệu cụ thể khai

phá)

(14)

14

1.1 Quá trình khám phá tri thức

Increasing potential to support

business decisions End User

Business Analyst Data Analyst

DBA

Making Decisions

Data Presentation

Visualization Techniques Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts Data Sources

(15)

15

15

1.2 Các khái niệm

‡ 1.2.1 Khai phá dữ liệu (data mining)

‡ 1.2.2 Các tác vụ khai phá dữ liệu (data mining tasks/functions)

‡ 1.2.3 Các quy trình khai phá dữ liệu (data mining processes)

(16)

16

1.2.1 Khai phá dữ liệu

‡ Khai phá liệu

„ một q trình trích xuất tri thức từ lượng lớn dữ liệu

‡ “extracting or mining knowledge from large amounts of data” ‡ “knowledge mining from data”

„ một q trình khơng dễ trích xuất thơng tin ẩn, hữu ích,

chưa được biết trước từ dữ liệu

‡ “the nontrivial extraction of implicit, previously unknown, and

potentially useful information from data”

‡ Các thuật ngữ thường dùng tương đương:

knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern

(17)

17

17

1.2.1 Khai phá dữ liệu

‡ Lượng lớn liệu sẵn có để khai phá

„ Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay

bán cấu trúc hay phi cấu trúc

„ Dữ liệu được lưu trữ

‡ Các tập tin truyền thống (flat files)

‡ Các sở liệu quan hệ (relational databases) hay quan hệ

đối tượng (object relational databases)

‡ Các sở liệu giao tác (transactional databases) hay kho

liệu (data warehouses)

‡ Các sở liệu hướng ứng dụng: sở liệu không gian

(spatial databases), sở liệu thời gian (temporal

databases), sở liệu không thời gian (spatio-temporal databases), sở liệu chuỗi thời gian (time series

databases), sở liệu văn (text databases), sở

liệu đa phương tiện (multimedia databases), …

‡ Các kho thông tin: the World Wide Web, …

(18)

18

1.2.1 Khai phá dữ liệu

‡ Tri thức đạt được từ trình khai phá

„ Mơ tả lớp/khái niệm (đặc trưng hóa phân biệt

hóa)

„ Mẫu thường xuyên, mối quan hệ kết

hợp/tương quan

„ Mơ hình phân loại dự đốn „ Mơ hình gom cụm

„ Các phần tử biên

„ Xu hướng hay mức độ thường xuyên các đối

tượng có hành vi thay đổi theo thời gian

(19)

19

19

1.2.1 Khai phá dữ liệu

‡ Tri thức đạt từ trình khai phá

„ Tri thức đạt được có thể có tính mơ tả hay dự đốn tùy

thuộc vào q trình khai phá cụ thể.

‡ Mơ tả (Descriptive): có khả đặc trưng hóa thuộc tính

chung liệu khai phá (Tình 1)

‡ Dự đốn (Predictive): có khả suy luận từ liệu có

để dự đốn (Tình 2, 3, 4)

„ Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi

cấu trúc.

„ Tri thức đạt được có thể được/khơng được người dùng quan

tâm Ỉ các độ đo đánh giá tri thức đạt được.

„ Tri thức đạt được có thể được dùng việc hỗ trợ ra

(20)

20

1.2.1 Khai phá dữ liệu

(trends,

regularities, …)

(characterization and

Ngày đăng: 10/03/2021, 14:38

Tài liệu cùng người dùng

Tài liệu liên quan