1. Trang chủ
  2. » Công Nghệ Thông Tin

Tổng quan về Khai phá dữ liệu Khai thác dữ liệu data mining

18 720 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 180 KB

Nội dung

Khai phá dữ liệuliệu lớn: – Các CSDL khổng lồ – Dữ liệu từ Internet... – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải th

Trang 1

Bài 1:

Tổng quan về khai phá dữ liệu

PGS TS Đỗ Phúc

Trường Đại học Công nghệ Thông tin, ĐHQG.HCM

Năm 2007

Trang 2

Khai phá dữ liệu

liệu lớn:

– Các CSDL khổng lồ – Dữ liệu từ Internet

Trang 3

– Rút trích thông tin hữu ích, chưa biết, tiềm

ẩn trong khối dữ liệu lớn

– Phân tích dữ liệu bán tự động

– Giải thích dữ liệu trên các tập dữ liệu lớn

Khai phá dữ liệu là gì ?

Trang 4

Thu ật ngữ :

– Khai phá dữ liệu - Data mining

• KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD)

• Thuật ngữ tổng quát gồm các buớc như tiền xử

lý, KPDL, hậu xử lý

Khai phá dữ liệu là gì ?

Trang 5

Tiếp thị

CSDL Tiếp thị

Nhà kho dữ liệu KDD &

Data Mining

Cung cấp tri thức hỗ trợ

ra quyêt định

Dự báo

Khái quát dữ liệu

Khai phá dữ liệu có ích lợi gì ?

Trang 6

Phân tích dữ liệu, hỗ trợ ra quyết định

– Phân tích và quản lý thị trường

– Quản lý và phân tích rủi ro

– Quản lý và phân tích các sai hỏng

Các ứng dụng khác:

– Khai thác Web

– Khai thác văn bản (text mining)

– etc

C ác ứng dụng tiềm năng

Trang 7

Tiến trình khai phá dữ liệu (1)

Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực

R Rút gọn / chiều út gọn / chiều

T Tạo tập dữ liệu đầu vào ạo tập dữ liệu đầu vào

Ti Tiền xử lý/ làm sạch, mã hóa ền xử lý/ làm sạch, mã hóa

Ch Chọn tác vụ Khai thác dữ liệu ọn tác vụ Khai thác dữ liệu

Trang 8

Chọn các thuật giải KTDL Chọn các thuật giải KTDL

Biểu diễn tri thức Biểu diễn tri thức

KTDL: T KTDL: Tìm ìm kiếm tri thức kiếm tri thức

Đánh giá mẫu tìm được Đánh giá mẫu tìm được

S Sử dụng các tri thức vừa khám phá ử dụng các tri thức vừa khám phá

Trang 9

Data mining

Data mining

Input data

Input data Preprocessing Postprocessing Results Results

Operational Database

Operational Database

Sel ect

ion

Sel ect ion

Sel ect

ion

Sel ect ion

Utilization

Utilization

Cleaned Verified Focused

Eval of interes-tingness

Raw data

Time based selection

Selected usable patterns

Tiến trình KDD tiêu biểu

Trang 10

Increasing potential

to support

Business Analyst

Data Analyst

Making Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Khai phá dữ liệu

Trang 11

Dữ liệu

• Customer data

• Store data

• Demographical Data

• Geographical data

Thông tin

• X lives in Z

• S is Y years old

• X and S moved

• W has money in Z

Tri thức

• A quantity Y of product A is used in region Z

• Customers of class Y use x% of C during period D

Quyết định

• Promote product A in region Z.

• Mail ads to families of profile P

• Cross-sell service B to clients C

Trang 12

Các tiếp cận tổng quan:

– KPDL mô tả :

• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ liệu

• Giải thích dữ liệu đó – KPDL dự báo:

• Dựa trên dữ liệu quá khứ, dự báo tương lai

• Xu thế phát triển!

Các quan ni ệm về KPDL

Trang 13

Quan niệm dựa trên …

– CSDL để khai thác

– Tri thức được khám phá

– Các kỹ thuật được sử dụng

– Các ứng dụng

Trang 14

CSDL c CSDL cần khai thác ần khai thác

• Quan hệ

• Giao tác

• Huớng đối tượng

• Huớng đối tượng, quan hệ

• Active

• Không gian

• Thời gian

Databases

Các quan niệm về KPDL

• Text, XML

• Multi-media

• Heterogeneous

• Legacy

• Inductive

• WWW

• etc

Trang 15

T Tác vụ khai thác ác vụ khai thác

• Đặc trưng

• Phân biệt

• Kết hợp

• Phân lớp

• Gom cụm

• Xu thế

Knowledge

=

task

Các quan niệm về KPDL

• Phân tích độ lệch

• Phân tích hiếm etc.

Trang 16

C Các kỹ thuật đã sử dụng ác kỹ thuật đã sử dụng

• CSDL

• Nhà kho dữ liệu (OLAP)

• Máy học

• Thống kê

• Trực quan hóa

• Mạng nơron và thuật giải GA

Techniques

Các quan niệm KPDL

Trang 17

C Các ứng dụng ác ứng dụng

• Bán lẻ, siêu thị

• Ngân hàng

• Khai thác gen

Applic.

• Phân tích cổ phiếu

• KTDL Web

• Phân tích dữ liệu

Trang 18

KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ

CSDL lớn

– Tiền xử lý

– KTDL( data mining tasks)

– Hậu xử lý

– CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)

– Tri thức (đặc trưng, gom cụm, kết hợp, …)

– Kỹ thuật (máy học, thống kê, trực quan hóa, …)

– Ứng dụng (bán lẻ, điện thoại, khai thác Web …)

Kết luận

Ngày đăng: 10/02/2017, 07:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w