Khai phá dữ liệuliệu lớn: – Các CSDL khổng lồ – Dữ liệu từ Internet... – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải th
Trang 1Bài 1:
Tổng quan về khai phá dữ liệu
PGS TS Đỗ Phúc
Trường Đại học Công nghệ Thông tin, ĐHQG.HCM
Năm 2007
Trang 2Khai phá dữ liệu
liệu lớn:
– Các CSDL khổng lồ – Dữ liệu từ Internet
Trang 3– Rút trích thông tin hữu ích, chưa biết, tiềm
ẩn trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn
Khai phá dữ liệu là gì ?
Trang 4• Thu ật ngữ :
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền xử
lý, KPDL, hậu xử lý
Khai phá dữ liệu là gì ?
Trang 5Tiếp thị
CSDL Tiếp thị
Nhà kho dữ liệu KDD &
Data Mining
Cung cấp tri thức hỗ trợ
ra quyêt định
Dự báo
Khái quát dữ liệu
Khai phá dữ liệu có ích lợi gì ?
Trang 6• Phân tích dữ liệu, hỗ trợ ra quyết định
– Phân tích và quản lý thị trường
– Quản lý và phân tích rủi ro
– Quản lý và phân tích các sai hỏng
• Các ứng dụng khác:
– Khai thác Web
– Khai thác văn bản (text mining)
– etc
C ác ứng dụng tiềm năng
Trang 7Tiến trình khai phá dữ liệu (1)
Nghiên cứu lĩnh vực Nghiên cứu lĩnh vực
R Rút gọn / chiều út gọn / chiều
T Tạo tập dữ liệu đầu vào ạo tập dữ liệu đầu vào
Ti Tiền xử lý/ làm sạch, mã hóa ền xử lý/ làm sạch, mã hóa
Ch Chọn tác vụ Khai thác dữ liệu ọn tác vụ Khai thác dữ liệu
Trang 8Chọn các thuật giải KTDL Chọn các thuật giải KTDL
Biểu diễn tri thức Biểu diễn tri thức
KTDL: T KTDL: Tìm ìm kiếm tri thức kiếm tri thức
Đánh giá mẫu tìm được Đánh giá mẫu tìm được
S Sử dụng các tri thức vừa khám phá ử dụng các tri thức vừa khám phá
Trang 9Data mining
Data mining
Input data
Input data Preprocessing Postprocessing Results Results
Operational Database
Operational Database
Sel ect
ion
Sel ect ion
Sel ect
ion
Sel ect ion
Utilization
Utilization
Cleaned Verified Focused
Eval of interes-tingness
Raw data
Time based selection
Selected usable patterns
Tiến trình KDD tiêu biểu
Trang 10Increasing potential
to support
Business Analyst
Data Analyst
Making Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Khai phá dữ liệu
Trang 11Dữ liệu
• Customer data
• Store data
• Demographical Data
• Geographical data
Thông tin
• X lives in Z
• S is Y years old
• X and S moved
• W has money in Z
Tri thức
• A quantity Y of product A is used in region Z
• Customers of class Y use x% of C during period D
Quyết định
• Promote product A in region Z.
• Mail ads to families of profile P
• Cross-sell service B to clients C
Trang 12• Các tiếp cận tổng quan:
– KPDL mô tả :
• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ liệu
• Giải thích dữ liệu đó – KPDL dự báo:
• Dựa trên dữ liệu quá khứ, dự báo tương lai
• Xu thế phát triển!
Các quan ni ệm về KPDL
Trang 13• Quan niệm dựa trên …
– CSDL để khai thác
– Tri thức được khám phá
– Các kỹ thuật được sử dụng
– Các ứng dụng
Trang 14CSDL c CSDL cần khai thác ần khai thác
• Quan hệ
• Giao tác
• Huớng đối tượng
• Huớng đối tượng, quan hệ
• Active
• Không gian
• Thời gian
Databases
Các quan niệm về KPDL
• Text, XML
• Multi-media
• Heterogeneous
• Legacy
• Inductive
• WWW
• etc
Trang 15T Tác vụ khai thác ác vụ khai thác
• Đặc trưng
• Phân biệt
• Kết hợp
• Phân lớp
• Gom cụm
• Xu thế
Knowledge
=
task
Các quan niệm về KPDL
• Phân tích độ lệch
• Phân tích hiếm etc.
Trang 16C Các kỹ thuật đã sử dụng ác kỹ thuật đã sử dụng
• CSDL
• Nhà kho dữ liệu (OLAP)
• Máy học
• Thống kê
• Trực quan hóa
• Mạng nơron và thuật giải GA
•
Techniques
Các quan niệm KPDL
Trang 17C Các ứng dụng ác ứng dụng
• Bán lẻ, siêu thị
• Ngân hàng
• Khai thác gen
Applic.
• Phân tích cổ phiếu
• KTDL Web
• Phân tích dữ liệu
Trang 18• KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ
CSDL lớn
– Tiền xử lý
– KTDL( data mining tasks)
– Hậu xử lý
– CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
– Tri thức (đặc trưng, gom cụm, kết hợp, …)
– Kỹ thuật (máy học, thống kê, trực quan hóa, …)
– Ứng dụng (bán lẻ, điện thoại, khai thác Web …)
Kết luận