1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu

25 489 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Khai phá dữ liệu (Data Mining)

  • Nội dung môn học

  • Thông tin về môn học

  • Tài liệu tham khảo

  • Chương 1 Tổng quan

  • Slide 6

  • Slide 7

  • Slide 8

  • Slide 9

  • Slide 10

  • Slide 11

  • Slide 12

  • Slide 13

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Slide 19

  • Slide 20

  • Slide 21

  • Slide 22

  • Slide 23

  • Slide 24

  • Slide 25

Nội dung

Khai phá liệu (Data Mining) Nguyễn Đình Thuân UIT – VNU HCM 03/12/15 Nội dung môn học 12/03/15 11 Chương 1: Tổng quan khai phá liệu Chương 2: Luật kết hợp Chương 3: Dãy phổ biến Chương 4: Phân lớp liệu Chương 5: Gom cụm liệu 66 Giới thiệu 10 thuật toán hàng đầu DataMining www.lhu.edu.vn Thông tin môn học Đánh giá Phương pháp đánh giá 12/03/15 Trọng số[%] Chuyên cần, tập lớp 10% Thực hành, thí nghiệm 15% Kiểm tra kỳ 15% Tiểu luận, báo cáo lớp 20% Thi cuối học kỳ 40% www.lhu.edu.vn Tài liệu tham khảo Đỗ Phúc, Giáo trình + Slide Bài giảng Khai thác liệu, ĐHQG TPHCM, 2005 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2006 X Wu, V Kumar, J Ross Quinlan, Top 10 Algorithms in Data Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009 ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005 12/03/15 www.lhu.edu.vn Chương Tổng quan Các khái niệm Dữ liệu (Data): xem chuỗi bit, số, ký tự…mà thu thập hàng ngày công việc Thông tin (Information): tập hợp liệu xử lý, dùng mô tả, giải thích đặc tính đối tượng Tri thức (Knowledge): tập hợp thông tin có liên hệ với nhau, lập luận chặt chẽ thực nghiệm kiểm chứng quan nhiều hệ Tri thức thể tư người vấn đề 12/03/15 www.lhu.edu.vn Các khái niệm Khám phá tri thức từ sở liệu: (Knowledge Discovery in Databases – KDD) – “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996) – “Khám phá tri thức từ sở liệu quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp chọn lọc liệu, khai thác liệu, đánh giá kết quả, giải thích liệu, áp dụng tri thức vào thực tế – http://www.kdnuggets.com/ 12/03/15 www.lhu.edu.vn Tại phải khai phá liệu ? John Naisbitt (www.naisbitt.com/) in 1982: “We are drowning in data, but starving for knowlegde” Dữ liệu thu thập hàng ngày lớn – Các CSDL khổng lồ – Dữ liệu từ Internet Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 12/03/15 www.lhu.edu.vn Khai phá liệu gì? Khai phá liệu (Datamining) bước quy trình khám phá tri thức, nhằm: – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn – Phân tích liệu bán tự động – Giải thích liệu tập liệu lớn 12/03/15 www.lhu.edu.vn Lợi ích khai phá liệu Giá trị EDP MIS DSS Số lượng 12/03/15 EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems www.lhu.edu.vn Khai phá liệu ? Thuật ngữ: – Khai phá liệu - Data mining • KPDL buớc tiến trình KDD – Knowledge discovery in databases (KDD) • Thuật ngữ tổng quát gồm buớc tiền xử lý, KPDL, hậu xử lý 10 Khai phá liệu có ích lợi ? •Cung cấp tri thức hỗ trợ quyêt định •Dự báo •Khái quát liệu Tiếp thị CSDL Tiếp Nhà kho liệu thị KDD & Data Mining 11 Tiến trình khai phá liệu(1) Nghiên êncứu cứulĩnh lĩnhvực vực Nghi ạotập tậpdữ dữliệu liệuđầu đầuvào vào TTạo Tiền ềnxử xửlý/ lý/làm làmsạch, sạch,mã mã hóa hóa Ti Rút útgọn gọn//chiều chiều R Chọn ọntác tácvụ vụKhai Khaithác thácdữ dữliệu liệu Ch 12 Tiến trình khai phá liệu(2) Chọn ọn các thuật thuật giải giải KTDL KTDL Ch KTDL: TTìm ìmkiếm kiếmtri trithức thức KTDL: Đánhgiá giámẫu mẫutìm tìmđược Đánh Biểu ểu diễn diễn tri tri thức thức Bi dụngcác cáctri trithức thứcvừa vừakhám khámphá phá SSửửdụng 13 Tiến trình KDD tiêu biểu Time based selection n ctio e l Se Input Inputdata data Preprocessing Cleaned Verified Focused Raw data Operational Operational Database Database Data Datamining mining Utilization Utilization Eval of interestingness Postprocessing n ctio e l Se Results Results Selected usable patterns 14 Khai phá liệu Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 15 Từ liệu đến định Quyết định • Promote product A in region Z Tri thức • Mail ads to families of profile P • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thông tin • X lives in Z Dữ liệu • Customer data • S is Y years old • X and S moved • W has money in Z • Store data • Demographical Data • Geographical data 16 Các quan niệm KPDL Các tiếp cận tổng quan: – KPDL mô tả : • Cho biết điều hữu ích tìm thấy liệu • Giải thích liệu – KPDL dự báo: • Dựa liệu khứ, dự báo tương lai • Xu phát triển! 17 Các quan niệm KTDL Quan niệm dựa … – CSDL để khai thác – Tri thức khám phá – Các kỹ thuật sử dụng – Các ứng dụng 18 Các quan niệm KPDL CSDLccần ầnkhai khaithác thác CSDL Quan hệ Databases Giao tác Huớng đối tượng Huớng đối tượng, quan hệ Active Không gian Thời gian Text, XML Multi-media Heterogeneous Legacy Inductive WWW etc 19 Các quan niệm KPDL ácvụ vụkhai khaithác thác TTác Đặc trưng Knowledge Phân biệt = task Kết hợp Phân lớp Gom cụm Xu Phân tích độ lệch Phân tích etc 20 Các quan niệm KPDL Các áckỹ kỹthuật thuậtđã đãsử sửdụng dụng C CSDL TechniquesNhà kho liệu (OLAP) Máy học Thống kê Trực quan hóa Mạng nơron thuật giải GA 21 Các quan niệm KPDL Các ácứng ứngdụng dụng C Bán lẻ, siêu thị Applic Ngân hàng Khai thác gen Phân tích cổ phiếu KTDL Web Phân tích liệu 22 Các ứng dụng Sản xuất Kinh doanh - Phân tích liệu bán hàng tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 12/03/15 - Không gian - Sinh học - Địa lý - etc - Điều khiển lập lịch - Quản trị mạng lưới - Phân tích kết thử nghiệm Y học - Bệnh lý - Sinh học 23 www.lhu.edu.vn Các kỹ thuật sử dụng Tìm đặc trưng lớp đối tượng sử dụng để phân lớp liệu Gom cụm Phân lớp ? Dữ đoán liệu tương lai dựa liệu khứ Dự đoán Mẫu 12/03/15 Xác định cụm tiềm ẩn tập đối tượng chưa xếp lớp Tìm mẫu phổ biến từ liệu mối quan hệ đối tượng liệu Luật kết hợp Khám phá mẫu tín hiệu phổ biến từ liệu kiện Xác định trật tự liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá Nhà kho- OLAP 24 www.lhu.edu.vn Kết luận KPDL: tiến trình khám phá bán tự động thông tin, mẫu có ích từ CSDL lớn Các bước KDD – Tiền xử lý – KTDL( data mining tasks) – Hậu xử lý Các quan niệm, khía cạnh … – CSDL (quan hệ, hướng đối tượng, không gian, WWW, …) Tri thức (đặc trưng, gom cụm, kết hợp, …) – Kỹ thuật (máy học, thống kê, trực quan hóa, …) – Ứng dụng (bán lẻ, điện thoại, khai thác Web …) 12/03/15 25 www.lhu.edu.vn [...].. .Khai phá dữ liệu có ích lợi gì ? •Cung cấp tri thức hỗ trợ ra quyêt định •Dự báo •Khái quát dữ liệu Tiếp thị CSDL Tiếp Nhà kho dữ liệu thị KDD & Data Mining 11 Tiến trình khai phá dữ liệu( 1) Nghiên êncứu cứulĩnh lĩnhvực vực Nghi ạotập tậpdữ d liệu liệuđầu đầuvào vào TTạo Tiền ềnxử xửlý/ lý/làm làmsạch, sạch,mã mã hóa hóa Ti Rút útgọn gọn//chiều chiều R Chọn ọntác tácvụ v Khai Khaithác thácdữ d liệu. .. lớp dữ liệu mới Gom cụm Phân lớp ? Dữ đoán dữ liệu tương lai dựa trên dữ liệu quá khứ Dự đoán Mẫu tuần tự 12/03/15 Xác định các cụm tiềm ẩn trong các tập đối tượng chưa được xếp lớp Tìm các mẫu phổ biến từ dữ liệu và mối quan hệ của các đối tượng dữ liệu Luật kết hợp Khám phá các mẫu tín hiệu phổ biến nhất từ dữ liệu các sự kiện Xác định trật tự dữ liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá. .. Thông tin • X lives in Z Dữ liệu • Customer data • S is Y years old • X and S moved • W has money in Z • Store data • Demographical Data • Geographical data 16 Các quan niệm về KPDL Các tiếp cận tổng quan: – KPDL mô tả : • Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ liệu • Giải thích dữ liệu đó – KPDL dự báo: • Dựa trên dữ liệu quá khứ, dự báo tương lai • Xu thế phát triển! 17 Các quan... Các áckỹ kỹthuật thuậtđã đãsử sửdụng dụng C CSDL TechniquesNhà kho dữ liệu (OLAP) Máy học Thống kê Trực quan hóa Mạng nơron và thuật giải GA 21 Các quan niệm về KPDL Các ácứng ứngdụng dụng C Bán lẻ, siêu thị Applic Ngân hàng Khai thác gen Phân tích cổ phiếu KTDL Web Phân tích dữ liệu 22 Các ứng dụng Sản xuất Kinh doanh - Phân tích dữ liệu bán hàng và tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định... útgọn gọn//chiều chiều R Chọn ọntác tácvụ v Khai Khaithác thácdữ d liệu liệu Ch 12 Tiến trình khai phá dữ liệu( 2) Chọn ọn các các thuật thuật giải giải KTDL KTDL Ch KTDL: TTìm ìmkiếm kiếmtri trithức thức KTDL: Đánhgiá giámẫu mẫutìm tìmđược được Đánh Biểu ểu diễn diễn tri tri thức thức Bi dụngcác cáctri trithức thứcvừa vừakhám khámphá phá SSửửdụng 13 Tiến trình KDD tiêu biểu Time based selection n ctio... patterns 14 Khai phá dữ liệu Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 15 Từ dữ liệu đến... KTDL Quan niệm dựa trên … – CSDL để khai thác – Tri thức được khám phá – Các kỹ thuật được sử dụng – Các ứng dụng 18 Các quan niệm về KPDL CSDLccần ầnkhai khaithác thác CSDL Quan hệ Databases Giao tác Huớng đối tượng Huớng đối tượng, quan hệ Active Không gian Thời gian Text, XML Multi-media Heterogeneous Legacy Inductive WWW etc 19 Các quan niệm về KPDL ácvụ v khai khaithác thác TTác Đặc trưng Knowledge... www.lhu.edu.vn Kết luận KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ CSDL lớn Các bước của KDD – Tiền xử lý – KTDL( data mining tasks) – Hậu xử lý Các quan niệm, khía cạnh … – CSDL (quan hệ, hướng đối tượng, không gian, WWW, …) Tri thức (đặc trưng, gom cụm, kết hợp, …) – Kỹ thuật (máy học, thống kê, trực quan hóa, …) – Ứng dụng (bán lẻ, điện thoại, khai thác Web …) 12/03/15 25 www.lhu.edu.vn ... tậpdữ d liệu liệuđầu đầuvào vào TTạo Tiền ềnxử xửlý/ lý/làm làmsạch, sạch,mã mã hóa hóa Ti Rút útgọn gọn//chiều chiều R Chọn ọntác tácvụ v Khai Khaithác thácdữ d liệu liệu Ch 12 Tiến trình khai. .. Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 12/03/15 www.lhu.edu.vn Khai phá liệu gì? Khai phá liệu (Datamining) bước quy trình khám phá tri thức, nhằm: – Rút... thông tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn – Phân tích liệu bán tự động – Giải thích liệu tập liệu lớn 12/03/15 www.lhu.edu.vn Lợi ích khai phá liệu Giá trị EDP MIS DSS Số lượng 12/03/15

Ngày đăng: 03/12/2015, 05:48

TỪ KHÓA LIÊN QUAN

w