1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 5: Khai phá dữ liệu trong kinh doanh (P2)

128 61 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 128
Dung lượng 4,6 MB

Nội dung

Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 5: Khai phá dữ liệu trong kinh doanh cung cấp cho người học các kiến thức: Giới thiệu chung về khai phá dữ liệu, khai phá luật kết hợp và ứng dụng, phân lớp dữ liệu và ứng dụng, phân cụm dữ liệu và ứng dụng, khai phá dữ liệu chuỗi thời gian, một số ứng dụng khác.

Chương 5-P2: Khai phá liệu kinh doanh Data Warehouse and Business Intelligence Nội dung Giới thiệu chung khai phá liệu Khai phá luật kết hợp ứng dụng Phân lớp liệu ứng dụng Phân cụm liệu ứng dụng Khai phá liệu chuỗi thời gian Một số ứng dụng khác Data Warehouse and Business Intelligence Giới thiệu chung khai phá liệu 1.1 Khái niệm khai phá liệu 1.2 Quá trình khám phá tri thức 1.3 Khai phá liệu kinh doanh thơng minh 1.4 Q trình khám phá tri thức 1.5 Các lĩnh vực có ảnh hưởng đến khai phá liệu Data Warehouse and Business Intelligence 1.1 Khái niệm khai phá liệu  Khai phá liệu  q trình trích xuất tri thức từ lượng lớn liệu • “extracting or mining knowledge from large amounts of data” • “knowledge mining from data”  q trình khơng dễ trích xuất thơng tin ẩn, hữu ích, chưa biết trước từ liệu • “the nontrivial extraction of implicit, previously unknown, and potentially useful information from data”  Các thuật ngữ thường dùng tương đương: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence Data Warehouse and Business Intelligence 1.2 Quá trình khám phá tri thức Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources Data Warehouse and Business Intelligence 1.3 Khai phá liệu kinh doanh thông minh Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques End User Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems Data Warehouse and Business Intelligence DBA 1.4 Quá trình khám phá tri thức Input Data Data PreProcessing Data integration Normalization Feature selection Dimension reduction Data Mining Pattern discovery Association & correlation Classification Clustering Outlier analysis ………… PostProcessing Pattern Pattern Pattern Pattern evaluation selection interpretation visualization • This is a view from typical machine learning and statistics communities Data Warehouse and Business Intelligence 1.5 Các lĩnh vực có ảnh hưởng đến khai phá liệu Machine Learning Applications Algorithm Pattern Recognition Data Mining Database Technology Data Warehouse and Business Intelligence Statistics Visualization High-Performance Computing 1.5 Các lĩnh vực có ảnh hưởng đến khai phá liệu  Học máy (Machine Learning)  Học có giám sát (Supervised learning)  Học khơng có giám sát (Unsupervised learning)  Học bán giám sát (Semi-supervised learning)  Học tích cực (Active learning) Data Warehouse and Business Intelligence Khai phá luật kết hợp ứng dụng  Các khái niệm sở  Mẫu phổ biến khai phá luật Data Warehouse and Business Intelligence 10 Variables of Mixed Types  A database may contain all the six types of variables  symmetric binary, asymmetric binary, nominal, ordinal, interval and ratio  One may use a weighted formula to combine their effects  pf  1 ij( f ) dij( f ) d (i, j)   pf  1 ij( f )  f is binary or nominal: • dij(f) = if xif = xjf , or dij(f) = otherwise  f is interval-based: use the normalized distance  f is ordinal or ratio-scaled • compute ranks rif and • and treat zif as interval-scaled Data Warehouse and Business Intelligence zif  r M if 1 f 1 127 4.2 Thuât toán K-mean  Input  Số nguyên k > 0: số cụm biết trước  Tập tài liệu D (cho trước)  Output  Phân D thành k cụm “tốt nhất”, đối tượng thuộc cụm  Định hướng  Tinh chỉnh dần  Mỗi cụm gồm đối tượng đại diện đối tượng gần đại diện cụm S = {dS* dD mà sim (d,dS*) > sim (d,dS), dS đại diện cụm khác Data Warehouse and Business Intelligence 130 4.4 Thuật tốn K-mean Data Warehouse and Business Intelligence 131 Ví dụ  Cho tập hợp điểm: • X1={1,3} • X2={1.5,3.2} • X3={1.3,2.8} • X4={3,1} Data Warehouse and Business Intelligence 132 4.4 Thuật toán K-mean Data Warehouse and Business Intelligence 133 4.4 Thuật toán K-mean  Ưu điểm      Đơn giản, dễ sử dụng Hiệu thời gian: tuyến tính O(tkn), t số lần lặp, k số cụm, n số phần tử Một thuật toán phân cụm phổ biến Thường cho tối ưu cục Tối ưu tồn cục khó tìm Nhược điểm      Phải “tính trung bình được”: liệu phân lớp dựa theo tần số Cần cho trước k : số cụm Nhạy cảm với ngoại lệ (cách xa so với đại đa số liệu lại): ngoại lệ thực tế, ngoại lệ quan sát sai (làm liệu) Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thô tốt Không thích hợp với tập liệu khơng siêu-ellip siêu cầu (các thành phần khơng ellip/cầu hóa) Data Warehouse and Business Intelligence 135 4.4 Thuật toán K-mean Data Warehouse and Business Intelligence 136 Đánh giá kết gom cụm: Đánh giá  Giả sử G1 , G2 , … , Gn tập cụm gom cụm q trình học có giám sát A1 , A2 , … , An tập cụm gom cụm giải thuật đề nghị  Cho D tập liệu chứa chuỗi liệu đặc trưng, với cặp (Di , Dj) ta đếm số liệu sau:  a số cặp thuộc cụm G gom cụm tương ứng A  b số cặp thuộc cụm G không gom cụm tương ứng A  c số cặp thuộc cụm A không gom cụm tương ứng G  d số cặp không thuộc cụm A không gom cụm tương ứng G Data Warehouse and Business Intelligence 137 Đánh giá kết gom cụm: Đánh giá Sử dụng phép đo sau:  Hệ số tương đồng (%) Jaccard (1901):  𝐽𝑎𝑐𝑐𝑎𝑟𝑑 = 𝑎 𝑎+𝑏+𝑐  Hệ số Rand:  𝑅𝑎𝑛𝑑 = 𝑎+𝑑 𝑎+𝑏+𝑐+𝑑  Hệ số Folkes Mallow (FM):  𝐹𝑀 = 𝑎 𝑎+𝑏 × 𝑎 𝑎+𝑐 Data Warehouse and Business Intelligence 138 Khai phá liệu chuỗi thời gian 5.1 Giới thiệu chuỗi thời gian 5.2 Khai phá liệu chuỗi thời gian 5.3 Ứng dụng Data Warehouse and Business Intelligence 139 5.1 Giới thiệu chuỗi thời gian  Chuỗi thời gian (Time series): Chuỗi theo thời gian chuỗi gía trị đại lượng ghi nhận theo thời gian  Các thành phần chuỗi thời gian:     Thành phần xu huớng (Trend component) Thành phần mùa (Seasonal component) Thành phần chu kỳ (Cyclical component) Thành phần bất thuờng (Irregular component)  Phân tích chuỗi thời gian  Mơ hình cộng: TS = T + C + S + I  Mơ hình nhân: TS = T  C  S  I Data Warehouse and Business Intelligence 140 5.2 Khai phá liệu chuỗi thời gian  Tìm kiếm tương tự (Similarity Search)  Phân lớp (Classification)  Phân cụm (Clustering)  Phát mơ-típ (Motif Discovery)  Novelty/Anomaly Detection  Time series visualization  Time series prediction Data Warehouse and Business Intelligence 141 5.3 Ứng dụng  Financial: stock price, inflation  Industry: power consumption  Scientific: experiment results  Meteorological: precipitation Data Warehouse and Business Intelligence 142 Một số ứng dụng khác  Text Mining  Web Mining Data Warehouse and Business Intelligence 144 Tham khảo  Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006  Vercellis- Carlo, “Business Intelligence: Data Mining and Optimization for Decision Making”, John Wiley & Sons, 2009 Data Warehouse and Business Intelligence 145 ... chung khai phá liệu 1.1 Khái niệm khai phá liệu 1.2 Quá trình khám phá tri thức 1.3 Khai phá liệu kinh doanh thông minh 1.4 Quá trình khám phá tri thức 1.5 Các lĩnh vực có ảnh hưởng đến khai phá liệu. ..Nội dung Giới thiệu chung khai phá liệu Khai phá luật kết hợp ứng dụng Phân lớp liệu ứng dụng Phân cụm liệu ứng dụng Khai phá liệu chuỗi thời gian Một số ứng dụng khác Data... subsets according to f-list       F-list = f-c-a-b-m-p Patterns containing p Patterns having m but no p … Patterns having c but no a nor b, m, p Pattern f  Completeness and non-redundency Data

Ngày đăng: 08/05/2021, 18:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN