1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu

129 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 129
Dung lượng 2,07 MB

Nội dung

Mời các bạn tham khảo bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu sau đây để nắm bắt những kiến thức về khái niệm kho dữ liệu; mô hình dữ liệu đa chiều; kiến trúc kho dữ liệu; thi hành kho dữ liệu; từ xây dựng kho dữ liệu tới khai phá dữ liệu; sự phát triển mới của công nghệ khối dữ liệu.

Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung Kho liệu Tài liệu sử dụng phần Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook — ©Jiawei Han and Micheline Kamber Department of Computer Science University of Illinois at Urbana-Champaign www.cs.uiuc.edu/~hanj May 8, 2021 Kho liệu khai phá liệu: Chương Nội dung  Khái niệm kho liệu  Mơ hình liệu đa chiều  Kiến trúc kho liệu  Thi hành kho liệu  Từ xây dựng kho liệu tới KPDL  Sự phát triển công nghệ khối liệu May 8, 2021 Kho liệu khai phá liệu: Chương Khái niệm kho liệu  Kho liệu (KDL) định nghĩa theo nhiều cách song không nghiêm ngặt (chính xác)  CSDL hỗ trợ định trì tách biệt với CSDL tác nghiệp tổ chức  Hỗ trợ xử lý thông tin nhờ cung cấp tảng vững liệu hợp nhất, lịch sử để phân tích  “KDL tập hợp liệu hướng chủ đề, tích hợp, có tính thời gian khơng thay đổi để hỗ trợ q trình tạo định quản lý.”—W H Inmon [Inm02]  Bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian không thay đổi [Inm02] W H Inmon (2002) Building the Data Warehouse (Third Edition) John Wiley & Sons, Inc May 8, 2021 Kho liệu khai phá liệu: Chương Kho liệu: khái niệm  Kho liệu môi trường thông tin [Pon01]:  Cung cấp khung nhìn tích hợp tổng thể doanh nghiệp  Tạo sẵn có thông tin lịch sử doanh nghiệp để thuận lợi định  Tạo khả giao dịch hỗ trợ định mà không cản trở hệ thống tác nghiệp  Cung cấp tính quán thơng tin doanh nghiệp  Trình diễn nguồn thơng tin chiến lược linh hoạt tương tác Bổ sung đặc trưng thứ năm “kết hạt liệu - Data Granularity” [Pon01] Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001 Kho liệu khai phá liệu: Chương May 8, 2021 Kiến trúc kho liệu: sơ [Ora02] Oracle9 i Data Warehousing Guide, Release (9.2), March 2002, Part No A96520-01 Kho liệu khai phá liệu: Chương May 8, 2021 Tạo kho liệu – Data warehousing Xây dựng KDL (“KDL hóa”): Q trình xây dựng sử dụng KDL May 8, 2021 Kho liệu khai phá liệu: Chương KDL — đặc trưng hướng chủ đề  Được tổ chức xung quanh chủ đề chính, chẳng hạn khách hàng, sản phẩm, bán hàng  Tập trung vào xây dựng mô hình phân tích liệu để tạo định; khơng phái q trình tác nghiệp giao dịch hàng  Cung cấp khung nhìn đơn giản ngắn gọn đề tài thuộc chủ đề cụ thể nhờ loại bỏ liệu vô dụng trình định Kho liệu khai phá liệu: Chương May 8, 2021 KDL — đặc trưng hướng chủ đề Ứng dụng tác nghiệp KDL chủ đề Kho liệu khai phá liệu: Chương May 8, 2021 KDL - đặc trưng tích hợp   KDL đươc xây dựng từ việc tích hợp nguồn liệu phức, khơng đồng  CSDL quan hệ, CSDL file phẳng (flat files: mã hóa CSDL sang dạng đặc biệt txt ini), ghi giao dịch trực tuyến Sử dụng kỹ thuật làm liệu tích hợp liệu  Đảm bảo tính quán quy ước đặt tên, cấu trúc mã hóa, đo lường thuộc tính, … nguồn liệu khác   VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng… Dữ liệu chuyển tới KDL chuyển đổi Kho liệu khai phá liệu: Chương May 8, 2021 KDL - đặc trưng tích hợp Kho liệu khai phá liệu: Chương May 8, 2021 10 Top-k Average   Let (*, Van, *) cover 1,000 records  Avg(price) is the average price of those 1000 sales  Avg50(price) is the average price of the top-50 sales (top-50 according to the sales price Top-k average is anti-monotonic  The top 50 sales in Van is with avg(price) = 800   Small value binning: a group of bins   May 8, 2021 If count>=800, no need to check “small” records One bin covers a range, e.g., 600~800, 400~600, etc Register a sum and a count for each bin Kho liệu khai phá liệu: Chương 116 Approximate top-k average Suppose for (*, Van, *), we have Range Sum Coun t Over 800 2800 20 600~80 1060 15 400~60 1520 30 … … … May 8, 2021 Approximate avg50()= (28000+10600+600*15)/50=952 Top 50 The cell may pass the HAVING clause Month City Cust_grp Prod Cost Price … … … … … … Kho liệu khai phá liệu: Chương 117 Quant-info for Top-k Average Binning  Accumulate quant-info for cells to compute average iceberg cubes efficiently  Three pieces: sum, count, top-k bins  Use top-k bins to estimate/prune descendants  Use sum and count to consolidate current cell weakest strongest Approximate avg50() real avg50() Anti-monotonic, Anti-monotonic, but can be computed computationally efficiently Kho liệu khai phá dữcostly liệu: Chương May 8, 2021 avg() Not antimonotoni c 118 An Efficient Iceberg Cubing Method: Top-k H-Cubing  One can revise Apriori or BUC to compute a top-k avg iceberg cube This leads to top-k-Apriori and top-k BUC  Can we compute iceberg cube more efficiently?  Top-k H-cubing: an efficient method to compute iceberg cubes with average measure  H-tree: a hyper-tree structure  H-cubing: computing iceberg cubes using H-tree May 8, 2021 Kho liệu khai phá liệu: Chương 119 H-tree: A Prefix Hyper-tree Hhd Bus … Jan Feb … Tor Van Mon Cust_gr City … p QuantSide-link Info Sum:2285 … … … … … … … … … … Prod… Cost Price Jan Tor Edu Printer 500 485 Jan Tor Hhd TV 800 1200 Jan Tor Edu Camer a 1160 1280 Feb Mon Bus Laptop 1500 2500 Mar Van Edu HD Attr Val Edu Header table Month May … 8, 2021 … … root bus hhd edu Jan Mar Jan Feb Tor Van Tor Mon QuantInfo Q.I Q.I Q.I Sum: 1765 Cnt: 540 520 Kho liệu khai phá liệu: Chương bins … … … 120 Properties of H-tree  Construction cost: a single database scan  Completeness: It contains the complete information needed for computing the iceberg cube  May 8, 2021 Compactness: # of nodes  n*m+1  n: # of tuples in the table  m: # of attributes Kho liệu khai phá liệu: Chương 121 Computing Cells Involving Dimension City Header Table HTor Attr Val Edu Hhd Bus … Jan Feb … Tor Van Mon … May 8, 2021 Attr Val Edu Hhd Bus … Jan Feb … Quant-Info Sum:2285 … … … … … … … … … … … Q.I Sidelink From (*, *, Tor) to (*, Jan, Tor) … … … … … … … root Hhd Edu Jan Side-link Tor QuantInfo Mar Jan Bus Feb Van Tor Mon Q.I Q.I Q.I Sum: 1765 Kho liệu khai phá dữCnt: liệu: Chương 122 Computing Cells Involving Month But No City Roll up quant-info Compute cells involving month but noVal.city Attr Quant-Info Side-link Edu Hhd Bus … Jan Feb Mar … Tor Van Mont … May 8, 2021 Sum:2285 … … … … … … … … … … … … root Edu Tor Hhd Bus Jan Mar Jan Feb Q.I Q.I Q.I Q.I Van Tor Mont Top-k OK mark: if Q.I in a child passes top-k avg threshold, so does its parents No binning is needed! Kho liệu khai phá liệu: Chương 123 Computing Cells Involving Only Cust_grp root Check header table directly Attr Val Edu Hhd Bus … Jan Feb Mar … Tor Van Mon … May 8, 2021 Quant-Info Sum:2285 … … … … … … … … … … … … hhd edu Side-link bus Jan Mar Jan Feb Q.I Q.I Q.I Q.I Van Tor Tor Kho liệu khai phá liệu: Chương Mon 124 Properties of H-Cubing  Space cost  an H-tree  a stack of up to (m-1) header tables  One database scan  Main memory-based tree traversal & sidelinks updates  Top-k_OK marking May 8, 2021 Kho liệu khai phá liệu: Chương 125 Scalability w.r.t Count Threshold (No min_avg Setting) Runtime (second) 300 top-k H-Cubing 250 top-k BUC 200 150 100 50 0.00% 0.05% 0.10% Count threshold May 8, 2021 Kho liệu khai phá liệu: Chương 126 Computing Iceberg Cubes with Other Complex Measures  Computing other complex measures  Key point: find a function which is weaker but ensures certain anti-monotonicity  Examples  Avg()  v: avgk(c)  v (bottom-k avg)  Avg()  v only (no count): max(price)  v  Sum(profit) (profit can be negative):   p_sum(c)  v if p_count(c)  k; or otherwise, sum k(c)  v Others: conjunctions of multiple conditions May 8, 2021 Kho liệu khai phá liệu: Chương 127 Discussion: Other Issues    Computing iceberg cubes with more complex measures?  No general answer for holistic measures, e.g., median, mode, rank  A research theme even for complex algebraic functions, e.g., standard_dev, variance Dynamic vs static computation of iceberg cubes  v and k are only available at query time  Setting reasonably low parameters for most nontrivial cases Memory-hog? what if the cubing is too big to fit in memory?—projection and then cubing May 8, 2021 Kho liệu khai phá liệu: Chương 128 Condensed Cube  W Wang, H Lu, J Feng, J X Yu, Condensed Cube: An Effective Approach to Reducing Data Cube Size ICDE’02  Icerberg cube cannot solve all the problems   Suppose 100 dimensions, only base cell with count = 10 How many aggregate (non-base) cells if count >= 10? Condensed cube  Only need to store one cell (a1, a2, …, a100, 10), which represents all the corresponding aggregate cells  Adv   May 8, 2021 Fully precomputed cube without compression Efficient computation of the minimal condensed cube Kho liệu khai phá liệu: Chương 129 ... Khái niệm kho liệu  Mô hình liệu đa chiều  Kiến trúc kho liệu  Thi hành kho liệu  Từ xây dựng kho liệu tới KPDL  Sự phát triển công nghệ khối liệu May 8, 2021 Kho liệu khai phá liệu: Chương. .. khn dạng liệu khơng qn (cần phải Kho liệu khai phá liệu: Chương hòa hợp) May 8, 2021 20 Kho liệu riêng biệt Kho liệu khai phá liệu: Chương May 8, 2021 21 Từ bảng bảng tính tới khối liệu  Một... item,location,supplier 2-D cuboids 3- D cuboids time,location,supplier 4-D(base) cuboid time, item, location, supplier Kho liệu khai phá liệu: Chương May 8, 2021 23 Chương 3: Cơ sở kho liệu  Khái niệm kho liệu

Ngày đăng: 08/05/2021, 18:47