chương 3 môn kho dữ liệu về khai phá dữ liệu: giới thiệu chung về kho dữ liệu
March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 3 1 Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung về Kho dữ liệu Tài liệu này sử dụng một phần Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook — ©Jiawei Han and Micheline Kamber Department of Computer Science University of Illinois at Urbana-Champaign www.cs.uiuc.edu/~hanj March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 3 2 Nội dung Khái niệm kho dữ liệu Mô hình dữ liệu đa chiều Kiến trúc kho dữ liệu Thi hành kho dữ liệu Từ xây dựng kho dữ liệu tới KPDL Sự phát triển mới của công nghệ khối dữ liệu March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 3 Khái niệm kho dữ liệu Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song không nghiêm ngặt (chính xác). CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác nghiệp của tổ chức. Hỗ trợ xử lý thông tin nhờ cung cấp một nền tảng vững chắc dữ liệu hợp nhất, lịch sử để phân tích. “KDL là một tập hợp dữ liệu hướng chủ đề , tích hợp , có tính thời gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản lý.”—W. H. Inmon [Inm02] Bốn “đặc trưng”: hướng chủ đề , tích hợp , có tính thời gian và không thay đổi [Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition) . John Wiley & Sons, Inc. March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 4 Kho dữ liệu: khái niệm Kho dữ liệu là một môi trường thông tin [Pon01]: Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để thuận lợi ra quyết định Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ thống tác nghiệp Cung cấp tính nhất quán thông tin doanh nghiệp Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity” [Pon01] Paulraj Ponniah, Data warehousing fundamentals , John Wiley & Sons Inc., 2001 March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 5 Kiến trúc kho dữ liệu: sơ bộ [Ora02] Oracle9 i. Data Warehousing Guide, Release 2 (9.2), March 2002, Part No. A96520-01 March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 6 Tạo kho dữ liệu – Data warehousing Xây dựng KDL (“KDL hóa”): Quá trình xây dựng và sử dụng KDL March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 7 KDL — đặc trưng hướng chủ đề Được tổ chức xung quanh các chủ đề chính, chẳng hạn như khách hàng , sản phẩm , bán hàng . Tập trung vào xây dựng mô hình và phân tích dữ liệu để tạo quyết định ; không phái quá trình tác nghiệp hoặc giao dịch hàng này. Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng trong quá trình ra quyết định. March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 8 Ứng dụng tác nghiệp chủ đề KDL KDL — đặc trưng hướng chủ đề March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 9 KDL - đặc trưng tích hợp KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu phức, không đồng nhất CSDL quan hệ, CSDL file phẳng (flat files: mã hóa CSDL sang dạng đặc biệt như .txt hoặc .ini), các bản ghi giao dịch trực tuyến Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu. Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã hóa, đo lường thuộc tính, … giữa các nguồn dữ liệu khác nhau VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng… Dữ liệu chuyển tới KDL thì nó được chuyển đổi. March 14, 2013 Kho dữ liệu và khai phá dữ liệu: Chương 2 10 KDL - đặc trưng tích hợp [...]... time, item, location, supplier March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 23 Chương 3: Cơ sở về kho dữ liệu Khái niệm kho dữ liệu Mô hình dữ liệu đa chiều Kiến trúc kho dữ liệu Thi hành kho dữ liệu Từ xây dựng kho dữ liệu tới KPDL Sự phát triển mới của công nghệ khối dữ liệu March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 3 24 Mô hình khái niệm của KDL Mô hình KDL:... nhất dữ liệu: Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp, tóm tắt) của dữ liệu từ các nguồn không đồng nhất Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp) Kho dữ liệu và khai phá dữ liệu: Chương 2 20 Kho dữ liệu riêng biệt March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 21 Từ các bảng và bảng tính tới khối dữ liệu ... của dữ liệu tác nghiệp có thể chứa hoặc không chứa “yếu tố thời gian” March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 13 KDL - đặc trưng thời gian •Chiều thời gian hiện thời tới 6090 ngày •Cập nhật hồ sơ •Cấu trúc chính chứa / không chứa yếu tố thời gian March 14, 20 13 •Chiều thời gian 5=10 năm •Anbum ảnh chụp dữ liệu •Cấu trúc chính chứa yếu tố thời gian Kho dữ liệu và khai phá dữ liệu: Chương. ..KDL: các vấn đề tích hợp March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 11 KDL: chủ đề - tích hợp March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 12 KDL - đặc trưng thời gian Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ thống CSDL tác nghiệp CSDL tác nghiệp: dữ liệu giá trị hiện thời Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch sử (chẳng... < inexpensive March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 35 Dữ liệu đa chiều Khối lượng bán hàng là một hàm của sản phẩm, tháng, và quận Các chiều: SP, Địa danh, Thời gian Các đường tóm tắt phân cấp Re gi on Industry Region Year Product Category Country Quarter Product City Office Month Week Day Month March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 36 ... trữ để mô tả một tập hợp con March 14, 20 13 Chẳng hạn, median(), mode(), rank() Kho dữ liệu và khai phá dữ liệu: Chương 2 33 Một kiến trúc khái niệm: chiều (địa danh) all all Europe region country city office March 14, 20 13 Germany Frankfurt Spain North_America Canada Vancouver L Chan Kho dữ liệu và khai phá dữ liệu: Chương 2 Mexico Toronto M Wind 34 Khung nhìn của các KDL và các kiến trúc... trữ vật lý riêng biệt các dữ liệu được chuyển từ môi trường tác nghiệp sang Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi trường KDL Không có xử lý giao dịch, phục hồi và cơ chế điều khiển đồng thời Chí có hai thao tác truy nhập dữ liệu: Tải ban đầu dữ liệu và truy cập dữ liệu Dữ liệu nguồn không biến đổi trong KDL March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 15 KDL - đặc trưng... March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 19 Kho dữ liệu riêng biệt Hiệu năng cao cho cả hai hệ thống DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ mục, điều khiển đồng thời, khôi phục Warehouse—phân bổ cho OLAP: truy vấn OLAP phức, khung nhìn đa chiều, hợp nhất Chức năng khác nhau và dữ liệu khác nhau: March 14, 20 13 Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch... country Measures March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 26 Ví dụ về sơ đồ bông tuyết time time_key day day_of_the_week month quarter year item Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales Measures March 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 item_key item_name brand type supplier_key... 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 2 25 Ví dụ về sơ đồ hình sao time item time_key day day_of_the_week month quarter year Sales Fact Table time_key item_key branch_key branch location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales item_key item_name brand type supplier_type location location_key street city state_or_province country Measures March 14, 20 13 Kho dữ liệu . 14, 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 3 1 Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung về Kho dữ liệu Tài liệu. 20 13 Kho dữ liệu và khai phá dữ liệu: Chương 3 2 Nội dung Khái niệm kho dữ liệu Mô hình dữ liệu đa chiều Kiến trúc kho dữ liệu Thi hành kho dữ liệu