Data Warehouse
Data Warehouse Các khái niệm cơ bản Nội dung Nhà kho dữ liệu là gì? So sánh khác nhau giữa OLTP và DW Phạm vi, kiểu của DW và vị trí của ODS Data mart (chợ dữ liệu) Kiến trúc DW Các thành phần chính của DW Hình dung một Nhà kho dữ liệu Dữ liệu lịch sử Theo chủ đề hoặc lĩnh vực cụ thể Bao gồm dữ liệu nội bộ và bên ngoài Chất lượng dữ liệu cao Thường được lưu trong một hệ quản trị CSDL quan hệ Dễ dàng truy cập bởi các công cụ theo yêu cầu khai thác của người sử dụng Nhà kho dữ liệu là gì? Một Nhà kho dữ liệu là một hệ thống quản lý tập hợp các dữ liệu hướng chủ đề, tích hợp, phụ thuộc thời gian, b t bi n , được thiết kế để phục vụ cho các hệ trợ giúp quyết định. Hướng chủ đề Nhà kho dữ liệu tập trung nhiều hơn vào các chủ đề chung ví dụ là khách hàng, sản phẩm, Thị trư ờng.v .v Hệ thống OLTP Hệ thống OLTP Data Warehouse Data Warehouse Tiền vay Tiết kiệm Phát hành séc Trái phiếu Thẻ tín dụng Sản phẩm Vùng Khách hàng Hoạt động Thị trường Tích hợp Dữ liệu được đưa vào theo một cách thống nhất Các HT điều hành Các HT điều hành Data Warehouse Data Warehouse Mr. J. Smith Mr. J. Smith Joe Smith Joe Smith Smith, Joseph Smith, Joseph J. Smith J. Smith Mr. J. Smith Mr. J. Smith Database A Database B Database C Database D D bal-on-hand bal-on-hand balance balance curr_bal curr_bal cash_avail cash_avail balance balance Database A Database B Database C Database D B t bi n Dữ liệu trong kho dữ liệu không được sửa đổi. Định nghĩa này chỉ mang tính lý thuyết và đã thay đổi trong thực tế. Cập nhật Xoá Thêm Tra cứu Cập nhật Xoá Thêm Tra cứu Truy vấn Truy vấn Các hệ Các hệ thống điều thống điều hành hành Data Warehouse Data Warehouse Truyền tải Truyền tải dữ liệu dữ liệu Truyền tải, làm tươi và cập nhật dữ liệu Truyền tải ban đầu Làm tươi Cập nhật Data Warehouse Data Warehouse Dữ liệu điều hành Dữ liệu điều hành và bên ngoài và bên ngoài Truyền tải dữ Truyền tải dữ liệu ban đầu liệu ban đầu Jan Jan 2002 2002 Feb Feb 2002 2002 Mar Mar 2002 2002 Làm tươi dữ liệu hàng Làm tươi dữ liệu hàng tháng tháng Làm tươi dữ liệu hàng Làm tươi dữ liệu hàng tháng tháng Phụ thuộc thời gian Dữ liệu trong kho dữ liệu được lưu trữ một cách đặc thù trong một chu kỳ thời gian Vòng đời DL Vòng đời DL Nôi dung Nôi dung Dữ liệu Dữ liệu 2-10 years 2-10 years Có phần tử thời Có phần tử thời gian gian Không sửa đổi Không sửa đổi được được HT điều hành HT điều hành Data Warehouse Data Warehouse 60-90 days 60-90 days Không có phần Không có phần tử thời gian tử thời gian Sửa đổi được Sửa đổi được So sánh sự khác nhau giữa các hệ thống DW và điều hành Đặc trưng KíchthướcCSDL Nguồn DL Kiểu truy cập Chu kỳ t/g Tải trọng Kiểu sử dụng HT Điều hành < 100 GB Nội bộ đọc và ghi Dữ liệu hiện thời Tính trước Điều hành và báo cáo Warehouse 500 GB đến 2 TB Nội bộ và cả bên ngoài Chỉ đọc Dữ liệu lịch sử Không tính trước được Phân tích, dự báo, khai khá [...]... DWH Lưu lượng truyền dữ liệu qua mạng Data Mart Kiểu phụ thuộc: Dữ liệu được cung cấp từ một DWH Kiểu độc lập: Dữ liệu được cung cấp từ các nguồn nội bộ và bên ngoài Data Warehouse HTđiều hành Data Mart Phụ thuộc Phụ thuộc Độc lập Kiến trúc kho dữ liệu Data Warehouse (phòng ban) Chợ dữ liệu Data ứng dụng Warehouse Dữ liệu tài sản (legacy) Data công cụ truy vấn, Warehouse OLAP Kho dữ liệu (xí nghiệp)... 18:00 Tần suất sử dụng CPU Tần suất sử dụng CPU Tần suất khai thác Data Warehouse 00:00 06:00 12:00 18:00 Các kiểu Nhà kho dữ liệu chính Xí nghiệp (Data Warehouse) Phòng ban (Data Mart) Phân tích (OLAP) Kết xuất thông tin Kho dữ liệu điều hành (ODS) và Warehouse Nuôi dữ liệu HT điều hành ODS Nuôi dữ liệu Các người dùng Data Warehouse Data Marts Bao gồm các tập con của dữ liệu WH Mang tính địa... dụng Warehouse Dữ liệu tài sản (legacy) Data công cụ truy vấn, Warehouse OLAP Kho dữ liệu (xí nghiệp) Dữ liệu Kho dữ liệu tác nghiệp Các nguồn dữ liệu bên ngoài (xí nghiệp) Data Warehouse (phòng ban) Chợ dữ liệu Data Khai phá Dữ liệu Warehouse Các thành phần của kho d ữ liệu Một tập hợp đa tầng đa ứng dụng bao gồm rất nhiều thành phần Mỗi thành phần có thể được xử lý bởi một hay nhiều mảng phần cứng hoặc... quản lý với các công cụ siêu dữ liệu - Các công cụ thiết kế và quản lý cũng là những thành phần quan trọng của một kho dữ liệu Các thành phần của kho dữ liệu Nguồn cung cấp Dữ liệu Tác nghiệp Lưu trữ Data Warehouse Siêu dữ liệu Kết xuất Biến đổi Di chuyển Sử dụng Các công cụ SQL, các ứng dụng Dữ liệu Các công cụ OLAP Dữ liệu bên ngoài Các công cụ Khai phá dữ liệu Tóm tắt Những đặc trưng chính của... Phân biệt DW với OLTP Phạm vi, kiểu và kiến trúc DW ODS và DM Kiến trúc DW Các thành phần chính Hướng chủ đề, tích hợp, phụ thuộc thời gian và không bị phá huỷ có phải là định nghĩa để xác định một Data Warehouse? Có Không Có phải OLTP hỗ trợ cho các nhu cầu nghiệp vụ cụ thể còn DWH hỗ trợ cho nhu cầu phân tích? Có Không Truyền tải dữ liệu theo khối, truy vấn tuỳ biến và dữ liệu lịch sử là đặc...Đặc trưng của DWH Đặc trưng HT điều hành Warehouse Dữ liệu Giao dịch hiện tại Dữ liệu lịch sử, tổng hợp Giao dịch S/lượng lớn các g/dịch nhỏ Số lượng nhỏ các giao dịch lớn Tổ chức DL Theo tiến trình ng/vụ Theo chủ đề Người dùng Người dùng cuối