1. Trang chủ
  2. » Công Nghệ Thông Tin

Data warehouse - OLAP - Business Intellignet(BI) ppt

77 516 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 0,92 MB

Nội dung

 Là một điểm truy cập tập trung dữ liệu của một tổ chức  Được trình bày ở một khuông dạng thích hợp  Là hệ thống chỉ đọc  Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng

Trang 5

Đặt vấn đề

 Để giành được lợi thế cạnh tranh , các

tổ chức kinh doanh phải có những thông tin , tri thức cần thiết một cách nhanh chóng và chính xác.

 Các nhà điều hành muốn lên kế hoạch cho tương lai công ty của mình.

=> Đòi hỏi thông tin mang tính phân tích

và hệ thống thông tin có khả năng hỗ trợ quyết định

Trang 6

Đặt vấn đề

Vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ, lưu trữ

nhiều nơi, ở nhiều dạng dữ liệu

khác nhau đó một cách hiệu quả trong các hệ thống thông tin lớn?

Trang 7

Kho dữ liệu Data warehouse

Theo Pandora , Swinburn University :

 Là một phương thức cho việc kết nối dữ

liệu từ nhiều hệ thống khác nhau.

 Là một điểm truy cập tập trung dữ liệu của một tổ chức

 Được trình bày ở một khuông dạng thích hợp

 Là hệ thống chỉ đọc

 Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng

Trang 8

Định nghĩa Data warehouse

 Theo Paul Lucas , IBM:

 Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán.

 Được tổng hợp về từ nhiều nguồn

 Được làm sẵn cho người sử dụng cuối

 Dễ hiểu

Trang 9

Định nghĩa Data warehouse

 Định nghĩa do W.H.Inmon đề xướng :

DWH là tập hợp dữ liệu tương đối ổn

định (không hay thay đổi),cập nhật

theo thời gian, được tích hợp theo

hướng chủ đề nhằm hỗ trợ quá trình

tạo quyết định về mặt quản lý.

(A data warehouse is a

subject-oriented, integrated, time-variant, and nonvolatile collection of data in

support of management’s

decision-making process.”—W H Inmon)

Trang 10

Định nghĩa Data warehouse

Trang 12

Hướng chủ đề (subject-oriented):

 Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales)

 Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày

 Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề

Trang 13

Hướng chủ đề

Trang 14

Hướng chủ đề

 Các chủ thể điển hình

 Các tài khoản khách hàng

 Việc bán hàng

 Tiền tiết kiệm của khách hàng

 Các yêu sách bảo hiểm

 Đặt chỗ hành khách

Trang 15

Định nghĩa Data warehouse

• Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ: Cơ sở dữ liệu quan hệ (relational databases), flat files( lưu trữ dữ liệu lên các tập tin dạng văn bản), các bảng ghi giao dịch

– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ

được chuyển đổi

Trang 16

Tích hợp

Trang 17

Định nghĩa Data warehouse

 • Yêu cầu quan trọng cho kho dữ liệu là phạm vi

về thời gian dài hơn so với các hệ thống tác

nghiệp

– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị

hiện thời

– Dữ liệu của kho dữ liệu: cung cấp thông tin

lịch sử (ví dụ như, 5-10 năm trước)

Trang 18

Biến thời gian

Trang 19

Định nghĩa Data warehouse

 Là một lưu trữ vật lý của dữ liệu được chuyển đổi

từ môi trường tác nghiệp

 Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu:

 Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh

 Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp và truy cập dữ liệu

Trang 20

Bền vững

Trang 21

 Có tính lịch sử:

 Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn

Trang 22

Các đặc điểm của DW

Dữ liệu có tính ổn định :

 Chỉ cho phép thực hiện 2 thao tác cơ bản là nạp dữ liệu

vào kho và truy cập vào các cung trong DW Do vậy, dữ

liệu không biến động.

Không biến động:

 Dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa

Dữ liệu tổng hợp và chi tiết:

 Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai

đoạn khác nhau.

Trang 23

Data warehouse vs Database

 Kho dữ liệu phải được xác định hướng theo

chủ đề Nó được thực hiện theo ý đồ của người

sử dụng đầu cuối Trong khi đó các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung

 Những hệ CSDL thông thường không phải

quản lý những lượng thông tin lớn mà quản lý những lượng thông tin vừa và nhỏ DW phải

quản lý một khối lượng lớn các thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lý khác nhau

Trang 24

Data warehouse vs Database

 DW thông thường chứa các dữ liệu lịch

sử kết nối nhiều năm trước của các

thông tin tác nghiệp được tổ chức lưu

trữ có hiệu quả và có thể được hiệu

chỉnh lại dễ dàng Dữ liệu trong CSDL

tác nghiệp thường là mới, có tính thời

sử trong một khoảng thời gian ngắn.

Trang 25

Data warehouse vs Database

 Dữ liệu trong CSDL tác nghiệp được

chắt lọc và tổng hợp lại để chuyển sang môi trường DW Rất nhiều dữ liệu khác không được chuyển về DW, chỉ những

dữ liệu cần thiết cho công tác quản lý

hay trợ giúp quyết định mới được

chuyển sang DW.

Trang 26

 Như vậy ta có thể thấy được sự khác

biệt giữa cơ sở dữ liệu của doanh

nghiệp (database) và kho dữ liệu tích

hợp (data warehouse) là:

Data warehouse chứa dữ liệu phục vụ phân tích báo cáo, database chứa dữ liệu hoạt động hàng ngày.

Trang 27

Lợi ích khi sử dụng Data warehouse

 Đối với người khai thác:

 Cung cấp công cụ phân tích, khai thác dữ liệu

nhanh gọn, đầy đủ và chính xác, dễ dàng đưa ra các chính sách mới

 Giúp người sử dụng khai thác dữ liệu theo chủ đề với các nguồn và khoảng thời gian khác nhau

 Dữ liệu được xử lý nhanh chóng

 Dễ dàng tạo ra các báo cáo đơn giản phù hợp với nhiều trình độ khai thác

Trang 28

Lợi ích khi sử dụng Data warehouse

 Đối với người quản trị hệ thống:

 Hỗ trợ xây dựng một kho dữ liệu lớn

 Thiết kế mềm dẻo giúp dễ dàng tích hợp

dữ liệu tác nghiệp mới và tạo ra các báo cáo mới theo yêu cầu người khai thác

Trang 29

Kiến trúc của kho dữ liệu

Trang 30

Nguồn dữ liệu

 Dữ liệu từ hệ thống tác nghiệp:Đây là nguồn

dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp

 Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ và tổ chức lại theo nhiều phương pháp khác nhau

 Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được

sử dụng cho các yêu cầu phân tích dữ liệu

Trang 31

Khu vực xử lý (ETL)

 ETL_Extract, transform, load

Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) Công cụ này thực hiện các thao tác trích xuất dữ liệu,

chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu

Trang 32

Làm sạch dữ liệu

 Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ

liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi Nhiệm vụ của bước này bao gồm.

• Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào.

• Chỉnh sửa lỗi dữ liệu.

• Cảnh báo về lỗi dữ liệu đầu vào.

 Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ

liệu nhằm đảm bảo tính nhất quán trước khi chuyển vào kho dữ liệu Quá trình này bao gồm các bước.

• Sử dụng các luật về chuyển đổi dữ liệu để chuyển đồi.

• Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích

• Chuyển đổi dữ liệu vào một lược đồ nhất quán.

Trang 33

 Tiến trình ETL gồm có 3 bước:

 Trích xuất: Dữ liệu nguồn từ rất nhiều

nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại

cơ sở dữ liệu, từ file excel hay từ file thô

Vì thế nhiệm vụ chính của bước này là

trích xuất dữ liệu từ hệ thống nguồn để xử lý.

Trang 34

 Chuyển đổi : Đây là quá trình rất phức tạp

dùng để chuyển đổi dữ liệu nguồn thành một

mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích Ở bước này sẽ phải sử dụng các

phép chuyển đổi như:

• Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )

• Chuyển đổi dữ liệu Ví dụ : chuyển 1 thành Nam hay ngược lại.

• Tạo ra các cột tính toán mới Ví dụ: Điểm trung bình = Tổng điểm /số trình

• Lọc dữ liệu.

• Sắp xếp dữ liệu

• Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).

• Tạo ra các giá trị mới (tạo khóa tự tăng ).

• Tìm kiếm hay so sánh dữ liệu.

Trang 35

 Nạp dữ liệu vào kho dữ liệu: Đây là

quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào kho dữ liệu.

Trang 36

Cấu trúc dữ liệu cho kho dữ liệu

 Vì dữ liệu trong kho dữ liệu rất lớn và không

có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo

 Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều

( multidimensional data model), được mô hình vào đối tượng gọi là data cube

 Data cube là nơi trung tâm của vấn đề cần

phân tích, nó bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khác nhau (dimention)

Trang 37

Ví dụ

 Ví dụ: Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm,

thời gian và chủng loại hàng

Data cube là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu tố: địa điểm, thời gian và chủng loại hàng Bảng fact là

bảng tổng hợp dữ liệu của mối liên quan của doanh số với 3 yếu tố

Trang 38

Mô hình logic của kho dữ liệu

• Trong mô hình dữ liệu này,phạm vi dữ liệu

được tổ chức trong các bảng chiều (demension table), mỗi chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…), các bảng sự kiện biểu diễn các sự

kiện xảy ra và các thông tin chi tiết về các sự kiện đó

Trang 39

Lược đồ hình sao

Trang 40

Lược đồ hình bông tuyết

 Đây là mô hình tương tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao , trong mô hình này một chiều của dữ

liệu có thể gồm nhiều bảng, và trong đó

có 1 bảng sự kiện , bảng sự kiện này

chính là một chiều trong mô hình lớn

hơn

Trang 41

Lược đồ hình bông tuyết.

Trang 42

Mô hình dữ liệu nhiều chiều

Mô hình dữ liệu nhiều chiều

Đây là mô hình chức dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ của người quản lý Có thể nhìn dữ liệu được tổ chức như là một khối , trong đó mỗi chiều là một chủ đề trong nghiệp

vụ

Trang 43

Mô hình dữ liệu nhiều chiều

Khối dữ liệu gồm có 3 chiều : khách hàng, sản phẩm ,

thời gian Mỗi ô trong đó là một bản ghi được lưu giữ

trong bảng sự kiện Với mô hình này người dùng có thể

dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễ dàng hơn và tốc độ xử lý

nhanh hơn tổ chức theo mô hình bảng quan hệ

Trang 44

Mục tiêu của kho dữ liệu

Truy cập dễ dàng

Thông tin nhất quán

Thích nghi với sự thay đổi

Hỗ trợ ra quyết định

Bảo mật

Trang 45

Quá trình xây dựng Data warehouse

 Quá trình xây dựng data warehouse

được chia thanh 4 giai đoạn:

 Giai đoạn lập kế hoạch và phân tích.

 Giai đoạn thiết kế

 Giai đoạn xây dựng

 Giai đoạn triển khai

Trang 46

Quá trình xây dựng Data warehouse

Trang 49

Tổng quan về OLAP

OLAP_Online Analysis Processing

Trang 50

Tổng quan về OLAP

 OLTP tập trung vào việc thu thập, lưu trữ và biến đổi dữ liệu một cách chuẩn xác, thì OLAP tập trung vào việc sử dụng các dữ liệu đã được biến đổi vào việc ra quyết định sản xuất kinh doanh

 OLAP là một mục trong các phần mềm cơ sở

dữ liệu cung cấp giao diện qua đó người sử

dụng có thể biến đổi hoặc giới hạn các dữ liệu

sơ khai tuỳ theo các hàm đã định nghĩa hoặc

do chính người sử dụng định nghĩa, sau đó

nhanh chóng kiểm tra các kết quả trong các

chiều khác nhau của dữ liệu

Trang 51

Tổng quan về OLAP

 Hệ thống OLAP là một hệ thống quản lý dữ

liệu giàu năng lực Nó cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơn của dữ liệu

 Bản chất cốt lõi của OLAP là dữ liệu được lấy

ra từ Data warehouse hoặc từ Datamart sau

đó được chuyển thành mô hình đa chiều và

được lưu trữ trong một kho dữ liệu đa chiều

Trang 52

Tổng quan về OLAP

 Cụ thể, OLAP là một kỹ thuật sử dụng các thể

hiện dữ liệu đa chiều gọi là các khối (cube)

nhằm cung cấp khả năng truy xuất nhanh

đến dữ liệu của kho dữ liệu Tạo khối

(cube) cho dữ liệu trong các bảng chiều

(dimension table) và bảng sự kiện (fact

table) trong kho dữ liệu và cung cấp khả

năng thực hiện các truy vấn tinh vi và

phân tích cho các ứng dụng client.

Trang 53

Lợi ích khi dùng OLAP

 OLAP cung cấp nhiều lợi ích cho người phân

tích, cho ví dụ như:

• Cung cấp mô hình dữ liệu đa chiều trực

quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu

• Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan

hệ trong dữ liệu kinh doanh phức tạp

• Dữ liệu được tính toán trước đối với các

truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt

Trang 54

 Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt

 Hỗ trợ tạo mô hình chức năng để dự báo, phân tích xu thế phát triển và phân tích thống kê

 Tìm kiếm và hiển thị dữ liệu dưới dạng biểu

đồ, không gian 2D, 3D, …

Trang 55

Đặc điểm của OLAP

 Được biết đến như là một phần của kho dữ

liệu

 Cung cấp các báo cáo, phân tích tiền tính

toán, các đồ thị, biểu đồ

 Cho phép phân tích trực tuyến dữ liệu

 Thăm dò sự tương tác dữ liệu

 Cung cấp các giao diện đa dạng cho người

dùng

 Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản

Trang 56

Giới thiệu dịch vụ OLAP (OLAP Services)

của Microsoft SQL Server:

Dịch vụ OLAP là một server tầng giữa

(midle-tier server) phục vụ cho phân tích xử lý trực tuyến (OLAP) Hệ thống dịch vụ OLAP là

một công cụ mạnh trong việc xây dựng các

khối đa chiều của dữ liệu cho phân tích và

cung cấp khả năng truy xuất nhanh đến thông tin khối cho các client

 Hệ thống dịch vụ OLAP là một công cụ mạnh

trong việc xây dựng các khối đa chiều của dữ

liệu cho phân tích và cung cấp khả năng truy

xuất nhanh đến thông tin khối cho các client

Trang 57

Dịch vụ OLAP

 Kiến trúc dịch vụ OLAP được chia thành 2

phần: Phần server (được đại diện bởi OLAP

server) và phần client (là dịch vụ PivotTable)

Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối

(cube) từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến dữ liệu OLAP

 Có thể hiểu rằng OLAP server quản lý dữ liệu còn dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu

Trang 59

Các đặc điểm của dịch vụ OLAP:

 Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện (wizard).

 Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối (cube) và lưu trữ.

 Các khối có thể ghi (Write-enable): Cho các kịch bản phân tích dạng “what if”.

 Kiến trúc có thể co dãn (scalable architecture): Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP.

 Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu

và client/server caching.

 Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.

Trang 60

delete,join ) trong quá trình xử lý.

 Ví dụ: ứng dụng OLTP trong ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí

Trang 61

 Kho dữ liệu hỗ trợ các truy vấn phức tạp với thời gian hồi đáp nhanh Đối với kho dữ liệu,

số lượng truy vấn đưa vào và thời gian hồi đáp quan trọng hơn số lượng giao dịch đưa vào

Mà OLAP là một trong những công cụ cho

phép thực hiện hiệu quả các truy vấn này

Ngày đăng: 26/06/2014, 23:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w