1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu về Data Warehouse – OLAP – BI potx

69 1,5K 21

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 3,2 MB

Nội dung

Tính tích hợp intergrated - Được xây dựng từ các nguồn dữ liệu khác nhau.. Quá trình đưa dữ liệu vào DWHLàm sạch Bỏ các dữ liệu không cần thiết hoặc quá Tích hợp số liệu từ nguồn khác

Trang 1

Thành viên nhóm:

Nguyễn Ngọc Khánh Hương 1041060.

Tạ Thụy Kim Ngân 1041090.

Trần Thị Phượng 1041111.

Dương Quốc Trung 1041155.

Nguyễn Doãn Trường Huy 1041347.

Nguyễn Thị Oanh 1041391.

Topic #9:

Tìm hiểu về Data Warehouse – OLAP –

BI Công cụ mã nguồn mở SpagoBI

Trang 3

1041090 - TẠ THỤY KIM NGÂN

DATA WAREHOUSE

Trang 4

I GIỚI THIỆU SƠ LƯỢC

7 Quá trình đưa dữ liệu vào data warehouse

8 Cái khái niệm cơ bản của CSDL đa chiều

9 Tiến trình ETL

10 Ứng dụng Data warehouse

MỤC LỤC

Trang 5

1 Giới thiệu

- Một ứng dụng thường đi kèm 1 CSDL

-Một công ty có nhiều ứng dụng.

-Muốn kiểm soát lượng dữ liệu của toàn công ty ?

-Muốn đưa ra quyết định tiên đoán tương lai của công ty?

I GIỚI THIỆU SƠ LƯỢC

Trang 8

3 Mục tiêu

1 Truy cập dễ dàng

2 Thông tin nhất quán

3 Thích nghi với thay đổi

Trang 9

4 Tính chất

1 Tính hướng chủ đề (subject orientation)

-Tổ chức xoay quanh các chủ đề chính.

-Tập trung vào việc mô hình hóa và phân tích dữ liệu.

-Cung cấp khung nhìn đơn giản xoay quanh các chủ đề.

I GIỚI THIỆU SƠ LƯỢC

Trang 10

4 Tính chất

1 Tính hướng chủ đề

I GIỚI THIỆU SƠ LƯỢC

Trang 11

4 Tính chất

2 Tính tích hợp (intergrated)

- Được xây dựng từ các nguồn dữ liệu khác nhau.

- Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng nhằm đảm bảo sự đồng nhất của dữ liệu.

I GIỚI THIỆU SƠ LƯỢC

Trang 13

4 Tính chất

3 Tính bền vững (non-volatile)

Data warehouse chỉ cho phép người dùng truy cập và tải

dữ liệu về xem Người dùng không thể cập nhật lại dữ liệu đó

I GIỚI THIỆU SƠ LƯỢC

Trang 14

4 Tính chất

3 Tính bền vững (non-volatile)

I GIỚI THIỆU SƠ LƯỢC

Trang 15

4 Tính chất

4 Biến thời gian (time variant)

Thông tin thời gian được lưu kèm theo dữ liệu Người dùng

có thể truy cập dữ liệu cũ của 5-10 năm trước để đưa ra các đánh giá đúng hơn

I GIỚI THIỆU SƠ LƯỢC

Trang 16

4 Tính chất

4 Biến thời gian (time variant)

I GIỚI THIỆU SƠ LƯỢC

Trang 17

5 Đặc điểm

1 Thiết kế cho công việc phân tích.

2 Thiết kế cho một nhóm nhỏ người sử dụng.

3 Dữ liệu chỉ đọc.

4 Cập nhật theo giai đoạn: chỉ thêm dữ liệu.

5 Các câu hỏi trả về tập kết quả lớn, đa kết nối.

6 Toàn cục.

I GIỚI THIỆU SƠ LƯỢC

Trang 18

1 Các thành phần

1 Nguồn dữ liệu (Source system)

2 Khu vực xử lý (Staging area)

3 Khu vực trình bày (Presentation server)

5 Kho dữ liệu cục bộ (Data mart)

II XÂY DỰNG DATA WAREHOUSE

Trang 19

1 Các thành phần

II XÂY DỰNG DATA WAREHOUSE

Trang 20

2 Quá trình đưa dữ liệu vào DWH

Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá

Tích hợp số liệu từ nguồn khác nhau

Đồng bộ hóa số liệu ở một thời điểm xác định

II XÂY DỰNG DATA WAREHOUSE

Trang 21

3 Một số khái niệm về mô hình đa chiều

A- Data Cube

II XÂY DỰNG DATA WAREHOUSE

Trang 22

2 Một số khái niệm về mô hình đa chiều

B- Dimension

II XÂY DỰNG DATA WAREHOUSE

Trang 23

2 Một số khái niệm về mô hình đa chiều

C- Dimension Table

-Các bảng dimension chứa các mô tả doanh nghiệp.

-Một mô hình có hướng được thiết kế tốt thường có nhiều

cột hoặc nhiều thuộc tính Các thuộc tính này mô tả các dòng trong bảng dimension Sẽ là bất thường nếu 1 bảng dimension có 50-100 thuộc tính

II XÂY DỰNG DATA WAREHOUSE

Trang 24

2 Một số khái niệm về mô hình đa chiều

D- Fact Table (Bảng sự kiện)

II XÂY DỰNG DATA WAREHOUSE

Trang 25

4 Tiến trình ETL

-Đây là tiến trình rút trích và chuyển đổi dữ liệu từ các

nguồn và đặt nó vào DWH

-Phương pháp ứng dụng ETL truyền thống là lấy dữ liệu

từ các CSDL, đặt nó vào phạm vi hoạt động, sau đó chuyển đổi và tải nó vào DWH

-Khu vực hoạt động (staging area) là 1 CSDL vật lý hoặc

các tập tin Đặt dữ liệu vào khu vực hoạt động là thêm nó vào CSDL hay các tập tin

II XÂY DỰNG DATA WAREHOUSE

Trang 26

4 Tiến trình ETL

-Cách khác, thay vì đặt dữ liệu vào khu vực hoạt động,

đôi khi ETL server thực hiện việc chuyển đổi trong bộ nhớ

và sau đó cập nhật trực tiếp vào DWH

-Phương pháp ETL khác là ELT: Extract-Load-Transform

Trong phương pháp ELT, dữ liệu được lấy ra từ các nguồn, tải chúng vào DWH, sau đó thực hiện biến đổi bằng cách cập nhật dữ liệu tr

-Thông thường phương pháp ETL được dùng khi có 1

server ETL mạnh và phần mềm mạnh

II XÂY DỰNG DATA WAREHOUSE

Trang 27

C- Customer Loyalty Scheme

II XÂY DỰNG DATA WAREHOUSE

Trang 28

- Building a Data Warehouse With Examples in SQL Server – Vincent Rainardi

TÀI LIỆU THAM KHẢO

Trang 29

2 File

- Data warehouse_full_edited.pptx – Ths.Nguyễn Văn Chức

- Multidimensionalmodeling_revised.pdf – Torben Bach Pedersen, Aalborg University, Denmark

- Creating a Data Warehouse Using SQL Server - Jens Otto Sørensen, Karl Alnor, Department of Information Sciences, The Aarhus School of Business, Denmark

TÀI LIỆU THAM KHẢO

Trang 30

3 Website

http://www.1keydata.com/datawarehousing/processes.html

http

://www.citd.edu.vn/Vietnam/Home/index.php/hethong/c-s-d-liu/24 -tng-quan-v-data-warehouse?lang=

http://www.dwinfocenter.org/

http://vnoug.org/viewtopic.php?f=31&t=391

http

://ciscenter.blogspot.com/2010/10/khai-niem-ve-data-warehouse.h tml

http://bidw.techtiks.com/elements_of_data_warehouse.html

http://www.mnhs.org/preserve/records/dwintro.html

TÀI LIỆU THAM KHẢO

Trang 31

1041391 – NGUYỄN THỊ OANH

OLAP

31

Trang 32

Nội dung trình bày:

I Tìm hiểu về OLAP

II Các khái niệm cần biết trong OLAP

III Các mô hình của OLAP

IV Lợi ích của OLAP

OLAP

32

Trang 33

OLAP là gì?

• OLAP là từ viết tắt của On_Line Analysis Processing.

• Hệ thống OLAP là một hệ thống quản lý giàu năng lực.

I Tìm hiểu về OLAP

33

Trang 35

1 Cube (khối).

II Các khái niệm cần biết trong OLAP.

35

cube là phần tử chính trong OLAP,

là tập con dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc

đa chiều

Cube dùng các dimensions, fact table và các measure để mô tả

dữ liệu trong cube

Mỗi chiều có thể chứa một hệ thống các cấp độ

để chỉ sự phân chia rõ ràng của người dùng

Trang 37

2 Dimension(Chiều).

• Các chiều là cách mô tả chủng loại

mà theo đó các dữ liệu số trong khối được phân chia để phân tích.

• Mỗi cột trong chiều góp phần vào một cấp độ cho chiều.

• Để thuận tiện cho việc xác định hệ

thống phân cấp, nên sắp xếp các cột từ chung nhất tới cụ thể nhất.

II Các khái niệm cần biết trong OLAP.

37

Trang 38

2 Dimension(Chiều).

• Roll_up và Drill_down (khoan xuống và cuộn lên) dựa trên phân cấp chiều: dựa trên phân cấp theo chiều ta có thể khoan sâu xuống để có kết quả dữ liệu chi tiết hơn, hay

là cuộn lên để có dữ liệu ở mức tổng quát

II Các khái niệm cần biết trong OLAP.

38

Trang 39

3 Measure(Các đơn vị đo lường).

• Các đơn vị đo lường của khối là các cột trong bảng Fact

Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá, hoặc số lượng bán

• Là đơn vị đo để đánh

giá, phân tích dữ liệu

II Các khái niệm cần biết trong OLAP.

39

Trang 40

4 Partition(Các phân hoạch).

• Tất cả các khối đều có tối thiểu một phân hoạch để chứa dữ liệu của nó.

• Khi tạo một partition mới cho một khối, partition mới này được thêm vào

trong tập hợp các partition đã tồn tại đối với khối

• Khối phản ánh dữ liệu đã được kết nối có trong tất cả các partition của nó

Một bảng partition của khối là vô hình đối với người dùng.

• Các partition tiêu biểu cho một công cụ mạnh, mềm dẻo cho việc quản trị các khối OLAP, đặc biệt các khối lớn.

II Các khái niệm cần biết trong OLAP.

40

Trang 42

III Các mô hình OLAP.

42

Mô hình MOLAP

Mô hình ROLAP

Mô hình HOLAP

Trang 43

Bảng so sánh giữa các mô hình:

III Các mô hình OLAP.

43

Lưu trữ dữ liệu cơ sở

Khối Bảng quan hệ Bảng quan hệ

Lưu trữ thông tin tổng hợp

Khối Bảng quan hệ Khối

Hiệu suất thực hiện truy vấn

Nhanh nhất

Chậm nhất Nhanh

Tiêu thụ không gian lưu trữ

Nhiều Thấp Trung bình Chi phí bảo trì Cao Thấp Trung bình

Trang 44

• Cung cấp mô hình dữ liệu đa chiều trực quan cho phép

dễ dàng lựa chọn, định hướng và khám phá dữ liệu

• Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp

sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp

• Dữ liệu được tính toán trước đối với các truy vấn

thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt

III Lợi ích của OLAP.

44

Trang 45

• Cung cấp các công cụ mạnh giúp người dùng tạo các

khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt

• Hỗ trợ tạo mô hình chức năng để dự báo, phân tích xu

thế phát triển và phân tích thống kê

• Tìm kiếm và hiển thị dữ liệu dưới dạng biểu đồ, không

gian 2D, 3D, …

III Lợi ích của OLAP.

45

Trang 46

Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương pháp đơn giản, giao diện đa dạng cho người dùng.

Giúp bạn tạo báo cáo, xây dựng biểu đồ, thực hiện khai thác dữ liệu

III Lợi ích của OLAP.

46

Trang 47

1041155 – DƯƠNG QUỐC TRUNG

BUSINESS INTELLIGENCE

47

Trang 48

BUSINESS INTELLIGENCE

48

Nội dung trình bày:

VIII Một số website hữu ích về BI.

Trang 49

- BI là viết tắt của Business Intelligence, tạm dịch là kinh doanh

thông minh

- BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình

I Khái niệm BI

49

Trang 50

- I KháCông nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán trong tương lai

Mục đích của BI là hỗ trợ doanh nghiệp ra quyết định tốt hơn.

Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh ( Decision Support System -DSS)

i niệm BI

50

Trang 51

II Các thành phần chính của hệ thống BI

51

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:

-Data Warehouse (Kho dữ liệu): Chứa

dữ liệu tổng hợp của doanh nghiệp.

-Data Mining (Khai phá dữ liệu): Các

kỹ thuật dùng để khai phá dữ liệu và

phát hiện tri thức như phân loại

(Classification), phân nhóm

(clustering), phát hiện luật kết hợp

(Association Rule), Dự đoán

(Predcition),…

-Business Analyst (Phân tích kinh

Doanh): Các nhà lãnh đạo Doanh

nghiệp đưa ra những quyết định chiến

lược đối với hoạt động kinh doanh của

doanh nghiệp.

Trang 52

III Lợi ích của BI

52

BI làm tăng khả năng kiểm

soát thông tin của doanh

Trang 53

- Kho dữ liệu (Data Warehouse)

- Hệ thống hoạch định nguồn lực Doanh nghiệp (Enterprise

resource planning (ERP) systems)

- Công nghệ truy vấn và lập báo cáo (Query and report writing

technologies)

- Công cụ khai phá và phân tích dữ liệu (Data mining and analytics tools)

- Hệ thống hỗ trợ ra quyết định (Decision support systems)

- Quản lý quan hệ khách hàng (Customer relation management)

IV Các công nghệ hỗ trợ BI

53

Trang 54

- Hỗ trợ quyết định (decision support),

- Truy vấn và báo cáo (query and reporting),

- Phân tích xử lý trực tuyến (online analytical processing (OLAP)),

- Phân tích thống kê (statistical analysis),

- Dự đoán (Predcition),

- Và Khai phá dữ liệu (data mining)

V Các hoạt động chính của BI

54

Trang 55

Rất nhiều người dùng có thể hưởng lợi từ BI, như là:

-Ban quản trị (Executives)

-Người ra quyết định kinh doanh (Business Decision Makers)

-Khách hàng (Customers)

-Phân tích viên (Analysts)

VI BI dành cho ai?

55

Trang 56

Danh sách 1 số nhà cung cấp lớn như:

1 Oracle Enterprise BI Server - Version 7.8 - Oracle

2 Business Objects Enterprise - Version XI r2 - Business Objects (now SAP)

3 SAP NetWeaver BI - Version 7.0 - SAP

4 SAS Enterprise BI Server - Version 9.1.3 - SAS Institute

5 TM/1 & Executive Viewer - Version 9.1 - Applix (now IBM)

6 Excel, Performance Point, Analysis Server - Version 2007/2005

- Microsoft

VII Danh sách các nhà cung cấp BI

56

Trang 58

MÃ NGUỒN MỞ SPAGOBI

58

Trang 59

 Giới thiệu về SpagoBI

MÃ NGUỒN MỞ SPAGOBI

59

Trang 60

 Giới thiệu về SpagoBI

 Nó là một ứng dụng web được triển khai vào một

máy chủ ứng dụng J2EE (Tomcat, Jboss,…)

 Nó có thể chạy trên bất kì hệ điều hành nào có hỗ

trợ JVM từ 1.5

 Nó hoạt động và lưu trữ trên DBMS (MySQL,

Postgres, Oracle, HSQL, )

 Nó có thể được truy cập thông qua các trình

duyệt web (firefox, IE, Opera, Safari)

GIỚI THIỆU VỀ SPAGOBI

60

Trang 61

Chức năng: Tạo báo cáo (Report)

GIỚI THIỆU VỀ SPAGOBI

61

Trang 62

Chức năng: Tạo báo cáo (Report)

GIỚI THIỆU VỀ SPAGOBI

62

Trang 63

Chức năng: Tạo biểu đồ (Chart)

GIỚI THIỆU VỀ SPAGOBI

63

Trang 64

Chức năng: Tạo biểu đồ (Chart)

GIỚI THIỆU VỀ SPAGOBI

64

Trang 65

Chức năng: OLAP

GIỚI THIỆU VỀ SPAGOBI

65

Trang 66

Chức năng: KPI

GIỚI THIỆU VỀ SPAGOBI

66

Trang 67

Chức năng: GEO

GIỚI THIỆU VỀ SPAGOBI

67

Trang 68

68

Trang 69

THANK YOU!!!

69

?

Ngày đăng: 26/06/2014, 23:21

HÌNH ẢNH LIÊN QUAN

Bảng so sánh giữa các mô hình: - Tìm hiểu về Data Warehouse – OLAP – BI potx
Bảng so sánh giữa các mô hình: (Trang 43)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w