1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) pot

59 1,4K 13

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 1,2 MB

Nội dung

Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu Bảng sự kiện tổng hợp : Các bảng tổng

Trang 1

Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene)

Nghiên cứu về công cụ mã nguồn mở BIRT

Báo Cáo Đề Tài

Nhóm 9 gồm các thành viên :

Phạm Văn Đồng – 1042026

Phùng Siêu Diên – 1042018

Nguyễn Duy Khanh – 1042051

Phan Quốc Trung – 1041442

Trang 7

Data Warehouse

Phạm Văn Đồng

6/27/14

7

Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao

gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau.

Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật

làm sạch và chuyển đổi để đảm bảo tính nhất quán

dữ liệu trước khi đưa vào kho dữ liệu đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu.

Trang 8

Data Warehouse

Phạm Văn Đồng

6/27/14

8

Nhiệm vụ : kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu

sai định dạng hoặc lỗi.

Các bước tiến trình ETL gồm 3 bước:

o Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể

có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý.

o Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi

dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích.

Các kiểu kiến trúc ETL : Có 3 kiểu kiến trúc ETL chính :

Trang 9

Data Warehouse

Phạm Văn Đồng

6/27/14

9

Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại

server chứa nguồn dữ liệu Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu Mô hình này thường được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử

lý tiến trình ETL Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn.

Trang 10

Data Warehouse

Phạm Văn Đồng

6/27/14

10

Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server

chứa kho dữ liệu Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình ETL Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn.

Trang 11

Data Warehouse

Phạm Văn Đồng

6/27/14

11

Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ

được chạy trên một máy độc lập với cả kho dữ liệu và nguồn dữ liệu Tiến trình sẽ đến lấy dữ liệu từ nguồn dữ liệu sau đó xử lý

và nạp vào kho dữ liệu Kiểu kiến trúc này thường được áp dụng cho các kho dữ liệu lớn, ở đây tiến trình ETL sẽ được chạy trên một máy độc lập đủ năng lực xử lý.

Trang 12

Data Warehouse

Phạm Văn Đồng

6/27/14

12

Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu

được lưu trữ trong kho dữ liệu Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu

Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ

các dữ liệu tính toán được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra Đây là dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc

độ xử lý dữ liệu này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn.

Trang 13

Chiều khách hàng

Bảng

sự kiện bán hàng Chiều thời

gian

Chiều cửa hàng

Trang 14

Bảng sự kiện bán hàng

Cửa hàng phân phối

Chiều sản phẩm

Chiều khách hàng

Loại sản phẩm

Trang 15

Data Warehouse

Phạm Văn Đồng

6/27/14

15

o Mô hình dữ liệu nhiều chiều.

 Xu hướng tương lai của kho dữ liệu

Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm :

 Dữ liệu phi cấu trúc

 Tìm kiếm

 Kiến trúc hướng dịch vụ

 Kho dữ liệu thời gian thực.

Trang 16

On-Line Analytical Processing

16

OLAP

Trang 18

Phùng Siêu Diên

Giới thiệu

 Thuật ngữ OLAP được E.F.Codd đưa ra trong một bài báo có tên “Providing On-Line Analytical Processing

to User Analysts” được công bố vào tháng 8-1993

 OLAP là một kỹ thuật phân tích dữ liệu sử dụng các thể hiện dữ liệu đa chiều gọi là các khối (cube)

 OLAP cung cấp khả năng tạo ra các khối dữ liệu và thực hiện các truy vấn tinh vi trên các ứng dụng người dùng

18

Trang 19

Phùng Siêu Diên

Lợi ích:

 Olap cung cấp nhiều lợi ích cho người phân tích như:

 Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu.

 Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối liên hệ trong dữ liệu kinh doanh phức tạp.

 Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.

 Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.

19

Trang 21

Phùng Siêu Diên

OLAP Service

 Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến.

 Kiến trúc dịch vụ OLAP được chia làm 2 phần:

 Phần server: đại diện bởi OLAP server.

 Phần client: dịch vụ PivotTable.

 Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến

dữ liệu OLAP.

21

Trang 22

Phùng Siêu Diên

Các đặc điểm của dịch vụ OLAP

 Dễ sử dụng

 Linh động

 Kiến trúc có thể co dãn (scalable architecture)

 Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu

và client/server caching

 Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tùy ý

22

Trang 24

Phùng Siêu Diên

Các mô hình lưu trữ dữ liệu

 Mô hình Multidimensional OLAP(MOLAP)

 Mô hình Relational OLAP(ROLAP)

 Mô hình Hybird OLAP(HOLAP)

24

Trang 25

Phùng Siêu Diên

Mô hình Multidimensional OLAP(MOLAP)

 Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ

sở và thông tin tổng hợp trong các cấu trúc đa chiều gọi là các khối

 Lưu trữ các khối trong cấu trúc MOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh

 Ví dụ: tổng sản phẩm bán được của tất cả các vùng theo quý.

25

Trang 26

 Không sử dụng cơ chế khóa do dữ liệu là chỉ đọc.

 Dữ liệu có thể dễ dàng sao chép đến người dùng do phân tích offline.

26

Trang 27

27

Trang 28

Phùng Siêu Diên

Mô hình Multidimensional OLAP(MOLAP)28

Trang 29

Phan Quốc Trung

Mô hình Relational OLAP(ROLAP)

 Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng của data mart hoặc kho dữ liệu.

 Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ liệu không thường xuyên.

 Ví dụ: nếu 80% người dùng truy vấn chỉ dữ liệu trong vòng một năm trở lại đây, các dữ liệu cũ hơn một năm sẽ được đưa vào một cấu trúc ROLAP để giảm không gian đĩa bị chiếm dụng, hơn nữa còn để lại trường dữ liệu trùng lắp.

29

Trang 30

Phan Quốc Trung

Mô hình Relational OLAP(ROLAP)

 Ưu điểm:

 Có thể áp dụng với hệ thống có dung lượng lớn do kích

cỡ của ROLAP chính là kích cỡ của CSDL quan hệ.

 Tiết kiệm không lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền thống ít khi trùng lắp.

 ROLAP là kỹ thuật hiệu quả do HQT CSDL quan hệ duy trì chức năng truyền thông của nó đồng thời thực thi được các phép toán của hệ thống OLAP.

 Dữ liệu được chứa trong CSDL quan hệ chuẩn nên có thể được truy cập bằng bất kỳ công cụ CQL nào.

30

Trang 31

Phan Quốc Trung

Mô hình Relational OLAP(ROLAP)

31

Trang 32

Phan Quốc Trung

Mô hình Relational OLAP(ROLAP)

32

Trang 33

Phan Quốc Trung

Mô hình Hybird OLAP(HOLAP)

 HOLAP sự kết hợp giữa MOLAP và ROLAP

 Lưu trữ các khối (cube) trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở

 Ví dụ: chúng ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trúc MOLAP và dữ liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP.

33

Trang 34

Phan Quốc Trung

Mô hình Hybird OLAP(HOLAP)

Trang 35

Phan Quốc Trung

Mô hình Hybird OLAP(HOLAP)

35

Trang 36

Phan Quốc Trung

So sánh các mô hình

36

Trang 37

Phan Quốc Trung

OLAP

 Giới thiệu

 OLAP Service

 Các mô hình lưu trữ dữ liệu

 Kiến trúc khối của OLAP

Mô hình dịch vụ OLAP

37

Trang 38

Phan Quốc Trung

Mô hình kiến trúc dịch vụ OLAP

 Kiến trúc dịch vụ OLAP gồm 2 thành phần:

 Server

 Client.

38

Trang 39

Phan Quốc TrungKiến trúc thành phần Server

39

Trang 40

Phan Quốc Trung

Kiến trúc thành phần Server

 Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho client qua dịch

vụ PivotTable (PivotTable Service)

 Các thao tác của thành phần Server:

 Tạo các khối dữ liệu đa chiều từ kho CSDL quan hệ.

 Lưu trữ chúng trong các cấu trúc khối đa chiều (MOLAP).

40

Trang 41

Phan Quốc TrungKiến trúc thành phần Client

41

Trang 42

Phan Quốc Trung

Kiến trúc thành phần Client

 Thành phần client là dịch vụ PivotTable giao tiếp với OLAP server và cung cấp giao diện cho các ứng dụng client sử dụng truy cập dữ liệu OLAP trên server

 Dịch vụ PivotTable là một công cụ lưu trữ, duyệt và phân tích khối (cube)

 Cho phép các khối (cube) lưu trữ cục bộ để phân tích không trực tuyến (off-line) như là kết nối đến dữ liệu dịch vụ OLAP trực tuyến

42

Trang 43

Nguyễn Duy Khanh

Tìm hiểu về BI

Trang 44

Nguyễn Duy Khanh

Trang 45

Nguyễn Duy Khanh

Business Intelligence – BI là một hệ thống báo cáo cho phép tổ chức hoặc doanh nghiệp khai thác dữ liệu từ nhiều nguồn khác nhau về khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự và phân tích và

sử dụng các dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ việc ra quyết định

Khái niệm về BI

Trang 46

Nguyễn Duy Khanh

Các thành phần chính của hệ thống BI

Mô Hình BI

Trang 47

Nguyễn Duy Khanh

Mô hình hoạt động của hệ thống BI

Mô Hình BI

Trang 48

Nguyễn Duy Khanh

Khai thác dữ liệu tập trung

Báo cáo phân tích cao cấp

Khả năng tuỳ biến chiều thông tin

Giám sát và cảnh báo tự động

Dự đoán và lên kế hoạch

Các tính năng quan trọng

Trang 49

Nguyễn Duy Khanh

Với Data Warehouse (Kho dữ liệu) của BI, những

dữ liệu quan trọng nằm rải rác nhiều nơi, dưới nhiều định dạng khác nhau của DN sẽ được trích xuất đều đặn và được tập hợp lại thành một cấu trúc thống nhất Qua đó những báo cáo từ chi tiết đến tổng quát của toàn DN đều luôn đảm bảo được tính chính xác và kịp thời

Khai thác dữ liệu tập trung

Trang 50

Nguyễn Duy Khanh

Hiện nay giải pháp báo cáo phân tích cao cấp của BI đã tương đối hoàn thiện với những tính năng nổi bật như:

Đào sâu dữ liệu đến mức tối đa: Giúp ta có thể giải quyết những yêu cầu phức tạp như “ cung cấp thông tin về doanh thu và số lượng mặt hàng bán được của 3 năm gần nhất, theo tất cả các vùng, ứng với tất cả các nhóm sản phẩm và từng sản phẩm, và nhân viên thực hiện giao dịch ”.

Với những dạng câu hỏi như trên người quản trị chỉ mất vài giây tương tác với hệ thống OLAP là đã có được câu trả lời.

Báo cáo phân tích cao cấp

Trang 51

Nguyễn Duy Khanh

Song song với tính năng đào sâu dữ liệu là khả năng tùy chỉnh thứ tự của các chiều thông tin Ví dụ cũng với những chiều thông tin như yêu cầu trên ta có góc nhìn khác như

“cung cấp thông tin về doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán hàng, của toàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm, trong 3 năm gần nhất”.

Khả năng tùy biến chiều thông tin

Trang 52

Nguyễn Duy Khanh

Để khẳng định tên tuổi của mình hơn nữa trên thị phần BI, các nhà cung cấp giải pháp lớn như BusinessObjects, Cognos, Hyperion, SAS liên tục đầu tư vào phần giao diện người dùng Các khái niệm về Dashboards - bảng điều khiển, Scorecards - bảng chỉ số đã được áp dụng vào quản lý DN Nhờ vào bảng điều khiển mà các chỉ số thể hiện tình trạng phát triển của công ty

(KPIs) luôn được tự động tổng hợp và cập nhật thường xuyên Ngoài chức năng cảnh báo tự động qua màu sắc, hình ảnh , hệ thống BI còn có chức năng

tự động gửi email thông báo đến người có thẩm quyền, giúp người quản lý luôn có được thông tin về những gì đang xảy ra.

Giám sát và cảnh báo tự động

Trang 53

Nguyễn Duy Khanh

Các tên tuổi hàng đầu về hệ thống BI như: Business Objects, Cognos, SAP Business Intelligence đều hỗ trợ khá tốt khả năng

dự báo và lên kế hoạch của DN Kết hợp với kinh nghiệm của người sử dụng , những bảng kế hoạch cho tương lai được tổng hợp khá nhanh và có độ chính xác cao

Ngoài hai tính năng trên, hệ thống BI còn giúp cho người sử dụng khả năng phân tích giả định - what-if analysis and simulation Chức năng này giúp cho người sử dụng có thể giả lập một số biến cố , qua đó đánh giá được xu thế thay đổi của các chỉ số KPIs mà họ quan tâm.

Dự đoán và lên kế hoạch

Trang 54

Nguyễn Duy Khanh

Tiết kiệm chi phí

Tối ưu hóa lợi nhuận với BI

Loại bỏ hàng kém hiệu quả

Phân tích hiệu quả chương trình khuyến mãi, quảng cáo

Nâng cao năng lực của nhân viên kinh doanh

Củng cố và làm gia tăng sự hài lòng, lòng trung thành của

khách hàng

Đánh giá đối thủ cạnh tranh trong ngành, mở rộng thị

phần

Trang 55

Nguyễn Duy Khanh

Việc số liệu và thông tin được cập nhật liên tục từng phút, được BI tổng hợp và phân tích rõ ràng, thậm chí đưa ra hàng loạt các giải pháp, việc của bạn chỉ là lựa chọn giải pháp phù hợp Thật vậy, với BI bạn hoàn toàn có thể tiết kiệm được thời gian, công sức, chi phí cho hàng loạt các vấn đề từ lớn đến nhỏ.

Lợi ích của BI

Trang 56

Nguyễn Duy Khanh

Tóm lại, giải pháp BI hiện nay đã mang lại nhiều lợi ích to lớn cho DN nhờ khả năng phân tích các chỉ số một cách thông minh và nhanh nhất

Tổng kết về BI

Doanh nghiệp có thể tự trả lời các câu hỏi thông qua BI :

What has happened?

What is happening?

Why?

What will happen?

What do we want to have happen?

Trang 57

Tổng kết về BI

Trang 58

Tài liệu tham khảo

 http://code-now.com/2011/04/15/data-warehouse-la-gi/

 http://code-now.com/2011/04/15/cac-thanh-phan-cua-data-warehouse /

 QUAN-V%E1%BB%80-DATA-WAREHOUSE

 Surajit Chauhuri – An Overview of Data Wavehousing and OLAP Technology

 Vladimir Estivil-Castro – What is OLAP – On-line analytical processing.

58

Trang 59

Demo BIRT

59

Ngày đăng: 26/06/2014, 23:21

HÌNH ẢNH LIÊN QUAN

Bảng sự  kiện bán  hàng - Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) pot
Bảng s ự kiện bán hàng (Trang 14)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w