Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu Bảng sự kiện tổng hợp : Các bảng tổng
Trang 1Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene)
Nghiên cứu về công cụ mã nguồn mở BIRT
Báo Cáo Đề Tài
Nhóm 9 gồm các thành viên :
Phạm Văn Đồng – 1042026
Phùng Siêu Diên – 1042018
Nguyễn Duy Khanh – 1042051
Phan Quốc Trung – 1041442
Trang 7Data Warehouse
Phạm Văn Đồng
6/27/14
7
Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao
gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau.
Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật
làm sạch và chuyển đổi để đảm bảo tính nhất quán
dữ liệu trước khi đưa vào kho dữ liệu đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu.
Trang 8Data Warehouse
Phạm Văn Đồng
6/27/14
8
Nhiệm vụ : kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu
sai định dạng hoặc lỗi.
Các bước tiến trình ETL gồm 3 bước:
o Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể
có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý.
o Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi
dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích.
Các kiểu kiến trúc ETL : Có 3 kiểu kiến trúc ETL chính :
Trang 9Data Warehouse
Phạm Văn Đồng
6/27/14
9
Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại
server chứa nguồn dữ liệu Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu Mô hình này thường được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử
lý tiến trình ETL Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn.
Trang 10Data Warehouse
Phạm Văn Đồng
6/27/14
10
Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server
chứa kho dữ liệu Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình ETL Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn.
Trang 11Data Warehouse
Phạm Văn Đồng
6/27/14
11
Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ
được chạy trên một máy độc lập với cả kho dữ liệu và nguồn dữ liệu Tiến trình sẽ đến lấy dữ liệu từ nguồn dữ liệu sau đó xử lý
và nạp vào kho dữ liệu Kiểu kiến trúc này thường được áp dụng cho các kho dữ liệu lớn, ở đây tiến trình ETL sẽ được chạy trên một máy độc lập đủ năng lực xử lý.
Trang 12Data Warehouse
Phạm Văn Đồng
6/27/14
12
Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu
được lưu trữ trong kho dữ liệu Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu
Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ
các dữ liệu tính toán được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra Đây là dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc
độ xử lý dữ liệu này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn.
Trang 13Chiều khách hàng
Bảng
sự kiện bán hàng Chiều thời
gian
Chiều cửa hàng
Trang 14Bảng sự kiện bán hàng
Cửa hàng phân phối
Chiều sản phẩm
Chiều khách hàng
Loại sản phẩm
Trang 15Data Warehouse
Phạm Văn Đồng
6/27/14
15
o Mô hình dữ liệu nhiều chiều.
Xu hướng tương lai của kho dữ liệu
Trong tương lai xu hướng phát triển của kho dữ liệu bao gồm :
Dữ liệu phi cấu trúc
Tìm kiếm
Kiến trúc hướng dịch vụ
Kho dữ liệu thời gian thực.
Trang 16On-Line Analytical Processing
16
OLAP
Trang 18Phùng Siêu Diên
Giới thiệu
Thuật ngữ OLAP được E.F.Codd đưa ra trong một bài báo có tên “Providing On-Line Analytical Processing
to User Analysts” được công bố vào tháng 8-1993
OLAP là một kỹ thuật phân tích dữ liệu sử dụng các thể hiện dữ liệu đa chiều gọi là các khối (cube)
OLAP cung cấp khả năng tạo ra các khối dữ liệu và thực hiện các truy vấn tinh vi trên các ứng dụng người dùng
18
Trang 19Phùng Siêu Diên
Lợi ích:
Olap cung cấp nhiều lợi ích cho người phân tích như:
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu.
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối liên hệ trong dữ liệu kinh doanh phức tạp.
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.
19
Trang 21Phùng Siêu Diên
OLAP Service
Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến.
Kiến trúc dịch vụ OLAP được chia làm 2 phần:
Phần server: đại diện bởi OLAP server.
Phần client: dịch vụ PivotTable.
Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến
dữ liệu OLAP.
21
Trang 22Phùng Siêu Diên
Các đặc điểm của dịch vụ OLAP
Dễ sử dụng
Linh động
Kiến trúc có thể co dãn (scalable architecture)
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
và client/server caching
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tùy ý
22
Trang 24Phùng Siêu Diên
Các mô hình lưu trữ dữ liệu
Mô hình Multidimensional OLAP(MOLAP)
Mô hình Relational OLAP(ROLAP)
Mô hình Hybird OLAP(HOLAP)
24
Trang 25Phùng Siêu Diên
Mô hình Multidimensional OLAP(MOLAP)
Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ
sở và thông tin tổng hợp trong các cấu trúc đa chiều gọi là các khối
Lưu trữ các khối trong cấu trúc MOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh
Ví dụ: tổng sản phẩm bán được của tất cả các vùng theo quý.
25
Trang 26 Không sử dụng cơ chế khóa do dữ liệu là chỉ đọc.
Dữ liệu có thể dễ dàng sao chép đến người dùng do phân tích offline.
26
Trang 2727
Trang 28Phùng Siêu Diên
Mô hình Multidimensional OLAP(MOLAP)28
Trang 29Phan Quốc Trung
Mô hình Relational OLAP(ROLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng của data mart hoặc kho dữ liệu.
Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các truy vấn dữ liệu không thường xuyên.
Ví dụ: nếu 80% người dùng truy vấn chỉ dữ liệu trong vòng một năm trở lại đây, các dữ liệu cũ hơn một năm sẽ được đưa vào một cấu trúc ROLAP để giảm không gian đĩa bị chiếm dụng, hơn nữa còn để lại trường dữ liệu trùng lắp.
29
Trang 30Phan Quốc Trung
Mô hình Relational OLAP(ROLAP)
Ưu điểm:
Có thể áp dụng với hệ thống có dung lượng lớn do kích
cỡ của ROLAP chính là kích cỡ của CSDL quan hệ.
Tiết kiệm không lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền thống ít khi trùng lắp.
ROLAP là kỹ thuật hiệu quả do HQT CSDL quan hệ duy trì chức năng truyền thông của nó đồng thời thực thi được các phép toán của hệ thống OLAP.
Dữ liệu được chứa trong CSDL quan hệ chuẩn nên có thể được truy cập bằng bất kỳ công cụ CQL nào.
30
Trang 31Phan Quốc Trung
Mô hình Relational OLAP(ROLAP)
31
Trang 32Phan Quốc Trung
Mô hình Relational OLAP(ROLAP)
32
Trang 33Phan Quốc Trung
Mô hình Hybird OLAP(HOLAP)
HOLAP sự kết hợp giữa MOLAP và ROLAP
Lưu trữ các khối (cube) trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở
Ví dụ: chúng ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trúc MOLAP và dữ liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP.
33
Trang 34Phan Quốc Trung
Mô hình Hybird OLAP(HOLAP)
Trang 35Phan Quốc Trung
Mô hình Hybird OLAP(HOLAP)
35
Trang 36Phan Quốc Trung
So sánh các mô hình
36
Trang 37Phan Quốc Trung
OLAP
Giới thiệu
OLAP Service
Các mô hình lưu trữ dữ liệu
Kiến trúc khối của OLAP
Mô hình dịch vụ OLAP
37
Trang 38Phan Quốc Trung
Mô hình kiến trúc dịch vụ OLAP
Kiến trúc dịch vụ OLAP gồm 2 thành phần:
Server
Client.
38
Trang 39Phan Quốc TrungKiến trúc thành phần Server
39
Trang 40Phan Quốc Trung
Kiến trúc thành phần Server
Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho client qua dịch
vụ PivotTable (PivotTable Service)
Các thao tác của thành phần Server:
Tạo các khối dữ liệu đa chiều từ kho CSDL quan hệ.
Lưu trữ chúng trong các cấu trúc khối đa chiều (MOLAP).
40
Trang 41Phan Quốc TrungKiến trúc thành phần Client
41
Trang 42Phan Quốc Trung
Kiến trúc thành phần Client
Thành phần client là dịch vụ PivotTable giao tiếp với OLAP server và cung cấp giao diện cho các ứng dụng client sử dụng truy cập dữ liệu OLAP trên server
Dịch vụ PivotTable là một công cụ lưu trữ, duyệt và phân tích khối (cube)
Cho phép các khối (cube) lưu trữ cục bộ để phân tích không trực tuyến (off-line) như là kết nối đến dữ liệu dịch vụ OLAP trực tuyến
42
Trang 43Nguyễn Duy Khanh
Tìm hiểu về BI
Trang 44Nguyễn Duy Khanh
Trang 45Nguyễn Duy Khanh
Business Intelligence – BI là một hệ thống báo cáo cho phép tổ chức hoặc doanh nghiệp khai thác dữ liệu từ nhiều nguồn khác nhau về khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự và phân tích và
sử dụng các dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ việc ra quyết định
Khái niệm về BI
Trang 46Nguyễn Duy Khanh
Các thành phần chính của hệ thống BI
Mô Hình BI
Trang 47Nguyễn Duy Khanh
Mô hình hoạt động của hệ thống BI
Mô Hình BI
Trang 48Nguyễn Duy Khanh
Khai thác dữ liệu tập trung
Báo cáo phân tích cao cấp
Khả năng tuỳ biến chiều thông tin
Giám sát và cảnh báo tự động
Dự đoán và lên kế hoạch
Các tính năng quan trọng
Trang 49Nguyễn Duy Khanh
Với Data Warehouse (Kho dữ liệu) của BI, những
dữ liệu quan trọng nằm rải rác nhiều nơi, dưới nhiều định dạng khác nhau của DN sẽ được trích xuất đều đặn và được tập hợp lại thành một cấu trúc thống nhất Qua đó những báo cáo từ chi tiết đến tổng quát của toàn DN đều luôn đảm bảo được tính chính xác và kịp thời
Khai thác dữ liệu tập trung
Trang 50Nguyễn Duy Khanh
Hiện nay giải pháp báo cáo phân tích cao cấp của BI đã tương đối hoàn thiện với những tính năng nổi bật như:
Đào sâu dữ liệu đến mức tối đa: Giúp ta có thể giải quyết những yêu cầu phức tạp như “ cung cấp thông tin về doanh thu và số lượng mặt hàng bán được của 3 năm gần nhất, theo tất cả các vùng, ứng với tất cả các nhóm sản phẩm và từng sản phẩm, và nhân viên thực hiện giao dịch ”.
Với những dạng câu hỏi như trên người quản trị chỉ mất vài giây tương tác với hệ thống OLAP là đã có được câu trả lời.
Báo cáo phân tích cao cấp
Trang 51Nguyễn Duy Khanh
Song song với tính năng đào sâu dữ liệu là khả năng tùy chỉnh thứ tự của các chiều thông tin Ví dụ cũng với những chiều thông tin như yêu cầu trên ta có góc nhìn khác như
“cung cấp thông tin về doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán hàng, của toàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm, trong 3 năm gần nhất”.
Khả năng tùy biến chiều thông tin
Trang 52Nguyễn Duy Khanh
Để khẳng định tên tuổi của mình hơn nữa trên thị phần BI, các nhà cung cấp giải pháp lớn như BusinessObjects, Cognos, Hyperion, SAS liên tục đầu tư vào phần giao diện người dùng Các khái niệm về Dashboards - bảng điều khiển, Scorecards - bảng chỉ số đã được áp dụng vào quản lý DN Nhờ vào bảng điều khiển mà các chỉ số thể hiện tình trạng phát triển của công ty
(KPIs) luôn được tự động tổng hợp và cập nhật thường xuyên Ngoài chức năng cảnh báo tự động qua màu sắc, hình ảnh , hệ thống BI còn có chức năng
tự động gửi email thông báo đến người có thẩm quyền, giúp người quản lý luôn có được thông tin về những gì đang xảy ra.
Giám sát và cảnh báo tự động
Trang 53Nguyễn Duy Khanh
Các tên tuổi hàng đầu về hệ thống BI như: Business Objects, Cognos, SAP Business Intelligence đều hỗ trợ khá tốt khả năng
dự báo và lên kế hoạch của DN Kết hợp với kinh nghiệm của người sử dụng , những bảng kế hoạch cho tương lai được tổng hợp khá nhanh và có độ chính xác cao
Ngoài hai tính năng trên, hệ thống BI còn giúp cho người sử dụng khả năng phân tích giả định - what-if analysis and simulation Chức năng này giúp cho người sử dụng có thể giả lập một số biến cố , qua đó đánh giá được xu thế thay đổi của các chỉ số KPIs mà họ quan tâm.
Dự đoán và lên kế hoạch
Trang 54Nguyễn Duy Khanh
Tiết kiệm chi phí
Tối ưu hóa lợi nhuận với BI
Loại bỏ hàng kém hiệu quả
Phân tích hiệu quả chương trình khuyến mãi, quảng cáo
Nâng cao năng lực của nhân viên kinh doanh
Củng cố và làm gia tăng sự hài lòng, lòng trung thành của
khách hàng
Đánh giá đối thủ cạnh tranh trong ngành, mở rộng thị
phần
Trang 55Nguyễn Duy Khanh
Việc số liệu và thông tin được cập nhật liên tục từng phút, được BI tổng hợp và phân tích rõ ràng, thậm chí đưa ra hàng loạt các giải pháp, việc của bạn chỉ là lựa chọn giải pháp phù hợp Thật vậy, với BI bạn hoàn toàn có thể tiết kiệm được thời gian, công sức, chi phí cho hàng loạt các vấn đề từ lớn đến nhỏ.
Lợi ích của BI
Trang 56Nguyễn Duy Khanh
Tóm lại, giải pháp BI hiện nay đã mang lại nhiều lợi ích to lớn cho DN nhờ khả năng phân tích các chỉ số một cách thông minh và nhanh nhất
Tổng kết về BI
Doanh nghiệp có thể tự trả lời các câu hỏi thông qua BI :
What has happened?
What is happening?
Why?
What will happen?
What do we want to have happen?
Trang 57Tổng kết về BI
Trang 58Tài liệu tham khảo
http://code-now.com/2011/04/15/data-warehouse-la-gi/
http://code-now.com/2011/04/15/cac-thanh-phan-cua-data-warehouse /
QUAN-V%E1%BB%80-DATA-WAREHOUSE
Surajit Chauhuri – An Overview of Data Wavehousing and OLAP Technology
Vladimir Estivil-Castro – What is OLAP – On-line analytical processing.
58
Trang 59Demo BIRT
59