Tính tích hợp intergrated - Được xây dựng từ các nguồn dữ liệu khác nhau.. Quá trình đưa dữ liệu vào DWHLàm sạch Bỏ các dữ liệu không cần thiết hoặc quá Tích hợp số liệu từ nguồn khác
Trang 1Thành viên nhóm:
Nguyễn Ngọc Khánh Hương 1041060.
Tạ Thụy Kim Ngân 1041090.
Trần Thị Phượng 1041111.
Dương Quốc Trung 1041155.
Nguyễn Doãn Trường Huy 1041347.
Nguyễn Thị Oanh 1041391.
Topic #9:
Tìm hiểu về Data Warehouse – OLAP –
BI Công cụ mã nguồn mở SpagoBI
Trang 31041090 - TẠ THỤY KIM NGÂN
DATA WAREHOUSE
Trang 4I GIỚI THIỆU SƠ LƯỢC
7 Quá trình đưa dữ liệu vào data warehouse
8 Cái khái niệm cơ bản của CSDL đa chiều
9 Tiến trình ETL
10 Ứng dụng Data warehouse
MỤC LỤC
Trang 51 Giới thiệu
- Một ứng dụng thường đi kèm 1 CSDL
-Một công ty có nhiều ứng dụng.
-Muốn kiểm soát lượng dữ liệu của toàn công ty ?
-Muốn đưa ra quyết định tiên đoán tương lai của công ty?
I GIỚI THIỆU SƠ LƯỢC
Trang 83 Mục tiêu
1 Truy cập dễ dàng
2 Thông tin nhất quán
3 Thích nghi với thay đổi
Trang 94 Tính chất
1 Tính hướng chủ đề (subject orientation)
-Tổ chức xoay quanh các chủ đề chính.
-Tập trung vào việc mô hình hóa và phân tích dữ liệu.
-Cung cấp khung nhìn đơn giản xoay quanh các chủ đề.
I GIỚI THIỆU SƠ LƯỢC
Trang 104 Tính chất
1 Tính hướng chủ đề
I GIỚI THIỆU SƠ LƯỢC
Trang 114 Tính chất
2 Tính tích hợp (intergrated)
- Được xây dựng từ các nguồn dữ liệu khác nhau.
- Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng nhằm đảm bảo sự đồng nhất của dữ liệu.
I GIỚI THIỆU SƠ LƯỢC
Trang 134 Tính chất
3 Tính bền vững (non-volatile)
Data warehouse chỉ cho phép người dùng truy cập và tải
dữ liệu về xem Người dùng không thể cập nhật lại dữ liệu đó
I GIỚI THIỆU SƠ LƯỢC
Trang 144 Tính chất
3 Tính bền vững (non-volatile)
I GIỚI THIỆU SƠ LƯỢC
Trang 154 Tính chất
4 Biến thời gian (time variant)
Thông tin thời gian được lưu kèm theo dữ liệu Người dùng
có thể truy cập dữ liệu cũ của 5-10 năm trước để đưa ra các đánh giá đúng hơn
I GIỚI THIỆU SƠ LƯỢC
Trang 164 Tính chất
4 Biến thời gian (time variant)
I GIỚI THIỆU SƠ LƯỢC
Trang 175 Đặc điểm
1 Thiết kế cho công việc phân tích.
2 Thiết kế cho một nhóm nhỏ người sử dụng.
3 Dữ liệu chỉ đọc.
4 Cập nhật theo giai đoạn: chỉ thêm dữ liệu.
5 Các câu hỏi trả về tập kết quả lớn, đa kết nối.
6 Toàn cục.
I GIỚI THIỆU SƠ LƯỢC
Trang 181 Các thành phần
1 Nguồn dữ liệu (Source system)
2 Khu vực xử lý (Staging area)
3 Khu vực trình bày (Presentation server)
5 Kho dữ liệu cục bộ (Data mart)
II XÂY DỰNG DATA WAREHOUSE
Trang 191 Các thành phần
II XÂY DỰNG DATA WAREHOUSE
Trang 202 Quá trình đưa dữ liệu vào DWH
Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá
Tích hợp số liệu từ nguồn khác nhau
Đồng bộ hóa số liệu ở một thời điểm xác định
II XÂY DỰNG DATA WAREHOUSE
Trang 213 Một số khái niệm về mô hình đa chiều
A- Data Cube
II XÂY DỰNG DATA WAREHOUSE
Trang 222 Một số khái niệm về mô hình đa chiều
B- Dimension
II XÂY DỰNG DATA WAREHOUSE
Trang 232 Một số khái niệm về mô hình đa chiều
C- Dimension Table
-Các bảng dimension chứa các mô tả doanh nghiệp.
-Một mô hình có hướng được thiết kế tốt thường có nhiều
cột hoặc nhiều thuộc tính Các thuộc tính này mô tả các dòng trong bảng dimension Sẽ là bất thường nếu 1 bảng dimension có 50-100 thuộc tính
II XÂY DỰNG DATA WAREHOUSE
Trang 242 Một số khái niệm về mô hình đa chiều
D- Fact Table (Bảng sự kiện)
II XÂY DỰNG DATA WAREHOUSE
Trang 254 Tiến trình ETL
-Đây là tiến trình rút trích và chuyển đổi dữ liệu từ các
nguồn và đặt nó vào DWH
-Phương pháp ứng dụng ETL truyền thống là lấy dữ liệu
từ các CSDL, đặt nó vào phạm vi hoạt động, sau đó chuyển đổi và tải nó vào DWH
-Khu vực hoạt động (staging area) là 1 CSDL vật lý hoặc
các tập tin Đặt dữ liệu vào khu vực hoạt động là thêm nó vào CSDL hay các tập tin
II XÂY DỰNG DATA WAREHOUSE
Trang 264 Tiến trình ETL
-Cách khác, thay vì đặt dữ liệu vào khu vực hoạt động,
đôi khi ETL server thực hiện việc chuyển đổi trong bộ nhớ
và sau đó cập nhật trực tiếp vào DWH
-Phương pháp ETL khác là ELT: Extract-Load-Transform
Trong phương pháp ELT, dữ liệu được lấy ra từ các nguồn, tải chúng vào DWH, sau đó thực hiện biến đổi bằng cách cập nhật dữ liệu tr
-Thông thường phương pháp ETL được dùng khi có 1
server ETL mạnh và phần mềm mạnh
II XÂY DỰNG DATA WAREHOUSE
Trang 27C- Customer Loyalty Scheme
II XÂY DỰNG DATA WAREHOUSE
Trang 28- Building a Data Warehouse With Examples in SQL Server – Vincent Rainardi
TÀI LIỆU THAM KHẢO
Trang 292 File
- Data warehouse_full_edited.pptx – Ths.Nguyễn Văn Chức
- Multidimensionalmodeling_revised.pdf – Torben Bach Pedersen, Aalborg University, Denmark
- Creating a Data Warehouse Using SQL Server - Jens Otto Sørensen, Karl Alnor, Department of Information Sciences, The Aarhus School of Business, Denmark
TÀI LIỆU THAM KHẢO
Trang 303 Website
http://www.1keydata.com/datawarehousing/processes.html
http
://www.citd.edu.vn/Vietnam/Home/index.php/hethong/c-s-d-liu/24 -tng-quan-v-data-warehouse?lang=
http://www.dwinfocenter.org/
http://vnoug.org/viewtopic.php?f=31&t=391
http
://ciscenter.blogspot.com/2010/10/khai-niem-ve-data-warehouse.h tml
http://bidw.techtiks.com/elements_of_data_warehouse.html
http://www.mnhs.org/preserve/records/dwintro.html
TÀI LIỆU THAM KHẢO
Trang 311041391 – NGUYỄN THỊ OANH
OLAP
31
Trang 32Nội dung trình bày:
I Tìm hiểu về OLAP
II Các khái niệm cần biết trong OLAP
III Các mô hình của OLAP
IV Lợi ích của OLAP
OLAP
32
Trang 33OLAP là gì?
• OLAP là từ viết tắt của On_Line Analysis Processing.
• Hệ thống OLAP là một hệ thống quản lý giàu năng lực.
I Tìm hiểu về OLAP
33
Trang 351 Cube (khối).
II Các khái niệm cần biết trong OLAP.
35
cube là phần tử chính trong OLAP,
là tập con dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc
đa chiều
Cube dùng các dimensions, fact table và các measure để mô tả
dữ liệu trong cube
Mỗi chiều có thể chứa một hệ thống các cấp độ
để chỉ sự phân chia rõ ràng của người dùng
Trang 372 Dimension(Chiều).
• Các chiều là cách mô tả chủng loại
mà theo đó các dữ liệu số trong khối được phân chia để phân tích.
• Mỗi cột trong chiều góp phần vào một cấp độ cho chiều.
• Để thuận tiện cho việc xác định hệ
thống phân cấp, nên sắp xếp các cột từ chung nhất tới cụ thể nhất.
II Các khái niệm cần biết trong OLAP.
37
Trang 382 Dimension(Chiều).
• Roll_up và Drill_down (khoan xuống và cuộn lên) dựa trên phân cấp chiều: dựa trên phân cấp theo chiều ta có thể khoan sâu xuống để có kết quả dữ liệu chi tiết hơn, hay
là cuộn lên để có dữ liệu ở mức tổng quát
II Các khái niệm cần biết trong OLAP.
38
Trang 393 Measure(Các đơn vị đo lường).
• Các đơn vị đo lường của khối là các cột trong bảng Fact
Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá, hoặc số lượng bán
• Là đơn vị đo để đánh
giá, phân tích dữ liệu
II Các khái niệm cần biết trong OLAP.
39
Trang 404 Partition(Các phân hoạch).
• Tất cả các khối đều có tối thiểu một phân hoạch để chứa dữ liệu của nó.
• Khi tạo một partition mới cho một khối, partition mới này được thêm vào
trong tập hợp các partition đã tồn tại đối với khối
• Khối phản ánh dữ liệu đã được kết nối có trong tất cả các partition của nó
Một bảng partition của khối là vô hình đối với người dùng.
• Các partition tiêu biểu cho một công cụ mạnh, mềm dẻo cho việc quản trị các khối OLAP, đặc biệt các khối lớn.
II Các khái niệm cần biết trong OLAP.
40
Trang 42III Các mô hình OLAP.
42
Mô hình MOLAP
Mô hình ROLAP
Mô hình HOLAP
Trang 43Bảng so sánh giữa các mô hình:
III Các mô hình OLAP.
43
Lưu trữ dữ liệu cơ sở
Khối Bảng quan hệ Bảng quan hệ
Lưu trữ thông tin tổng hợp
Khối Bảng quan hệ Khối
Hiệu suất thực hiện truy vấn
Nhanh nhất
Chậm nhất Nhanh
Tiêu thụ không gian lưu trữ
Nhiều Thấp Trung bình Chi phí bảo trì Cao Thấp Trung bình
Trang 44• Cung cấp mô hình dữ liệu đa chiều trực quan cho phép
dễ dàng lựa chọn, định hướng và khám phá dữ liệu
• Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp
sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp
• Dữ liệu được tính toán trước đối với các truy vấn
thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
III Lợi ích của OLAP.
44
Trang 45• Cung cấp các công cụ mạnh giúp người dùng tạo các
khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt
• Hỗ trợ tạo mô hình chức năng để dự báo, phân tích xu
thế phát triển và phân tích thống kê
• Tìm kiếm và hiển thị dữ liệu dưới dạng biểu đồ, không
gian 2D, 3D, …
III Lợi ích của OLAP.
45
Trang 46Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương pháp đơn giản, giao diện đa dạng cho người dùng.
Giúp bạn tạo báo cáo, xây dựng biểu đồ, thực hiện khai thác dữ liệu
III Lợi ích của OLAP.
46
Trang 471041155 – DƯƠNG QUỐC TRUNG
BUSINESS INTELLIGENCE
47
Trang 48BUSINESS INTELLIGENCE
48
Nội dung trình bày:
VIII Một số website hữu ích về BI.
Trang 49- BI là viết tắt của Business Intelligence, tạm dịch là kinh doanh
thông minh
- BI là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình
I Khái niệm BI
49
Trang 50- I KháCông nghệ BI (BI technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ, hiện tại và các dự đoán trong tương lai
Mục đích của BI là hỗ trợ doanh nghiệp ra quyết định tốt hơn.
Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết đinh ( Decision Support System -DSS)
i niệm BI
50
Trang 51II Các thành phần chính của hệ thống BI
51
Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:
-Data Warehouse (Kho dữ liệu): Chứa
dữ liệu tổng hợp của doanh nghiệp.
-Data Mining (Khai phá dữ liệu): Các
kỹ thuật dùng để khai phá dữ liệu và
phát hiện tri thức như phân loại
(Classification), phân nhóm
(clustering), phát hiện luật kết hợp
(Association Rule), Dự đoán
(Predcition),…
-Business Analyst (Phân tích kinh
Doanh): Các nhà lãnh đạo Doanh
nghiệp đưa ra những quyết định chiến
lược đối với hoạt động kinh doanh của
doanh nghiệp.
Trang 52III Lợi ích của BI
52
BI làm tăng khả năng kiểm
soát thông tin của doanh
Trang 53- Kho dữ liệu (Data Warehouse)
- Hệ thống hoạch định nguồn lực Doanh nghiệp (Enterprise
resource planning (ERP) systems)
- Công nghệ truy vấn và lập báo cáo (Query and report writing
technologies)
- Công cụ khai phá và phân tích dữ liệu (Data mining and analytics tools)
- Hệ thống hỗ trợ ra quyết định (Decision support systems)
- Quản lý quan hệ khách hàng (Customer relation management)
IV Các công nghệ hỗ trợ BI
53
Trang 54- Hỗ trợ quyết định (decision support),
- Truy vấn và báo cáo (query and reporting),
- Phân tích xử lý trực tuyến (online analytical processing (OLAP)),
- Phân tích thống kê (statistical analysis),
- Dự đoán (Predcition),
- Và Khai phá dữ liệu (data mining)
V Các hoạt động chính của BI
54
Trang 55Rất nhiều người dùng có thể hưởng lợi từ BI, như là:
-Ban quản trị (Executives)
-Người ra quyết định kinh doanh (Business Decision Makers)
-Khách hàng (Customers)
-Phân tích viên (Analysts)
VI BI dành cho ai?
55
Trang 56Danh sách 1 số nhà cung cấp lớn như:
1 Oracle Enterprise BI Server - Version 7.8 - Oracle
2 Business Objects Enterprise - Version XI r2 - Business Objects (now SAP)
3 SAP NetWeaver BI - Version 7.0 - SAP
4 SAS Enterprise BI Server - Version 9.1.3 - SAS Institute
5 TM/1 & Executive Viewer - Version 9.1 - Applix (now IBM)
6 Excel, Performance Point, Analysis Server - Version 2007/2005
- Microsoft
VII Danh sách các nhà cung cấp BI
56
Trang 58MÃ NGUỒN MỞ SPAGOBI
58
Trang 59 Giới thiệu về SpagoBI
MÃ NGUỒN MỞ SPAGOBI
59
Trang 60 Giới thiệu về SpagoBI
Nó là một ứng dụng web được triển khai vào một
máy chủ ứng dụng J2EE (Tomcat, Jboss,…)
Nó có thể chạy trên bất kì hệ điều hành nào có hỗ
trợ JVM từ 1.5
Nó hoạt động và lưu trữ trên DBMS (MySQL,
Postgres, Oracle, HSQL, )
Nó có thể được truy cập thông qua các trình
duyệt web (firefox, IE, Opera, Safari)
GIỚI THIỆU VỀ SPAGOBI
60
Trang 61Chức năng: Tạo báo cáo (Report)
GIỚI THIỆU VỀ SPAGOBI
61
Trang 62Chức năng: Tạo báo cáo (Report)
GIỚI THIỆU VỀ SPAGOBI
62
Trang 63Chức năng: Tạo biểu đồ (Chart)
GIỚI THIỆU VỀ SPAGOBI
63
Trang 64Chức năng: Tạo biểu đồ (Chart)
GIỚI THIỆU VỀ SPAGOBI
64
Trang 65Chức năng: OLAP
GIỚI THIỆU VỀ SPAGOBI
65
Trang 66Chức năng: KPI
GIỚI THIỆU VỀ SPAGOBI
66
Trang 67Chức năng: GEO
GIỚI THIỆU VỀ SPAGOBI
67
Trang 6868
Trang 69THANK YOU!!!
69
?