Là một điểm truy cập tập trung dữ liệu của một tổ chức Được trình bày ở một khuông dạng thích hợp Là hệ thống chỉ đọc Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
Trang 5Đặt vấn đề
Để giành được lợi thế cạnh tranh , các
tổ chức kinh doanh phải có những thông tin , tri thức cần thiết một cách nhanh chóng và chính xác.
Các nhà điều hành muốn lên kế hoạch cho tương lai công ty của mình.
=> Đòi hỏi thông tin mang tính phân tích
và hệ thống thông tin có khả năng hỗ trợ quyết định
Trang 6Đặt vấn đề
Vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ, lưu trữ
nhiều nơi, ở nhiều dạng dữ liệu
khác nhau đó một cách hiệu quả trong các hệ thống thông tin lớn?
Trang 7Kho dữ liệu Data warehouse
Theo Pandora , Swinburn University :
Là một phương thức cho việc kết nối dữ
liệu từ nhiều hệ thống khác nhau.
Là một điểm truy cập tập trung dữ liệu của một tổ chức
Được trình bày ở một khuông dạng thích hợp
Là hệ thống chỉ đọc
Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
Trang 8Định nghĩa Data warehouse
Theo Paul Lucas , IBM:
Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán.
Được tổng hợp về từ nhiều nguồn
Được làm sẵn cho người sử dụng cuối
Dễ hiểu
Trang 9Định nghĩa Data warehouse
Định nghĩa do W.H.Inmon đề xướng :
DWH là tập hợp dữ liệu tương đối ổn
định (không hay thay đổi),cập nhật
theo thời gian, được tích hợp theo
hướng chủ đề nhằm hỗ trợ quá trình
tạo quyết định về mặt quản lý.
(A data warehouse is a
subject-oriented, integrated, time-variant, and nonvolatile collection of data in
support of management’s
decision-making process.”—W H Inmon)
Trang 10Định nghĩa Data warehouse
Trang 12 Hướng chủ đề (subject-oriented):
Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales)
Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề
Trang 13Hướng chủ đề
Trang 14Hướng chủ đề
Các chủ thể điển hình
Các tài khoản khách hàng
Việc bán hàng
Tiền tiết kiệm của khách hàng
Các yêu sách bảo hiểm
Đặt chỗ hành khách
Trang 15Định nghĩa Data warehouse
• Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ: Cơ sở dữ liệu quan hệ (relational databases), flat files( lưu trữ dữ liệu lên các tập tin dạng văn bản), các bảng ghi giao dịch
– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ
được chuyển đổi
Trang 16Tích hợp
Trang 17Định nghĩa Data warehouse
• Yêu cầu quan trọng cho kho dữ liệu là phạm vi
về thời gian dài hơn so với các hệ thống tác
nghiệp
– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị
hiện thời
– Dữ liệu của kho dữ liệu: cung cấp thông tin
lịch sử (ví dụ như, 5-10 năm trước)
Trang 18Biến thời gian
Trang 19Định nghĩa Data warehouse
Là một lưu trữ vật lý của dữ liệu được chuyển đổi
từ môi trường tác nghiệp
Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu:
Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh
Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp và truy cập dữ liệu
Trang 20Bền vững
Trang 21 Có tính lịch sử:
Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn
Trang 22Các đặc điểm của DW
Dữ liệu có tính ổn định :
Chỉ cho phép thực hiện 2 thao tác cơ bản là nạp dữ liệu
vào kho và truy cập vào các cung trong DW Do vậy, dữ
liệu không biến động.
Không biến động:
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa
Dữ liệu tổng hợp và chi tiết:
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai
đoạn khác nhau.
Trang 23Data warehouse vs Database
Kho dữ liệu phải được xác định hướng theo
chủ đề Nó được thực hiện theo ý đồ của người
sử dụng đầu cuối Trong khi đó các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung
Những hệ CSDL thông thường không phải
quản lý những lượng thông tin lớn mà quản lý những lượng thông tin vừa và nhỏ DW phải
quản lý một khối lượng lớn các thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lý khác nhau
Trang 24Data warehouse vs Database
DW thông thường chứa các dữ liệu lịch
sử kết nối nhiều năm trước của các
thông tin tác nghiệp được tổ chức lưu
trữ có hiệu quả và có thể được hiệu
chỉnh lại dễ dàng Dữ liệu trong CSDL
tác nghiệp thường là mới, có tính thời
sử trong một khoảng thời gian ngắn.
Trang 25Data warehouse vs Database
Dữ liệu trong CSDL tác nghiệp được
chắt lọc và tổng hợp lại để chuyển sang môi trường DW Rất nhiều dữ liệu khác không được chuyển về DW, chỉ những
dữ liệu cần thiết cho công tác quản lý
hay trợ giúp quyết định mới được
chuyển sang DW.
Trang 26 Như vậy ta có thể thấy được sự khác
biệt giữa cơ sở dữ liệu của doanh
nghiệp (database) và kho dữ liệu tích
hợp (data warehouse) là:
Data warehouse chứa dữ liệu phục vụ phân tích báo cáo, database chứa dữ liệu hoạt động hàng ngày.
Trang 27Lợi ích khi sử dụng Data warehouse
Đối với người khai thác:
Cung cấp công cụ phân tích, khai thác dữ liệu
nhanh gọn, đầy đủ và chính xác, dễ dàng đưa ra các chính sách mới
Giúp người sử dụng khai thác dữ liệu theo chủ đề với các nguồn và khoảng thời gian khác nhau
Dữ liệu được xử lý nhanh chóng
Dễ dàng tạo ra các báo cáo đơn giản phù hợp với nhiều trình độ khai thác
Trang 28Lợi ích khi sử dụng Data warehouse
Đối với người quản trị hệ thống:
Hỗ trợ xây dựng một kho dữ liệu lớn
Thiết kế mềm dẻo giúp dễ dàng tích hợp
dữ liệu tác nghiệp mới và tạo ra các báo cáo mới theo yêu cầu người khai thác
Trang 29Kiến trúc của kho dữ liệu
Trang 30Nguồn dữ liệu
Dữ liệu từ hệ thống tác nghiệp:Đây là nguồn
dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp
Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ và tổ chức lại theo nhiều phương pháp khác nhau
Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được
sử dụng cho các yêu cầu phân tích dữ liệu
Trang 31Khu vực xử lý (ETL)
ETL_Extract, transform, load
Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL) Công cụ này thực hiện các thao tác trích xuất dữ liệu,
chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu
Trang 32Làm sạch dữ liệu
Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ
liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi Nhiệm vụ của bước này bao gồm.
• Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào.
• Chỉnh sửa lỗi dữ liệu.
• Cảnh báo về lỗi dữ liệu đầu vào.
Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ
liệu nhằm đảm bảo tính nhất quán trước khi chuyển vào kho dữ liệu Quá trình này bao gồm các bước.
• Sử dụng các luật về chuyển đổi dữ liệu để chuyển đồi.
• Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích
• Chuyển đổi dữ liệu vào một lược đồ nhất quán.
Trang 33 Tiến trình ETL gồm có 3 bước:
Trích xuất: Dữ liệu nguồn từ rất nhiều
nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại
cơ sở dữ liệu, từ file excel hay từ file thô
Vì thế nhiệm vụ chính của bước này là
trích xuất dữ liệu từ hệ thống nguồn để xử lý.
Trang 34 Chuyển đổi : Đây là quá trình rất phức tạp
dùng để chuyển đổi dữ liệu nguồn thành một
mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích Ở bước này sẽ phải sử dụng các
phép chuyển đổi như:
• Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )
• Chuyển đổi dữ liệu Ví dụ : chuyển 1 thành Nam hay ngược lại.
• Tạo ra các cột tính toán mới Ví dụ: Điểm trung bình = Tổng điểm /số trình
• Lọc dữ liệu.
• Sắp xếp dữ liệu
• Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).
• Tạo ra các giá trị mới (tạo khóa tự tăng ).
• Tìm kiếm hay so sánh dữ liệu.
Trang 35 Nạp dữ liệu vào kho dữ liệu: Đây là
quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào kho dữ liệu.
Trang 36Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không
có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo
Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều
( multidimensional data model), được mô hình vào đối tượng gọi là data cube
Data cube là nơi trung tâm của vấn đề cần
phân tích, nó bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khác nhau (dimention)
Trang 37Ví dụ
Ví dụ: Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm,
thời gian và chủng loại hàng
Data cube là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu tố: địa điểm, thời gian và chủng loại hàng Bảng fact là
bảng tổng hợp dữ liệu của mối liên quan của doanh số với 3 yếu tố
Trang 38Mô hình logic của kho dữ liệu
• Trong mô hình dữ liệu này,phạm vi dữ liệu
được tổ chức trong các bảng chiều (demension table), mỗi chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…), các bảng sự kiện biểu diễn các sự
kiện xảy ra và các thông tin chi tiết về các sự kiện đó
Trang 39Lược đồ hình sao
Trang 40Lược đồ hình bông tuyết
Đây là mô hình tương tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao , trong mô hình này một chiều của dữ
liệu có thể gồm nhiều bảng, và trong đó
có 1 bảng sự kiện , bảng sự kiện này
chính là một chiều trong mô hình lớn
hơn
Trang 41• Lược đồ hình bông tuyết.
Trang 42Mô hình dữ liệu nhiều chiều
Mô hình dữ liệu nhiều chiều
Đây là mô hình chức dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ của người quản lý Có thể nhìn dữ liệu được tổ chức như là một khối , trong đó mỗi chiều là một chủ đề trong nghiệp
vụ
Trang 43Mô hình dữ liệu nhiều chiều
Khối dữ liệu gồm có 3 chiều : khách hàng, sản phẩm ,
thời gian Mỗi ô trong đó là một bản ghi được lưu giữ
trong bảng sự kiện Với mô hình này người dùng có thể
dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễ dàng hơn và tốc độ xử lý
nhanh hơn tổ chức theo mô hình bảng quan hệ
Trang 44Mục tiêu của kho dữ liệu
Truy cập dễ dàng
Thông tin nhất quán
Thích nghi với sự thay đổi
Hỗ trợ ra quyết định
Bảo mật
Trang 45Quá trình xây dựng Data warehouse
Quá trình xây dựng data warehouse
được chia thanh 4 giai đoạn:
Giai đoạn lập kế hoạch và phân tích.
Giai đoạn thiết kế
Giai đoạn xây dựng
Giai đoạn triển khai
Trang 46Quá trình xây dựng Data warehouse
Trang 49Tổng quan về OLAP
OLAP_Online Analysis Processing
Trang 50Tổng quan về OLAP
OLTP tập trung vào việc thu thập, lưu trữ và biến đổi dữ liệu một cách chuẩn xác, thì OLAP tập trung vào việc sử dụng các dữ liệu đã được biến đổi vào việc ra quyết định sản xuất kinh doanh
OLAP là một mục trong các phần mềm cơ sở
dữ liệu cung cấp giao diện qua đó người sử
dụng có thể biến đổi hoặc giới hạn các dữ liệu
sơ khai tuỳ theo các hàm đã định nghĩa hoặc
do chính người sử dụng định nghĩa, sau đó
nhanh chóng kiểm tra các kết quả trong các
chiều khác nhau của dữ liệu
Trang 51Tổng quan về OLAP
Hệ thống OLAP là một hệ thống quản lý dữ
liệu giàu năng lực Nó cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơn của dữ liệu
Bản chất cốt lõi của OLAP là dữ liệu được lấy
ra từ Data warehouse hoặc từ Datamart sau
đó được chuyển thành mô hình đa chiều và
được lưu trữ trong một kho dữ liệu đa chiều
Trang 52Tổng quan về OLAP
Cụ thể, OLAP là một kỹ thuật sử dụng các thể
hiện dữ liệu đa chiều gọi là các khối (cube)
nhằm cung cấp khả năng truy xuất nhanh
đến dữ liệu của kho dữ liệu Tạo khối
(cube) cho dữ liệu trong các bảng chiều
(dimension table) và bảng sự kiện (fact
table) trong kho dữ liệu và cung cấp khả
năng thực hiện các truy vấn tinh vi và
phân tích cho các ứng dụng client.
Trang 53Lợi ích khi dùng OLAP
OLAP cung cấp nhiều lợi ích cho người phân
tích, cho ví dụ như:
• Cung cấp mô hình dữ liệu đa chiều trực
quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu
• Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan
hệ trong dữ liệu kinh doanh phức tạp
• Dữ liệu được tính toán trước đối với các
truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
Trang 54 Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt
Hỗ trợ tạo mô hình chức năng để dự báo, phân tích xu thế phát triển và phân tích thống kê
Tìm kiếm và hiển thị dữ liệu dưới dạng biểu
đồ, không gian 2D, 3D, …
Trang 55Đặc điểm của OLAP
Được biết đến như là một phần của kho dữ
liệu
Cung cấp các báo cáo, phân tích tiền tính
toán, các đồ thị, biểu đồ
Cho phép phân tích trực tuyến dữ liệu
Thăm dò sự tương tác dữ liệu
Cung cấp các giao diện đa dạng cho người
dùng
Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản
Trang 56Giới thiệu dịch vụ OLAP (OLAP Services)
của Microsoft SQL Server:
Dịch vụ OLAP là một server tầng giữa
(midle-tier server) phục vụ cho phân tích xử lý trực tuyến (OLAP) Hệ thống dịch vụ OLAP là
một công cụ mạnh trong việc xây dựng các
khối đa chiều của dữ liệu cho phân tích và
cung cấp khả năng truy xuất nhanh đến thông tin khối cho các client
Hệ thống dịch vụ OLAP là một công cụ mạnh
trong việc xây dựng các khối đa chiều của dữ
liệu cho phân tích và cung cấp khả năng truy
xuất nhanh đến thông tin khối cho các client
Trang 57Dịch vụ OLAP
Kiến trúc dịch vụ OLAP được chia thành 2
phần: Phần server (được đại diện bởi OLAP
server) và phần client (là dịch vụ PivotTable)
Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối
(cube) từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến dữ liệu OLAP
Có thể hiểu rằng OLAP server quản lý dữ liệu còn dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu
Trang 59Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện (wizard).
Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối (cube) và lưu trữ.
Các khối có thể ghi (Write-enable): Cho các kịch bản phân tích dạng “what if”.
Kiến trúc có thể co dãn (scalable architecture): Cung cấp một sự đa dạng các kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP.
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
và client/server caching.
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.
Trang 60delete,join ) trong quá trình xử lý.
Ví dụ: ứng dụng OLTP trong ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí
Trang 61 Kho dữ liệu hỗ trợ các truy vấn phức tạp với thời gian hồi đáp nhanh Đối với kho dữ liệu,
số lượng truy vấn đưa vào và thời gian hồi đáp quan trọng hơn số lượng giao dịch đưa vào
Mà OLAP là một trong những công cụ cho
phép thực hiện hiệu quả các truy vấn này