CÁC THUẬT NGỮ VIẾT TẮT BIW Business Information Warehouse Kho thông tin tác nghiệp DSS Decision Support System Hệ hỗ trợ quyết định EDM Enterprise Data Model Mô hình dữ liệu mức xí nghiệ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI -*** -
TRẦN THỊ THÚY NGA
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
VÀ ỨNG DỤNG TRONG KHAI THÁC KHO DỮ LIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành:
Mã số: 1 01 10
Hướng dẫn khoa học: PGS.TS Đoàn Văn Ban
hµ néi - 2007
Trang 2MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 2
CÁC THUẬT NGỮ VIẾT TẮT 5
MỞ ĐẦU 6
CHƯƠNG 1 KHO DỮ LIỆU 9
1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE) 9
1.1.1 SỰ RA ĐỜI VÀ PHÁT TRIỂN CÔNG NGHỆ KHO DỮ LIỆU 9
1.1.2 KHO DỮ LIỆU LÀ GÌ? 11
1.1.3 MÔ HÌNH CHUNG CỦA CÔNG NGHỆ KHO DỮ LIỆU 12
1.1.4 ĐẶC TÍNH CỦA DỮ LIỆU TRONG KHO DỮ LIỆU 13
1.1.5 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC NGHIỆP 14
1.1.6 MỘT SỐ KHÁI NIỆM CƠ BẢN 15
1.1.6.1 KHO DỮ LIỆU CỤC BỘ - DATAMART 15
1.1.6.2 KHO DỮ LIỆU TÁC NGHIỆP, CƠ SỞ DỮ LIỆU THAO TÁC16 1.1.6.3 KHO DỮ LIỆU ẢO 18
1.2 CÁC KIỂU DỮ LIỆU 18
1.2.1 DỮ LIỆU NGHIỆP VỤ 18
1.2.2 DỮ LIỆU NGHIỆP VỤ PHI CẤU TRÚC 19
1.2.3 SIÊU DỮ LIỆU (METADATA ) 19
1.3 KIẾN TRÚC DỮ LIỆU DW 20
1.3.1 KIẾN TRÚC THAM CHIẾU CƠ BẢN VÀ MỘT SỐ NGUYÊN LÝ HOẠT ĐỘNG CỦA KHO DỮ LIỆU 20
1.3.1.1 KHỐI CÁC NGUỒN DỮ LIỆU 21
1.3.1.2 KHỐI TẠO DỰNG KHO DỮ LIỆU 21
1.3.1.3 KHỐI TẠO DỰNG DATA MART 22
1.3.1.4 KHỐI TRUY NHẬP VÀ SỬ DỤNG 22
1.3.1.5 LỚP QUẢN LÝ DỮ LIỆU 23
1.3.1.6 LỚP QUẢN LÝ SIÊU DỮ LIỆU 23
1.3.1.7 LỚP CHUYỂN TẢI DỮ LIỆU 23
1.3.1.8 LỚP KẾT CẤU HẠ TẦNG 23
1.3.2 KIẾN TRÚC LOGIC CỦA DW 24
1.4 MÔ HÌNH DỮ LIỆU 25
1.4.1 NỀN TẢNG CỦA VIỆC HÌNH THÀNH MÔ HÌNH 25
1.4.2 SƠ ĐỒ HÌNH SAO - STAR SCHEMA 26
1.4.3 SƠ ĐỒ HÌNH TUYẾT RƠI - SNOWFLAKE 28
1.4.4 SƠ ĐỒ KẾT HỢP 29
1.5 KẾT LUẬN CHƯƠNG 1 29
CHƯƠNG 2 31
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 31
Trang 32.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 31
2.2 ĐỊNH NGHĨA OLAP 32
2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI 33
2.3.1 TỔNG QUAN 33
2.3.2 ĐỊNH NGHĨA KHỐI 34
2.3.3 LÁT CẮT 34
2.3.4 KHOÁ CỦA KHỐI 35
2.3.5 HIỂN THỊ KHỐI TRÊN MÀN HÌNH MÁY TÍNH 36
2.4 KIẾN TRÚC KHỐI OLAP 38
2.4.1 KHỐI (CUBE) 38
2.4.2 CHIỀU (DIMENSION) 39
2.4.3 CÁC ĐƠN VỊ ĐO LƯỜNG 40
2.4.4 CÁC PHÂN HOẠCH (PARTITIONS) 40
2.5 SỰ PHÂN LOẠI OLAP 40
2.5.1 MOLAP (MULTIDIMENSIONAL OLAP) 40
2.5.2 ROLAP (RELATIONAL OLAP) 43
2.5.3 HOLAP (HYBRID OLAP) 43
2.6 KẾT LUẬN CHƯƠNG 2 46
CHƯƠNG 3 47
PHÂN TÍCH THIẾT KẾ 47
KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 47
3.1 GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 47
3.1.1 TỔNG QUAN 47
3.1.2 CÁC THÀNH PHẦN CHÍNH CỦA HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 47
3.2 PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU 49
3.2.1 PHƯƠNG PHÁP LUẬN CHUNG 49
3.2.2 PHƯƠNG PHÁP THIẾT KẾ TRUYỀN THỐNG 49
3.2.3 PHÂN TÍCH CÓ CẤU TRÚC 50
3.2.4 PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU 52
3.2.4.1 XÁC ĐỊNH CÁC YÊU CẦU 52
3.2.4.2 GIAI ĐOẠN MÔ TẢ 52
3.2.4.3 GIAI ĐOẠN XÂY DỰNG KHO 52
3.2.4.4 GIAI ĐOẠN NHẬP VÀ QUẢN TRỊ DỮ LIỆU 53
3.3 ĐÔI NÉT VỀ CÔNG CỤ THỰC HIỆN 53
3.3.1 HỆ QUẢN TRỊ CSDL SQL SERVER 53
3.3.2 BỘ CÔNG CỤ MICROSOFT SQL SERVER 54
3.3.3 NGÔN NGỮ TRUY VẤN ĐA CHIỀU MDX 54
3.3.3.1 KHÁI QUÁT CHUNG 54
3.3.3.2 SO SÁNH SỰ KHÁC NHAU GIỮA NGÔN NGỮ SQL VÀ NGÔN NGỮ MDX 56
3.4 PHÂN TÍCH, THIẾT KẾ KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 57
Trang 43.4.1.1 PHÂN TÍCH DỊCH VỤ MUA BÁN HÀNG HOÁ HỮU HÌNH
VÀ PHI VẬT THỂ 59
3.4.1.2 PHÂN TÍCH DỊCH VỤ MUA BÁN MỘT SỐ DỊCH VỤ DU LỊCH 61
3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 62
3.4.2.1 PHÂN TÍCH CÁC CHỨC NĂNG 63
3.4.2.2 PHÂN TÍCH VỀ DỮ LIỆU 65
3.4.2.3 XÁC ĐỊNH CÁC BẢNG SỰ KIỆN (FACT TABLE -FT) VÀ CÁC BẢNG CHIỀU (DIMENSION TABLE) CỦA KHO DỮ LIỆU 66
3.4.3 THIẾT KẾ HỆ THỐNG 67
3.5 KẾT LUẬN CHƯƠNG 3 72
CHƯƠNG 4 74
XÂY DỰNG KHO DỮ LIỆU TMĐT VÀ 74
GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 74
4.1 TRÍCH CHỌN, XỬ LÝ, NẠP DỮ LIỆU VÀO KHO 74
4.1.1 TỔ CHỨC HỆ THỐNG 74
4.1.2 THU THẬP VÀ TẠO LẬP DỮ LIỆU CHO KHO DỮ LIỆU 75
4.1.2.1 TRÍCH CHỌN, CHUYỂN TẢI VÀ NẠP DỮ LIỆU 75
4.1.2.2 LỌC, TINH CHẾ DỮ LIỆU 75
4.1.2.3 THẨM ĐỊNH VÀ CHUYỂN ĐỔI DỮ LIỆU 76
4.1.2.4 TÍCH HỢP DỮ LIỆU 76
4.1.2.5 TẢI DỮ LIỆU VÀO KHO 76
4.2 XÂY DỰNG CÁC KHỐI VÀ CHIỀU CHO GIẢI PHÁP OLAP 77
4.2.1 TIẾN TRÌNH TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU 77
4.2.2 XÂY DỰNG CÁC KHỐI OLAP 78
4.2.2.1 KHỐI (CUBE) 78
4.2.2.2 CHIỀU (DIMENSION) 80
4.2.2.3 CÁC ĐƠN VỊ ĐO LƯỜNG (MEASURE) 81
4.2.2.4 CÁC PHÂN HOẠCH (PARTITION) 82
4.2.2.5 KHỐI ẢO 82
4.3 PHÂN TÍCH VÀ HIỂN THỊ DỮ LIỆU 82
4.3.1 HIỂN THỊ DỮ LIỆU CỦA KHỐI 82
4.3.2 TRUY VẤN DỮ LIỆU 83
4.4 CÀI ĐẶT MINH HOẠ 83
4.4.1 TẠO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ 83
4.4.1.1 TẠO LẬP BẢNG CHIỀU 83
4.4.1.2 TẠO BẢNG SỰ KIỆN 85
4.4.2 TẠO KHỐI 89
4.5 KẾT LUẬN CHƯƠNG 4 102
KẾT LUẬN 104
TÀI LIỆU THAM KHẢO 107
Trang 5CÁC THUẬT NGỮ VIẾT TẮT
BIW Business Information Warehouse Kho thông tin tác nghiệp
DSS Decision Support System Hệ hỗ trợ quyết định
EDM Enterprise Data Model Mô hình dữ liệu mức xí nghiệp
MDX MultiDimension Express Biểu thức (truy vấn) đa chiều
OAS Operational Application System Hệ tác nghiệp
ODS Operational Database Store Kho dữ liệu tác nghiệp
OLAP On-Line Analysis Processing Xử lý phân tích trực tuyến OLTP On-Line Transaction Prcessing Xử lý giao dịch trực tuyến
OM Operational Metadata Siêu dữ liệu tác nghiệp
Trang 6MỞ ĐẦU
1 Đặt vấn đề
Trong thời đại của nền kinh tế tri thức mà chúng ta đang sống, mọi hoạt động của chúng ta muốn đạt hiệu quả cao thì nhất thiết phải có được thông tin, tri thức cần thiết một cách nhanh chóng và chính xác Thông tin có thể có được
ở mọi nơi, mọi thời điểm và từ nhiều dạng khác nhau
Mục tiêu của các tổ chức, các xí nghiệp là phải phục vụ tốt theo yêu cầu của khách hàng, giành được ưu thế trong cạnh tranh để phát triển Để có thể quản lý được các hoạt động của xí nghiệp, người quản lý không chỉ cần biết cái
gì đang xảy ra mà còn phải biết được lý do tại sao Trong giai đoạn xử lý dữ liệu
tự động nhờ những kỹ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời nhanh các câu hỏi "Những cái gì đã xảy ra?" Các hệ thống thông tin hiện tại sẽ giúp cho các nhà quản lý hiểu được "tại sao những điều đó lại xảy ra?" và để giành được lợi thế trong cạnh tranh, đáp ứng yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được "Những gì có thể sẽ xảy ra tiếp theo?" Để có thể trả lời những câu hỏi trên thì cần có các phương pháp, công cụ để tổ chức, xử lý khai thác tốt dữ liệu
Những mục tiêu trên không dễ gì có được bởi vì dữ liệu ngày một nhiều, lưu trữ ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc Người sử dụng thường xuyên gặp phải những khó khăn như: không tìm thấy hoặc không lấy ra được dữ liệu cần thiết, không thể hiểu và sử dụng được dữ liệu tìm thấy, tổng hợp dữ liệu rất khó khăn và chậm chạm, mất nhiều thời gian, v.v
Ngày nay, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh nghiệp, cung cấp cho chúng ta nhiều phạm trù thông tin phong phú, rất cần thiết cho các hoạt động WWW cung cấp đủ các thông tin về mọi lĩnh vực của xã hội loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo,
du lịch, thương mại điện tử,v.v Tuy nhiên, một vấn đề đặt ra là làm thế nào để
tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó
Sự phát triển nhanh chóng của Internet không chỉ cung cấp cho chúng ta một lượng thông tin khổng lồ mà Internet ngày càng gắn liền với nhiều hoạt
Trang 7động của con người Rất nhiều hoạt động của chúng ta có thể thực hiện được một cách thuận tiện và nhanh chóng hơn thông qua Internet Thương mại điện tử
là một trong những hoạt động điển hình Việc mua bán, trao đổi hàng hoá và nhiều dịch vụ khác được thực hiện trên Internet đã đem lại rất nhiều thuận tiện cho cả người mua và người bán Hoạt động này đã và đang phát triển trên thế giới và chắc chắn sẽ phát triển mạnh mẽ tại Việt Nam trong một tương lai không
xa
Qua thực tế nhận thấy cần phải có một công nghệ cơ sở dữ liệu mới nhằm giải quyết được những bất cập mà phương pháp truyền thống hiện tại không thoả mãn được Công nghệ mới này không chỉ đáp ứng được các nhu cầu của người dùng mà còn đòi hỏi phải tạo ra một môi trường dùng chung, tích hợp được các
hệ thống CSDL đã có
Xuất phát từ những đặc điểm chung và tính thời sự nêu trên, tôi đã chọn
đề tài "Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu" mong được đóng góp một phần nhỏ bé trong việc nghiên cứu giải pháp tích hợp dữ liệu từ nhiều nguồn khác nhau về lưu trữ trong một kho dữ liệu và sử dụng công cụ xử lý phân tích trực tuyến OLAP để khai thác thông tin một cách
có hiệu quả và nhanh chóng, trợ giúp các nhà quản lý, các nhà lãnh đạo đưa ra những quyết định đúng đắn, kịp thời cho các chiến lược phát triển của họ
2 Mục tiêu của luận văn
Mục tiêu của đề tài là nghiên cứu công nghệ kho dữ liệu và xử lý phân tích trực tuyến OLAP để khai thác kho nhằm cung cấp thông tin nhanh chóng và chính xác cho các nhà lãnh đạo và quản lý, bao gồm các vấn đề chính sau đây:
- Nghiên cứu công nghệ kho dữ liệu, giải pháp tích hợp và tận dụng các nguồn dữ liệu có sẵn để tạo thành kho, các khái niệm cơ bản của kho dữ liệu, các kiểu dữ liệu, mô hình và kiến trúc kho dữ liệu
- Nghiên cứu một phương pháp khai thác kho dữ liệu - xử lý phân tích trực tuyến OLAP, sử dụng mô hình khối dữ liệu đa chiều để xây dựng và lưu trữ
dữ liệu đã được tổng hợp phục vụ cho việc khai thác được nhanh chóng và thuận tiện
Trang 8- Ứng dụng lý thuyết đã nghiên cứu để xây dựng kho dữ liệu thương mại điện tử và các khối dữ liệu đa chiều để phân tích, xử lý và lưu trữ các dữ liệu tổng hợp, phục vụ cho việc khai thác thông tin nhanh chóng và hiệu quả
- Nghiên cứu cách khai thác thông tin trong khối dữ liệu đa chiều bằng cách tạo lập và thực hiện truy vấn trên khối; hiển thị kết quả phân tích dưới nhiều hình thức trực quan, sinh động, uyển chuyển nhằm hỗ trợ có hiệu quả cho công tác quản lý, điều hành của ban lãnh đạo
3 Bố cục của luận văn
Luận văn gồm 4 chương:
Chương 1: Trình bày khái quát chung về công nghệ kho dữ liệu: các khái
niệm cơ bản, các kiểu dữ liệu, kiến trúc và mô hình kho dữ liệu
Chương 2: Trình bày một công cụ khai thác kho dữ liệu - xử lý phân tích
trực tuyến OLAP: khái niệm chung về OLAP, mô hình và kiến trúc khối OLAP,
sự phân loại OLAP
Chương 3: Giới thiệu khái quát hệ thống thương mại điện tử, tìm hiểu
yêu cầu, phân tích, thiết kế kho dữ liệu thương mại điện tử; đưa ra giải pháp và giới thiệu công cụ để xây dựng và khai thác kho dữ liệu
Chương 4: Trình bày các bước thực hiện việc xây dựng, cài đặt kho dữ
liệu và tạo dựng khối OLAP nhờ công cụ Enterprise Manager và Analysis Services được tích hợp trong Microsoft SQL Server 2000; khai thác và hiển thị
dữ liệu của khối bằng MDX và OLAPBrowserPro
Trang 9CHƯƠNG 1 KHO DỮ LIỆU
1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE)
1.1.1 Sự ra đời và phát triển công nghệ kho dữ liệu
Ngày nay thông tin đóng vai trò rất quan trọng trong môi trường nghiệp
vụ, sự thành công hay thất bại của nghiệp vụ liên quan đến việc có thể sử dụng hiệu quả thông tin được hay không Sự thay đổi nhanh chóng trong môi trường hoạt động nghiệp vụ đòi hỏi phải truy cập được ngay thông tin cần thiết
Rất ít tổ chức có đủ lượng thông tin cần thiết, thậm chí vẫn thiếu những thông tin cơ bản nhất, mặc dù họ đang “chìm ngập trong dữ liệu” Vấn đề đặt ra
là làm thế nào để có được những thông tin cần thiết từ các dữ liệu đó? Trước hết, chúng ta cần phân biệt được điểm khác biệt cơ bản giữa dữ liệu và thông tin Dữ liệu bao gồm các sự kiện, văn bản đồ hoạ, âm thanh, đoạn phim có một giá trị nào đó đối với người sử dụng chúng và được lưu trữ xử lý trong máy tính Thông tin là dữ liệu đã được xử lý theo cách mà chúng ta có thể làm tăng hàm lượng tri thức cho người sử dụng nó [5]
Do các doanh nghiệp tự chuyển đổi để có thể cạnh tranh trong môi trường biến đổi liên tục, thế giới thông tin trong con mắt những nhà quản lý và lãnh đạo cũng thay đổi theo Trong thế giới thực, các ranh giới luôn biến đổi, bị xoá bỏ
và xây dựng lại Trước kia mục tiêu chính là phân lớp, cấu trúc thì ngày nay là tính năng động, chuyển đổi
Cùng với sự phát triển của công nghệ thông tin, các hệ thống tác nghiệp ngày càng phát triển cả về chất lượng và số lượng, hỗ trợ đắc lực trong công tác quản lý và điều hành trên từng lĩnh vực khác nhau Mỗi hệ thống được xây dựng độc lập trên một lĩnh vực, phục vụ một mục đích nào đó của người sử dụng Trong các hệ thống đó, đa phần cơ sở dữ liệu (CSDL) được lưu trữ dưới dạng
mô hình CSDL quan hệ và dữ liệu không được lưu trữ dưới dạng tổng hợp
Một thực tế đặt ra và cũng là một bức xúc của người lãnh đạo là khi lượng thông tin lưu trữ ngày càng lớn nhưng sự phát triển lại theo những chủ đề, những lĩnh vực rất khác nhau nên gây ra nhiều khó khăn trong công tác phân
Trang 10tin quản lý cung cấp đến lãnh đạo từ nhiều nguồn khác nhau, có khi cùng một chỉ tiêu qua mỗi bộ phận xử lý lại cho những kết quả hoàn toàn trái ngược nhau gây khó khăn cho các nhà lãnh đạo trong việc đưa ra các quyết định một cách kịp thời
Dữ liệu lưu trữ trong các CSDL thường theo hạn định nên thường không
có tính lịch sử, gây ra nhiều khó khăn trong việc đối chiếu, so sánh số liệu, từ đó đưa ra các đánh giá đúng sự phát triển và kịp thời để có những điều chỉnh hoặc
bổ sung kế hoạch
Như vậy, vấn đề đặt ra đòi hỏi phải có một mô hình dữ liệu nào đó cho phép lưu trữ dữ liệu lớn có tính lịch sử và theo thời gian; đồng thời, cung cấp phương pháp truy nhập nhanh, phân tích dữ liệu theo nhiều chiều khác nhau sẵn sàng đáp ứng những câu hỏi theo bất kỳ tình huống nào của người lãnh đạo
Việc xây dựng lại từ đầu một ứng dụng để đáp ứng được yêu cầu trên là không đơn giản và khó chấp nhận vì dữ liệu hiện tại đã có và đang trợ giúp hoạt động quản lý trên nhiều lĩnh vực vì vậy cần có một công nghệ nào đó ra đời đáp ứng được yêu cầu trên đồng thời sử dụng lại được số liệu của các CSDL sẵn có
để kết hợp lại thành một kho dữ liệu mang tính chiến lược, trở thành tài sản quý báu của doanh nghiệp Ngoài ra, khi lượng dữ liệu tăng lên thì việc tìm kiếm, tra cứu, tổng hợp dữ liệu sẽ gặp rất nhiều khó khăn và mất nhiều thời gian nên cũng đòi hỏi một giảp pháp cho phép tính toán trước số liệu sẵn có
Trước yêu cầu thực tế đặt ra, công nghệ kho dữ liệu DW) ra đời đáp ứng và thoả mãn những yêu cầu trên, trợ giúp đắc lực cho các nhà quản lý, lãnh đạo khi đứng trước những bài toán mang tính chiến lược
Như vậy, kho dữ liệu nảy sinh từ hai vấn đề [3]:
- Nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn xí nghiệp
- Sự cần thiết có hệ thống thông tin để quản lý hiệu quả dữ liệu của các tổ chức
Hai điều này tuy không liên quan đến nhau nhưng kết hợp lại sẽ tạo ra những quan điểm và giải pháp mới Nếu xác định được các nhu cầu của hệ thống thông tin để quản lý dữ liệu thì nhu cầu nghiệp vụ về cách nhìn thông tin trên quy mô toàn xí nghiệp sẽ dễ dàng đạt được Tương tự, nhu cầu thứ nhất cũng như những lợi ích nghiệp vụ mà nó đem lại sẽ là những biện hộ cần thiết cho
Trang 11việc giải quyết vấn đề quản lý dữ liệu Chính sự kết hợp này làm cho khái niệm kho dữ liệu phát triển
Đôi nét về quá trình phát triển công nghệ kho dữ liệu [3]:
- Cuối những năm 80, kho dữ liệu bắt đầu xuất hiện
- Năm 1988, có một bài báo đầu tiên mô tả cấu trúc kho dữ liệu Bài báo này mô tả những công việc đã thực hiện để thiết kế kho dữ liệu phục vụ chi nhánh IBM tại châu Âu
- Đầu thập niên 90, cuộc cách mạng về xử lý dữ liệu không chỉ là phổ cập kho dữ liệu mà còn tạo điều kiện để mở rộng khái niệm kho dữ liệu ra ngoài những kiểu dữ liệu truyền thống, bắt đầu kết hợp tất cả các khía cạnh về cách thức người dùng thực thi nhiệm vụ của mình
-Thế kỷ 21 - kỷ nguyên của quản lý dựa trên thông tin
Ngày nay, chúng ta chờ đợi và dự đoán tương lai dựa trên những phác thảo quá khứ Điểm mấu chốt của sự dự đoán này là nhu cầu tăng lợi thế cạnh tranh đã khiến nền tảng hỗ trợ việc ra quyết định chuyển từ dữ liệu sang thông tin Định hướng này có thể được mô tả bởi thuật ngữ quản lý dựa trên thông tin (information-based management)
1.1.2 Kho dữ liệu là gì?
Có thể gói gọn ngành tin học trong ba từ là lưu trữ, xử lý và khai thác thông tin Về mặt lưu trữ, các hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt Tuy nhiên, khi lượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt trong những ngành như ngân hàng, tài chính, đã làm nảy sinh khái niệm DataWarehouse hay kho dữ liệu
Kho dữ liệu là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế
để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [1]
Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng trăm
GB hay thậm chí hàng Terabyte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ
và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới
Trang 12Mục tiêu chính của kho dữ liệu là giải quyết những vấn đề cơ bản sau:
1 Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau
2 Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định
3 Tổng hợp và kết nối dữ liệu
4 Đồng bộ hoá các nguồn dữ liệu với DW
5 Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như
là các công cụ chuẩn để phục vụ cho DW
6 Quản lý những siêu dữ liệu
7 Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, được
tổ chức theo các chủ đề
8 Dùng trong các hệ thống hỗ trợ quyết định (DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
1.1.3 Mô hình chung của công nghệ kho dữ liệu
Có thể khái quát mô hình chung của công nghệ kho dữ liệu được chia làm
3 khối sau [2]:
1 Khối thiết kế CSDL kho dữ liệu: Làm nhiệm vụ thu thập các yêu cầu của người sử dụng, xây dựng mô hình khái niệm, mô hình logic và mô hình vật
lý cho kho dữ liệu
2 Khối thiết kế kiến trúc kho dữ liệu, được chia thành 3 phần:
- Kiến trúc tải dữ liệu: Có nhiệm vụ thu thập dữ liệu từ các nguồn dữ liệu khác nhau, chuyển đổi, làm sạch và nạp vào CSDL dự trữ trước khi đưa sang CSDL kho dữ liệu
- Kiến trúc dữ liệu: làm nhiệm vụ lưu trữ các dạng dữ liệu trong kho dữ liệu
- Kiến trúc truy cập: Cung cấp cho các đối tượng sử dụng thông qua các công cụ phân tích, khai phá dữ liệu
3 Khối vận hành và quản trị kho dữ liệu: Khối này làm nhiệm vụ: quản
lý về an toàn, bảo mật và độ ưu tiên; quản lý sự cập nhật dữ liệu từ các
Trang 13nguồn khác nhau; kiểm tra chất lượng dữ liệu; tái tạo dữ liệu; chia nhỏ và phân tán dữ liệu; lưu trữ các bản sao và phục hồi dữ liệu
1.1.4 Đặc tính của dữ liệu trong kho dữ liệu
1 Tính tích hợp
Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó Tính tích hợp trong DW được chia theo nhiều cách phù hợp với quy ước về tên gọi,
số đo, cấu trúc mã hoá và những thuộc tính vật lý của dữ liệu Các tên gọi, biến, thuộc tính có thể được mô tả khác nhau trong các ứng dụng, song chúng sẽ được tích hợp lại trong kho dữ liệu ở dạng chung nhất
Như vậy, tính tích hợp trong kho thể hiện ở chỗ: dữ liệu tập hợp trong kho
dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất
2 Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của mình Do đó, cách tổ chức của kho dữ liệu dựa vào dữ liệu là chính DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định
3 Dữ liệu có tính lịch sử
Dữ liệu trong hệ thống tác nghiệp cần phải chính xác ở chính thời điểm truy cập, còn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành
dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu Đó chính là những
dữ liệu hợp lý về những chủ điểm cần lưu trữ
4 Dữ liệu gắn thời gian
Một kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Các dữ liệu này chỉ cần chính xác trong khoảng thời gian nào đó, không yêu cầu phải chính xác tại thời điểm truy nhập Dữ liệu trong kho dữ liệu khi đã chính xác thì được
Trang 14vậy, nó cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu
5 Dữ liệu có tính ổn định
Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối Nó chỉ cho phép thực hiện hai thao tác cơ bản là nạp dữ liệu vào kho và truy cập vào các vùng trong kho dữ liệu (Load and Access )
6 Dữ liệu không biến động
Tính không biến động thể hiện ở chỗ dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo,
từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự nhiên
7 Dữ liệu tổng hợp
Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong kho dữ liệu Kho
dữ liệu chỉ lưu những dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm
Tóm lại, dữ liệu được lọc ra từ nhiều môi trường tác nghiệp, được xây dựng tổ chức thành kho dữ liệu Đó là những dữ liệu cần thiết cho việc xử lý để
có được những thông tin đầy đủ và chính xác cho các nhà quản lý, các tổ chức xí nghiệp hoạt động có hiệu quả và phát triển được trong môi trường cạnh tranh
1.1.5 Phân biệt DW với những hệ cơ sở dữ liệu tác nghiệp
Dựa trên những đặc trưng của DW, ta nhận thấy thực ra nét khác biệt của
DW so với CSDL chỉ là ở quan niệm, cách nhìn vấn đề [7]:
- Trước tiên DW là CSDL rất lớn DW về bản chất cũng là một CSDL bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các CSDL thông thường tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn
- CSDL hướng về xử lý thời gian thực, DW hướng về tính ổn định
Trang 15- CSDL phục vụ xử lý giao dịch, cập nhật DW thường chỉ đọc, phục vụ cho những nhu cầu báo cáo, ra quyết định
- DW lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQL server thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu trúc của nó - đó là VLDB (Very Large Database) Dữ liệu từ CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi trường kho dữ liệu Rất nhiều dữ liệu khác không được chuyển về kho dữ liệu, chỉ những dữ liệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển sang kho dữ liệu
- Kho dữ liệu phải được xác định theo hướng chủ đề Nó được thực hiện theo ý đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung Kho dữ liệu rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông tin dễ dàng thì bản thân kho dữ liệu phải được chuyên hoá, phân ra thành những chủ đề Những chủ đề chuyên môn hóa đó tạo thành một CSDL chuyên biệt - đó là Data Mart (DM)
- Một điểm quan trọng là CSDL thường được chuẩn hóa để tiện cho việc khai thác DW thì lại phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo giản đồ hình sao trong DM, nghĩa là kho dữ liệu sẽ trùng lặp thông tin Điều này là hiển nhiên vì mục đích của chuẩn hoá nhằm tránh sự trùng lặp dữ liệu, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa Trong khi đó,
DW là CSDL rất lớn phục vụ chủ yếu cho báo cáo truy vấn chỉ đọc nên việc
trùng lặp thông tin sẽ giúp tìm kiếm nhanh hơn
1.1.6 Một số khái niệm cơ bản
1.1.6.1 Kho dữ liệu cục bộ - Datamart
Kho dữ liệu cục bộ (DataMart -DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành DM là kho dữ liệu hướng chủ đề Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với
Trang 16việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM
DM hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area -SA) được tạo ra và dành cho một nhóm người sử dụng Dữ liệu trong DM cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thể hiện thường xuyên nhất của
DM là một kho dữ liệu riêng rẽ theo phương diện vật lý, thường được lưu trữ
trên một Server riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất
định
Có thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc
DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của DM
DM độc lập: không giống như DM phụ thuộc, DM loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn khác nhau Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều DM khó đồng nhất với nhau
1.1.6.2 Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác
Kho dữ liệu tác nghiệp (Operational Database Store- ODS) là hệ thống tác nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp quyết định và phân tích trên dữ liệu giao dịch tác nghiệp Nói một cách khác, kho dữ liệu tác nghiệp là một khái niệm có kiến trúc để hỗ trợ cho việc tạo quyết định tác nghiệp hàng ngày lưu trữ những dữ liệu có giá trị hiện thời được chuyển đến
từ các ứng dụng tác nghiệp Điều đó khiến cho dữ liệu lưu trữ trong kho dữ liệu tác nghiệp biến động thường xuyên khi những dữ liệu liên quan trong các hệ thống tác nghiệp có sự thay đổi Kho dữ liệu tác nghiệp cung cấp một sự lựa chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một cách trực tiếp từ các hệ thống xử lý các giao dịch trực tuyến
Kho dữ liệu tác nghiệp cần phải được xây dựng riêng biệt và là một phần của kho dữ liệu
Trang 17Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và các cấu trúc dữ liệu được lưu trữ Kho dữ liệu tác nghiệp chứa những dữ liệu có giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn kho dữ liệu chứa những dữ liệu lịch sử, có giá trị trong một quá khứ gần Kho dữ liệu tác nghiệp có thể cập nhật còn kho dữ liệu không cập nhật được [1]
Một sự khác nhau nữa là công nghệ hỗ trợ cho hai hệ thống đó Kho dữ liệu tác nghiệp đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi được những dữ liệu cần thiết để cho phù hợp với nghiệp vụ và nhanh chóng trả lời được các yêu cầu của người sử dụng, kho dữ liệu thì ngược lại, chỉ yêu cầu đơn giản là nạp và truy cập
Về mặt chức năng, kho dữ liệu tác nghiệp cung cấp một khung nhìn tập trung về dữ liệu gần với thời gian thực từ các hệ thống tác nghiệp
Trong mối quan hệ với kho dữ liệu, kho dữ liệu tác nghiệp có thể được sử dụng như kho dữ liệu dùng cho việc tập hợp dữ liệu từ các nguồn khác nhau Ngược lại, kho dữ liệu tác nghiệp không hoạt động như là một kho dữ liệu trung gian cho kho dữ liệu, đặc biệt trong trường hợp kho dữ liệu cần dữ liệu từ những nguồn bên ngoài, không nằm trong kho dữ liệu tác nghiệp Trong trường hợp đó, kho dữ liệu có thể lấy dữ liệu một cách riêng rẽ từ kho dữ liệu tác nghiệp hoặc một nguồn dữ liệu bên ngoài được thêm vào thành phần tinh chế dữ liệu của kho
Trang 18 Có thể thay đổi được, có thể cập nhật
Tuyển tập các dữ liệu hiện tại hoặc gần với hiện tại hỗ trợ cho những quyết định tác nghiệp hàng ngày
Do đó có thể nói kho dữ liệu tác nghiệp khác chủ yếu với kho dữ liệu ở hai điểm cuối Dữ liệu từ nhiều ứng dụng hiện tại cần được chuyển đổi để lưu vào kho dữ liệu tác nghiệp
1.1.6.3 Kho dữ liệu ảo
Khi xây dựng và khai thác DW, người ta còn hay sử dụng khái niệm kho
dữ liệu ảo (Virtual Data Warehouse - VDW) như là một cách để cài đặt nhanh chóng DW mà không cần sao chép lại nhiều bộ dữ liệu
VDW là một kho dữ liệu logic mà ở đó NSD được quyền truy nhập trực tiếp vào nhiều nguồn dữ liệu thao tác khác nhau thông qua những công cụ trung gian
VDW được sử dụng để nâng cấp khả năng của mạng đối với mọi công cụ của NSD, ở mọi nơi trên mạng đều có thể truy cập vào các dữ liệu thời gian thực
và các dữ liệu dẫn xuất cần thiết
1.2 CÁC KIỂU DỮ LIỆU
1.2.1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business Data – BD) là dữ liệu dùng để vận hành và quản lý một doanh nghiệp hoặc một tổ chức Nó phản ánh những hoạt động của doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa điểm, sản phẩm,v.v Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác cũng như các hệ thống hỗ trợ quyết định (DSS)
Dựa trên dữ liệu có cấu trúc, dữ liệu nghiệp vụ được chia làm 3 loại sau:
Dữ liệu thời gian thực (real- time data): Dữ liệu chi tiết, tức thời, dùng
để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước
Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các ứng dụng thao tác hay sản xuất Chúng có thể tổ chức thành các files hay CSDL
Trang 19 Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm hoặc
dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc nghiệp vụ
Dữ liệu tương hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là
một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này thực hiện dựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo
ra các dữ liệu lịch sử
1.2.2 Dữ liệu nghiệp vụ phi cấu trúc
Ngược lại với dữ liệu có cấu trúc, dữ liệu phi cấu trúc là những dữ liệu không thuần nhất, ví dụ hình ảnh, âm thanh hay đoạn phim Tầm quan trọng của
dữ liệu phi cấu trúc ngày càng tăng lên trong công việc nghiệp vụ cũng như trong các hệ thống thông tin
Dữ liệu phi cấu trúc có kích thước lớn, khó thao tác và không được hỗ trợ tốt trong các cơ sở dữ liệu và các công cụ khác Tuy vậy, một kho chứa thông thường không thể không có dữ liệu loại này, nhưng nó chỉ được đưa vào kho sau khi đã hoàn thành việc đưa dữ liệu có cấu trúc vào kho
1.2.3 Siêu dữ liệu (Metadata )
Metadata (hay gọi là siêu dữ liệu) là dữ liệu về dữ liệu được sử dụng trong kho dữ liệu trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu
Nó được sử dụng cho việc xây dựng, duy trì, quản lý và sử dụng kho dữ liệu
Metadata được chia thành 3 loại: siêu dữ liệu nghiệp vụ, siêu dữ liệu kĩ thuật và siêu dữ liệu tác nghiệp
1 Siêu dữ liệu nghiệp vụ (Business Metadata): chứa đựng những thông
tin giúp cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin được lưu trữ trong kho dữ liệu Nó chứa đựng những thông tin cho tất cả những người sử dụng đầu cuối
Trang 202 Siêu dữ liệu kỹ thuật (Technical Metadata): chứa đựng những thông
tin về dữ liệu trong kho dữ liệu của những người thiết kế và quản trị khi tiến hành công việc phát triển và quản lý
3 Siêu dữ liệu tác nghiệp (Operational Metadata - OM)
Siêu dữ liệu tác nghiệp giúp cho việc duy trì và triển khai kho dữ liệu và mô tả thông tin chứa đựng trong các bảng đích
Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích (tạo ra bảng và thông tin dưới dạng liệt kê), thông tin được lưu trữ hay trực tuyến, ngày làm tươi mới dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc
và những người sử dụng có khả năng truy nhập vào dữ liệu
Metadata cung cấp cho người sử dụng sự truy nhập tương tác để giúp cho
họ có thể hiểu được nội dung và tìm thấy được dữ liệu cần thiết Tất cả các thành phần của kho dữ liệu đều cần và có thể lấy dữ liệu từ Metadata Metadata được lưu trữ ở khu vực trung tâm
DỮ LIỆU
KHỐI TẠO DỰNG KHO
DỮ LIỆU
KHỐI TẠO DỰNG DATA MART
KHỐI TRUY NHẬP
VÀ SỬ DỤNG
LỚP QUẢN LÝ SIÊU DỮ LIỆU LỚP CHUYỂN TẢI DỮ LIỆU LỚP KẾT CẤU HẠ TẦNG
Trang 21Hình 1.2 Kiến trúc thành phần kho dữ liệu
1.3.1.1 Khối các nguồn dữ liệu
Khối này bao gồm các phần sau:
Dữ liệu sản phẩm: Đó là dữ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp đủ loại
Dữ liệu kế thừa: Về cơ bản loại dữ liệu này có tính lịch sử Chúng phục vụ cho quá trình phân tích dữ liệu
Các hệ thống dữ liệu bên trong
Các hệ thống dữ liệu bên ngoài
Hệ quản lý siêu dữ liệu cho khối này
1.3.1.2 Khối tạo dựng kho dữ liệu
Khối này bao gồm các khối con [2]:
1 Khối con tinh chế:
Liên quan đến việc nâng cao chất lượng của dữ liệu, có các chức năng chính sau: Chuẩn hoá, làm sạch, sàng lọc, tương hợp dữ liệu, phân định thời gian cho các thông tin nguồn
2 Khối con gia công lại: Có các chức năng chính sau:
Tích hợp các dữ liệu khác từ các hệ thống để tạo ra dữ liệu mới
Phân dữ liệu thành ra các loại cho dễ xử lý
Tính toán sơ bộ, tổng hợp và kết xuất dữ liệu
Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau
Biến đổi và gia công lại dữ liệu
3 Khối con Data Warehouse: Bao gồm các chức năng chính sau:
Mô hình hoá, tổng hợp và kết nối mức độ cao các dữ liệu
Tăng chất lượng giá trị của dữ liệu
Trang 22 Mô tả các loại cơ sở dữ liệu
Xây dựng các từ điển thuật ngữ tác nghiệp,
Về cơ bản các dữ liệu được xử lý ở đây được lấy trực tiếp từ khối các
nguồn dữ liệu
1.3.1.3 Khối tạo dựng Data Mart
Khối này dùng để tạo ra DM từ các nội dung của kho dữ liệu Cũng giống như khối tạo dựng DW, trong khối này cũng có những chức năng như khối trên nhưng thường ở mức cao hơn và có hướng chủ đề rõ ràng Các chức năng chính
có trong khối này là:
Tinh chế và gia công lại như khối tạo dựng DW
Sàng lọc các dữ liệu đã chắt lọc từ khối tạo dựng DW
Khối con truy nhập có những chức năng chính sau:
Truy nhập trực tiếp vào khối tạo dựng DW
Truy nhập vào các Data Mart
Gia công lại và biến đổi dữ liệu thành các loại dữ liệu có cấu trúc phức tạp hơn
Khối con phân tích và tạo báo cáo có các chức năng chính sau:
Tạo ra các công cụ chuẩn để tạo báo cáo, phân tích, mô hình hoá tác nghiệp
Tạo ra các phần mềm trợ giúp ra quyết định, các phần mềm khai thác
dữ liệu
Cả hai khối con này đều có cơ chế quản lý siêu dữ liệu của chúng
Trang 231.3.1.5 Lớp quản lý dữ liệu
Kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ quản trị cơ sở dữ liệu tác nghiệp thông thường, việc quản lý dữ liệu đóng một vai trò rất quan trọng, nhất là phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, mà các dữ liệu này bao gồm nhiều kiểu loại khác nhau rất phong phú và đa dạng được lưu trữ trong nhiều loại hình mang thông tin Các chức năng chính của lớp quản lý dữ liệu là:
Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế và gia công lại dữ liệu trong kho dữ liệu
Giám sát và đáp ứng các yêu cầu cho các dữ liệu mới rút từ các nguồn dữ liệu khác nhau
Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại hoặc cập nhật và làm sạch dữ liệu
Như vậy có thể thấy lớp quản lý dữ liệu có những chức năng quản lý mới khác với các chức năng của hệ quản trị cơ sở dữ liệu thông thường
1.3.1.6 Lớp quản lý siêu dữ liệu
Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ở khắp nơi Các nguồn dữ liệu được đặc trưng bởi định nghĩa của các dữ liệu nhập vào Việc
bổ sung các nhãn thời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng trong siêu dữ liệu Lớp quản lý siêu dữ liệu cũng quản lý các dữ liệu mô tả đầy
đủ và hoàn chỉnh các dữ liệu được lưu trữ trong DW
1.3.1.7 Lớp chuyển tải dữ liệu
Nhiệm vụ chuyển tải dữ liệu giữa các khối do lớp này thực hiện Lớp này thực hiện nạp, sao chép, chuyển tải dữ liệu và sử dụng các hệ thống mạng, các phần mềm lớp trung gian Nó bảo đảm tính an toàn và phân quyền cho các nhu cầu chuyển tải dữ liệu
Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng và phần mềm của DW
1.3.1.8 Lớp kết cấu hạ tầng
Trang 24 Quản lý các hệ thống: tìm kiếm, quản lý và xác định các phần mềm chuẩn và các phần mềm ứng dụng
Trợ giúp cho quá trình tích hợp và các hoạt động khác để sao chép, cập nhật, kết nối, tổng hợp dữ liệu
Thực hiện công việc lưu trữ
Hệ thống xử lý: tạo ra các môi trường làm việc cho các khối chính
1.3.2 Kiến trúc logic của DW
Như trên đã phân tích, dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời gian thực, dữ liệu tương hợp và dữ liệu dẫn xuất Mỗi loại dữ liệu này có thể ở
các tầng khác nhau và mỗi tầng có cấu trúc vật lý riêng Kiến trúc dữ liệu logic cho DW có thể xây dựng như sau [1]:
=
=
Kho dữ liệu nghiệp vụ
Trang 25Là chương trình ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được lưu ở hệ thống tệp hay CSDL
Hệ thống thao tác bao gồm các nguồn dữ liệu của DW, dữ liệu được tạo
ra trong các hệ thống xử lý giao tác hàng ngày của xí nghiệp
Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)
Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu tổng hợp được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD đầu cuối
BDW rất ít khi được NSD khai thác trực tiếp Nó là nguồn cung cấp dữ liệu cho kho dữ liệu thông tin tác nghiệp
Kho thông tin tác nghiệp (Business Information Warehouse - BIW)
Đây là hệ thống thông tin được sử dụng để làm báo cáo, phân tích, hay dự đoán về nghiệp vụ Nó bao gồm những thông tin quản lý, trợ giúp quyết định và các hệ thống thông tin thực thi như các hệ thống phân tích thị trường, các chương trình ứng dụng khai thác thông tin
1.4 MÔ HÌNH DỮ LIỆU
1.4.1 Nền tảng của việc hình thành mô hình
Mô hình DW được phát sinh từ một mô hình dữ liệu tổng thể (mô hình dữ
liệu mức xí nghiệp) (Enterprise Data Model - EDM) EDM được tổ chức thành
các vùng theo chủ điểm SA SA là phần chính của sự chia nhỏ các công việc cần được quan tâm nhằm đáp ứng nhu cầu người sử dụng tốt hơn Nếu một tổ chức không có sẵn EDM thích hợp, EDM cũ được phép dùng tiếp và bổ sung các SA mới [1]
Để bắt đầu việc thiết lập mô hình, cần quan tâm tới khung nhìn hiện tại và trong tương lai sắp tới, nghĩa là mô tả và hiểu dữ liệu được chứa trong những hệ thống kế thừa
Mô hình dữ liệu DW có tính chủ đề, phụ thuộc vào công việc nghiệp vụ
và các vấn đề nảy sinh Nó có thể được thiết lập theo:
Sơ đồ hình sao (Star Schema)
Trang 26 Sơ đồ hình tuyết rơi (Snowflake)
Sơ đồ hỗn hợp
1.4.2 Sơ đồ hình sao - Star Schema
Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác Mô hình này thể hiện cách nhìn của NSD về nhiều vấn đề trong tác nghiệp
Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr Ralph Kimball Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao
Dữ liệu trong sơ đồ hình sao được xác định và phân loại theo 2 kiểu:
◊ Các sự kiện được tổ chức thành bảng Fact
◊ Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng
Dimension
Bảng Fact (Bảng thực) chứa các thông tin cơ sở ở mức giao tác ở trong
nghiệp vụ mà các ứng dụng cần thiết Trước khi các dữ liệu này được đưa vào kho dữ liệu thì cần phải chọn một trường dữ liệu nào đó thường sử dụng trong các chiều phân tích để tham chiếu (xem như khoá ngoại trong các quan
hệ liên kết) và sau đó đưa vào bảng các chiều Các sự kiện là các đại lượng
số của công việc Các bảng Fact thường rất lớn, chứa hàng triệu dòng mà
hàng ta có các chiều sản phẩm, các vùng địa lý, các giai đoạn thời gian,…
Có hai loại chiều: Chiều phẳng và chiều phân cấp
Chiều phẳng (flat dimension): các giá trị của chiều có cùng mức, không giá trị nào đóng vai trò là cha hay con của giá trị khác
Trang 27 Chiều phân cấp (hierarchical dimension): các giá trị của chiều có quan
hệ một – nhiều (cha con với nhau)
Sơ đồ hình sao trở thành một lựa chọn thiết kế cơ sở dữ liệu cho DW vì có rất
nhiều ưu điểm:
Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đó
Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho
dữ liệu được hiểu trực quan hơn
Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện thực hiện các truy vấn Với sơ đồ hình sao, người thiết kế có thể
dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện
Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của
dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên
Những bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng Các bảng Dimension thường có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó Số lượng các bảng Dimension của mỗi bảng Fact là từ 3 đến 5
Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng
Một sơ đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng Dimension Một sơ đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension
Ví dụ về một sơ đồ hình sao:
Trang 28Hình 1 4 Sơ đồ hình sao
Lưu ý: bảng Fact và các bảng Dimension đều không bắt buộc ở dạng
chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp Về bản chất, bảng Fact thuộc dạng chuẩn 1NF, với mức độ dư thừa dữ liệu rất lớn
1.4.3 Sơ đồ hình tuyết rơi - Snowflake
Trong sơ đồ hình sao, nếu bảng Dimension bắt đầu có sự tương đồng với các bảng Fact thì có thể nó cần được chia ra thành các bảng Dimension Nếu một bảng Dimension được chia ra thành Dimension chính và Dimension phụ thì cấu trúc thu được của kết quả được coi là một sơ đồ hình tuyết rơi hoặc một cấu trúc sao mở rộng
Như vậy, sơ đồ hình tuyết rơi là một sự mở rộng của sơ đồ hình sao tại đó mỗi cánh sao không phải là một bảng Dimension mà là nhiều bảng
Ví dụ: Trong sơ đồ hình sao ở trên, nếu chiều sản phẩm được chia ra thành bảng chiều chính (DMSanpham) và bảng chiều phụ (Nhomhang); chiều khách hàng được chia thành hai bảng là DMKháchHang và ThanhPhanKH thì sơ đồ trên sẽ trở thành sơ đồ hình tuyết rơi, được thể hiện như hình vẽ bên dưới:
Trang 29Hình 1.5 Sơ đồ tuyết rơi mở rộng của sơ đồ hình sao Trong dạng sơ đồ này, mỗi bảng theo chiều của sơ đồ hình sao được chuẩn hóa hơn Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn hóa
1.4.4 Sơ đồ kết hợp
Trong thực tế người ta hay sử dụng hỗn hợp hai sơ đồ trên, tạo thành sơ
đồ kết hợp Sơ đồ này kết hợp giữa sơ đồ hình sao dựa trên bảng Fact và những bảng Dimension không chuẩn hóa theo các chuẩn 1NF, 2NF, 3NF và
sơ đồ hình tuyết rơi trong đó tất cả các bảng Dimension đều đã được chuẩn hóa Như vậy, trong sơ đồ kết hợp, chỉ những bảng Dimension lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được chuẩn hóa
1.5 KẾT LUẬN CHƯƠNG 1
Rất khó định nghĩa được chính xác phạm vi kho dữ liệu Đó là do kho dữ liệu ngày càng phổ biến và các nhà cung cấp vẫn đang tiếp tục mở rộng tối đa phạm vi này để bao gồm nhiều hơn nữa các sản phẩm của mình nhằm thu lợi
Trang 30nhuận tối đa Tuy nhiên, trong chương này em đã trình bày các khái niệm tổng quan của một kho dữ liệu cơ bản nhất
Những kiến thức trong chương một đã cung cấp cho chúng ta một cái nhìn tổng thể về sự hình thành kho dữ liệu, khái niệm kho dữ liệu, mục đích xây dựng kho dữ liệu và các thành phần trong kho dữ liệu; đồng thời cũng đã phân biệt được sự khác nhau cơ bản giữa kho dữ liệu với những hệ cơ sở dữ liệu tác nghiệp; nêu được một số khái niệm cơ bản của kho dữ liệu Ngoài ra, chương một cũng đã trình bày về cơ bản các loại dữ liệu trong kho, kiến trúc của kho dữ liệu và một số mô hình kho dữ liệu như sơ đồ hình sao, sơ đồ hình tuyết rơi và
sơ đồ hỗn hợp
Vì lý do phạm vi luận văn, chương một trình bày tương đối ngắn gọn về kho dữ liệu Tuy nhiên, những kiến thức cơ bản mà nó đem lại sẽ là nền tảng để chúng ta tiếp tục nghiên cứu về cách xây dựng kho dữ liệu và các công cụ khai thác kho, đặc biệt là công cụ xử lý phân tích trực tuyến OLAP sẽ được trình bày
ở chương tiếp theo
Trang 31CHƯƠNG 2
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
2.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
Mục đích chính của phương pháp DW là cung cấp thông tin cho những nhà nghiệp vụ để tạo ra những quyết định chiến lược Xử lý phân tích là một cách cơ bản để có được những thông tin có giá trị từ các kho dữ liệu nhằm giải quyết những thách thức lớn mà các nhà quản lý đang phải đối mặt
Trong giai đoạn xử lý dữ liệu tự động nhờ những kỹ thuật của CNTT, các
xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời nhanh các câu hỏi
"Những cái gì đã xảy ra? " Các hệ thống thông tin hiện tại sẽ giúp các nhà quản
lý hiểu được "Tại sao những điều đó xảy ra trong thực tế?" Để giành được lợi thế trong cạnh tranh, đáp ứng yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được "Những gì có thể sẽ xảy ra tiếp theo ?"
Để giải quyết những vấn đề trên thì phải có các phương pháp, công cụ để
tổ chức, xử lý, khai thác tốt những kho dữ liệu liên quan Trong các kho dữ liệu lớn, đa chiều thường chứa nhiều thông tin ẩn kín mà các công cụ truyền thống như kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện được Hơn thế nữa, do yêu cầu của người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải được xử lý theo thứ tự khác nhau: lúc theo vùng, khi thì theo thời gian, khi khác lại theo nhóm tuổi, v.v Do vậy, đòi hỏi xử lý phân tích trực tuyến trên những
tập dữ liệu lớn và hỗn hợp
OLAP (On-Line Analysis Processing ) là công nghệ xử lý phân tích trực
tuyến Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ DW hoặc DM sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều Các dịch vụ (hay công cụ) OLAP lấy dữ liệu trong kho dữ liệu để thực hiện các công việc phân tích đặc biệt, phức tạp theo nhiều chiều để hỗ trợ cho
việc ra quyết định
Trang 32OLAP là một chức năng thông minh trong nghiệp vụ, làm cho các thông tin trong xí nghiệp có thể hiểu được OLAP khiến cho người sử dụng đầu cuối
có thể hiểu được bản chất bên trong thông qua việc truy nhập nhanh, tương tác tới các khung nhìn nhiều dạng của thông tin, được chuyển đổi từ các dữ liệu thô
để phản ánh sự đa dạng nhiều chiều thực tế của công ty
Cung cấp khả năng thiết lập mô hình phân tích bao gồm một mô tơ tính toán cho việc tính tỉ lệ, những biến đổi, liên quan tới những đại lượng số hoặc dữ liệu là con số qua các chiều dữ liệu khác nhau
Tạo ra sự tổng hợp và kết hợp, phân cấp và dùng những mức tổng hợp, kết hợp đó cho mỗi phép giao của các bảng theo mỗi chiều
Hỗ trợ những mô hình chức năng cho việc dự báo, phân tích các xu hướng và phân tích thống kê
Lấy và hiển thị dữ liệu theo những bảng 2 chiều hay 3 chiều, theo biểu
đồ hay đồ thị, dễ dàng xoay đổi các trục cho nhau
Đáp ứng những câu trả lời nhanh, vì vậy quá trình phân tích không bị cắt ngang và thông tin không bị cũ
Trang 33 Sử dụng một mô tơ kho dữ liệu đa chiều, lưu trữ dữ liệu theo các mảng Những mảng này là sự biểu diễn logic của các chiều của công việc
Thuật ngữ OLAP và cơ sở dữ liệu đa chiều hay được đồng nhất với nhau, gây nên sự mập mờ xung quanh hai khái niệm này Bản chất của cơ sở dữ liệu
đa chiều là một kiến trúc cơ sở dữ liệu lưu trữ thông tin tổng hợp bao gồm tất cả các mục dữ liệu chính (hay các chiều) tham chiếu lẫn nhau Trong khi đó, OLAP
là một thể hiện mặt trước cho phép người sử dụng đầu cuối lựa chọn các chiều
và các sự kiện tham chiếu lẫn nhau Các nguồn dữ liệu cho một ứng dụng OLAP bao gồm cơ sở dữ liệu đa chiều, cơ sở dữ liệu quan hệ và các dữ liệu bảng tính (lấy từ bất kỳ một kiến trúc CSDL nào)
2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI
Trang 34Mỗi phần tử của khối là "mặt song song với đáy", chính là dữ liệu về một nhân viên theo các thời gian khác nhau
Khối trên lược đồ LĐK kí hiệu là r(LĐK) gồm các phần tử, mà mỗi phần
tử là một họ n ánh xạ từ tập chỉ số I lên các miền giá trị của các thuộc tính
Vậy t r(LĐK) t = {<t1, t2, , tn> : ti: I > D(Ai), i = 1 n}
2.3.3 Lát cắt
Cho lược đồ khối LĐK = < I, R >, r = r(LĐK) là một khối trên lược đồ khối Ta có định nghĩa:
Trang 35Khối con có lược đồ con gồm chỉ một chỉ số x I và tập thuộc tính R:
<x, R> gọi là lát cắt của khối r
Mỗi lát cắt của khối chính là một quan hệ Như vậy nếu tập chỉ số của lược đồ khối chỉ có một phần tử thì khối trở thành một quan hệ và quan hệ chính
là trường hợp riêng của khối, đó là khối chỉ có một mặt
2.3.4 Khoá của khối
Cho lược đồ khối LĐK = < I, R >, r là khối trên LĐK
Với x I, t r, t = <t1, t2, , tn > ta ký hiệu t(x, Ai), i = 1, , n là giá trị của phần tử t ở thuộc tính Ai tại chỉ số x
Để thuận lợi cho việc trình bày ta đặt tiếp xi = (x, Ai) với x I và như vậy t(x, Ai) = t(xi) = ti(x), i = 1, , n Từ đó ta kí hiệu:
Ii = {xi}, với x I, như vậy Ii = {(x, Ai); x I}
Với mỗi tập con Xi Ii, ta sẽ ký hiệu: t(Xi) = {t(yi); yi Xi}
Giả sử t và t' là hai phần tử của khối r với:
Xik Iik (k = 1, , h), thoả mãn hai điều kiện sau đây:
(i) Với bất kỳ hai phần tử t và t' r luôn tồn tại một Xik K sao cho
Trang 36Trang
Doanh thu Chi phí
trực tiếp
Chi phí gián tiếp Lãi/Lỗ
2.3.5 Hiển thị khối trên màn hình máy tính
Giả sử ta có một khối ba chiều gồm: chiều thời gian (ngày, tuần, tháng, quý, năm), chiều sản phẩm (máy in, máy tính, máy fax) và chiều các biến số (doanh thu, chi phí trực tiếp, chi phí gián tiếp, lãi/lỗ) như mô hình khối dưới đây:
Sản phẩm Hình 2.1 Mô hình khối dữ liệu 3 chiều
Để hiển thị được khối dữ liệu ba chiều đó lên màn hình chúng ta phải tạo
ra một biểu diễn hai chiều của một khối ba chiều
ố Thời gian
Trang 37Hình 2.2 Hiển thị khối dữ liệu ba chiều Trên hình, Trang – SanPham: Máy tính tượng trưng cho chiều thứ ba Trong dữ liệu ba chiều, màn hình thể hiện một lát cắt của khối đó
Hiển thị khối dữ liệu lớn hơn 4 chiều:
Giải pháp là kết hợp các chiều logic lại, trong đó việc kết hợp hai chiều vào trong một chiều lồng vào chiều kia
Ví dụ: Xét hình khối đa chiều gồm các chiều: chiều SanPham (máy tính,
máy in), ThoiGian (quí 1, quí 2, quí 3, quí 4), CuaHang (cửa hàng 1, cửa hàng 2, cửa hàng 3), KhachHang (thanh niên, trung niên, trên 65 tuổi), BienSo (lãi/lỗ, doanh thu, chi phí trực tiếp, chi phí gian tiếp), KhungCanh (thực tế, kế hoạch) Dưới đây là một cách hiển thị màn hình theo lưới ba chiều của khối 6 chiều:
Hình 2.3 Hiển thị khối dữ liệu 6 chiều
Trang
Doanh thu Chi phí
trực tiếp Chi phí gián tiếp
Thực tế
Kế hoạch Thực tế
Kếho ạch
Trang 38Bằng cách thay đổi việc lựa chọn các chiều trên mỗi trang, trên hàng, và trên cột, với các phần tử mong muốn trên mỗi chiều Đây là kết quả của các lát
cắt, hoặc khoan sâu xuống trong khối dữ liệu
2.4 KIẾN TRÚC KHỐI OLAP
Hệ thống OLAP là một hệ thống quản lý dữ liệu giàu năng lực Nó cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơn của dữ liệu Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ DW hoặc từ DM sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều
Đối tượng chính của OLAP là khối, một sự biểu diễn đa chiều của dữ liệu chi tiết và tổng thể Một khối bao gồm một bảng sự kiện (Fact), một hoặc nhiều bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions)
2.4.1 Khối (Cube)
Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con dữ liệu
từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều
Để xác định một khối, ta chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột số theo sự quan tâm của người dùng khối) trong bảng Fact Sau đó chọn các chiều, mỗi chiều gồm một hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõ ràng bởi các đơn vị đo lường được chia ra của người dùng khối
Ví dụ: một khối cho phân tích bán hàng bao gồm các đơn vị đo lường Sảnphẩm_Bánhàng_Giá và Sảnphẩm_Chiphí từ bảng Sales_Fact và các chiều Vịtrí_Kho, Dòng_sảnphẩm, và Năm_Tàichính Khối này cho phép người dùng phân chia Sảnphẩm_Bánhàng_Giá và Sảnphẩm_Chiphí thành các loại khác nhau bởi Vịtrí_Kho, Dòng_Sảnphẩm và Năm_Tàichính
Mỗi chiều có thể chứa một hệ thống các cấp độ để chỉ sự phân chia rõ ràng của người dùng Ví dụ: Chiều Vịtrí_Kho có thể gồm hệ thống các cấp độ: châu lục, nước, vùng, tỉnh, thành phố
Trang 39Mỗi cấp độ trong chiều lại chi tiết hơn mức cha của nó Ví dụ: lục địa chứa các quốc gia, các bang hay các tỉnh chứa các thành phố Tương tự, hệ thống chiều thời gian có thể gồm có các cấp độ năm, quý, tháng và ngày
2.4.2 Chiều (Dimension)
Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất Ví dụ: chiều thời gian (Time) được tạo ra từ các cột năm, qúy, tháng, ngày
Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian được miêu tả ở trên cho phép người dùng khối đào sâu (drill_down) từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày Mỗi drill_down cung cấp nét đặc trưng hơn
Chiều có phân cấp
Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp Nếu chúng ta làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện một cách gộp Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phép gộp tương ứng khác Như vậy có thể có quá nhiều tiến trình gộp Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu
Roll_up và Drill_down dựa trên phân cấp chiều
Trang 40Dựa trên phân cấp theo chiều, từ một mức dưới, chúng ta có thể cuộn lên (Roll up) các mức trên, thực hiện một phép gộp, để có được kết qủa tổng hợp hơn Và từ một mức trên, có thể khoan sâu xuống (Drill down) các mức dưới, để
có các kết quả chi tiết hơn
2.4.3 Các đơn vị đo lường
Các đơn vị đo của khối là các cột trong bảng Fact Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá hoặc số lượng bán
2.4.4 Các phân hoạch (Partitions)
Tất cả các khối đều có tối thiểu một phân hoạch để chứa dữ liệu của nó Một phân hoạch đơn được tự động tạo ra khi khối được định nghĩa Khi ta tạo một phân hoạch mới cho một khối, phân hoạch mới này được thêm vào trong tập hợp các phân hoạch đã tồn tại đối với khối Khối phản ánh dữ liệu đã được kết nối có trong tất cả các phân hoạch của nó Một bảng phân hoạch của khối là trong suốt đối với người dùng
Các phân hoạch tiêu biểu cho một công cụ mạnh, mềm dẻo cho việc quản trị các khối OLAP, đặc biệt là các khối lớn Các bảng phân hoạch có thể được lưu trữ với các sự lựa chọn kết hợp khác nhau theo phương thức lưu trữ, định vị
dữ liệu nguồn và thiết kế kết hợp Tính mềm dẻo này cho phép ta thiết kế các chiến lược lưu trữ khối phù hợp với các yêu cầu của ta
2.5 SỰ PHÂN LOẠI OLAP
Kiến trúc của OLAP làm nổi lên vấn đề là các dịch vụ OLAP được đặt ở đâu Hai cách tiếp cận khác nhau đã hình thành nên hai loại OLAP điển hình là OLAP đa chiều (MOLAP) và OLAP quan hệ (ROLAP) Hai loại này tuy là trong suốt (nghĩa là, những mặt trước và dạng thức hỗ trợ quyết định của những công cụ này là như nhau) đối với người sử dụng đầu cuối nhưng có những khác biệt quan trọng giữa ROLAP và MOLAP [1]
2.5.1 MOLAP (Multidimensional OLAP)
MOLAP là dạng OLAP nguyên thuỷ, đôi khi còn được gọi tắt là OLAP MOLAP kết hợp kho dữ liệu đa chiều và các dịch vụ của OLAP trên cùng một Server MOLAP thường được coi là cơ sở dữ liệu đa chiều (MultiDimension