Xây dựng kho dữ liệu chuyên đề, dữ liệu đa chiều dạng ROLAP

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 45)

a. Kho dữ liệu chuyên đề

Bảng 2.5.3.1. Tiêu chuẩn kỹ thuật giữa SQL Server và DB2 [6, 8]

Microsoft SQL Server 2000

IBM DB2 ver 9.7

Kiến trúc Mô hình quan hệ Mô hình quan hệ

Hệ điều hành Windows Windows/Mac OS X/

Unix/Linux/z/OS

Giao diện Đồ họa/ Dòng lệnh Đồ họa/ Dòng lệnh

Đặc điểm

Backup Có Có

Nén dữ liệu Không Có (~50%)

Mã hóa dữ liệu Không Có

Hỗ trợ Java Không Có Transactions Có Có Chỉ mục bitmap Không Có Kiểu dữ liệu Blobs/Clobs Có Có Con trỏ Có Có Thủ tục Có Có Hàm Có Có Trigger Có Có Giới hạn Dữ liệu Blob/Clob tối đa 2 GB 2 GB

Độ dài tên cột tối đa 128 128

Số cột mỗi dòng tối đa 1024 1012 Kích thước CSDL tối đa 1,048,516 TB 512 TB Kích thước dòng tối đa Unlimited 32,677 B Kích thước bảng tối đa 524,258 TB 512 TB

Số kết nối tối đa 32,767 64,000

So sánh các tiêu chuẩn hỗ trợ thì hệ quản trị CSDL DB2 tối ưu hơn SQL Server 2000.

Kho dữ liệu chuyên đề là một CSDL được trích xuất từ EDM. EDM là một thư viện trong AS/400, AS/400 là một dòng sản phẩm của IBM do vậy CSDL trong

AS/400 được kế thừa từ hệ quản trị CSDL DB2 của IBM. Nếu sử dụng CSDL DB2 thì việc trích xuất từ EDM vào kho dữ liệu chuyên đề không có khó khăn gì trong việc chuyển đổi kiểu dữ liệu.

Sử dụng IBM DB2 là linh hoạt hơn, có thể cài đặt trên nhiều nền tảng như Windows hay Linux...

Mặt khác, nếu sử dụng hệ quản trị CSDL DB2 cho kho dữ liệu chuyên đề thì quá trình xử lý chuẩn bị báo cáo trên DWH sẽ thuận tiện hơn thông qua công cụ IBM Infosphere Datastage.

b. Dữ liệu đa chiều

Trong mỗi bộ sản phẩm hệ quản trị CSDL của các hãng nổi tiếng trên thế giới, thông thường đều bao gồm dữ liệu đa chiều. Ví dụ Microsoft SQL Server 2000 có Analysis Services để lưu và khai thác dữ liệu đa chiều, IBM DB2 có IBM Infosphere Warehouse.

IBM Infosphere Warehouse Cubing Services lưu dữ liệu đa chiều theo mô hình Relational OLAP (ROLAP). Lợi ích của mô hình ROLAP như đã phân tích ở phần 2.2.1.a trước đó.

Cubing Services khai thác các tính năng trong DB2 như tối ưu câu lệnh, sử dụng MQT (Materialized query table) để cải thiện hiệu suất truy vấn. MQT là một bảng mà cấu trúc của nó dựa trên kết quả của một truy vấn. Khi một truy vấn với tần suất truy cập nhiều cần lấy thông tin tổng số dư tiền gửi của khách hàng, một bảng MQT sẽ được tạo ra lưu trữ kết quả tổng số dư của câu truy vấn đó, việc xử lý chỉ còn là tìm số dư trong bảng MQT đó đối với các câu lệnh truy vấn tương tự đến sau [6].

MQT Table Fact Table Dimention Tables Dimention Tables DB2 Optimizor SQL query MQT Base Data

Hình 2.5.3.1. Cơ chế tối ưu trong DB2 Các bước cơ bản để thiết kế cube:

- Thiết kế bảng sự kiện (Facttable) lưu các giá trị (Measure) là các giá trị số đã được tổng hợp, các bảng chiều (Dimention table).

- Thiết kế mô hình cube dựa vào bảng sự kiện, các bảng chiều và các giá trị. - Triển khai mô hình cube (cube model) lên kho dữ liệu đa chiều.

Cube trong IBM Infosphere Warehouse được thiết kế bằng công cụ IBM Infosphere Warehouse Design Studio. Sau khi triển khai mô hình cube, Infosphere Warehouse sẽ tự động tối ưu và sinh ra các bảng MQT cần thiết, không cần phải xử lý tạo khối cube.

Xây dựng kho dữ liệu chuyên đề, dữ liệu đa chiều theo mô hình ROLAP dự kiến tiết kiệm thời gian xử lý tạo khối (kiểu mô hình MOLAP) khoảng 1 tiếng, tối ưu quá trình xử lý chuẩn bị báo cáo, phục vụ kịp thời công tác quản trị điều hành.

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 45)

Tải bản đầy đủ (PDF)

(75 trang)