VIII. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 8.1 Tại sao lại phải xử lý phân tích trực tuyến
8.3 Các server OLAP và các công cụ
1/ Đặc điểm và các chức năng: OLAP là công nghệ xử lí phân tích trực tuyến tạo ra
và đưa ra những thông tin mới từ những dữ liệu đang tồn tại thông qua những công thức tính toán và những luật chuyển đổi. Các công cụ và OLAP Server thực hiện các công việc sau:
-Hỗ trợ nhiều chiều và sự phân cấp của mỗi một trong những chiều đó.
-Kết hợp, tổng kết, tính toán trước và kết xuất ra những dữ liệu theo một chiều hoặc một tập các chiều đã được lựa chọn.
-Áp dụng những tính toán logic, công thức và những thủ tục phân tích đối với một hoặc một tập các chiều đã được lựa chọn.
-Hỗ trợ khái niệm về mô hình phân tích tập các chiều và những nguyên tố cấu thành, logic tính toán, các công thức, các thủ tục phân tích và những dữ liệu kết xuất, tổng kết, kết hợp.
-Cung cấp một thư viện chức năng.
-Cung cấp khả năng tính toán và so sánh phân tích mạnh -Thực hiện những tính toán chéo giữa các chiều
-Cung cấp những dịch vụ thông minh về thời gian
-Chuyển đổi một chiều thành một chiều khác, cụ thể rất có ích sau khi hoà hợp hay thu nhận.
-Định hướng xem xét và phân tích sử dụng quay, xem chéo, khoan sâu, kéo lên theo một hay nhiều chiều.
-Những xử lí phân tích là nhu cầu rất cần thiết của ngưới sử dụng vì vậy những xử lí phân tích cần phải trơn tru không bị ngắt quãng.
2/ Truy nhập tới những đặc tính và chức năng: Giao diện và truy nhập tới các dịch
vụ của OLAP của người sử dụng phải cung cấp nhiều lựa chọn và phải thúc đẩy sự hiểu biết của người sử dụng và khả năng nhúng tri thức vào mô hình phân tích OLAP. Những khả năng lựa chọn bao gồm:
• Bảng tính: ít nhất người sử dụng phải có thể tải dữ liệu OLAP vào công cụ
bảng tính của họ cho việc tạo báo cáo và phân tích thêm.
• Các công cụ Client độc quyền: Tuỳ thuộc vào một ứng dụng cụ thể
• Các công cụ thuộc nhóm thứ 3: Hỗ trợ API (Application Programming
Interface) của Server OLAP (nếu API là độc quyền thì cần có một cơ chế khoá cho OLAP server đó).
• Môi trường 4 GL (môi trường dùng ngôn ngữ lập trình thế hệ thứ 4): phải hỗ
• Giao tiếp với chuẩn defacto: là những môi trường ứng dụng ví dụ như VB,
Power Builder và những giao diện như OLE, DDE...
• Client định hướng khối: Những công cụ thuộc nhóm thứ 3 mà giao tiếp được
với các dịch vụ của OLAP.
Để tạo khả năng nhúng tri thức vào mô hình phân tích, giao diện truy nhập phải thực hiện các công việc sau:
• Truy nhập và lọc ra những tập con dữ liệu dựa vào sự phân cấp, mô hình, thời gian và những chiều được lựa chọn khác.
• Truy nhập tới nhiều mức của sự phân cấp với một yêu cầu chiết lọc đơn. • Nhận thức được những dữ liệu tổng kết và kết hợp, phân chia và những tệp
chỉ số để tạo ra những truy vấn đúng.
• Tối ưu một cơ sở dữ liệu quan hệ cụ thể bao gồm những mở rộng SQL của nó khi truy nhập vào một kho dữ liệu quan hệ.
1. Mô tơ dịch vụ OLAP: Mô tơ của các dịch vụ OLAP trong kiến trúc với một
kho dữ liệu quan hệ hay một kho dữ liệu đa chiều đều phải thoả những đặc điểm về công nghệ, tính ổn định và năng suất của mô hình và ứng dụng phân tích đã được lập. Vấn đề năng suất và tính ổn định đã được bàn tới trong những phần trên. Còn những đặc điểm về công nghệ phụ thuộc vào mô hình phân tích và việc sử dụng đã được dự định từ trước. Một số những đặc điểm đó là:
• Khả năng ghi-đọc: liên quan tới các ứng dụng tương tác giữa dự báo và điều
chỉnh ngân sách.
• Nhiều người cùng ghi: để hỗ trợ cho sự cùng phân tích đa chiều của một
nhóm người. Giải quyết điều này khó khăn hơn là đối với cơ sở dữ liệu quan hệ. Thay vì công việc chỉ liên quan tới một hàng hay một bảng, một yêu cầu cập nhật hay yêu cầu ghi của OLAP đòi hỏi việc tính toán lại những giá trị đã được kết xuất và tính toán, ảnh hưởng nhiều tới các chiều và sự phân cấp trong các chiều đó. Phạm vi của khoá ghi có thể rất rông và việc tính toán lại có thể tập trung vào các phép toán nên thời gian khoá rất dài khiến cho công suất thực hiện thấp.
• Nhiều cơ sở dữ liệu: Nếu chỉ có một cơ sở dữ liệu cho mỗi ứng dụng OLAP
thì đòi hỏi một cơ chế tương tác bởi vì dữ liệu được kết xuất từ một cơ sở dữ liệu cho ứng dụng này có thể là đầu vào của một ứng dụng khác.
• Phạm vi của kiểu dữ liệu: xuất phát từ số, tới thời gian, tới những mô tả (cho
những mục đích báo cáo và hiển thị) tới BLOB. Hơn nữa là các kiểu hình ảnh có thể cải thiện sự giao tiếp của những phân tích phức tạp.
2. Khả năng quản trị: Những chức năng quản trị cần cho việc chuẩn bị, cài đặt
và các mục đích thực hiện sẽ diễn ra sau đó bao gồm: • Định nghĩa mô hình phân tích theo chiều.
• Tạo ra và duy trì kho siêu dữ liệu
• Kiểm soát truy nhập và mức ưu tiên sử dụng. Vấn đề cần quan tâm ở đây là người sử dụng muốn làm gì và những ai có thể truy nhập vào mô hình phân tích và dữ liệu của nó.
• Tải mô hình phân tích từ DW hoặc DM.
• Điều chỉnh công suất tới mức chấp nhận được cho phép những quá trình phân tích không bị ngắt quãng.
• Tổ chức lại cơ sở dữ liệu để cải thiện công suất, thay đổi mô hình theo chiều hoặc cập nhật dữ liệu.
• Quản lí tất cả các phần của hệ thống bao gồm cả phần cứng trung gian. Kiến trúc tham chiếu cung cấp một phương thức để hiểu được phạm vi của nhiệm vụ quản lí các hệ thống một cách có trật tự.
• Phân tán dữ liệu tới các client để dùng cho những phân tích thêm ở địa phương (Client đó)
3. Kiến trúc tổng thể: Từ khung nhìn kiến trúc tổng thể, không thể có một sự
lựa chọn đơn giản giữa một kho dữ liệu đa chiều với kho dữ liệu quan hệ. Người sử dụng cần cung cấp những tiêu chí để có thể tạo ra một sự lựa chọn đúng đắn.
Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.
Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải mô hình phân tích đầu tiên từ kho dữ liệu quan hệ DW hoặc DM. Những truy vấn phức tạp và tập trung nhiều vào tính toán hoặc những dữ liệu phức tạp được tính toán tạo ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh.
Còn những dữ liệu được truy nhập không thường xuyên hoặc những giá trị được tính toán từ một số ít thành phần các chiều chỉ được tính khi nhận được một truy vấn. Những dữ liệu không được truy nhập thường xuyên thì không được lưu trong kho dữ liệu đa chiều và có thể được OLAP server lấy ra từ kho dữ liệu quan hệ chỉ khi cần thiết.
Chức năng giám sát có thể lưu trữ dữ liệu (được truy nhập không thường xuyên trước đó) hoặc những kết quả của một câu truy vấn không truy nhập thường xuyên trong kho dữ liệu đa chiều cho những yêu cầu sau đó. Điều này làm tăng đáng kể công suất thực hiện. Cấu hình kết hợp 2 loại này cũng cho phép khoan sâu dữ liệu tới mức chi tiết nhất, những dữ liệu chi tiết không có sẵn trong kho dữ liệu đa chiều, bằng cách tạo ra một yêu cầu và lấy những dữ liệu chi tiết trong kho dữ liệu quan hệ.
Các thuật ngữ
BDW Bussiness Data Warehouse Kho dữ liệu nghiệp
vụ
DW Data Warehouse Kho dữ liệu
DM Datamart Kho dữ liệu cục bộ
OLTP On_line Transaction Processing Xử lý giao dịch trực tuyến
OLAP On_line Analytical Processing Xử lý phân tích trực tuyến
SA Subject Area Vùng chủ đề
DSS Decision Suport System Hệ hỗ trợ quyết định
Data Warehousing Phương pháp kho dữ liệu ODS Operational Data Store Kho dữ liệu tác nghiệp
ACID
BD Business Data Dữ liệu nghiệp vụ
MD Metadata Siêu dữ liệu
OM Operational Metadata Siêu dữ liệu tác
nghiệp
LS Legacy System Hệ thống có trước,
kế thừa
RDBMS Relational DB Management Sys. Hệ CSDL quan hệ
MDDB MultiDimensional Database CSDL đa
chiều
EID Executive Information Database CSDL thông
MOLAP Multidimensional OLAP OLAP đa chiều
ROLAP Relational OLAP OLAP quan hệ
Bảng Fact Fact table Bảng sự kiện
Bảng Dimension Dimension table Bảng chiều