Do các bảng dimension có tính phân cấp nên có thể xuất hiện dư thừa dữ liệu. Điều này được chấp nhận trong data warehouse.
CHƯƠNG 3: OLAP VÀ DATA WAREHOUSE
3.1. Giới thiệu về OLAP
Người dùng cần khả năng thực hiện phân tích đa chiều với những tính tốn phức tạp nhưng với những cơng cụ truyền thống như lập báo cáo, truy vấn các sản phẩm trong cơ sở dữ liệu, bảng tính thì các ngơn ngữ thơng thường là rất khó khả thi bởi các cơng cụ được sử dụng trong hệ thống OLTP và môi trường data warehouse là hoàn toàn khác nhau. Chúng ta cần một tập các cơng cụ đặc biệt phục vụ cho mục đích phân tích dữ liệu. Đó chính là môi trường OLAP (On-Line Analytical Processing ) trong data warehouse.
Thuật ngữ OLAP hay xử lý phân tích trực tuyến được giới thiệu E. F. Codd [9]- cha để của mơ hình cơ sở dữ liệu quan hệ hướng dẫn cho một hệ thống OLAP.
Định nghĩa: OLAP là loại kỹ thuật phần mềm cung cấp khả năng phân tích, quản lý
và thực thi để lấy dữ liệu với phương thức truy cập nhanh, nhất quán, khả năng tương tác trong các hệ thống thơng tin lớn phản ánh một cách nhìn đa chiều về doanh nghiệp. Như vậy, định nghĩa trên bao gồm tất cả các thành phần chính như: tấc độ, tính nhất quán, khă năng tương tác và khung nhìn đa chiều.
E. F. Codd [9] đề xuất ra 12 nguyên tắc hay hướng dẫn cho một hệ thống OLAP như sau:
Khung nhìn khái niệm đa chiều: Cung cấp mơ hình dữ liệu đa chiều nhằm hướng
đến mục đích phân tích và tính dễ sử dụng. Thơng thường cách nhìn của người dùng kinh doanh là đa chiều. Do đó, mơ hình dữ liệu đa chiều thích hợp cho người dùng giải quyết các vấn đề liên quan đến nghiệp vụ.
Tính trong suốt: Các khía cạnh về cơng nghệ, data warehouse, kiến trúc tính tốn...
tất cả đều trong suốt đến người sử dụng, giải quyết các vấn đề về nghiệp vụ của người dùng thơng qua cơng cụ có giao diện đơn giản, dễ sử dụng.
Khả năng truy cập: Hệ thống OLAP phải ánh xạ được tới kênh logic của chính nó tới
data warehouse vật lý hỗn độn và thực hiện các chuyển đổi dữ liệu cần thiết để tạo ra một khung nhìn đơn giản, mạch lạc cho người sử dụng.
Khả năng tạo báo cáo thống nhất: Khi số lượng các chiều tăng thì năng suất tạo báo
cáo giảm đi.
Kiến trúc client/server: Thành phần server của các công cụ OLAP cần phải đủ thông
minh đến mức mà nhiều client có thể truy cập tới một cách dễ dàng và có thể lập trình tích hợp. Server thơng minh phải có đủ khả năng để ánh xạ và xây dựng dữ liệu từ những cơ sở dữ liệu vật lý và logic khác hẳn nhau. Điều đó rất cần thiết để đảm bảo tính trong suốt và xây dựng một lược đồ mức khái niệm, logic, vật lý chung.
Mơ hình chiều: Mỗi chiều của dữ liệu phải cân bằng giữa cấu trúc và khả năng thực
hiện của nó. Thường chỉ tồn tại một cấu trúc chung cho tất cả các chiều. Mọi chức năng được áp dụng cho một chiều cũng có thể áp dụng cho các chiều khác.
Xử lý ma trận động: Cấu trúc vật lý của server OLAP cần phải biến đổi cho phù hợp
với mơ hình phân tích cụ thể được tạo ra và tải vào để việc quản lý các ma trận thưa là tối ưu nhất. Khi làm việc với các ma trận thưa thì server OLAP có khả năng suy luận ra và tìm ra cách lưu trữ dữ liệu hiệu quả nhất. Các phương pháp truy nhập vật lý cũng được thay đổi thường xuyên và cung cấp những kiểu cơ chế khác nhau ví dụ như tính tốn trực tiếp, cây nhị phân, kỹ thuật băm hoặc sự kết hợp tốt nhất giữa những kỹ thuật như vậy.
Hỗ trợ nhiều người dùng: Những công cụ của OLAP phải cung cấp truy nhập đồng
thời (lấy dữ liệu ra và cập nhật), tính tồn vẹn và an tồn để hỗ trợ cho những người sử dụng làm việc đồng thời với cùng một mơ hình phân tích hoặc tạo ra những mơ hình khác nhau từ cùng một dữ liệu.
Những phép tốn giữa các chiều khơng hạn chế: Trong phân tích dữ liệu đa chiều,
tất cả các chiều được tạo ra và có vai trị như nhau. Các cơng cụ OLAP quản lý những tính tốn liên quan đến các chiều và không yêu cầu người sử dụng định nghĩa những phép tốn đó. Việc tính tốn địi hỏi phải định nghĩa các cơng thức tuỳ thuộc vào một ngôn ngữ, ngôn ngữ này phải cho phép tính và thao tác với một số lượng chiều bất kỳ, mà không bị hạn chế bởi mối quan hệ giữa các phần tử, không liên quan tới số thuộc tính chung của dữ liệu mỗi phần tử.
Thao tác tập trung vào dữ liệu: Những thao tác như định hướng lại đường dẫn xây
dựng dữ liệu hoặc khoan sâu xuống theo các chiều hoặc các hàng được thực hiện bằng hành động trực tiếp trên những phần tử của mơ hình phân tích mà khơng địi hỏi phải sử dụng những menu hay ngắt cho giao diện với người sử dụng. Những chiều được định nghĩa trong mơ hình phân tích chứa tất cả thơng tin mà người sử dụng cần để thực hiện những hành động cố hữu.
Tạo báo cáo linh hoạt: Việc sử dụng OLAP server và các cơng cụ của nó, một người
sử dụng cuối có thể thao tác, phân tích, đồng bộ hố và xem xét dữ liệu theo bất kỳ các nào mà ngườidùng đó mong muốn. Những phương tiện tạo báo cáo cũng phải cung cấp tính linh hoạt và đưa ra những thông tin đã được đồng bộ theo bất kỳ cách nào mà người sử dụng muốn hiển thị chúng.
Không hạn chế số chiều và các mức liên kết dữ liệu: Một server OLAP có thể chứa
được ít nhất là 15 chiều trong một mơ hình phân tích thơng thường nhất. Mỗi một trong số các chiều đó cho phép một số lượng không giới hạn các mức tổng kết và kết hợp dữ liệu do người sử dụng định nghĩa và đưa ra cách xây dựng các mức đó.
3.2. Đặc trưng của OLAP
Ta đã biết tại sao đa số những người dùng nghiệp vụ đều cần hệ thống OLTP và các phương tiện lấy thông tin khác đã không giải quyết được các vấn đề nghiệp vụ với một mơ hình phân tích đa chiều đi kèm với khả năng tinh toán và truy cập CSDL nhanh. Trước khi chúng ta thảo luận chi tiết về các đặc trưng chính của hệ thống OLAP, chúng ta hãy xem xét các đặc trưng cơ bản trong ngôn ngữ thông thường của hệ thống OLAP
Đưa cho người dùng nghiệp vụ có được một khung nhìn logic và đa chiều về dữ liệu trong môi trường data warehouse
Hỗ trợ linh hoạt cho các truy vấn và phân tích phức tạp cho người sử dụng
Cho phép người dùng khoan sâu (drill down) để lấy thông tin chi tiết hoặc cuộn lên (roll up) để lấy thông tin tổng hợp trên một chiều hoặc nhiều chiều nghiệp vụ
Cung cấp khả năng thực hiện các tính tốn và so sánh phức tạp, cách biểu diễn kết quả theo nhiều định dạng số khác nhau kể cả dạng biểu đồ hay đồ thị
Một cách hiểu thơng thường, OLAP cung cấp thơng tin phân tích cho data warehouse. Data warehouse có mục đích lưu dữ liệu và chỉ cung cấp cách truy cập đơn giản tới CSDL. Hệ thống OLAP bổ xung cho data warehouse bằng việc nâp cấp những khả năng phân tích thơng tin lên một tầm cao mới.
3.3. Phân tích đa chiều
Các đ ặc t rưn g c ơ b
ản Phân tích đa chiều Hiệu năng đảm bảo Phản hồi nhanh kết quả Khả năng khoan
sâu và cuốn lên
Thay đổi khung nhìn linh hoạt
Hỗ trợ các toán tử xoay, slice và dice Hỗ trợ nhiều khung nhìn Dễ chuyển đổi khung nhìn Dữ liệu tổng hợp theo các mức thời gian
Bảng 5: Đặc trưng cơ bản của phân tích đa chiều
Các đ ặc t rưn g n ân g c ao Khả năng tính tốn mạnh mẽ Tính tốn trên nhiều chiều Tính tốn, tổng hợp dữ liệu trước khi yêu cầu Khoan dữ liệu qua
các chiều
Biểu diễn cấu trúc dữ liệu phức tạp Hỗ trợ việc tạo ra các quyết định Nhận dữ liệu qua công thức Hỗ trợ kỹ thuật thông báo, giám sát
Tạo báo cáo với công nghệ sử dụng tác nhân
Bảng 6: Đặc trưng nâng cao của phân tích đa chiều
Trước tiên chúng ta sẽ bắt đầu với mơ hình dữ liệu hình sao đơn giản. Mơ hình có 3 chiều nghiệp vụ là: Sản phẩm, Thời gian và kho hàng và bảng sự kiện là Bán hàng
được chỉ ra như mơ hình lược đồ dữ liệu bên dưới.