Cụng nghệ lƣu trữ dữ liệu cho OLAP

Một phần của tài liệu Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định (Trang 55)

Cú hai cỏch tiếp cận khỏc nhau cơ bản trong việc lƣu trữ dữ liệu OLAP, thƣờng đƣợc gọi là OLAP đa chiều (MOLAP) và OLAP quan hệ (ROLAP). Tuy là hai cỏch tiếp cận khỏc nhau nhƣng MOLAP và ROLAP là trong suốt đối với ngƣời sử dụng cuối. Ngoài ra cũn cú cỏch tiếp cận khỏc nữa kết hợp cả hai phƣơng phỏp này (HLAOP).

2.1 Kho dữ liệu đa chiều

Với cỏch tiếp cận này, kho dữ liệu đa chiều và cỏc dịch vụ của OLAP nằm trờn cựng một mỏy chủ, đƣợc chia thành 2 loại sau:

- Kho dữ liệu đa chiều đƣợc tạo ra và lƣu trữ trờn mỏy trạm.

- Kho dữ liệu đa chiều với cỏc dịch vụ của OLAP đƣợc kết hợp với nhau. Dữ liệu đƣợc trớch lọc ra từ DW sau đú đƣợc chuyển đổi thành cấu trỳc đa chiều và đƣợc lƣu trữ trong mỏy chủ chứa DM. Đú là cấu hỡnh DM cổ điển tại đú nhiều DM đƣợc tải dữ liệu đó đƣợc làm sạch và đƣợc sắp đặt lại từ một DW tổng thể vào. Những chức năng này đặc biệt ở chỗ lọc, kết hợp tạo ra những

tập con chức năng và đƣợc ỏp dụng với dữ liệu lấy ra từ DW để tạo ra những DM chức năng. Với loại thứ 2 này ta cũn cú thể tỏch riờng kho dữ liệu đa chiều sẽ lƣu trữ trờn mỏy chủ DM với cỏc dịch vụ của OLAP nằm trờn mỏy chủ OLAP khi kho dữ liệu đa chiều cú kớch thƣớc khỏ lớn, số lƣợng ngƣời sử dụng nhiều hay dữ liệu cần đƣợc chia sẻ. Trong trƣờng hợp này DM cú thể lấy dữ liệu từ DW nhƣ trờn hoặc trực tiếp từ cỏc nguồn dữ liệu.

Cỏch lưu dữ liệu: Kho dữ liệu đa chiều lƣu dữ liệu trong cỏc mảng (chứa những dữ liệu cựng kiểu). Vỡ vậy khụng cú mụ hỡnh đa chiều chung, khụng cú một phƣơng phỏp chuẩn để truy nhập dữ liệu. Một vài sản phẩm cú sẵn một mụ tơ với giao diện ứng dụng lập trỡnh đƣợc (API) hoặc với một thiết bị bảng tớnh đầu cuối.

Cỏc dịch vụ OLAP: Cỏch tiếp cận này kết hợp kho dữ liệu đa chiều và cỏc dịch vụ của OLAP trờn cựng một mỏy chủ. MOLAP thƣờng đƣợc coi là CSDL đa chiều (MDDB). Nhƣ đó núi, MDDB là một cấu trỳc tối ƣu cho việc lƣu trữ cỏc sự kiện đó phõn loại và cựng với nú là cỏc chiều. Dữ liệu đƣợc tổ chức theo khung nhỡn dữ liệu và đƣợc lƣu trữ trong một biểu mẫu đƣợc kết hợp và tổng kết. Tệp chỉ số nhỏ hơn khiến cho trả lời những truy vấn phức tạp rất nhanh. Vỡ dữ liệu đƣợc lƣu trữ trong cỏc mảng, việc cập nhật cỏc giỏ trị khụng ảnh hƣởng nhiều tới tệp chỉ số. Điều này khiến cho việc cài đặt những ứng dụng cập nhật hoặc đọc ghi nhƣ dự bỏo trở nờn dễ dàng.

MOLAP là sự lựa chọn tốt nhất cho những ứng dụng cú đặc điểm: - Yờu cầu tốc độ truy vấn cao

- Phõn tớch dữ liệu phức hợp. MOLAP cung cấp mụi trƣờng phõn tớch mạnh hơn ROLAP.

- Dễ sử dụng: Lý do bởi dữ liệu đó đƣợc tổng hợp từ trƣớc và đƣợc lƣu trong kho dữ liệu đa chiều. Tất cả những gỡ ngƣời sử dụng cần làm là xỏc định cỏc chiều và cỏc nhúm nằm trong cỏc chiều đú. Trong khi đú ROLAP lại yờu cầu ngƣời sử dụng phải hiểu đƣợc sự ỏnh xạ tới cỏc CSDL tỏc nghiệp.

2.2 Kho dữ liệu quan hệ (ROLAP)

Đƣợc lƣu trữ trờn mỏy chủ chứa kho dữ liệu DW hay DM, mỏy chủ OLAP nằm riờng và khung nhỡn OLAP cũng nằm trờn mỏy trạm riờng rẽ.

Cỏch lưu dữ liệu: Kho dữ liệu quan hệ tuõn theo mụ hỡnh dữ liệu quan hệ. Nhƣng DW hay DM theo mụ hỡnh quan hệ đều đƣợc xõy dựng dựa trờn giản đồ hỡnh sao mang thuộc tớnh đa chiều nờn tuy là kho dữ liệu quan hệ nhƣng chuyển đổi sang khung nhỡn đa chiều tại mỏy trạm dễ dàng hơn. Kho dữ liệu quan hệ lƣu trữ dữ liệu nhƣ những bản ghi cú khoỏ trong cỏc bảng và dữ liệu đƣợc truy nhập bởi một ngụn ngữ chung là SQL. Kho dữ liệu quan hệ cú thể cú kớch cỡ rất lớn. Kớch cỡ của kho dữ liệu bị tăng lờn rất nhiều bởi việc sử dụng những tệp chỉ số và những kĩ thuật khụng chuẩn hoỏ để đạt đƣợc hiệu suất chấp nhận đƣợc của những truy vấn đa chiều. Với kho dữ liệu đa chiều thỡ kớch thƣớc của kho núi chung là bị hạn chế nhƣng cú thể sử dụng cụng nghệ nộn (vớ dụ kỹ thuật nộn ma trận thƣa) để lƣu trữ đƣợc nhiều dữ liệu hơn trong một khụng gian nhỏ hơn.

Cỏc dịch vụ OLAP: Phƣơng phỏp tiếp cận này bao gồm cỏc dịch vụ của OLAP

và CSDL quan hệ. Cỏc dữ liệu đƣợc lƣu trữ trong những bảng quan hệ và cú thể cú kớch thƣớc hàng trăm gigabyte. Những hệ ROLAP cung cấp cỏc mụ tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tỏc nghiệp cho ngƣời sử dụng cuối, dễ dàng trớch và tổng hợp dữ liệu theo yờu cầu. Những cụng cụ ROLAP cú thể trớch dữ liệu từ rất nhiều nguồn CSDL quan hệ khỏc nhau.

ROLAP là sự lựa chọn cho DW cú những đặc điểm sau:

- Dữ liệu thƣờng xuyờn thay đổi: trong một kho chứa nếu dữ liệu hay biến động và ngƣời sử dụng lại đũi hỏi những tổng hợp gần nhƣ tức thời, ROLAP sẽ là sự lựa chọn duy nhất. MOLAP phải trớch lấy và tổng hợp dữ liệu ngoại tuyến để nạp vào MDDB, hơn nữa hầu hết cỏc CSDL đa chiều đều yờu cầu tớnh toỏn lại toàn bộ CSDL khi một chiều đƣợc thờm vào hoặc một lƣợc đồ tổng hợp thay đổi hoặc dữ liệu mới đƣợc thờm vào. Những đặc điểm này khiến cho MOLAP khụng thớch hợp với những hệ hỗ trợ quyết định mà nguồn dữ liệu thƣờng xuyờn biến động.

- Khối lƣợng dữ liệu lớn: Đối với những DW cú độ lớn cỡ terabyte, cỏi giỏ phải trả cho MOLAP là quỏ lớn: việc tớnh toỏn trƣớc dữ liệu đũi hỏi hàng trăm terabyte khụng gian lƣu trữ.

Cỏc dạng truy vấn khụng đƣợc biết trƣớc: ROLAP cho phộp truy vấn và tổng hợp từ bất kỳ nguồn dữ liệu tỏc nghiệp nào. Tuy nhiờn khả năng này lại dẫn tới sự phức tạp khi sử dụng, trong việc ỏnh xạ tới cỏc nguồn dữ liệu tỏc nghiệp.

2.3 Kho dữ liệu lai

Là sự kết hợp hai phƣơng phỏp MOLAP và ROLAP. Dữ liệu cơ bản của khối đƣợc lƣu trữ trong CSDL quan hệ và dữ liệu kết hợp đƣợc lƣu trữ trong cấu trỳc đa chiều hiệu suất cao. Lƣu trữ HOLAP đƣa ra những lợi ớch của MOLAP cho việc liờn kết mà khụng cần thiết một bản sao chớnh xỏc từ dữ liệu chi tiết.

Một phần của tài liệu Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định (Trang 55)