Lưu trữmềm dẻo

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU PHƯƠNG PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN VÀ ÁP DỤNG XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH (Trang 92)

Thu thập dữ liệu là chính sách của hầu hết các sản phẩm OLAP. Bước thu thập trướcsẽcho các kếtquảcó ý nghĩa: có thểdễdàng đượcloạibỏtừ đầumột sốtập hợp và việc độlớn của dữ liệu lưu trữđộtngột tăng lên.

Các ví dụthực vềảnh hưởng của bùng nổdữ liệu là rấtnhiều. Một báo cáo chính thức từmột thửnghiệm chuẩn của một sản phẩm OLAP cho kết quảlà dữ liệu bịtăng tới 240 lần và cần 2,4 GB dung lượng đĩachỉđểlưu trữ 10 MB dữ liệu nhập vào ban đầu.

Việc cung cấp dung lượng lưu trữthích hợp đểđốiphó với bùng nổdữ liệu là rấtquan trọng đểtriển khai OLAP và tạo ra các giới hạn khác biệtđối với một tổ chức đểphân tích tất cả các mức dữ liệu đượcthiếtkế.

Do đặctrưng của bùng nổdữ liệu, các ứng dụng OLAP có thểhứng chịu nhiều hơn khi nguồn dữ liệu hay chi tiếtdữ liệu đượcphân tán qua khối đa chiều. Mấtdữ liệu hoặc dữ liệu không hợp lệcó thểxuấthiện rảirác trong mô hình dữ liệu OLAP. Trong trường hợp xấu nhấtmột sản phẩm OLAP sẽ không lưu lạimột giá trịrỗng. Ví dụ, một công ty có thểkhông bán tấtcảsản phẩn của họtrong tất cả các khu vực bởi vậy giá trịrỗng sẽxuấthiện ởđiểm giao của các sản phẩm không đượcbán trong khu vực cụthể.

Dữ liệu rảirác gây nên sựkhó khăn cho những ngườicung cấp OLAP, một sốtrường hợp sẽcho kếtquảlà cơ sở dữ liệu sẽlưu trữcác giá trịrỗng, mậtđộlưu trữthấp và tốn chỗcũng nhưtài nguyên. Microsoft DSS không lưu trữgiá trịrỗng và kếtquảlà các khối không bịtăng kích cỡ. Khi điều này thường xuyên xuấthiện nhưyếu tốquyết định trong kiến trúc OLAP, sự khác biệtgiữa các bổxung từnhà cung cấp là nhỏso với sựbùng nổdữ liệu ngày càng lớn do việc tính toán trướcquá nhiều tập hợp.

Microsoft DSS đưa ra giải pháp mềm dẻo đểcho phép OLAP DBA quyết định kiểu lưu trữnào là thích hợp. Microsoft DSS hỗ trợđầyđủviệc xử lý MOLAP, ROLAP hoặc giảipháp kết hợp trong đó các tập hợp đượclưu trữ cảđa chiều và quan hệ.Ví dụ, quản trịcơ sở dữ liệu có thểlựa chọn các dữ liệu đượctruy cập thường xuyên nhưgiá trịnăm (Year) trong MOLAP và dữ liệu lịch sửcó các vấn đềvềphân cấp trong ROLAP.

Dù sao mô hình dữ liệu cơ bản là hoàn toàn vô hình đối với ứng dụng Client và người sử dụng chỉtiếp xúc với các khối. Dù chọn giảipháp nào để thực hiện một mô hình dữ liệu (MOLAP, ROLAP hay HOLAP) thì sựtích hợp của Microsoft DSS với các cơ sở dữ liệu quan hệvẫn là chủđạo.Với công

cụthiếtkếGUI và Wizard liên kếtthẳng tới OLE DB, Microsoft DSS duy trì liên kếtchặtchẽgiữa nguồn dữ liệu, siêu dữ liệu đa chiều OLAP và tập hợp của chúng.

Khi thực hiện các mô hình dữ liệu ROLAP, Microsoft DSS sẽđịnh nghĩa, tạo lập và duy trì tất cả các cấu trúc cơ sở dữ liệu quan hệ.Tính chất này giúp công cụphát triển tựdo trong việc thực hiện các tác vụhoặc quản lý các truy vấn phức tạp.

Microsoft DSS cũng tối thiểu hoá vấn đềcơ bản của công nghệ OLAP là bùng nổdữ liệu do sựthu thập trướcdữ liệu quá mức. Sựbùng nổdữ liệu OLAP là kếtquảcủa việc thu thập trướcđa chiều. Trong các hệ thống OLAP

truyền thống, dữ liệu không được thu thập trướcsẽkhông đượcdùng cho mục đích phân tích và báo cáo trừkhi đượctính toán khi chạy. Việc tính toán trước và lưu trữtấtcảtập hợp phức tạp (Ví dụ: tổng của tất cả các sản phẩm và các mức sản phẩm qua tất cả các giai đoạn, qua tất cả các tổ chức, qua tất cả các kênh phân phối), các sản phẩm OLAP truyền thống sẽgây ra một sựbùng nổ vềdữ liệu một cách ồạt.

Trái ngượcvới việc buộc phảitiếp cận tính toán trên tất cả các tập hợp có thể,Microsoft DSS xác định rõ các tập hợp nào cung cấp các cảitiến tốt nhấtcho việc thực hiện nhưng cũng có thểtạo ra sựcân bằng giữa tốc độhệ thống và dung lượng lưu trữyêu cầu đểquản lý các tập hợp. Nếu công cụ phát triển tính toán trướctất cả các tập hợp, dung lượng lưu trữyêu cầu sẽ đượctối đa hoá (đây là biểu hiện bùng nổdữ liệu). Mặtkhác nếu công cụphát triển không thực hiện tính toán trước, dung lượng lưu trữyêu cầu có thểsẽlà không nhưng việc xử lý sẽkhông đượccảithiện.

Trong hầu hết các trường hợp, Microsoft DSS có thểcải thiện được thêm 80% các yêu cầu truy vấn mà không cần tính toán trướctrên các tập hợp: bùng nổdữ liệu thường xuấthiện trong 20% sốtập hợp còn lại. DSS phân tích mô hình siêu dữ liệu OLAP và sửdụng phương pháp đánh giá (Heuristics) đểxác định tập các tập hợp là gốc của tất cả các tập hợp khác. Kếtquảlà Microsoft DSS nhận đượcdữ liệu không có tính tập hợp từmột vài tập đã tồn tạihơn là phảiquét toàn bộkho dữ liệu.

Phương pháp đánh giá của Microsoft DSS là khá tốt, nó dựa trên các mô hình toán học có thểphù hợp hoặc không phù hợp với các mô hình được sửdụng trên thực tế. Đểđánh giá việc xử lý theo các mô hình thực tế, Microsoft DSS có thểghi lại(Log) các truy vấn đượcgửi tới Server. Các Log này sau đó có thểđược sử dụng đểtìm ra tập các tập hợp mà Microsoft DSS duy trì. Ví dụ: một Wizard đơngiản có thểlàm DBA yêu cầu Microsoft DSS

tạo mới một tập các tập hợp cho tất cả các truy vấn cần nhiều hơn n giây để trảlời (n có thểlà 10 giây hoặc hơn).

Trong nhiều tổ chức, thời gian thực hiện đượcquan tâm hơn dung lượng đĩacần cho lưu trữ. Ngườita có thểchịu bỏtiền mua thêm dung lượng lưu trữhơn là phảimấthàng ngày đểcó đượcdữ liệu. Giảipháp Microsoft DSS vềvấn đềbùng nổdữ liệu dẫu sao cũng giảm bớt đượcthời gian yêu cầu cho quá trình nạp dữ liệu ban đầuvà các cập nhậtcó lợi nhưgiảm thiểu khối lượng đĩalưu trữcần thiết. Nếu một ứng dụng bắtđầuvới 10 GB kho dữ liệu và sinh ra 10 GB các tập hợp, thời gian của quá trình yêu cầu là một phần nhỏ của tiến trình bùng nổtoàn phần tập các tập hợp.

Microsoft DSS cũng tạo ra một cách tiếp cận mới với vấn đềdữ liệu bị dàn trải. Khi các chi tiếtthực hiện nội tạiđượcsởhữu, các kếtquảthực hiện trên

cảMOLAP và ROLAP quản lý lưu trữcực kỳtốt và trên thực tếcác cơ sở dữ liệu với yêu cầu lưu trữOLAP là nhỏhơn dữ liệu chi tiếtban đầu.

Các khối ảo có thểđược sử dụng trong bấtkỳtình huống nào, nơi mà người sử dụng muốn có một khung nhìn vềthông tin kết hợp từhai khối khác nhau chia sẻmột vài chiều chung. Tương tựtrong khái niệm vềkhung nhìn, các khối ảo là hai hay nhiều khối liên kếttheo một hoặc nhiều chiều chung. Lợi thếcủa các khối ảo áp dụng trong các tình huống dữ liệu dàn trảilà vấn đềáng kể.Ví dụ,một khối chứa các đơnvịđo cho giá bán một sản phẩm và giá bán thực tếcó thểcó một đơnvịđo bằng bảng giá đểthực hiện giảm giá nhưng giá trịbảng giá có

thểđượclặp lạinhiều lần. Bằng cách xây dựng khối bảng giá đượckết hợp trong khối ảo với thông tin giá bán thực tế,DBA có thể loạitrừkhá nhiều dữ liệu dưthừa. Khả năng tạo các khối ảo có nghĩalà nhiều giá trịkhông cần thiếtcó thểđượcloạitrừkhỏi lưu trữdữ liệu OLAP.

Việc thực hiện cụthểmột ứng dụng OLAP cần tính năng của một vài yếu tốbao gồm kích cỡcơ sở dữ liệu, sức mạnh phần cứng hệ thống và dung

lượng đĩacấp cho các dữ liệu tập hợp trước. Các ứng dụng Microsoft DSS đáp ứng đượchầu hết các yêu cầu truy vấn trong thời gian dưới5 giây và gần nhưtất cả các truy vấn trong 10 giây.

Các bổxung mới của Microsoft DSS là các khối phân chia, làm cho công nghệnày đượcnâng lên một bậc. Khối phân chia có thểlà một khối Lôgic của dữ liệu đượcdàn trảiqua các khối vật lý thậm chí rảirác trên các Server riêng biệt. Đểtrảlời các truy vấn từngười sử dụng, Microsoft DSS phân tán các truy vấn đễncác Server, kích hoạtdữ liệu và có thểnhận lạisong song.

Ví dụ, trường hợp một ứng dụng dò tìm các cuộc điện thoạitrong 10 khu vực địalý nơi có hàng triệu cuộc điện thoạimỗi ngày. Do mục đích của phân tích này, dữ liệu có thểnằm trong 10 Server mà mỗi cái chứa dữ liệu một khu vực riêng và thường chỉcó một khối dữ liệu Lôgic đơngiản. Đểtrả lời yêu cầu từngười sử dụng vềthông tin này, Microsoft DSS chuyển các yêu cầu truy vấn thích hợp cho mỗi Server và nhận lạicác kếtquảriêng lẻ.Mỗi cơ sở dữ liệu riêng biệtcũng sẵn sàng cho các truy xuấtriêng biệtđểphân tích chỉthông tin tìm kiếm cho từng khu vực. Khả năng của Microsoft DSS quản lý hiệu quảdữ liệu phân chia trên các Server làm cho công nghệnày tiến xa hơn.

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định TÌM HIỂU PHƯƠNG PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN VÀ ÁP DỤNG XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH (Trang 92)