VIII. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP 8.1 Tại sao lại phải xử lý phân tích trực tuyến
SQLDatabase Server
Database Server Database Server RDBMS MOLAP Server MOLAP Server Metadata, Request Processing Front-end Tools Front-end Tools Load Result Set Infor Request Result Set
môi trường phân tích mạnh hơn ROLAP. Dễ sử dụng, vì dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu đa chiều. Người sử dụng chỉ cần xác định các chiều và các nhóm nằm trong các chiều đó.
Thiết kế MOLAP bao gồm những bước cơ bản như sau:
-Chọn chức năng công việc
-Xác định những giá trị số, những đại lượng đo để lưu trữ
-Xác định các chiều (thời gian, vị trí, sản phẩm) và đơn vị của mỗi chiều -Định nghĩa mô hình logic và tải vào kho dữ liệu đa chiều hoặc trực tiếp từ các nguồn dữ liệu hoặc thông qua việc lọc và kết hợp những nội dung được lựa chọn của DW hoặc DM.
Những chức năng chính đưa ra với người sử dụng bao gồm:
-Trả lời nhanh những câu truy vấn mở rộng. Những câu trả lời nhanh không làm ngắt quãng sự phân tích và quá trình suy nghĩ khác.
-Những cập nhật tương tác (như đọc-ghi) của cơ sở dữ liệu đa chiều đáp ứng được các ứng dụng dự báo, hướng kế hoạch...
-Phát hiện được những mối quan hệ giữa những yếu tố hoặc những giá trị của các chiều để phát hiện ra những mối quan hệ không ngờ tới.
-Có một mô tơ tính toán đủ mạnh và khả năng phân tích mang tính so sánh: phân hạng, so sánh, tỉ lệ % dẫn tới phân lớp, tính giá trị lớn nhất, nhỏ nhất, giá trị trung bình, dịch chuyển giá trị trung bình...
-Tính toán theo những chiều chéo nhau
-Mở rộng những chức năng cơ bản với những hàm do người sử dụng định nghĩa hoặc phát hiện ra những chức năng mô hình nhúng được.
-Những chức năng tài chính và thống kê tiềm ẩn: chuyển đổi tiền tệ, sự giảm giá, tỉ lệ tiền lãi trong nước, những xu hướng, phân tích những chuỗi thời gian.
-Khoan tới những dữ liệu chi tiết trong DW
-Xoay, khoan sâu, dịch chuyển chiều theo một hoặc nhiều chiều, và những chức năng biểu diễn hiển thị dữ liệu mạnh khác.
Quản trị và quản lí hệ thống với cách thức này đòi hỏi:
• Mô hình dữ liệu khởi tạo phải chọn đúng các chiều và đơn vị của chúng, thấy trước được dữ liệu sẽ được truy nhập như thế nào và việc lựa chọn những phép lọc thích đáng để tải dữ liệu vào từ DW là những vấn đề quan trọng đáng quan tâm.
• Truyền dữ liệu định kì và cập nhật nhiều dữ liệu cùng lúc bởi vì trong khi cơ sở dữ liệu đang được sử dụng thì số lần cập nhật cần phải hạn chế.
• Sự kết hợp, tổng kết và tính toán trước trong quá trình tải dữ liệu vào. • Đào tạo một công nghệ khác và cách sử dụng những kĩ năng mới này. • Viết những ứng dụng mới với một ngôn ngữ độc quyền để mở rộng và cải
thiện chuẩn đầu cuối (giao diện với người sử dụng đầu cuối) của cơ sở dữ liệu.
Một số vấn đề cần quan tâm khi sử dụng cách tiếp cận này:
-Kích cỡ của cơ sở dữ liệu đa chiều được hỗ trợ nhỏ hơn so với một cơ sở dữ liệu quan hệ. Công nghệ sử dụng ma trận thưa - tìm kiếm những phần tử không sử dụng trong ma trận đa chiều, loại bỏ chúng và nén các mảng - được sử dụng để tiết kiệm không gian nhớ. Năng suất được cải thiện, những thông tin tổng, kết hợp cũng được lưu trữ vì vậy nhu cầu lưu trữ là nhỏ hơn.
-Ảnh hưởng phụ của việc lưu trữ dữ liệu ở mức thô (như những dữ liệu tổng, những dữ liệu được tính toán trước và những dữ liệu kết xuất từ những dữ liệu khác) là không thể khoan sâu dữ liệu tới mức chi tiết.
-Truy nhập và an toàn là có sẵn cho các mức cao; không có những ưu tiên dựa trên việc sử dụng hoặc những kiểm soát truy nhập ở các mức con.
-Những thay đổi trong cấu trúc đa chiều đòi hỏi cơ sở dữ liệu đa chiều được tổ chức lại; những phương tiện lưu trữ và sao lưu có sẵn bị hạn chế.
-Cần những ứng dụng đầu cuối đặc biệt hạn chế những khả năng lựa chọn. Các mở rộng ở những ứng dụng đầu cuối của một cơ sở dữ liệu đa chiều không thể được dùng cho một cơ sở dữ liệu đa chiều khác.
Cần điều chỉnh phù hợp cho cơ sở dữ liệu đa chiều và các dịch vụ của OLAP trong các công việc sau:
-Tính toán của những ứng dụng mở rộng với những mô hình và ngữ cảnh What-if. -Các chiều tĩnh và bình đẳng.
-Năng lực đọc-ghi.
-Một mối quan hệ giữa các chiều rất phức tạp. -Tính toán liên quan tới nhiều chiều và nhiều hàng. -Những chức năng tài chính, thống kê và tính toán mạnh.
-Kích cỡ cơ sở dữ liệu chấp nhận được cho các chức năng của công việc.
OLAP quan hệ (Relational OLAP)
Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ. Các dữ liệu được lưu trữ trong những bảng quan hệ và có thể có kích thước hàng trăm Gigabyte. Những hệ ROLAP cung cấp các mô tơ truy vấn cực kỳ linh động bằng việc “chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử
dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu. Những công cụ ROLAP có thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau.
Kiến trúc của ROLAP
Theo cách tiếp cận này, các khối dữ liệu con (Subcube) sẽ được tính toán trước khi đưa vào bảng tổng hợp. Đối với những khối dữ liệu lớn thì không thể xử lý mọi thứ trước được mà chỉ xử lý trước những dữ liệu nào có liên quan chặt chẽ đến các câu truy vấn.
Công việc tiền xử lý trong ROLAP được thực hiện theo hai bước: -Xây dựng các khối dữ liệu con cụ thể hoá từ các bảng tổng hợp.
-Thiết lập các chỉ mục (Index) trong các bảng đó. Việc phân chia không gian giữa hai bước này là rất khó. Nếu chia ra quá nhiều không gian nhỏ cho mỗi chỉ mục thì dẫn đến rất ít các khối con được xử lý trước và ngược lại, nếu để không gian nhớ lớn cho các khối con thì các chỉ mục sẽ giảm hiệu quả.
Câu truy vấn: được sử dụng để lựa chọn (trong SQL), chiều là thuộc tính
trong mệnh đề gộp nhóm hoặc mệnh đề điều kiện Where.
Chỉ số hoá (chỉ mục): để tăng tốc độ xử lý các câu hỏi, chúng ta có thể sử
dụng cấu trúc B-Tree.
ROLAP có những đặc điểm sau:
-Dữ liệu thường xuyên thay đổi: trong một kho chứa nếu dữ liệu hay biến
động và người sử dụng lại đòi hỏi những tổng hợp gần như tức thời, ROLAP sẽ là sự lựa chọn duy nhất. MOLAP phải trích lấy và tổng hợp dữ liệu off_line để nạp vào MDDB, hơn nữa hầu hết các cơ sở dữ liệu đa chiều đều yêu cầu tính toán lại toàn bộ CSDL khi một chiều được thêm vào hoặc một lược đồ tổng hợp thay đổi hoặc dữ liệu mới được thêm vào.
-Khối lượng dữ liệu lớn: Đối với những DW có độ lớn cỡ terabyte, cái giá phải trả cho MOLAP là quá lớn.
-Các dạng truy vấn không được biết trước: ROLAP cho phép truy vấn và tổng hợp từ bất kỳ nguồn dữ liệu tác nghiệp nào.
Mặc dù các dữ liệu được lưu trữ dưới dạng quan hệ nhưng dữ liệu vẫn được thể hiện đối với người sử dụng dưới dạng các chiều của công việc. Để che giấu
Database Server Database Server RDBMS ROLAP Server ROLAP Server Metadata, Request Processing Front-end Tools Front-end Tools SQL Result Set Infor Request Result Set
dạng lưu trữ của dữ liệu, một lớp Metadata ngữ nghĩa được tạo ra. Nhiệm vụ của tầng này là ánh xạ tất cả các chiều tới các bảng quan hệ. Bất kì một sự tổng kết hay kết hợp nào cũng cần tạo ra thêm siêu dữ liệu để cải thiện thời gian trả lời.
Thiết kế OLAP quan hệ bao gồm những bước cơ bản sau:
-Xây dựng một “mô hình đa chiều” sử dụng những kĩ thuật như phi chuẩn, sơ đồ hình sao, sơ đồ hình tuyết rơi hoặc sơ đồ lai giữa 2 loại trên.
-Thêm vào những dữ liệu tổng kết và những dữ liệu kết hợp.
-Phân chia những tập dữ liệu lớn thành những phần nhỏ hơn có khả năng quản lí được để cải thiện năng suất thực hiện.
-Thêm vào những tệp chỉ số mới có tính sáng tạo hoặc dạng bitmap để cải thiện năng suất thực hiện.
-Tạo ra và lưu trữ siêu dữ liệu. Các siêu dữ liệu bao gồm những định nghĩa các chiều, ánh xạ các chiều với các bảng dữ liệu quan hệ tương ứng, những quan hệ phân cấp giữa các chiều, nhóm thông tin, định nghĩa và mô tả những dữ liệu tổng và dữ liệu kết hợp lại, những công thức và những tính toán, quản lí việc sử dụng và nhiều thứ khác nữa.
Các bước để thực hiện một câu truy vấn như sau:
-Khởi tạo công cụ Client sử dụng một khung nhìn đa chiều của dữ liệu.
-Gọi OLAP Server từ công cụ của Client và kiểm tra siêu dữ liệu trong thời gian thực.
-Tạo ra những câu lệnh SELECT từ nhiều bảng, những truy vấn liên quan và đưa tới cơ sơ dữ liệu quan hệ.
-Thực hiện những chức năng đa chiều ví dụ như tính toán và lập công thức, dịch từ các bit sang các mô tả công việc, .... trong kết quả của câu truy vấn cơ sở dữ liệu.
-Trả lại kết quả tới công cụ của Client cho những quá trình xử lí xa hơn và hiển thị hoặc hiển thị ngay lập tức.
Những chức năng được cung cấp cho những người quản trị hệ thống bao gồm:
-Khung nhìn công việc của dữ liệu quan hệ. -Hỗ trợ sự phân cấp theo chiều.
-Những chức năng tính toán, tài chính và thống kê đối với sự mở rộng của người sử dụng
-Khoan sâu dữ liệu tới mức chi tiết -Lựa chọn những công cụ đầu cuối.
-Việc quản trị cơ sở dữ liệu thúc đẩy sự đầu tư vào việc sao lưu, lưu trữ và thiết lập những cơ sở dữ liệu cho những phân tích riêng cụ thể.
-Định hướng dữ liệu sử dụng siêu dữ liệu
-Phân quyền người sử dụng theo nhiều mức để đảm bảo an toàn.
Với công việc quản lí và quản trị hệ thống cần phải thỏa những điều sau :
-OLAP Server không có những thay đổi theo định kì và không cần tải dữ liệu khởi tạo ban đầu vào.
-Dùng chuẩn sao lưu, lưu trữ và các xử lí bảo mật đang tồn tại. -Quản lí, đồng bộ và duy trì tất cả các siêu dữ liệu mới trong DW.
-Quản lí việc sử dụng cho phù hợp với năng suất thực hiện. Việc này có thể ảnh hưởng lớn tới mô hình dữ liệu, những sự phân chia hoặc các mức kết hợp và tính tổng. Công việc điều chỉnh rất phức tạp. Cải thiện năng suất nhờ phi chuẩn các bảng và đánh chỉ số có thể làm tăng thêm kích cỡ và khó tìm kiếm trong cơ sở dữ liệu, vì đòi hỏi công việc duyệt dữ liệu nhiều hơn, tốn nhiều đĩa hơn và nhiều vùng đệm dữ liệu hơn.
Một số vấn đề cần quan tâm khi áp dụng phương pháp này:
-Việc sử dụng sơ đồ hình sao hay sơ đồ hình tuyết rơi, phân chia ra các phần, và sự phi chuẩn của các bảng để cải thiện năng suất ảnh hưởng rất lớn tới tính linh hoạt và khả năng mở rộng của cơ sở dữ liệu quan hệ. Điều này khiến cho việc cập nhật dữ liệu gặp nhiều khó khăn và cần phải cập nhật một khối dữ liệu lớn cùng một lúc.
-Sơ đồ hình sao với sự biến đổi đa dạng, sự kết hợp và sự tổng hợp được thiết kế với giả thiết dữ liệu là tĩnh ngoại trừ khi một khối lớn được tải vào.
-Việc tính toán theo mức hàng đòi hỏi chuyển vị hàng và cột. Thao tác này khó thực hiện thậm chí với những câu lệnh SELECT liên quan tới nhiều bảng.
-Quản lí và duy trì siêu dữ liệu là khó khăn và tốn kém.
Kết hợp cơ sở dữ liệu quan hệ và các dịch vụ của OLAP là cần thiết khi có các yêu cầu sau:
-Những ứng dụng tập trung vào dữ liệu với những nhu cầu hiển thị dữ liệu chi tiết.
-Biểu diễn theo chiều động và thay đổi cốt lõi. -Có khả năng chỉ đọc với yêu cầu ghi là ít nhất.
-Sự tính toán ở mức hàng và giữa các chiều là ít nhất.
-Kích thước cơ sở dữ liệu lớn, mối quan hệ giữa các chiều là đơn giản và khung nhìn theo chiều on-the-fly
Những vấn đề bàn luận ở trên đều với mục tiêu đảm bảo hiệu quả công việc cho người sử dụng, khối lượng dữ liệu ổn định, được quản lý và phù hợp với mục đích. Một số yếu tố khác cần quan tâm bao gồm:
-Giao diện theo mong muốn của người sử dụng -Những chức năng và đặc tính của các công cụ client -Sự nhận thức về các kiến trúc mở và độc quyền.
-Xác định sự lựa chọn nào là tốt nhất để có kế hoạch đầu tư vào Client, Server, cơ sở dữ liệu, các công nghệ đầu cuối, các kĩ năng của người quản trị cơ sở dữ liệu và của người sử dụng đầu cuối.