CHƢƠNG 1 TỔNG QUAN
1. Tổ chức và khai thỏc cơ sở dữ liệu truyền thống
1.2. Kho dữ liệu
1.2.9. Từ Kho dữ liệu đến khai phỏ dữ liệu
1.2.9.1. Sử dụng Kho dữ liệu.
Kho dữ liệu sử dụng cho ba loại ứng dụng sau:
1. Xử lý thụng tin: trợ giỳp truy vấn, phõn tớch thụng tin tĩnh và cơ bản, tạo bỏo cỏo sử dụng crosstabs, bảng, biểu đồ và đồ thị.
2. Xử lý cỏc phõn tớch: Phõn tớch nhiều loại kớch thƣớc của dữ liệu trong Kho dữ liệu. Trợ giỳp cỏc hoạt động cơ bản của xử lý phõn tớch trực tuyến.
3. Khai phỏ dữ liệu (data mining): Khai phỏ tri thức từ cỏc mẫu ẩn. Trợ giỳp cỏc mụ hỡnh phõn tớch xõy dựng và kết hợp, biểu diễn phõn loại và dự bỏo, đƣa ra cỏc kết quả khai phỏ bằng cỏc cụng cụ trực quan.
Define a high-level corporate data model
Data Mart Data Mart
Distributed Data Marts Multi-Tier Data Warehouse Enterprise Data Warehouse Model refinement Model refinement
1.2.9.2. Cụng nghệ xử lý phõn tớch trực tuyến dựng cho khai phỏ dữ liệu.
Làm thế nào để khai phỏ dữ liệu gắn liền xử lý thụng tin với xử lý phõn tớch trực tuyến (On-line analytical processing-OLAP). Xử lý thụng tin dựa trờn truy vấn cú thể tỡm thấy cỏc thụng tin hữu ớch. Tuy nhiờn, những cõu trả lời đƣợc tạo ra bởi query lấy thụng tin trực tiếp chứa trong cơ sở dữ liệu hoặc cỏc bảng tớnh toỏn bởi việc tập hợp cỏc chức năng, chỳng khụng phản hồi lại thụng tin từ cỏc mẫu tinh hoặc cỏc thụng tin cú tớnh quy tắc trong cơ sở dữ liệu. Do đú, xử lý thụng tin khụng phải là khai phỏ dữ liệu.
Xử lý thụng tin trực tuyến trở thành cỏc bƣớc đúng cho khai phỏ dữ liệu từ khi nú cú thể điều khiển tổng kết thụng tin từ Kho dữ liệu.
Cỏc chức năng của OLAP và khai phỏ dữ liệu cú thể nhỡn nhận bằng hai phần phõn biệt: OLAP tổng kết hoặc tập hợp dữ liệu bằng cỏc cụng cụ để phõn tớch dữ liệu một cỏch đơn giản, trong khi khai phỏ dữ liệu cho phộp khai phỏ tự động cỏc mẫu và phỏt hiện tri thức ẩn trong số lƣợng lớn cỏc dữ liệu. Cụng cụ OLAP cú mục tiờu đơn giản hoỏ và trợ giỳp tƣơng tỏc phõn tớch dữ liệu, trong khi đú mục tiờu của cụng cụ khai phỏ dữ liệu là tự động xử lý đƣợc càng nhiều càng tốt trong khi vẫn cho phộp ngƣời sử dụng hƣớng dẫn xử lý(vừa tự động vừa cú sự can thiệp của con ngƣời). Với phƣơng thức kết hợp làm việc nhƣ vậy, khai phỏ dữ liệu tiến một bƣớc xa hơn xử lý phõn tớch trực tuyến truyền thống.
Từ khi hệ thống OLAP cú thể biểu diễn mụ tả chung về dữ liệu trong Kho dữ liệu, chức năng của OLAP dƣờng nhƣ cho ngƣời sử dụng trực tiếp tổng kết và so sỏnh dữ liệu. Tuy vậy theo cỏch nhỡn này, khai phỏ dữ liệu vẫn hoạt động bao trựm hơn xử lý của OLAP vỡ khai phỏ dữ liệu khụng chỉ xử lý tổng kết và so sỏnh dữ liệu mà cũn phõn tớch kết hợp, phõn lớp, dự đoỏn, bú cụm và hàng loạt cỏc bài toỏn phõn tớch khỏc.
Khai phỏ dữ liệu khụng bị giam cầm trong khuụn khổ phõn tớch dữ liệu trong Kho dữ liệu. Nú cú thể phõn tớch dữ liệu tồn tại ở dạng chi tiết hơn là phõn tớch dữ liệu đó đƣợc tổng kết từ Kho dữ liệu.
Từ khi khai phỏ dữ liệu cung cấp chế độ hoạt động tự động và sõu hơn OLAP thỡ nú đó là sự mong đợi của một số lƣợng lớn cỏc ứng dụng.
1.2.9.3. Từ xử lý phõn tớch trực tuyến đến khai phỏ phõn tớch trực tuyến.
Khai phỏ phõn tớch trực tuyến (On-line analytical Mining-OLAM) dựng tớch hợp OLAP , khai phỏ dữ liệu và khai phỏ tri thức trong rất nhiều cỏc cơ sở dữ liệu cú kớch thƣớc khỏc nhau.
* Lý do để dựng OLAM:
- Tạo dữ liệu chất lƣợng cao trong Kho dữ liệu (Kho dữ liệu chứa dữ liệu tớch hợp, thớch đỏng và sạch).
- Cú khả năng xử lý thụng tin xung quanh kiến trỳc của Kho dữ liệu. - Dựa trờn cơ sở OLAP nhƣng phõn tớch mang tớnh chất thỏm hiểm
- Lựa chọn trực tuyến cỏc chức năng khai phỏ dữ liệu: tớch hợp và hoỏn đổi cỏc chức năng, thuật toỏn và bài toỏn khai phỏ dữ liệu.
* Kiến trỳc của OLAM [9]
Hỡnh 1.3. Kiến trỳc OLAM Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API
Data Cube API
Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&Integration Filtering Databases