Chương I Khai thác dữ liệu và xử lý phân tích trực tuyến
2.3. Phương pháp xây dựng kho dữ liệu
Xây dựng kho dữ liệu vừa là một tiến trình cơng việc và cũng đồng thời là một kiến trúc nhằm thực hiện các nội dung như: lựa chọn, chuyển đổi, lưu chuyển, bảo tồn tính tồn vẹn, tích hợp, làm sạch dữ liệu, đưa dữ liệu từ
nhiều nguồn dữ liệu tác nghiệp vào hệ thống quản lý cơ sở dữ liệu để phục vụ các quá trình ra quyết định. Kiến trúc của các kho dữ liệu cung cấp nhiều khả năng mềm dẻo, nhiều khả năng mở rộng để phục vụ cho các ứng dụng hiện có cũng như cho các ứng dụng mới trong tương lai. Kho dữ liệu gồm các thành phần thiết yếu sau:
• Các nguồn dữ liệu tác nghiệp ODS (Operational Data Sources).
• Chuyển đổi và xuất ra dữ liệu (Data Conversion and Extraction).
• Tóm lược và làm giầu dữ liệu (Data Sumaization & Data Enrichment).
• Hệ thống quản lý các CSDL của kho dữ liệu (Database Management System - DBMS).
• Quản lý các siêu dữ liệu.
• Các cơng cụ (Tools) truy nhập và phân tích.
Q trình xây dựng kho dữ liệu có thể bắt đầu bằng việc xây dựng các
Datamart, có nghĩa là sau khi xây dựng xong các Datamart ta tiến hành kết nối, tích hợp chúng với nhau tạo thành kho dữ liệu. Theo cách này, Datamart chính là mơ hình và là bước đầu tiên của quá trình xây dựng kho dữ liệu.
Cách thứ hai, ta có thể xây dựng kho dữ liệu trước sau đó tạo ra các Datamart. Mỗi phương pháp đều có thuận lợi và khó khăn của nó, tùy điều kiện cụ thể ta lựa chọn hay kết hợp các phương pháp cho phù hợp.
Phương pháp phân tích, thiết kế và q trình xây dựng kho dữ liệu có thể được chia thành các giai đoạn, trong mỗi giai đoạn có các bước:
- Giai đoạn khảo sát
Bước 2: Khảo sát, đánh giá hiện trạng hệ thống - Giai đoạn phân tích thiết kế
Bước 3: Phân tích, thiết kế hệ thống và xây dựng mẫu thử nghiệm (Prototype)
- Giai đoạn xây dựng, phát triển hệ thống Bước 4: Triển khai xây dựng hệ thống Bước 5: Khai thác và duy trì hệ thống