1. Thế nào về kho dữ liệu ? Quản lý kho dữ liệu ?– để cho học viên phát biểu trước khi đưa ra các khái niệm chính thức
2.6.1. Trích dữ liệu (Extract)
Đề trích dữ liệu cần quan tâm đến các bước sau:
Xác định dữ liệu nguồn để trích: nguồn dữ liệu cho DW có thể ở các dạng sau:
o Dữ liệu tác nghiệp (Production): tức là các dữ liệu hiện tại đang sử dụng từ hệ thống OLTP, đang dùng cho các phần mềm ứng dụng như CRM, ERP, SCM... đây là nguồn dữ liệu mà sau này theo chu kỳ ngày, tháng, năm... qui trình tích hợp sẽ trích dữ liệu thường xuyên, đây chính là nguồn dữ liệu để cập nhật mới nhất cho DW.
o Dữ liệu lưu trữ (Archive): tức là các dữ liệu tác nghiệp trong quá khứ đã được lưu trữ lại, dữ liệu này sẽ được tải vào DW lần đầu tiên chạy
quá trình tích hợp (First Load). Việc tải dữ liệu này sẽ giúp cho DW mang tích lịch sử tốt hơn (dài hơn).
o Dữ liệu bên trong (Internal): tức là các dữ liệu bên trong tổ chức nhưng có tính rời rạc như các bảng tính Excel hay các văn bản...
o Dữ liệu bên ngoài (External): tức là các dữ liệu bên ngoài tổ chức nhưng có liên quan và cần thiết cho DW, nguồn dữ liệu này có thể có được quan việc trao đổi, mua bán, tìm kiếm...
Xác định cách thức tích hợp: việc thực hiện tích hợp có thể theo các cách sau:
o Sử dụng các ngôn ngũ lập trình cấp cao như C, C+, java, VB, Cobol... để viết ra các phần mềm tích hợp riêng cho tổ chức.
o Sử dụng các các tiện ích đi kèm theo hệ QTCSDL như PL/SQL, T_SQL, Trigger, Sql Loader...
o Mua các công cụ tích hợp có sẵn trên thị trường như Data Stage của IBM, Power Builder của Infomatica, Warehouse builder của Oracle, Data Integrator của Business Object...