Trích dữ liệu (Extract)

Một phần của tài liệu Giáo trình Quản lý kho dữ liệu (Nghề Lập trình máy tính) - Tổng cục dạy nghề (Trang 35 - 36)

MÃ BÀI: ITPRG3_11

2.6.1. Trích dữ liệu (Extract)

Đề trích dữ liệu cần quan tâm đến các bước sau:

Xác định dữ liệu nguồn để trích: nguồn dữ liệu cho DW có thể ở các dạng sau:

o Dữ liệu tác nghiệp (Production): tức là các dữ liệu hiện tại đang sử

dụng từ hệ thống OLTP, đang dùng cho các phần mềm ứng dụng như CRM, ERP, SCM... đây là nguồn dữ liệu mà sau này theo chu kỳ ngày, tháng, năm... qui trình tích hợp sẽ trích dữ liệu thường xuyên, đây chính là nguồn dữ liệu để cập nhật mới nhất cho DW.

o Dữ liệu lưu trữ (Archive): tức là các dữ liệu tác nghiệp trong quá khứ

quá trình tích hợp (First Load). Việc tải dữ liệu này sẽ giúp cho DW mang tích lịch sử tốt hơn (dài hơn).

o Dữ liệu bên trong (Internal): tức là các dữ liệu bên trong tổ chức nhưng có tính rời rạc như các bảng tính Excel hay các văn bản...

o Dữ liệu bên ngoài (External): tức là các dữ liệu bên ngồi tổ chức nhưng có liên quan và cần thiết cho DW, nguồn dữ liệu này có thể có được quan việc trao đổi, mua bán, tìm kiếm...

Xác định cách thức tích hợp: việc thực hiện tích hợp có thể theo các cách

sau:

o Sử dụng các ngơn ngũ lập trình cấp cao như C, C+, java, VB, Cobol... để viết ra các phần mềm tích hợp riêng cho tổ chức.

o Sử dụng các các tiện ích đi kèm theo hệ QTCSDL như PL/SQL, T_SQL, Trigger, Sql Loader...

o Mua các cơng cụ tích hợp có sẵn trên thị trường như Data Stage của IBM, Power Builder của Infomatica, Warehouse builder của Oracle, Data Integrator của Business Object...

Một phần của tài liệu Giáo trình Quản lý kho dữ liệu (Nghề Lập trình máy tính) - Tổng cục dạy nghề (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(49 trang)