InfoSphere DataStage là thành phần tích hợp dữ liệu của IBM InfoSphere Information Server. Nó cung cấp một khung đồ họa để phát triển các công việc di chuyển dữ liệu từ các hệ thống nguồn sang các hệ thống đích. Dữ liệu được chuyển đổi có thể được gửi đến các data warehouse, data mart, và kho dữ liệu vận hành, dịch vụ web, hệ thống nhắn tin thời gian thực và các ứng dụng doanh nghiệp khác. InfoSphere DataStage hỗ trợ các mẫu trích xuất, biến đổi và tải (ETL) và trích xuất, tải và biến đổi (ELT). Nó sử dụng phương thức xử lý song song và kết nối doanh nghiệp để cung cấp một nền tảng thực sự có thể mở rộng.
Với InfoSphere DataStage, ta có thể thực hiện các mục tiêu sau:
- Thiết kế luồng dữ liệu trích xuất thơng tin từ nhiều hệ thống nguồn, chuyển đổi dữ liệu theo yêu cầu và phân phối dữ liệu tới các cơ sở dữ liệu hoặc ứng dụng đích
- Kết nối trực tiếp với các ứng dụng doanh nghiệp dưới dạng nguồn hoặc đích để đảm bảo dữ liệu có liên quan, đầy đủ và chính xác
- Giảm thời gian phát triển và cải thiện tính nhất quán của thiết kế và triển khai bằng cách sử dụng các chức năng dựng sẵn
- Giảm thiểu chu trình phân phối dự án bằng cách làm việc với một bộ công cụ phổ biến trên InfoSphere Information Server
Khóa luận tốt nghiệp
Một số giai đoạn xử lý dữ liệu trong các công việc song song Funnel Stage
Giai đoạn xử lý này giúp sao chép nhiều tập dữ liệu vào một tập dữ liệu đầu ra duy nhất. Nó rất hữu ích trong tình huống muốn tổng hợp dữ liệu từ các nguồn khác nhau (lưu trữ dưới nhiều định dạng khác nhau: .txt, .xml, .csv, database, ...). Những nguồn dữ liệu này sẽ được sử dụng để thực hiện các giai đoạn tiếp theo của công việc hoặc được sử dụng trong các báo cáo, phân tích của người sử dụng.