Hợp nhất dữ liệu - Data Consolidation lấy dữ liệu từ nhiều hệ thống nguồn và tích hợp vào trong một kho dữ liệu, kho dữ liệu này có thể đƣợc sử dụng cho việc sắp xếp và phân tích nhƣ trong data warehouse, hoặc nó thể hoạt động nhƣ một nguồn dữ liệu cho các ứng dụng nhƣ trong một kho dữ liệu tác nghiệp.
Với kỹ thuật Data Consolidation thƣờng có độ trễ (delay) giữa thời gian cập nhật xảy ra trong các hệ thống nguồn và thời gian cập nhật xuất hiện trong hệ thống đích. Phụ thuộc vào các yêu cầu kinh doanh, độ trễ này có thể là một vài giây, vài giờ, hoặc nhiều ngày. Thuật ngữ 'gần thời gian thực' thƣờng đƣợc sử dụng để mô tả dữ liệu đích mà có độ trễ thấp, khoảng vài giây, phút hoặc giờ. Dữ liệu với độ trễ gần nhƣ là zero là đƣợc biết đến nhƣ dữ liệu thời gian thực, nhƣng điều này là rất khó để đạt đƣợc khi sử dụng Data Consolidation. Kho dữ liệu đích chứa đựng dữ liệu có độ trễ cao đƣợc xây dựng sử dụng các ứng dụng tích hợp dữ liệu theo khối (batch) mà việc kéo|đẩy (pull|push) dữ liệu từ các hệ thống nguồn tại các khoảng thời gian đã đƣợc lập lịch. Việc kéo dữ liệu này tiếp cận sử dụng các truy vấn dữ liệu mà thực hiện theo chu kỳ để lấy đƣợc dữ liệu nguồn. Mặc dù các truy vấn đó lấy đƣợc phiên bản hiện tại của dữ liệu, nhƣng chúng sẽ không phản ánh đƣợc sự thay đổi từ khi dữ liệu cuối cùng đƣợc lấy về - một bản ghi nguồn sẽ đƣợc cập nhật vài lần giữa các khoảng thời gian.
Kho dữ liệu đích có độ trễ thấp đƣợc cập nhật bởi các ứng dụng tích hợp dữ liệu trực tuyến, nó liên tục nắm bắt để lấy và đẩy dữ liệu thay đổi tới kho dữ liệu đích
thuật CDC - Changed Data Capture thƣờng đƣợc sử dụng để thực hiện việc này. Trong trƣờng hợp này tác vụ 'capture' sẽ trích xuất tất cả dữ liệu thay đổi mà xảy ra trong dữ liệu nguồn. Mô hình hợp nhất Pull và Push có thể sử dụng cùng với nhau - có thể là một ứng dụng đẩy (push) trực tuyến để tích lũy dữ liệu thay đổi trong khu vực chuẩn bị dữ liệu (staging area) mà đã đƣợc truy vấn tại các khoảng thời gian đƣợc lập lịch bởi một ứng dụng kéo (pull) theo khối. Điều này rất là quan trọng để thấy rõ rằng mô hình đẩy là mô hình điều khiển theo sự kiện và mô hình kéo là dựa theo yêu cầu. xem hình vẽ.
Hình 8: Mô hình đẩy và kéo của Data Consolidation
Các ứng dụng doanh nghiệp xử lý kho dữ liệu hợp nhất có thể truy vấn, sắp xếp, và phân tích dữ liệu trong kho. Chúng không thể luôn cập nhật đƣợc các dữ liệu đã hợp nhất bởi vì vấn đề về động bộ hóa giữa các cập nhật và các hệ thống nguồn. Tuy nhiên, một số sản phẩm về tích hợp dữ liệu mang đến một khả năng đó là việc cung cấp khả năng để xử lý các xung đột dữ liệu có thể xảy ra giữa dữ liệu đã đƣợc cập nhật trong kho dữ liệu đã hợp nhất và các hệ thống nguồn. Một số các ứng dụng cập nhật kho dữ liệu đƣợc hợp nhất và định tuyến các thay đổi trở về các hệ thống nguồn. Điểm nổi bật của hợp nhất dữ liệu là nó cho phép khối lƣợng lớn dữ liệu đƣợc biến đổi (cấu trúc lại, làm cho phù hợp, làm sạch, và/hoặc kết hợp lại) bởi vì nó xuất phát từ các hệ thống nguồn đến kho dữ liệu đích. Điểm hạn chế là các tài nguyên máy tính yêu cầu đƣợc hỗ trợ cho quá trình kết hợp dữ liệu và dung lƣợng ổ đĩa yêu cầu cần hỗ trợ kho dữ liệu đích phải đƣợc đảm bảo.
Kết hợp dữ liệu là cách tiếp cận chính, đƣợc sử dụng bởi các ứng dụng data warehouse để xây dựng và duy trì một kho dữ liệu quan hệ và một data warehouse doanh nghiệp. Kết hợp dữ liệu cũng có thể đƣợc sử dụng các data mart phụ thuộc, nhƣng trong trƣờng hợp này quá trình kết hợp sử dụng một nguồn dữ liệu đơn (có nghĩa là data warehouse doanh nghiệp) trong môi trƣờng data warehouse công nghệ ETL (extract, transform, and load) là một trong nhiều công nghệ phổ biến thƣờng đƣợc dùng để hỗ trợ hợp nhất dữ liệu. Công nghệ hợp nhất dữ liệu khác là ECM (enterprise content management). Phần lớn các giải pháp ECM tập trung vào hợp nhất và quản lý dữ liệu không cấu trúc nhƣ là các tài liệu, báo cáo và các trang web.