thì ta sẽ tiến hành làm sạch dữ liệu. Tiến trình 2.1 đảm nhận nhiệm vụ này.
Dữ liệu tại kho dữ liệu tập trung được tổng hợp từ các công ty con, vì vậy mà nó có rất nhiều lỗi. Trong quá trình xây dựng hệ thống tác nghiệp, chương trình ứng dụng muốn đảm bảo mức độ linh hoạt cho người dùng hoặc vẫn chưa được nâng cấp đầy đủ, vì vậy mà chương trình ứng dụng không hoàn toàn kiểm soát dữ liệu một cách chặt chẽ khi người dùng cuối nhập dữ liệu vào.
Vớ dô : khi nhập thông số về chiều cao của người mua bảo hiểm, người dùng cuối có thể nhập vào giá trị 1.7 với đơn vị ngầm hiểu ở đây là mét, tuy nhiên người dùng cuối cũng có thể nhập vào giá trị 170 với đơn vị ngầm hiểu là cm. Vì vậy nhiệm vụ của tiến trình làm sạch là phải thống nhất được các giá trị này về cùng một đơn vị đo lường, như thống nhất đơn vị đo lường là cm cho chiều cao người mua bảo hiểm thì giá trị đã sử dụng đơn vị đo lường mét phải được sửa đổi.
Ngoài ra, để cho tiện lợi thì ngay bản thân hệ thống dữ liệu tác nghiệp cũng không phải đã tuân theo các tiêu chuẩn chuẩn hóa một cách hoàn toàn mà nó vẫn có thể dư thừa dữ liệu dẫn đến nảy sinh tình trạng xung đột dữ liệu.
Vớ dô : trong bảng lưu dữ liệu về khách hàng có giá trị ngày tháng năm sinh của khách hàng. Tuy nhiên trong bảng hợp đồng của khách hàng cũng lưu cả ngày tháng hợp đồng có hiệu lực và tuổi của khách hàng. Như vậy nếu theo các quy tắc chuẩn hóa thì rõ ràng ở đây đó cú sự dư thừa dữ liệu.
Mặt khác, tính chất của hệ thống tác nghiệp và hệ thống thông tin cũng khác nhau, vì vậy có một số thuộc tính đối với hệ thống tác nghiệp là không quan trọng, dữ liệu có thể không đầy đủ nhưng khi đưa vào hệ thống thông tin thì người dùng cuối lại cần có thông tin này để phân tích, do vậy đây cũng là một trường hợp cần phải xử lý làm sạch.
Vớ dô : trong bảng lưu dữ liệu về khách hàng có thuộc tính giới của khách hàng. Trong hệ thống tác nghiệp, ý nghĩa của thuộc tính này không quá quan trọng, vì vậy nó có thể NULL (và thực tế cũng có khá nhiều trường hợp như vậy xảy ra). Tuy nhiên trong hệ thống thông tin thì người ta lại cần biết thông tin này để có thể tiến hành phân tích, do đó đây cũng là một vấn đề cần xử lý làm sạch trước khi đưa dữ liệu vào data warehouse.
Tiến trình này cũng có thể sử dụng một số bảng tạm trong quá trình xử lý. Dữ liệu bị lỗi thường không nhiều do tính đồng bộ sẵn có của hệ thống dữ liệu, vì vậy dùng bảng tạm vừa có thể đạt được tốc độ nhanh vừa tiết kiệm được bộ nhớ vì đây là công việc phải lặp lại thường xuyên.